CN103761309B - 一种运营数据处理方法及系统 - Google Patents

一种运营数据处理方法及系统 Download PDF

Info

Publication number
CN103761309B
CN103761309B CN201410032158.7A CN201410032158A CN103761309B CN 103761309 B CN103761309 B CN 103761309B CN 201410032158 A CN201410032158 A CN 201410032158A CN 103761309 B CN103761309 B CN 103761309B
Authority
CN
China
Prior art keywords
data
real
batch
time
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410032158.7A
Other languages
English (en)
Other versions
CN103761309A (zh
Inventor
洪松
敖锦蓉
何鸿凌
舒琴
蔡柱昌
曹燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Shenzhen Co Ltd filed Critical China Mobile Shenzhen Co Ltd
Priority to CN201410032158.7A priority Critical patent/CN103761309B/zh
Publication of CN103761309A publication Critical patent/CN103761309A/zh
Application granted granted Critical
Publication of CN103761309B publication Critical patent/CN103761309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种运营数据处理方法及系统。具体来说,提供一种基于流式计算与批量计算的双引擎经营分析系统的运营数据处理方法及系统。在系统架构中设置流式计算引擎(22),增强了数据的实时处理能力,并在数据仓库(23)的基础上整合分布式文件系统(21)以及批量计算引擎(24),用于非结构化数据、大批量数据的存储与计算,增强了对大数据的存储与分析能力,可提供支持TB、甚至PB级规模数据存储和大数据批量处理能力。同时使用数据仓库(23)处理结构化数据,还可结合微批处理方法处理微批量实时数据,进一步完善了实时数据处理机制。

Description

一种运营数据处理方法及系统
技术领域
本发明涉及通信领域,更具体地说,涉及一种运营数据处理方法及系统。
背景技术
现有经营分析系统一般采用单一的数据仓库提供数据处理能力,通过数据仓库提供的ETL工具进行数据的抽取、加载和转换,之后再利用数据仓库的数据分析和关联处理能力应对前端业务需求。传统数据仓库厂商的产品基于关系模型的高性能数据查询和分析,主要处理结构化数据的高性能查询和分析;成熟内建数据挖掘算法,并提供成熟的报表工具和数据访问接口,目前已经在银行、电信等具有大量数据的行业广泛使用。但随着移动互联网的迅速发展,大量由互联网产生的非结构化数据需要分析和处理,但企业级数据仓库不适合非结构化数据处理;海量数据规模下,数据仓库在大数据的存储和分析方面都显得能力不足;除此之外,传统数据仓库对于实时需求的处理能力不足,无法支持实时性应用。
面对移动互联网和大数据时代的挑战,经营分析系统的服务对象越来越广泛、业务量、数据量越来越大,经营分析系统需要对内容、音频、文本信息、视频、图片等非结构化的海量的数据信息进行有效分析,这些数据难以像用户资料、账单一样纳入数据仓库进行批量处理,传统数据仓库无法处理这些新型的业务数据,Hadoop的MapReduce的批处理方式在某些情况下也不适合处理这种类型的数据,并且在及时性和处理效率方面,传统数据仓库存在天生的缺陷。
部分企业尝试在经营分析系统中通过小批次处理(Micro-batch)的方法来解决上述处理处理效率和及时性的问题,但是这些方案都是基于原有批处理的思路解决实时处理的问题,这种过渡性的解决方案不能从本质上满足数据实时处理的需求,随着数据量的极速膨胀,这种方案有其局限性。
随着移动互联网的迅猛发展,用户数据正在以几何级数迅猛增长。由于传统数据仓库的扩展需要企业级硬件的的支持,且很难做到水平线性扩展,因此传统数据仓库的扩展能力不足,不能支撑迅猛增长的数据的存储。
现有技术中的流式计算产品并没有与经营分析系统自身特点和架构设计特点进行整合的应用案例。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种运营数据处理方法及系统。
该方法及系统提供了流式计算技术在经营分析系统的技术和架构落地实现,用于解决非结构化数据的实时业务数据、海量数据的实时分析、数据处理的效率和及时性的问题,同时解决海量数据的存储和分析问题。
本发明解决其技术问题所采用的技术方案是:提供一种运营数据处理方法。
优选地,本发明的运营数据处理方法包括以下步骤:
S1:运维管理中心(5)根据需要确定要调用的数据应用装置(4)的数据应用模块及数据获取装置(1)需要获取的数据;
S2:所述运维管理中心(5)控制所述数据获取装置(1)中的实时获取模块(11)获取实时数据,并控制数据获取装置(1)中的批量获取模块(12)批量获取非实时数据,所述数据获取装置(1)中的预处理模块(13)对获取的实时数据与非实时数据进行预处理,将所述实时数据与非实时数据进行格式标准化,并将非实时数据中的结构化数据与实时数据中的结构化数据传输到数据处理装置(2)的分布式文件系统(21)中,并根据业务需要,把所述数据获取装置(1)获取的数据中的相应数据传输到数据处理装置(2)的流式计算引擎(22)中;
S3:数据处理装置(2)中的分布式文件系统(21)对其正常运行需要的辅助软件系列进行软件系统集成,并将其获取的非实时数据中的非结构化数据进行存储,数据处理装置(2)中的数据仓库(23)将其获取的结构化数据进行存储;
S4:数据处理装置(2)中的在线数据分析模块(25)控制流式计算引擎(22)对传输到流式计算引擎(22)中的数据进行流式计算、控制数据仓库(23)对所述结构化数据中的实时营销数据进行在线数据分析,数据处理装置(2)中的离线数据分析模块(26)控制所述数据仓库(23)采用微批处理方法对其中存储的所述结构化数据中的非实时数据进行离线数据分析,控制批量计算引擎(24)采用批处理方法对所述分布式文件系统(21)存储的非实时数据中的非结构化数据进行离线数据分析;所述数据处理装置(2)将经所述流式计算引擎(22)、数据仓库(23)、批量计算引擎(24)计算后的全部数据传输到数据通信装置(3);
S5:数据通信装置(3)将经过所述数据处理装置(2)处理后的数据传输到数据应用装置(4);
S6:数据应用装置(4)的数据应用模块(41、42、43)应用接收的数据提供数据应用服务。
优选地,所述步骤S1中,所述运维管理中心(5)根据所述数据应用装置(4)的数据应用模块的需要确定所述数据获取装置(1)需要获取的数据。
优选地,所述非实时数据中的结构化数据包括移动通信业务运营系统的经营数据。
优选地,所述非实时数据中的非结构化数据包括移动通信网元侧的日志、信令、互联网数据。
优选地,所述步骤S4中的批量计算引擎(24)采用Hadoop技术处理数据。
一种运营数据处理系统,包括数据获取装置(1)、数据处理装置(2)、数据通信装置(3)、数据应用装置(4)以及用于综合控制各装置的运维管理中心(5),所述数据获取装置(1)与所述数据处理装置(2)通信连接,所述数据处理装置(2)与所述数据通信装置(3)通信连接,所述数据通信装置(3)与所述数据应用装置(4)通信连接,所述数据获取装置(1)、数据处理装置(2)、数据通信装置(3)、数据应用装置(4)均与所述运维管理中心(5)通信连接;
其特征在于,所述数据获取装置(1)包括用于数据预处理的预处理模块(13)、用于获取实时数据的实时获取模块(11)与用于获取非实时数据的批量获取模块(12),所述数据处理装置(2)包括用于进行非结构化数据存储的分布式文件系统(21),用于进行流式计算的流式计算引擎(22)、用于进行存储结构化数据存储与计算的数据仓库(23)、基于所述分布式文件系统的用于计算大批量数据的批量计算引擎(24)、用于进行在线数据分析的在线数据分析模块(25)与用于进行离线数据分析的离线数据分析模块(26),所述数据应用装置(4)包括多个应用模块,所述应用模块用于充当人机交互接口,提供应用服务。
优选地,所述在线数据分析模块(25)包括用于控制所述流式计算引擎(22)、数据仓库(23)以及批量计算引擎(24)进行实时数据处理的实时处理单元(251),所述离线数据分析模块(26)包括用于控制所述数据仓库(23)批量处理少量数据的微批处理单元(261)与用于控制所述批量计算引擎(24)批量处理大量数据的批处理单元(262)。
优选地,所述数据通信装置(3)包括服务总线。
优选地,所述数据应用装置(4)包括用于提供测试开发服务的开发与调试工具模块(41)、用于提供数据下载服务的数据市场模块(42)以及用于提供数据查询服务的数据地图模块(43)。
本发明提供一种基于流式计算与批量计算的双引擎经营分析系统的运营数据处理方法及系统架构。在架构中设置流式计算引擎(22),增强了数据的实时处理能力,并在数据仓库(23)的基础上整合分布式文件系统(21)以及批量计算引擎(24),用于非结构化数据、大批量数据的存储与计算,增强了对大数据的存储与分析能力,可提供支持TB、甚至PB级规模数据存储和大数据批量处理能力。同时使用数据仓库(23)处理结构化数据,还可结合微批处理方法处理微批量实时数据,进一步完善了实时数据处理机制。
附图说明
图1是本发明较佳实施例的运营数据处理方法的流程图;
图2是本发明较佳实施例的运营数据处理系统的结构图;
图3是本发明较佳实施例的运营数据处理系统的的组网部署架构之一的组网拓扑图;
图4是本发明另一较佳实施例的运营数据处理系统的的组网部署架构之一的组网拓扑图;
图5是本发明又一较佳实施例的运营数据处理系统的的组网部署架构之一的组网拓扑图;
图6是本发明较佳实施例的经营分析系统工作方法的流程图。
具体实施方式
下面结合附图及实施例对本发明作进一步说明:
如图1所示,为本发明较佳实施例提供运营数据处理方法的流程图。该方法包括如下步骤:
S1:经营分析系统的运维管理中心5根据需要确定要调用的数据应用装置4的数据应用模块及数据获取装置1需要获取的数据。
本实施例中可根据运营业务的实际需求,如实时营销类业务、实时服务类业务、实时监控类业务等,确定要调用的数据应用装置4的数据应用模块,对于各类业务在数据应用装置4中均相应地设置有与其相对应的模块,运维管理中心5可根据业务的种类调用其相对应的模块,这一点在图2的介绍中有详细说明,在此不再赘述。进而根据业务种类及相应模块的需要,在每个业务子类中确定数据获取装置1需要获取的数据,完成步骤S1。
S2:运维管理中心5控制数据获取装置1中的实时获取模块11获取实时数据,具体地,实时数据主要包括用于实时营销、分析的数据,例如通过各基站中转发送的短信的实时数量,该数据会随着时间的变化而一直更新。并控制数据获取装置1中的批量获取模块12批量获取非实时数据,一般来说,非实时数据包括一些时效性不强的历史数据,不随时间的变化而更新,例如通过各基站中转发送的短信数量的历史数据。
该步骤中,数据获取装置1把数据从其他移动支撑系统如BOSS、BOMC的数据采集到经营分析系统,数据获取装置1中的预处理模块13对数据获取装置1获取的实时数据与非实时数据进行预处理,将实时数据与非实时数据进行格式标准化,将各个支撑系统采集进来的非标准化数据(格式、含义、字段)按照协议转换为经营分析系统能够识别的数据,并将非实时数据中的结构化数据与实时数据中的结构化数据传输到数据处理装置2的分布式文件系统21中,并根据业务需要,把数据获取装置1获取的数据中的相应数据传输到数据处理装置2的流式计算引擎22中。
S3:数据处理装置2中的分布式文件系统21对其正常运行需要的辅助软件系列进行软件系统集成,并将其获取的非实时数据中的非结构化数据进行存储,数据处理装置2中的数据仓库23将其获取的结构化数据进行存储。
作为较佳实施例,存储层的作用是存储经营分析系统的数据。这些数据种类很多,来源多,比如BOSS侧来的业务经营数据,网元侧来的日志、信令、互联网数据。在传统技术中,这些数据统一存到数据仓库中。本发明优选实施例的系统架构在数据仓库23中加入Hadoop,Hadoop的存储使用Hdfs(分布式文件系统),这也就是组成存储层的主要系统。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以可靠、高效、可伸缩的方式进行数据处理。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性,Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本,与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
本发明较佳实施例的分布式文件系统21的运转需要zookeeper、消息队列等一系列辅助软件,所以在本步骤中进行软件系统集成,将以上的一系列辅助软件进行系统集成。为将部分非结构化数据存储在本实施例的分布式文件系统21中作好准备,而对于BOSS侧来的业务数据,主要还是将其存储到本发明优选实施例的数据仓库23中。
S4:数据处理装置2中的在线数据分析模块25控制流式计算引擎22对传输到流式计算引擎(22)中的数据进行流式计算、控制数据仓库23对所述结构化数据中的实时营销数据进行在线数据分析,数据处理装置2中的离线数据分析模块26控制数据仓库23采用微批处理方法对其中存储的所述结构化数据中的非实时数据进行离线数据分析,作为优选实施方式,具体可采用小批次处理(Micro-batch)的方法。控制批量计算引擎24采用批处理方法对分布式文件系统21存储的非实时数据中的非结构化数据进行离线数据分析,作为优选实施例,批量计算引擎24采用Hadoop的MapReduce的处理方式;数据处理装置2将经所述流式计算引擎22、数据仓库23、批量计算引擎24计算后的全部数据传输到数据通信装置3。
本申请优选实施方式利用流式计算引擎22的实时处理能力、批量计算引擎24中Hadoop的大规模数据处理能力,以及数据仓库23的两者兼顾的数据处理能力,分别向在线数据分析模块25中的实时处理单元251和离线数据分析模块26中的批处理单元262以及微批处理单元261提供数据处理服务。实时处理单元251作为子系统或模块存在于原系统数据层,结合批处理单元262与微批处理单元261,形成双引擎架构,分别处理实时处理需求和批处理需求,解决实时性要求高的处理分析请求的同时,还提供大规模批量数据处理能力。
S5:数据通信装置3将经过所述数据处理装置2处理后的数据传输到数据应用装置4。
作为优选实施方式,该步骤中,处理后的数据从数据层通过服务总线传输到应用层。
S6:数据应用装置4的数据应用模块应用接收的数据提供数据应用服务,作为优选实施方式,可包括开发调试数据服务,用于为经营分析系统开发与调试软件提供数据服务、数据市场服务,用于提供面向用户的消费性的数据应用,用户可通过客户终端付费下载该应用、数据地图服务,用于提供导航定位等服务。
该方法提供了流式计算技术在经营分析系统的技术和架构落地实现,解决了现有技术很难解决的非结构化数据的实时业务数据、海量数据的实时分析、数据处理的效率和及时性的问题,同时解决了海量的结构化数据的存储和分析问题。
如图2所示为为本发明较佳实施例提供的运营数据处理系统的结构图。本发明较佳实施例提供的运营数据处理系统具体包括:
数据获取装置1、数据处理装置2、数据通信装置3、数据应用装置4以及运维管理中心5。数据获取装置1与数据处理装置2通信连接,数据处理装置2与数据通信装置3通信连接,数据通信装置3与数据应用装置4通信连接,数据获取装置1、数据处理装置2、数据通信装置3、数据应用装置4均与运维管理中心5通信连接。
数据获取装置1用于采集获取数据。数据获取装置1包括预处理模块13,用于数据预处理。实时获取模块11,用于获取实时数据;批量获取模块12,用于获取非实时数据。
作为优选实施方式,数据获取装置1将其他移动支撑系统如BOSS、BOMC等的数据采集到经营分析系统中以供后续处理。
数据处理装置2,用于对采集的数据进行存储以及计算分析。
数据处理装置2包括分布式文件系统21,用于进行非结构化数据存储。流式计算引擎22,用于进行流式计算;数据仓库23,用于结构化数据的存储与计算。批量计算引擎24,其基于分布式文件系统21,用于计算大批量数据。在线数据分析模块25,用于进行在线数据分析;离线数据分析模块26,用于进行离线数据分析。
作为优选实施方式,数据处理装置2中的数据仓库23可选用传统数据仓库提供商的企业级数据仓库产品。本发明优选实施例的系统架构的数据处理装置2在数据仓库23中加入Hadoop,Hadoop的存储使用分布式文件系统21,这也就是组成存储层的主要系统,与数据仓库23共同构成存储层。同时分布式文件系统21的运转需要zookeeper、消息队列等一系列辅助软件,所以在进行数据存储与处理前先进行软件系统集成,将以上的一系列辅助软件进行系统集成。
其中,在线数据分析模块25包括实时处理单元251。实时处理单元251用于控制流式计算引擎22、数据仓库23以及批量计算引擎24实时处理数据。离线数据分析模块26包括微批处理单元261、批处理单元262。微批处理单元261用于控制数据仓库23批量处理少量数据,批处理单元262用于控制批量计算引擎24批量处理大量数据。
作为较佳实施例,数据处理装置2中的离线数据分析模块26的微批处理单元261控制数据仓库23采用微批处理方法对其中存储的结构化数据中的非实时数据进行离线数据分析,具体可采用小批次处理(Micro-batch)方法。离线数据分析模块26的批处理单元262控制批量计算引擎24采用批处理方法对分布式文件系统21存储的非实时数据中的非结构化数据进行离线数据分析,作为优选实施方式,批量计算引擎24采用Hadoop的MapReduce的处理方式。
作为进一步的实施方式,实时处理单元251主要用于处理业务相关数据,实时处理单元251处理的数据可包括数据仓库23的数据(实时营销类)、也可以是hadoop的数据(实时流量提醒),实时处理后的数据一般不进行存储,而是直接通过数据通信装置3发给数据应用装置4的相关数据应用模块进行营销、预警、监控等。数据仓库23主要用于做统计报表,除此之外,还是移动KPI的主要来源。批量计算引擎24使用hadoop的并行计算能力,主要做离线的统计分析。
作为优选实施方式,业务支撑系统的业务数据等结构化数据存到数据仓库23中,如话单、交易数据等。而信令、互联网日志类非结构化数据数据存到分布式文件系统21中。
作为较佳实施例,数据通信装置3由服务总线组成,通过服务总线将数据处理装置2的数据传输到数据应用装置4。
作为较佳实施例,数据应用装置4可包括多个应用模块,可由运营业务的实际需要由技术人员自主设计研发应用模块并进行添加。数据应用装置4可供运维管理中心5根据运营业务的实际需求,如实时营销类业务、实时服务类业务、实时监控类业务等,确定要调用的数据应用装置4的数据应用模块,对于各类业务在数据应用装置4中均相应地设置有与其相对应的模块,运维管理中心5可根据业务的种类调用其相对应的模块。作为进一步实施方式,本实施例中的数据应用装置4可包括开发与调试工具模块41、数据市场模块42、数据地图模块43。其中,开发与调试工具模块41用于提供测试开发服务,数据市场模块42用于提供数据下载服务,数据地图模块43用于提供数据查询服务。
如图3所示为本发明较佳实施例提供的运营数据处理系统的组网部署架构之一的组网拓扑图。
该拓扑图是如图2所示的运营数据处理系统架构中的流式计算引擎22的拓扑结构,其中主节点A由多台内置大容量硬盘通用X86架构服务器构成,其中一台服务器A1用作控制节点,其他服务器A2、A3、A4…用作计算节点,扩展节点B由多台与主节点A硬件配置相同的服务器B1、B2、B3、B4…构成。各服务器磁盘存储构成NFS共享文件系统S。各个服务器的存储互不共享,数据存放至本地硬盘。网络交换以一台千兆网以太交换机C为核心,构成基础网络环境,链接所有服务器设备,负责网络环境中的设备内联和外联。
如图4所示为本发明另一较佳实施例提供的运营数据处理系统的的组网部署架构之一的组网拓扑图。
该拓扑图是如图2所示的运营数据处理系统架构中的批量计算引擎24的拓扑结构,其中主节点D由多台内置大容量硬盘通用X86架构服务器D1、D2、D3、D4…构成,其中一台服务器D1用作控制节点,其他服务器D2、D3、D4…用作计算节点,扩展节点E由多台与主节点D硬件配置相同的服务器E1、E2、E3、E4…构成。各个服务器的存储互不共享,数据存放至本地硬盘。网络交换由一台千兆网以太交换机G为核心构成的基础网络环境,链接所有服务器设备,负责网络环境中的设备内联和外联。
如图5所示为本发明又一较佳实施例提供的运营数据处理系统的组网部署架构之一的组网拓扑图。
该拓扑图是如图2所示的运营数据处理系统架构中的批量计算引擎24的拓扑结构,其中主节点H由多台内置大容量硬盘通用X86架构服务器H1、H2、H3、H4…构成,不区分控制节点和计算节点,扩展节点I由多台与主节点H硬件配置相同的服务器I1、I2…构成。接口文件加载服务器J采用X86架构服务器J1、J2负责数据的抽取、加载、转换(ETL)。网络交换由万兆网以太交换机G1、G2为核心构成的基础网络环境,链接所有服务器设备,负责网络环境中的设备内联和外联。
如图6所示为本发明较佳实施例的经营分析系统工作方法的流程图。
该方法开始于步骤S100,根据实时业务需求的特点,确定实时处理的业务需求模型。作为较佳实施例,可包括:实时营销类、实时服务类、实时监控类等模型,进而在每个子类中确定实时业务需求的应用场景,完成步骤S100。
步骤S101,建立经营分析系统的评估模型;作为较佳实施例,可建立针对功能评估、性能评估、扩展性评估、故障条件下的可用性评估、与正常状态下的易用性评估的评估模型。
步骤S102,确定基于经营分析系统的流式计算产品选型以及引入流式计算的经营分析系统架构;作为优选实施方式,可选择基于X86通用硬件平台的流式计算技术和产品,比如Facebook的Puma、Twitter的Storm、Yahoo的S4,以及IBM、Sybase、Informatic公司的相关流式计算产品。这些产品都是针对特定领域的实时需求而设计出的一种可扩展的高效数据处理架构,目前已经在证券、金融、医疗、政府、互联网等行业得到广泛应用。
作为较佳实施例,可根据这些评估模型以及经营分析系统的特性,针对选定的流式计算产品的技术特性和特点,安排评估进度,部署并开展评估。
步骤S103,根据评估实施后得到的评估结果,汇总分析,评估流式计算产品对业务支撑系统的效果,完成步骤S103。
步骤S104,通过前步结论,结合经营分析系统架构设计特点,在架构层面确定实时处理平台在经分系统中的位置以及与周边系统的关系,确定结合批处理和实时处理的双引擎架构设计方法,完成步骤S104。
作为较佳实施例,本发的经营分析系统的评估可包括功能评估、性能评估、压力和稳定性评估、扩展性评估、故障条件下的可用性评估、与正常状态下的易用性评估等。
具体地,功能评估可包括功能模型评估、处理模型评估、部署模型评估、交互模型评估、数据模型评估、时序模型评估。性能评估可包括经营分析系统的网络端到端延迟评估与数据吞吐量评估。压力和稳定性评估可包括压力评估和稳定性评估。扩展性评估具体可分为节点收缩能力评估,即考察节点是否可收缩,以及可扩展性评估,也即考察节点扩展能力。故障条件下的可用性评估包括网络故障下的可用性评估、节点故障下的可用性评估与节点故障后的可恢复性评估。易用性评估包括互联网日志管理能力评估与集群状态图形化监控。
本发明提供一种基于流式计算与批量计算的双引擎经营分析系统的运营数据处理方法及系统架构。在架构中设置流式计算引擎22,增强了数据的实时处理能力,并在数据仓库23的基础上整合分布式文件系统21以及批量计算引擎24,用于非结构化数据、大批量数据的存储与计算,增强了对大数据的存储与分析能力,可提供支持TB、甚至PB级规模数据存储和大数据批量处理能力。同时使用数据仓库23处理结构化数据,还可结合微批处理方法处理微批量实时数据,进一步完善了实时数据处理机制。
以上所述仅为本发明的较佳实施例而已,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等同替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims (9)

1.一种运营数据处理方法,其特征在于,包括以下步骤:
S1:运维管理中心(5)根据需要确定要调用的数据应用装置(4)的数据应用模块及数据获取装置(1)需要获取的数据;
S2:所述运维管理中心(5)控制所述数据获取装置(1)中的实时获取模块(12)获取实时数据,并控制数据获取装置(1)中的批量获取模块(12)批量获取非实时数据,所述数据获取装置(1)中的预处理模块(13)对获取的实时数据与非实时数据进行预处理,将所述实时数据与非实时数据进行格式标准化,并将非实时数据中的结构化数据与实时数据中的结构化数据传输到数据处理装置(2)的分布式文件系统(21)中,并根据业务需要,把所述数据获取装置(1)获取的数据中的相应数据传输到数据处理装置(2)的流式计算引擎(22)中;
S3:数据处理装置(2)中的分布式文件系统(21)对其正常运行需要的辅助软件系列进行软件系统集成,并将其获取的非实时数据中的非结构化数据进行存储,数据处理装置(2)中的数据仓库(23)将其获取的结构化数据进行存储;
S4:数据处理装置(2)中的在线数据分析模块(25)控制流式计算引擎(22)对传输到流式计算引擎(22)中的数据进行流式计算、控制数据仓库(23)对所述结构化数据中的实时营销数据进行在线数据分析,数据处理装置(2)中的离线数据分析模块(26)控制所述数据仓库(23)采用微批处理方法对其中存储的所述结构化数据中的非实时数据进行离线数据分析,控制批量计算引擎(24)采用批处理方法对所述分布式文件系统(21)存储的非实时数据中的非结构化数据进行离线数据分析;所述数据处理装置(2)将经所述流式计算引擎(22)、数据仓库(23)、批量计算引擎(24)计算后的全部数据传输到数据通信装置(3);
S5:数据通信装置(3)将经过所述数据处理装置(2)处理后的数据传输到数据应用装置(4);
S6:数据应用装置(4)的数据应用模块(41、42、43)应用接收的数据提供数据应用服务;
其中,流式计算引擎(22)的拓扑结构包括:主节点A、扩展节点B、NFS共享文件系统S、和以太交换机C,主节点A由多台内置大容量硬盘通用X86架构服务器构成,其中一台服务器用作控制节点,其他服务器用作计算节点,扩展节点B由多台与主节点A硬件配置相同的服务器构成,各服务器磁盘存储构成NFS共享文件系统S,各个服务器的存储互不共享,数据存放至本地硬盘,网络交换以一台千兆网以太交换机C为核心,构成基础网络环境,链接所有服务器设备,负责网络环境中的设备内联和外联。
2.根据权利要求1所述的运营数据处理方法,其特征在于,所述步骤S1中,所述运维管理中心(5)根据所述数据应用装置(4)的数据应用模块的需要确定所述数据获取装置(1)需要获取的数据。
3.根据权利要求1所述的运营数据处理方法,其特征在于,所述非实时数据中的结构化数据包括移动通信业务运营系统的经营数据。
4.根据权利要求1所述的运营数据处理方法,其特征在于,所述非实时数据中的非结构化数据包括移动通信网元侧的日志、信令、互联网数据。
5.根据权利要求1所述的运营数据处理方法,其特征在于,所述步骤S4中的批量计算引擎(24)采用Hadoop技术处理数据。
6.一种运营数据处理系统,包括数据获取装置(1)、数据处理装置(2)、数据通信装置(3)、数据应用装置(4)以及用于综合控制各装置的运维管理中心(5),所述数据获取装置(1)与所述数据处理装置(2)通信连接,所述数据处理装置(2)与所述数据通信装置(3)通信连接,所述数据通信装置(3)与所述数据应用装置(4)通信连接,所述数据获取装置(1)、数据处理装置(2)、数据通信装置(3)、数据应用装置(4)均与所述运维管理中心(5)通信连接;
其特征在于,所述数据获取装置(1)包括用于数据预处理的预处理模块(13)、用于获取实时数据的实时获取模块(11)与用于获取非实时数据的批量获取模块(12),所述数据处理装置(2)包括用于进行非结构化数据存储的分布式文件系统(21),用于进行流式计算的流式计算引擎(22)、用于进行存储结构化数据存储与计算的数据仓库(23)、基于所述分布式文件系统的用于计算大批量数据的批量计算引擎(24)、用于进行在线数据分析的在线数据分析模块(25)与用于进行离线数据分析的离线数据分析模块(26),所述数据应用装置(4)包括多个应用模块,所述应用模块用于充当人机交互接口,提供应用服务;
其中,流式计算引擎(22)的拓扑结构包括:主节点A、扩展节点B、NFS共享文件系统S、和以太交换机C,主节点A由多台内置大容量硬盘通用X86架构服务器构成,其中一台服务器用作控制节点,其他服务器用作计算节点,扩展节点B由多台与主节点A硬件配置相同的服务器构成,各服务器磁盘存储构成NFS共享文件系统S,各个服务器的存储互不共享,数据存放至本地硬盘,网络交换以一台千兆网以太交换机C为核心,构成基础网络环境,链接所有服务器设备,负责网络环境中的设备内联和外联。
7.根据权利要求6所述的运营数据处理系统,其特征在于,所述在线数据分析模块(25)包括用于控制所述流式计算引擎(22)、数据仓库(23)以及批量计算引擎(24)进行实时数据处理的实时处理单元(251),所述离线数据分析模块(26)包括用于控制所述数据仓库(23)批量处理少量数据的微批处理单元(261)与用于控制所述批量计算引擎(24)批量处理大量数据的批处理单元(262)。
8.根据权利要求6所述的运营数据处理系统,其特征在于,所述数据通信装置(3)包括服务总线。
9.根据权利要求6所述的运营数据处理系统,其特征在于,所述数据应用装置(4)包括用于提供测试开发服务的开发与调试工具模块(41)、用于提供数据下载服务的数据市场模块(42)以及用于提供数据查询服务的数据地图模块(43)。
CN201410032158.7A 2014-01-23 2014-01-23 一种运营数据处理方法及系统 Active CN103761309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410032158.7A CN103761309B (zh) 2014-01-23 2014-01-23 一种运营数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410032158.7A CN103761309B (zh) 2014-01-23 2014-01-23 一种运营数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN103761309A CN103761309A (zh) 2014-04-30
CN103761309B true CN103761309B (zh) 2017-04-26

Family

ID=50528546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410032158.7A Active CN103761309B (zh) 2014-01-23 2014-01-23 一种运营数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN103761309B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021483B (zh) * 2014-06-26 2017-08-25 陈思恩 旅客需求推荐方法
CN104281980B (zh) * 2014-09-28 2018-04-27 华电国际电力股份有限公司技术服务中心 基于分布式计算的火力发电机组远程诊断方法及系统
CN104317877A (zh) * 2014-10-21 2015-01-28 上海交通大学 一种基于分布式计算的网络用户行为数据实时处理方法
CN104462348A (zh) * 2014-12-05 2015-03-25 无锡城市云计算中心有限公司 一种数据抽取的方法及装置
CN104794003B (zh) * 2015-02-04 2019-06-04 汉鼎宇佑互联网股份有限公司 一种整合实时和非实时模式的大数据分析系统
CN104778420B (zh) * 2015-04-24 2018-07-03 广东电网有限责任公司信息中心 非结构化数据全生命周期的安全管理视图建立方法
CN104915902A (zh) * 2015-06-30 2015-09-16 南京信息工程大学 一种基于云平台的外卖在线派送实现方法
CN105260931A (zh) * 2015-10-10 2016-01-20 苏州工业园区凌志软件股份有限公司 一种基于mot模型的金融服务平台系统
CN105354242A (zh) * 2015-10-15 2016-02-24 北京航空航天大学 分布式数据处理方法及装置
CN105608758B (zh) * 2015-12-17 2018-03-27 山东鲁能软件技术有限公司 一种基于算法组态和分布式流计算的大数据分析平台装置及方法
CN105608144B (zh) * 2015-12-17 2019-02-26 山东鲁能软件技术有限公司 一种基于多层模型迭代的大数据分析平台装置及方法
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理系统及方法
KR101867220B1 (ko) * 2017-02-23 2018-06-12 전자부품연구원 스트리밍 모델 동시 지원 및 스트림 데이터에 따라 자동선택 가능한 실시간 스트림 처리방법 및 장치
CN106294644B (zh) * 2016-08-02 2019-06-14 山东鲁能软件技术有限公司 一种基于大数据技术的海量时序数据收集处理装置及方法
CN106354875B (zh) * 2016-09-21 2020-02-21 中体彩科技发展有限公司 数据调度装置
CN106484811A (zh) * 2016-09-23 2017-03-08 北京赢点科技有限公司 一种基于互联网的媒体数据管理方法及装置
CN107943802A (zh) * 2016-10-12 2018-04-20 北京京东尚科信息技术有限公司 一种日志分析方法和系统
CN106790541B (zh) * 2016-12-22 2019-06-21 武汉斗鱼网络科技有限公司 数据获取方法及装置
CN108268529B (zh) * 2016-12-30 2020-12-29 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统
CN107071821A (zh) * 2017-03-24 2017-08-18 广州逸信电子科技有限公司 移动通信网络测量分析系统及方法
CN106951552A (zh) * 2017-03-27 2017-07-14 重庆邮电大学 一种基于Hadoop的用户行为数据处理方法
CN108038214A (zh) * 2017-12-21 2018-05-15 重庆脉实智能制造有限公司 铁路检修场段设备数据的采集、存储、分析与应用的方法与系统
CN108427711B (zh) * 2018-01-31 2019-09-17 北京三快在线科技有限公司 实时数据仓库、实时数据处理方法、电子设备及存储介质
CN110519317B (zh) * 2018-05-21 2021-02-12 华为技术有限公司 一种数据传输方法以及设备
CN110858341A (zh) * 2018-08-22 2020-03-03 中国移动通信集团重庆有限公司 基于分布式存储系统的指标监控方法、装置、设备和介质
CN109446278A (zh) * 2018-09-21 2019-03-08 贵州途遇旅行网科技有限公司 一种基于区块链的大数据管理平台系统
CN109710816B (zh) * 2018-12-29 2021-01-12 北京航天云路有限公司 服务于企业的企业市场圈模型可视化分析方法及系统
CN111046077A (zh) * 2019-10-29 2020-04-21 口碑(上海)信息技术有限公司 数据的获取方法及装置、存储介质、终端
CN112256734A (zh) * 2020-10-20 2021-01-22 中国农业银行股份有限公司 一种大数据处理方法、装置、系统、设备和存储介质
CN112507029B (zh) * 2020-12-18 2022-11-04 上海哔哩哔哩科技有限公司 数据处理系统及数据实时处理方法
CN112597200B (zh) * 2020-12-22 2024-01-12 南京三眼精灵信息技术有限公司 批量与流式结合的数据处理方法及装置
CN114283910B (zh) * 2022-03-04 2022-06-24 广州科犁医学研究有限公司 基于多渠道信息的临床数据采集分析系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN103491187A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于云计算的大数据统一分析处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521655B2 (en) * 2011-06-06 2013-08-27 Bizequity Llc Engine, system and method for providing cloud-based business intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN103491187A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于云计算的大数据统一分析处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于云计算的BI系统混合架构研究;敖锦蓉 等;《移动通信》;20121231(第3期);第27-31页 *
完整架构+量身定制 让大数据"价值最大化";朱堃 等;《通信世界》;20130605(第15期);第41页 *

Also Published As

Publication number Publication date
CN103761309A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
CN103761309B (zh) 一种运营数据处理方法及系统
US10841241B2 (en) Intelligent placement within a data center
CN109729143A (zh) 在终端设备上部署基于网络的云平台
CN103067297B (zh) 一种基于资源消耗预测的动态负载均衡方法及装置
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
CN111126621B (zh) 在线模型训练方法及装置
CN110213203B (zh) 网络调度方法、装置及计算机存储介质
CN106815254A (zh) 一种数据处理方法和装置
CN114598586B (zh) 一种多云场景算力网格化方法及系统
CN108920948A (zh) 一种反欺诈流式计算装置及方法
CN112506619B (zh) 作业处理方法、装置、电子设备和存储介质
CN107992392A (zh) 一种用于云渲染系统的自动监控修复系统和方法
CN107844402A (zh) 一种基于超融合存储系统的资源监控方法、装置及终端
CN106228263A (zh) 基于大数据的物流信息化方法
CN104410699A (zh) 一种开放式云计算资源管理方法及系统
CN107729138A (zh) 一种高性能分布式矢量空间数据的分析方法和装置
CN112764920A (zh) 一种边缘应用部署方法、装置、设备和存储介质
CN104486116A (zh) 多维度查询流量数据的方法及系统
Tiwari et al. Service adaptive broking mechanism using MROSP algorithm
CN114706675A (zh) 基于云边协同系统的任务部署方法及装置
CN105933154A (zh) 一种云计算资源的管理方法
EP3306471A1 (en) Automatic server cluster discovery
CN114253710A (zh) 计算请求的处理方法、智能终端、云服务器、设备及介质
Tiwari et al. A Broking Structure Originated on Service accommodative Using MROSP Algorithm
CN113301126A (zh) 一种适用于异构组网网关的边缘计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518048 Guangdong province Futian District Shenzhen City Binhe Road, No. 9023, building 11, 41 layers of the country through the

Patentee after: Medium shift information technology Co., Ltd.

Address before: 518048 Guangdong, Shenzhen Binhe Road, No. 9023 building, state building, floor, No. 14

Patentee before: China Mobile (Shenzhen) Co., Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20200316

Address after: Room 1006, building 16, yard 16, Yingcai North Third Street, future science city, Changping District, Beijing 100000

Co-patentee after: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd.

Patentee after: China Mobile Information Technology Co., Ltd

Address before: 518048, Guangdong Province, Futian District, Shenzhen Binhe Road, 9023 Tong Building, 11 and 41

Patentee before: CHINA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right