CN107016133A - 基于在线与离线双处理的大数据系统 - Google Patents

基于在线与离线双处理的大数据系统 Download PDF

Info

Publication number
CN107016133A
CN107016133A CN201710372127.XA CN201710372127A CN107016133A CN 107016133 A CN107016133 A CN 107016133A CN 201710372127 A CN201710372127 A CN 201710372127A CN 107016133 A CN107016133 A CN 107016133A
Authority
CN
China
Prior art keywords
module
data
line
offline
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710372127.XA
Other languages
English (en)
Inventor
苗苗
石峰
温宁
张逊桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Enjoy Road Network Technology Co Ltd
Original Assignee
Chengdu Enjoy Road Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Enjoy Road Network Technology Co Ltd filed Critical Chengdu Enjoy Road Network Technology Co Ltd
Priority to CN201710372127.XA priority Critical patent/CN107016133A/zh
Publication of CN107016133A publication Critical patent/CN107016133A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于在线与离线双处理的大数据系统,包括数据收集模块和数据处理模块,所述数据收集模块和啊数据处理模块通过发布订阅模块数据连接;所述数据收集模块包括线上实时收集模块、定期批量收集模块和静态数据收集模块;所述数据处理模块包括在线处理模块和离线处理模块;本发明基于在线与离线双处理的大数据系统通过离线处理模块和在线处理模块的配合工作,使得其能够在线上与线下同时工作,提升处理效率,避免出现反应不及时的情况。

Description

基于在线与离线双处理的大数据系统
技术领域
本发明涉及大数据领域,尤其涉及一种基于在线与离线双处理的大数据系统。
背景技术
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据存储和大数据统计是海量用户产品不可或缺的技术,现在一般的大数据均是之间在线上进行存储与处理,其可能出现处理不及时或者对网络的需求度过高的问题。
发明内容
本发明的目的就在于为了解决上述问题而提供及一种基于在线与离线双处理的大数据系统。
本发明通过以下技术方案来实现上述目的:
一种基于在线与离线双处理的大数据系统,包括数据收集模块和数据处理模块,所述数据收集模块和啊数据处理模块通过发布订阅模块数据连接;
所述数据收集模块包括线上实时收集模块、定期批量收集模块和静态数据收集模块;
所述数据处理模块包括在线处理模块和离线处理模块;
所述线上实时数据收集模块和所述定期批量收集模块的数据输出端均与所述发布订阅模块的数据输入端连接,所述发布订阅模块的数据输出端分别与所述在线处理模块和所述离线处理模块的数据输入端连接,所述静态数据收集模块的数据输出端与所述离线处理模块的数据输入端连接。
所述在线处理模块包括在线计算模块、在线存储模块和线上服务器,所述在线计算模块的数据输入端与所述发布订阅模块的数据输出端连接,所述在线计算模块的数据端与所述在线存储模的数据端双向连接,所述在线计算模块的输出端和所述在线存储模块的输出端均与所述线上服务器的输入端连接;
所述离线处理模块包括离线存储模块、离线计算模块和离线控制模块,所述离线存储模块的数据输入端与所述发布订阅模块和所述静态数据收集模块的数据输出端连接,所述离线存储模块的数据端和所述离线计算模块的数据端双向连接,所述离线存储模块的控制端和所述离线计算模块的控制端均与所述离线控制模块连接;
所述在线计算模块的存储端与所述离线存储模块的存储端连接,所述在线存储模块的储存的与所述离线计算模块的存储端双向连接。
本发明的有益效果在于:
本发明基于在线与离线双处理的大数据系统通过离线处理模块和在线处理模块的配合工作,使得其能够在线上与线下同时工作,提升处理效率,避免出现反应不及时的情况。
附图说明
图1是本发明所述基于在线与离线双处理的大数据系统的结构示意图。
具体实施方式
下面结合附图对本发明作进一步说明:
如图1所示,本发明一种基于在线与离线双处理的大数据系统,包括数据收集模块和数据处理模块,数据收集模块和啊数据处理模块通过发布订阅模块数据连接;
数据收集模块包括线上实时收集模块、定期批量收集模块和静态数据收集模块;
数据处理模块包括在线处理模块和离线处理模块;
线上实时数据收集模块和定期批量收集模块的数据输出端均与发布订阅模块的数据输入端连接,发布订阅模块的数据输出端分别与在线处理模块和离线处理模块的数据输入端连接,静态数据收集模块的数据输出端与离线处理模块的数据输入端连接。
在线处理模块包括在线计算模块、在线存储模块和线上服务器,在线计算模块的数据输入端与发布订阅模块的数据输出端连接,在线计算模块的数据端与在线存储模的数据端双向连接,在线计算模块的输出端和在线存储模块的输出端均与线上服务器的输入端连接;
离线处理模块包括离线存储模块、离线计算模块和离线控制模块,离线存储模块的数据输入端与发布订阅模块和静态数据收集模块的数据输出端连接,离线存储模块的数据端和离线计算模块的数据端双向连接,离线存储模块的控制端和离线计算模块的控制端均与离线控制模块连接;
在线计算模块的存储端与离线存储模块的存储端连接,在线存储模块的储存的与离线计算模块的存储端双向连接。。
数据的来源一般有三种:第一种是线上的实时日志流;第二种是定期批量收集和更新的数据;第三种是长期不变的静态数据。前两种数据通常传输到订阅发布模块当中,在传输至处理模块。静态数据一般直接保存在离线存储模块中,供需要时访问。
发布订阅模块负责管理数据的发布和收集下游的订阅需求,将数据分发给对应的下游模块,一部分数据会发送到在线计算模块,另一部分数据会落入离线存储模块。发布订阅模块可分为持久式和非持久式,可根据需求特性选用。
对于在线处理部分,在线计算模块所需的数据一部分来自从发布订阅模块中获取实时数据,另一部分来自在线存储模块。在线计算模块常见的计算类型有在线服务、流式计算、实时回馈等,分别服务于数据抓取、实时统计、实时监控、在线分析等。在线存储模块中的数据一般分为临时缓存数据和持久化数据,这些数据通常来自在线计算模块和离线计算模块。在线存储模块承载的应用有:KV缓存、数据库缓存、流式数据、字典服务等。
对于离线处理部分,离线存储模块负责对文件、对象、结构化数据的存储,服务于日志、网页、关系链、多媒体、字典、数据库等应用,它的数据来源非常丰富。而离线计算模块的数据一般来自离线存储和在线存储,计算结果往往也写回离线和在线存储模块。离线计算模块上的计算分为IO密集型、计算密集型、迭代型、类SQL型等类型。
在离线处理中的任务依赖离线控制模块,在线处理的各模块由于基本上是数据流驱动或者是事件驱动的,所以不需要显式地设置各个任务的上下游依赖关系,数据和事件的流式传播即触发了对应的计算,而对于离线处理,各个任务都是批量处理的方式,因此需要等上游完成批量处理,下游才能开始接着处理。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (2)

1.一种基于在线与离线双处理的大数据系统,其特征在于:包括数据收集模块和数据处理模块,所述数据收集模块和啊数据处理模块通过发布订阅模块数据连接;
所述数据收集模块包括线上实时收集模块、定期批量收集模块和静态数据收集模块;
所述数据处理模块包括在线处理模块和离线处理模块;
所述线上实时数据收集模块和所述定期批量收集模块的数据输出端均与所述发布订阅模块的数据输入端连接,所述发布订阅模块的数据输出端分别与所述在线处理模块和所述离线处理模块的数据输入端连接,所述静态数据收集模块的数据输出端与所述离线处理模块的数据输入端连接。
2.根据权利要求1所述的基于在线与离线双处理的大数据系统,其特征在于:所述在线处理模块包括在线计算模块、在线存储模块和线上服务器,所述在线计算模块的数据输入端与所述发布订阅模块的数据输出端连接,所述在线计算模块的数据端与所述在线存储模的数据端双向连接,所述在线计算模块的输出端和所述在线存储模块的输出端均与所述线上服务器的输入端连接;
所述离线处理模块包括离线存储模块、离线计算模块和离线控制模块,所述离线存储模块的数据输入端与所述发布订阅模块和所述静态数据收集模块的数据输出端连接,所述离线存储模块的数据端和所述离线计算模块的数据端双向连接,所述离线存储模块的控制端和所述离线计算模块的控制端均与所述离线控制模块连接;
所述在线计算模块的存储端与所述离线存储模块的存储端连接,所述在线存储模块的储存的与所述离线计算模块的存储端双向连接。
CN201710372127.XA 2017-05-24 2017-05-24 基于在线与离线双处理的大数据系统 Pending CN107016133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710372127.XA CN107016133A (zh) 2017-05-24 2017-05-24 基于在线与离线双处理的大数据系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710372127.XA CN107016133A (zh) 2017-05-24 2017-05-24 基于在线与离线双处理的大数据系统

Publications (1)

Publication Number Publication Date
CN107016133A true CN107016133A (zh) 2017-08-04

Family

ID=59450816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710372127.XA Pending CN107016133A (zh) 2017-05-24 2017-05-24 基于在线与离线双处理的大数据系统

Country Status (1)

Country Link
CN (1) CN107016133A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107991960A (zh) * 2017-12-12 2018-05-04 温州市易天信息科技有限公司 一种机电设备智能化控制平台
CN108519914A (zh) * 2018-04-09 2018-09-11 腾讯科技(深圳)有限公司 大数据计算方法、系统和计算机设备
CN109558461A (zh) * 2018-10-23 2019-04-02 平安医疗健康管理股份有限公司 一种医疗数据分类存储方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛牧: ""基于Kafka的大规模流数据分布式缓存与分析平台"", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107991960A (zh) * 2017-12-12 2018-05-04 温州市易天信息科技有限公司 一种机电设备智能化控制平台
CN108519914A (zh) * 2018-04-09 2018-09-11 腾讯科技(深圳)有限公司 大数据计算方法、系统和计算机设备
CN108519914B (zh) * 2018-04-09 2021-10-26 腾讯科技(深圳)有限公司 大数据计算方法、系统和计算机设备
CN109558461A (zh) * 2018-10-23 2019-04-02 平安医疗健康管理股份有限公司 一种医疗数据分类存储方法和装置
CN109558461B (zh) * 2018-10-23 2023-08-18 深圳平安医疗健康科技服务有限公司 一种医疗数据分类存储方法和装置

Similar Documents

Publication Publication Date Title
WO2020147480A1 (zh) 基于流式处理的监控指标异常检测方法、装置及设备
CN107016133A (zh) 基于在线与离线双处理的大数据系统
US20160179898A1 (en) Distributed data stream processing method and system
Rao et al. Hedging against uncertainty: A tale of internet data center operations under smart grid environment
US10110687B2 (en) Session based web usage reporter
US20080301061A1 (en) Method and System for Monitoring Market Data to Identify User Defined Market Conditions
CN109726074A (zh) 日志处理方法、装置、计算机设备和存储介质
CN104112026B (zh) 一种短信文本分类方法及系统
CN110245178A (zh) 营销自动化管理平台系统及其管理方法
CN109933505A (zh) 日志处理方法、装置、计算机设备和存储介质
WO2005015368A3 (en) System and method for efficiently capturing and reporting maintenance, repair, and overhaul data
CN110750377A (zh) 一种故障定位方法及装置
CN104281104B (zh) 一种异常工况信息处理系统及方法
CN103425568A (zh) 日志信息处理方法及装置
CN109981416A (zh) 一种区块链性能检测方法与系统
CN112445863A (zh) 一种数据实时同步方法及系统
CN112148779A (zh) 确定业务指标的方法、装置及存储介质
CN108932241A (zh) 日志数据统计方法、装置及节点
CN109800221A (zh) 一种海量数据关联关系分析方法、装置及系统
CN113505173A (zh) 一种数据采集同步系统与同步方法
CN102055620A (zh) 监控用户体验的方法和系统
CN100394729C (zh) 存储服务器性能综合测试系统
CN104240049A (zh) 一种订单综合处理系统
CN115713395A (zh) 一种基于Flink的用户风控管理方法、装置及设备
CN109034894A (zh) 广告页面浏览量统计方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170804