CN109246073A - 一种数据流处理系统及其方法 - Google Patents
一种数据流处理系统及其方法 Download PDFInfo
- Publication number
- CN109246073A CN109246073A CN201810723807.6A CN201810723807A CN109246073A CN 109246073 A CN109246073 A CN 109246073A CN 201810723807 A CN201810723807 A CN 201810723807A CN 109246073 A CN109246073 A CN 109246073A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- stream
- flow processing
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/12—Protocol engines
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种数据流处理系统及其方法。它包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,界面模块用于与用户交互;信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点和任务节点有信息交互;组件模块用于数据来源和数据目标适配;流运行模块用于流的构建和运行;数据断点模块用于流重启时保证不丢数据;流数据统计模块用于统计流运行时的流速;错误信息模块用于流异常时查看异常信息和异常数据。本发明的有益效果是:提供断点续传功能,有更强的引擎适配,有更低的延时、更强的拓展性,有更轻量级的系统架构;有更简洁易用的界面配置,更强大的监控体系。
Description
技术领域
本发明涉及数据处理相关技术领域,尤其是指一种数据流处理系统及其方法。
背景技术
在互联网大数据领域,数据流动才能产生价值。随着业务的扩展,应用系统会增多,为了满足系统间数据的共享,大量的ETL、Streaming小程序应运而生。小程序扩展性差,而且维护成本极高。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种可配置可扩展的数据流处理系统及其方法。
为了实现上述目的,本发明采用以下技术方案:
一种数据流处理系统,包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,所述的界面模块用于与用户交互,用户通过界面模块配置数据流转业务;所述的信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点负责任务的分配和与前端界面模块的交互,任务节点负责流的运行和监控,主节点和任务节点有信息交互;所述的组件模块用于数据来源和数据目标适配;所述的流运行模块用于流的构建和运行;所述的数据断点模块用于流重启时保证不丢数据;所述的流数据统计模块用于统计流运行时的流速,以及数据准确性判断;所述的错误信息模块用于流异常时查看异常信息和异常数据。
该系统把数据划分成一个个的原子,作为传输和处理的单元,这种理念很符合计算机的发送和接收方式。基于这种设计思路,我们把系统间或者引擎之间的数据传输原子化、流式化,保证数据被处理At least once,即提供断点续传功能。该系统满足了大部分数据流转需求,支持流式的和批次的传输和处理,适配了极大多数数据引擎,同样使用者也可以开发自己想要的组件,该系统还提供了简易的操作界面,通过界面配置和运行,即可达到数据传输的目的。与kafka-streams相比有更强的引擎适配,与spark-streaming相比具有更低的延时、更强的拓展性,与Flink相比具有更轻量级的系统架构;和现有的数据处理系统或者工具相比,具有更简洁易用的界面配置,更强大的监控体系。
本发明还提供了一种数据流处理方法,具体包括如下步骤:
(1)登录数据流处理系统,进入到界面模块,创建数据来源和数据目标;
(2)通过流运行模块创建流名称和描述信息;
(3)通过组件模块来配置数据来源,数据流处理系统获取数据来源结构和数据样例;
(4)通过组件模块来配置数据目标,数据流处理系统获取目标结构;
(5)通过数据处理来配置字段映射和转化逻辑;
(6)通过信息通讯模块来配置主节点和任务节点;
(7)配置流调度。
作为优选,所述的数据来源包括以下几种:数据库型的mysql、oracle、postgreSQL;中间件型的kafka、RabbitMQ;检索型的elasticsearch;文件型的ftp-csv、hdfs;针对不同种的数据来源提供定时批量、滚动批量和实时拉取几种读取方式。
作为优选,所述的数据处理包含数据过滤、数据转化和外部数据关联,其中数据转化是通过JavaScript的方式实现。
作为优选,所述的数据目标和数据来源是一一对应的。
作为优选,所述的流调度是定时调度,采用crontab的方式,用户可以根据自身业务配置数据流,运行后数据流处理系统会对流进行监控、统计,并保证流稳定的运行,通过流数据统计模块也让用户实时了解流的运行进度和状态。
本发明的有益效果是:提供断点续传功能,有更强的引擎适配,具有更低的延时、更强的拓展性,具有更轻量级的系统架构;具有更简洁易用的界面配置,更强大的监控体系。
具体实施方式
下面结合具体实施方式对本发明做进一步的描述。
一种数据流处理系统,包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,所述的界面模块用于与用户交互,用户通过界面模块配置数据流转业务;所述的信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点负责任务的分配和与前端界面模块的交互,任务节点负责流的运行和监控,主节点和任务节点有信息交互;所述的组件模块用于数据来源和数据目标适配;所述的流运行模块用于流的构建和运行;所述的数据断点模块用于流重启时保证不丢数据;所述的流数据统计模块用于统计流运行时的流速,以及数据准确性判断;所述的错误信息模块用于流异常时查看异常信息和异常数据。
本发明还提供了一种数据流处理方法,具体包括如下步骤:
(1)登录数据流处理系统,进入到界面模块,创建数据来源和数据目标;
(2)通过流运行模块创建流名称和描述信息;
(3)通过组件模块来配置数据来源,数据流处理系统获取数据来源结构和数据样例;数据来源包括以下几种:数据库型的mysql、oracle、postgreSQL;中间件型的kafka、RabbitMQ;检索型的elasticsearch;文件型的ftp-csv、hdfs;针对不同种的数据来源提供定时批量、滚动批量和实时拉取几种读取方式;
(4)通过组件模块来配置数据目标,数据流处理系统获取目标结构;数据目标和数据来源是一一对应的;
(5)通过数据处理来配置字段映射和转化逻辑;数据处理包含数据过滤、数据转化和外部数据关联,其中数据转化是通过JavaScript的方式实现;
(6)通过信息通讯模块来配置主节点和任务节点;
(7)配置流调度;流调度是定时调度,采用crontab的方式,用户可以根据自身业务配置数据流,运行后数据流处理系统会对流进行监控、统计,并保证流稳定的运行,通过流数据统计模块也让用户实时了解流的运行进度和状态。
该系统把数据划分成一个个的原子,作为传输和处理的单元,这种理念很符合计算机的发送和接收方式。基于这种设计思路,我们把系统间或者引擎之间的数据传输原子化、流式化,保证数据被处理At least once,即提供断点续传功能。该系统满足了大部分数据流转需求,支持流式的和批次的传输和处理,适配了极大多数数据引擎,同样使用者也可以开发自己想要的组件,该系统还提供了简易的操作界面,通过界面配置和运行,即可达到数据传输的目的。与kafka-streams相比有更强的引擎适配,与spark-streaming相比具有更低的延时、更强的拓展性,与Flink相比具有更轻量级的系统架构;和现有的数据处理系统或者工具相比,具有更简洁易用的界面配置,更强大的监控体系。
Claims (6)
1.一种数据流处理系统,其特征是,包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,所述的界面模块用于与用户交互,用户通过界面模块配置数据流转业务;所述的信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点负责任务的分配和与前端界面模块的交互,任务节点负责流的运行和监控,主节点和任务节点有信息交互;所述的组件模块用于数据来源和数据目标适配;所述的流运行模块用于流的构建和运行;所述的数据断点模块用于流重启时保证不丢数据;所述的流数据统计模块用于统计流运行时的流速,以及数据准确性判断;所述的错误信息模块用于流异常时查看异常信息和异常数据。
2.一种数据流处理方法,其特征是,具体包括如下步骤:
(1)登录数据流处理系统,进入到界面模块,创建数据来源和数据目标;
(2)通过流运行模块创建流名称和描述信息;
(3)通过组件模块来配置数据来源,数据流处理系统获取数据来源结构和数据样例;
(4)通过组件模块来配置数据目标,数据流处理系统获取目标结构;
(5)通过数据处理来配置字段映射和转化逻辑;
(6)通过信息通讯模块来配置主节点和任务节点;
(7)配置流调度。
3.根据权利要求2所述的一种数据流处理方法,其特征是,所述的数据来源包括以下几种:数据库型的mysql、oracle、postgreSQL;中间件型的kafka、RabbitMQ;检索型的elasticsearch;文件型的ftp-csv、hdfs;针对不同种的数据来源提供定时批量、滚动批量和实时拉取几种读取方式。
4.根据权利要求2所述的一种数据流处理方法,其特征是,所述的数据处理包含数据过滤、数据转化和外部数据关联,其中数据转化是通过JavaScript的方式实现。
5.根据权利要求2所述的一种数据流处理方法,其特征是,所述的数据目标和数据来源是一一对应的。
6.根据权利要求2所述的一种数据流处理方法,其特征是,所述的流调度是定时调度,采用crontab的方式,用户可以根据自身业务配置数据流,运行后数据流处理系统会对流进行监控、统计,并保证流稳定的运行,通过流数据统计模块也让用户实时了解流的运行进度和状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810723807.6A CN109246073A (zh) | 2018-07-04 | 2018-07-04 | 一种数据流处理系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810723807.6A CN109246073A (zh) | 2018-07-04 | 2018-07-04 | 一种数据流处理系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109246073A true CN109246073A (zh) | 2019-01-18 |
Family
ID=65071855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810723807.6A Pending CN109246073A (zh) | 2018-07-04 | 2018-07-04 | 一种数据流处理系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109246073A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995263A (zh) * | 2019-12-18 | 2021-06-18 | 中国移动通信集团陕西有限公司 | 网优流数据处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2113848A1 (en) * | 2008-04-30 | 2009-11-04 | Siemens Energy & Automation, Inc. | Adaptive caching for high volume extract transform load process |
US20120324387A1 (en) * | 2011-06-15 | 2012-12-20 | Nancy Anne Rausch | Computer-Implemented Systems And Methods For Extract, Transform, And Load User Interface Processing |
CN104317970A (zh) * | 2014-11-19 | 2015-01-28 | 亚信科技(南京)有限公司 | 一种基于数据加工中心的数据流式处理方法 |
CN106250444A (zh) * | 2016-07-27 | 2016-12-21 | 北京集奥聚合科技有限公司 | 一种异构数据源的实时入库系统及方法 |
CN107819693A (zh) * | 2016-09-12 | 2018-03-20 | 北京百度网讯科技有限公司 | 用于数据流系统的数据流处理方法及装置 |
CN107908797A (zh) * | 2017-12-18 | 2018-04-13 | 上海中畅数据技术有限公司 | 一种实时etl数据流转换处理技术方法与系统 |
-
2018
- 2018-07-04 CN CN201810723807.6A patent/CN109246073A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2113848A1 (en) * | 2008-04-30 | 2009-11-04 | Siemens Energy & Automation, Inc. | Adaptive caching for high volume extract transform load process |
US20120324387A1 (en) * | 2011-06-15 | 2012-12-20 | Nancy Anne Rausch | Computer-Implemented Systems And Methods For Extract, Transform, And Load User Interface Processing |
CN104317970A (zh) * | 2014-11-19 | 2015-01-28 | 亚信科技(南京)有限公司 | 一种基于数据加工中心的数据流式处理方法 |
CN106250444A (zh) * | 2016-07-27 | 2016-12-21 | 北京集奥聚合科技有限公司 | 一种异构数据源的实时入库系统及方法 |
CN107819693A (zh) * | 2016-09-12 | 2018-03-20 | 北京百度网讯科技有限公司 | 用于数据流系统的数据流处理方法及装置 |
CN107908797A (zh) * | 2017-12-18 | 2018-04-13 | 上海中畅数据技术有限公司 | 一种实时etl数据流转换处理技术方法与系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995263A (zh) * | 2019-12-18 | 2021-06-18 | 中国移动通信集团陕西有限公司 | 网优流数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7125457B2 (ja) | 産業用アプリケーション機械を監視及び制御するためのシステム、装置、及び方法 | |
Canizo et al. | Implementation of a large-scale platform for cyber-physical system real-time monitoring | |
CN103713940B (zh) | 一种基于rtx‑hla‑反射内存卡的可重构分布式实时仿真方法 | |
CN108989136A (zh) | 业务端到端性能监控方法及装置 | |
CN110147387A (zh) | 一种根因分析方法、装置、设备及存储介质 | |
CN108984610A (zh) | 一种基于大数据框架离线实时处理数据的方法及系统 | |
CN109246073A (zh) | 一种数据流处理系统及其方法 | |
CN108733464A (zh) | 一种确定计算任务的调度方案的方法及装置 | |
Li et al. | GSPN-based reliability-aware performance evaluation of IoT services | |
CN109344037B (zh) | 一种基于实时统计与告警公式的业务监控方法 | |
CN106250348A (zh) | 一种基于gpu访存特性的异构多核架构缓存管理方法 | |
CN104184601A (zh) | 用户在线时长的获取方法及装置 | |
CN112882901A (zh) | 一种分布式处理系统健康状态智能监控器 | |
Dai et al. | Performance adjustable event-triggered synchronization policies to nonlinear multiagent systems | |
CN108009121B (zh) | 面向应用的动态多核配置方法 | |
US9304890B2 (en) | Method for throttling trace data streams | |
CN106709016A (zh) | 一种基于服务总线的数据交换方法 | |
Yan et al. | Mixed time-triggered and event-triggered industrial controller in IoT environment | |
CN105553706B (zh) | 一种基于数据流的机电管理余度系统 | |
CN108280008A (zh) | 一种针对Hadoop集群异常节点实时监测方法 | |
BR112014029927A2 (pt) | método para selecionar nós que agem como retransmissores multiponto | |
CN103873953A (zh) | 一种基于云计算的高性能课件转码的实现步骤 | |
CN105095248B (zh) | 一种数据库集群系统及其恢复方法、管理节点 | |
CN204705859U (zh) | 加工中心主轴温度远程监控系统 | |
CN104360913A (zh) | 用于计算机操作系统的监控模块 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |