CN109246073A - 一种数据流处理系统及其方法 - Google Patents

一种数据流处理系统及其方法 Download PDF

Info

Publication number
CN109246073A
CN109246073A CN201810723807.6A CN201810723807A CN109246073A CN 109246073 A CN109246073 A CN 109246073A CN 201810723807 A CN201810723807 A CN 201810723807A CN 109246073 A CN109246073 A CN 109246073A
Authority
CN
China
Prior art keywords
data
module
stream
flow processing
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810723807.6A
Other languages
English (en)
Inventor
邱路平
王海伟
徐英斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Digital Cloud Information Technology Co Ltd
Original Assignee
Hangzhou Digital Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Digital Cloud Information Technology Co Ltd filed Critical Hangzhou Digital Cloud Information Technology Co Ltd
Priority to CN201810723807.6A priority Critical patent/CN109246073A/zh
Publication of CN109246073A publication Critical patent/CN109246073A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/12Protocol engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据流处理系统及其方法。它包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,界面模块用于与用户交互;信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点和任务节点有信息交互;组件模块用于数据来源和数据目标适配;流运行模块用于流的构建和运行;数据断点模块用于流重启时保证不丢数据;流数据统计模块用于统计流运行时的流速;错误信息模块用于流异常时查看异常信息和异常数据。本发明的有益效果是:提供断点续传功能,有更强的引擎适配,有更低的延时、更强的拓展性,有更轻量级的系统架构;有更简洁易用的界面配置,更强大的监控体系。

Description

一种数据流处理系统及其方法
技术领域
本发明涉及数据处理相关技术领域,尤其是指一种数据流处理系统及其方法。
背景技术
在互联网大数据领域,数据流动才能产生价值。随着业务的扩展,应用系统会增多,为了满足系统间数据的共享,大量的ETL、Streaming小程序应运而生。小程序扩展性差,而且维护成本极高。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种可配置可扩展的数据流处理系统及其方法。
为了实现上述目的,本发明采用以下技术方案:
一种数据流处理系统,包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,所述的界面模块用于与用户交互,用户通过界面模块配置数据流转业务;所述的信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点负责任务的分配和与前端界面模块的交互,任务节点负责流的运行和监控,主节点和任务节点有信息交互;所述的组件模块用于数据来源和数据目标适配;所述的流运行模块用于流的构建和运行;所述的数据断点模块用于流重启时保证不丢数据;所述的流数据统计模块用于统计流运行时的流速,以及数据准确性判断;所述的错误信息模块用于流异常时查看异常信息和异常数据。
该系统把数据划分成一个个的原子,作为传输和处理的单元,这种理念很符合计算机的发送和接收方式。基于这种设计思路,我们把系统间或者引擎之间的数据传输原子化、流式化,保证数据被处理At least once,即提供断点续传功能。该系统满足了大部分数据流转需求,支持流式的和批次的传输和处理,适配了极大多数数据引擎,同样使用者也可以开发自己想要的组件,该系统还提供了简易的操作界面,通过界面配置和运行,即可达到数据传输的目的。与kafka-streams相比有更强的引擎适配,与spark-streaming相比具有更低的延时、更强的拓展性,与Flink相比具有更轻量级的系统架构;和现有的数据处理系统或者工具相比,具有更简洁易用的界面配置,更强大的监控体系。
本发明还提供了一种数据流处理方法,具体包括如下步骤:
(1)登录数据流处理系统,进入到界面模块,创建数据来源和数据目标;
(2)通过流运行模块创建流名称和描述信息;
(3)通过组件模块来配置数据来源,数据流处理系统获取数据来源结构和数据样例;
(4)通过组件模块来配置数据目标,数据流处理系统获取目标结构;
(5)通过数据处理来配置字段映射和转化逻辑;
(6)通过信息通讯模块来配置主节点和任务节点;
(7)配置流调度。
作为优选,所述的数据来源包括以下几种:数据库型的mysql、oracle、postgreSQL;中间件型的kafka、RabbitMQ;检索型的elasticsearch;文件型的ftp-csv、hdfs;针对不同种的数据来源提供定时批量、滚动批量和实时拉取几种读取方式。
作为优选,所述的数据处理包含数据过滤、数据转化和外部数据关联,其中数据转化是通过JavaScript的方式实现。
作为优选,所述的数据目标和数据来源是一一对应的。
作为优选,所述的流调度是定时调度,采用crontab的方式,用户可以根据自身业务配置数据流,运行后数据流处理系统会对流进行监控、统计,并保证流稳定的运行,通过流数据统计模块也让用户实时了解流的运行进度和状态。
本发明的有益效果是:提供断点续传功能,有更强的引擎适配,具有更低的延时、更强的拓展性,具有更轻量级的系统架构;具有更简洁易用的界面配置,更强大的监控体系。
具体实施方式
下面结合具体实施方式对本发明做进一步的描述。
一种数据流处理系统,包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,所述的界面模块用于与用户交互,用户通过界面模块配置数据流转业务;所述的信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点负责任务的分配和与前端界面模块的交互,任务节点负责流的运行和监控,主节点和任务节点有信息交互;所述的组件模块用于数据来源和数据目标适配;所述的流运行模块用于流的构建和运行;所述的数据断点模块用于流重启时保证不丢数据;所述的流数据统计模块用于统计流运行时的流速,以及数据准确性判断;所述的错误信息模块用于流异常时查看异常信息和异常数据。
本发明还提供了一种数据流处理方法,具体包括如下步骤:
(1)登录数据流处理系统,进入到界面模块,创建数据来源和数据目标;
(2)通过流运行模块创建流名称和描述信息;
(3)通过组件模块来配置数据来源,数据流处理系统获取数据来源结构和数据样例;数据来源包括以下几种:数据库型的mysql、oracle、postgreSQL;中间件型的kafka、RabbitMQ;检索型的elasticsearch;文件型的ftp-csv、hdfs;针对不同种的数据来源提供定时批量、滚动批量和实时拉取几种读取方式;
(4)通过组件模块来配置数据目标,数据流处理系统获取目标结构;数据目标和数据来源是一一对应的;
(5)通过数据处理来配置字段映射和转化逻辑;数据处理包含数据过滤、数据转化和外部数据关联,其中数据转化是通过JavaScript的方式实现;
(6)通过信息通讯模块来配置主节点和任务节点;
(7)配置流调度;流调度是定时调度,采用crontab的方式,用户可以根据自身业务配置数据流,运行后数据流处理系统会对流进行监控、统计,并保证流稳定的运行,通过流数据统计模块也让用户实时了解流的运行进度和状态。
该系统把数据划分成一个个的原子,作为传输和处理的单元,这种理念很符合计算机的发送和接收方式。基于这种设计思路,我们把系统间或者引擎之间的数据传输原子化、流式化,保证数据被处理At least once,即提供断点续传功能。该系统满足了大部分数据流转需求,支持流式的和批次的传输和处理,适配了极大多数数据引擎,同样使用者也可以开发自己想要的组件,该系统还提供了简易的操作界面,通过界面配置和运行,即可达到数据传输的目的。与kafka-streams相比有更强的引擎适配,与spark-streaming相比具有更低的延时、更强的拓展性,与Flink相比具有更轻量级的系统架构;和现有的数据处理系统或者工具相比,具有更简洁易用的界面配置,更强大的监控体系。

Claims (6)

1.一种数据流处理系统,其特征是,包括界面模块、信息通讯模块、组件模块、流运行模块、数据断点模块、流数据统计模块和错误信息模块,所述的界面模块用于与用户交互,用户通过界面模块配置数据流转业务;所述的信息通讯模块包括主节点和若干任务节点,主节点和任务节点是一对多的关系,主节点负责任务的分配和与前端界面模块的交互,任务节点负责流的运行和监控,主节点和任务节点有信息交互;所述的组件模块用于数据来源和数据目标适配;所述的流运行模块用于流的构建和运行;所述的数据断点模块用于流重启时保证不丢数据;所述的流数据统计模块用于统计流运行时的流速,以及数据准确性判断;所述的错误信息模块用于流异常时查看异常信息和异常数据。
2.一种数据流处理方法,其特征是,具体包括如下步骤:
(1)登录数据流处理系统,进入到界面模块,创建数据来源和数据目标;
(2)通过流运行模块创建流名称和描述信息;
(3)通过组件模块来配置数据来源,数据流处理系统获取数据来源结构和数据样例;
(4)通过组件模块来配置数据目标,数据流处理系统获取目标结构;
(5)通过数据处理来配置字段映射和转化逻辑;
(6)通过信息通讯模块来配置主节点和任务节点;
(7)配置流调度。
3.根据权利要求2所述的一种数据流处理方法,其特征是,所述的数据来源包括以下几种:数据库型的mysql、oracle、postgreSQL;中间件型的kafka、RabbitMQ;检索型的elasticsearch;文件型的ftp-csv、hdfs;针对不同种的数据来源提供定时批量、滚动批量和实时拉取几种读取方式。
4.根据权利要求2所述的一种数据流处理方法,其特征是,所述的数据处理包含数据过滤、数据转化和外部数据关联,其中数据转化是通过JavaScript的方式实现。
5.根据权利要求2所述的一种数据流处理方法,其特征是,所述的数据目标和数据来源是一一对应的。
6.根据权利要求2所述的一种数据流处理方法,其特征是,所述的流调度是定时调度,采用crontab的方式,用户可以根据自身业务配置数据流,运行后数据流处理系统会对流进行监控、统计,并保证流稳定的运行,通过流数据统计模块也让用户实时了解流的运行进度和状态。
CN201810723807.6A 2018-07-04 2018-07-04 一种数据流处理系统及其方法 Pending CN109246073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810723807.6A CN109246073A (zh) 2018-07-04 2018-07-04 一种数据流处理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810723807.6A CN109246073A (zh) 2018-07-04 2018-07-04 一种数据流处理系统及其方法

Publications (1)

Publication Number Publication Date
CN109246073A true CN109246073A (zh) 2019-01-18

Family

ID=65071855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810723807.6A Pending CN109246073A (zh) 2018-07-04 2018-07-04 一种数据流处理系统及其方法

Country Status (1)

Country Link
CN (1) CN109246073A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995263A (zh) * 2019-12-18 2021-06-18 中国移动通信集团陕西有限公司 网优流数据处理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2113848A1 (en) * 2008-04-30 2009-11-04 Siemens Energy & Automation, Inc. Adaptive caching for high volume extract transform load process
US20120324387A1 (en) * 2011-06-15 2012-12-20 Nancy Anne Rausch Computer-Implemented Systems And Methods For Extract, Transform, And Load User Interface Processing
CN104317970A (zh) * 2014-11-19 2015-01-28 亚信科技(南京)有限公司 一种基于数据加工中心的数据流式处理方法
CN106250444A (zh) * 2016-07-27 2016-12-21 北京集奥聚合科技有限公司 一种异构数据源的实时入库系统及方法
CN107819693A (zh) * 2016-09-12 2018-03-20 北京百度网讯科技有限公司 用于数据流系统的数据流处理方法及装置
CN107908797A (zh) * 2017-12-18 2018-04-13 上海中畅数据技术有限公司 一种实时etl数据流转换处理技术方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2113848A1 (en) * 2008-04-30 2009-11-04 Siemens Energy & Automation, Inc. Adaptive caching for high volume extract transform load process
US20120324387A1 (en) * 2011-06-15 2012-12-20 Nancy Anne Rausch Computer-Implemented Systems And Methods For Extract, Transform, And Load User Interface Processing
CN104317970A (zh) * 2014-11-19 2015-01-28 亚信科技(南京)有限公司 一种基于数据加工中心的数据流式处理方法
CN106250444A (zh) * 2016-07-27 2016-12-21 北京集奥聚合科技有限公司 一种异构数据源的实时入库系统及方法
CN107819693A (zh) * 2016-09-12 2018-03-20 北京百度网讯科技有限公司 用于数据流系统的数据流处理方法及装置
CN107908797A (zh) * 2017-12-18 2018-04-13 上海中畅数据技术有限公司 一种实时etl数据流转换处理技术方法与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995263A (zh) * 2019-12-18 2021-06-18 中国移动通信集团陕西有限公司 网优流数据处理系统

Similar Documents

Publication Publication Date Title
JP2021015614A (ja) 産業設備における機械の監視及び制御のための装置、及び複数のこのような装置を含むシステム
Tan et al. An embedded cloud database service method for distributed industry monitoring
CN108259270A (zh) 一种数据中心统一管理系统设计方法
CN112751726B (zh) 一种数据处理方法、装置、电子设备和存储介质
CN108989136A (zh) 业务端到端性能监控方法及装置
CN109246073A (zh) 一种数据流处理系统及其方法
CN108733464A (zh) 一种确定计算任务的调度方案的方法及装置
AT512528A4 (de) Verfahren und Apparat zur Vermittlung von zeitgesteuerten und ereignisgesteuerten Nachrichten
Wan et al. Analysis and modeling of the end-to-end i/o performance on olcf's titan supercomputer
CN103294599A (zh) 一种基于云的嵌入式软件交叉测试方法
Li et al. Constructing large-scale real-world benchmark datasets for aiops
Dai et al. Performance adjustable event-triggered synchronization policies to nonlinear multiagent systems
CN113094235B (zh) 一种尾延迟异常云审计系统及方法
CN111077851A (zh) 一种基于气相色谱雾计算框架的化工过程故障诊断系统
CN113901047A (zh) 一种基于内存数据库的简便集群主从选举方法
CN102998543B (zh) 一种机组调节性能评价方法及装置
CN113392155A (zh) 面向多类型产业集群互联网流式数据存储与计算系统
CN103679550A (zh) 基于状态检修的输变电设备评估系统
US9304890B2 (en) Method for throttling trace data streams
CN106709016A (zh) 一种基于服务总线的数据交换方法
CN109828092A (zh) 一种污水监测系统
CN102882697B (zh) 一种基于回调机制的网管系统多客户端的消息接收方法
CN108282360A (zh) 一种长短期预测融合的故障检测方法
US9910716B2 (en) Synchronization in a multi-processor computing system
CN105553706B (zh) 一种基于数据流的机电管理余度系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118