CN111475564A - 一种流式数据处理方法、系统、计算机设备及存储介质 - Google Patents

一种流式数据处理方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN111475564A
CN111475564A CN202010287209.6A CN202010287209A CN111475564A CN 111475564 A CN111475564 A CN 111475564A CN 202010287209 A CN202010287209 A CN 202010287209A CN 111475564 A CN111475564 A CN 111475564A
Authority
CN
China
Prior art keywords
data
task
streaming
output
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010287209.6A
Other languages
English (en)
Inventor
张建浩
武林红
侯立冬
孟宝权
梁彧
田野
傅强
王杰
杨满智
蔡琳
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202010287209.6A priority Critical patent/CN111475564A/zh
Publication of CN111475564A publication Critical patent/CN111475564A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种流式数据处理方法、系统、计算机设备及存储介质,方法包括:对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据;将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;其中,所述源数据为流式数据。本发明实施例的技术方案能够实现流式数据处理流程的可视化管理,并降低流式数据处理的学习成本。

Description

一种流式数据处理方法、系统、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种流式数据处理方法、系统、计算机设备及存储介质。
背景技术
大规模数据分析处理系统的任务就是对海量数据进行处理,从大量数据中分析挖掘出有价值的知识。通常的数据处理系统需要读取来自各个数据源的数据,并对读取的数据进行分析和处理。
常用的数据处理方式有四种:传统ETL(Extract,transform,load,抽取、清洗、转换、装载)工具、MapReduce(一种编程模型)、Hive(一个数据仓库工具)及Spark(一种计算引擎),用户一般会选择特定场景来选择数据处理方式。ETL作为一种数据处理工具,能够将业务系统的源数据经过抽取、清洗转换之后加载到数据仓库,从而将分散、零乱、标准不统一的数据进行整合。MapReduce作为一种数据处理工具,能够进行大规模数据集(大于1TB)的并行运算。Hive作为基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql(Structured Query Language,结构化查询语言)查询功能,可以将sql语句转换为MapReduce任务进行运行。Spark是一种大规模数据处理而设计的快速通用的计算引擎,是个开源的数据分析集群计算框架,提供了一个更快、更通用的数据处理平台。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:传统的ETL工具对于数据量上升导致的性能问题,可优化空间很小,不支持大数据相关的数据源、可扩展性较差、处理性能不足、对流数据处理支持不足,无法满足实时流式数据处理的需求。而对于MapReduce、Hive、Spark三种常用的批处理框架来说,在实际使用中,通常需要使用SDK(Software Development Kit,软件开发工具包)进行二次开发,处理性能依赖于硬件及开发人员的设计、算法及代码质量,对于非专业人员来说学习成本较高。
发明内容
本发明实施例提供一种流式数据处理方法、系统、计算机设备及存储介质,以实现流式数据处理流程的可视化管理,并降低流式数据处理的学习成本。
第一方面,本发明实施例提供了一种流式数据处理方法,包括:
对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;
从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据;
将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;
其中,所述源数据为流式数据。
第二方面,本发明实施例还提供了一种流式数据处理系统,包括流数据任务建立模块、流数据任务管理模块、流数据处理模块及流数据任务存储模块,其中:
所述流数据任务建立模块与所述流数据任务管理模块通信连接,用于对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;
所述流数据任务管理模块与所述流数据处理模块通信连接,用于管理所述可视化流数据任务;
所述流数据处理模块用于从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;其中,所述源数据为流式数据;
所述流数据任务存储模块与所述流数据任务管理模块通信连接,用于存储所述可视化流数据任务。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的流式数据处理方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的流式数据处理方法。
本发明实施例通过对待建立流数据任务的数据输入节点和数据输出节点等关联任务节点进行可视化配置,得到可视化流数据任务,以从数据输入节点获取源数据,并对源数据进行处理,得到输出数据,然后将输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据,解决现有流数据处理方法存在的处理流程无法可视化管理且学习成本较高等问题,从而实现流式数据处理流程的可视化管理,并降低流式数据处理的学习成本。
附图说明
图1是本发明实施例一提供的一种流式数据处理方法的流程图;
图2是本发明实施例二提供的一种流式数据处理方法的流程图;
图3a是本发明实施例三提供的一种流式数据处理系统的示意图;
图3b是本发明实施例三提供的一种流式数据处理系统的示意图;
图3c是本发明实施例三提供的一种可视化流数据任务流程的效果示意图;
图3d是本发明实施例三提供的一种可视化流数据任务流程的效果示意图;
图3e是本发明实施例三提供的一种可视化流数据任务流程的效果示意图;
图3f是本发明实施例三提供的一种流数据处理节点的结构示意图;
图3g是本发明实施例三提供的一种可视化流数据任务的执行流程图;
图3h是本发明实施例三提供的一种流式数据处理的流程图;
图4为本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种流式数据处理方法的流程图,本实施例可适用于通过可视化界面对流数据进行处理的情况,该方法可以由流式数据处理系统来执行,该系统可以由软件的方式来实现,并一般可集成在计算机设备中。相应的,如图1所示,该方法包括如下操作:
S110、对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点。
其中,待建立流数据任务可以是需要根据业务需求建立的,用于对流式数据进行处理的任务。关联任务节点可以是执行流数据任务所依赖的各种可视化的功能组件。可选的,关联任务节点可以包括数据输入节点和数据输出节点。其中,数据输入节点可以用于从数据源中获取源数据,数据输出节点可以用于对源数据对应的输出数据进行输出处理,得到对应的目标数据。可视化流数据任务可以对待建立流数据任务的关联任务节点中的节点参数进行可视化配置后,所建立起的完整流数据处理任务。
在本发明实施例中,对待建立流数据任务的关联任务节点进行可视化配置,具体可以是根据具体的业务需求,对待建立流数据任务的数据输入节点和数据输出节点等可视化的关联任务节点的节点参数进行配置,从而实现对关联任务节点的功能设定,得到可视化流数据任务。也即,可视化流数据任务可以实现流数据处理任务可视化配置和展示,操作用户可以在可视化界面中对关联任务节点进行简单的点击操作即可对可视化流数据任务进行操作,如点击任务开始或点击停止任务等,不仅操作简单,而且还能使操作用户清晰地了解整个流数据处理流程,非专业技术人员也可快速掌握可视化流数据任务的建立和操作,从而降低了流式数据处理的学习成本。
在本发明的一个可选实施例中,所述待建立流数据任务的类型为多个;所述对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务,可以包括:对各所述待建立流数据任务的关联任务节点分别进行可视化配置,得到各所述待建立流数据任务对应的多个可视化流数据任务;在得到可视化流数据任务之后,还可以包括:存储所述可视化流数据任务。
在本发明的一个可选实施例中,在所述得到可视化流数据任务之后,还可以包括:通过任务类加载器对各所述可视化流数据任务进行加载隔离。
其中,任务类加载器可以是根据任务处理需求设计的一种类加载器,用于对各个可视化流数据任务进行加载隔离。
在本发明实施例中,还可以支持同时建立多个可视化流数据任务,各个可视化流数据任务之间可以通过任务类加载器相互隔离,每个可视化流数据任务独立配置,独立运行,操作用户还可以指定运行可视化流数据任务的计算机设备,一个可视化流数据任务可以运行在一个或多个计算机设备上。相应的,可视化流数据任务建立之后,可以存储在对应的流数据任务存储模块(如本地数据库等)中。
在本发明的一个可选实施例中,流式数据处理方法还可以包括:通过任务管理接口对各所述可视化流数据任务进行任务管理;其中,所述任务管理包括添加可视化流数据任务、删除可视化流数据任务、修改可视化流数据任务、查找可视化流数据任务、开启可视化流数据任务、停止可视化流数据任务、监控可视化流数据任务状态以及心跳维护中的至少一项。
其中,任务管理接口可以支持不同功能的任务管理操作。在本发明实施例中,任务管理包括但不限于可视化流数据任务的添加、删除、修改、查找、开启、停止、监控等,还可以对执行流数据处理的对象进行心跳维护等。
S120、从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据。
其中,所述源数据为流式数据。
在本发明实施例中,如果任务关联节点只包括数据输入节点和数据输出节点,则从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,具体可以是:从数据输入节点获取源数据,将获取的源数据直接作为输出数据。
在本发明的一个可选实施例中,所述关联任务节点还可以包括至少一个数据转换节点;所述从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,可以包括:从所述数据输入节点获取源数据,通过所述数据转换节点对所述源数据进行数据转换操作,得到所述输出数据。
其中,数据转换节点用于对获取的源数据进行数据转换操作。
相应的,在本发明实施例中,如果任务关联节点还包括至少一个数据转换节点,则从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,具体可以是:从数据输入节点获取源数据,通过各数据转换节点对源数据进行诸如字段选择、类型校验、范围校验、替换等数据转换操作,从而得到对应的输出数据。
S130、将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据。
其中,目标数据可以是可视化流数据任务对获取的源数据进行处理后得到的最终的需求数据。
相应的,在得到输出数据后,即可将输出数据输出至数据输出节点。输出节点接收到输出数据后,可以对输出数据进行输出处理,如设定输出格式或数量等。需要说明的是,在对源数据处理的过程中,如果识别到源数据中不符合输入、转换、输出规则的异常数据,则可以将识别到的异常数据进行统一管理输出。另外还需说明的是,数据输入节点至数据输出节点对应的流式数据处理流程,对操作用户并不可见。
在本发明的一个可选实施例中,所述数据输入节点的类型为多个;所述输出节点的类型为多个;从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,可以包括:从所述数据输入节点获取至少一种源数据,并对所述源数据进行处理,得到输出数据;所述将所述输出数据输出至数据输出节点,以使数据输出节点输出目标数据,可以包括:将所述输出数据输出至至少一个所述数据输出节点,以使所述数据输出节点根据设定输出需求输出对应的目标数据。
其中,设定输出需求可以是设定的业务输出需求,示例性的,设定输出需求可以指定输出数据的数据格式和数量等,每个数据输出节点可以对应设置不同的设定输出需求,本发明实施例并不对设定输出需求的具体内容进行限定。
在本发明实施例中,同一个可视化流数据任务中包括的数据输入节点和数据输出节点的类型可以是多个。也即,本发明实施例可以实现对异构数据源的处理,并支持同时输出多种类型的目标数据。
本发明实施例通过对待建立流数据任务的数据输入节点和数据输出节点等关联任务节点进行可视化配置,得到可视化流数据任务,以从数据输入节点获取源数据,并对源数据进行处理,得到输出数据,然后将输出数据输出至数据输出节点,以使数据输出节点输出目标数据,解决现有流数据处理方法存在的处理流程无法可视化管理且学习成本较高等问题,从而实现流式数据处理流程的可视化管理,并降低流式数据处理的学习成本。
实施例二
图2是本发明实施例二提供的一种流式数据处理方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了对源数据进行处理的具体实现方式。相应的,如图2所示,本实施例的方法可以包括:
S210、对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点。
S220、从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据。
可选的,所述源数据可以为单一流式数据或混合流式数据;相应的,对所述源数据进行处理,具体可以包括下述操作:
S221、根据各所述数据转换节点的执行逻辑顺序对所述单一流式数据依次进行数据转换操作,得到所述输出数据。
其中,单一流式数据可以是数据输入节点获取到的统一标准的流式源数据。示例性的,单一流式数据中,所有的数据都包括相同数量和相同类型的字段。执行逻辑顺序可以是各数据转换节点的串行和/或并行顺序。
相应的,如果源数据为单一流式数据,且关联任务节点中包括多个数据转换节点,则对源数据进行处理时,可以直接根据各数据转换节点的执行逻辑顺序对单一流式数据依次进行数据转换操作,从而得到对应的输出数据。
可选的,所述源数据可以为混合流式数据;相应的,对所述源数据进行处理,具体可以包括下述操作:
S222、根据数据匹配条件对所述混合流式数据进行条件匹配;所述数据匹配条件包括至少一个数据匹配子条件;所述数据匹配子条件对应不同的数据转换操作。
S223、确定与所述混合流式数据相匹配的多个目标数据匹配子条件,并根据各所述目标数据匹配子条件的标识对所述混合流式数据进行标记,得到标记混合流式数据。
其中,混合流式数据可以是数据输入节点获取到的非统一标准的流式源数据。例如,混合流式数据中,包括两种类型的流式数据,其中一种类型的流式数据的字段数量为2,分别为字段A和字段B,另外一种类型的流式数据的字段数量为3,分别为字段A、字段B和字段C。又例如,混合流式数据中,包括两种类型的流式数据,其中一种类型的流式数据的字段数量为2,分别为字段A和字段B,另外一种类型的流式数据的字段数量为3,分别为字段C、字段D和字段E。本发明实施例并不对混合流式数据的具体数据内容进行限定。数据匹配条件可以是用于对混合流式数据就是数据分类的条件。数据匹配子条件可以是数据匹配条件中的其中一个分支条件。也即,每个数据匹配子条件可以对应一个具体的数据转换操作。示例性的,数据匹配子条件可以是:筛选数据中字段A的数据。目标数据匹配子条件即为数据匹配条件中与混合流式数据相匹配的所有数据匹配子条件。
相应的,如果源数据为混合流式数据,且关联任务节点中包括多个数据转换节点,则对源数据进行处理时,可以首先根据数据匹配条件对所述混合流式数据进行条件匹配。在匹配的过程中,确定与混合流式数据相匹配的多个目标数据匹配子条件后,可以根据各目标数据匹配子条件的标识对混合流式数据进行标记,得到标记混合流式数据。可选的,目标数据匹配子条件的标识可以是目标数据匹配子条件的名称等,本发明实施例并不对目标数据匹配子条件的标识的类型进行限定。
S224、根据各所述目标数据匹配子条件的标识对所述标记混合流式数据进行分流操作,得到多种分流流式数据。
S225、根据各所述目标数据匹配子条件对应的各所述数据转换节点的执行逻辑顺序对各所述分流流式数据依次进行数据转换操作,得到所述输出数据。
其中,分流流式数据可以是与其中一种目标数据匹配子条件相匹配的数据,每种分流流式数据本质上属于单一流式数据。
可以理解的是,由于一种数据匹配子条件对应一种具体的数据转换操作,也即,一种数据匹配子条件可以利用一种或多种数据转换节点对数据进行转换处理。相应的,得到标记混合流式后,可以根据数据匹配子条件的标识对标记混合流式数据进行分流操作,得到多种分流流式数据。然后可以将每种分流流式数据通过与各分流流式数据相匹配的目标数据匹配子条件对应的各数据转换节点的执行逻辑顺序依次进行数据转换操作,实现数据分拣的目的,从而得到对应的输出数据。
S230、将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据。
本发明实施例通过对不同类型的源数据分别进行处理,能够实现对每种数据绘制单独的数据处理流程。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
实施例三
图3a是本发明实施例三提供的一种流式数据处理系统的示意图,如图3a所示,该流式数据处理的结构包括流数据任务建立模块10、流数据任务管理模块20、流数据处理模块30及流数据任务存储模块40,其中:流数据任务建立模块10与流数据任务管理模块20通信连接,用于对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,关联任务节点包括数据输入节点和数据输出节点;流数据任务管理模块20与流数据处理模块30通信连接,用于管理可视化流数据任务;流数据处理模块30用于从数据输入节点获取源数据,并对源数据进行处理,得到输出数据,将输出数据输出至数据输出节点,以使数据输出节点输出目标数据;其中,源数据为流式数据;流数据任务存储模块40与流数据任务管理模块20通信连接,用于存储可视化流数据任务。
本发明实施例中流式数据处理系统的工作原理是:通过数据任务建立模块对待建立流数据任务的数据输入节点和数据输出节点等关联任务节点进行可视化配置,得到可视化流数据任务,通过流数据任务管理模块管理可视化流数据任务,通过流数据任务存储模块存储可视化流数据任务,并通过流数据处理模块从数据输入节点获取源数据,并对源数据进行处理,得到输出数据,将输出数据输出至数据输出节点,以使数据输出节点输出目标数据。
在本发明的一个可选实施例中,关联任务节点还包括至少一个数据转换节点;流数据处理模块30用于:从数据输入节点获取源数据,通过数据转换节点对源数据进行数据转换操作,得到输出数据。
在本发明的一个可选实施例中,待建立流数据任务的类型为多个;流数据任务建立模块10用于:对各待建立流数据任务的关联任务节点分别进行可视化配置,得到各待建立流数据任务对应的多个可视化流数据任务。
在本发明的一个可选实施例中,流数据任务管理模块20可以通过与流数据任务建立模块10之间的任务管理接口对各可视化流数据任务进行任务管理;其中,任务管理包括添加可视化流数据任务、删除可视化流数据任务、修改可视化流数据任务、查找可视化流数据任务、开启可视化流数据任务、停止可视化流数据任务、监控可视化流数据任务状态以及心跳维护中的至少一项。
在本发明的一个可选实施例中,流数据处理模块30用于:通过任务类加载器对各可视化流数据任务进行加载隔离。
图3b是本发明实施例三提供的一种流式数据处理系统的示意图,在一个具体的示例中,如图3b所示,流数据任务建立模块可以采用WEB UI(Website User Interface,网络产品界面设计)工具实现。流数据任务管理模块可以采用任务管理器实现,流数据处理模块可以通过多个流数据处理节点实现,流数据任务存储模块则可以采用数据库(Database)实现。相应的,WEB UI与任务管理器服务进行前后端交互,用于在前端页面上实现流数据处理任务的可视化配置和展示。也即,可以通过WEB端网页实现关联任务节点的可视化。具体的,可以使用JointJS(一款图形可视化交互工具)框架实现关联任务节点的可视化功能,JointJS是一个基于SVG(Scalable Vector Graphics,可缩放矢量图形)的图形化工具库,支持在前端画布上绘制可拖动的SVG图形。可视化流数据任务流程图绘制完毕,且关联任务节点参数配置完毕后,可保存已绘制的任务流程图和节点参数至数据库。任务管理器后端服务可以通过Restful(Representational State Transfer,表象性状态转变)接口与前端WEB UI交互,实现任务的增删改查、启停控制、状态监控以及心跳注册等操作。任务管理器与底层数据库进行交互,实现可视化流数据任务关联数据的读取与写入。各个流数据处理节点则用于执行真实的流式数据处理。流数据处理节点服务启动后,会注册至任务管理器,并定时向任务管理器发送心跳,以使任务管理器对各流数据处理节点的状态进行监控。多个流数据处理节点的设置不仅可以实现服务间的解耦,而且方便流数据处理节点的横向扩展。
相应的,WEB UI通过自定义多个不同的图形,代表不同节点。图3c是本发明实施例三提供的一种可视化流数据任务流程的效果示意图,在一个具体的例子中,如图3c所示,可视化流数据任务流程图中可以包括数据输入节点301、数据输出节点302及数据转换节点303,同时还可以设置开始节点304和结束节点305两种类型的关联任务节点,以对可视化流数据任务进行操作。其中,数据输入节点301中可以配置不同类型的数据源,包括但不限于文件、syslog(日志)、JDBC(Java Data Base Connectivity,java数据库连接)或KAFKA(分布式发布订阅消息系统)等,只要是可以提供流式数据的系统或组件等均可以作为数据输入节点301,且数据输入节点301中可以配置一个或同时配置多个不同的数据源,本发明实施例并不对数据输入节点301中数据源的类型和数量进行限定。数据输出节点302可以输出不同类型的目标数据,目标数据的类型包括但不限于文件、HDFS(Hadoop分布式文件系统)、JDBC及KAFKA等,且数据输出节点302可以配置输出一种或同时输出多个类型的目标数据,当数据输出节点302需要输出多个类型的目标数据时,可以对获取的输出数据进行备份,再根据输出数据输出对应类型的目标数据。本发明实施例同样不对数据输出节点302输出的目标数据的种类和数量进行限定。数据转换节点303中可以配置不同类型的转换组件,包括但不限于字段选择、类型校验、范围校验及替换等转换组件。然后使用线条连接上述多个节点,从而实现可视化流数据任务流程图的绘制。每个节点都可以自定义参数,点击节点即可配置节点参数。当建立好可视化流数据任务流程图后,操作用户点击开始节点304,该可视化流数据任务即开始运行,数据输入节点301、数据输出节点302及数据转换节点303开始工作,直至操作用户点击结束节点305。
在本发明实施例中,数据转换节点303中的转换组件的数量可以是0个,也可以是多个。当数据转换节点303中的转换组件数量为0时,数据输入节点301获取的源数据无需进行转换操作,可以直接作为输出数据,并由数据输出节点302进行输出。当数据转换节点303中的转换组件数量为多个时,各转换组件可以设置串行或/和并行的执行逻辑顺序,并按照执行逻辑顺序对获取的源数据进行数据转换操作。图3d是本发明实施例三提供的一种可视化流数据任务流程的效果示意图,图3e是本发明实施例三提供的一种可视化流数据任务流程的效果示意图,如图3d所示,在数据转换节点303获取到数据输入节点301发送的源数据后,通过T1和T2两个组件并行对获取的源数据进行T1数据转换操作和T2数据转换操作,T1和T2两个组件生成的数据同时输入至T3组件,并由T3组件进行T3数据转换操作,得到对应的输出数据,并将输出数据输入至数据输出节点302,由数据输出节点302输出最终的目标数据。上述方案中,T1和T2组件之间是并行逻辑关系,T1与T3之间,以及T2与T3之间是串行关系。如图3e所示,在数据转换节点303获取到数据输入节点301发送的源数据后,首先通过T1组件对获取的源数据进行T1数据转换操作,T1组件生成的数据输入至T2组件,并由T2组件进行T2数据转换操作,得到对应的输出数据,并将输出数据输入至数据输出节点302,由数据输出节点302输出最终的目标数据。上述方案中,T1和T2组件之间是串行关系。各数据转换节点按照执行逻辑顺序组成的链条可以称为数据转换链。
图3f是本发明实施例三提供的一种流数据处理节点的结构示意图。在一个具体的例子中,如图3f所示,流数据处理节点的源数据读插件可以针对数据源的类型设置,如可以包括但不限于文件读插件、JDBC读插件、KAFKA读插件以及syslog读插件等。流数据处理节点的输出数据写插件也可以针对目标数据的类型设置,如可以包括但不限于文件写插件、JDBC写插件、HDFS写插件、KAFKA写插件以及ElasticSearch写插件等。流数据处理节点的streaming部分表示流式处理方式,可以包括插件热加载、数据转换链以及帐数据管理器等功能。其中,插件热加载同时支持源数据读插件和输出数据写插件,可以通过自定义类加载器、SPI(Serial Peripheral Interface,串行外设接口)或OSGI(Open Service GatewayInitiative,开放服务网关协议)等插件化技术实现插件热加载功能。异常数据管理器可以对流式数据处理过程中识别到的异常数据进行统一输出和管理。同时流数据处理节点还可以支持文件回执功能,即流式数据处理系统每处理一个原始的数据文件,都对应输出一个回执文件。
图3g是本发明实施例三提供的一种可视化流数据任务的执行流程图,如图3g所示,流数据处理节点对可视化流数据任务的加载配置有专属的类加载器,各个可视化流数据任务间类加载隔离,以保证在运用到静态变量等问题时的互不影响,操作用户在展示界面绘制的可视化流数据任务提交后,可以被流数据处理节点解析形成可视化流数据任务的任务执行图,并将任务执行图提交给Flink(一种开源流处理框架)来进行资源分配和实际运行。其中,对于流式数据进行批处理时,还可以采用转流的方式。也可采用其他流数据处理方案,或者基于其他开源组件如Spark或Storm(一种编程模型)等实现。由于各可视化流数据任务间相互隔离,因此任务管理器可以提交多个可视化流数据任务到流数据处理节点进行处理,以便提高流数据处理节点单机的资源利用率。
上述方案中,源数据采用流式数据接入,各个数据源读取和写入可以进行自由组合,数据源读插件和输出数据写插件支持热加载,例如,操作用户在可视化流数据任务的展示界面中修改了数据源后,无需重启进程,只需要重启可视化流数据任务即可切换到修改后的数据源。利用可视化组件进行描述流式数据的处理过程,使得操作用户可以方便的绘制流式数据处理流程,同时可以直接在展示界面上使用测试数据对整个流式数据处理流程进行功能性验证。支持同时建立多个可视化流数据任务,各个可视化流数据任务之间可以通过任务类加载器相互隔离,每个可视化流数据任务独立配置,独立运行,操作用户还可以指定运行可视化流数据任务的计算机设备,一个可视化流数据任务可以运行在一个或多个计算机设备上。
在本发明的一个可选实施例中,所述数据输入节点的类型为多个;所述输出节点的类型为多个;流数据处理模块30用于:从所述数据输入节点获取至少一种源数据,并对所述源数据进行处理,得到输出数据;将所述输出数据输出至至少一个所述数据输出节点,以使所述数据输出节点输出对应的目标数据。
在本发明的一个可选实施例中,所述源数据为单一流式数据;流数据处理模块30用于:根据各所述数据转换节点的执行逻辑顺序对所述单一流式数据依次进行数据转换操作,得到所述输出数据。
在本发明的一个可选实施例中,所述源数据为混合流式数据;流数据处理模块30用于:根据数据匹配条件对所述混合流式数据进行条件匹配;所述数据匹配条件包括至少一个数据匹配子条件;所述数据匹配子条件对应不同的数据转换操作;确定与所述混合流式数据相匹配的多个目标数据匹配子条件,并根据各所述目标数据匹配子条件的标识对所述混合流式数据进行标记,得到标记混合流式数据;根据各所述目标数据匹配子条件的标识对所述标记混合流式数据进行分流操作,得到多种分流流式数据;根据各所述目标数据匹配子条件对应的各所述数据转换节点的执行逻辑顺序对各所述分流流式数据依次进行数据转换操作,得到所述输出数据。
图3h是本发明实施例三提供的一种流式数据处理的流程图,在一个具体的例子中,如图3h所示,结合上述示例进一步描述,则单一流式数据的处理方法具体可以是:流数据处理节点通过数据源的读取插件读取源数据,并对源数据进行标准化处理,形成统一的流数据。如果流数据为单一流式数据,则单一流式数据可以直接进入后续数据转换节点进行统一的处理,数据转换操作根据操作用户绘制的各数据转换节点的执行逻辑顺序进行处理,前一个或多个并行的数据转换节点的数据处理完成后,被调度器送往下一个或多个并行的数据转换节点执行另外的数据转换操作。图3h仅示出了在各数据转换节点的串行执行顺序下的数据处理过程。单一流式数据在数据转换的过程中如果遇到异常数据,则将异常数据交由脏数据管理器进行统一管理输出,数据最终处理完成后,得到对应的输出数据,输出数据被送入输出数据写插件。需要说明的是,输出数据的输出阶段支持多个输出数据同时输出,也即同一份输出数据,根据目标数据的需求个数进行复制,每一个输出数据写插件都可以接收到该输出数据,如既可以将输出数据直接写入HDFS存储,又可以再向KAFKA中发送一份输出数据。接收到输出数据的输出数据写插件可以输出对应的目标数据,以此实现一份数据的多路目标数据同时输出。
相应的,结合上述示例进一步描述,则混合流式数据的处理方法具体可以是:流数据处理节点通过数据源的读取插件读取源数据,并识别到源数据为混合流式数据,则首先根据数据匹配条件中包括的各数据匹配子条件对源数据进行条件匹配,数据匹配子条件可以根据某个字段的值或者多个字段的值设置。如果源数据满足数据匹配子条件则对该条混合流式数据进行标记。假设标记之前数据的数据结构为RowData,RowData存储了一条数据的内容,每个字段占用一定空间。数据对应的数据匹配子条件的名称为key,将数据匹配子条件的名称作为标识对数据进行标记之后形成二元组Tuple(key,RowData)。标记后的数据在进行数据转换操作时,先根据二元组的key进行对混合流式数据进行分流操作,得到多种分流流式数据。每种分流流式数据属于一种类型的单一流式数据。将各分流流式数据落入不同的数据匹配子条件,每个数据匹配子条件代表了一个数据转换处理流程,每个数据匹配子条件对应的数据转换处理流程可以分别输出不同的输出数据,以此来实现数据分拣的目的,分拣完后的输出数据最终被规范化的写入对应的输出数据写插件,得到对应的目标数据并存储。由此可见,在本发明实施例中,单独的可视化流数据任务可以支持混合类型的流式数据的处理,通过对混合数据分拣得到单一流式数据,每种单一流式数据执行不通的数据转换操作,最终得到对应的目标数据。
由此可见,在本发明实施例所提供的流式数据处理系统中,源数据的接入可以采用流式接入方式,以实现对流式数据的处理。在数据处理过程中,可以根据后续关联任务节点的处理速度,控制输入的前驱关联任务节点的速度,从而保证流式数据处理的协调一致。同时,同一个流式数据处理任务可以处理混杂在一起的多种不同结构的数据,并对每种类型的数据执行单独的数据转换处理流程,从而实现将混合在一起的数据进行分拣。
综上,本发明实施例提供的流式数据处理系统可以支持处理异构数据源,将不同数据源的数据进行高效抽取后,可以按照指定的转换规则进行数据转换,最后输出多种类型的目标数据。对于数据源的配置支持可视化操作,并提供了功能丰富的数据转换节点,便于对从数据源抽取的数据进行自定义的数据转换处理操作,同时还可对系统进行数据源的扩展以及数据转换处理过程的监控。本发明实施例所提供的流式数据处理系统的数据处理更高效,适合大数据处理场景,通过对底层数据处理函数进行优化,单机的流数据处理节点日均可处理TB级别数据,且数据处理能力可以水平扩展迁移。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的计算机设备412的框图。图4显示的计算机设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该计算机设备412交互的设备通信,和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口422进行。并且,计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arraysof Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的流式数据处理方法。
也即,所述处理单元执行所述程序时实现:对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据;将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;其中,所述源数据为流式数据。
实施例五
本发明实施例五还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的流式数据处理方法:对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据;将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;其中,所述源数据为流式数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种流式数据处理方法,其特征在于,包括:
对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;
从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据;
将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;
其中,所述源数据为流式数据。
2.根据权利要求1所述的方法,其特征在于,所述关联任务节点还包括至少一个数据转换节点;
所述从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,包括:
从所述数据输入节点获取源数据,通过所述数据转换节点对所述源数据进行数据转换操作,得到所述输出数据。
3.根据权利要求2所述的方法,其特征在于,所述数据输入节点的类型为多个;所述输出节点的类型为多个;
从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,包括:
从所述数据输入节点获取至少一种源数据,并对所述源数据进行处理,得到输出数据;
所述将所述输出数据输出至数据输出节点,以使数据输出节点设定输出需求输出目标数据,包括:
将所述输出数据输出至至少一个所述数据输出节点,以使所述数据输出节点输出对应的目标数据。
4.根据权利要求3所述的方法,其特征在于,所述源数据为单一流式数据;
所述对所述源数据进行处理,包括:
根据各所述数据转换节点的执行逻辑顺序对所述单一流式数据依次进行数据转换操作,得到所述输出数据。
5.根据权利要求3所述的方法,其特征在于,所述源数据为混合流式数据;
所述对所述源数据进行处理,包括:
根据数据匹配条件对所述混合流式数据进行条件匹配;所述数据匹配条件包括至少一个数据匹配子条件;所述数据匹配子条件对应不同的数据转换操作;
确定与所述混合流式数据相匹配的多个目标数据匹配子条件,并根据各所述目标数据匹配子条件的标识对所述混合流式数据进行标记,得到标记混合流式数据;
根据各所述目标数据匹配子条件的标识对所述标记混合流式数据进行分流操作,得到多种分流流式数据;
根据各所述目标数据匹配子条件对应的各所述数据转换节点的执行逻辑顺序对各所述分流流式数据依次进行数据转换操作,得到所述输出数据。
6.根据权利要求1-5任一所述的方法,其特征在于,所述待建立流数据任务的类型为多个;
所述对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务,包括:
对各所述待建立流数据任务的关联任务节点分别进行可视化配置,得到各所述待建立流数据任务对应的多个可视化流数据任务;
在得到可视化流数据任务之后,还包括:
存储所述可视化流数据任务。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过任务管理接口对各所述可视化流数据任务进行任务管理;
其中,所述任务管理包括添加可视化流数据任务、删除可视化流数据任务、修改可视化流数据任务、查找可视化流数据任务、开启可视化流数据任务、停止可视化流数据任务、监控可视化流数据任务状态以及心跳维护中的至少一项。
8.根据权利要求6所述的方法,其特征在于,在所述得到可视化流数据任务之后,还包括:
通过任务类加载器对各所述可视化流数据任务进行加载隔离。
9.一种流式数据处理系统,其特征在于,包括流数据任务建立模块、流数据任务管理模块、流数据处理模块及流数据任务存储模块,其中:
所述流数据任务建立模块与所述流数据任务管理模块通信连接,用于对待建立流数据任务的关联任务节点进行可视化配置,得到可视化流数据任务;其中,所述关联任务节点包括数据输入节点和数据输出节点;
所述流数据任务管理模块与所述流数据处理模块通信连接,用于管理所述可视化流数据任务;
所述流数据处理模块用于从所述数据输入节点获取源数据,并对所述源数据进行处理,得到输出数据,将所述输出数据输出至数据输出节点,以使所述数据输出节点输出目标数据;其中,所述源数据为流式数据;
所述流数据任务存储模块与所述流数据任务管理模块通信连接,用于存储所述可视化流数据任务。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的流式数据处理方法。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的流式数据处理方法。
CN202010287209.6A 2020-04-13 2020-04-13 一种流式数据处理方法、系统、计算机设备及存储介质 Pending CN111475564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010287209.6A CN111475564A (zh) 2020-04-13 2020-04-13 一种流式数据处理方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010287209.6A CN111475564A (zh) 2020-04-13 2020-04-13 一种流式数据处理方法、系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111475564A true CN111475564A (zh) 2020-07-31

Family

ID=71751757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010287209.6A Pending CN111475564A (zh) 2020-04-13 2020-04-13 一种流式数据处理方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111475564A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328216A (zh) * 2020-11-03 2021-02-05 成都中科大旗软件股份有限公司 基于画布节点进行数据开发的方法、系统、计算机设备和存储介质
CN112559453A (zh) * 2020-12-09 2021-03-26 恒安嘉新(北京)科技股份公司 一种数据入库方法、装置、电子设备和存储介质
CN112783869A (zh) * 2021-02-27 2021-05-11 中电万维信息技术有限责任公司 一种基于大数据可视化建模及结果展示的方法
CN113190600A (zh) * 2020-12-31 2021-07-30 西安经发物业股份有限公司 多系统数据融合方法及应用平台
CN113326305A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 一种处理数据的方法和装置
CN113742040A (zh) * 2021-08-09 2021-12-03 广州市易工品科技有限公司 基于可视化界面快速生成分布式批处理任务的方法和装置
CN113918298A (zh) * 2021-10-12 2022-01-11 北京字节跳动网络技术有限公司 多媒体数据的处理方法、系统及设备
CN114756293A (zh) * 2022-03-07 2022-07-15 曙光信息产业(北京)有限公司 业务处理方法、装置、计算机设备和存储介质
CN116566789A (zh) * 2023-04-13 2023-08-08 南京优玛软件科技有限公司 商机引擎实时流处理方法
CN117669503A (zh) * 2023-11-29 2024-03-08 雅昌文化(集团)有限公司 一种流式的pdf处理方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427587A (zh) * 2018-01-10 2018-08-21 链家网(北京)科技有限公司 可视化任务配置方法、系统、电子设备及存储介质
CN110020021A (zh) * 2018-09-03 2019-07-16 福建星瑞格软件有限公司 基于可视化的数据流处理方法
US20190332365A1 (en) * 2018-04-27 2019-10-31 Hitachi, Ltd. Apparatus and method for assisting preparation of flow using visual programming tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427587A (zh) * 2018-01-10 2018-08-21 链家网(北京)科技有限公司 可视化任务配置方法、系统、电子设备及存储介质
US20190332365A1 (en) * 2018-04-27 2019-10-31 Hitachi, Ltd. Apparatus and method for assisting preparation of flow using visual programming tool
CN110020021A (zh) * 2018-09-03 2019-07-16 福建星瑞格软件有限公司 基于可视化的数据流处理方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328216A (zh) * 2020-11-03 2021-02-05 成都中科大旗软件股份有限公司 基于画布节点进行数据开发的方法、系统、计算机设备和存储介质
CN112559453A (zh) * 2020-12-09 2021-03-26 恒安嘉新(北京)科技股份公司 一种数据入库方法、装置、电子设备和存储介质
CN113190600A (zh) * 2020-12-31 2021-07-30 西安经发物业股份有限公司 多系统数据融合方法及应用平台
CN112783869A (zh) * 2021-02-27 2021-05-11 中电万维信息技术有限责任公司 一种基于大数据可视化建模及结果展示的方法
CN113326305A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 一种处理数据的方法和装置
CN113742040B (zh) * 2021-08-09 2024-04-19 广州市易工品科技有限公司 基于可视化界面快速生成分布式批处理任务的方法和装置
CN113742040A (zh) * 2021-08-09 2021-12-03 广州市易工品科技有限公司 基于可视化界面快速生成分布式批处理任务的方法和装置
CN113918298A (zh) * 2021-10-12 2022-01-11 北京字节跳动网络技术有限公司 多媒体数据的处理方法、系统及设备
WO2023061137A1 (zh) * 2021-10-12 2023-04-20 北京字节跳动网络技术有限公司 多媒体数据的处理方法、系统及设备
CN113918298B (zh) * 2021-10-12 2024-05-14 北京字节跳动网络技术有限公司 多媒体数据的处理方法、系统及设备
CN114756293A (zh) * 2022-03-07 2022-07-15 曙光信息产业(北京)有限公司 业务处理方法、装置、计算机设备和存储介质
CN116566789A (zh) * 2023-04-13 2023-08-08 南京优玛软件科技有限公司 商机引擎实时流处理方法
CN116566789B (zh) * 2023-04-13 2024-05-10 南京优玛软件科技有限公司 商机引擎实时流处理方法
CN117669503A (zh) * 2023-11-29 2024-03-08 雅昌文化(集团)有限公司 一种流式的pdf处理方法与系统

Similar Documents

Publication Publication Date Title
CN111475564A (zh) 一种流式数据处理方法、系统、计算机设备及存储介质
CN111045655B (zh) 一种页面渲染的方法、装置、渲染服务器和存储介质
Belcastro et al. Programming models and systems for big data analysis
US9336288B2 (en) Workflow controller compatibility
CN107807815B (zh) 分布式处理任务的方法和装置
CN110515912A (zh) 日志处理方法、装置、计算机装置及计算机可读存储介质
CN105677812A (zh) 一种数据查询方法及数据查询装置
US10095699B2 (en) Computer-readable recording medium, execution control method, and information processing apparatus
CN105389402A (zh) 一种面向大数据的etl方法和装置
US20160283610A1 (en) Hybrid flows containing a continous flow
CN112115113B (zh) 数据存储系统、方法、装置、设备以及存储介质
US20140237554A1 (en) Unified platform for big data processing
CN112860238A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN111679911B (zh) 云环境中gpu卡的管理方法、装置、设备及介质
CN110851234A (zh) 基于docker容器的日志处理方法及装置
Bala et al. P-ETL: Parallel-ETL based on the MapReduce paradigm
CN115934855A (zh) 一种全链路字段级血缘解析方法、系统、设备及存储介质
WO2024088207A1 (zh) 视图生成方法、装置、电子设备及存储介质
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN114036183A (zh) 一种数据etl处理方法、装置、设备及介质
CN111061743B (zh) 数据加工方法、装置和电子设备
CN112559525A (zh) 数据检查系统、方法、装置和服务器
Vanhove et al. Tengu: An experimentation platform for big data applications
CN113778961B (zh) 一种cim模型数据的生产管理方法、装置及系统
CN115857918A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731