CN114265680A

CN114265680A - 一种海量数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114265680A
Application number: CN202111598920.4A
Authority: CN
Inventors: 张若玺; 蒋洪月; 高艳芳; 张宇峰; 李忠
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-01

Abstract

本申请提供一种海量数据处理方法、装置、电子设备及存储介质，该方法包括：获取海量数据和海量数据的业务场景类型对应的业务流程；根据业务场景类型对应的业务流程获取算子库中的多个算子，并对多个算子进行编排，获得数据处理任务；根据数据处理任务对海量数据进行处理。通过根据海量数据的业务场景类型将业务流程划分为多个算子，并采用根据业务场景类型对应的业务流程对多个算子进行编排的方式实现业务流程的可编排化，替代了使用传统脚本文件的硬编码方式处理海量数据，也避免了协调程序员对脚本文件进行修改、调试和执行等繁琐过程的情况，从而有效地提高了对海量数据进行业务流程处理的效率。

Description

一种海量数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据处理和云计算的技术领域，具体而言，涉及一种海量数据处理方法、装置、电子设备及存储介质。

背景技术

Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

Apache Spark，又被简称为Spark，是一个基于内存计算的开源的集群计算系统，也是一个开源集群运算框架，使得数据分析更加快速；在把Oracle数据迁移到大数据环境里面的前提下，需要对数据进行分析。

目前，针对海量数据进行处理的方法，大都是采用结合Hadoop和Spark等大数据计算框架来实现海量数据的处理任务。然而，在具体的实践过程中发现，使用这些大数据计算框架需要程序员编写的脚本文件来实现业务流程，由于编写脚本文件对于程序员的技术水平要求较高，且执行过程中的调试过程和测试过程的难度较大，所以一旦业务流程变更，就需要重新协调程序员对脚本文件进行修改、调试和执行等繁琐过程。因此，目前针对海量数据进行业务流程处理的效率较低。

发明内容

本申请实施例的目的在于提供一种海量数据处理方法、装置、电子设备及存储介质，用于改善对海量数据进行业务流程处理的效率较低的问题。

本申请实施例提供了一种海量数据处理方法，包括：获取海量数据和海量数据的业务场景类型对应的业务流程，业务流程是由不同的算子组合而成的数据处理流程；根据业务场景类型对应的业务流程获取算子库中的多个算子，并对多个算子进行编排，获得数据处理任务；根据数据处理任务对海量数据进行处理。在上述的实现过程中，通过根据海量数据的业务场景类型将业务流程划分为多个算子，并采用根据业务场景类型对应的业务流程对多个算子进行编排的方式实现业务流程的可编排化，替代了使用传统脚本文件的硬编码方式处理海量数据，也避免了协调程序员对脚本文件进行修改、调试和执行等繁琐过程的情况，最后，根据编排的数据处理任务对海量数据进行处理，从而有效地提高了对海量数据进行业务流程处理的效率。

可选地，在本申请实施例中，根据业务场景类型对应的业务流程对多个算子进行编排，包括：判断业务场景类型是否是单向流通；若是，则使用Flink批处理框架根据单向流通的业务流程对多个算子进行编排。在上述的实现过程中，通过在业务场景类型是单向流通的情况下，就使用Flink批处理框架根据单向流通的业务流程对多个算子进行编排，使用Flink批处理框架对多个算子进行编排的方式可以有效地将传统硬编码的方式改变为用户拖拽算子编排的方式，从而能够灵活地应对不同业务场景下的数据处理功能，有效地克服了传统编码方式的作业效率低、标准化程度不高和可维护性差的缺点。

可选地，在本申请实施例中，在判断业务场景类型是否是单向流通之后，还包括：若业务场景类型是双向流通，则使用Netty批处理框架根据双向流通的业务流程对多个算子进行编排。在上述的实现过程中，通过在业务场景类型是双向流通的情况下，就使用Netty批处理框架根据双向流通的业务流程对多个算子进行编排，从而使用Netty批处理框架对多个算子进行编排的方式可以有效地将传统硬编码的方式改变为用户拖拽算子编排的方式，从而能够灵活地应对不同业务场景下的数据处理功能，同时，利用前端可视化界面实现不同业务场景下的业务流程中的数据处理功能，极大程度上降低了针对每个业务流程代码量，并通过自定义算子的方式提高了可扩展性。

可选地，在本申请实施例中，根据数据处理任务对海量数据进行处理，包括：向服务器集群发送数据处理任务，以使服务器集群中的服务器节点执行数据处理任务。在上述的实现过程中，通过向服务器集群发送数据处理任务，以使服务器集群中的服务器节点执行数据处理任务，从而充分地利用了服务器集群中的服务器节点来完成数据处理任务，有效地提高了数据处理任务的执行效率。

可选地，在本申请实施例中，在向服务器集群发送数据处理任务之后，还包括：接收服务器集群发送的数据处理任务对应的处理结果，获得多个处理结果，并可视化输出多个处理结果。在上述的实现过程中，通过可视化输出多个处理结果，从而使得用户可以直观地看到输出的多个处理结果，避免某些数据处理任务执行失败导致无法及时反馈给用户的情况，从而充分地利用了服务器集群中的服务器节点来完成数据处理任务，有效地提高了数据处理任务的执行效率。

可选地，在本申请实施例中，还包括：获取多个算子，并对多个算子进行可视化输出；或者，向终端设备发送多个算子，以使终端设备对多个算子进行可视化输出。在上述的实现过程中，通过电子设备直接对多个算子进行可视化输出，或者，还可以向终端设备发送多个算子，让终端设备对多个算子进行可视化输出，从而让用户在终端设备的可视化界面中直接对不同的算子进行选择和拖拽，从而将不同的算子进行组合，实现不同业务流程的数据处理功能，提升了海量数据处理业务流程的开发效率。

本申请实施例还提供了一种海量数据处理装置，包括：业务流程获取模块，用于获取海量数据和海量数据的业务场景类型对应的业务流程，业务流程是由不同的算子组合而成的数据处理流程；处理任务获得模块，用于根据业务场景类型对应的业务流程对多个算子获取算子库中的多个算子，并进行编排，获得数据处理任务；海量数据处理模块，用于根据数据处理任务对海量数据进行处理。

可选地，在本申请实施例中，处理任务获得模块，包括：单向流通判断模块，用于判断业务场景类型是否是单向流通；第一算子编排模块，用于若业务场景类型是单向流通，则使用Flink批处理框架根据单向流通的业务流程对多个算子进行编排。

可选地，在本申请实施例中，处理任务获得模块，还包括：第二算子编排模块，用于若业务场景类型是双向流通，则使用Netty批处理框架根据双向流通的业务流程对多个算子进行编排。

可选地，在本申请实施例中，海量数据处理模块，包括：处理任务发送模块，用于向服务器集群发送数据处理任务，以使服务器集群中的服务器节点执行数据处理任务。

可选地，在本申请实施例中，海量数据处理模块，还包括：处理结果接收模块，用于接收服务器集群发送的数据处理任务对应的处理结果，获得多个处理结果，并可视化输出多个处理结果。

可选地，在本申请实施例中，海量数据处理装置，还包括：可视化输出模块，用于获取多个算子，并对多个算子进行可视化输出；或者，向终端设备发送多个算子，以使终端设备对多个算子进行可视化输出。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请实施例中的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的海量数据处理方法的流程示意图；

图2示出的本申请实施例提供的某个具体业务流程的示意图；

图3示出的本申请实施例提供的使用Flink处理数据流的示意图；

图4示出的本申请实施例提供的使用Netty处理数据流的示意图；

图5示出的本申请实施例提供的算子可视化输出的流程示意图；

图6示出的本申请实施例提供的海量数据处理装置的结构示意图；

图7示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例中的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围，而是仅仅表示本申请实施例中的选定实施例。基于本申请实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

在介绍本申请实施例提供的海量数据处理方法之前，先介绍本申请实施例中所涉及的一些概念：

Flink是一种开源流处理框架，又被称为Apache Flink，其核心是用Java语言和Scala语言编写的分布式流数据流引擎；Flink以数据并行和管道方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。

分布式数据库(Distributed Data Base，DDB)是用计算机网络将物理上分散的多个数据库单元连接起来组成的一个逻辑上统一的数据库。每个被连接起来的数据库单元称为站点或节点。分布式数据库有一个统一的数据库管理系统来进行管理，称为分布式数据库管理系统。

分布式文件系统(Distributed File System，DFS)，又被称为网络文件系统(Network File System)，是指一种允许文件透过网络在多台主机上分享的文件系统，DFS可以让多机器上的多用户分享文件和存储空间。

需要说明的是，本申请实施例提供的海量数据处理方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

下面介绍该海量数据处理方法适用的应用场景，这里的应用场景包括但不限于：当企业有海量数据需要处理时，可以使用该海量数据处理方法来对海量数据进行处理，从而实现针对海量数据进行业务流程处理的可编排化等，代替传统的硬编码方式编写的脚本文件对海量数据进行处理的方法，避免了协调程序员对脚本文件进行修改、调试和执行等繁琐过程的情况，从而有效地提高了对海量数据进行业务流程处理的效率。当然在具体的实践过程中，还可以使用该海量数据处理方法来增强软件产品的功能，具体例如：增加办公自动化(Office Automation，OA)系统和企业资源规划(Enterprise Resource Planning，ERP)系统等等软件产品的功能。

请参见图1示出的本申请实施例提供的海量数据处理方法的流程示意图；该海量数据处理方法的主要思路是，通过根据海量数据的业务场景类型将业务流程划分为多个算子，并采用根据业务场景类型对应的业务流程对多个算子进行编排的方式实现业务流程的可编排化，替代了使用传统脚本文件的硬编码方式处理海量数据，也避免了协调程序员对脚本文件进行修改、调试和执行等繁琐过程的情况，最后，根据编排的数据处理任务对海量数据进行处理，从而有效地提高了对海量数据进行业务流程处理的效率。上述的海量数据处理方法具体可以包括：

步骤S110：电子设备获取海量数据和海量数据的业务场景类型对应的业务流程，业务流程是由不同的算子组合而成的数据处理流程。

请参见图2示出的本申请实施例提供的某个具体业务流程的示意图；图中算子库中有很多算子，在具体业务流程中有很多功能，当该具体业务流程想从功能A(例如数据抽取)转换到功能B(例如数据清洗)，从数据抽取后的多种数据到数据清洗需要针对不同种类的数据使用不同算子来清洗，具体例如：过滤掉评论数据中的空值、格式错误数据、无效属性值和属性错误等无效数据。以此类推，从功能B转换到功能C或者功能D等等都是需要不同的算子参与数据运算才能完成，因此，业务流程是由不同的算子组合而成的数据处理流程。

上述步骤S110的实施方式例如：电子设备从分布式数据库或者分布式文件系统中获取海量数据；其中，可以使用的分布式数据库包括：HBase和OceanBase等等，可以使用的分布式文件系统包括：GFS、HDFS、Ceph、Lustre、MogileFS、MooseFS、FastDFS、TFS和GridFS等。分布式文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连；或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。然后，获取针对海量数据的业务场景类型人为编写好的业务流程，业务流程是由不同的算子(又被称为算子元数据或者元数据)组合而成的数据处理流程。

可选地，上述分布式数据库或者分布式文件系统中的海量数据可以是采用数据队列Kafka采集的，使用Kafka将海量数据作为流式数据缓冲，能够保证有效地应对突发的瞬间数据提交请求，避免海量数据处理不过来导致服务器资源耗尽的情况。其中，Kafka是一个开源流处理平台，又被称为Apache Kafka，也是分布式事件流平台，由Scala语言和Java语言编写，Kafka的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台，Kafka持久化层本质上是一个按照分布式事务日志架构的大规模发布或者订阅消息队列。

在步骤S110之后，执行步骤S120：电子设备根据业务场景类型对应的业务流程获取算子库中的多个算子，并对多个算子进行编排，获得数据处理任务。

上述算子库中的算子是事先将可能需要使用到的业务流程划分(或者分割)获得的，即新的业务流程所需的算子在算子库中都能够找到(如果不能找到，可以自定义新的算子，并将新的算子加入算子库中)。该算子库中的多个算子的种类可以包括：数据读取、数据推送、数据统计、数据过滤、算法分析、数据转换、数据缓存和自定义接口等等种类。上述步骤S120的实施方式可以包括：

步骤S121：获取算子库中的多个算子，并判断业务场景类型是否是单向流通。

可以理解的是，在使用算子库中的算子之前，还需要创建算子，创建算子的具体过程例如：根据算子的功能对算子的输入类型、输出类型、输入数量、输出数量和配置参数等等进行定义，按照算子的规范来创建算子，在创建好算子之后就可以将创建的算子放在算子库中。

上述步骤S121的实施方式例如：从通用的算子库中获取关系型数据库的读算子和写算子、消息队列的读算子和写算子、基于结构化字段的统计算子或者基于结构化字段的数据治理算子等等多个算子，当然在具体的实践过程中，用户还可以在通用的算子库中编写自定义接口算子，或者，新建自定义算子库，并在自定义算子库中新建自定义接口算子，并将自定义接口算子加入多个算子中。然后，使用预设编程语言编译或者解释的可执行程序判断业务场景类型是否是单向流通；其中，可以使用的编程语言例如：C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等等。

步骤S122：若业务场景类型是单向流通，则使用Flink批处理框架根据单向流通的业务流程对多个算子进行编排，获得数据处理任务。

请参见图3示出的本申请实施例提供的使用Flink处理数据流的示意图；上述步骤S122的实施方式例如：单向流通的业务场景是指不需要将结果进行反馈的业务场景，例如典型的从数据源(source)到数据池(sink)单向流通的业务场景是：数据迁移(transfer)和数据转换(transform)等等算子构成的业务流程。若业务场景类型是单向流通，则电子设备可以使用Flink批处理框架根据单向流通的业务流程对多个算子进行编排，获得数据处理任务。

步骤S123：若业务场景类型是双向流通，则使用Netty批处理框架根据双向流通的业务流程对多个算子进行编排，获得数据处理任务。

请参见图4示出的本申请实施例提供的使用Netty处理数据流的示意图；上述步骤S123的实施方式例如：同理地，双向流通是指需要将结果进行反馈的业务场景，例如：数据从数据源(source)流通到数据池(sink)之后，还可以继续将数据池(sink)中的数据反馈给数据源(source)中，从而形成双向流通(又被称为回环流通)的效果。若业务场景类型是双向流通(具体例如：网络数据收集和数据查询等等)，则电子设备可以使用Netty批处理框架根据双向流通的业务流程对多个算子进行编排，获得数据处理任务，这种双向流通的数据处理模型可以支持对数据处理结果有反馈要求的场景。

在上述的实现过程中，若业务场景类型是单向流通，则使用Flink批处理框架进行编排，若业务场景类型是双向流通，则使用Netty批处理框架进行编排；因此，针对不同的处理场景选择不同框架来进行算子编排，有利于提高开发效率，从而满足不同业务场景类型下的需求，提高了海量数据处理的鲁棒性。

在步骤S120之后，执行步骤S130：电子设备根据数据处理任务对海量数据进行处理。

上述步骤S130的实施方式可以包括：

步骤S131：电子设备向服务器集群发送数据处理任务，以使服务器集群中的服务器节点执行数据处理任务。

上述步骤S131的实施方式例如：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)向服务器集群发送数据处理任务，以使服务器集群中的服务器节点执行数据处理任务，此处的服务器集群可以是使用Flink集群框架的服务器集群。上述的数据处理任务包括但不限于：数据统计任务、数据处理任务和数据分析任务等等。

步骤S132：电子设备接收服务器集群发送的数据处理任务对应的处理结果，获得多个处理结果，并可视化输出多个处理结果。

上述步骤S131的实施方式例如：电子设备通过TCP协议或者UDP协议接收服务器集群发送的数据处理任务对应的处理结果，获得多个处理结果，并向终端设备发送多个处理结果，以使终端设备可视化输出多个处理结果；通过Flink或者Netty批处理框架对多个算子进行编排的方式可以有效地将传统硬编码的方式改变为用户拖拽算子编排的方式，从而能够灵活地应对不同业务场景下的数据处理功能，有效地克服了传统编码方式的作业效率低、标准化程度不高和可维护性差的缺点。同时，利用前端可视化界面实现不同业务场景下的业务流程中的数据处理功能，极大程度上降低了针对每个业务流程代码量，并通过自定义算子的方式提高了可扩展性。

在上述的实现过程中，通过根据海量数据的业务场景类型将业务流程划分为多个算子，并采用根据业务场景类型对应的业务流程对多个算子进行编排的方式实现业务流程的可编排化，替代了使用传统脚本文件的硬编码方式处理海量数据，也避免了协调程序员对脚本文件进行修改、调试和执行等繁琐过程的情况，最后，根据编排的数据处理任务对海量数据进行处理，从而有效地提高了对海量数据进行业务流程处理的效率。

请参见图5示出的本申请实施例提供的算子可视化输出的流程示意图；可选地，在本申请实施例中，还可以对上面的算子进行可视化输出，可视化输出的实施方式包括但不限于如下几种：

第一种实施方式，可以使用电子设备直接对算子进行可视化输出，该实施方式可以包括：

步骤S210：电子设备获取多个算子，并对多个算子进行可视化输出。

上述步骤S210的实施方式例如：电子设备获取多个算子，并使用Netty框架对多个算子进行可视化输出，即通过Netty框架中的vue-element-ui进行快速开发，将各部分功能完整展示给用户，并提供友好的形用户界面(Graphical User Interface，GUI)体验，使得用户可以快速地编辑业务流程中的算子和数据。

在上述的实现过程中，电子设备还可以对多个算子进行可视化输出，从而让用户在电子设备的可视化界面中直接对不同的算子进行选择和拖拽，从而将不同的算子进行组合，实现不同业务流程的数据处理功能，提升了海量数据处理业务流程的开发效率。

第二种实施方式，将算子发送给终端设备，让终端设备来对算子进行可视化输出，该实施方式可以包括：

步骤S220：电子设备向终端设备发送多个算子，以使终端设备对多个算子进行可视化输出。

上述步骤S220的实施方式例如：电子设备通过超文本传输协议(Hyper TextTransfer Protocol，HTTP)或者超文本传输安全协议(Hyper Text Transfer ProtocolSecure，HTTPS)向终端设备发送多个算子，以使终端设备使用Netty框架对多个算子进行可视化输出。可以理解的是，由于Netty框架中封装了许多高效的异步通信方法，通过定制化地实现Netty框架中的通道(channel)算子实现数据采集任务，进行高性能的数据传输。数据采集任务可以通过可视化界面进行编排，按照拓扑排序转换为管道(pipeline)模型，通过Netty框架中的通道(channel)算子编排后发布到ZooKeeper环境中。其中，ZooKeeper是阿帕奇(Apache)软件基金会的一个软件项目，为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册服务，具体是通过冗余服务实现高可用性。如果客户端访问其中一台Zookeeper主机时无应答，客户端就会访问另一台ZooKeeper主机。

可选地，在具体的实施过程中，还可以使用ElasticSearch搜索引擎对算子库中的算子或者海量数据提供搜索查询服务或者语义检索服务，其中，此处的ElasticSearch是指分布式、高扩展、高实时的搜索与数据分析引擎，也是一个分布式多用户能力的全文搜索引擎，ElasticSearch能很方便的使大量数据具有搜索、分析和探索的能力，充分利用ElasticSearch的水平伸缩性，能使数据在生产环境变得更有价值。

在上述的实现过程中，电子设备还可以向终端设备发送多个算子，让终端设备对多个算子进行可视化输出，从而让用户在终端设备的可视化界面中直接对不同的算子进行选择和拖拽，从而将不同的算子进行组合，实现不同业务流程的数据处理功能，提升了海量数据处理业务流程的开发效率。

请参见图6示出的本申请实施例提供的海量数据处理装置的结构示意图；本申请实施例提供了一种海量数据处理装置300，包括：

业务流程获取模块310，用于获取海量数据和海量数据的业务场景类型对应的业务流程，业务流程是由不同的算子组合而成的数据处理流程。

处理任务获得模块320，用于根据业务场景类型对应的业务流程获取算子库中的多个算子，并对多个算子进行编排，获得数据处理任务。

海量数据处理模块330，用于根据数据处理任务对海量数据进行处理。

可选地，在本申请实施例中，处理任务获得模块，包括：

单向流通判断模块，用于判断业务场景类型是否是单向流通。

第一算子编排模块，用于若业务场景类型是单向流通，则使用Flink批处理框架根据单向流通的业务流程对多个算子进行编排。

可选地，在本申请实施例中，处理任务获得模块，还包括：

第二算子编排模块，用于若业务场景类型是双向流通，则使用Netty批处理框架根据双向流通的业务流程对多个算子进行编排。

可选地，在本申请实施例中，海量数据处理模块，包括：

处理任务发送模块，用于向服务器集群发送数据处理任务，以使服务器集群中的服务器节点执行数据处理任务。

可选地，在本申请实施例中，海量数据处理模块，还包括：

处理结果接收模块，用于接收服务器集群发送的数据处理任务对应的处理结果，获得多个处理结果，并可视化输出多个处理结果。

可选地，在本申请实施例中，海量数据处理装置，还包括：

可视化输出模块，用于获取多个算子，并对多个算子进行可视化输出；或者，向终端设备发送多个算子，以使终端设备对多个算子进行可视化输出。

应理解的是，该装置与上述的海量数据处理方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图7示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质430，该计算机可读存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，计算机可读存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种海量数据处理方法，其特征在于，包括：

获取海量数据和所述海量数据的业务场景类型对应的业务流程，所述业务流程是由不同的算子组合而成的数据处理流程；

根据所述业务场景类型对应的业务流程获取算子库中的多个算子，并对所述多个算子进行编排，获得数据处理任务；

根据所述数据处理任务对所述海量数据进行处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述业务场景类型对应的业务流程对所述多个算子进行编排，包括：

判断所述业务场景类型是否是单向流通；

若是，则使用Flink批处理框架根据所述单向流通的业务流程对所述多个算子进行编排。

3.根据权利要求2所述的方法，其特征在于，在所述判断所述业务场景类型是否是单向流通之后，还包括：

若所述业务场景类型是双向流通，则使用Netty批处理框架根据所述双向流通的业务流程对所述多个算子进行编排。

4.根据权利要求1所述的方法，其特征在于，所述根据所述数据处理任务对所述海量数据进行处理，包括：

向服务器集群发送所述数据处理任务，以使所述服务器集群中的服务器节点执行所述数据处理任务。

5.根据权利要求4所述的方法，其特征在于，在所述向服务器集群发送所述数据处理任务之后，还包括：

接收所述服务器集群发送的所述数据处理任务对应的处理结果，获得多个处理结果，并可视化输出所述多个处理结果。

6.根据权利要求1-5任一所述的方法，其特征在于，还包括：

获取所述多个算子，并对所述多个算子进行可视化输出；或者，

向终端设备发送所述多个算子，以使所述终端设备对所述多个算子进行可视化输出。

7.一种海量数据处理装置，其特征在于，包括：

业务流程获取模块，用于获取海量数据和所述海量数据的业务场景类型对应的业务流程，所述业务流程是由不同的算子组合而成的数据处理流程；

处理任务获得模块，用于根据所述业务场景类型对应的业务流程获取算子库中的多个算子，并对所述多个算子进行编排，获得数据处理任务；

海量数据处理模块，用于根据所述数据处理任务对所述海量数据进行处理。

8.根据权利要求7所述的装置，其特征在于，所述处理任务获得模块，包括：

单向流通判断模块，用于判断所述业务场景类型是否是单向流通；

第一算子编排模块，用于若所述业务场景类型是单向流通，则使用Flink批处理框架根据所述单向流通的业务流程对所述多个算子进行编排。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一项所述的方法。