CN111897525A

CN111897525A - 大数据处理方法及系统

Info

Publication number: CN111897525A
Application number: CN202010683007.3A
Authority: CN
Inventors: 陈亮; 李瑞亮; 辜家伟; 李天旺; 王文植; 付惠; 洪坤乾; 党受辉
Original assignee: Shenzhen Tencent Domain Computer Network Co Ltd
Current assignee: Shenzhen Tencent Domain Computer Network Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-06

Abstract

本申请公开了一种大数据处理方法及系统，属于计算机技术领域。所述方法包括：获取目标函数的多个配置参数的值和目标函数的第一格式的代码；获取目标大数据计算引擎的指定函数模板，目标大数据计算引擎是多个大数据计算引擎中目标函数待部署的引擎；基于多个配置参数的值、第一格式的代码和指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码。本申请解决了函数的使用局限性较高的问题。本申请用于生成函数。

Description

大数据处理方法及系统

技术领域

本申请涉及计算机技术领域，特别涉及一种大数据处理方法及系统。

背景技术

随着计算机技术的发展及云时代的来临，互联网中存在的数据越来越多，大数据(Big data)吸引了越来越多的关注。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

用户可以通过大数据计算引擎对大数据进行计算处理，且大数据计算引擎支持用户自行编写函数，并采用该函数对大数据进行计算处理。目前存在多种大数据计算引擎，每个计算引擎可以基于一种计算框架实现，不同的计算框架支持的数据处理方式不同。

因此，通过每个计算引擎编写的函数仅能在该计算引擎中使用，用户编写的函数的使用局限性较高。

发明内容

本申请提供了一种大数据处理方法及系统，可以解决函数的使用局限性较高的问题。所述技术方案如下：

一方面，提供了一种大数据处理方法，应用于大数据处理系统，所述方法包括：

获取目标函数的多个配置参数的值和所述目标函数的第一格式的代码；

获取目标大数据计算引擎的指定函数模板，所述目标大数据计算引擎是多个大数据计算引擎中所述目标函数待部署的引擎；

基于所述多个配置参数的值、所述第一格式的代码和所述指定函数模板，生成所述目标大数据计算引擎支持的所述目标函数的第二格式的代码。

另一方面，提供了一种大数据处理系统，所述大数据处理系统包括：

数据流页面模块，用于获取目标函数的多个配置参数的值和所述目标函数的第一格式的代码；

自定义函数模块，用于获取目标大数据计算引擎的指定函数模板，所述目标大数据计算引擎是多个大数据计算引擎中所述目标函数待部署的引擎；基于所述多个配置参数的值、所述第一格式的代码和所述指定函数模板，生成所述目标大数据计算引擎支持的所述目标函数的第二格式的代码。

再一方面，提供了一种大数据处理系统，所述大数据处理系统包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的大数据处理方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的大数据处理方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请提供的大数据处理方法中，可以基于目标函数的多个配置参数的值、目标函数的第一格式的代码和目标大数据引擎的指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码，且目标大数据计算引擎是多个大数据计算引擎中目标函数待部署的引擎。如此一来，可以无需在该目标大数据计算引擎上编写目标函数，就保证目标函数可以在其待部署的目标大数据计算引擎上使用，降低了目标函数的使用局限性。

附图说明

图1是本申请实施例提供的一种大数据处理方法的流程图；

图2是本申请实施例提供的另一种大数据处理方法的流程图；

图3是本申请实施例提供的一种开发页面的示意图；

图4是本申请实施例提供的一种调试页面的示意图；

图5是本申请实施例提供的一种函数页面的示意图；

图6是本申请实施例提供的一种发布页面的示意图；

图7是本申请实施例提供的一种大数据处理系统的结构示意图；

图8是本申请实施例提供的另一种大数据处理系统的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着云时代的来临，大数据也受到越来越多的关注。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

目前，存在对大数据进行计算处理的多种大数据计算引擎，如Storm计算引擎、Spark计算引擎以及Flink计算引擎等，用户通过这些计算引擎均可自行编写函数。但是由于不同的计算引擎采用不同的大数据计算框架，不同的大数据计算框架的自身特性(如数据结构及数据处理方式)不同，使得在一种计算引擎上编写的函数仅可用于该计算引擎进行大数据处理，而无法用于其他计算引擎。因此，目前用户自行编写的函数的使用局限性较高。并且在某些复杂的大数据计算场景中，通过一种计算引擎编写的函数可能无法满足大数据的计算需求，此时需要在多个计算引擎上均编写该函数，使得同样的函数逻辑需要重复编写多遍，函数的编写过程较为繁琐。

本申请以下实施例提供了一种大数据处理方法和大数据处理系统，可以降低函数的使用局限性，且简化函数的编写过程。

图1是本申请实施例提供的一种大数据处理方法的流程图。该方法可以用于大数据处理系统，如图1所示，该方法可以包括：

步骤101、获取目标函数的多个配置参数的值和目标函数的第一格式的代码。

步骤102、获取目标大数据计算引擎的指定函数模板，目标大数据计算引擎是多个大数据计算引擎中目标函数待部署的引擎。

步骤103、基于该多个配置参数的值、该第一格式的代码和指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码。

本申请实施例中，该目标函数指的是待编写的函数。目标函数的第一格式的代码可以为用户编写的目标函数的代码，目标大数据计算引擎支持的目标函数的第二格式的代码可以为：目标大数据计算引擎在采用目标函数对大数据进行处理时运行的目标函数的代码。

本申请实施例中可以存在多个目标大数据计算引擎，此时，针对每个目标大数据计算引擎均可以执行上述步骤102和步骤103。也即是，大数据处理系统可以获取每个目标大数据计算引擎的指定函数模板，且基于获取的目标函数的多个配置参数的值和目标函数的第一格式的代码以及每个目标大数据计算引擎的指定函数模板，生成该每个目标大数据计算引擎支持的目标函数的第二格式的代码。可选地，不同的目标大数据计算引擎支持的代码的格式可以不同，如目标大数据计算引擎A对应的该第二格式不同于目标大数据计算引擎B对应的该第二格式。

综上所述，本申请提供的大数据处理方法中，可以基于目标函数的多个配置参数的值、目标函数的第一格式的代码和目标大数据引擎的指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码，且目标大数据计算引擎是多个大数据计算引擎中目标函数待部署的引擎。如此一来，可以无需在该目标大数据计算引擎上编写目标函数，就保证目标函数可以在其待部署的目标大数据计算引擎上使用，降低了目标函数的使用局限性。

另外，大数据处理系统中存在多个目标大数据计算引擎时，可以仅获取一次目标函数的第一格式的代码，就根据各个目标大数据计算引擎的指定函数模板，生成适用于各个目标大数据计算引擎的目标函数。因此无需在各个目标大数据计算引擎上均进行目标函数的编写，简化了目标函数的生成过程。

图2是本申请实施例提供的另一种大数据处理方法的流程图。该方法可以用于大数据处理系统，如图2所示，该方法可以包括：

步骤201、获取目标函数的编程框架。

本申请实施例中该目标函数指待编写的函数。大数据处理系统可以提供统一的目标函数的编程框架，该编程框架可以包括一些编写目标函数的代码所需基于的配置、格式和处理过程对应的代码段。由于目标函数的编程框架的存在，用户仅需编写函数的逻辑对应的代码即可，无需编写该编程框架包括的代码。

可选地，目标函数的编程框架可以包括被处理数据的统一数据结构(DataFrame)、数据配置和执行配置；其中，被处理数据包括采用目标函数处理的数据，该统一数据结构可以为被处理数据的表示方式，该数据配置可以包括被处理数据的属性，该执行配置可以包括被处理数据的处理资源。示例地，被处理数据的统一数据格式为(a，b)，a表示被处理数据的状态，b表示被处理数据的生成时间。被处理数据的属性可以包括：被处理数据占用的内存大小，被处理数据所属的事物等。被处理数据的执行配置可以包括：处理该被执行数据时采用的处理器，处理结果的存储位置等。

步骤202、展示目标函数的开发页面，该开发页面包括：M种编程语言、N种函数类型、目标函数的多个配置参数的输入框以及目标函数的代码编写规则。

该M种编程语言为大数据处理系统支持的编程语言，该N种函数类型为大数据处理系统支持的函数类型，M和N为正整数。用户可以采用该M种编程语言中的任一种编程语言进行函数代码的编写，大数据处理系统可以生成该N种函数类型中任一种函数类型的函数。

示例地，图3是本申请实施例提供的一种开发页面的示意图。如图3所示，该M种编程语言可以包括Java语言和Python语言，用户可以采用Java语言编写函数代码，也可以采用Python语言编写函数代码。该N种函数类型可以包括：用户自定义标量函数(User-Defined Scalar Functions，UDF)，用户自定义聚合函数(User-Defined AggregateFunctions，UDAF)和用户自定义表函数(User-Defined Table Functions，UDTF)。该UDF用于将零个、一个或者多个标量值转换为一个新的值。该UDAF用于将一个表(包括一列或多列数据，或者一行或多行的数据)聚合为标量值。该UDTF用于将零个、一个或多个标量值转换为一列或多列数据，或者一行或多行数据；也即是将零个、一个或多个标量值做为输入参数，返回一列或多列数据，或者返回一行或多行数据。可选地，该N种函数类型还可以包括其他函数类型，或者该N种函数类型也可以仅包括UDF、UDAF和UDTF中的一个或两个，本申请实施例不做限定。大数据处理系统还可以显示每种编程语言和每种函数类型对应的选择框(如图3中编程语言或函数类型左边的圆圈)，被选定的编程语言和函数类型对应的选择框的显示状态可以发生变化，如选择框中由无填充颜色变为有填充颜色。

本申请实施例中对于待编写的不同函数，该多个配置参数可以相同也可以不同，本申请实施例不做限定。示例地，目标函数的多个配置参数可以包括：至少一个函数名称、输入参数类型、返回结果类型、说明信息、使用样例和样例返回结果中的至少一种。开发页面可以包括其中每个配置参数的一个输入框。如图3所示，目标函数的多个配置参数可以包括两个函数名称、输入参数类型、返回结果类型、说明信息、使用样例和样例返回结果。

本申请实施例中，目标函数的编程框架可以具有对应的代码编写规则，用户可以根据该代码编写规则编写函数的代码。如图3所示，大数据处理系统可以展示该代码编写规则G，以指示用户按照该代码编写规则编写目标函数的代码。

步骤203、获取该开发页面中输入的目标编程语言、目标函数类型、该多个配置参数的值和目标函数的第一格式的代码。

该目标编程语言为大数据处理系统展示的该M种编程语言中的一种，该目标函数类型为大数据处理系统展示的该N种函数类型中的一种。如用户可以针对开发页面中的该M种编程语言和该N种函数类型进行选择，以选择该M种编程语言中用户编写代码想要采用的目标编程语言，以及该N种函数类型中想要编写的函数的目标函数类型。如图3所示，Python语言和函数类型UDF对应的选择框的显示状态发生改变，大数据处理系统可以确定该开发页面中输入的目标编程语言为Python语言，该开发页面中输入的目标函数类型为UDF。

大数据处理系统可以获取开发页面中该多个配置参数的输入框中输入的该多个配置参数的值。如图3所示，目标函数的多个配置参数包括两个函数名称、输入参数类型、返回结果类型、说明信息、使用样例和样例返回结果。该函数名称可以用于指示目标函数的类型，该输入参数类型用于限定采用目标函数处理的数据的数据类型，该返回结果类型用于限定采用目标函数进行数据处理得到的结果的数据类型，该说明信息用于简要描述目标函数的功能。

如图3所示，该两个函数名称分别为中文函数名称“自定义函数”和函数名称“udf_norbert_0221_func_1”。该中文函数名称可以为用户自行输入的名称，或者也可以为大数据处理系统直接设定的函数名称。该中文函数名称可以指示该函数所属的类别，函数所属的类别可以由该函数的来源(如用户自定义或者系统内置)确定。该函数名称“udf_norbert_0221_func_1”以设定的格式生成，如其中的“udf_”根据选定的目标函数类型确定，其中的“norbert_0221_func_1”可以由用户自行输入，该函数名称“udf_norbert_0221_func_1”可以指示待编写的目标函数的函数类型(也即是目标函数类型)。如图3中，目标函数的输入参数类型和返回结果类型均为字符串类型string。该输入参数类型和返回结果类型的值可以由用户直接输入，或者大数据处理系统也可以显示多个数据类型供用户选择以输入该输入参数类型和返回结果类型的值。可选地，该输入参数类型和返回结果类型的个数可以为一个或多个，本申请实施例不做限定。如图3中大数据处理系统还可以显示输入参数类型和返回结果类型对应的添加控件K1，可以通过触发对应的添加控件增添输入参数类型和返回结果类型。目标函数的说明信息、使用样例和样例返回结果可以由用户直接输入。

可选地，如图3所示，该开发页面还可以包括代码输入区域Q，如代码输入区域Q可以位于代码编写规则下方。用户可以在该代码输入区域Q采用目标编程语言编写目标函数的第一格式的代码。可选地，如图3所示，该开发页面还可以包括采用目标编程语言编写第一格式的代码所基于的依赖包的信息。

大数据处理系统可以在接收到触发指令时，获取开发页面中输入的目标编程语言、目标函数类型、该多个配置参数的值和目标函数的第一格式的代码。示例地，如图3所示，该开发页面还可以包括确认开发控件K2。大数据处理系统可以在该确认开发控件K2被触发(如被点击)时，确定接收到触发指令。可选地，该开发页面还可以包括其他控件，如草稿控件或取消控件，本申请实施例不做限定。

本申请实施例以在同一页面(也即开发页面)展示该目标函数的多个配置参数的输入框、M种编程语言、N种函数类型以及代码输入区域，且在接收到触发指令时再一同获取该多个配置参数的值、目标编程语言、目标函数类型和目标函数的第一格式的代码为例。可选地，大数据处理系统也可以分时独立地获取目标编程语言、目标函数类型、该多个配置参数的值和目标函数的第一格式的代码。如在用户选定目标编程语言时便获取该目标编程语言，在用户选定目标函数类型时便获取该目标函数类型，在用户每在一个配置参数的输入框中输入对应的值时均获取该配置参数的值。可选地，该多个配置参数的输入框、M种编程语言、N种函数类型以及目标函数的代码编写规则中的至少两种也可以不在同一页面展示。如可以在第一页面先展示M种编程语言和N种函数类型，以获取该第一页面中输入的目标编程语言和目标函数类型；之后再在第二页面展示该目标函数的多个配置参数的输入框，以获取该第二页面中输入的该多个配置参数的值；接着再获取在第三页面输入的目标函数的第一格式的代码。

步骤204、展示大数据处理系统支持调用的大数据计算引擎的多个类型。

本申请实施例中，大数据处理系统可以支持调用多种大数据计算引擎进行数据处理。大数据处理系统支持调用的大数据计算引擎的多个类型可以包括：离线计算类型、实时计算类型和查询类型，大数据计算引擎的类型可以为该大数据计算引擎采用的大数据计算框架的计算类型。如该多个大数据计算引擎可以包括Spark引擎、Flink引擎、Storm引擎以及数据库查询引擎。该Spark引擎的类型为离线计算类型，该Flink引擎和Storm引擎的类型为实时计算类型，该数据库查询引擎的类型为查询类型。可选地，该多个大数据计算引擎还可以包括Tensorflow引擎、dask引擎、hive引擎和其他引擎，本申请实施例不做限定。

示例地，图4是本申请实施例提供的一种调试页面的示意图。大数据处理系统可以展示目标函数的调试页面，该调试页面可以包括大数据处理系统支持调用的大数据计算引擎的多个类型。可选地，该调试页面还可以包括目标函数的部分配置参数，如目标函数的函数名称、输入参数类型和返回结果类型。

步骤205、确定该多个类型中被选定的目标类型。

用户可以在大数据处理系统展示的该大数据计算引擎的多个类型中选择至少一个目标类型。用户可以根据期望的采用目标函数处理数据的方式在该多个类型中选择目标类型；如用户期望采用目标函数按照实时计算的方式处理数据，则可以选择该实时计算类型。用户也可以根据期望的目标函数部署的引擎来选择目标类型；如用户期望在Spark引擎和Flink引擎上部署目标函数，则用户可以选择实时计算类型和离线计算类型。

可选地，大数据处理系统还可以显示大数据计算引擎的每种类型对应的选择框(如图4中每种类型左边的小方框)，被选定的目标类型对应的选择框的显示状态可以发生变化，如选择框中由无填充颜色变为有填充颜色。示例地，图4中被选定的目标类型为实时计算类型和离线计算类型。

步骤206、获取目标类型的目标大数据计算引擎的指定函数模板。

大数据处理系统在确定目标类型后，便可以将其支持调用的多个大数据计算引擎中该目标类型的大数据计算引擎，确定为目标大数据计算引擎。该目标大数据计算引擎为目标函数待部署的大数据计算引擎。本申请实施例以通过选择大数据计算引擎的目标类型来确定目标大数据计算引擎为例，可选地，也可以直接显示大数据处理系统支持调用的多个大数据计算引擎的标识，以供用户直接在其中选择目标大数据计算引擎。

本申请实施例中，大数据处理系统中定义有多套函数模板。大数据处理系统支持的M种编程语言中的任一种编程语言、N种函数类型中的任一种函数类型以及多种大数据计算引擎中的任一种大数据计算引擎的组合均对应一套函数模板。如此，大数据处理系统支持调用的每个大数据计算引擎均可以具有M*N个不同的函数模板，每个函数模板对应一种编程语言和一种函数类型。大数据处理系统可以在目标大数据计算引擎具有的M*N个函数模板中确定指定函数模板，该指定函数模板为目标编程语言和目标函数类型对应的函数模板，进而根据该指定函数模板生成目标函数。也即是，本申请实施例中，大数据处理系统可以确定编写目标函数的第一格式的代码采用的目标编程语言，编写的目标函数的目标函数类型，以及目标函数部署的目标大数据计算引擎共同对应的指定函数模板，进而根据该指定函数模板生成目标函数。在编写目标函数的第一格式的代码采用的目标编程语言不同时，编写的目标函数的目标函数类型不同时，以及目标函数部署的目标大数据计算引擎不同时，均可以基于不同的函数模板生成目标函数。

步骤207、基于该多个配置参数的值、该编程框架、该第一格式的代码和目标大数据计算引擎的指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码。

大数据处理系统中的每套函数模板均可以包括函数的该多个配置参数。大数据处理系统在获取到目标函数的该多个配置参数的值以及指定函数模板之后，可以将该多个配置参数的值填入该指定函数模板。大数据处理系统还可以组合编程框架的代码、目标函数的第一格式的代码以及该填入多个配置参数的值的指定函数模板，以生成目标大数据计算引擎支持的目标函数的第二格式的代码。示例地，大数据处理系统可以基于该多个配置参数的值、该编程框架、该第一格式的代码和该指定函数模板，采用代码自动生成技术生成目标函数的第二格式的代码。

需要说明的是，图2以一个目标大数据计算引擎为例对目标函数的生成过程进行介绍。可以存在多个目标大数据计算引擎，图2中的目标大数据计算引擎可以为该多个目标大数据计算引擎中的每个目标大数据计算引擎。如当存在多个目标大数据计算引擎时，大数据处理系统可以确定每个目标大数据计算引擎的指定函数模板。且基于每个目标大数据计算引擎的指定函数模板，生成每个目标大数据计算引擎支持的目标函数的第二格式的代码，进而得到目标函数的多组第二格式的代码。

步骤208、调用目标大数据计算引擎调试目标函数的第二格式的代码。

大数据处理系统在生成目标大数据计算引擎支持的目标函数的第二格式的代码后，可以调用目标大数据计算引擎运行该第二格式的代码。进而查找并修复该第二格式的代码的漏洞，保证调试后的该第二格式的代码正常运行。

示例地，大数据处理系统可以加载调试数据源中的数据，调用目标大数据计算引擎执行对应的第二格式的代码对加载的数据进行处理，以调试该第二格式的代码。用户可以在大数据处理系统支持的多个数据源中选择用于调试该第二格式的代码的调试数据源。如请继续参考图4，大数据处理系统可以在调试页面显示数据源的输入框K3，用户可以在该输入框中输入调试数据源的标识。大数据处理系统可以根据该调试数据源的标识加载该调试数据源中的数据。可选地，大数据处理系统还可以显示不同的调试数据源的来源以供选择，如大数据系统中已具有的平台数据源，或需实时加载的上传数据。该调试页面还可以显示调试数据源中的数据(如输入框K3下方的表格中的数据)，在执行该第二格式的代码之后，还可以显示该代码的执行结果。

步骤209、在目标函数的第二格式的代码调试通过后，生成该目标函数的代码包，该代码包包括目标函数的第二格式的代码。

本申请实施例中大数据处理系统可以根据调试通过的目标函数的第二格式的代码生成目标函数的代码包，该代码包包括目标函数的第二格式的代码，此时可以确定目标函数生成完成。如此可以便于对目标函数的代码进行存储及使用。若目标函数的第二格式的代码未调试通过，则可以重复执行上述步骤202至步骤208，直至目标函数的第二格式的代码调试通过。在存在多个目标大数据计算引擎时，大数据处理系统根据得到的该多个目标大数据计算引擎一一对应的目标函数的多组第二格式的代码，生成该目标函数的代码包，该代码包包括该多组第二格式的代码。

可选地，在生成目标函数后可以将该目标函数部署在目标大数据计算引擎上，如将生成的目标函数的代码包部署在目标大数据计算引擎上。可选地，在生成该目标函数的代码包后，大数据处理系统可以存储该代码包，以便于后续在进行大数据计算时调用该代码包进行计算。如大数据处理系统可以分配固定的函数存储空间用于存储函数的代码包，在生成该目标函数的代码包后，可以将该代码包存储至该函数存储空间。

可选地，在生成该目标函数的代码包后，或在将目标函数的代码包存储至函数存储空间之后，大数据处理系统还可以在函数页面中展示该目标函数的标识。示例地，图5是本申请实施例提供的一种函数页面的示意图。该函数页面可以包括大数据处理系统能够调用的各个函数所属的类别，及各个类别下的函数的标识，任一类别下的函数的标识也可以隐藏不显示。如图5所示，函数所属的类别可以包括：内置函数和自定义函数。自定义函数可以包括用户自行编写的函数，如上述目标函数udf_norbert_0221_func_1。内置函数可以包括大数据处理系统直接存储的，用于提供普遍使用的能力的函数。如内置函数又可按照功能不同划分为多个子类别，如数学函数、条件函数、聚合函数和字符串函数。可选地，用户可以通过点击该函数页面中函数的标识查看该函数的信息，该函数的信息可以包括该函数的配置参数、代码的编程语言以及支持运行的大数据计算引擎的类型等。

本申请实施例中，大数据处理系统在存储目标函数的代码包之前还可以显示目标函数的信息，该目标函数的信息可以包括目标函数的多个配置参数以及目标大数据计算引擎的类型(也即目标类型)。用户可以检查该目标函数的信息是否正确，进而在确定该目标函数的信息正确时，再触发大数据处理系统生成并存储该目标函数的代码包。示例地，图6是本申请实施例提供的一种发布页面的示意图。大数据处理系统可以在该发布页面中显示目标函数的信息。可选地，如图6所示，该发布页面还可以包括目标函数的发布日志的输入框K4，用户可以在该输入框K4中输入目标函数的发布日志。

本申请实施例中，在生成目标函数的第二格式的代码的过程中，如在生成目标函数的代码包的过程中，可以禁止获取目标代码路径下的数据，该目标代码路径下的数据包括该目标函数的第二格式的代码的生成过程中获取的数据之外的数据。如此可以保证在生成第二格式的代码的过程中，目标代码路径下的数据的安全性。由于大数据处理系统中会存储某些用户托管的其他函数代码，如此可以保证其他函数代码的安全性，避免目标函数的第二格式的代码中的漏洞对其他函数代码的影响，且避免对其他函数代码的恶意攻击。需要说明的是，本申请实施例中生成目标函数的第二格式的代码的过程可以包括上述步骤201至步骤209。

可选地，该目标代码路径与编写目标函数采用的目标编程语言相关。示例地，当目标编程语言为Java语言时，该目标代码路径可以为“Runtime/Process/”。当目标编程语言为Python语言时，该目标代码路径可以为“subprocess/os/commands”。

本申请实施例中函数编写的流程可以为LRE(Load，Register，Execute)流程，该LRE流程包括加载(Load)数据，注册表(Register)，执行(Execute)结构化查询语言(Structured Query Language，SQL)的过程。本申请实施例中，大数据处理系统可以持续接收数据，且可以根据接收的数据生成被处理数据的统一数据结构。接着将该统一数据结构、数据配置和执行配置注册在编程框架中，如添加至编程框架中的SQL上下文(SQL Context)中，进而基于该编程框架执行函数的生成过程。LRE是一种静态类的执行流程。该LRE流程也可以适用于不同大数据计算引擎的大数据处理。

大数据处理系统在接收数据后，可以按照尽可能小的粒度对该数据进行分区，如将同一粒度的数据存储在同一存储空间(也可以称为同一分区)中。在进行大数据处理时，会按照所需的数据粒度，加载对应的分区中的数据，以对该分区中的数据进行处理，防止进行大数据处理时加载的数据冗余的情况。示例地，本申请实施例中在大数据处理系统接收到某数据时，若该数据的时长小于目标时长(如一小时)，则可以将该数据划分至第一分区；若该数据的时长大于或等于目标时长，则可以将该数据划分至第二分区。对于第一分区中的数据，大数据处理系统可以采用批处理(也可以称为离线计算)的方式进行处理；对于第二分区中的数据，大数据处理系统可以采用流处理(也可以称为实时计算)的方式进行处理。在进行流处理时，大数据处理系统还可以通过消息队列(Message Queue，MQ)来加载第二分区中任意更小粒度的子分区。

本申请实施例中，大数据处理系统生成的目标函数可以适用于多个大数据计算引擎中被选的目标大数据计算引擎，故该目标函数的使用局限性较低。另外，存在多个目标大数据计算引擎时，可以仅获取一次目标函数的第一格式的代码，就根据各个目标大数据计算引擎的指定函数模板，生成适用于各个目标大数据计算引擎的目标函数。因此无需在各个目标大数据计算引擎上均进行目标函数的编写，简化了目标函数的生成过程。由于大数据处理系统对目标函数的生成可以由多个大数据计算引擎直接支持，函数生成及大数据处理的能力可以与大数据计算引擎的原生能力相当，可以保证数据处理的效率较高。

本申请实施例提供的大数据处理方法可以用于运维场景，如游戏运维场景。可以为技术运维从平台化(仅可采用计算引擎提供的函数)和自助化(函数的每句代码均由用户直接编写)转向智能化提供数据支撑。由于目标函数能够跨引擎使用，提高了函数的使用率，并能更好的支持数据处理业务的特殊场景。且无需在各个引擎上均进行编写函数所需的数据获取和处理，故可以简化运维工程获取和处理数据的成本。该大数据处理方法也可以应用到非运维领域，如可用于金融计费等复杂事件处理(Complex Event Processing，CEP)场景或者数据挖掘场景。

图7是本申请实施例提供的一种大数据处理系统的结构示意图。该大数据处理系统可以用于实现上述图1和图2的大数据处理方法。如图7所示，该大数据处理系统70可以包括：

数据流页面(Data Flow Web)模块701，用于获取目标函数的多个配置参数的值和目标函数的第一格式的代码。

自定义函数模块702，用于获取目标大数据计算引擎的指定函数模板，目标大数据计算引擎是多个大数据计算引擎中目标函数待部署的引擎；基于多个配置参数的值、第一格式的代码和指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码。

可选地，数据流页面模块701还可以用于：

展示目标函数的该多个配置参数的输入框；

获取该多个配置参数的输入框中输入的多个配置参数的值。

可选地，数据流页面模块701还可以用于：

展示大数据处理系统支持调用的大数据计算引擎的多个类型；

将该多个类型中被选定的目标类型的大数据计算引擎，确定为目标大数据计算引擎。

可选地，自定义函数模块702还可以用于：获取目标函数的编程框架；

基于该多个配置参数的值、编程框架、第一格式的代码和指定函数模板，生成目标函数的第二格式的代码。

可选地，该编程框架包括被处理数据的统一数据结构、数据配置和执行配置；其中，被处理数据包括采用目标函数处理的数据，统一数据结构为被处理数据的表示方式，数据配置包括被处理数据的属性，执行配置包括被处理数据的处理资源。

可选地，自定义函数模块702还可以用于：在生成第二格式的代码的过程中，禁止对目标存储空间之外的存储空间进行访问，目标存储空间包括第二格式的代码的生成过程中访问的存储空间。

可选地，大数据处理系统支持M种编程语言和N种函数类型，M和N为正整数，大数据处理系统中的每个大数据计算引擎具有M*N个不同的函数模板，每个函数模板对应一种编程语言和一种函数类型；数据流页面模块701还可以用于：

展示M种编程语言和N种函数类型；

接收目标编程语言和目标函数类型，目标编程语言为展示的编程语言中的一种，目标函数类型为展示的函数类型中的一种；

自定义函数模块702还可以用于：在目标大数据计算引擎具有的M*N个函数模板中，确定目标编程语言和目标函数类型对应的指定函数模板。

图8是本申请实施例提供的另一种大数据处理系统的结构示意图。如图8所示，在图7所示的大数据处理系统的基础上，该大数据处理系统70还可以包括：引擎模块703、接口模块704、参数解析模块705和核心模块706。

请继续参考图8，该数据流页面模块701还可以包括SQL语句管理子模块7011和窗口配置子模块7012。该窗口配置子模块7012可以用于获取大数据处理系统展示的页面中输入的数据，该SQL语句管理子模块7011可以根据该输入的数据确定对应的SQL语句。示例地，窗口配置子模块7012获取开发页面中输入的目标函数的输入参数类型string，SQL语句管理子模块7011可以获取表示将目标函数的输入参数类型设置为string类型的SQL语句。可选地，数据流页面模块701还可以用于在进行大数据处理时，对数据流的计算节点进行配置管理，监控数据流中的数据变化，监控针对数据流的处理任务的运行状态，以及实时对数据流的处理任务进行调式。

自定义函数模块702可以包括：编程框架子模块7021、代码生成子模块7022、安全检测子模块7023和多语言支持子模块7024。该编程框架子模块7021用于提供目标函数的编程框架，还可以将该编程框架对应的代码编写规则发送至数据流页面模块701，以供该数据流页面模块701展示该代码编写规则。代码生成子模块7022用于基于目标函数的该多个配置参数的值、编程框架、第一格式的代码和指定函数模板，生成目标函数的第二格式的代码。安全检测子模块7023用于在生成第二格式的代码的过程中，禁止对目标存储空间之外的存储空间进行访问。多语言支持子模块7024用于对采用不同编程语言编写的目标函数的第一格式的代码进行分析识别，以保证大数据处理系统支持采用多种编程语言编写目标函数的该第一格式的代码。

引擎模块703可以包括SQL解析模块(SQLParser)和引擎适配模块(Adapter)。SQL解析模块可以对SQL依次进行语法解析、语义分析、语句优化和配置生成。引擎适配模块可以包括其支持的多个大数据计算引擎的调用计划(plan)，如Spark引擎、Storm引擎、Flink引擎和数据库查询引擎的调用计划。引擎适配模块可以执行支持的任意大数据计算引擎的调用计划以调用对应的大数据计算引擎。图8针对引擎模块703仅对其SQL解析模块支持的Spark引擎、Storm引擎和Flink引擎这三个引擎进行示意。示例地，引擎模块703可以调用目标大数据计算引擎对目标函数的第二格式的代码进行调试。

接口模块704可以根据数据流页面701模块获取的数据，调用大数据处理系统中相应的应用程序接口(Application Programming Interface，API)进行后续的数据处理，以保证用户针对显示的界面的操作能够得到后台程序的响应。接口模块704的架构可以分为两层，其中底层API可以包括：批处理(Batch)API、自定义函数API(如UDF API)和流处理(Stream)API；上层的流API(如Flow API)根据获取的数据调用和组合底层API来实现所需的能力。示例地，当被选择的目标大数据计算引擎的类型为实时计算类型时，接口模块704可以通过流处理API触发引擎模块703调用对应的目标大数据计算引擎。

参数解析模块705可以根据页面流模块701获取的数据生成数据处理过程中需遵循的统一具体的执行计划。该执行计划可以在不同的引擎如Flink、Spark、Hive等引擎上执行。

核心模块706可以对参数解析模块705生成的执行计划的执行进行支持。核心模块706可以包括执行计划子模块7061、统一模型子模块7062、通用子模块7063和配置管理子模块7064。执行计划子模块7061可以用于管理参数解析模块705生成的执行计划。该执行计划可以将数据处理过程分为三种类型的节点：输入(source)节点、转换(transform)节点以及输出(sink)节点，执行计划可以包括多个这三种类型的节点，该三种类型的节点组合起来的复杂图结构为该执行计划，也可以称为管线(pipeline)。统一模型子模块7062可以用于管理执行计划中各个任务之间的运行逻辑。如执行计划中各个任务可以抽象为节点(Node)、窗口(Window)或拓扑(Topology)，该各个任务根据运行逻辑组合后又可以构成一个大的拓扑。通用子模块7063可以用于执行一些公共事务，如任务运行过程中的打点(metric)、检查点(checkpoint，CKPT)管理、任务调试(debug)以及异常(exception)处理等。配置管理子模块7064可以管理数据处理过程中的相关配置信息。

综上所述，本申请提供的大数据处理系统，可以基于目标函数的多个配置参数的值、目标函数的第一格式的代码和目标大数据引擎的指定函数模板，生成目标大数据计算引擎支持的目标函数的第二格式的代码，且目标大数据计算引擎是多个大数据计算引擎中目标函数待部署的引擎。如此一来，可以无需在该目标大数据计算引擎上编写目标函数，就保证目标函数可以在其待部署的目标大数据计算引擎上使用，降低了目标函数的使用局限性。

图9是本申请实施例提供的一种终端的结构示意图。该终端可以包括上述实施例中的大数据处理系统，如图9所示，该终端90可以是便携式移动终端，比如：智能手机、平板电脑、笔记本电脑或台式电脑。终端90还可能被称为用户终端、便携式终端、膝上型终端、台式终端等其他名称。通常，终端90包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的网页获取方法。

在一些实施例中，终端90还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908或者电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户页面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端90的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端90的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端90的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端90的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端90的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端90中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端90还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端90建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户页面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端90的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端90的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端90的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端90的侧边框时，可以检测用户对终端90的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI页面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件或者菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端90的正面、背面或侧面。当终端90上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端90的前面板。接近传感器916用于采集用户与终端90的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端90的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端90的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

应当理解的是，图9中示出的结构并不构成对终端90的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行上述任一种大数据处理方法。

需要说明的是：上述实施例提供的大数据处理系统在生成目标函数时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

需要说明的是：本申请实施例提供的方法实施例能够与相应的装置实施例相互参考，本申请实施例对此不做限定。本申请实施例提供的方法实施例步骤的先后顺序能够进行适当调整，步骤也能够根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种大数据处理方法，其特征在于，应用于大数据处理系统，所述方法包括：

2.根据权利要求1所述的大数据处理方法，其特征在于，所述获取目标函数的多个配置参数的值包括：

展示所述多个配置参数的输入框；

获取所述多个配置参数的输入框中输入的所述多个配置参数的值。

3.根据权利要求1所述的大数据处理方法，其特征在于，所述方法还包括：

展示所述大数据处理系统支持调用的大数据计算引擎的多个类型；

将所述多个类型中被选定的目标类型的大数据计算引擎，确定为所述目标大数据计算引擎。

4.根据权利要求1至3任一所述的大数据处理方法，其特征在于，所述方法还包括：

获取所述目标函数的编程框架；

所述基于所述多个配置参数的值、所述第一格式的代码和所述指定函数模板，生成所述目标大数据计算引擎支持的所述目标函数的第二格式的代码，包括：

基于所述多个配置参数的值、所述编程框架、所述第一格式的代码和所述指定函数模板，生成所述第二格式的代码。

5.根据权利要求4所述的大数据处理方法，其特征在于，所述编程框架包括被处理数据的统一数据结构、数据配置和执行配置；

其中，所述被处理数据包括采用所述目标函数处理的数据，所述统一数据结构为所述被处理数据的表示方式，所述数据配置包括所述被处理数据的属性，所述执行配置包括所述被处理数据的处理资源。

6.根据权利要求1至3任一所述的大数据处理方法，其特征在于，所述方法还包括：

在生成所述第二格式的代码的过程中，禁止获取目标代码路径下的数据，所述目标代码路径下的数据包括所述第二格式的代码的生成过程中获取的数据之外的数据。

7.根据权利要求1至3任一所述的大数据处理方法，其特征在于，所述大数据处理系统支持M种编程语言和N种函数类型，M和N为正整数，所述大数据处理系统中的每个所述大数据计算引擎具有M*N个不同的函数模板，每个函数模板对应一种所述编程语言和一种所述函数类型；所述获取目标大数据计算引擎的指定函数模板，包括：

展示所述M种编程语言和N种函数类型；

接收目标编程语言和目标函数类型，所述目标编程语言为展示的编程语言中的一种，所述目标函数类型为展示的函数类型中的一种；

在所述目标大数据计算引擎具有的M*N个函数模板中，确定所述目标编程语言和所述目标函数类型对应的所述指定函数模板。

8.一种大数据处理系统，其特征在于，所述大数据处理系统包括：

9.一种大数据处理系统，其特征在于，所述大数据处理系统包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的大数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的大数据处理方法。