CN107943945A - 一种大数据分析开发平台中异构算子管理方法 - Google Patents

一种大数据分析开发平台中异构算子管理方法 Download PDF

Info

Publication number
CN107943945A
CN107943945A CN201711188355.8A CN201711188355A CN107943945A CN 107943945 A CN107943945 A CN 107943945A CN 201711188355 A CN201711188355 A CN 201711188355A CN 107943945 A CN107943945 A CN 107943945A
Authority
CN
China
Prior art keywords
operator
node
interface
parameter
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711188355.8A
Other languages
English (en)
Other versions
CN107943945B (zh
Inventor
王建民
龙明盛
孙家广
付博
黄向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711188355.8A priority Critical patent/CN107943945B/zh
Publication of CN107943945A publication Critical patent/CN107943945A/zh
Application granted granted Critical
Publication of CN107943945B publication Critical patent/CN107943945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种大数据分析开发平台中异构算子管理方法,所述方法包括:S1,对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;S2,根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。本发明为算子构造成为节点、节点生成节点运行实例提供接口与相应的底层实现,为分析平台提供了良好的支撑,实现了对不同类型算子进行归档整理功能,降低了开发时间,统一算子的管理接口规范,便于对算子库进行维护和更新,且易于扩充,适应性强。

Description

一种大数据分析开发平台中异构算子管理方法
技术领域
本发明属于数据分析领域,更具体地,涉及一种大数据分析开发平台中异构算子管理方法。
背景技术
随着互联网用户的增加,各种数据的增长速度不断提升。通过对大数据进行分析,根据分析结果可以发现各种问题,从而发挥数据的价值。
目前常用的数据分析方法为CRISP-DM(Cross-Industry Standard Process forData Mining,跨行业数据挖掘标准流程),该流程包括六个环节,分别为业务理解、数据理解、数据准备、建立模型、评估模型和部署。其中,数据准备、建立模型和评估模型中需要使用很多算法,这些算法只是理论层级的,需要根据实际工程进行编码,使用较为复杂,且缺乏统一的分类与管理手段。
业界有很多算子库开源软件,如Scikit-Learn。Scikit-Learn是基于Python的机器学习模块,具有六种基本功能,即分类、回归、聚类、数据降维、模型选择和数据预处理。但是不支持深度学习和强化学习,而深度学习和强化学习是广泛应用的技术,如用于图像分类和实时语音识别和语义理解等。此外,Scikit-Learn不支持图模型和序列预测,不支持Python之外的语言,不支持PyPy,也不支持GPU加速。
综上所述,现有技术中大数据分析开发平台中异构算子管理缺乏统一的管理接口。
发明内容
为克服上述现有技术缺少统一的管理接口的问题或者至少部分地解决上述问题,本发明提供了一种大数据分析开发平台中异构算子管理方法。
根据本发明的第一方面,提供一种大数据分析开发平台中异构算子管理方法,包括:
S1,对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;
S2,根据用户导入的自定义的算子信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;
S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。
具体地,所述步骤S1具体包括:
将所述算子的元信息保存到算子表中;
将所述算子的参数信息保存到算子参数表中;
将所述算子的输入端口信息和输出端口信息保存到算子输入输出端口表中;
将所述算子的输入类型和输出类型保存到算子输入输出类型表中。
具体地,所述步骤S2具体包括:
根据用户导入的算子和用户为所述算子指定的运行环境,生成所述算子的预定义模板;
根据所述预定义模板,将所述算子的信息进行保存;
根据预定义模板中的所述运行环境,获取所述算子的环境配置,将所述算子的环境配置进行保存。
具体地,所述步骤S3之后还包括:
S4,根据所述数据库中用户选择的算子的信息,使用节点配置接口构造节点;
S5,根据用户选择的所述节点的连接顺序,使用端口连接接口将各所述节点的输入端口与输出端口相连,生成数据分析流。
具体地,所述步骤S4具体包括:
所述步骤S4具体包括:
在节点表中创建新数据行;
将用户选择的算子的编号、节点所属的数据分析流的编号和所述节点在所述数据分析流中的位置编号写入所述新数据行;
定义所述节点的输入端口和输出端口,将所述节点的输入端口保存在节点输入端口定义表中,将所述节点的输出端口保存在节点输出端口定义表中;
定义所述节点的参数,将所述节点的参数信息保存在节点参数定义表中。
具体地,所述步骤S4还包括:
使用参数检验接口对所述用户选择的算子的参数和所述节点的参数进行检验;
使用连接关系检验接口对所述节点的端口进行检验。
具体地,所述步骤S5之后还包括:
根据所述算子的运行环境、环境配置和保存路径,以及执行所述算子的类,使用执行接口生成算子执行命令,并将所述算子执行命令提交给运行服务器,以供运行服务器根据所述算子执行命令运行所述数据分析流中的算子。
具体地,所述步骤S5之后还包括:
运行所述数据分析流,生成节点运行实体;
调用运行状态跟踪接口,获取所述数据分析流运行的开始执行时间,并更新节点的执行状态;
获取输出接口返回的所述节点运行实体生成的数据集或模型的存储路径。
根据本发明的第二方面,提供一种非暂态计算机可读存储介质,用于存储如前所述方法的计算机程序。
本发明提供一种大数据分析开发平台中异构算子管理方法及系统,该方法通过将算子按照统一的规范保存到数据库中,且通过新增算子接口用户可以添加自定义的算子,通过算子查询接口可以对数据库中的算子进行查询,通过节点配置接口根据所述数据库中用户选择的算子的信息构造节点,从而实现了对不同类型算子进行归档整理,降低了开发时间,统一算子的管理接口规范,便于对算子库进行维护和更新,且易于扩充,适应性强,能够适应于各种大数据分析开发平台中异构算子管理情况。
附图说明
图1为本发明实施例提供的大数据分析开发平台中异构算子管理方法整体流程示意图;
图2为本发明实施例提供的大数据分析开发平台中异构算子管理系统整体结构示意图;
图3为本发明实施例提供的大数据分析开发平台中异构算子管理设备整体结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的一个实施例中提供一种大数据分析开发平台中异构算子管理方法,图1为本发明实施例提供的大数据分析开发平台中异构算子管理方法整体流程示意图,该方法包括:S1,对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;S2,根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。
具体地,本实施例中将用户创建或管理平台中的算子、数据集等称为“定义时”,此时只涉及算子等的元信息;用户使用平台中的算子、数据集等新建或编辑数据分析流称为“构造时”,此时主要是算子构造节点的过程;用户完成分析流的创建后提交运行称为“运行时”,此时主要是节点转换为节点实例的过程。
S1中,所述算子是完成数据读取和数据变换等基本操作的可执行代码段,分为多种类型,用于构造节点。一个算子可以基于不同的库进行实现,比如基于Python和SparkML进行实现等。数据集分为多种类型,包括csv和图片等不同格式,会自带一个数据读取的程序,整体也可以视为一种算子;训练好的模型也可以视为一种特殊的算子,用于完成特定的数据处理操作。所述模型包括简单的数学模型和深度学习模型,分为多种类型,运行在不同环境下,如TensorFlow和Spark等。可以将算法编码实现作为算子,如对表合并和过滤异常值的算法进行编码,将编码的结果作为算子。所述算子的信息如表1所示,主要包括算子的类型,例如数据读取或导出,模型导入或导出,普通算子;算子对应的执行文件名;运行环境,例如Spark、TensorFlow等;该运行环境的配置参数;实现代码的文件存放路径,例如“/user/home/test”;实现代码进入的类,例如SortbyId。如表2所示,所述数据集的信息主要包括数据集名称、数据集描述、在所属数据源中提取数据集用到的方法、数据集在服务器上的所属位置、是否每次都要从数据库即时加载、数据集中的数据类型的编号和数据集创建时间。如果所述数据集为中间数据集,所述数据集的信息还包括来源的算子输出端口。
S2中,定义时涉及两个主要接口,即新增算子接口,以及算子和数据集的查询接口。通过所述新增算子接口,用户可以新增自定义的算子,只需要满足相应的规范与要求,并由前端或者其它系统按照预定义模板传输算子的元信息。
S3中,在接受到前端的查询请求后,使用算子和数据集的查询接口按照查询请求中附带的参数进行筛选,比如查找所有Spark算子,查找所有csv格式的数据集。默认情况下可以列出所有数据集和算子。该查询主要基于算子表。
表1算子表
表2数据集表
本实施例通过将算子按照统一的规范保存到数据库中,且通过新增算子接口用户可以添加自定义的算子,通过算子查询接口可以对数据库中的算子进行查询,通过节点配置接口根据所述数据库中用户选择的算子的信息构造节点,从而实现了对不同类型算子进行归档整理,降低了开发时间,统一算子的管理接口规范,便于对算子库进行维护和更新,且易于扩充,适应性强,能够适应于各种大数据分析开发平台中异构算子管理情况。
在上述实施例的基础上,本实施例中所述步S1具体包括:将所述算子的元信息保存到算子表中;将所述算子的参数信息保存到算子参数表中;将所述算子的输入端口信息和输出端口信息保存到算子输入输出端口表中;将所述算子的输入类型和输出类型保存到算子输入输出类型表中;将所述第一数据集的信息保存到数据集表中。
具体地,算子和数据集的信息均为平台中保存的静态信息,所述算子的信息保存在算子表、算子参数表、算子输入输出端口表和算子输入输出类型表中。其中,算子表的相关信息均为算子的元信息,根据算子的特性确定,如表1所示。算子参数表、算子输入输出端口表、算子输入输出类型表都用于保存算子的使用信息。所述算子参数表定义算子使用过程中的需要设置的参数,如表3所示,主要包括算子参数名、后台算子参数实际名称、该参数在该算子所有参数中的序号、算子参数类型,算子参数默认值、算子参数候选值、算子参数取值范围和所对应的算子的编号。在所述算子输入输出端口表中定义算子中数据的输入输出规范,如表4所示,主要包括默认名称,端口类型名,端口在算子所有端口中的序号,对应算子的编号。算子的输出端口和输入端口分别有一个序号。所述算子输入输出类型表说明端口的数据类型如表5所示,主要包括端口类型名,如image、text和csv中的一种,或者TensorFlow、Scikit-Learn、SparkML和adaptive中的一种,端口类型,如dataset或者model。数据集表保存着平台中已有的数据集的元信息,依据实际数据集的情况确定,如表2所示。
表3算子参数表
表4算子输入输出端口表
表5算子输入输出类型表
在上述实施例的基础上,本实施例中所述步骤S2具体包括:根据用户导入的算子和用户为所述算子指定的运行环境,生成所述算子的预定义模板;根据所述预定义模板,将所述算子的信息进行保存;根据预定义模板中的所述运行环境,获取所述算子的环境配置,将所述算子的环境配置进行保存。
具体地,所述预定义模板可以为xml或json等文件格式,下面
以json为例:
根据该json定义的预设定义模板,在算子导入过程中在算子表中增加一条记录,在算子参数表和算子输入输出端口表中增加若干条记录。同时会根据用户指定的算子执行环境选取合适的环境配置。
上述的json定义中外层的name表示算子的名称,将算子的名称写入数据表中operators.name字段。run_env表示运行环境,将所述运行环境写入数据表中operators.run_env字段。impl_path表示在用户上传的可执行文件,例如jar包传输到服务器后存放的位置,对应写入operators.impl_path字段。
将parameter数组中的内容对应写入算子参数表中,其中的name表示参数的名称,对应写入数据表中parameters.name字段;type表示参数的类型,对应写入数据表中parameters.type字段;default_value表示参数的默认值,对应写入数据表中parameters.default_value字段;将参数在本数组的序号写入parameters.param_order字段。
inputs和outputs数组表示所述算子的输入输出端口数量以及具体的类型,首先将端口类型写入数据表中ports.value_type_id字段,然后将参数在数组中的序号写入数据表中ports.order_in_operation字段。框架也会在算子新增成功后,根据以往类似的设定或预制的一般性规则自动选取合适的预设环境配置,将构造好的环境配置字符串存入数据表中“operators.sys_config”字段。表6是一个典型的Spark环境的配置,表7是一个典型的TensorFlow配置。
在上述各实施例的基础上,本实施例中所述步骤S3之后还包括:S4,根据所述数据库中用户选择的算子的信息,使用节点配置接口构造节点;S5,根据用户选择的所述节点的连接顺序,使用端口连接接口将各所述节点的输入端口与输出端口相连,生成数据分析流。
表6 spark参数举例说明表
表7 TensorF l ow参数举例说明表
具体地,S4中,所述节点是所述数据分析流程中的最小处理单元,包括不同类型,如模型节点、数据处理节点和数据集节点。所述模型节点由模型构造得到,所述数据处理节点由算子构造得到,所述数据集节点由数据集构造得到,所述节点可以组成数据分析流。所述节点主要包括节点对应的算子、节点对应的工作流和节点在工作流中的位置。根据所述数据库中用户选择的算子的信息,使用节点配置接口将各节点的输入端口与其他节点的输出端口相连,各节点的输出端口与其他节点的输入端口相连,从而连接节点构造数据分析流。运行所述数据分析流对数据进行分析,获取分析结果。
节点输入端口和节点输出端口是节点的数据传输通道。节点输入端口定义表和节点输出端口定义表定义了端口的相关参数,如表8和表9所示。其中,每个节点的端口数量需要根据算子的特性从算子输入输出端口表中获取,每个节点输入端口表中定义的数据行可以保存一个节点输出端口编号,当使用其他节点的输出数据作为输入数据时,该值为其他节点的输出端口编号。端口的实际连接顺序由用户在实际分析平台的前端系统中手动操作去确定。在解析端口连接顺序时,可以从分析流的结果节点倒序寻找前驱节点。
表8节点输入端口定义表
表9节点输出端口定义表
在完成数据分析流的创建后,保存所述数据分析流,对所述数据分析流进行检查执行,具体包括检查节点创建是否正确,例如参数是否缺省等。检查各端口的连接是否正确,例如数据类型、数据格式、模型接口参数等。检查分析流整体是否正确,例如是否有数据集等。提交运行,将所述数据分析流实例化为分析流运行实体,同时将节点实例化为“节点运行实体”,记录运行开始时间、结束时间和运行状态等。节点中定义的输入输出端口可以产生节点输出,例如中间数据集等。
在上述实施例的基础上,本实施例中所述步骤S4具体包括:在节点表中创建新数据行;将用户选择的算子的编号、节点所属的数据分析流的编号和所述节点在所述数据分析流中的位置编号写入所述新数据行;定义所述节点的参数,将所述节点的参数信息保存在节点参数定义表中;定义所述节点的输入端口和输出端口,将所述节点的输入端口保存在节点输入端口定义表中,将所述节点的输出端口保存在节点输出端口定义表中。
具体地,算子可以添加到数据分析流中构造成节点,新的节点继承了原来算子的属性,具有相应的类型,例如数据处理节点、数据集节点和模型节点。节点表主要是节点本身的相关属性,用户发起将算子加入分析流的请求后,系统创建节点表的新数据行并将用户选择的算子的编号写入节点表中的operator_id字段,将节点所属的数据分析流的编号写入所述节点表中的workflow_id字段,将节点在所述数据分析流中位置写入节点表中的nodeid_in_workflow字段,如表10所示,从而实现根据所述数据库中用户选择的算子的信息,使用节点配置接口构造节点。定义所述节点的参数,将所述节点的参数信息保存在节点参数定义表中,如表11所示。所述节点参数定义表主要包括节点编号、参数编号和参数值。
表10节点表
表11节点参数定义表
在上述实施例的基础上,本实施例中所述步骤S4还包括:使用参数检验接口对所述用户选择的算子的参数和所述节点的参数进行检验;使用连接关系检验接口对所述节点的端口进行检验。
具体地,构造时涉及到节点配置接口、端口连接接口、参数规范性检验接口和连接关系规范性检验接口。使用节点配置接口构造节点,使用端口连接接口定义节点的输入端口和输出端口。使用参数规范性检验接口对算子参数的规范和节点参数的规范性进行检验。算子参数的规范性检验主要包括:检查参数类型value_type是否一致,是否在候选值candidates中,是否在参数取值范围scope中。节点参数的规范性检验主要校验参数本身是否规范。
在算子构造节点以及用户完成节点端口之间的连接后,使用连接关系规范性检验接口检查连接的规范性。首先检查端口的类型,例如必须是输入和输出端口连接,输入端口和输入端口不能相连接,输出端口不能与输出端口相连接。然后检查端口中传输的数据是否规范。由于节点端口由算子端口构造而来,所以也需要满足算子端口定义。数据类型value_type_id需要一致,例如数据的格式均为csv。最终返回检查结果与错误信息。
在上述实施例的基础上,本实施例中所述步骤S5之后还包括:根据所述算子的运行环境、环境配置和保存路径,以及执行所述算子的类,使用执行接口生成算子执行命令,并将所述算子执行命令提交给运行服务器,以供运行服务器根据所述算子执行命令运行所述数据分析流中的算子。
具体地,运行时主要是分析流的执行和运行时数据的维护,核心是节点实例的创建与状态的跟踪,节点运行实体表首先保存对应定义节点的编号以及对应的分析流运行实体编号,然后记录开始执行的时间,执行结束的时间,节点的执行状态。如表12所示。
表12节点运行实体表
执行接口从算子表中查询运行环境run_env,环境配置sys_config,保存路径impl_path,执行代码类entry_class,生成一条算子执行命令,配合调度系统提交给Spark集群、TensorFlow集群等运行服务器。
在上述实施例的基础上,本实施例中所述步骤S5之后还包括:运行所述数据分析流,生成节点运行实体;调用运行状态跟踪接口,获取所述数据分析流运行的开始执行时间,并更新节点的执行状态;获取输出接口返回的所述节点运行实体生成的数据集或模型的存储路径。
具体地,分析流提交运行后,节点形成相应的节点运行实体,外部系统通过调用运行状态跟踪接口记录开始执行的时间并且更新节点的执行状态,例如运行中running,中断abort,挂起suspend。使用输出接口返回所述节点运行实体生成的数据集或模型的存储路径。
在本发明的另一个实施例中提供一种大数据分析开发平台中异构算子管理系统,图2为本发明实施例提供的大数据分析开发平台中异构算子管理系统整体结构示意图,该系统包括生成单元1、增加单元2和查询单元3,其中:
所述生成单元1用于对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;所述增加单元2用于根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;所述查询单元3用于当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。
具体地,本实施例中将用户创建或管理平台中的算子、数据集等称为“定义时”,此时只涉及算子等的元信息;用户使用平台中的算子、数据集等新建或编辑数据分析流称为“构造时”,此时主要是算子构造节点的过程;用户完成分析流的创建后提交运行称为“运行时”,此时主要是节点转换为节点实例的过程。
S1中,所述算子是完成数据读取和数据变换等基本操作的可执行代码段,分为多种类型,用于构造节点。一个算子可以基于不同的库进行实现,比如基于Python和SparkML进行实现等。数据集分为多种类型,包括csv和图片等不同格式,会自带一个数据读取的程序,整体也可以视为一种算子;训练好的模型也可以视为一种特殊的算子,用于完成特定的数据处理操作。所述模型包括简单的数学模型和深度学习模型,分为多种类型,运行在不同环境下,如TensorFlow和Spark等。
所述生成单元1将用于数据分析的各种算法的编码实现作为算子,如对表合并和过滤异常值的算法进行编码,将编码的结果作为算子。所述算子的信息如表1所示,主要包括算子的类型,例如数据读取或导出,模型导入或导出,普通算子;算子对应的执行文件名;运行环境,例如Spark、TensorFlow等;该运行环境的配置参数;实现代码的文件存放路径,例如“/user/home/test”;实现代码进入的类,例如SortbyId。如表2所示,所述数据集的信息主要包括数据集名称、数据集描述、在所属数据源中提取数据集用到的方法、数据集在服务器上的所属位置、是否每次都要从数据库即时加载、数据集中的数据类型的编号和数据集创建时间。如果所述数据集为中间数据集,所述数据集的信息还包括来源的算子输出端口。
定义时涉及两个主要接口,即新增算子接口,以及算子和数据集的查询接口。所述增加单元2通过所述新增算子接口,用户可以新增自定义的算子,只需要满足相应的规范与要求,并由前端或者其它系统按照预定义模板传输算子的元信息。在接受到前端的查询请求后,所述查询单元3使用算子和数据集的查询接口按照查询请求中附带的参数进行筛选,比如查找所有Spark算子,查找所有csv格式的数据集。默认情况下可以列出所有数据集和算子。该查询主要基于算子表。
本实施例通过将算子按照统一的规范保存到数据库中,且通过新增算子接口用户可以添加自定义的算子,通过算子查询接口可以对数据库中的算子进行查询,通过节点配置接口根据所述数据库中用户选择的算子的信息构造节点,从而实现了对不同类型算子进行归档整理,降低了开发时间,统一算子的管理接口规范,便于对算子库进行维护和更新,且易于扩充,适应性强,能够适应于各种大数据分析开发平台中异构算子管理情况。
在上述实施例的基础上,本实施例中所述生成单元具体用于:将所述算子的元信息保存到算子表中;将所述算子的参数信息保存到算子参数表中;将所述算子的输入端口信息和输出端口信息保存到算子输入输出端口表中;将所述算子的输入类型和输出类型保存到算子输入输出类型表中。
在上述实施例的基础上,本实施例中所述增加单元具体用于:根据用户导入的算子和用户为所述算子指定的运行环境,生成所述算子的预定义模板;根据所述预定义模板,将所述算子的信息进行保存;根据预定义模板中的所述运行环境,获取所述算子的环境配置,将所述算子的环境配置进行保存。
在上述各实施例的基础上,本实施例中所述装置还包括:构造单元,用于根据所述数据库中用户选择的算子的信息,使用节点配置接口构造节点;连接单元,用于根据用户选择的所述节点的连接顺序,使用端口连接接口将各所述节点的输入端口与输出端口相连,生成数据分析流。
在上述实施例的基础上,本实施例中所述构造单元具体用于:在节点表中创建新数据行;将用户选择的算子的编号、节点所属的数据分析流的编号和所述节点在所述数据分析流中的位置编号写入所述新数据行;定义所述节点的输入端口和输出端口,将所述节点的输入端口保存在节点输入端口定义表中,将所述节点的输出端口保存在节点输出端口定义表中;定义所述节点的参数,将所述节点的参数信息保存在节点参数定义表中。
在上述实施例的基础上,本实施例中所述构造单元还用于:使用参数检验接口对所述用户选择的算子的参数和所述节点的参数进行检验;使用连接关系检验接口对所述节点的端口进行检验。
在上述实施例的基础上,本实施例中所述装置还包括运行单元,用于根据所述算子的运行环境、环境配置和保存路径,以及执行所述算子的类,生成算子执行命令;将所述算子执行命令提交给运行服务器,以供运行服务器根据所述算子执行命令运行所述数据分析流中的算子。
在上述实施例的基础上,本实施例中所述装置还包括跟踪单元,用于运行所述数据分析流,生成节点运行实体;调用运行状态跟踪接口,获取所述数据分析流运行的开始执行时间,并更新节点的执行状态;获取输出接口返回的所述节点运行实体生成的数据集或模型的存储路径。
本实施例提供一种大数据分析开发平台中异构算子管理设备,图3为本发明实施例提供的大数据分析开发平台中异构算子管理设备整体结构示意图,该设备包括:至少一个处理器31、至少一个存储器32和总线33;其中,
所述处理器31和存储器32通过所述总线33完成相互间的通信;
所述存储器32存储有可被所述处理器31执行的程序指令,所述处理器调用所述程序指令能够执行上述各方法实施例所提供的方法,例如包括:对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;S2,根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;S2,根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的大数据分析开发平台中异构算子管理设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种大数据分析开发平台中异构算子管理方法,其特征在于,包括:
S1,对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;
S2,根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;
S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:
将所述算子的元信息保存到算子表中;
将所述算子的参数信息保存到算子参数表中;
将所述算子的输入端口信息和输出端口信息保存到算子输入输出端口表中;
将所述算子的输入类型和输出类型保存到算子输入输出类型表中。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
根据用户导入的算子和用户为所述算子指定的运行环境,生成所述算子的预定义模板;
根据所述预定义模板,将所述算子的信息进行保存;
根据预定义模板中的所述运行环境,获取所述算子的环境配置,将所述算子的环境配置进行保存。
4.根据权利要求1-3任一所述的方法,其特征在于,所述步骤S3之后还包括:
S4,根据所述数据库中用户选择的算子的信息,使用节点配置接口将算子构造成为节点;
S5,根据用户选择的所述节点的连接顺序,使用端口连接接口将各所述节点的输入端口与输出端口相连,生成数据分析流。
5.根据权利要求4所述的方法,其特征在于,所述步骤S4具体包括:
在节点表中创建新数据行;
将用户选择的算子的编号、节点所属的数据分析流的编号和所述节点在所述数据分析流中的位置编号写入所述新数据行;
定义所述节点的输入端口和输出端口,将所述节点的输入端口保存在节点输入端口定义表中,将所述节点的输出端口保存在节点输出端口定义表中;
定义所述节点的参数,将所述节点的参数信息保存在节点参数定义表中。
6.根据权利要求4所述的方法,其特征在于,所述步骤S4还包括:
使用参数检验接口对所述用户选择的算子的参数和所述节点的参数进行检验;
使用连接关系检验接口对所述节点的端口进行检验。
7.根据权利要求4所述的方法,其特征在于,所述步骤S5之后还包括:
根据所述算子的运行环境、环境配置和保存路径,以及执行所述算子的类,使用执行接口生成算子执行命令,并将所述算子执行命令提交给运行服务器,以供运行服务器根据所述算子执行命令运行所述数据分析流中的算子。
8.根据权利要求4所述的方法,其特征在于,所述步骤S5之后还包括:
运行所述数据分析流,由各节点生成相应节点运行实体;
调用运行状态跟踪接口,获取所述数据分析流运行的开始执行时间,并更新节点的执行状态;
获取输出接口返回的所述节点运行实体生成的数据集或模型的存储路径。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8任一所述的方法。
CN201711188355.8A 2017-11-24 2017-11-24 一种大数据分析开发平台中异构算子管理方法 Active CN107943945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711188355.8A CN107943945B (zh) 2017-11-24 2017-11-24 一种大数据分析开发平台中异构算子管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711188355.8A CN107943945B (zh) 2017-11-24 2017-11-24 一种大数据分析开发平台中异构算子管理方法

Publications (2)

Publication Number Publication Date
CN107943945A true CN107943945A (zh) 2018-04-20
CN107943945B CN107943945B (zh) 2018-12-11

Family

ID=61948626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711188355.8A Active CN107943945B (zh) 2017-11-24 2017-11-24 一种大数据分析开发平台中异构算子管理方法

Country Status (1)

Country Link
CN (1) CN107943945B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345377A (zh) * 2018-09-28 2019-02-15 北京九章云极科技有限公司 一种数据实时处理系统及数据实时处理方法
CN110795076A (zh) * 2018-08-03 2020-02-14 上海小渔数据科技有限公司 用于实现基础逻辑算法的数据处理方法及装置
CN110908641A (zh) * 2019-11-27 2020-03-24 中国建设银行股份有限公司 基于可视化的流计算平台、方法、设备和存储介质
CN111784000A (zh) * 2020-07-16 2020-10-16 矩阵元技术(深圳)有限公司 数据处理方法、装置和服务器
CN112101529A (zh) * 2020-10-14 2020-12-18 杭州海康威视数字技术股份有限公司 一种用于神经网络模型推理跨平台的部署方法及架构
CN112130933A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种算子集构建及调用的方法和装置
CN113392367A (zh) * 2021-06-16 2021-09-14 南京信息工程大学 扩展电路系统信号分析与处理方法及存储介质
CN113971032A (zh) * 2021-12-24 2022-01-25 百融云创科技股份有限公司 一种代码生成的机器学习模型全流程自动部署方法及系统
CN114168114A (zh) * 2022-02-10 2022-03-11 中国电子科技集团公司第十五研究所 一种算子注册方法、装置以及设备
CN114880395A (zh) * 2022-07-05 2022-08-09 浙江大华技术股份有限公司 算法方案运行方法、可视化系统、终端设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411974B1 (en) * 1998-02-04 2002-06-25 Novell, Inc. Method to collate and extract desired contents from heterogeneous text-data streams
CN101187937A (zh) * 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN102314375A (zh) * 2011-03-18 2012-01-11 北京神州数码思特奇信息技术股份有限公司 一种异构数据库存储统一接口和数据库访问方法
CN102722570A (zh) * 2012-06-04 2012-10-10 武汉大学 一种面向地理空间优化的人工免疫智能优化系统
CN102760143A (zh) * 2011-04-28 2012-10-31 国际商业机器公司 一种在数据库系统中动态整合执行结构的方法和装置
CN103123652A (zh) * 2013-03-14 2013-05-29 曙光信息产业(北京)有限公司 数据查询方法和集群数据库系统
CN103617175A (zh) * 2013-11-04 2014-03-05 广东电子工业研究院有限公司 一种用于大规模分布异构数据的虚拟化方法
CN106445944A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 一种数据查询请求的处理方法、装置及电子设备
CN107272903A (zh) * 2017-06-26 2017-10-20 王田 基于图像处理算法的社交系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411974B1 (en) * 1998-02-04 2002-06-25 Novell, Inc. Method to collate and extract desired contents from heterogeneous text-data streams
CN101187937A (zh) * 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN102314375A (zh) * 2011-03-18 2012-01-11 北京神州数码思特奇信息技术股份有限公司 一种异构数据库存储统一接口和数据库访问方法
CN102760143A (zh) * 2011-04-28 2012-10-31 国际商业机器公司 一种在数据库系统中动态整合执行结构的方法和装置
CN102722570A (zh) * 2012-06-04 2012-10-10 武汉大学 一种面向地理空间优化的人工免疫智能优化系统
CN103123652A (zh) * 2013-03-14 2013-05-29 曙光信息产业(北京)有限公司 数据查询方法和集群数据库系统
CN103617175A (zh) * 2013-11-04 2014-03-05 广东电子工业研究院有限公司 一种用于大规模分布异构数据的虚拟化方法
CN106445944A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 一种数据查询请求的处理方法、装置及电子设备
CN107272903A (zh) * 2017-06-26 2017-10-20 王田 基于图像处理算法的社交系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795076B (zh) * 2018-08-03 2024-03-22 上海小渔数据科技有限公司 用于实现基础逻辑算法的数据处理方法及装置
CN110795076A (zh) * 2018-08-03 2020-02-14 上海小渔数据科技有限公司 用于实现基础逻辑算法的数据处理方法及装置
CN109345377A (zh) * 2018-09-28 2019-02-15 北京九章云极科技有限公司 一种数据实时处理系统及数据实时处理方法
CN110908641A (zh) * 2019-11-27 2020-03-24 中国建设银行股份有限公司 基于可视化的流计算平台、方法、设备和存储介质
CN110908641B (zh) * 2019-11-27 2024-04-26 中国建设银行股份有限公司 基于可视化的流计算平台、方法、设备和存储介质
CN111784000A (zh) * 2020-07-16 2020-10-16 矩阵元技术(深圳)有限公司 数据处理方法、装置和服务器
CN111784000B (zh) * 2020-07-16 2024-05-17 矩阵元技术(深圳)有限公司 数据处理方法、装置和服务器
CN112130933A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种算子集构建及调用的方法和装置
CN112101529A (zh) * 2020-10-14 2020-12-18 杭州海康威视数字技术股份有限公司 一种用于神经网络模型推理跨平台的部署方法及架构
CN113392367A (zh) * 2021-06-16 2021-09-14 南京信息工程大学 扩展电路系统信号分析与处理方法及存储介质
CN113392367B (zh) * 2021-06-16 2023-06-20 南京信息工程大学 扩展电路系统信号分析与处理方法及存储介质
CN113971032A (zh) * 2021-12-24 2022-01-25 百融云创科技股份有限公司 一种代码生成的机器学习模型全流程自动部署方法及系统
CN114168114A (zh) * 2022-02-10 2022-03-11 中国电子科技集团公司第十五研究所 一种算子注册方法、装置以及设备
CN114880395A (zh) * 2022-07-05 2022-08-09 浙江大华技术股份有限公司 算法方案运行方法、可视化系统、终端设备以及存储介质

Also Published As

Publication number Publication date
CN107943945B (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN107943945B (zh) 一种大数据分析开发平台中异构算子管理方法
US8429527B1 (en) Complex data merging, such as in a workflow application
CN102298607B (zh) 数据集成的方案合约
CN105359141A (zh) 支持基于流的etl和基于实体关系的etl的组合
CN106682097A (zh) 一种处理日志数据的方法和装置
US11823073B2 (en) Declarative debriefing for predictive pipeline
EP2289028A1 (en) Automatic data mining process control
CN106682096A (zh) 一种日志数据的管理方法和装置
US11443102B1 (en) Methods and systems for artificial intelligence-assisted document annotation
US9098497B1 (en) Methods and systems for building a search service application
US11403347B2 (en) Automated master data classification and curation using machine learning
US20230021259A1 (en) Methods and systems for building search service application
US20230108560A1 (en) Methods and Systems for Representation, Composition and Execution of Artificial Intelligence Centric Applications
CN106682099A (zh) 一种数据的存储方法和装置
CN106708965A (zh) 一种数据的处理方法和装置
US20230049167A1 (en) Continuous machine learning method and system for information extraction
CN114385233B (zh) 一种跨平台自适应数据处理工作流系统及方法
US20230186117A1 (en) Automated cloud data and technology solution delivery using dynamic minibot squad engine machine learning and artificial intelligence modeling
CN108255913A (zh) 一种实时流数据处理方法及装置
EP1646940A2 (en) Designing computer programs
CN117235527A (zh) 端到端容器化的大数据模型构建方法、装置、设备及介质
US20200184961A1 (en) Voice-enabled human tasks in process modeling
US20230179621A1 (en) Methods and systems for integrating crowd sourced threat modeling contributions into threat modeling systems
US11501177B2 (en) Knowledge engineering and reasoning on a knowledge graph
CN102902519A (zh) 一种基于动态系统实现复合断言计算的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant