CN112988130A

CN112988130A - 一种基于大数据的可视化建模方法、装置、设备及介质

Info

Publication number: CN112988130A
Application number: CN202110209647.5A
Authority: CN
Inventors: 姜威; 陈浩; 王川; 黄之; 侯立冬; 孟宝权; 傅强; 蔡琳; 梁彧; 田野; 王杰; 杨满智; 金红; 陈晓光
Original assignee: Eversec Beijing Technology Co Ltd
Current assignee: Eversec Beijing Technology Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-18

Abstract

本发明实施例公开了一种基于大数据的可视化建模方法、装置、设备及介质。其中，所述方法包括：向用户展示可视化模型组件和工具栏；根据用户选中的至少一个目标可视化模型组件以及工具栏中的目标有向连接线，形成有向无环的可视化分析模型；响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在参数编辑界面的输入指令对目标可视化模型组件的参数进行编辑；基于用户对所有目标可视化模型组件的编辑参数，运行可视化分析模型，可以实现用流程化的方式高效地进行可视化建模并进行可视化的大数据分析流程，可以提高用户的建模体验以及满足用户多样化的建模需求。

Description

一种基于大数据的可视化建模方法、装置、设备及介质

技术领域

本发明实施例涉及大数据建模技术领域，尤其涉及一种基于大数据的可视化建模方法、装置、设备及介质。

背景技术

在大数据计算场景中，使用大数据建模工具进行建模来实现对大数据进行分析。相关技术的大数据建模，建模开发人员需要借用数据处理工具和机器学习工具，使用特定的语言，编写定制化的代码实现，并需要复杂的环境搭建与配置工程才能完成完整的建模过程，处理性能依赖于硬件及开发人员的设计、算法、代码质量。存在的主要问题为：对于非专业人员，需学习框架的语言及SDK后，进行编码开发，使用门槛较高。尽管业界已有一些建模工具整合了上述功能，但无法支持大数据环境，适用的业务场景和建模能力比较有限。

发明内容

本发明实施例提供了一种基于大数据的可视化建模方法、装置、设备及介质，可以实现用流程化的方式高效地进行可视化建模并进行可视化的大数据分析流程，可以提高用户的建模体验以及满足用户多样化的建模需求。

第一方面，本发明实施例提供了一种基于大数据的可视化建模方法，该方法包括：响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；其中，所述工具栏中包括至少一个有向连接线；

根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型；

响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与所述参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在所述参数编辑界面的输入指令对所述目标可视化模型组件的参数进行编辑；

响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型。

第二方面，本发明实施例还提供了一种基于大数据的可视化建模装置，该装置包括：第一响应模块，用于响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；其中，所述工具栏中包括至少一个有向连接线；

模型构建模块，用于根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型；

第二响应模块，用于响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与所述参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在所述参数编辑界面的输入指令对所述目标可视化模型组件的参数进行编辑；

模型运行模块，用于响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型。

第三方面，本发明实施例还提供了一种电子设备，其中，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一项所述的基于大数据的可视化建模方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一项所述的基于大数据的可视化建模方法。

本发明实施例提供的技术方案，通过响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型；响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在参数编辑界面的输入指令对目标可视化模型组件的参数进行编辑；响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行可视化分析模型，可以实现用流程化的方式高效地进行可视化建模并进行可视化的大数据分析流程，可以提高用户的建模体验以及满足用户多样化的建模需求。

附图说明

图1a是本发明实施例提供的一种基于大数据的可视化建模方法的流程图；

图1b是本发明实施例提供的可视化分析模型构建界面；

图2是本发明实施例提供的另一种基于大数据的可视化建模方法的流程图；

图3a是本发明实施例提供的又一种基于大数据的可视化建模方法的流程图；

图3b是本发明实施例提供的可视化分析模型任务执行的流程图；

图4是本发明实施例提供的一种基于大数据的可视化建模装置结构示意图；

图5是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1a是本发明实施例提供的基于大数据的可视化建模方法的流程图，所述方法可以由基于大数据的可视化建模装置来执行，所述装置可以由软件和/或硬件的方式实现，所述装置可以配置在服务器等电子设备中。可选的，所述方法应用于对大数据进行分析计算的场景中。如图1a所示，本发明实施例提供的技术方案具体包括：

S110:响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏。

其中，所述工具栏中包括至少一个有向连接线。

在本发明实施例中，可选的，当用户需要对大数据进行计算分析时，通过自己的账号信息登录建模平台的WEB界面并触发构建大数据可视化分析模型的选项，向建模平台的服务器发出可视化分析模型构建请求，接收到用户发送的可视化分析模型构建请求后，将各可视化模型组件和包含多个有向连接线的工具栏显示给用户供用户选择使用。

在本发明实施例中，可选的，所述可视化模型组件的功能类型包括下述至少一项：数据预处理模型组件、统计模型组件、机器学习模型组件、脚本工具模型组件和算法模型组件。

在本发明实施例中，可选的，大数据分析建模一般包括数据读写、数据处理、特征工程、模型训练和模型评价等步骤。相应的，建模平台中可视化模型组件的功能类型包括数据预处理模型组件、统计模型组件、机器学习模型组件、脚本工具模型组件和算法模型组件，用户可以根据建模业务流程的需要对可视化模型组件进行选择。

其中，数据预处理模型组件用于数据读写，可以支持kafka,Hive,impala,HDFS,clickhouse,presto等常见数据库、文件和消息队列等数据源，各数据源以可视化列表的方式直接展示在我的数据中，即拖即用，不需要做任何配置即可接入数据。数据预处理模型组件包括行处理，表处理和列处理等分类模型组件；统计模型组件包含交叉表，统计表，T检验，相关系数和方差等常用数据统计分类模型组件；机器学习模型组件包括分类，聚类，文本模型，评分和预测等多个分类模型组件，包含常用的模型算法。另外还提供了多种脚本工具模型组件，如sql组件,python组件,java组件和scala组件等，方便用户更加灵活地进行数据处理。

S120:根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型。

在本发明实施例中，可选的，用户根据业务需求选择对应不同功能类型的可视化模型组件，将其拖拽到画布的相应位置，并通过有向连接线确定各目标可视化模型组件的执行次序并最终形成有向无环的可视化分析模型。具体地，在可视化分析模型执行过程中，由目标有向连接线连接起来的两个目标可视化模型组件，与目标有向连接线的起点连接的目标可视化模型组件首先执行，待其执行完毕后，与目标有向连接线的终点连接的目标可视化模型组件然后执行。

在本发明实施例的一个实施方式中，可选的，根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型，包括：响应于用户对至少一个目标可视化模型组件以及至少一个目标有向连接线的拖拽请求；将所有目标可视化模型组件以及所有目标有向连接线显示在与拖拽请求相对应的画布位置上，组合形成有向无环的所述可视化分析模型并显示给用户。

在本发明实施例中，可选的，目标可视化模型组件的拖拽请求中包含了用户选择的可视化模型组件以及其在画布上对应的拖拽位置，目标有向连接线的拖拽请求中包含了用户选择的有向连接线以及其在画布上对应的拖拽位置，通过鼠标将用户选择的可视化模型组件和有向连接线串联在与所有对象的拖拽请求在画布上相对应的拖拽位置，组合形成有向无环的可视化分析模型并显示在画布上，用户根据需要可以对该可视化分析模型进行可视化编辑和重新组合。

S130:响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与所述参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在所述参数编辑界面的输入指令对所述目标可视化模型组件的参数进行编辑。

在本发明实施例中，可选的，用户可以对可视化分析模型中的目标可视化模型组件进行可视化编辑，具体的，如图1b所示，通过双击需要进行参数编辑的目标可视化模型组件发出参数编辑请求，当接收到用户发送的参数编辑请求时，向用户展示该参数编辑请求对应的目标可视化模型组件的参数编辑界面，用户可以使用自研的自定义表单框架，通过输入指令个性化定制目标可视化模型组件所需要的参数的交互。自定义表单包括表格，输入框，下拉框等表单组件，在自定义表单工作台通过可视化拖动不同表单组件进行属性配置调整界面的宽度，参数的校验等。使用Vue作为页面的MVVM(Model-View-View-Model)框架，展示所需的界面。配置参数的目标可视化模型组件即可在画布上进行使用，通过与后台的交互对目标可视化模型组件和可视化分析模型进行管理。

由此，通过基于可视化参数编辑界面对可视化分析模型中的各个目标可视化模型组件进行可视化的参数编辑，可以方便和简化用户操作，可以使用户对各个目标可视化模型组件的参数编辑情况一目了然。

S140:响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型。

在本发明实施例中，可选的，完成了对可视化分析模型中所有目标可视化模型组件的参数编辑后，如图1b所示，可以通过在建模平台上选择“运行”选项可视化运行该可视化分析模型进行数据分析，接收到用户的可视化分析模型运行请求后，将可视化分析模型的执行流程转为代码形式，然后将各个目标可视化模型组件对应的代码文件进行打包生成打包文件，例如可以是zip格式，然后提交可视化分析模型任务和运行可视化分析模型任务，可视化分析模型任务运行在Spark的yarn上，与建模平台之间建立通信，可视化分析模型任务运行过程中实时向建模平台汇报任务运行状态，在WEB界面上显示每个目标可视化模型组件的运行状态以及数据信息，例如错误信息、产生的临时数据以及最终运行状态等信息，对应的在WEB界面上生成可视化分析模型的运行日志。

在本发明实施例中，可选的，所述可视化模型组件的语言类型包括：python组件、sql组件、java组件以及scala组件，所述可视化分析模型中包括至少两种语言类型的目标可视化模型组件。

在本发明实施例中，可选的，建模平台中每一个可视化模型组件的语言类型属于python组件、sql组件、java组件以及scala组件中的其中一种，并且可视化分析模型中包含至少两种语言类型的目标可视化模型组件。

在本发明实施例的一个实施方式中，可选的，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型，包括：在所述可视化分析模型的运行过程中，根据与各目标可视化模型组件对应的语言类型，将各目标可视化模型组件运行于匹配的计算引擎中；采用py4j调用机制，实现运行于不同计算引擎的各目标可视化模型组件之间的数据通信；其中，python组件和sql组件运行于PySpark引擎中，java组件和scala组件运行于Spark引擎中。

在本发明实施例中，可选的，在可视化分析模型的运行过程中，各目标可视化模型组件进行通信可以通过Spark提供的PySpark引擎来运行python程序，并在python程序中通过集成在建模平台内部的py4j程序包调用java端，同时java语言与scala都属于JVM语言可以相互调用,使用Spark提供的Spark-sql引擎运行sql组件。可以实现用python、scala、java、sql等多种语言去实现模型组件库中各模型组件的信息互通。

在本发明实施例中，可选的，在可视化分析模型的运行过程中，各目标可视化模型组件进行通信也可以通过Spark引擎来运行java程序，并在java程序中通过集成在建模平台内部的py4j程序包调用python端，同时python与sql都属于Spark提供的PySpark引擎，可以相互通信，在python程序中通过集成在建模平台内部的py4j程序包调用scala程序，使用Spark引擎运行scala组件。可以实现用python、scala、java、sql等多种语言去实现模型组件库中各模型组件的信息互通。

在本发明实施例的一个实施方式中，可选的，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型，还包括：实时向用户显示各个目标可视化模型组件在运行过程中的状态信息以及数据信息。

在本发明实施例中，可选的，在可视化分析模型的执行过程中，每一个进行过参数编辑的目标可视化模型组件在运行时都会基于该编辑参数生成临时数据，可以用于提供给下一个目标可视化模型组件使用，每一个目标可视化模型组件的运行状态信息(例如运行成功还是失败，错误信息，警报信息等)以及其在运行过程中产生的临时数据都可以通过在建模平台上实时预览和查看，方便用户直观地掌握各目标可视化模型组件的运行状态，及时发现和定位在运行过程中产生的问题，提升了用户的建模体验。

本发明实施例提供的技术方案，通过响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型；响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在参数编辑界面的输入指令对目标可视化模型组件的参数进行编辑；响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行可视化分析模型，即通过可视化模型组件和有向连接线的组合构建可视化分析模型，对该模型中的所有目标可视化模型组件的参数进行编辑，完成参数编辑后，运行该可视化分析模型，可以实现用流程化的方式高效地进行可视化建模并进行可视化的大数据分析流程，可以提高用户的建模体验以及满足用户多样化的建模需求。

图2是本发明实施例提供的基于大数据的可视化建模方法的流程图，在本发明实施例中，可选的，本发明实施例提供的方法还包括：在根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型之前，响应于用户的模型组件构建请求，向用户展示模型组件构建界面；根据用户在所述模型组件构建界面的编辑指令，构建所述模型组件；将构建的所述模型组件向用户进行显示，形成可视化模型组件。

如图2所示，本发明实施例提供的技术方案包括：

S210:响应于用户的模型组件构建请求，向用户展示模型组件构建界面。

在本发明实施例中，可选的，如果建模平台提供的基本常用模型组件无法满足用户的业务需求时，用户可以根据自己的业务需求在建模平台上可视化自定义模型组件，可以通过触发构建模型组件的选项发出模型组件构建请求，接收到用户的模型组件构建请求后，将模型组件构建界面显示给用户，用户可以在该界面上自定义模型组件的相关信息。

S220:根据用户在所述模型组件构建界面的编辑指令，构建所述模型组件。

在本发明实施例中，可选的，所述编辑指令包括：所述模型组件的基本信息编辑指令，所述模型组件的实现代码编辑指令和所述模型组件的页面参数编辑指令。

在本发明实施例中，可选的，用户可以在模型组件构建界面编辑模型组件的基本信息，例如模型组件名称，执行类名，模型组件类型，输入与输出配置等。其中，模型组件类型对应编程语言类型，包括：python组件、sql组件、java组件以及scala组件；执行类名对应模型组件类文件的类名；输入与输出配置对应接入与输出的端口数量、数据类型等信息，通常为Spark中的dataframe类型。填充完模型组件的基本信息后，可以继续编辑模型组件的实现代码和/或上传第三方依赖实现模型组件的业务实现逻辑。模型组件的业务实现逻辑编辑完成后，可以继续编辑模型组件的可视化界面配合模型组件的业务实现逻辑，例如模型组件的显示样式、界面宽度等。将构建模型组件的所有相关信息编辑完成后，触发完成选项提交该自定义模型组件给服务器。

S230:将构建的所述模型组件向用户进行显示，形成可视化模型组件。

在本发明实施例中，可选的，接收到用户发送的模型组件自定义完成的信号后，将用户定义好的模型组件存入模型组件库中并形成可视化模型组件显示在建模平台供用户使用。

由此，通过响应于用户的模型组件构建请求，向用户展示模型组件构建界面，根据用户在所述模型组件构建界面的编辑指令，构建所述模型组件，将构建的所述模型组件向用户进行显示，形成可视化模型组件，可以实现用户根据业务需要自定义不同语言类型的模型组件，可以使用户根据需要可视化自定义模型组件的业务实现逻辑，可以支持第三方语言库的依赖包，使得建模场景更加丰富，建模扩展能力更强大，用户体验更佳。

S240:响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏。

S250:根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型。

S260:响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与所述参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在所述参数编辑界面的输入指令对所述目标可视化模型组件的参数进行编辑。

S270:响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型。

图3a是本发明实施例提供的基于大数据的可视化建模方法的流程图，如图3a所示，本发明实施例提供的技术方案包括如下步骤：

使用Antv G6框架实现建模可视化功能，Antv G6是一个基于Canvas的图形工具库，支持在WEB界面画布上绘制可拖动的图形组件，通过定义多种类型带有输入输出点的图形，根据需求建模，在画布上添加可视化模型组件，通过鼠标串联多个目标可视化模型组件，并通过点击目标可视化模型组件编辑目标可视化模型组件参数来控制建模流程的运行。通过对可视化分析模型运行后的日志检查以及关键目标可视化模型组件预览数据的查看，调整完善自己的可视化分析模型。

其中，目标可视化模型组件参数配置部分，使用自研的自定义表单框架，个性化定制目标可视化模型组件所需要的参数的交互。自定义表单包括表格，输入框，下拉框等表单组件，在自定义表单工作台通过可视化拖动不同表单组件进行属性配置调整界面的宽度，参数的校验等。使用Vue作为页面的MVVM框架，展示所需的界面。配置参数的目标可视化组件即可在画布上进行使用，通过与后台的交互对目标可视化模型组件和可视化分析模型进行管理。

WEB UI与建模服务进行前后端交互，用于在WEB界面上实现流画布页面可视化配置和展示。建模服务与执行引擎进行交互，执行引擎运行在Spark环境，可以运行单机与集群两种模式。建模服务可以提供可视化分析模型的增删改查、复制、共享、发布等操作；可以提供模型组件的增删改查，可以提供自定义模型组件编辑，还可以提供任务启停、任务状态监控、临时数据查看等。建模服务与底层数据库进行交互，实现数据读取与写入。对于元数据，ETL等数据，以可视化列表的方式直接展示在我的数据中，做到即拖即用，不需要做任何配置即可接入数据，同时也支持直接文件上传，jdbc读取，服务器本地文件，HDFS文件等外部数据源。

执行引擎用于执行真实的数据处理。如图3b所示，执行引擎启动后，流程控制器加载程序包，解析提交程序包中的参数，然后加载目标可视化模型组件代码和第三方依赖，生成DAG流程图，并调用执行调度器，执行调度器根据流程信息，动态加载可视化模型组件库，并根据流程异步调用可视化模型组件。同时会与建模服务进行实时通信，更新运行信息，并为每个可视化模型组件生成临时数据。不仅实现了服务间的解耦，而且方便地在画布上的实时查看任务的状态，预览临时数据。通过流程的流转执行完所有的节点，任务执行结束。

数据建模一般包含数据读取、数据处理、特征工程、模型训练和模型评价等步骤。常见的数据处理工具有Hive，Spark，MapReduce等，机器学习常用工具有Numpy，scikit-learn，Pandas等。以上工具都需要用户使用特定的语言，编写定制化的代码实现，并需要复杂的环境搭建与配置工程才能使用。相关技术也有一些建模工具整合了上述功能，如tipdm，knim，pai等，但无法支持Hadoop大数据环境，而且不支持集成第三方原生机器学习工具。

实际建模过程中，通常需要同时使用多种工具才能完成完整的建模过程，处理性能依赖于硬件及开发人员的设计、算法、代码质量。存在的主要问题为：对于非专业人员，需学习框架的语言及SDK后，进行编码开发，使用门槛较高。业务人员需要把业务转换换成需求，再由技术研发人员开发才能完成整个建模过程。

本发明实施例提供的技术方案，借助Spark框架实现了支持可视化可扩展模型组件的大数据建模工具，使抽象的建模业务以可视化的方式清晰展示，用户不需要关注技术相关细节，极大降低了建模门槛。将数据建模中的方法抽象组件化，内置数据读写，数据预处理，统计，机器学习等多种功能类型的可视化模型组件，基本满足数据挖掘，模型训练等建模需要；提供可视化在线代码编辑器编写组件业务实现逻辑与上传第三方依赖，以及生成组件编辑页，可以满足定制化模型组件的场景，极大提高了可扩展能力；依托于Spark框架基于内存计算的特点，基于Hadoop的yarn实现集群动态扩展与资源隔离，能够高效地处理大数据量的计算场景,对常见大数据环境兼容，支持HDFS，Hive，impla，clickhouse，Kafka等多种大数据存储方案，支持mysql,文件等测试环境的需要；前端基于Antv G6框架实现了WEB端的数据处理流程绘制的可视化方案，支持在线对数据处理流程的正确性进行实时验证；支持同时运行多个可视化分析模型任务，每个任务独立配置和运行，用户可以指定任务运行的机器，一个任务可以运行在一个或多个机器上，并可以配置每个用户和每个任务的最大资源数。本发明实施例中相关名词的解释如表1所示：

表1

本发明实施例中提供的前端基于Antv G6框架实现WEB端数据处理流程的可视化，也可使用客户端UI方式实现数据处理流程可视化；数据处理基于Spark框架二次开发实现，也可基于Hadoop,Flink、Storm等大数据框架实现；建模服务与执行引擎节点之间采用注册、心跳方式实现服务解耦，也可使用配置文件的方式实现。

图4是本发明实施例提供的基于大数据的可视化建模装置结构示意图，所述装置可以配置在服务器等电子设备中，所述装置包括：第一响应模块410、模型构建模块420、第二响应模块430和模型运行模块440。

其中，第一响应模块410，用于响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；其中，所述工具栏中包括至少一个有向连接线；模型构建模块420，用于根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型；第二响应模块430，用于响应于用户对每个目标可视化模型组件的参数编辑请求，向用户展示与所述参数编辑请求对应的目标可视化模型组件的参数编辑界面，并根据用户在所述参数编辑界面的输入指令对所述目标可视化模型组件的参数进行编辑；模型运行模块440，用于响应于用户的可视化分析模型运行请求，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型。

在一个示例性的实施方式中，模型构建模块420，用于响应于用户对至少一个目标可视化模型组件以及至少一个目标有向连接线的拖拽请求；将所有目标可视化模型组件以及所有目标有向连接线显示在与拖拽请求相对应的画布位置上，组合形成有向无环的所述可视化分析模型并显示给用户。

在一个示例性的实施方式中，所述装置还包括：模型组件自定义模块，用于在根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型之前，响应于用户的模型组件构建请求，向用户展示模型组件构建界面；根据用户在所述模型组件构建界面的编辑指令，构建所述模型组件；将构建的所述模型组件向用户进行显示，形成可视化模型组件。

在一个示例性的实施方式中，所述编辑指令包括：所述模型组件的基本信息编辑指令，所述模型组件的实现代码编辑指令和所述模型组件的页面参数编辑指令。

在一个示例性的实施方式中，所述可视化模型组件的语言类型包括：python组件、sql组件、java组件以及scala组件，所述可视化分析模型中包括至少两种语言类型的目标可视化模型组件；所述基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型，包括：在所述可视化分析模型的运行过程中，根据与各目标可视化模型组件对应的语言类型，将各目标可视化模型组件运行于匹配的计算引擎中；采用py4j调用机制，实现运行于不同计算引擎的各目标可视化模型组件之间的数据通信；其中，python组件和sql组件运行于PySpark引擎中，java组件和scala组件运行于Spark引擎中。

在一个示例性的实施方式中，所述基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型，还包括：显示单元，用于实时向用户显示各个目标可视化模型组件在运行过程中的状态信息以及数据信息。

在一个示例性的实施方式中，所述可视化模型组件的功能类型包括下述至少一项：数据预处理模型组件、统计模型组件、机器学习模型组件、脚本工具模型组件和算法模型组件。

上述实施例所提供的装置可以执行本发明任意实施例所提供的基于大数据的可视化建模方法，具备执行方法相应的功能模块和有益效果。

图5是本发明实施例提供的一种电子设备结构示意图，如图5所示，该设备包括：

一个或多个处理器510，图5中以一个处理器510为例；

存储器520；

所述设备还可以包括：输入装置530和输出装置540。

所述设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种基于大数据的可视化建模方法对应的程序指令/模块(例如，附图4所示的第一响应模块410、模型构建模块420、第二响应模块430和模型运行模块440)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种基于大数据的可视化建模方法，即：

响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；其中，所述工具栏中包括至少一个有向连接线；

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种基于大数据的可视化建模方法，也即：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于大数据的可视化建模方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型，包括：

响应于用户对至少一个目标可视化模型组件以及至少一个目标有向连接线的拖拽请求；

将所有目标可视化模型组件以及所有目标有向连接线显示在与拖拽请求相对应的画布位置上，组合形成有向无环的所述可视化分析模型并显示给用户。

3.根据权利要求1所述的方法，其特征在于，在根据用户选中的至少一个目标可视化模型组件以及至少一个目标有向连接线，形成有向无环的可视化分析模型之前，还包括：

响应于用户的模型组件构建请求，向用户展示模型组件构建界面；

根据用户在所述模型组件构建界面的编辑指令，构建所述模型组件；

将构建的所述模型组件向用户进行显示，形成可视化模型组件。

4.根据权利要求3所述的方法，其特征在于，所述编辑指令包括：

所述模型组件的基本信息编辑指令，所述模型组件的实现代码编辑指令和所述模型组件的页面参数编辑指令。

5.根据权利要求1所述的方法，其特征在于，所述可视化模型组件的语言类型包括：python组件、sql组件、java组件以及scala组件，所述可视化分析模型中包括至少两种语言类型的目标可视化模型组件；

基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型，包括：

在所述可视化分析模型的运行过程中，根据与各目标可视化模型组件对应的语言类型，将各目标可视化模型组件运行于匹配的计算引擎中；

采用py4j调用机制，实现运行于不同计算引擎的各目标可视化模型组件之间的数据通信；

其中，python组件和sql组件运行于PySpark引擎中，java组件和scala组件运行于Spark引擎中。

6.根据权利要求1所述的方法，其特征在于，基于用户对所有目标可视化模型组件的编辑参数，运行所述可视化分析模型，还包括：

实时向用户显示各个目标可视化模型组件在运行过程中的状态信息以及数据信息。

7.根据权利要求1所述的方法，其特征在于，所述可视化模型组件的功能类型包括下述至少一项：

数据预处理模型组件、统计模型组件、机器学习模型组件、脚本工具模型组件和算法模型组件。

8.一种基于大数据的可视化建模装置，其特征在于，包括：

第一响应模块，用于响应于用户的可视化分析模型构建请求，向用户展示至少一个备选的可视化模型组件和工具栏；其中，所述工具栏中包括至少一个有向连接线；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。