CN113821200A

CN113821200A - 大数据任务可拖拽建模方法、系统、存储介质和终端

Info

Publication number: CN113821200A
Application number: CN202110963512.8A
Authority: CN
Inventors: 刘大忠
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Shikong Daoyu Technology Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Shikong Daoyu Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-21
Anticipated expiration: 2041-08-20
Also published as: CN113821200B

Abstract

本发明涉及数据建模领域，提出了一种大数据任务可拖拽建模方法、系统、存储介质和终端设备，其中，所述方法包括：确定目标任务的任务类型，并上传所述目标任务的源数据；基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序，确定所述目标任务的处理流程，并根据所述任务类型确定所述目标任务的解析器；触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，得到所述目标任务的处理结果。本发明通过拖拽并连接组件实现建模流程，将大数据建模任务简单化，操作简单，容易上手。

Description

大数据任务可拖拽建模方法、系统、存储介质和终端

技术领域

本发明涉及数据建模技术领域，尤其涉及大数据任务可拖拽建模方法、系统、存储介质和终端。

背景技术

可拖拽技术由向导式技术发展而来，它可以实现多元功能组件复杂结合并简单使用，现有的可拖拽建模有一款可拖拽式的大数据ETL工具SDC(Streamsets DataCollector)工具和阿里PAI(Platform of Artificial Intelligence)等等，SDC是一款可拖拽式的大数据ETL工具，只针对ETL等加工处理流程实现可拽功能组件设计，阿里PAI是主要面向企业及开发者的云原生机器学习平台，使用较复杂且初学者无法直接使用，然而大数据的任务建模及数据挖掘等功能需要灵活并便于初学者使用，而传统的技术无法满足用户。

大数据不同类型任务建模所需的参数格式样式及格式都不相同，且数据不同类型任务建模所需的解析引擎也不同，如果每种类型任务都写一个解析引擎势必太笨重，那么如何做到区分界限部分通用、部分单独针对解析就变得重要。开源的可拖拽机器学习挖掘建模只支持简单的线性回归及逻辑回归算法，而当下国外一些热门算法及集成算法都没有接入，缺乏与时俱进的专业性及严谨性。

发明内容

为了至少解决上述一个技术问题，本发明提出了大数据任务可拖拽建模方法和系统，本发明具体是以如下技术方案实现的：

本发明的第一个方面提出了大数据任务可拖拽建模方法，所述方法包括：

确定目标任务的任务类型，并上传所述目标任务的源数据；

基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序，确定所述目标任务的处理流程，并根据所述任务类型确定所述目标任务的解析器；

触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，得到所述目标任务的处理结果。

在一些可能的实施方式中，所述功能组件包括数据源组件、写数据表组件、随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件、增加序列号组件、全表统计组件、皮尔森系数组件、柱状图组件、线性回归组件、线性回归预测组件、逻辑回归组件、逻辑回归预测组件和数据同步组件。

在一些可能的实施方式中，所述触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，包括：

判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确，若不正确，则提示功能组件错误，若正确，则根据所述处理流程对所述源数据进行处理。

在一些可能的实施方式中，所述根据所述处理流程对所述源数据进行处理，触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，还包括：

检测数据预处理后的所述源数据是否存在异常数据，若存在，则提示功能组件错误，若不存在，则根据所述处理流程对所述源数据进行处理。

在一些可能的实施方式中，所述触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，还包括：

验证所述处理结果与标准结果的误差是否小于预设值，若不小于预设值，则响应所述功能组件的参数的更改，对所述源数据继续进行处理，若小于预设值，则保存所述处理结果。

本发明的第二个方面提出了大数据任务可拖拽建模系统，所述系统包括：

任务确定模块，用于确定目标任务的任务类型，并上传所述目标任务的源数据；

流程确定模块，用于基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序，确定所述目标任务的处理流程，并根据所述任务类型确定所述目标任务的解析器；

流程执行模块，用于触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，得到所述目标任务的处理结果。

在一些可能的实施方式中，

所述流程选择模块包括源目标单元、数据预处理单元、统计分析单元、机器学习单元和数据同步单元；

所述源目标单元包括数据源组件和写数据表组件；

所述数据预处理单元包括随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件和增加序列号组件；

统计分析单元包括全表统计组件、皮尔森系数组件和柱状图组件；

机器学习单元包括线性回归组件、线性回归预测组件、逻辑回归组件和逻辑回归预测组件；

所述数据同步单元包括数据同步组件。

在一些可能的实施方式中，所述流程解析模块还包括判断单元、检测单元和验证单元；

所述判断单元用于判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确，若不正确，则提示功能组件错误，若正确，则根据所述处理流程对所述源数据进行处理；

所述检测单元用于检测数据预处理后的所述源数据是否存在异常数据，若存在，则提示功能组件错误，若不存在，则根据所述处理流程对所述源数据进行处理；

所述验证单元用于验证所述处理结果与标准结果的误差是否小于预设值，若不小于预设值，则响应所述功能组件的参数的更改，对所述源数据继续进行处理，若小于预设值，则保存所述处理结果。

本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的大数据任务可拖拽建模系统方法。

本发明还提供一种终端，包括一个或多个处理器和存储器。存储器与所述处理器耦接，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的大数据任务可拖拽建模系统方法。

采用上述技术方案，本发明所述的大数据任务可拖拽建模系统和装置，具有如下有益效果：

本发明通过连接组件实现建模流程，将大数据建模任务简单化，操作简单，容易上手，且封装了不同的解析引擎，能够拖拽创建不同类型的任务，匹配合适的解析引擎。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的大数据任务可拖拽建模方法的流程图；

图2为本发明实施例提供的大数据任务可拖拽建模系统的结构图；

图3为本发明实施例提供的大数据任务可拖拽建模系统的架构图；

图4为本发明实施例提供的计算机终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请所提供的几个实施例中，所描述的系统实施例仅仅是示意性的，例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或功能组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本发明实施例中提供了大数据任务可拖拽建模系统，如图1所示，所述方法包括：

S101、确定目标任务的任务类型，并上传所述目标任务的源数据；

具体地，首先选择目标任务的任务类型，任务类型包括机器学习任务和数据同步任务，选择任务类型便于后续解析器进行匹配解析；上传目标任务所需要的源数据，用于后期目标任务的执行。

S102、基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序，确定所述目标任务的处理流程，并根据所述任务类型确定所述目标任务的解析器；

确定目标任务后，拖拽需要的功能组件，每个功能组件即为需要进行加工处理的环节，拖动功能组件的同时，对拖动的功能组件进行两两连线，完成关联操作，以确定目标任务的处理流程；对关联完成的功能组件进行参数配置，针对每个功能组件配置需要的参数，包括数据源的选择，要加工处理的字段，以及预计产出的结果效果图等等，功能组件的参数便于每个组件单独处理时的任务加工及精准程度，针对两两组件之间的连线进行配置相应的属性参数，用于条件关联相关的功能组件；

S103、触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，得到所述目标任务的处理结果。

将功能组件的参数以及功能组件之间连线的参数配置完成后，检查所有功能组件、功能组件之间的连线以及配置的参数是否有差错，若没有，则保存相关设置；所述目标任务进入内部解析器，判断目标任务的任务类型，并匹配目标任务对应的解析器，所述解析器判断任务参数并解析数据源是否存在，若不存在，则代表任务配置参数解析失败，提示相应的功能组件出错；若存在，则代表加载读取的数据源存在，且成功连接并查询到数据，导入数据，并通过可视化窗口初步观察数据，包括数据参数格式、类型、有无缺失值等方面。针对目标任务中数据进行数据清洗及预处理等步骤，对数据加工处理才能更高效用于机器训练及数据预测方面；检查清洗处理后的数据是否存在脏数据错误，存在脏数据，则代表配置参数解析失败，提示相关组件出错，不存在脏数据，则进行特征重要性评估、特征转换、特征选择、特征生成等处理；针对用户配置的参数匹配与之对应的模型进行机器训练等程序处理；效果校验，针对训练后的模型结果进行打分评估，不满意则重新选择模型进行训练，直至满意；满意则保存模型操作流程，模型训练任务已经执行结束，可以查询各组件处理结果及数据预测等结果信息。

在一个实施例中，所述功能组件包括数据源组件、写数据表组件、随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件、增加序列号组件、全表统计组件、皮尔森系数组件、柱状图组件、线性回归组件、线性回归预测组件、逻辑回归组件、逻辑回归预测组件和数据同步组件。

数据源组件用于导入数据源；写数据表组件用于将数据写入数据表，随机采样组件用于随机从数据中生成样本数据；类型转化组件用于转换数据的类型；拆分组件用于对数据进行拆分处理，缺失值填充组件用于填充数据的缺失值；归一化组件用于对数据进行归一化处理；标准化组件用于对数据进行标准化处理，SQL脚本组件用于对数据执行数据库操作；全表统计组件用于对数据进行全表统计；皮尔森系数组件用于计算数据的皮尔森系数；柱状图组件用于对数据进行柱状图分析处理；线性回归组件用于对数据进行线性回归操作；线性回归预测组件用于对数据进行线性回归预测，逻辑回归组件用于对数据进行逻辑回归处理；逻辑回归预测组件用于对数据进行逻辑回归预测处理；数据同步组件用于对数据进行数据同步处理。

在一个实施例中，所述触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，包括：判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确，若不正确，则提示功能组件错误，若正确，则根据所述处理流程对所述源数据进行处理。

当确定目标任务的处理任务的流程后，匹配适合的解析器，开始目标任务的解析，解析的过程中，需要判断各功能组件配置的参数以及各功能组件之间连线配置的参数是否正确有效，能否保证目标任务的建模过程正常完成，以及数据源是否存在，若否，则提示错误，若是则继续导入目标任务的数据。

在一个实施例中，所述根据所述处理流程对所述源数据进行处理，触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，还包括：检测数据预处理后的所述源数据是否存在异常数据，若存在，则提示功能组件错误，若不存在，则根据所述处理流程对所述源数据进行处理。

针对数据进行数据清洗及预处理等步骤，对数据加工处理才能更高效用于机器训练及数据预测方面，检测清洗处理后的数据是否存在脏数据等错误，若存在，则提示错误，若不存在，则继续执行特征工程任务。

在一个实施例中，所述触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，还包括：验证所述处理结果与标准结果的误差是否小于预设值，若不小于预设值，则响应所述功能组件的参数的更改，对所述源数据继续进行处理，若小于预设值，则保存所述处理结果。

建模结束后，验证建模结果与标准结果是否相差过大，若与标准结果相差过大，则重新选择模型进行学习，若与标准结果相差不大，则存储建模模型。

请参阅图2，本发明的第二个方面提出了一种大数据任务可拖拽建模系统，所述系统包括：

任务确定模块10，用于确定目标任务的任务类型，并上传所述目标任务的源数据；

流程选择模块20，用于基于功能组件的拖拽轨迹以及所述功能组件之间连线顺序，确定所述目标任务的处理流程，并根据所述任务类型确定所述目标任务的解析器；

流程执行模块30，用于触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，得到所述目标任务的处理结果。

请参阅图3，具体地，所述大数据任务可拖拽建模系统包括任务确定模块10、流程选择模块20、流程执行模块30，任务确定模块10包括用户客户端，用户客户端用于发送用户的相关指令，并确定目标任务；流程选择模块20包括流程设计器，流程设计器包括可拖拽功能组件，可拖拽的功能组件包含源目标单元、数据预处理单元、统计分析单元、机器学习单元和数据同步单元等，其中源目标单元包括数据源组件、写数据表组件等；数据预处理单元包括随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件、增加序列号组件等；统计分析单元包括全表统计组件、皮尔森系数组件、柱状图组件等；机器学习单元包括线性回归组件、线性回归预测组件、逻辑回归组件、逻辑归回预测组件等组件；流程执行模块30包括流程解析器和流程调度器，流程解析器中的内部解析器内部解析器也分为3种，包括spark解析器、flink解析器、datax解析器，针对不同类型任务匹配不同种类解析器，进行解析用户构建的流程图，对各个组件之间的关系、输入、输出进行解析，通过设计的算法将流程图翻译为一套调度器可识别的数据结构；流程调度器，流程调度器解析可识别的数据，将构建的流程图提交到调度器进行调度执行，任务执行结束后确定执行结果，成功获取执行结果后，流程调度器发送执行结果及日志信息至用户客户端。

在一个实施例中，流程选择模块20包括源目标单元、数据预处理单元、统计分析单元、机器学习单元和数据同步单元；

所述源目标单元包括数据源组件和写数据表组件；

所述数据同步单元包括数据同步组件。

流程选择模块20中源目标单元、数据预处理单元、统计分析单元、机器学习单元和数据同步单元所包含的组件，通过用户拖拽需要的功能组件，并将拖拽的功能组件进行两两连接，确定目标任务的整个建模处理流程。

在一个实施例中，流程解析模块30包括spark解析器、flink解析器和datax解析器。

在一些可能的实施方式中，流程解析模块30还包括判断单元、检测单元和验证单元，所述判断单元用于判断所述功能组件的参数以及所述功能组件之间连线的参数是否正确，若不正确，则提示功能组件错误，若正确，则根据所述处理流程对所述源数据进行处理；

关于大数据任务可拖拽建模系统的具体限定可以参见上文中对于的限定，在此不再赘述。

上述大数据任务可拖拽建模系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图4，本发明实施例提供一种终端，包括一个或多个处理器和存储器。存储器与所述处理器耦接，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任意一个实施例中的大数据任务可拖拽建模方法。

处理器用于控制该计算机终端设备的整体操作，以完成上述的大数据任务可拖拽建模方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作，这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

在一示例性实施例中，计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegratedCircuit，简称AS1C)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的大数据任务可拖拽建模方法，并达到如上述方法一致的技术效果。

在另一示例性实施例中，还提供了一种包括程序指令的存储介质，该程序指令被处理器执行时实现上述任意一个实施例中的大数据任务可拖拽建模系统的步骤。例如，该存储介质可以为上述包括程序指令的存储器，上述程序指令可由终端的处理器执行以完成上述的大数据任务可拖拽建模方法，并达到如上述方法一致的技术效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据任务可拖拽建模方法，其特征在于，所述方法包括：

确定目标任务的任务类型，并上传所述目标任务的源数据；

2.根据权利要求1所述的方法，其特征在于，所述功能组件包括数据源组件、写数据表组件、随机采样组件、类型转换组件、拆分组件、缺失值填充组件、归一化组件、标准化组件、SQL脚本组件、增加序列号组件、全表统计组件、皮尔森系数组件、柱状图组件、线性回归组件、线性回归预测组件、逻辑回归组件、逻辑回归预测组件和数据同步组件。

3.根据权利要求1所述的方法，其特征在于，所述触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述处理流程对所述源数据进行处理，触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，还包括：

5.根据权利要求1所述的方法，其特征在于，所述触发所述解析器解析所述目标任务的处理流程，并根据所述处理流程对所述源数据进行处理，还包括：

6.一种大数据任务可拖拽建模系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，

所述源目标单元包括数据源组件和写数据表组件；

所述数据同步单元包括数据同步组件。

8.根据权利要求6所述的系统，其特征在于，所述流程解析模块还包括判断单元、检测单元和验证单元；

9.一种存储介质，其特征在于，所述存储介质存储有指令，所述指令被处理器执行时实现如权利要求1至5任一项所述方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述处理器加载所述指令以执行如权利要求1至5任一项所述方法的步骤。