CN109656922B

CN109656922B - 数据处理方法及装置

Info

Publication number: CN109656922B
Application number: CN201811559931.XA
Authority: CN
Inventors: 马龙飞; 李海涛; 姚斌; 丁屹峰; 陆斯悦; 张禄; 徐蕙; 杨烁; 宫成; 陈建树
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2023-10-24
Anticipated expiration: 2038-12-19
Also published as: CN109656922A

Abstract

本发明公开了一种数据处理方法及装置。其中，该方法包括：预先创建目标模型，目标数据库和计算实例；将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。本发明解决了现有技术中的互联网Web控制Spark机器学习算法，无法记录和分析机器学习算法中的整个过程，导致工作效率较低的技术问题。

Description

数据处理方法及装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种数据处理方法及装置。

背景技术

在移动互联网高速发展的时期，网民数量也在不断提高，海量数据成为常态，大数据技术则是大数据存储、计算、分析、应用的重要工具，这些技术大部分都已经开源，可以帮助技术人员快速掌握大数据相关技术，提高工作效率。

但是，在互联网web控制spark机器学习算法方面，开源技术效率较低，提交运行分析的步骤较为松散，没有实现流程化，对过程的记录不够，无法对整个过程分析，以及优化整个过程的流程，不能快速的调节参数，需要使用人员熟练掌握大数据技术和Spark集群学习算法。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法及装置，以至少解决现有技术中的互联网Web控制Spark机器学习算法，无法记录和分析机器学习算法中的整个过程，导致工作效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：预先创建目标模型，目标数据库和计算实例；将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

进一步地，在封装得到上述目标模型的数据包之前，上述方法还包括：预先配置上述数据包中的上述输入参数，其中，用于配置上述输入参数的配置数据包括以下至少之一：参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值；预先配置上述数据包中的上述特征向量和/或上述目标向量，其中，上述特征向量的配置数量为一列或多列，上述目标向量的配置数量为一列。

进一步地，在预先配置上述数据包中的上述输入参数之后，上述方法还包括：对在配置上述输入参数过程中存在异常的代码进行处理，其中，上述异常包括以下至少之一：异常判断，空值判断，数据转换。

进一步地，在封装得到上述目标模型的数据包之前，上述方法还包括：预先配置上述目标模型的基本信息，其中，上述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；预先配置上述目标模型的模型参数信息，其中，上述模型参数信息至少包括：上述基本信息、上述特征向量和上述目标向量；预先配置上述数据包中的上述输出结果，其中，上述输出结果包括以下至少之一：输出图形、输出字段。

进一步地，在预先创建上述目标数据库之后，上述方法还包括：获取上述目标数据库中的业务数据；对上述业务数据进行数据清洗处理，其中，上述数据清洗处理为清洗处理上述业务数据中以下至少之一数据：残缺数据、错误数据、重复数据；将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。

进一步地，在通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果之后，上述方法还包括：将上述计算结果存储至与上述计算实例对应的数据表中，其中，上述数据表存储在上述目标数据库中。

进一步地，在通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果之后，上述方法还包括：通过数据列表的形式展示上述计算结果，以及与上述计算结果对应的原始数据。

根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：创建模块，用于预先创建目标模型，目标数据库和计算实例；处理模块，用于将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；计算模块，用于通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

根据本发明实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行任意一项上述的数据处理方法。

在本发明实施例中，通过预先创建目标模型，目标数据库和计算实例；将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果，达到了记录spark机器学习算法的每一个过程，可以确定每一个流程实例的具体情况的目的，从而实现了提高工作效率，有利于更好的建模分析数据的技术效果，进而解决了现有技术中的互联网Web控制Spark机器学习算法，无法记录和分析机器学习算法中的整个过程，导致工作效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种数据处理方法的流程图；

图2是根据本发明实施例的一种可选的数据处理方法的流程图；

图3是根据本发明实施例的一种可选的数据处理方法的流程图；

图4是根据本发明实施例的一种可选的数据处理方法的流程图；以及

图5是根据本发明实施例的一种数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，为方便理解本发明实施例，下面将对本发明中所涉及的部分术语或名词进行解释说明：

计算引擎Spark：是指专为大规模数据处理而设计的快速通用的计算引擎。

命令解析器Shell：是指计算机科学中，为使用者提供操作界面的软件，接收用户命令并调用相应的应用程序。

分布式计算：是一种计算方法，和集中式计算是相对的。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理，可以节约整体计算时间，大大提高计算效率。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

安全协议Secure Shell，SSH：是指建立在应用层基础上的安全协议，是目前较可靠，专为远程登录会话和其他网络服务提供安全性的协议，可以有效防止远程管理过程中的信息泄露问题。

数据仓库工具Hive：是指基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。

清洗处理：是指发现并纠正数据文件中可识别的错误的程序，包括检查数据一致性，处理无效值和缺失值等。

实施例1

根据本发明实施例，提供了一种数据处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，预先创建目标模型，目标数据库和计算实例；

步骤S104，将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；

步骤S106，通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

需要说明的是，上述数据处理方法可以但不限于应用于在Web服务器控制Spark机器学习算法的过程中，与现有技术相比，本申请实施例不需要在命令解析器Shell中手工输入命令行；不需要定义Spark机器学习算法上传的位置，有效避免了上传参数及上传位置的错误；还消除了输出结果未保存而不能多次进行对比分析的弊端。

可选的，上述目标模型可以但不限于为预先配置好的Spark机器学习算法模型；并且，通过构建出以业务为中心的数据分类模块，将数据仓库工具Hive中的数据库表中的数据根据业务进行分类，构建主题数据库，包含与业务相近的数据库表。

可选的，上述目标数据库可以但不限于为mysql数据库、orcale数据库等，可以将ETL数据(数据抽取、清洗、转换、装载的过程得到的数据)记录到Web服务器中，包括Hive中的数据库表的设计信息等。

可选的，上述计算实例的创建可以通过选择模型选项中的主题参数值，选择特征向量、目标向量列等方式进行实现。

在本申请实施例中，上述封装得到的目标模型的数据包可以但不限于为jar数据包，上述数据包中至少包括如下内容：输入参数、参数类型、特征向量、目标向量、输出结果；并通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

可选的，本申请实施例中还可以根据所要求的算法结果，提前定义上述数据包的数据格式。

作为一种可选的实施例，本申请实施例通过在后台控制预先提交的配置信息，其中，上述配置信息包括：Spark运行的部署模式，运行模式，在哪个集群运行，以什么身份运行等，将普通参数包装成key/value提交，并且加密到jar包中进行解析，解析并进行转换后交给Spark机器学习算法模型进行计算。

在一种可选的实施例中，图2是根据本发明实施例的一种可选的数据处理方法的流程图，如图2所示，在封装得到上述目标模型的数据包之前，上述方法还包括：

步骤S202，预先配置上述数据包中的上述输入参数，其中，用于配置上述输入参数的配置数据包括以下至少之一：参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值；

步骤S204，预先配置上述数据包中的上述特征向量和/或上述目标向量，其中，上述特征向量的配置数量为一列或多列，上述目标向量的配置数量为一列。

可选的，上述特征向量的配置数量为一列或多列，在表中选择时可以选多列；上述目标向量的配置数量为一列，在表中选择时仅可以选多列。

需要注意的是，由于选择算法的类型不同，对特征向量和目标向量的选择并不唯一确定，例如，决策树只需要特征向量，而线性回归则需要特征向量和目标向量。

仍需要说明的是，上述英文名称与后台传值需要对应设置，以免无法获取到对应的输入参数，并且参数类型和取值范围不同，均影响输入判断。

在一种可选的实施例中，在预先配置上述数据包中的上述输入参数之后，上述方法还包括：

步骤S302，对在配置上述输入参数过程中存在异常的代码进行处理，其中，上述异常包括以下至少之一：异常判断，空值判断，数据转换。

需要说明的是，上述异常包括以下至少之一：异常判断，空值判断，数据转换，根据所选择算法类型的不同，对存在异常的代码的处理情况有所差异。

在一种可选的实施例中，图3是根据本发明实施例的一种可选的数据处理方法的流程图，如图3所示，在封装得到上述目标模型的数据包之前，上述方法还包括：

步骤S402，预先配置上述目标模型的基本信息，其中，上述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；

步骤S404，预先配置上述目标模型的模型参数信息，其中，上述模型参数信息至少包括：上述基本信息、上述特征向量和上述目标向量；

步骤S406，预先配置上述数据包中的上述输出结果，其中，上述输出结果包括以下至少之一：输出图形、输出字段。

可选的，通过预先配置上述目标模型的基本信息，有助于使用者了解目标模型以及所选择的算法的信息和作用；通过预先配置上述目标模型的模型参数信息，可以增加或删除预先配置的模型参数信息。

需要说明的是，上述算法入口和算法文件上传是所选择算法正常提交和运行的关键。

在一种可选的实施例中，图4是根据本发明实施例的一种可选的数据处理方法的流程图，如图4所示，在预先创建上述目标数据库之后，上述方法还包括：

步骤S502，获取上述目标数据库中的业务数据；

步骤S504，对上述业务数据进行数据清洗处理，其中，上述数据清洗处理为清洗处理上述业务数据中以下至少之一数据：残缺数据、错误数据、重复数据；

步骤S506，将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。

可选的，在本申请实施例中，可以从目标数据库中获取业务数据，对上述业务数据中的残缺数据、错误数据、重复数据等进行数据清洗处理，并将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。

在一种可选的实施例中，在通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果之后，上述方法还包括：

步骤S602，将上述计算结果存储至与上述计算实例对应的数据表中，其中，上述数据表存储在上述目标数据库中。

步骤S702，通过数据列表的形式展示上述计算结果，以及与上述计算结果对应的原始数据。

可选的，在以数据列表的形式展示上述计算结果的情况下，可以选择Echars图中的维度和度量，点击选择折线图或饼状图，生成需要的图形对上述计算结果和原始数据进行展示。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据处理方法的装置实施例，图5是根据本发明实施例的一种数据处理装置的结构示意图，如图5所示，上述数据处理装置，包括：创建模块50、处理模块52和计算模块54，其中:

创建模块50，用于预先创建目标模型，目标数据库和计算实例；处理模块52，用于将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；计算模块54，用于通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；或者，上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是，上述创建模块50、处理模块52和计算模块54对应于实施例1中的步骤S102至步骤S106，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

上述的数据处理装置还可以包括处理器和存储器，上述创建模块50、处理模块52和计算模块54等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元，上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本申请实施例，还提供了一种存储介质实施例。可选地，在本实施例中，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上述任意一种数据处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中，上述存储介质包括存储的程序。

可选地，在程序运行时控制存储介质所在设备执行以下功能：预先创建目标模型，目标数据库和计算实例；将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

可选地，在程序运行时控制存储介质所在设备执行以下功能：预先配置上述数据包中的上述输入参数，其中，用于配置上述输入参数的配置数据包括以下至少之一：参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值；预先配置上述数据包中的上述特征向量和/或上述目标向量，其中，上述特征向量的配置数量为一列或多列，上述目标向量的配置数量为一列。

可选地，在程序运行时控制存储介质所在设备执行以下功能：对在配置上述输入参数过程中存在异常的代码进行处理，其中，上述异常包括以下至少之一：异常判断，空值判断，数据转换。

可选地，在程序运行时控制存储介质所在设备执行以下功能：预先配置上述目标模型的基本信息，其中，上述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；预先配置上述目标模型的模型参数信息，其中，上述模型参数信息至少包括：上述基本信息、上述特征向量和上述目标向量；预先配置上述数据包中的上述输出结果，其中，上述输出结果包括以下至少之一：输出图形、输出字段。

可选地，在程序运行时控制存储介质所在设备执行以下功能：获取上述目标数据库中的业务数据；对上述业务数据进行数据清洗处理，其中，上述数据清洗处理为清洗处理上述业务数据中以下至少之一数据：残缺数据、错误数据、重复数据；将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。

可选地，在程序运行时控制存储介质所在设备执行以下功能：将上述计算结果存储至与上述计算实例对应的数据表中，其中，上述数据表存储在上述目标数据库中。

可选地，在程序运行时控制存储介质所在设备执行以下功能：通过数据列表的形式展示上述计算结果，以及与上述计算结果对应的原始数据。

根据本申请实施例，还提供了一种处理器实施例。可选地，在本实施例中，上述处理器用于运行程序，其中，上述程序运行时执行上述任意一种数据处理方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：预先创建目标模型，目标数据库和计算实例；将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

可选地，上述处理器执行程序时，还可以预先配置上述数据包中的上述输入参数，其中，用于配置上述输入参数的配置数据包括以下至少之一：参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值；预先配置上述数据包中的上述特征向量和/或上述目标向量，其中，上述特征向量的配置数量为一列或多列，上述目标向量的配置数量为一列。

可选地，上述处理器执行程序时，还可以对在配置上述输入参数过程中存在异常的代码进行处理，其中，上述异常包括以下至少之一：异常判断，空值判断，数据转换。

可选地，上述处理器执行程序时，还可以预先配置上述目标模型的基本信息，其中，上述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；预先配置上述目标模型的模型参数信息，其中，上述模型参数信息至少包括：上述基本信息、上述特征向量和上述目标向量；预先配置上述数据包中的上述输出结果，其中，上述输出结果包括以下至少之一：输出图形、输出字段。

可选地，上述处理器执行程序时，还可以获取上述目标数据库中的业务数据；对上述业务数据进行数据清洗处理，其中，上述数据清洗处理为清洗处理上述业务数据中以下至少之一数据：残缺数据、错误数据、重复数据；将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。

可选地，上述处理器执行程序时，还可以将上述计算结果存储至与上述计算实例对应的数据表中，其中，上述数据表存储在上述目标数据库中。

可选地，上述处理器执行程序时，还可以通过数据列表的形式展示上述计算结果，以及与上述计算结果对应的原始数据。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：预先创建目标模型，目标数据库和计算实例；将封装得到的上述目标模型的数据包存储至上述目标数据库，其中，上述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算，得到计算结果。

可选地，上述计算机程序产品执行程序时，还可以预先配置上述数据包中的上述输入参数，其中，用于配置上述输入参数的配置数据包括以下至少之一：参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值；预先配置上述数据包中的上述特征向量和/或上述目标向量，其中，上述特征向量的配置数量为一列或多列，上述目标向量的配置数量为一列。

可选地，上述计算机程序产品执行程序时，还可以对在配置上述输入参数过程中存在异常的代码进行处理，其中，上述异常包括以下至少之一：异常判断，空值判断，数据转换。

可选地，上述计算机程序产品执行程序时，还可以预先配置上述目标模型的基本信息，其中，上述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；预先配置上述目标模型的模型参数信息，其中，上述模型参数信息至少包括：上述基本信息、上述特征向量和上述目标向量；预先配置上述数据包中的上述输出结果，其中，上述输出结果包括以下至少之一：输出图形、输出字段。

可选地，上述计算机程序产品执行程序时，还可以获取上述目标数据库中的业务数据；对上述业务数据进行数据清洗处理，其中，上述数据清洗处理为清洗处理上述业务数据中以下至少之一数据：残缺数据、错误数据、重复数据；将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。

可选地，上述计算机程序产品执行程序时，还可以将上述计算结果存储至与上述计算实例对应的数据表中，其中，上述数据表存储在上述目标数据库中。

可选地，上述计算机程序产品执行程序时，还可以通过数据列表的形式展示上述计算结果，以及与上述计算结果对应的原始数据。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

预先创建目标模型，目标数据库和计算实例；

将封装得到的所述目标模型的数据包存储至所述目标数据库，其中，所述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；

通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算，得到计算结果；

在封装得到所述目标模型的数据包之前，所述方法还包括：预先配置所述目标模型的基本信息，其中，所述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；预先配置所述目标模型的模型参数信息，其中，所述模型参数信息至少包括：所述基本信息、所述特征向量和所述目标向量；预先配置所述数据包中的所述输出结果，其中，所述输出结果包括以下至少之一：输出图形、输出字段；

所述基本信息还包括：部署模式、运行模式、运行集群和运行身份，所述数据包根据算法结果，定义所述数据包的数据格式。

2.根据权利要求1所述的方法，其特征在于，在封装得到所述目标模型的数据包之前，所述方法还包括：

预先配置所述数据包中的所述输入参数，其中，用于配置所述输入参数的配置数据包括以下至少之一：参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值；

预先配置所述数据包中的所述特征向量和/或所述目标向量，其中，所述特征向量的配置数量为一列或多列，所述目标向量的配置数量为一列。

3.根据权利要求2所述的方法，其特征在于，在预先配置所述数据包中的所述输入参数之后，所述方法还包括：

对在配置所述输入参数过程中存在异常的代码进行处理，其中，所述异常包括以下至少之一：异常判断，空值判断，数据转换。

4.根据权利要求1所述的方法，其特征在于，在预先创建所述目标数据库之后，所述方法还包括：

获取所述目标数据库中的业务数据；

对所述业务数据进行数据清洗处理，其中，所述数据清洗处理为清洗处理所述业务数据中以下至少之一数据：残缺数据、错误数据、重复数据；

将进行所述数据清洗处理后的所述业务数据存储至数据仓库中。

5.根据权利要求1所述的方法，其特征在于，在通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算，得到计算结果之后，所述方法还包括：

将所述计算结果存储至与所述计算实例对应的数据表中，其中，所述数据表存储在所述目标数据库中。

6.根据权利要求1所述的方法，其特征在于，在通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算，得到计算结果之后，所述方法还包括：

通过数据列表的形式展示所述计算结果，以及与所述计算结果对应的原始数据。

7.一种数据处理装置，其特征在于，包括：

创建模块，用于预先创建目标模型，目标数据库和计算实例；

处理模块，用于将封装得到的所述目标模型的数据包存储至所述目标数据库，其中，所述数据包至少包括：输入参数、参数类型、特征向量、目标向量、输出结果；

计算模块，用于通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算，得到计算结果；

所述处理模块，还用于预先配置所述目标模型的基本信息，其中，所述基本信息包括以下至少之一：模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传；预先配置所述目标模型的模型参数信息，其中，所述模型参数信息至少包括：所述基本信息、所述特征向量和所述目标向量；预先配置所述数据包中的所述输出结果，其中，所述输出结果包括以下至少之一：输出图形、输出字段；

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的数据处理方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的数据处理方法。