CN112256760A

CN112256760A - 一种数据预测方法、装置、计算机设备及存储介质

Info

Publication number: CN112256760A
Application number: CN202011148696.4A
Authority: CN
Inventors: 于沃良; 麻晓珍
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112256760B; WO2022011946A1

Abstract

本申请属于人工智能领域，涉及一种数据预测方法、装置、计算机设备及存储介质，所述方法包括：根据数据预测请求确定模型信息和第一用户信息，并获取预测数据表；根据模型信息从模型服务器中获取预生成的数据挖掘模型，并根据第一用户信息在模型服务器中配置对应的预测资源；基于预测资源和数据挖掘模型生成数据预测模型文件并发送至数据存储服务器，以在数据存储服务器上运行数据挖掘模型，根据预测数据表获取对应的数据输入数据挖掘模型进行数据预测。此外，本申请还涉及区块链技术，数据挖掘模型生成和数据预测过程中获取的数据中的隐私信息可存储于区块链中。本申请能够实现一键生成数据挖掘模型以及一键实现数据预测部署。

Description

一种数据预测方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据预测方法、装置、计算机设备及存储介质。

背景技术

随着科技的发展，人工智能已融入到生活中的方方面面，各行业借用人工智能对海量数据进行数据挖掘。在数据挖掘过程中，一方面建模过程过于专业和复杂，训练一个可用有效的模型需要经过数据预处理、模型选择、模型效果改进等流程，对于非专业建模人员来说会遇到很大障碍，另一方面业务知识门槛高，专业建模人员对业务的理解不够导致建立的模型挖掘效率低。

发明内容

本申请实施例的目的在于提出一种数据预测方法、装置、计算机设备及存储介质，以解决现有技术中建立数据挖掘模型复杂、建立的数据挖掘模型挖掘效率低的问题。

为了解决上述技术问题，本申请实施例提供一种数据预测方法，采用了如下所述的技术实施例：

一种数据预测方法，包括下述步骤：

接收数据预测请求，根据所述数据预测请求确定模型信息和第一用户信息，并从数据处理服务器内的全量数据表中获取预测数据表，其中所述全量数据表由至少两个初始数据表关联形成；

根据所述模型信息从模型服务器中获取预生成的数据挖掘模型，并根据所述第一用户信息在所述模型服务器中配置对应的预测资源；

基于所述预测资源和所述数据挖掘模型生成数据预测模型文件，将其发送至至少一个数据存储服务器，以在所述数据存储服务器上运行所述数据挖掘模型，根据所述预测数据表从所述数据存储服务器获取对应的预测入模特征的特征值输入所述数据挖掘模型，得到待预测的目标变量的数据值，完成数据预测；

其中，所述数据挖掘模型的生成过程包括：

接收建模请求，根据所述建模请求确定模型算法信息和第二用户信息，并从所述全量数据表中获取建模所需的训练数据表；根据所述第二用户信息在所述模型服务器中配置对应的建模资源，并根据所述模型算法信息从所述模型服务器中确定待训练的模型框架，以及基于所述训练数据表提取建模入模特征和建模目标变量；基于所述建模资源，通过所述待训练的模型框架、所述建模入模特征和所述建模目标变量进行模型训练，生成所述数据挖掘模型。

为了解决上述技术问题，本申请实施例还提供一种数据预测装置，采用了如下所述的技术实施例：

一种数据预测装置，包括：数据预测信息获取模块、预测配置模块、数据预测模块和模型生成模块；

所述数据预测信息获取模块用于接收数据预测请求，根据所述数据预测请求确定模型信息和第一用户信息，并从数据处理服务器内的全量数据表中获取预测数据表，其中所述全量数据表由至少两个初始数据表关联形成；

所述预测配置模块用于根据所述模型信息从模型服务器中获取通过所述模型生成模块预生成的数据挖掘模型，并根据所述第一用户信息在所述模型服务器中配置对应的预测资源；

所述数据预测模块用于基于所述预测资源和所述数据挖掘模型生成数据预测模型文件，将其发送至至少一个数据存储服务器，以在所述数据存储服务器上运行所述数据挖掘模型，根据所述预测数据表从所述数据存储服务器获取对应的预测入模特征的特征值输入所述数据挖掘模型，得到待预测的目标变量的数据值，完成数据预测；

其中，所述模型生成模块具体用于接收建模请求，根据所述建模请求确定模型算法信息和第二用户信息，并从所述全量数据表中获取建模所需的训练数据表，根据所述第二用户信息在所述模型服务器中配置对应的建模资源，并根据所述模型算法信息从所述模型服务器中确定待训练的模型框架，以及基于所述训练数据表提取建模入模特征和建模目标变量，基于所述建模资源，通过所述待训练的模型框架、所述建模入模特征和所述建模目标变量进行模型训练，生成所述数据挖掘模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术实施例：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的数据预测方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术实施例：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的数据预测方法的步骤。

与现有技术相比，本申请实施例提供的数据预测方法、装置、计算机设备及存储介质主要有以下有益效果：

一方面，根据用户的建模请求可以实现一键式建模，具体通过建模请求从数据处理服务器中的全量数据表获取建模所需的训练数据表，并确定模型算法信息和用户信息，进而自动获得建模入模特征、建模目标变量以及待训练的模型框架，并配置对应的建模资源，基于配置的建模资源，通过待训练的模型框架、建模入模特征和建模目标变量进行模型训练，生成数据挖掘模型，建模过程中用户不需要对模型算法进行详细了解，极大地降低数据挖掘模型的训练门槛，只需要根据用户提供的数据即可实现数据挖掘模型无感训练；另一方面，根据用户的数据预测请求可实现模型的一键式部署数据预测，根据数据预测请求从数据处理服务器中的全量数据表获取预测数据表，并确定模型信息和用户信息，进而确定数据挖掘模型和预测资源，基于配置的预测资源和数据挖掘模型生成数据预测模型文件，并将数据预测模型文件发送至至少一个数据存储服务器，在所述数据存储服务器上运行数据挖掘模型，实现数据预测，能很好地保证数据的安全，防止数据传输导致的泄漏问题，且本实施例在用户无感的状态下进行，用户体验更好。

附图说明

为了更清楚地说明本申请中的实施例，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，下面描述中的附图对应于本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的数据预测方法的一个实施例的流程图；

图3是根据本申请的数据挖掘模型的生成过程的一个实施例的流程图；

图4是根据本申请的数据挖掘模型的生成过程的一个具体示例；

图5是根据本申请的数据预测方法的一个具体示例；

图6是根据本申请的数据预测装置的一个实施例的结构示意图；

图7是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请实施例，下面将结合附图，对本申请实施例中的技术实施例进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的数据预测方法一般由服务器执行，相应地，数据挖掘模型生成装置和数据预测装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的数据预测方法的一个实施例的流程图，所述数据预测方法包括以下步骤：

S201，接收数据预测请求，根据所述数据预测请求确定模型信息和第一用户信息，并从数据处理服务器内的全量数据表中获取预测数据表，其中所述全量数据表由至少两个初始数据表关联形成；

S202，根据所述模型信息从模型服务器中获取预生成的数据挖掘模型，并根据所述第一用户信息在所述模型服务器中配置对应的预测资源；

S203，基于所述预测资源和所述数据挖掘模型生成数据预测模型文件，将其发送至至少一个数据存储服务器，以在所述数据存储服务器上运行所述数据挖掘模型，根据所述预测数据表从所述数据存储服务器获取对应的预测入模特征的特征值输入所述数据挖掘模型，得到待预测的目标变量的数据值，完成数据预测。

下面对上述数据预测方法的步骤进行展开说明。

对于步骤S201，本实施例中用户可通过客户端的WEB页面发起数据预测请求，由WEB服务器接收所述数据预测请求，所述数据预测请求可包含客户端的第一用户信息以及模型信息。其中，第一用户信息包含请求发起端的用户名信息和预测数据存储端的用户名信息等，比如预测数据存储端为Hadoop集群时，第一用户信息将包含Hadoop集群中的用户名(HDuser)；模型信息可以由用户在客户端的数据预测请求发起界面从多个预设的模型选项中选定生成，在本实施例中，所述数据预测方法包括：当确定用户进入数据预测请求发起界面时，在数据预测请求发起界面或弹出新的界面提供模型选择框，以供用户选定数据预测所需的模型来生成模型信息。在提供给用户的界面中，若存在多个模型选项，则同时显示各模型的模型性能参数，以供用户根据实际需要选择合适的模型。

在本实施例中，所述数据处理服务器中运行有BI系统，通过BI系统可生成全量数据表，具体的，BI系统从多个数据源获取数据，并对获取的数据进行分析，按照不同数据源或者不同主题生成多个初始数据表，再对多个初始数据表进行关联、整合，生成全量数据表，并得到能够支撑数据分析的字段内容和需要预测的内容，其中得到的字段内容可用作后续步骤S203中的预测入模特征，需要预测的内容指数据预测过程中待预测的目标变量，在本实施例中多个预测入模特征和待预测的目标变量形成对应关系，相应的根据待预测的目标变量的不同，相应的选取的预测入模特征也不同。在本实施例中，通过BI系统选取用作预测入模特征的字段内容创建得到新的数据表，即为预测数据表，因此本实施例中从全量数据表中获取的数据表为非全量数据表，具体可为无上限的hive表，后续所述模型服务器在进行数据预测时将根据BI系统新创建的非全量数据表进行数据读取。

对于步骤S202，在本实施例中，模型服务器可针对多个用户提交的数据预测请求分别进行数据预测，因此需要对每个用户的数据预测过程分配对应的数据预测资源，实现多用户数据预测的同步处理，提高数据预测效率。

在一些实施例中，继续参考图3，其示出了所述数据挖掘模型的生成过程的一个实施例的流程图，包括以下步骤：

S301，接收建模请求，根据所述建模请求确定模型算法信息和第二用户信息，并从所述全量数据表中获取建模所需的训练数据表；

S302，根据所述第二用户信息在所述模型服务器中配置对应的建模资源，并根据所述模型算法信息从所述模型服务器中确定待训练的模型框架，以及基于所述训练数据表提取建模入模特征和建模目标变量；

S303，基于所述建模资源，通过所述待训练的模型框架、所述建模入模特征和所述建模目标变量进行模型训练，生成所述数据挖掘模型。

其中，对于步骤S301，本实施例中用户可通过客户端的WEB页面发起建模请求，由WEB服务器接收所述建模请求，所述建模请求可包含客户端的第二用户信息以及模型算法信息。其中第二用户信息包含请求发起端的用户名信息和训练数据存储端的用户名信息等，比如训练数据存储端为Hadoop集群时，第二用户信息将包含Hadoop集群中的用户名(HDuser)；模型算法信息可以由用户在客户端编辑生成，或者由用户在客户端的建模请求发起界面从多个预设的算法选项中选定一个或多个算法生成，基于此，所述方法包括当确定用户在客户端进入建模请求发起界面时，在建模请求发起界面或在客户端弹出新的界面提供算法选择框或编辑框，以供用户确定建模所需的模型算法来生成模型算法信息。

在本实施例中，数据处理服务器中运行有BI(Business Intelligence，商业智能)系统，通过BI系统生成全量数据表，具体的，BI系统从多个数据源获取数据，并对获取的数据进行分析，按照不同数据源或者不同主题生成多个初始数据表，再对多个初始数据表进行关联、整合，生成全量数据表，并得到能够支撑数据分析的字段内容和需要预测的内容，其中得到的字段内容可用作后续的建模入模特征，需要预测的内容指建模过程中用到的建模目标变量，在本实施例中多个建模入模特征和建模目标变量形成对应关系，相应的根据建模目标变量的不同，相应的选取的建模入模特征也不同。在本实施例中，通过BI系统选取用作建模入模特征的字段内容创建得到新的数据表，即为训练数据表，因此本实施例中从全量数据表中获取的训练数据表为非全量数据表，具体可为具有上限的hive表，本实施例的hive表中的数据上限为30万，后续所述模型服务器在进行模型训练时将根据BI系统新创建的非全量数据表进行训练数据读取。

对于步骤S302，在本实施例中，所述模型服务器可针对多个用户提交的建模请求分别进行模型训练，通过对每个用户的模型训练分配对应的建模资源，实现多用户模型训练的同步处理，提高模型训练效率。

在一些实施例中，所述根据所述第二用户信息在所述模型服务器中配置对应的建模资源包括：根据预设的时间间隔获取所述模型服务器对应的数据库中与所述第二用户信息对应的待执行建模任务的信息，生成建模资源配置请求；根据所述建模资源配置请求查询所述模型服务器的闲置资源是否满足模型训练的需求，若满足则对获取的所述待执行建模任务分配相应的建模资源，否则拒绝当前所述建模资源配置请求。其中，在拒绝当前所述建模资源配置请求后，等待预设的时间间隔后重新获取模型服务器对应的数据库中的待执行建模任务，以执行配置建模资源的过程。

在一些实施例中，所述模型服务器对应的数据库采用关系型数据库管理系统，可存储建模任务信息，当存在多个建模任务时，由于所述模型服务器的资源有限，各建模任务将在所述模型服务器对应的数据库中排队存储，以便后续依次被所述模型服务器执行。

进一步的，本实施例所述配置建模资源包括针对每个建模任务创建单独的容器，模型训练过程在对应的容器中进行，可实现多个模型任务的模型训练过程的相互隔离。

在一些实施例中，所述模型服务器具体采用Kubernetes创建和管理容器，Kubernetes可用于管理多个主机上的容器化的应用，让部署容器化的应用简单高效,Kubernetes提供了应用部署，规划，更新，维护的机制，核心的特点是能够自主的管理容器来保证容器按照用户的期望状态运行，在Kubernetes中，所有的容器均在Pod中运行,一个Pod可以承载一个或者多个相关的容器。相应的，所述根据所述建模资源配置请求查询所述模型服务器的闲置资源是否满足模型训练的需求，若满足则对获取的所述待执行建模任务分配相应的建模资源具体为：根据待执行建模任务对应的第二用户信息向KubernetesMaster发送创建Pod的请求，若所述模型服务器存在可用资源，且可用资源满足模型训练的需求，则根据所述第二用户信息在所述模型服务器中创建相应的目录，并创建Pod，生成Pod对应的IP和Port，其中IP和Port用于执行模型训练时的调用，通过Kubernetes的Pod实现为每个建模任务分配独立的建模资源，并启动与创建的目录相关联的Docker(容器)服务，完成容器创建及建模资源的配置。

在本实施例中，所述训练数据表包含有用作建模入模特征的字段内容，而建模入模特征与建模目标变量相对应，由此可以确定建模入模特征和建模目标变量，同样的，模型算法信息包含有进行模型训练所需的模型算法的标识信息，使得模型服务器能够根据标识信息确定所需的模型算法，以得到带训练的模型框架。在一些实施例中，在所述接收用户的建模请求之后，所述方法还包括：对所述建模请求包含的信息进行鉴权和签名校验，若通过则生成具有唯一标识的建模任务，并判断所述模型服务器对应的数据库中是否存在同一用户提交的建模任务，若存在则终止生成的所述建模任务，否则将生成的所述建模任务存入所述模型服务器对应的数据库中，并发送生成的所述建模任务的唯一标识至用户。其中，进行鉴权和签名校验是对用户预先分发token和密钥后，当接收到建模请求，根据请求中的token查询对应的密钥，并用密钥+参数计算md5签名信息，将计算结果与请求中的签名对比是否一致，确保建模请求合法。

对于步骤S303，进行模型训练时，具体根据训练数据表访问数据存储服务器查询训练数据，得到建模入模特征的特征值和对应的建模目标变量的数值，将建模入模特征的特征值输入模型框架进行训练，通过将模型框架的输出结果与建模目标变量的数值进行对比来确定是否达到训练要求，并在达到训练要求时停止训练，并输出模型性能指标，并向用户发送模型生成信息。

在一些实施例中，所述模型服务器具体可为人工智能服务器(ArtificialIntelligence Server，AI Server)，在进行模型训练时，用户不需要进行操作，AI Server可针对指定的模型算法进行训练和超参数调整，最终训练出最优的模型，降低了机器学习的使用门槛。其中，在进行超参数调整时，AI Server会对每个建模入模特征进行分析，如均值、方差、最大值、最小值、数据整体分布等信息的统计，根据这些统计信息，计算出模型训练的等级，对于不同的等级，选择不同的参数配置，实现超参数调整。

在一些实施例中，所述数据存储服务器可以是以Hadoop集群的形式部署，相应的，根据训练数据表访问数据存储服务器具体为访问Hadoop集群查询训练数据，在查询到训练数据后，训练数据将从Hadoop集群发送至模型服务器，在模型训练结束后，再从模型服务器中将训练数据删除。

在本实施例中，模型训练结束后输出的模型性能指标可存储在所述模型服务器对应的数据库中，以供数据处理服务器端的BI系统进行查询。

在一些实施例中，所述模型服务器对应的数据库还可用于记录模型任务的运行状态信息，包括模型任务是否执行、模型任务执行后的模型训练状态信息及模型训练结束后得到的数据挖掘模型的性能指标参数，便于数据处理服务器端(比如其中的BI系统)能够通过所述模型服务器对应的数据库监控建模任务的运行状态，同时便于从所述模型服务器对应的数据库中查询数据挖掘模型的性能指标参数。相应的，本实施例中所述数据挖掘模型的生成过程还包括接收定时查询建模任务状态的请求，根据查询建模任务状态的请求访问所述模型服务器查询模型的训练状态，其中查询到的训练状态可更新至所述模型服务器对应的数据库中。

下面以所述数据处理服务器运行BI系统，用户通过WEB接口发送建模请求，所述模型服务器为AI Server，所述AI Server采用Kubernetes服务，且所述AI Server对应的数据库(DB，Data Base)采用关系型数据库管理系统(MySQL)，所述数据存储服务器为Hadoop集群为例，结合图4，通过一个完整的具体实例对数据挖掘模型的生成过程进行说明，具体过程如下：

用户通过用户端登录BI系统，通过BI系统从全量数据表中获取包含建模入模特征的训练数据表，并确定建模目标变量和模型算法，基于这些内容生成建模请求；建模请求通过WEB接口提交至AI Server；由AI Server对建模请求包含的信息进行鉴权和签名校验，并判断AI DB(AI Server对应的数据库)中是否存在同一用户的建模任务，若没有则创建建模任务，生成建模任务唯一标识并存储至AI DB中，否则不创建建模任务；创建建模任务后，将建模任务唯一标识反馈至用户端；在创建建模任务后，用户端根据建模任务唯一标识轮训建模任务的状态，使得AI Server定时触发从AI DB读取建模任务及相关信息(如用户端的用户名UM，Hadoop集群的用户名HDuser)的操作，根据UM和HDuser向Kubernetes Master发起创建Pod的请求；若AI Server无可用资源，则拒绝创建Pod的请求，若存在可用资源，则创建Pod，生成Pod对应的IP和Port，之后通过相关接口访问AI Server进行模型训练，其中模型训练的过程中，AI Server发送训练数据表至Hadoop集群，根据训练数据表从Hadoop集群中查询数据，Hadoop集群将查询到的数据集反馈至AI Server，以进行模型训练，此外，在模型训练过程中，定时查询模型训练状态，并同步更新模型训练状态至AI DB中，当模型训练状态为成功时，获取模型训练指标，并删除AI Server中的数据集，同时将模型训练指标反馈至AI DB中。

进一步地，在一些实施例中，所述根据第一用户信息在所述模型服务器中配置对应的预测资源包括：根据预设的时间间隔获取所述模型服务器对应的数据库中与所述第一用户信息对应的待执行数据预测任务的信息，生成预测资源配置请求；根据所述预测资源配置请求查询所述模型服务器的闲置资源是否满足数据预测的需求，若满足则对获取的所述待执行数据预测任务分配相应的预测资源，否则拒绝所述预测资源配置请求。其中，在拒绝当前预测资源配置请求后，等待预设的时间间隔后重新获取模型服务器对应的数据库中的待执行数据预测任务，以执行配置预测资源的过程。

在一些实施例中，所述模型服务器对应的数据库采用关系型数据库管理系统，可存储数据预测任务信息，当存在多个数据预测任务时，由于所述模型服务器的资源有限，各数据预测任务将在所述模型服务器对应的数据库中排队存储，以便后续依次被所述模型服务器执行。在一些实施例中，在所述根据所述模型信息从模型服务器中获取数据挖掘模型时，所述数据预测方法还包括将是否获取到数据挖掘模型的状态信息同步至所述模型服务器对应的数据库中。

在一些实施例中，本实施例所述预测资源配置包括针对每个数据预测任务创建单独的容器，后续数据预测模型文件在对应的容器中生成，可实现多个数据预测模型文件生成过程的相互隔离。

在一些实施例中，所述模型服务器采用Kubernetes创建和管理容器，具体的，所述根据所述预测资源配置请求查询所述模型服务器的闲置资源是否满足数据预测的需求，若满足则对获取的所述待执行数据预测任务分配相应的预测资源具体为：根据待执行数据预测任务对应的第一用户信息向Kubernetes Master发送创建Pod的请求，若所述模型服务器存在可用资源，且可用资源满足数据预测模型文件生成的需求，则根据第一用户信息在所述模型服务器中创建相应的目录，并创建Pod，生成Pod对应的IP和Port，，其中IP和Port用于执行数据预测时的调用,通过Kubernetes的Pod实现为每个数据预测任务分配独立的预测资源，并启动与创建的目录相关联的Docker服务，完成容器创建及预测资源的配置。

进一步地，在一些实施例中，在所述接收用户的数据预测请求之后，所述方法还包括：对所述数据预测请求包含的信息进行鉴权和签名校验，若通过则生成具有唯一标识的数据预测任务，并判断所述模型服务器对应的数据库中是否存在同一用户的数据预测任务，若存在则终止生成的所述数据预测任务，否则将生成的所述数据预测任务存入所述模型服务器对应的数据库中，并发送生成的所述数据预测任务的唯一标识至用户。

对于步骤S203，在本实施例中，所述模型服务器可为AI Server，其内存储有多个已完成训练的数据预测模型供调用，而所述数据存储服务器运行有Hadoop集群和Spark集群，所述数据预测模型文件为能够直接在Spark集群上直接运行的模型文件。具体的，在生成所述数据预测模型文件的过程中，根据所述预测数据表、确定的数据预测模型及其运行配置信息生成Pyspark脚本，所述Pyspark脚本即为数据预测模型文件，其中运行配置信息包括数据预测模型运行时依赖的环境文件和其在Hadoop集群中存放的HDFS路径等，在生成Pyspark脚本后，通过Knox+Livy服务将Pyspark脚本提交到Spark集群中，利用Spark分布式资源进行数据预测，其中Knox是一个网关，它用于验证当前的UM是否有权限使用HDuser，在对数以千万计的数据进行预测时，通过Knox+webHDFS服务将Pyspark文件上传到HDFS上，并由Knox+Livy服务进行Spark任务的提交。

在本实施例中，在数据预测过程中，由于预测数据表包含有用作预测入模特征的字段内容，Spark集群会根据预测数据表从Hadoop集群中读取数据，得到预测入模特征的特征值，将预测入模特征的特征值输入数据预测模型，输出模型结果至指定表中，完成分布式的数据预测任务。本实施例通过将自动生成的Pyspark文件发送至Spark集群，使得整个数据预测的处理都在Hadoop集群上进行，可针对海量数据进行处理，数据预测得到的目标变量的数据值直接存储在Hadoop集群中，可以防止数据导出，从而保证数据安全，避免数据安全问题。

在一些实施例中，所述模型服务器对应的数据库还可用于记录数据预测任务的运行状态信息，包括数据预测任务是否执行，便于数据处理服务器端(比如其中的BI系统)能够通过所述模型服务器对应的数据库监控数据预测任务的运行状态。相应的，在本实施例中，所述数据预测方法还包括接收定时查询数据预测任务状态的请求，根据查询预测任务状态的请求访问模型服务器查询数据预测模型的运行状态，其中查询到的运行状态可更新至所述模型服务器对应的数据库中。

下面以所述数据处理服务器运行BI系统，用户通过WEB接口发送建模请求，所述模型服务器为AI Server，所述AI Server采用Kubernetes服务，且所述AI Server对应的数据库(DB，Data Base)采用关系型数据库管理系统(MySQL)，所述数据存储服务器为Hadoop集群，通过Spark集群运行数据挖掘模型，AI Server和Hadoop集群、Spark集群之间通过Knox+webHDFS+Livy实现数据传递为例，结合图5，通过一个具体实例对本申请提供的数据预测方法进行说明，具体过程如下：

用户通过用户端登录BI系统，通过BI系统从全量数据表中获取包含预测入模特征的预测数据表，并确定待预测的目标变量和模型信息，基于这些内容生成数据预测请求；数据预测请求通过WEB接口提交至AI Server；由AI Server对数据预测请求包含的信息进行鉴权和签名校验，并判断AI DB(AI Server对应的数据库)中是否存在同一用户的数据预测任务，若没有则创建数据预测任务，生成数据预测任务唯一标识并存储至AI DB中，否则不创建数据预测任务；创建数据预测任务后，将数据预测任务唯一标识反馈至用户端；在创建数据预测任务后，用户端根据数据预测任务唯一标识轮训数据预测任务的状态，使得AIServer定时触发从AI DB读取数据预测任务及相关信息(如用户端的用户名UM，Hadoop集群的用户名HDuser)的操作，根据UM和HDuser向Kubernetes Master发起创建Pod的请求；若AIServer无可用资源，则拒绝创建Pod的请求，若存在可用资源，则创建Pod，生成Pod对应的IP和Port，之后通过相关接口访问AI Server进行获取用户选择的数据挖掘模型，并在AIServer中生成数据预测模型文件(Pyspark脚本)；然后通过Knox+webHDFS服务将Pyspark文件上传到HDFS上，并由Knox+Livy服务将数据预测模型文件提交到Spark集群中运行，运行时发送预测数据表至Hadoop集群，根据预测数据表从Hadoop集群中查询数据，在Hadoop集群中根据查询到的数据集进行数据预测，此外，在数据预测过程中，通过Knox+Livy服务定时查询数据预测任务状态，并同步更新数据预测任务状态至AI DB中，当数据预测任务结束后，将预测结果存储在Hadoop集群中，结束数据预测。

根据本实施例提供的数据预测方法，一方面根据用户的建模请求可以实现一键式建模，具体通过建模请求从数据处理服务器中的全量数据表获取建模所需的训练数据表，并确定模型算法信息和第二用户信息，进而自动获得建模入模特征、建模目标变量以及待训练的模型框架，并配置对应的建模资源，基于配置的建模资源，通过待训练的模型框架、建模入模特征和建模目标变量进行模型训练，生成数据挖掘模型，本实施例不需要对模型算法进行详细了解，极大地降低数据挖掘模型的训练门槛，只需要根据用户提供的数据即可实现数据挖掘模型无感训练，另一方面基于用户的数据预测请求可实现模型的一键式部署数据预测，根据数据预测请求从数据处理服务器中的全量数据表获取预测数据表，并确定模型信息和第一用户信息，进而确定数据挖掘模型和预测资源，基于配置的预测资源和数据挖掘模型生成数据预测模型文件，并将数据预测模型文件发送至至少一个数据存储服务器，在所述数据存储服务器上运行数据挖掘模型，实现数据预测，本实施例可利用spark直接使用集群资源，对存在于Hadoop的海量数据进行大批量处理，使得整个处理过程都是在集群中进行，能很好地保证数据的安全，防止数据传输导致的泄漏问题，且本实施例在用户无感的状态下进行，用户体验更好。

需要强调的是，为进一步保证信息的私密和安全性，上述实施例中数据挖掘模型生成和数据预测过程中获取的数据中的隐私信息可以存储于区块链的节点中。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

参考图6，作为对上述图2所示数据预测方法的实现，本申请提供了一种数据预测装置的一个实施例，该装置实施例与图2所示的数据预测方法实施例相对应，该数据预测装置具体可以应用于各种电子设备中。

具体的，本实施例所述的数据预测装置包括：数据预测信息获取模块601、预测配置模块602、数据预测模块603以及模型生成模块604。

其中，所述数据预测信息获取模块601用于接收数据预测请求，根据所述数据预测请求确定模型信息和第一用户信息，并从数据处理服务器内的全量数据表中获取预测数据表，其中所述全量数据表由至少两个初始数据表关联形成；所述预测配置模块602用于根据所述模型信息从模型服务器中获取通过所述模型生成模块604预生成的数据挖掘模型，并根据所述第一用户信息在所述模型服务器中配置对应的预测资源；所述数据预测模块603用于基于所述预测资源和所述数据挖掘模型生成数据预测模型文件，将其发送至至少一个数据存储服务器，以在所述数据存储服务器上运行所述数据挖掘模型，根据所述预测数据表从所述数据存储服务器获取对应的预测入模特征的特征值输入所述数据挖掘模型，得到待预测的目标变量的数据值，完成数据预测。所述模型生成模块604在生成所述数据挖掘模型的过程中，具体用于接收建模请求，根据所述建模请求确定模型算法信息和第二用户信息，并从所述全量数据表中获取建模所需的训练数据表，根据所述第二用户信息在所述模型服务器中配置对应的建模资源，并根据所述模型算法信息从所述模型服务器中确定待训练的模型框架，以及基于所述训练数据表提取建模入模特征和建模目标变量，基于所述建模资源，通过所述待训练的模型框架、所述建模入模特征和所述建模目标变量进行模型训练，生成所述数据挖掘模型。

在一些实施例中，所述预测配置模块602在根据第一用户信息在所述模型服务器中配置对应的预测资源时，具体用于：根据预设的时间间隔获取所述模型服务器对应的数据库中与所述第一用户信息对应的待执行数据预测任务的信息，生成预测资源配置请求；根据所述预测资源配置请求查询所述模型服务器的闲置资源是否满足数据预测的需求，若满足则对获取的所述待执行数据预测任务分配相应的预测资源，否则拒绝所述预测资源配置请求。

在一些实施例中，所述预测配置模块602还用于在所述接收数据预测请求之后，对所述数据预测请求包含的信息进行鉴权和签名校验，若通过则生成具有唯一标识的数据预测任务，并判断所述模型服务器对应的数据库中是否存在同一用户的数据预测任务，若存在则终止生成的所述数据预测任务，否则将生成的所述数据预测任务存入所述模型服务器对应的数据库中，并发送生成的所述数据预测任务的唯一标识至用户。在一些实施例中，所述模型生成模块604在根据所述第二用户信息在所述模型服务器中配置对应的建模资源时，具体用于：根据预设的时间间隔获取所述模型服务器对应的数据库中与所述第二用户信息对应的待执行建模任务的信息，生成建模资源配置请求；根据所述建模资源配置请求查询所述模型服务器的闲置资源是否满足模型训练的需求，若满足则对获取的所述待执行建模任务分配相应的建模资源，否则拒绝当前所述建模资源配置请求。

在一些实施例中，所述模型生成模块604还用于在所述接收建模请求之后，对所述建模请求包含的信息进行鉴权和签名校验，若通过则生成具有唯一标识的建模任务，并判断所述模型服务器对应的数据库中是否存在同一用户提交的建模任务，若存在则终止生成的所述建模任务，否则将生成的所述建模任务存入所述模型服务器对应的数据库中，并发送生成的所述建模任务的唯一标识至用户。

在本实施例中，所述数据预测信息获取模块601、预测配置模块602、数据预测模块603以及模型生成模块604在执行相关操作时所涉及的技术内容可参考上述数据预测方法的实施例中的相关的内容，在此不作展开，同时本申请提供的数据预测装置具有与上述数据预测方法的实施例相应的有益效果。

本申请实施例还提供一种计算机设备，如图7所示，其为本实施例计算机设备基本结构框图，所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73，所述存储器71中存储有计算机可读指令，所述处理器72执行所述计算机可读指令时实现上述方法实施例中所述的数据预测方法的步骤，并具有与上所述的数据预测方法相对应的有益效果，在此不作展开。

需要指出的是，图中仅示出了具有存储器71、处理器72、网络接口73的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

在本实施例中，所述存储器71至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器71可以是所述计算机设备7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，所述存储器71也可以是所述计算机设备7的外部存储设备，例如该计算机设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件，例如对应于上述的数据预测方法的计算机可读指令等。此外，所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器72在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中，所述处理器72用于运行所述存储器71中存储的计算机可读指令或者处理数据，例如运行对应于上述的数据预测方法的计算机可读指令。

所述网络接口73可包括无线网络接口或有线网络接口，该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的数据预测方法的步骤，并具有与上述的数据预测方法相对应的有益效果，在此不作展开。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术实施例进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种数据预测方法，其特征在于，包括下述步骤：

其中，所述数据挖掘模型的生成过程包括：

2.根据权利要求1所述的数据预测方法，其特征在于，所述根据所述第二用户信息在所述模型服务器中配置对应的建模资源包括：

根据预设的时间间隔获取所述模型服务器对应的数据库中与所述第二用户信息对应的待执行建模任务的信息，生成建模资源配置请求；

根据所述建模资源配置请求查询所述模型服务器的闲置资源是否满足模型训练的需求，若满足则对获取的所述待执行建模任务分配相应的建模资源，否则拒绝当前所述建模资源配置请求。

3.根据权利要求2所述的数据预测方法，其特征在于，在所述接收建模请求之后，所述方法还包括：

对所述建模请求包含的信息进行鉴权和签名校验，若通过则生成具有唯一标识的建模任务，并判断所述模型服务器对应的数据库中是否存在同一用户提交的建模任务，若存在则终止生成的所述建模任务，否则将生成的所述建模任务存入所述模型服务器对应的数据库中，并发送生成的所述建模任务的唯一标识至用户。

4.根据权利要求2所述的数据预测方法，其特征在于，在进行模型训练时，所述方法还包括：接收定时查询建模任务状态的请求，根据所述查询建模任务状态的请求访问所述模型服务器查询模型训练状态，并将查询到的模型训练状态实时更新至所述模型服务器对应的数据库中。

5.根据权利要求1至4任一项所述的数据预测方法，其特征在于，所述根据第一用户信息在所述模型服务器中配置对应的预测资源包括：

根据预设的时间间隔获取所述模型服务器对应的数据库中与所述第一用户信息对应的待执行数据预测任务的信息，生成预测资源配置请求；

根据所述预测资源配置请求查询所述模型服务器的闲置资源是否满足数据预测的需求，若满足则对获取的所述待执行数据预测任务分配相应的预测资源，否则拒绝所述预测资源配置请求。

6.根据权利要求5所述的数据预测方法，其特征在于，在所述接收数据预测请求之后，所述方法还包括：

对所述数据预测请求包含的信息进行鉴权和签名校验，若通过则生成具有唯一标识的数据预测任务，并判断所述模型服务器对应的数据库中是否存在同一用户的数据预测任务，若存在则终止生成的所述数据预测任务，否则将生成的所述数据预测任务存入所述模型服务器对应的数据库中，并发送生成的所述数据预测任务的唯一标识至用户。

7.根据权利要求1至4任一项所述的数据预测方法，其特征在于，所述全量数据表的获取过程包括：

从多个数据源获取数据进行分析，按照不同数据源或者不同主题生成多个所述初始数据表，并对多个所述初始数据表进行关联整合，生成所述全量数据表，并输出支撑数据分析的字段内容和待预测内容；

其中，所述字段内容用作所述建模入模特征或所述预测入模特征，所述待预测内容用作所述建模目标变量或所述待预测的目标变量，基于所述全量数据表选取用作所述建模入模特征的字段内容创建得到新的数据表可生成所述训练数据表，基于所述全量数据表选取用作所述预测入模特征的字段内容创建得到新的数据表可生成所述预测数据表。

8.一种数据预测装置，其特征在于，包括：数据预测信息获取模块、预测配置模块、数据预测模块和模型生成模块；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据预测方法的步骤。