CN112799850A

CN112799850A - 模型的训练方法、模型的预测方法以及模型的控制系统

Info

Publication number: CN112799850A
Application number: CN202110220678.0A
Authority: CN
Inventors: 杨斌; 李正文; 徐健; 刘光华; 赵寒
Original assignee: Chongqing Duxiaoman Youyang Technology Co ltd
Current assignee: Chongqing Duxiaoman Youyang Technology Co ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-14

Abstract

本申请实施例提供了一种模型的训练方法、模型的预测方法以及模型的控制系统。获取目标模型的配置信息，该配置信息包括第一存储路径和训练资源信息，从第一存储路径对应的存储空间中，读取训练目标模型所需的训练样本集合和训练模型信息，训练模型信息用于确定训练目标模型所需的模型训练程序，并基于训练资源信息，从服务器集群中选择n个训练节点，n大于1，再通过n个训练节点和模型训练程序，基于训练样本集合，训练得到目标模型。实现自动的模型训练，提高了模型训练的便利性。

Description

模型的训练方法、模型的预测方法以及模型的控制系统

技术领域

本申请实施例涉及人工智能技术领域，并且更具体地，涉及模型的训练方法、模型的预测方法以及模型的控制系统。

背景技术

随着人工智能(Artificial Intelligence，AI)技术领域的不断发展，常需要基于分布式运算对模型进行训练和使用模型进行预测，以提高处理效率。

目前，在将单机模型转化为分布式模型的过程中，需要技术人员手动调用服务器集群中的CPU或者GPU，并手动创建模型。然而，此过程需要大量的代码编写，操作过程复杂且难度较大。

发明内容

本申请实施例提供了一种模型的训练方法、模型的预测方法以及模型的控制系统，从而简化模型训练或预测的过程。

第一方面，提供了一种模型的训练方法，包括：获取目标模型的配置信息，所述配置信息包括第一存储路径和训练资源信息；从所述第一存储路径对应的存储空间中，读取训练所述目标模型所需的训练样本集合和训练模型信息，所述训练模型信息用于确定训练所述目标模型所需的模型训练程序；基于所述训练资源信息，从服务器集群中选择n个训练节点，n大于1；通过所述n个训练节点和所述模型训练程序，基于所述训练样本集合，训练得到所述目标模型。

第二方面，提供一种模型的预测方法，包括：获取目标模型的配置信息，所述配置信息包括第一存储路径、第二存储路径和预测资源信息；从第一存储路径对应的存储空间中，读取所述目标模型进行预测所需的预测样本集合；从第二存储路径对应的存储空间中，读取所述目标模型；基于所述预测资源信息，从服务器集群中选择n个预测节点，n大于1；通过所述n个模型预测节点和所述目标模型，对输入的预测样本集合进行预测，得到预测结果。

第三方面，提供一种模型的控制系统，包括：第一服务器、与所述第一服务器连接的服务器集群和与所述第一服务器连接的存储服务器；所述第一服务器包括模型训练单元；所述模型训练单元被部署为：获取目标模型的配置信息，所述配置信息包括第一存储路径和训练资源信息；基于所述第一存储路径，从所述存储服务器的存储空间中，读取训练所述目标模型所需的训练样本集合和训练模型信息，所述训练模型信息用于指示训练所述目标模型所需的模型训练程序；基于所述训练资源信息，从所述服务器集群中选择n个训练节点，n大于1；通过所述n个训练节点和所述模型训练程序，基于所述训练样本集合，训练得到所述目标模型。

第四方面，提供一种服务器，包括：处理器和存储器，该存储器用于存储计算机程序，处理器用于调用并运行存储器中存储的计算机程序，执行如第一方面、第二方面或其各实现方式中的方法。

第五方面，提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行如第一方面、第二方面或其各实现方式中的方法。

第六方面，提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面、第二方面或其各实现方式中的方法。

第七方面，提供一种计算机程序，计算机程序使得计算机执行如第一方面、第二方面或其各实现方式中的方法。

本申请实施例，基于配置信息即可确定训练样本集合、训练模型信息，并从服务器集群中选择n个训练节点，n大于1，以通过n个训练节点，基于训练样本集合、训练模型信息，训练得到目标模型，实现自动的模型训练，提高了模型训练的便利性。进一步地，通过多个训练节点进行分布式的模型训练，提高了模型训练的处理效率。

附图说明

图1为本申请实施例提供的一种模型的控制系统的结构示意图；

图2为本申请实施例提供的一种模型的控制方法的流程示意图；

图3为本申请实施例提供的一种模型的训练方法的流程示意图；

图4为本身实施例提供的一种模型的训练方法的流程示意图；

图5为本申请实施例提供的一种模型的预测方法的流程示意图；

图6为本申请实施例提供的一种模型的预测方法的流程示意图；

图7为本申请实施例提供的一种模型的训练方法的流程示意图；

图8为本申请实施例提供的一种服务器的示意性框图；

图9为本申请实施例提供的一种服务器的示意性框图；

图10为本申请实施例提供的一种服务器示意性结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。针对本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

传统金融风险控制领域主要应用经典机器学习和策略业务规则结合的形式构建风险评估模型，例如对用户的信用进行评估，伴随技术发展，越来越多的从业人员开始将深度学习模型引入到金融风险控制中。深度学习需要大规模的训练样本进行训练，才能获得理想的训练效果。但当训练样本的数量达到一定规模时，也带来了计算时间过长，无法完成模型训练和预测等问题。此时，则需要将深度学习训练和预测从单机计算升级为分布式计算。

深度学习模型训练和预测从单机计算过渡到分布式计算，对硬件设施和技术人员的建模经验均有一定的要求。首先分布式模型训练需要中央处理器(central processingunit，CPU)集群或图形处理器(Graphics Processing Unit，GPU)集群的支持。通常技术人员只需要关注业务逻辑，而对集群的调度和管理经验相对欠缺。因此，需要一个简单方便的集群和对集群资源管理调度的工具。其次，一般情况下，技术人员的建模技术能力，和对深度学习原理、框架、技术的掌握程度各不一样。再次，当深度学习从单机迁移到分布式时，不管是训练还是预测，在技术上均存在不同深度学习框架对分布式编码要求不一样的问题，且绝大部分情况下还要求用户编写符合要求代码。为了能顺利将深度学习的单机代码迁移到分布式系统中，还需要从业人员在编码中对分布式框架的机器做相应设置，这对建模人员来说是非常繁琐的。

综上所述，本申请实施例提供的模型的训练方法和模型的预测方法，根据简单的配置信息，即可控制服务器集群那种的n个训练节点训练得到目标模型，且仅根据配置信息即可控制服务器集群中的n个预测节点，基于目标模型预测得到预测结果。避免了现有技术中需要手动调用服务器集群中的节点以及手动设计训练程序的问题，降低了获取目标模型的难度。

图1为本申请实施例提供的一种模型的控制系统的结构示意图。如图1所示，该模型的控制系统100至少包括：第一服务器110和服务器集群120。第一服务器110和服务器集群120通过有线或者无线的方式连接。

其中，第一服务器110中部署有模型训练单元、模型预测单元和/或模型评估单元。

服务器集群120包括多个服务器，每个服务器设置有至少一个处理器，该处理器包括CPU或者GPU。示例性的，在服务器集群包括一至多个CPU处理器时，该服务器集群为CPU集群，相应的，在服务器集群包括一至多个GPU处理器时，该服务器集群为GPU集群。

示例性的，模型的控制系统100还包括存储服务器130，第一服务器110与存储服务器130通过有线或者无线的方式连接。示例性的，存储服务器130中部署有分布式文件系统，例如海杜普分布式文件系统(Hadoop Distributed File System，HDFS)。

可选的，存储服务器130可属于服务器集群120，或者可以为独立的用于存储的服务器集群。

可选的，模型的控制系统100不包括存储服务器130时，服务器集群120可使用集群的共享内存，且通过分布式文件系统调度和管理共享内存。

可选的，模型的控制系统100还包括用户终端140，用户终端140与第一服务器130通过有线或者无线的方式连接，用户终端140可以是任一终端设备，例如电脑、手机、平板、智能可穿戴设备等等。

本申请实施例基于目标模型的配置信息，即可调度对应的资源，并从存储服务器中获取对应的存储数据，以训练得到目标模型、使用目标模型进行预测或对目标模型进行评估，以简化模型的训练、预测或评估的难度。

图2为本申请实施例提供的一种模型的控制方法的流程示意图。如图2所示，本实施例的执行主体为部署有模型训练模块的第一服务器，示例性的，第一服务器接收用户通过用户终端上传的配置文件进行文件配置，或者通过用户终端向用户显示配置模板，并接收用户在配置模板中输入的内容，进行浏览器配置，用户终端根据用户在配置模板中输入的内容生成配置文件，并将配置文件发送给第一服务器。进一步地，第一服务器通过解析配置文件得到配置信息。再根据配置信息进行资源分配以及从存储服务器中读取所需的数据，进而训练得到目标模型、使用目标模型进行预测或对目标模型进行评估。

下面先对训练得到目标模型的过程进行说明。

图3为本申请实施例提供的一种模型的训练方法的流程示意图。如图3所示，本申请实施例的执行主体为第一服务器，该模型的训练方法具体包括：

S301：获取目标模型的配置信息。

S302：从第一存储路径对应的存储空间中，读取训练目标模型所需的训练样本集合和训练模型信息。

S303：基于训练资源信息，从服务器集群中选择n个训练节点，n大于1。

S304：通过n个训练节点和模型训练程序，基于训练样本集合，训练得到目标模型。

可选的，配置信息为对用户终端发送的配置文件进行解析后得到的。

可选的，配置文件可以是用户通过用户终端上传的，例如用户设备从用户终端上下载配置模板，并在配置模板中填写相应的内容，得到配置文件，再将配置文件上传至用户终端。可选的，配置文件可以是用户通过网络浏览器填写后由用户终端生成的，例如，第一服务器向用户终端发送配置模板的网络页面，用户终端通过渲染将该配置模板的网络页面通过网络浏览器进行显示，并接收用户通过网络浏览器在网络页面中填写的内容，用户终端根据用户填写的内容，生成配置文件，并将配置文件发送至第一服务器。

应理解，配置信息包括第一存储路径和训练资源信息。

其中，第一存储路径对应的存储空间位于存储服务器中，第一存储路径对应的存储空间中至少存储有训练样本集合和训练模型信息。

应理解，训练资源信息包括训练节点的节点类型和各节点类型对应的数量，例如，指示所需的训练资源为CPU，且CPU的数量为2。可选的，训练资源信息可以包括处理器内核的数量，例如可以是训练目标模型所需的CPU和/或GPU的内核数量，应理解，服务器集群中的任一服务器中可设置一至多个处理器(例如CPU或GPU)，例如GPU设备可以包括单机单卡模式和单机多卡模式，每个处理器的内核可以是一至多个。可选的，训练资源信息可以设置为默认的训练资源，示例性的，在训练资源信息设置为默认的训练资源时，第一服务器可根据配置信息中的训练样本集合的样本数量，确定节点类型和各节点类型对应的数量，例如根据样本数量所属的预设样本数区间，确定对应的节点类型和各节点类型对应的数量。

示例性的，服务器集群上部署有任一深度学习调度平台的框架，例如Xlearning框架，用于支持训练资源的获取和调度。第一服务器在启动Xlearning工具后依据配置信息为用户选择相应的CPU或GPU等训练资源。训练节点的类型和数量由配置信息决定。Xlearning是一款基于Hadoop Yarn的资源调度系统。其通过统一的客户机Client，提交作业任务，实际的作业执行者Container基于分布式训练架构PS-Worker的策略，启动相应的PS和Worker进程，并监控进程状态。用户只需要在配置信息中配置所需的训练资源，包括CPU、GPU的核数和内存等资源值，也可不用配置，采用系统默认分配的资源配置。当资源不够时，系统会等待运行资源释放后再分配。

应理解，每个训练节点对应一个处理器(例如CPU或GPU)，服务器集群中的每个服务器中包括至少一个训练节点，针对步骤S303，基于训练资源信息，从服务器集群中选择的n个训练节点可以属于同一服务器，或者属于不同的服务器。其中，n≥1，若要使模型训练的效率更高，一般使n＞1，以实现分布式的训练。

应理解，训练模型信息用于确定训练目标模型所需的模型训练程序。

可选的，训练模型信息可以包括模型指示信息，模型指示信息用于指示从预设的至少一个个模型训练程序中选择一个作为所述模型训练程序。

示例性的，模型指示信息可包括模型的类型，基于模型的类型可以选择预定义模型库中预设的模型进行训练，其中，每个预设的模型对应一个预设的模型训练程序。例如，预设的模型包括任一深度学习模型，如深度神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent Neural Network，RNN)等。可选的，预定义模型库还包括用户上传的自定义模型训练程序。

进一步地，为了提高模型训练的灵活性和可扩展性，训练模型信息还可以包括模型参数信息，模型参数信息用于指示更新模型训练程序中的参数。示例性的，模型指示信息指示选择DNN模型并指示修改DNN模型中的部分参数。则得到更新模型参数后的模型训练程序。

可选的，训练模型信息可以直接包括用于训练目标模型的模型训练程序。

示例性的，可以依据场景需求自定义深度学习模型，需要用户提供模型训练的实现逻辑，提供相应的模型训练实现代码，对模型训练的相应参数需要进行配置，得到模型训练程序。

示例性的，在服务器集群中部署深度学习工具，如Tensorflow，Pytorch等。以Tensorflow为例，分布式的模型训练使用的是PS-Worker架构。

分布式模型训练程序编写支持两种形式，TensorFlow的高阶EstimatorAPI封装模式和低阶应用程序接口API模式。(1)当用户编写高阶模式Estimator分布式代码时，各个训练节点执行的模型训练程序和单机训练的模型训练程序一样，当程序在运行的时候，系统会在用户代码执行之前执行一条命令完成对PS-Worker集群的设置。(2)当用户编写低阶API模式的分布式代码时，需要参考标准的低阶Tensorflow分布式代码进行编写，需要明确在程序中指定不同的设备角色(PS或者Worker)并针对不同角色进行相应的代码编写。并依据PS和Worker各自代码实现进行计算。整体上，相对Estimator API封装模式，低阶API模式编写难度更大，但提供了更大的创建模型的自由度。

可选的，第一服务器可支持用户选择使用单机或分布式运算方式，可依据用户配置信息的运算方式信息来决定启用何种训练方式，或者可依据训练资源信息中指示的训练节点的数量确定训练方式，或者可依据训练模型信息确定训练方式。

针对步骤S304进行如下说明：

示例性的，通过n个训练节点运行模型训练程序，并将训练样本集合作为输入，进行分布式的模型训练，得到目标模型。

示例性的，将训练样本集合划分为与每个训练节点对应的样本子集，针对每个训练节点，将训练节点对应的样本子集作为输入，控制训练节点运行模型训练程序，得到训练结果，基于每个训练节点对应的训练结果，得到目标模型。

应理解，每个训练节点运行的模型训练程序相同。

图4为本身实施例提供的一种模型的训练方法的流程示意图。

作为一种示例，如图4所示，第一服务器获得指定的训练资源后，基于数据并行策略设计了PS-Worker架构的分布式训练模块。其中(1)如图4所示，数据并行是深度学习模型分布式训练最常用的并行策略，将整个训练样本集合分成多个数据切片(Mini-batch)，然后多个Worker同时使用不同的Mini-batch训练集训练相同的子模型，计算出的梯度用于更新放置在PS的模型参数。数据并行的优势是好理解，易实现。(2)如图4所示，PS-Worker分布式架构通常将计算集群中的节点分为两类：参数服务器(Parameter Server，PS)和工作进程(Worker)。Parameter Server存放模型参数，而Worker则负责基于Mini-batch数据计算参数梯度。在每次迭代中，Worker从PS中获得参数w^′，然后将计算后的梯度Δw返回给PS，PS聚合从Worker传回的梯度，然后更新参数w^′，并将新的参数w^′广播给Worker，图中η为预设值。(3)模型训练最后保存目标模型的模型文件和Checkpoint文件等，以备后续模型预测和再次模型训练使用。模型文件除了Checkpoint，也会按配置要求存储成指定的格式，如Tensorflow的.pb格式。

本申请实施例中，基于配置信息即可确定训练样本集合、训练模型信息，并从服务器集群中选择n个训练节点，n大于1，以通过n个训练节点，基于训练样本集合、训练模型信息，训练得到目标模型，实现自动的模型训练，提高了模型训练的便利性。进一步地，通过多个训练节点进行分布式的模型训练，提高了模型训练的处理效率。

可选的，配置信息还包括第二存储路径，第二存储路径对应的存储空间位于存储服务器中，示例性的，存储服务器中部署有分布式文件系统，用于实现数据的读取和存储。

示例性的，将目标模型存储至第二存储路径对应的存储空间中。

下面针对使用目标模型进行预测的过程进行说明。

图5为本申请实施例提供的一种模型的预测方法的流程示意图。如图5所示，本申请实施例的执行主体为第一服务器，该模型的预测方法具体包括：

S501：获取目标模型的配置信息。

S502：从第一存储路径对应的存储空间中，读取目标模型进行预测所需的预测样本集合。

S503：从第二存储路径对应的存储空间中，读取目标模型。

S504：基于预测资源信息，从服务器集群中选择n个预测节点，n大于1。

S505：通过n个模型预测节点和目标模型，对输入的预测样本集合进行预测，得到预测结果。

应理解，配置信息包括第一存储路径、第二存储路径和预测资源信息。

其中，预测资源信息包括预测节点的节点类型和各节点类型对应的数量，例如，指示所需的预测资源为CPU，且CPU的数量为2。可选的，预测资源信息可以包括处理器内核的数量，例如可以是使用目标模型进行预测所需的CPU和/或GPU的内核数量，应理解，服务器集群中的任一服务器中可设置一至多个处理器(例如CPU或GPU)，例如GPU设备可以包括单机单卡模式和单机多卡模式，每个处理器的内核可以是一至多个。可选的，预测资源信息可以设置为默认的预测资源，示例性的，在预测资源信息设置为默认的预测资源时，第一服务器可根据配置信息中的预测样本集合的样本数量，确定节点类型和各节点类型对应的数量，例如根据样本数量所属的预设样本数区间，确定对应的节点类型和各节点类型对应的数量。

应理解，模型的预测过程可以独立执行，也可以在模型训练之后执行，当模型训练后继续进行模型的预测过程时，不需要再执行获取目标模型的配置信息的过程。

针对步骤S505进行如下说明：

示例性的，通过n个预测节点使用目标模型，例如运行目标模型对应的模型文件，将预测样本集合作为输入，得到预测结果，应理解，该预测结果包括目标模型对每个预测样本的预测结果。

示例性的，将预测样本集合划分为与每个预测节点对应的样本子集，针对每个预测节点，将预测节点对应的样本子集作为输入，控制预测节点运行目标模型的模型文件，分别对每个样本子集进行预测，得到预测结果。

可选的，目标模型的数量为一至多个。

可选的，将预测结果存储至第三存储路径对应的存储空间中，第三存储路径对应的存储空间属于存储服务器。第三存储路径与第二存储路径可以相同也可以不同。

模型的预测是基于已训练好的目标模型对测试样本集合进行预测的过程，除了最终输出样本的标签，还可以获得测试样本属于某个类别的概率。在实际业务中，通常会面临大规模的预测样本，预测样本的数量很大，达到千万级、亿级。这个时候单机模型预测很难支持，需要分布式模型预测支持。图6为本申请实施例提供的一种模型的预测方法的流程示意图。如图6所示，第一服务器部署的预测工具采用分布式Hadoop Streaming流式运算技术，支持用户自定义模型预测模式和预定义模型预测模式。

(1)自定义模型预测模式。该模式需要用户提供模型文件，预测脚本，支持Tensorflow和Pytorch等框架的模型预测。模型文件路径可以是Checkpoint的路径或者符合某种深度学习框架格式要求的模型文件等。用户提供预测脚本，满足标准的HadoopStreaming的计算脚本，通过加载模型文件后对输入数据进行流式预测。

(2)预定义模型预测模式。Tensorflow为常用格式模型预测工具。该工具需要用户将目标模型保存为特定格式(如.pb格式)的标准模型文件。不需要提供单独的预测脚本。以.pb格式为例，模型预测工具接入要求模型输出格式为Tensorflow的标准.pb格式，即model_name.pb。其他深度学习框架的模型预测工具也可以按类似Tensorflow的该方式进行工具支持。

进一步地，将预测结果进行存储，例如存储在存储服务器中。

在上述实施例的基础上，下面对模型的评估过程进行说明。

本申请实施例的执行主体为第一服务器，第一服务器根据模型的训练过程中获取的模型参数，对目标模型进行评估，也可在模型的预测过程中，根据预测结果对目标模型进行评估，得到评估结果。应理解，评估结果至少包括：准确率、召回率、精确率、模型分类质量指标AUC、模型识别能力指标KS中的一种或其组合。

应理解，预测结果为目标模型对预测样本进行预测得到的，且每个预测样本携带有标签，通过对预测结果中每个预测样本对应的预测结果和该预测样本对应的标签，进行统计分析，能够确定该目标模型的准确率、召回率、精确率、模型分类质量指标AUC或模型识别能力指标KS等。

在上述任一实施例的基础上，为了使训练得到的目标模型具有更好的可扩展性，本申请实施例提供一种对目标模型进行迁移学习以得到新的目标模型的方法。

图7为本申请实施例提供的一种模型的训练方法的流程示意图。结合图7所示，本实施例中，先进行模型的训练得到目标模型，再进行微调(Fine-Tuning)训练的迁移学习形式。具体包括无目标模型和有目标模型两种形式。

(1)当前无目标模型时，需先进行预训练得到目标模型，再进行微调训练，得到新的目标模型。该方式需要用户配置的配置信息中包含训练目标模型所需的训练模型信息和训练样本集合的路径，以及Fine-Tuning的目标训练模型信息和目标训练样本集合的路径。第一服务器首先执行训练目标模型的模型训练程序，基于目标模型的训练样本集合进行训练，并将目标模型保存成指定格式文件。然后再进行Fine-Tuning，加载已保存的目标模型，在Fine-Tuning的目标训练样本集合上进行训练，并最终保存新的目标模型的模型文件，完成迁移学习。

(2)当前存在目标模型时，则只需要在Fine-Tuning的阶段加载目标模型，在目标训练样本集合上进行训练，保存训练得到的新的目标模型。该方式需要用户在配置信息中配置目标模型的路径，第一服务器会自动加载该目标模型。

图8为本申请实施例提供的一种服务器的示意性框图。如图8所示，该服务器800包括：

获取模块810，用于获取目标模型的配置信息，配置信息包括第一存储路径和训练资源信息；

读取模块820，用于从第一存储路径对应的存储空间中，读取训练目标模型所需的训练样本集合和训练模型信息，训练模型信息用于确定训练目标模型所需的模型训练程序；

确定模块830，用于基于训练资源信息，从服务器集群中选择n个训练节点，n大于1；

训练模块840，用于通过n个训练节点和模型训练程序，基于训练样本集合，训练得到目标模型。

可选的，训练模块840具体用于：将训练样本集合划分为与每个训练节点对应的样本子集；针对每个训练节点，将训练节点对应的样本子集作为输入，控制训练节点，运行模型训练程序，得到训练结果；基于每个训练节点对应的训练结果，得到目标模型。

可选的，获取模块810具体用于：接收用户终端发送的配置文件；配置文件为用户上传的文件，或，根据在网络浏览器显示的配置模板中输入的内容生成的文件；解析配置文件，得到配置信息。

可选的，训练模型信息包括模型指示信息或模型训练程序，模型指示信息用于指示从预设的至少一个模型训练程序中选择一个作为模型训练程序。

可选的，训练模型信息还包括模型参数信息，模型参数信息用于指示更新模型训练程序中的参数。

可选的，训练资源信息包括至少一个节点类型和节点类型的数量。

可选的，配置信息还包括第二存储路径。

可选的，服务器800还包括：存储模块850，用于将目标模型存储至第二存储路径对应的存储空间中。

上述实施例提供的服务器，可以执行上述方法实施例第一服务器侧的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本申请实施例提供的一种服务器的示意性框图。如图9所示，该服务器900包括：

获取模块910，用于获取目标模型的配置信息，配置信息包括第一存储路径、第二存储路径和预测资源信息；

第一读取模块920，用于从第一存储路径对应的存储空间中，读取目标模型进行预测所需的预测样本集合；

第二读取模块930，用于从第二存储路径对应的存储空间中，读取目标模型；

确定模块940，用于基于预测资源信息，从服务器集群中选择n个预测节点，n大于1；

预测模块950，用于通过n个模型预测节点和目标模型，对输入的预测样本集合进行预测，得到预测结果。

可选的，服务器900还包括：评估模块960，用于基于预测结果，得到目标模型的多个维度的评估结果，评估结果包括：准确率、召回率、精确率、模型分类质量指标AUC、模型识别能力指标KS中的至少一种。

图10为本申请实施例提供的一种服务器示意性结构图。如图10所示的服务器包括处理器1010，处理器1010可以从存储器中调用并运行计算机程序，以实现本申请实施例中的方法。

可选地，如图10所示，服务器1000还可以包括存储器1020。其中，处理器1010可以从存储器1020中调用并运行计算机程序，以实现本申请实施例中的方法。

其中，存储器1020可以是独立于处理器1010的一个单独的器件，也可以集成在处理器1010中。

可选地，如图10所示，服务器1000还可以包括收发器1030，处理器1010可以控制该收发器1030与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。

其中，收发器1030可以包括发射机和接收机。收发器1030还可以进一步包括天线，天线的数量可以为一个或多个。

可选地，该服务器1000可以实现本申请实施例的各个方法中第一服务器对应的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。

可选的，该计算机可读存储介质可应用于本申请实施例中的电子设备，并且该计算机程序使得计算机执行本申请实施例的各个方法中由的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令。

可选的，该计算机程序产品可应用于本申请实施例中的电子设备，并且该计算机程序指令使得计算机执行本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序。

可选的，该计算机程序可应用于本申请实施例中的服务器，当该计算机程序在计算机上运行时，使得计算机执行本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。针对这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种模型的训练方法，其特征在于，包括：

获取目标模型的配置信息，所述配置信息包括第一存储路径和训练资源信息；

从所述第一存储路径对应的存储空间中，读取训练所述目标模型所需的训练样本集合和训练模型信息，所述训练模型信息用于确定训练所述目标模型所需的模型训练程序；

基于所述训练资源信息，从服务器集群中选择n个训练节点，n大于1；

通过所述n个训练节点和所述模型训练程序，基于所述训练样本集合，训练得到所述目标模型。

2.根据权利要求1所述的方法，其特征在于，所述通过所述n个训练节点和所述模型训练程序，基于所述训练样本集合，训练得到所述目标模型，包括：

将所述训练样本集合划分为与每个训练节点对应的样本子集；

针对每个训练节点，将所述训练节点对应的样本子集作为输入，控制所述训练节点，运行所述模型训练程序，得到训练结果；

基于每个训练节点对应的训练结果，得到所述目标模型。

3.根据权利要求1所述的方法，其特征在于，所述获取目标模型的配置信息，包括：

接收用户终端发送的配置文件；所述配置文件为用户上传的文件，或，根据在网络浏览器显示的配置模板中输入的内容生成的文件；

解析所述配置文件，得到所述配置信息。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述训练模型信息包括模型指示信息或所述模型训练程序，所述模型指示信息用于指示从预设的至少一个模型训练程序中选择一个作为所述模型训练程序。

5.根据权利要求4所述的方法，其特征在于，所述训练模型信息还包括模型参数信息，所述模型参数信息用于指示更新所述模型训练程序中的参数。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述训练资源信息包括至少一个节点类型和所述节点类型的数量。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述配置信息还包括第二存储路径，则所述方法还包括：

将所述目标模型存储至所述第二存储路径对应的存储空间中。

8.一种模型的预测方法，其特征在于，所述方法还包括：

获取目标模型的配置信息，所述配置信息包括第一存储路径、第二存储路径和预测资源信息；

从第一存储路径对应的存储空间中，读取所述目标模型进行预测所需的预测样本集合；

从第二存储路径对应的存储空间中，读取所述目标模型；

基于所述预测资源信息，从服务器集群中选择n个预测节点，n大于1；

通过所述n个模型预测节点和所述目标模型，对输入的预测样本集合进行预测，得到预测结果。

9.根据权利要求8任一项所述的方法，其特征在于，所述方法还包括：

基于所述预测结果，得到所述目标模型的多个维度的评估结果，所述评估结果包括：准确率、召回率、精确率、模型分类质量指标AUC、模型识别能力指标KS中的至少一种。

10.一种模型的控制系统，其特征在于，包括：第一服务器、与所述第一服务器连接的服务器集群和与所述第一服务器连接的存储服务器；所述第一服务器包括模型训练单元；

所述模型训练单元被部署为：

基于所述第一存储路径，从所述存储服务器的存储空间中，读取训练所述目标模型所需的训练样本集合和训练模型信息，所述训练模型信息用于指示训练所述目标模型所需的模型训练程序；

基于所述训练资源信息，从所述服务器集群中选择n个训练节点，n大于1；

11.根据权利要求10所述的系统，其特征在于，所述第一服务器还包括模型预测单元；

所述模型预测单元被部署为：

基于所述第一存储路径，从所述存储服务器的存储空间中，读取所述目标模型进行预测所需的预测样本集合；

基于所述第二存储路径，从所述存储服务器的存储空间中，读取所述目标模型；

基于所述训练资源信息，从所述服务器集群中选择n个预测节点，n大于1；

12.根据权利要求11所述的系统，其特征在于，所述第一服务器还包括：模型评估单元；

所述模型评估单元被部署为：