CN105912500B

CN105912500B - 机器学习模型生成方法和装置

Info

Publication number: CN105912500B
Application number: CN201610192139.XA
Authority: CN
Inventors: 詹志征; 刘志强; 沈志勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-11-14
Anticipated expiration: 2036-03-30
Also published as: WO2017166449A1; US11531926B2; CN105912500A; US20200090073A1

Abstract

本申请公开了机器学习模型生成方法和装置。该方法的一具体实施方式包括：通过生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型；将预设机器学习用数据划分为训练数据和验证数据；并行地分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数；基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于最优模型参数组合的机器学习模型。实现了以并行方式对所有模型参数组合对应的机器学习模型进行训练和验证，提升了整个参数寻优的过程，从而快速生成理想的机器学习模型。

Description

机器学习模型生成方法和装置

技术领域

本申请涉及计算机领域，具体涉及机器学习领域，尤其涉及机器学习模型生成方法和装置。

背景技术

机器学习是被广泛应用的人工智能技术。在生成机器学习模型时，由于配置有不同的参数组合导致机器学习模型的学习效果的不同，因此，需要对模型参数进行寻优。目前，通常在一定范围内按一定步长搜索，查找出所有该范围内的模型参数组合，按照顺序对模型参数组合对应的机器学习模型进行训练和验证，即以串行方式进行训练和验证，根据验证的结果确定最优的模型参数组合。

然而，当采用方式确定机器学习模型的最优的模型参数组合时，采用串行的方式对每一个参数组合对应的机器学习模型进行训练和验证，由于训练和验证数据通常是海量级别，每一次训练和验证过程的开销较大，影响后续模型参数组合的训练和验证过程执行进度，进而导致整个模型参数寻优过程速度慢，无法在较短的时间内得到理想的机器学习模型。

发明内容

本申请提供了机器学习模型生成方法和装置，用于解决上述背景技术部分存在的技术问题。

第一方面，本申请提供了机器学习模型生成方法，该方法包括：生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型，其中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系；执行划分操作：将预设机器学习用数据划分为训练数据和验证数据；执行训练与验证操作：并行地分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，验证分数指示机器学习模型基于验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率；执行模型生成操作：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于最优模型参数组合的机器学习模型。

第二方面，本申请提供了机器学习模型生成装置，该装置包括：生成单元，配置用于生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型，其中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系；划分单元，配置用于执行划分操作：将预设机器学习用数据划分为训练数据和验证数据；处理单元，配置用于执行训练与验证操作：并行地分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，验证分数指示机器学习模型基于验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率；执行单元，配置用于执行模型生成操作：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于最优模型参数组合的机器学习模型。

本申请提供的机器学习模型生成方法和装置，通过生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型；将预设机器学习用数据划分为训练数据和验证数据；并行地分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数；基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于最优模型参数组合的机器学习模型。实现了以并行方式对所有模型参数组合对应的机器学习模型进行训练和验证，提升了整个参数寻优的速度，从而快速生成理想的机器学习模型。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的机器学习模型生成方法的一个实施例的流程图；

图3示出了本申请中的机器学习模型方法的一个示例性原理图；

图4示出了根据本申请的机器学习模型生成装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的机器学习模型生成方法或装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供传输链路的介质。网络104可以包括各种连接类型，例如有线、无线传输链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯应用，例如、即时通讯类应用、浏览器类应用、搜索类应用、文字处理类应用等。

终端设备101、102、103可以是具有显示屏并且支持网络通信的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以接收终端设备101、102、103上的机器学习模型生成请求，对模型参数组合对应的机器学习模型进行训练和验证之后，得到验证分数，然后，将验证分数反馈给终端设备，以供用户选择最佳的验证分数对应的机器学习模型。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，其示出了根据本申请的机器学习模型生成方法的一个实施例的流程200。需要说明的是，本申请实施例所提供的机器学习模型生成方法一般由图1中的服务器105执行。该方法包括以下步骤：

步骤201，生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型。

在本实施例中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系。在本实施例中，可以生成多个模型参数组合。例如，通过调整模型参数的参数值的大小的方式来生成多个模型参数组合。以机器学习模型LDA模型(Latent DirichletAllocation，文档主题生成模型)为例，模型参数包含α参数，β参数、迭代轮数n、topic数K。可以调整α参数，β参数的数值的大小、从而生成多个模型参数组合。例如，增大α参数可以使得每个文档接近同一个主题，增大β参数可以使得每个主题更集中在几个词汇上。

步骤202，执行划分操作：将预设机器学习用数据划分为训练数据和验证数据。

在本实施例中，预设机器学习用数据可以为对机器学习模型进行训练的数据。可以预设机器学习用数据划分为训练数据和验证数据。利用训练数据对机器学习模型进行训练，然后，利用验证数据对训练后的机器学习模型的学习效果进行验证。

在本实施例的一些可选的实现方式中，将预设机器学习用数据划分为训练数据和验证数据包括：从多个预设子集中选取一个子集的预设机器学习用数据作为验证数据，以及将其他子集中的预设机器学习用数据作为训练数据，其中，预设子集为将预设机器学习用数据划分而得到的多个包含的预设机器学习用数据的个数相等的集合。

以将预设机器学习用数据划分为N个子集为例，每一个子集包含的数据量相同。可以将其中一个子集作为测试集，另外N-1个子集作为训练集。从而，可以生成N种组合，即每一种组合中，其中一个子集作为测试集，另外N-1个子集作为训练集。

步骤203，并行执行训练与验证操作。

在本实施例中，训练与验证操作包括：分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，验证分数指示机器学习模型基于验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率。

在本实施例中，可以分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数。换言之，以并行方式执行对机器学习模型的训练和验证。

在本实施例的一些可选的实现方式中，划分操作和训练与验证操作均被执行多次，训练数据为每一次划分操作而划分出的训练数据，验证数据为每一次划分操作而划分出的验证数据；以及并行地分别基于训练数据对每一个机器学习模型进行训练包括：基于每一次划分操作而划分出的训练数据，对机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数包括：基于每一次划分操作而划分出的验证数据，对每一次训练后的机器学习模型学习的准确率进行验证，得到多个验证分数。

在本实施例中，在将机器学习用数据划分为多个子集之后，可以对模型参数对应的机器学习模型进行多次训练和验证。在每一次对对模型参数对应的机器学习模型进行训练和验证时，首先利用作为训练集的子集对模型参数对应的机器学习模型进行训练。然后，利用作为验证集的子集对模型参数对应的机器学习模型进行验证，得到验证分数。可以利用该验证分数，验证分数指示机器学习模型基于验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率。

以将预设机器学习用数据平均划分为N个子集为例，一个子集作为测试集，另外N-1个子集作为训练集。从而，可以生成N种组合，即每一种组合中，一个子集作为测试集，另外N-1个子集作为训练集。针对每一个模型参数组合对应的机器学习模型，可以执行N次训练和验证操作。

以针对一个模型参数组合对应的机器学习模型为例，预设机器学习用数据平均划分为5个子集。可以对执行5次训练和验证操作，在第1次对模型参数对应的机器学习模型进行训练和验证的过程中，可以利用第1个子集作为验证集合，其余4个子集作为训练集。在第2次对模型参数对应的机器学习模型进行训练和验证的过程中，可以利用第2个子集作为验证集合，其余4个子集作为训练集。依次类推，分别对模型参数对应的机器学习模型进行5次训练和验证操作，得到5个验证分数。

步骤204，执行模型生成操作。

在本实施例中，模型生成操作包括：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于最优模型参数组合的机器学习模型。

在本实施例的一些可选的实现方式中，还包括：利用分布式计算框架Hadoop的Map-Reduce模型中的Map任务执行训练与验证操作，利用分布式计算框架Hadoop的Map-Reduce模型中的Reduce任务执行模型生成操作。

在本实施例中，可以采用分布式计算框架Hadoop的Map-Reduce模型来执行对机器学习模型的训练与验证。可以利用Hadoop中的Map任务执行训练和验证操作，利用Hadoop中的Reduce任务执行模型生成操作。

在本实施例的一些可选的实现方式中，基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合包括：分别计算每一个机器学习模型对应的多个验证分数的平均参数值；将平均参数值作为参考模型参数值；基于参考模型参数值，确定待生成的机器学习模型对应的最优模型参数组合。

在本实施例中，在对每一个模型参数对应的机器模型进行多次训练和验证之后，分别计算每一个机器学习模型对应的多个验证分数的平均参数值，将平均参数值作为参考模型参数值。然后，可以基于参考模型参数值，确定待生成的机器学习模型对应的最优模型参数组合。例如，当用户通过终端向服务器发送向服务器发送机器学习模型生成请求，然后，以并行方式对机器学习模型进行训练和验证后，服务器向用户的终端返回各个参考模型参数值即模型参数组合对应的验证分数的平均值，由用户该根据参考模型参数值，确定待生成的机器学习模型对应的最优模型参数组合。

请参考图3，其示出了本申请中的模型生成方法的一个示例性原理图。

在图3中，示出了多个Map任务以及用于聚合经Map任务执行后得到的验证分数的Reduce任务。首先，当用户(例如工程师)期望得到机器学习模型例如LDA模型时，可以利用终端向服务器发送机器学习模型生成请求。机器学习模型生成请求中可以包含机器学习模型的模型参数的范围。例如，LDA模型中模型参数α参数、β参数的范围。服务器在接收机器学习模型生成请求之后，可以对用于对LDA模型进行训练和对训练后的学习效果进行验证的机器学习用数据(例如用户的消费数据)进行预处理，例如数据清洗。在对LDA模型进行训练和对训练后的学习效果进行验证的机器学习用数据进行预处理之后，可以将机器学习用数据划分为多个子集，选取其中一个子集作为验证集，其余子集作为训练集，并行地对每一个模型参数对应的机器学习模型进行验证和训练。

可以利用MAP任务对模型参数对应的机器学习模型进行训练和验证，针对每一个模型参数对应的机器学习模型，创建一个MAP任务，对模型参数对应的机器学习模型进行训练和验证。例如，可以将每一个模型参数组合作为HADOOP的输入，将训练数据作为缓存文件Cache File上传到HADOOP上，以并行方式对每一个模型参数对应的机器学习模型进行训练，从而生成训练后的各个模型参数组合对应的机器学习模型。在以并行方式对每一个模型参数对应的机器学习模型进行训练之后，可以利用验证数据以并行方式对训练后的机器学习模型进行验证，从而计算各个模型参数组合各自对应的多个验证分数。

在针对每一个模型参数组合对应的机器学习模型进行训练和验证之后，可以利用Reduce任务计算出各个模型参数组合对应的多个验证分数的平均值，将该平均参数值作为参考模型参数值。然后，可以将各个模型参数组合对应的参考模型参数值发送给用户的终端。使得用户可以根据参考模型参数值，选取出对应于选取出的参数模型参数值的模型参数组合的机器学习模型。

下面说明本申请中的机器学习模型的生成方法的特点：

首先，利用分布式系统HODOOP中Map任务和Reduce任务以并行方式对各个模型参数组合对应的机器学习模型进行训练和验证，从而快速地得到各个模型参数组合的验证分数，提供给用户，由用户选取理想的模型参数组合对应的机器学习模型，达到了完全并行化搜索模型参数组合的目的，从而提升系统的执行效率。

其次，在搜索最优的模型参数组合而生成最优参数组合对应的机器学习模型的过程中，用户只需输入机器学习用数据和模型参数的范围，从而无需人工干预自动完成参数搜索过程。

请参考图4，其示出了根据本申请的机器学习模型生成装置的一个实施例的结构示意图。装置400包括：生成单元401，划分单元402，处理单元403，执行单元404。其中，生成单元401配置用于生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型，其中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系；划分单元402配置用于执行划分操作：将预设机器学习用数据划分为训练数据和验证数据；处理单元403配置用于执行训练与验证操作：并行地分别基于训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，验证分数指示机器学习模型基于验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率；执行单元404配置用于执行模型生成操作：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于最优模型参数组合的机器学习模型。

在本实施例的一些可选的实现方式中，装置400还包括：分布式处理单元(未示出)，配置用于利用分布式计算框架Hadoop的Map-Reduce模型中的Map任务执行训练与验证操作，利用分布式计算框架Hadoop的Map-Reduce模型中的Reduce任务执行模型生成操作。

在本实施例的一些可选的实现方式中，划分单元402包括：选取子单元(未示出)，配置用于从多个预设子集中选取一个子集的预设机器学习用数据作为验证数据，以及将其他子集中的预设机器学习用数据作为训练数据，其中，预设子集为将预设机器学习用数据划分而得到的多个包含的预设机器学习用数据的个数相等的集合。

在本实施例的一些可选的实现方式中，划分操作和训练与验证操作均被执行多次，训练数据为每一次划分操作而划分出的训练数据，验证数据为每一次划分操作而划分出的验证数据，处理单元403包括：训练子单元(未示出)，配置用于基于每一次划分操作而划分出的训练数据，对机器学习模型进行训练；验证子单元(未示出)，配置用于基于每一次划分操作而划分出的验证数据，对每一次训练后的机器学习模型学习的准确率进行验证，得到多个验证分数。

在本实施例的一些可选的实现方式中，执行单元404包括：计算子单元(未示出)，配置用于分别计算每一个机器学习模型对应的多个验证分数的平均参数值；设置子单元(未示出)，配置用于将平均参数值作为参考模型参数值；参数组合确定子单元(未示出)，配置用于基于参考模型参数值，确定待生成的机器学习模型对应的最优模型参数组合。

图5示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型，其中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系；执行划分操作：将预设机器学习用数据划分为训练数据和验证数据；执行训练与验证操作：并行地分别基于所述训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，所述验证分数指示机器学习模型基于所述验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率；执行模型生成操作：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于所述最优模型参数组合的机器学习模型。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种机器学习模型生成方法，其特征在于，所述方法包括：

生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型，其中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系；

执行划分操作：将预设机器学习用数据划分为训练数据和验证数据，将预设机器学习用数据划分为训练数据和验证数据包括：从多个预设子集中选取一个子集的预设机器学习用数据作为验证数据，以及将其他子集中的预设机器学习用数据作为训练数据，其中，所述预设子集为将预设机器学习用数据划分而得到的多个包含的预设机器学习用数据的个数相等的集合；

执行训练与验证操作：并行地分别基于所述训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，所述验证分数指示机器学习模型基于所述验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率；

执行模型生成操作：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于所述最优模型参数组合的机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用分布式计算框架Hadoop的Map-Reduce模型中的Map任务执行训练与验证操作，利用分布式计算框架Hadoop的Map-Reduce模型中的Reduce任务执行模型生成操作。

3.根据权利要求1所述的方法，其特征在于，划分操作和训练与验证操作均被执行多次，所述训练数据为每一次划分操作而划分出的训练数据，所述验证数据为每一次划分操作而划分出的验证数据；以及

并行地分别基于所述训练数据对每一个机器学习模型进行训练包括：

基于每一次划分操作而划分出的训练数据，对机器学习模型进行训练；

分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数包括：

基于每一次划分操作而划分出的验证数据，对每一次训练后的所述机器学习模型学习的准确率进行验证，得到多个验证分数。

4.根据权利要求3所述的方法，其特征在于，基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合包括：

分别计算每一个机器学习模型对应的多个验证分数的平均参数值；

将所述平均参数值作为参考模型参数值；

基于所述参考模型参数值，确定待生成的机器学习模型对应的最优模型参数组合。

5.一种机器学习模型生成装置，其特征在于，所述装置包括：

生成单元，配置用于生成模型参数组合，以及生成对应于每一个模型参数组合的机器学习模型，其中，模型参数指示机器学习模型的输入向量与输出向量之间的关联关系；

划分单元，配置用于执行划分操作：将预设机器学习用数据划分为训练数据和验证数据，所述划分单元包括：选取子单元，配置用于从多个预设子集中选取一个子集的预设机器学习用数据作为验证数据，以及将其他子集中的预设机器学习用数据作为训练数据，其中，所述预设子集为将预设机器学习用数据划分而得到的多个包含的预设机器学习用数据的个数相等的集合；

处理单元，配置用于执行训练与验证操作：并行地分别基于所述训练数据对每一个机器学习模型进行训练；分别基于验证数据对每一个训练后的机器学习模型学习的准确率进行验证，得到验证分数，所述验证分数指示机器学习模型基于所述验证数据而输出的输出向量对应的数据类型与验证数据的数据类型一致的比率；

执行单元，配置用于执行模型生成操作：基于验证分数，确定待生成的机器学习模型对应的最优模型参数组合，以及生成对应于所述最优模型参数组合的机器学习模型。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

分布式处理单元，配置用于利用分布式计算框架Hadoop的Map-Reduce模型中的Map任务执行训练与验证操作，利用分布式计算框架Hadoop的Map-Reduce模型中的Reduce任务执行模型生成操作。

7.根据权利要求5所述的装置，其特征在于，划分操作和训练与验证操作均被执行多次，所述训练数据为每一次划分操作而划分出的训练数据，所述验证数据为每一次划分操作而划分出的验证数据，所述处理单元包括：

训练子单元，配置用于基于每一次划分操作而划分出的训练数据，对机器学习模型进行训练；

验证子单元，配置用于基于每一次划分操作而划分出的验证数据，对每一次训练后的所述机器学习模型学习的准确率进行验证，得到多个验证分数。

8.根据权利要求7所述的装置，其特征在于，执行单元包括：

计算子单元，配置用于分别计算每一个机器学习模型对应的多个验证分数的平均参数值；

设置子单元，配置用于将所述平均参数值作为参考模型参数值；

参数组合确定子单元，配置用于基于所述参考模型参数值，确定待生成的机器学习模型对应的最优模型参数组合。