CN110333994B

CN110333994B - 一种数据集匹配的模型确定方法、装置、设备及存储介质

Info

Publication number: CN110333994B
Application number: CN201910608806.1A
Authority: CN
Inventors: 肖淋峰; 吴志坚
Original assignee: Shenzhen Lexin Software Technology Co Ltd
Current assignee: Shenzhen Lexin Software Technology Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2023-06-06
Anticipated expiration: 2039-07-08
Also published as: CN110333994A

Abstract

本发明实施例公开了一种数据集匹配的模型确定方法、装置、设备及存储介质，该方法包括：针对每种模型，主节点将模型的配置参数进行分组，并分配给对应的从节点，以使每个从节点对模型进行配置；针对每种配置了不同分组的配置参数的多个模型，主节点控制至少两个从节点对多个模型进行训练，并控制从节点确定每个模型的性能数据以及反馈性能数据；主节点根据每个从节点反馈的性能数据确定每种模型的最优配置参数；主节点控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据；主节点根据每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型，可以提高效率，节省时间。

Description

一种数据集匹配的模型确定方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术，尤其涉及一种数据集匹配的模型确定方法、装置、设备及存储介质。

背景技术

随着大数据时代的到来，通过模型进行数据处理被广泛的应用于各种场景。而随着模型算法的发展，模型中的数学表达越来越复杂。

当数据处理时，为了使模型达到最优状态，需要人工大量耗时去测试模型；而且针对不同的数据集，模型的配置参数可能完全不同，当针对不同的数据集时，需要人工针对每个数据集进行各项配置参数的测试调优。并且现在的模型数量较多，还需要人工为每一个模型配置最优的配置参数后，再进行模型之间的比较，得到与数据集最匹配的模型，上述的方法费时费力，效率较低。

发明内容

本发明实施例提供了一种数据集匹配的模型确定方法、装置、设备及存储介质，可以节省时间，提高效率。

第一方面，本发明实施例提供了一种数据集匹配的模型确定方法，包括：

针对每种模型，主节点将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点，以使每个从节点根据分组的配置参数对模型进行配置；

针对每种配置了不同分组的配置参数的多个模型，所述主节点控制至少两个从节点对所述多个模型进行训练，并控制从节点确定每个模型的性能数据以及反馈所述性能数据；

所述主节点接收每个从节点反馈的模型的性能数据，并基于所述性能数据确定每种模型的最优配置参数；

所述主节点控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据；

所述主节点根据所述至少两个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

第二方面，本发明实施例还提供了一种数据集的模型确定方法，包括：

从节点接收主节点发送的模型分组的配置参数，并根据分组的配置参数对模型进行配置；

所述从节点对分配的模型进行训练，并确定模型的性能数据以及反馈所述性能数据，以使主节点基于每个从节点反馈的模型的性能数据确定每种模型的最优配置参数；

所述从节点将目标数据集输入到对应的配置有最优配置参数的模型中，以确定模型的性能数据，并反馈给所述主节点，以使主节点根据每个从节点反馈的每种模型的性能数据，确定与所述目标数据集最匹配的，且配置有最优配置参数的模型。

第三方面，本发明实施例还提供了一种数据集匹配的模型确定方法，包括：

针对每种模型，主节点将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点；

所述从节点根据分组的配置参数对模型进行配置；

针对每种配置了不同分组的配置参数的多个模型，所述主节点将每个模型分配给至少两个从节点，以使从节点对模型进行训练、并确定每个模型的性能数据以及反馈所述性能数据；

所述主节点接收每个所述从节点反馈的模型的性能数据，并基于所述性能数据确定每种模型的最优配置参数；

所述主节点将目标数据集分配给至少两个从节点；

所述从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据；

第四方面，本发明实施例提供了一种数据集匹配的模型确定装置，包括：

分组模块，用于针对每种模型，将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点，以使每个从节点根据分组的配置参数对模型进行配置；

第一控制模块，用于针对每种配置了不同分组的配置参数的多个模型，控制至少两个从节点对所述多个模型进行训练，并控制从节点确定每个模型的性能数据以及反馈所述性能数据；

第一确定模块，用于接收每个从节点反馈的模型的性能数据，并基于所述性能数据确定每种模型的最优配置参数；

第二控制模块，用于控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据；

第二确定模块，用于根据所述至少两个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

第五方面，本发明实施例提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例提供的一种数据集的匹配的模型确定方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的一种数据集的匹配的模型确定方法。

本发明实施例提供的技术方案，针对每种模型，主节点通过将模型的配置参数进行分组，并将每个分组的配置参数分配给对应的从节点，以使从节点根据分组的配置参数对模型进行配置；针对每种配置了不同配置参数多个模型，主节点通过控制至少两个从节点对多个模型进行训练，并控制从节点确定每个模型的性能数据；主节点通过每个从节点反馈的性能数据，确定每种模型的最优配置参数；主节点通过控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种配置有最优配置参数的模型的性能数据，并根据该性能数据确定与目标数据集最匹配，且配置有最优配置参数的模型。即针对配置了不同配置参数的每种模型，通过对模型进行分布式测试，得到每种模型的最优配置参数；针对配置了最优配置参数的多种模型，通过对模型进行分布式测试，得到与目标数据集最匹配的，且配置了最优配置参数的模型，可以使每个数据集有最匹配的，且配置有最优配置参数的模型，可以节省时间，提高效率。

附图说明

图1是本发明实施例提供的一种数据集匹配的模型确定方法流程图；

图2是本发明实施例提供的一种数据集匹配的模型确定方法流程图；

图3a是本发明实施例提供的一种数据集匹配的模型确定方法流程图；

图3b是本发明实施例提供的一种数据集匹配的模型确定方法与相关技术方案的比对图；

图4是本发明实施例提供的一种数据集匹配的模型确定装置结构框图；

图5是本发明实施例提供的一种数据集匹配的模型确定装置结构框图；

图6是本发明实施例提供的一种设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例提供的一种数据集匹配的模型确定方法流程图，所述方法由数据集匹配的模型确定装置来执行，所述装置可以由软件和/或硬件来实现，所述装置可以配置在主节点中，主节点可以是主机器设备。本发明实施例提供的方法可以应用于从多种模型中选择与数据集最匹配模型的场景中。

如图1所示，本发明实施例提供的技术方案包括：

S110：针对每种模型，主节点将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点，以使每个从节点根据分组的配置参数对模型进行配置。

在本发明实施例中，可选的，模型可以是算法模型。其中，模型的配置参数，可以是模型的层数、模型的迭代次数，或者是其他配置参数等。针对每种模型，可以有多种不同的配置参数。可以将多种配置参数进行分组，并将分组的配置参数分配给对应的从节点。

其中，当对模型进行配置时，可以进行分布式配置。具体的，主节点可以将一个分组的配置参数分配给一个从节点，也可以将设定数量的配置参数分配给一个从节点。也就是说主节点在分配任务时，可以将每个分组的配置参数对应一个从节点，或者设定数量的配置参数可以对应一个从节点，以使每个从节点根据分组的配置参数对模型进行配置。例如，当一个从节点分配的到配置参数分别是迭代次数1000次，共5层的，则从节点将模型配置成共5层，且迭代次数为1000次。

S120：针对每种配置了不同分组的配置参数的多个模型，所述主节点控制至少两个从节点共同对所述多个模型进行训练，并控制从节点确定每个模型的性能数据以及反馈所述性能数据。

在本发明实施例中，针对每种配置了不同分组的配置参数的多个模型，可以实现对模型的分布式训练。

在本发明实施例的一个实施方式中，可选的，所述主节点控制至少两个从节点对所述多个模型进行训练，包括：所述主节点将第一数据集分别分配给至少两个从节点，以使每个所述从节点基于第一数据集对对应的模型进行训练。

具体的，主节点确定每个从节点的任务，并向每个从节点发送第一任务指令，每个从节点接收到该第一任务指令时，从数据库中获取第一数据集，从节点将第一数据集中的数据输入模型中，对模型进行训练，得到训练好的模型。

可选的，所述控制从节点确定每个模型的性能数据以及反馈所述性能数据，可以包括：所述主节点将第二数据集分配给至少两个从节点，以使每个所述从节点将所述第二数据集输入到对应的模型中以确定模型的性能数据，并向所述主节点反馈所述模型的性能数据。具体的，针对配置了不同配置参数的每个模型，主节点确定每个从节点的任务，主节点向每个从节点发送第二任务指令，每个从节点接收到该第二任务指令时，从数据库中获取第二数据集，从节点将第二数据集输入到不同模型中，得到输出数据，根据输出数据以及第二数据集中的标准数据，可以计算模型的性能数据，其中，模型的性能数据可以是AUC(Area Under roc Curve)值，精度数据、误差数据等。从节点将计算得到的模型的性能数据反馈到主节点。

其中，第一数据可以是对全数据集进行随机采样得到的数据集，以对模型进行训练时，可以减小数据的处理量，提高训练速度。第二数据集可以是主节点对全数据集进行随机抽样，得到的数据集，并存储到数据库中。通过对全数据集的随机抽样，得到第二数据集，以使从节点得到模型的性能数据，采用的数据量少，但并不影响模型的性能分析，可以节省数据处理的时间，避免采用全数据集的数据导致数据处理量大费时的问题。

S130：所述主节点获取每种模型对应的从节点反馈的所述性能数据，并基于所述性能数据确定每种模型的最优配置参数。

在本发明实施例中实施例，每种模型对应的从节点至少两个，至少两个从节点计算配置了不同配置参数的每种模型的性能数据，主节点获取每个从节点反馈的模型的性能数据。其中，主节点获取的模型的性能数据中包括配置了不同配置参数的每种模型的性能数据。可选的，该性能数据可以是AUC值，针对每种模型，将最大AUC值对应的配置参数作为模型的最优配置参数。

S140：所述主节点控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据。

在本发明实施例中，针对配置了最优配置参数的每种模型，当需要选择与目标数据集最匹配的模型时，可以对模型进行分布式测试。首先，主节点将确定每种模型的性能参数的任务分配给至少两个从节点。具体是，主节点向可以向至少两个从节点发送第三任务指令，当从节点接收到第三任务指令时，将从数据库中获取目标数据集，将目标数据集输入到对应的配置有最优配置参数的模型中，得到模型的输出数据，并根据模型的输出数据以及目标数据集的标准数据计算模型的性能参数。其中，模型的性能参数可以是AUC值、F1(F-Measure)值、精度数据、误差数据等。

S150:所述主节点根据所述至少两个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

在本发明实施例中，当每个从节点确定对应的配置有最优配置参数的模型的性能数据后，将每种模型的性能数据反馈给主节点，然后，主节点根据从节点反馈的配置有最优配置参数的模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

在本发明实施例的一个实施方式中，可选的，所述主节点根据每个从节点反馈的AUC值，将最大AUC值对应的模型作为与目标数据集最匹配的，且配置有最优配置参数的模型。其中，当AUC值越大时，模型的效果越好。

本发明实施例提供的技术方案，针对每种模型，主节点通过将模型的配置参数进行分组，并将每个分组的配置参数分配给对应的从节点，以使从节点根据分组的配置参数对模型进行配置；针对每种配置了不同配置参数多个模型，主节点通过控制至少两个从节点对多个模型进行训练，并控制从节点确定每个模型的性能数据；主节点通过每个从节点反馈的性能数据，确定每种模型的最优配置参数；主节点通过控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种配置了最优配置参数的模型的性能数据，并根据该性能数据确定与目标数据集最匹配，且配置有最优配置参数的模型。即针对配置了不同配置参数的每种模型，通过对模型进行分布式测试，得到每种模型的最优配置参数；针对配置了最优配置参数的多种模型，通过对模型进行分布式测试，得到与目标数据集最匹配的，且配置了最优配置参数的模型，可以使每个数据集有最匹配的，且配置有最优配置参数的模型，可以节省时间，提高效率。

图2是本发明实施例提供的一种数据集匹配的模型确定方法流程图，所述方法由数据集匹配的模型确定装置来执行，所述装置可以由软件和/或硬件来实现，所述装置可以配置在从节点中，从节点可以是从机器设备。本发明实施例提供的方法可以应用于从多种模型中选择与数据集最匹配模型的场景中。

如图2所示，本发明实施例提供的技术方案包括：

S210：从节点接收主节点发送的分组的配置参数，并根据分组的配置参数对模型进行配置。

在本发明实施例中，可选的，模型可以是算法模型。其中，模型的配置参数，可以是模型的层数、模型的迭代次数，或者是其他配置参数等。针对每种模型，可以有多种不同的配置参数。可以将多种配置参数进行分组，并将分组的配置参数分配给对应的从节点，每个从节点可以根据分组的配置参数对模型进行配置。例如，当一个从节点分配的到配置参数分别是迭代次数1000次，共5层的，则从节点将模型配置成共5层，且迭代次数为1000次。

S220：所述从节点对分配的模型进行训练，并确定模型的性能数据以及反馈所述性能数据，以使主节点基于每个从节点反馈的模型的性能数据确定每种模型的最优配置参数。

在本发明实施例中，主节点可以将第一数据集分别分配给至少两个从节点，每个从节点基于第一数据集对对应的模型进行训练。具体的，主节点确定每个从节点的任务，并向每个从节点发送第一任务指令，每个从节点接收到该第一任务指令时，从数据库中获取第一数据集，从节点将第一数据集中的数据输入模型中，对模型进行训练，得到训练好的模型。

在本发明实施例中，主节点可以将第二数据集分配给至少两个从节点，每个所述从节点将第二数据集输入到对应的模型中以确定模型的性能数据，并向所述主节点反馈所述模型的性能数据。具体的，针对配置了不同配置参数的每个模型，主节点确定每个从节点的任务，主节点向每个从节点发送第二任务指令，每个从节点接收到该第二任务指令时，从数据库中获取第二数据集，从节点将第二数据集输入到不同模型中，得到输出数据，根据输出数据以及第二数据集中的标准数据，可以计算模型的性能数据，其中，模型的性能数据可以是AUC值，精度数据、误差数据等。每个从节点将计算得到的模型的性能数据反馈到主节点，以使主节点基于每个从节点反馈的模型的性能数据确定每种模型的最优配置参数，具体确定最优配置参数的方法可以参考上述实施例。

S230：所述从节点将目标数据集输入到对应的配置有最优配置参数的模型中，以确定模型的性能数据，并反馈给所述主节点，以使主节点根据每个从节点反馈的每种模型的性能数据，确定与所述目标数据集最匹配的，且配置有最优配置参数的模型。

在本发明实施例中，针对配置了最优配置参数的每种模型，当需要选择与目标数据集最匹配的模型时，可以对模型进行分布式测试。首先，主节点将确定每种模型的性能参数的任务分配给至少两个从节点。具体是，主节点向可以向至少两个从节点发送第三任务指令，当从节点接收到第三任务指令时，将从数据库中获取目标数据集，将目标数据集输入到对应的配置有最优配置参数的模型中，得到模型的输出数据，并根据模型的输出数据以及目标数据集的标准数据计算模型的性能参数。

可选的，从节点将目标数据集输入到对应的配置有最优配置参数的模型中，以确定模型的性能数据，可以包括：所述从节点将所述目标数据集输入到对应的配置有最优配置参数的模型中，得到输出数据基于所述输出数据以及所述目标数据集的标准数据计算AUC值。其中，模型的性能参数还可以是精度数据、误差数据等。

在本发明实施例中，当每个从节点确定对应的配置有最优配置参数的模型的性能数据后，将每种模型的性能数据反馈给主节点，然后，主节点根据从节点反馈的配置有最优配置参数的模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。可选的，可以将最大AUC值对应的模型作为与目标数据集最匹配的，且配置有最优配置参数的模型。

本发明实施例提供的技术方案，通过每个从节点基于分组的配置参数对模型进行配置、训练以及计算模型的性能参数，以使主节点根据模型的性能参数确定每种模型的最优配置参数，通过每个从节点将目标数据集输入到对应的配置有最优配置参数的模型中，以确定配置有最优配置参数的每种模型的性能数据，以使主节点根据性能数据确定与目标数据集最匹配的，且配置有最优配置参数的模型，可以提高模型测试的效率，节省时间。

图3a是本发明实施例提供的一种数据集匹配的模型确定方法流程图，所述方法应用于集群，所述集群上配置有spark分布式系统。如图3a所示，本发明实施例提供的技术方案包括：

S310：针对每种模型，主节点将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点。

S320：所述从节点根据分组的配置参数对模型进行配置。

S330：针对每种配置了不同分组的配置参数的多个模型，所述主节点将每个模型分配给至少两个从节点，以使从节点对模型进行训练、并确定每个模型的性能数据以及反馈所述性能数据。

S340：所述主节点接收每个所述从节点反馈的模型的性能数据，并基于所述性能数据确定每种模型的最优配置参数。

S350：所述主节点将目标数据集分配给至少两个从节点。

S360：所述从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据。

S370：所述主节点根据所述至少两个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

其中，本发明实施例提供的技术方案与相关技术方案的比对可以参考图3b，如图3b所示，本发明实施例的技术方案可以是：

1、数据抽样

相关技术中的每一次模型的训练，都用全数据集训练，但是本发明实施例有众多不同的配置参数分组的模型，只需要部分数据就可以知道效果好坏。

2、模型自动调参，spark分布式运行。

使用spark分布式系统，将不同的分组的配置参数在模型同时运行，同时测试，大大节省时间。

3、各模型最优配置参数分布式测试。

在模型自动调参时的训练集上，针对每个模型，各自选出效果最好的模型，然后同时spark分布式测试同一新数据集。

4、自动择优输出

spark分布式测试过后，自动选择效果最好的那一个模型，同时输出其配置参数和模型信息。

相对相关技术方案而言，本发明实施例采用对模型采用分布式训练，极大的加快了速度。分布式测试多种模型，自动输出最匹配模型以及最优配置参数，提高了效率，节省了时间。

图4是本发明实施例提供的一种数据集匹配的模型确定装置，如图4所示，本发明实施例提供的装置包括：分组模块410、第一控制模块420、第一确定模块430、第二控制模块440和第二确定模块450。

分组模块410，用于针对每种模型，将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点，以使每个从节点根据分组的配置参数对模型进行配置；

第一控制模块420，用于针对每种配置了不同分组的配置参数的多个模型，控制至少两个从节点对所述多个模型进行训练，并控制从节点确定每个模型的性能数据以及反馈所述性能数据；

第一确定模块430，用于接收每个从节点反馈的模型的性能数据，并基于所述性能数据确定每种模型的最优配置参数；

第二控制模块440，用于控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据；

第二确定模块450，用于根据所述至少两个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

可选的，所述主节点控制至少两个从节点对所述多个模型进行训练；

所述主节点将第一数据集分别分配给至少两个从节点，以使每个所述从节点基于第一数据集对对应的模型进行训练；

所述控制从节点确定每个模型的性能数据以及反馈所述性能数据，包括：

所述主节点将第二数据集分配给至少两个从节点，以使每个所述从节点将所述第二数据集输入到对应的模型中以确定模型的性能数据，并向所述主节点反馈所述模型的性能数据。

可选的，第二确定模块450，用于根据每个从节点反馈的AUC值，将最大AUC值对应的模型作为与目标数据集最匹配的，且配置有最优配置参数的模型。

可选的，所述装置还包括抽样模块：用于从全数据集中进行随机抽样，得到第一数据集。

上述装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

图5是本发明实施例提供的一种数据集匹配的模型确定装置，如图5所示，本发明实施例提供的装置包括：配置模块510、训练/确定模块520和确定模块530。

配置模块510，用于接收主节点发送的模型分组的配置参数，并根据分组的配置参数对模型进行配置；

训练/确定模块520，用于对分配的模型进行训练，并确定模型的性能数据以及反馈所述性能数据，以使主节点基于每个从节点反馈的模型的性能数据确定每种模型的最优配置参数；

确定模块530，用于将目标数据集输入到对应的配置有最优配置参数的模型中，以确定模型的性能数据，并反馈给所述主节点，以使主节点根据每个从节点反馈的每种模型的性能数据，确定与所述目标数据集最匹配的，且配置有最优配置参数的模型。

可选的，确定模块530，用于将所述目标数据集输入到对应的配置有最优配置参数的模型中，得到输出数据；

基于所述输出数据以及所述目标数据集的标准数据计算AUC值。

图6是本发明实施例提供的一种设备结构示意图，如图6所示，该设备包括：

一个或多个处理器610，图6中以一个处理器610为例；

存储器620；

所述设备还可以包括：输入装置630和输出装置640。

所述设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种数据集匹配的模型确定方法对应的程序指令/模块(例如，附图4所示的分组模块410、第一控制模块420、第一确定模块430、第二控制模块440和第二确定模块450，或者附图5所示的配置模块510、训练/确定模块520和确定模块530)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种数据集匹配的模型确定方法，即：

针对每种模型，将模型的配置参数进行分组，将每个分组的配置参数分配给对应的从节点，以使每个从节点根据分组的配置参数对模型进行配置；

针对每种配置了不同分组的配置参数的多个模型，控制至少两个从节点对所述多个模型进行训练，并控制从节点确定每个模型的性能数据以及反馈所述性能数据；

接收每个从节点反馈的模型的性能数据，并基于所述性能数据确定每种模型的最优配置参数；

控制至少两个从节点将目标数据集输入到配置有最优配置参数的每种模型中，以确定每种模型的性能数据；

根据所述至少两个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型。

或者；

接收主节点发送的模型分组的配置参数，并根据分组的配置参数对模型进行配置；

对分配的模型进行训练，并确定模型的性能数据以及反馈所述性能数据，以使主节点基于每个从节点反馈的模型的性能数据确定每种模型的最优配置参数；

将目标数据集输入到对应的配置有最优配置参数的模型中，以确定模型的性能数据，并反馈给所述主节点，以使主节点根据每个从节点反馈的每种模型的性能数据，确定与所述目标数据集最匹配的，且配置有最优配置参数的模型。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括输出接口等。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种数据集匹配的模型确定方法：

或者；

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据集匹配的模型确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述主节点控制至少两个从节点对所述多个模型进行训练；

3.根据权利要求1所述的方法，其特征在于，

所述主节点根据每个从节点反馈的每种模型的性能数据，确定与目标数据集最匹配的，且配置有最优配置参数的模型，包括：

所述主节点根据每个从节点反馈的AUC值，将最大AUC值对应的模型作为与目标数据集最匹配的，且配置有最优配置参数的模型。

4.根据权利要求2所述的方法，其特征在于，还包括：从全数据集中进行随机抽样，得到第一数据集。

5.一种数据集匹配的模型确定方法，其特征在于，包括：

针对每种模型，主节点将模型的配置参数进行分组，从节点接收主节点发送的每个分组的配置参数，并根据分组的配置参数对模型进行配置；

6.根据权利要求5所述的方法，其特征在于，所述从节点将目标数据集输入到对应的配置有最优配置参数的模型中，以确定模型的性能数据，包括：

所述从节点将所述目标数据集输入到对应的配置有最优配置参数的模型中，得到输出数据；

7.一种数据集匹配的模型确定方法，其特征在于，包括：

所述从节点根据分组的配置参数对模型进行配置；

所述主节点将目标数据集分配给至少两个从节点；

8.一种数据集匹配的模型确定装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4任一项所述的一种数据集匹配的模型确定方法，或者权利要求5或6所述的一种数据集匹配的模型确定方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4任一项所述的一种数据集匹配的模型确定方法，或者权利要求5或6所述的一种数据集匹配的模型确定方法。