CN111652380A

CN111652380A - 针对机器学习算法进行算法参数调优的方法及系统

Info

Publication number: CN111652380A
Application number: CN202010496368.7A
Authority: CN
Inventors: 戴文渊; 陈雨强; 杨强; 张舒羽; 栾淑君; 刘守湘
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2020-09-11
Anticipated expiration: 2037-10-31
Also published as: CN107844837B; CN111652380B; CN107844837A

Abstract

提供一种针对机器学习算法进行算法参数调优的方法及系统。所述方法包括：(A)确定用于训练机器学习模型的机器学习算法；(B)向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值；(C)接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；(D)基于获取的调参配置项来生成多组候选算法参数值；(E)分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；(F)评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

Description

针对机器学习算法进行算法参数调优的方法及系统

本申请是申请日为2017年10月31日、申请号为201711048805.3、题为“针对机器学习算法进行算法参数调优的方法及系统”的专利申请的分案申请。

技术领域

本发明总体说来涉及人工智能领域，更具体地讲，涉及一种针对机器学习算法进行算法参数调优的方法及系统。

背景技术

现阶段，训练机器学习模型的基本过程主要包括：

1、导入包含历史数据记录的数据集(例如，数据表)；

2、完成特征工程，其中，通过对数据集中的数据记录的属性信息进行各种处理，以得到各个特征(例如，可包括组合特征)，这些特征构成的特征向量可作为机器学习样本；

3、训练模型，其中，按照设置的机器学习算法(例如，逻辑回归算法、决策树算法、神经网络算法等)，基于经过特征工程所得到的机器学习样本来学习出模型。这里，机器学习算法的算法参数对学习出的模型的优劣具有显著影响。

在现有的机器学习平台上，可采用基于图形界面的交互方式来完成机器学习模型训练流程，而不需要用户亲自编写程序代码。然而，在训练模型环节，却往往是将人为设定的算法参数值手动地输入到平台系统中。也就是说，用户需要预先进行算法参数调优，而无法借助平台来有效地实现算法参数自动调优。

然而，算法参数调优往往比较复杂，通常需要人为的一个一个调优，所以算法参数调优是一件比较费时费力的事情；并且，想要得到使模型效果较好的算法参数值，需要理解机器学习内部原理，知道每个算法参数的含义、影响范围以及算法参数之间的相互影响关系等，技术门槛较高，且需要用户进行不断的尝试，极大地影响了用户训练模型时的效率和体验。

发明内容

本发明的示例性实施例在于提供一种针对机器学习算法进行算法参数调优的方法及系统，以解决现有技术存在的不能便捷地在机器学习系统中针对用于训练机器学习模型的机器学习算法进行算法参数自动调优的问题。

根据本发明的示例性实施例，提供一种针对机器学习算法进行算法参数调优的方法，包括：(A)确定用于训练机器学习模型的机器学习算法；(B)向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值；(C)接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；(D)基于获取的调参配置项来生成多组候选算法参数值；(E)分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；(F)评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

可选地，所述方法还包括：(G)向用户显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果。

可选地，所述方法还包括：(H)直接将所述机器学习算法的待调算法参数的算法参数值设置为效果最好的机器学习模型所对应的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

可选地，所述调参配置项包括以下项之中的至少一项：初始值配置项，用于指定待调算法参数的初始值，使得在步骤(D)中基于指定的待调算法参数的初始值来生成待调算法参数的至少一个候选算法参数值；取值范围配置项，用于指定待调算法参数的取值范围，使得在步骤(D)中基于指定的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值；调参方法配置项，用于指定生成多组候选算法参数值的方法，使得在步骤(D)中按照指定的方法基于每个待调算法参数的至少一个候选算法参数值来生成多组候选算法参数值。

可选地，在步骤(E)中，并行地训练与每组候选算法参数值对应的机器学习模型，其中，在并行地训练与每组候选算法参数值对应的机器学习模型时，由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数具有键值对的形式，所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对。

可选地，在步骤(E)中，由多个计算装置并行地训练与每组候选算法参数值对应的机器学习模型，其中，在并行地训练与每组候选算法参数值对应的机器学习模型时，由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数服务器包括至少一个服务器端和多个客户端，其中，客户端与计算装置一一对应，并且，对应的客户端和计算装置集成为一体，其中，所述至少一个服务器端用于保存与每组候选算法参数值对应的机器学习模型的参数；每个客户端用于与一个或多个服务器端之间传送在至少一组候选算法参数值下的所述机器学习算法所涉及的参数的参数操作指令，其中，与所述每个客户端对应的计算装置被配置为分别在所述至少一组候选算法参数值下，按照所述机器学习算法来训练机器学习模型，其中，在所述参数操作指令中，相同键被压缩和/或合并。

可选地，在步骤(E)中，在每组候选算法参数值下，按照所述机器学习算法来执行同样的关于机器学习模型训练的数据流式计算，其中，通过合并各个数据流式计算之间的相同处理步骤来执行数据流式计算。

可选地，所述方法还包括：(I)将所述机器学习算法的待调算法参数的算法参数值设置为用户从显示的多组候选算法参数值中选出的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

可选地，所述方法还包括：(J)将效果最好的机器学习模型所对应的一组候选算法参数值以配置文件的形式进行保存。

可选地，所述方法还包括：(K)将用户从显示的多组候选算法参数值中选出的一组候选算法参数值以配置文件的形式进行保存。

根据本发明的另一示例性实施例，提供一种针对机器学习算法进行算法参数调优的系统，包括：算法确定装置，用于确定用于训练机器学习模型的机器学习算法；显示装置，用于向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值；配置项获取装置，用于接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；算法参数值生成装置，用于基于获取的调参配置项来生成多组候选算法参数值；至少一个计算装置，用于分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；评估装置，用于评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

可选地，显示装置还向用户显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果。

可选地，所述系统还包括：应用装置，用于直接将所述机器学习算法的待调算法参数的算法参数值设置为效果最好的机器学习模型所对应的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

可选地，所述调参配置项包括以下项之中的至少一项：初始值配置项，用于指定待调算法参数的初始值，使得算法参数值生成装置基于指定的待调算法参数的初始值来生成待调算法参数的至少一个候选算法参数值；取值范围配置项，用于指定待调算法参数的取值范围，使得算法参数值生成装置基于指定的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值；调参方法配置项，用于指定生成多组候选算法参数值的方法，使得算法参数值生成装置按照指定的方法基于每个待调算法参数的至少一个候选算法参数值来生成多组候选算法参数值。

可选地，所述至少一个计算装置并行地训练与每组候选算法参数值对应的机器学习模型，其中，在所述至少一个计算装置并行地训练与每组候选算法参数值对应的机器学习模型时，由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数具有键值对的形式，所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对。

可选地，所述系统包括多个计算装置，其中，所述多个计算装置并行地训练与每组候选算法参数值对应的机器学习模型，其中，在所述多个计算装置并行地训练与每组候选算法参数值对应的机器学习模型时，由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数服务器包括至少一个服务器端和多个客户端，其中，客户端与计算装置一一对应，并且，对应的客户端和计算装置集成为一体，其中，所述至少一个服务器端用于保存与每组候选算法参数值对应的机器学习模型的参数；每个客户端用于与一个或多个服务器端之间传送在至少一组候选算法参数值下的所述机器学习算法所涉及的参数的参数操作指令，其中，与所述每个客户端对应的计算装置被配置为分别在所述至少一组候选算法参数值下，按照所述机器学习算法来训练机器学习模型，其中，在所述参数操作指令中，相同键被压缩和/或合并。

可选地，所述至少一个计算装置在每组候选算法参数值下，按照所述机器学习算法来执行同样的关于机器学习模型训练的数据流式计算，其中，通过合并各个数据流式计算之间的相同处理步骤来执行数据流式计算。

可选地，所述系统还包括：应用装置，用于将所述机器学习算法的待调算法参数的算法参数值设置为用户从显示的多组候选算法参数值中选出的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

可选地，所述系统还包括：保存装置，用于将效果最好的机器学习模型所对应的一组候选算法参数值以配置文件的形式进行保存。

可选地，所述系统还包括：保存装置，用于将用户从显示的多组候选算法参数值中选出的一组候选算法参数值以配置文件的形式进行保存。

根据本发明的另一示例性实施例，提供一种用于针对机器学习算法进行算法参数调优的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行如上所述的针对机器学习算法进行算法参数调优的方法的计算机程序。

根据本发明的另一示例性实施例，提供一种用于针对机器学习算法进行算法参数调优的计算机，包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行如上所述的针对机器学习算法进行算法参数调优的方法。

根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法及系统，提供了一种便捷高效且交互友好的算法参数调优过程，用户只需通过交互界面来设置用于限定如何生成多组候选算法参数值的相关配置项，即可实现自动算法参数调优，既提升了用户体验，也提升了机器学习模型的效果。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本发明示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法的流程图；

图2示出根据本发明示例性实施例的保存机器学习模型的参数的示例；

图3示出根据本发明的另一示例性实施例的针对机器学习算法进行算法参数调优的方法的流程图；

图4和图5示出根据本发明示例性实施例的用于设置机器学习算法的调参配置项的图形界面的示例；

图6示出根据本发明示例性实施例的算法参数调优分析报告的示例；

图7示出根据本发明示例性实施例的用于针对机器学习算法进行算法参数调优的DAG图的示例；

图8示出根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统的框图。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

这里，机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。不论是训练机器学习模型，还是利用训练好的机器学习模型进行预测，数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外，还应注意，在训练和应用模型的过程中，还可结合统计算法等其他手段。

图1示出根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法的流程图。这里，作为示例，所述方法可通过计算机程序来执行，也可由专门的针对机器学习算法进行算法参数调优的系统或计算机来执行。

在步骤S10中，确定用于训练机器学习模型的机器学习算法。

作为示例，所述机器学习算法可以是FTRL(Follow the Regularized Leader)优化算法等逻辑回归算法，也可以是其他机器学习算法，本发明对此不作限制。

作为示例，可根据用户在用于设置用于训练机器学习模型的机器学习算法的图形界面上执行的输入操作，来确定用于训练机器学习模型的机器学习算法。

在步骤S20中，向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值。根据本发明的示例性实施例，用于算法参数调优的多组候选算法参数值可基于用户设置的调参配置项来生成。

应该理解，不同机器学习算法的待调算法参数可以不同，也可以相同。作为示例，当所述机器学习算法是FTRL优化算法时，所述机器学习算法的待调算法参数可包括：最大训练轮数、学习率、L1正则项系数、L2正则项系数。

在步骤S30中，接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项。

作为示例，向用户提供的图形界面可包括每个调参配置项对应的输入控件以选择和/或编辑内容，从而可通过接收用户的选择操作和/或编辑操作来获取用户所设置的调参配置项。

在步骤S40中，基于获取的调参配置项来生成多组候选算法参数值。

作为示例，调参配置项可包括以下项之中的至少一项：初始值配置项、取值范围配置项、调参方法配置项。应该理解，调参配置项也可包括其他的用于限定如何生成多组候选算法参数值的配置项。

具体说来，初始值配置项用于指定待调算法参数的初始值，使得在步骤S40中基于指定的待调算法参数的初始值来生成待调算法参数的至少一个候选算法参数值。

取值范围配置项用于指定待调算法参数的取值范围，使得在步骤S40中基于指定的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值。

作为示例，取值范围配置项可进一步包括采样范围配置项和采样次数配置项。具体地，采样范围配置项用于指定进行采样的数值范围，采样次数配置项用于指定进行采样的次数，使得在步骤S40中在指定的数值范围内采样指定的次数，并将采集到的数值作为待调算法参数的候选算法参数值。

作为另一示例，取值范围配置项可进一步包括具体取值配置项。具体地，具体取值配置项用于直接指定待调算法参数的具体取值，使得在步骤S40中将指定的待调算法参数的具体取值作为待调算法参数的候选算法参数值。

作为示例，取值范围配置项可既包括采样范围配置项和采样次数配置项，也包括具体取值配置项，可根据用户在图形界面上执行的输入操作来获取用户设置的采样范围配置项和采样次数配置项，或者用户设置的具体取值配置项。

此外，应该理解，如果调参配置项包括初始值配置项和取值范围配置项，则在步骤S40中，可基于初始值配置项指定的待调算法参数的初始值和取值范围配置项指定的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值。

调参方法配置项用于指定生成多组候选算法参数值的方法，使得在步骤S40中按照指定的方法基于每个待调算法参数的至少一个候选算法参数值来生成多组候选算法参数值。

作为示例，所述生成多组候选算法参数值的方法可以是基于所有待调算法参数的所有候选算法参数值，随机生成N组候选算法参数值的方法，其中，每组候选算法参数值包括每个待调算法参数的一个候选算法参数值，其中，N为大于0的整数，N的值可通过调参方法配置项来指定，也可为预先设置好的。这里，例如，所述生成多组候选算法参数值的方法可以是Random Search(随机搜索)方法。

作为另一示例，所述生成多组候选算法参数值的方法可以是基于所有待调算法参数的所有候选算法参数值，生成包括每个待调算法参数的一个候选算法参数值的所有不同组合的方法。这里，例如，所述生成多组候选算法参数值的方法可以是Grid Search(网格搜索)方法。

然而，应注意，以上示例仅用于例示和解释本发明的示例性实施例，而本发明的示例性实施例并不必然需要用户来配置上述项目，例如，可基于预先设置好的待调算法参数的初始值来生成待调算法参数的至少一个候选算法参数值；或者，可基于预先设置好的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值；或者，可按照预先设置好的用于生成多组候选算法参数值的方法基于每个待调算法参数的至少一个候选算法参数值来生成多组候选算法参数值。

在步骤S50中，分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型。具体说来，分别在待调算法参数的算法参数值为每组候选算法参数值的情况下执行机器学习算法，以分别得到与每组候选算法参数值对应的机器学习模型。

作为示例，在步骤S50中，可并行地训练与每组候选算法参数值对应的机器学习模型，以提高算法参数调优的效率，并充分地利用计算资源。

作为一个示例，在并行地训练与每组候选算法参数值对应的机器学习模型时，可由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数具有键值对(key-value)的形式，所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对，从而避免了在同时存储与每组候选算法参数值对应的机器学习模型的参数时存储开销呈线性增长。

具体说来，与每组候选算法参数值对应的机器学习模型会对应一套键值对，在这套键值对中，各个键可与模型特征相关，每个键对应各自的值。并且，与不同组候选算法参数值对应的机器学习模型所对应的键值对具有完全相同的键。如图2所示，与第1组候选算法参数值对应的机器学习模型对应一套键值对，其中包括键k1、k2、k3、…、km，分别对应值v11、v12、v13、…、v1m；与第2组候选算法参数值对应的机器学习模型对应一套键值对，其中包括键k1、k2、k3、…、km，分别对应值v21、v22、v23、…、v2m；与第n组候选算法参数值对应的机器学习模型对应一套键值对，其中包括键k1、k2、k3、…、km，分别对应值vn1、vn2、vn3、…、vnm，其中，m为大于1的整数，n为大于1的整数。可以看出，n套键值对之中的键值对具有完全相同的键，因此，根据本发明的示例性实施例，参数服务器可按照单个键对应于多个值的形式来保存具有相同键的键值对，也即，将具有相同键的对应于不同机器学习模型的键值对合并保存为单个键对应于多个值的形式，例如，保存为键k1对应于值v11，v21，…，vn1的形式。

作为另一示例，可由多个计算装置并行地训练与每组候选算法参数值对应的机器学习模型，其中，在并行地训练与每组候选算法参数值对应的机器学习模型时，可由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，所述参数服务器可具有分布式结构，其中，所述参数服务器可包括至少一个服务器端和多个客户端，其中，客户端与计算装置一一对应，并且，对应的客户端和计算装置集成为一体，其中，所述至少一个服务器端用于保存与每组候选算法参数值对应的机器学习模型的参数；每个客户端用于与一个或多个服务器端之间传送在至少一组候选算法参数值下的所述机器学习算法所涉及的参数(即，与所述至少一组候选算法参数值对应的机器学习模型的参数)的参数操作指令，其中，与所述每个客户端对应的计算装置被配置为分别在所述至少一组候选算法参数值下，按照所述机器学习算法来训练机器学习模型，其中，在所述参数操作指令中，相同键被压缩和/或合并。根据本发明的示例性实施例，能够有效减少客户端与服务器端之间传送参数操作指令的网络开销。

作为示例，所述每个客户端可从对应的计算装置接收在所述至少一组候选算法参数值下的所述机器学习算法所涉及的参数的参数操作请求，针对保存所述参数的一个或多个服务器端分别生成与所述参数操作请求相应的参数操作指令，并将生成的参数操作指令分别传送到所述一个或多个服务器端。进一步地，作为示例，所述每个客户端可从所述一个或多个服务器端接收与所述参数的参数操作结果相应的参数操作指令，基于接收到的参数操作指令生成与所述参数操作请求之中的每一个对应的参数操作结果，并将生成的参数操作结果传送到对应的计算装置。例如，所述参数操作请求可包括拉取(pull)操作请求和/或推送(push)操作请求。

根据本发明的示例性实施例，每个计算装置在训练至少一个机器学习模型的过程中会向其对应的客户端请求获取和/或更新所述至少一个机器学习模型的参数，这里，所述参数会分布地保存在一个或多个服务器端。为此，客户端在接收到任何参数操作请求之后，会将其拆分为与各个服务器端对应的参数操作请求部分，并将拆分后的各个部分保存在相应的队列中。例如，可针对每一个服务器端设置相应的队列。作为示例，客户端每次生成参数操作指令所基于的参数操作请求可以是队列中缓存的各个部分，即，从该客户端上一次生成参数操作指令之后，到本次生成参数操作指令之前，从对应的计算装置接收到的针对相应服务器端的至少一个参数操作请求部分。由于基于各个队列来分别生成与各个服务器端对应的参数操作指令，因此，考虑到每个队列中缓存有与至少一个机器学习模型相关的参数操作请求，相应生成的参数操作指令可基于相同或不同类型的参数操作请求，这些参数操作请求可针对相同或不同的机器学习模型。

作为另一示例，可在每组候选算法参数值下，按照所述机器学习算法来执行同样的关于机器学习模型训练的数据流式计算，其中，通过合并各个数据流式计算之间的相同处理步骤来执行数据流式计算，从而减少实际的计算量和读写量，带来性能提升。

作为示例，可从上游开始对各个数据流式计算之间的相同处理步骤进行合并，也即，合并各个数据流式计算之间的共同上游处理步骤。

返回图1，在步骤S60中，评估训练出的与每组候选算法参数值对应的机器学习模型的效果。应该理解，与每组候选算法参数值对应的机器学习模型的效果的优劣能够反映每组候选算法参数值的优劣。

作为示例，可根据与每组候选算法参数值对应的机器学习模型关于评价指标的评价值来评估与每组候选算法参数值对应的机器学习模型的效果。这里，所述评价指标可以是用户通过图形界面设置的评价指标配置项所指定的评价指标，也可以是预先设置好的评价指标。

作为示例，所述评价指标可以是各种用于衡量机器学习模型的效果的模型评价指标。例如，所述评价指标可以是AUC(ROC(受试者工作特征，Receiver OperatingCharacteristic)曲线下的面积，Area Under ROC Curve)、MAE(平均绝对误差，MeanAbsolute Error)或对数损失函数(logloss)等。

作为示例，在步骤S60之后，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法还可包括：直接将所述机器学习算法的待调算法参数的算法参数值设置为效果最好的机器学习模型所对应的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。这里，效果最好的机器学习模型所对应的一组候选算法参数值即为通过算法参数自动调优所得到的最优的一组算法参数值。

作为示例，在步骤S60之后，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法还可包括：将效果最好的机器学习模型所对应的一组候选算法参数值以配置文件的形式进行保存，以便在执行后续的训练机器学习模型的步骤时可根据用户需求直接调用，或者在进行其他机器学习流程时可根据用户需求直接调用。

图3示出根据本发明的另一示例性实施例的针对机器学习算法进行算法参数调优的方法的流程图。如图3所示，根据本发明的另一示例性实施例的针对机器学习算法进行算法参数调优的方法除包括图1所示的步骤S10、步骤S20、步骤S30、步骤S40、步骤S50和步骤S60之外，还可包括步骤S70。步骤S10到步骤S60可参照根据图1描述的具体实施方式来实现，在此不再赘述。

在步骤S70中，向用户显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果。这里，可按照任何有效的形式来显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果。

作为示例，根据本发明的另一示例性实施例的针对机器学习算法进行算法参数调优的方法还可包括：将所述机器学习算法的待调算法参数的算法参数值设置为用户从显示的多组候选算法参数值中选出的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

作为另一示例，根据本发明的另一示例性实施例的针对机器学习算法进行算法参数调优的方法还可包括：将用户从显示的多组候选算法参数值中选出的一组候选算法参数值以配置文件的形式进行保存，以便在执行后续的训练机器学习模型的步骤时可根据用户需求直接调用，或者在进行其他机器学习流程时可根据用户需求直接调用。

作为示例，根据本发明的另一示例性实施例的针对机器学习算法进行算法参数调优的方法还可包括：将所述机器学习算法的待调算法参数的算法参数值设置为用户从显示的多组候选算法参数值中选出的一组候选算法参数值，将设置的算法参数值应用于后续的训练机器学习模型的步骤中，并将选出的一组候选算法参数值以配置文件的形式进行保存。

下面结合图4和图5来描述根据本发明示例性实施例的由用户通过图像界面来设置调参配置项的示例。图4和图5示出根据本发明示例性实施例的用于设置机器学习算法的调参配置项的图形界面的示例。应理解，本发明的示例性实施例在设置各个调参配置项时的具体交互细节不限于图4和图5所示的示例。

如图4和图5所示，用于设置调参配置项的图形界面可显示分别与初始值配置项、取值范围配置项、以及调参方法配置项对应的内容选项和/或内容输入框。具体说来，可根据用户在下拉菜单中的选择操作来设置调参方法配置项，使得用户选择的内容被指定为调参方法。例如，如图4所示，用户选择“Random Search”这一调参方法选项，使得“RandomSearch”被指定为调参方法，并且，还可向用户显示用于设置“调参次数”的内容输入框，并根据用户对该内容输入框的编辑操作(例如，如图4所示输入数值“6”)来指定利用“RandomSearch”所生成的候选算法参数值组合的数量(例如，指定生成6组候选算法参数值)。

图形界面还可显示与机器学习算法所包括的待调算法参数对应的初始值配置项和/或取值范围配置项。如图4所示，这里，用于训练机器学习模型的机器学习算法是FTRL优化算法，FTRL优化算法的待调算法参数可包括：最大训练轮数、学习率、L1正则项系数、L2正则项系数，相应地，图形界面可显示与上述待调算法参数分别对应的用于设置初始值的内容输入框，从而可根据用户对该内容输入框的编辑操作(例如，如图4所示分别在对应的内容输入框内输入数值“4”、“0.5”、“0”、“0”)来实现对初始值配置项的设置。

可根据用户选中“参数范围设置”选项的输入操作，弹出用于设置取值范围配置项的图形界面。如图5所示，弹出的图形界面可显示与各个待调算法参数分别对应的取值范围配置项。针对每个待调算法参数，用户可选择“指定范围”选项或“数值枚举”选项，如果用户选中“指定范围”选项，则可向用户显示用于设置采样范围配置项和采样次数配置项的内容输入框，并可根据用户对该内容输入框的输入操作来设置该内容输入框所对应的待调算法参数的取值范围；如果用户选中“数值枚举”选项，则可向用户显示用于设置具体取值配置项的内容输入框，并可根据用户对该内容输入框的输入操作来设置该内容输入框所对应的待调算法参数的取值范围。例如，如图5所示，针对最大训练轮数这一待调参数，可根据用户对“采样范围”内容输入框的编辑操作(输入数值“1和10”)，对“采样次数”内容输入框的编辑操作(输入数值“1”)来将最大训练轮数的取值范围指定为在数值范围1-10内采样1次所采集到的数值。针对学习率这一待调参数，可根据用户对“数值枚举”内容输入框的编辑操作(输入数值“2”、“4”、“8”)来将学习率的取值范围指定为数值“2”、“4”、“8”。

下面结合图6来描述根据本发明示例性实施例的向用户显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果的示例。在图6的示例中，生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果被显示为算法参数调优分析报告的形式。

如图6所示，分析报告中示出生成的6组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果(即，关于评价指标“AUC”的评价值)，并且，可按照所对应的机器学习模型的效果的优劣，来排列6组候选算法参数值。此外，分析报告中还可示出算法参数自动调优所使用的调参方法为“Random Search”，调参次数为“6”，待调算法参数最大训练轮数、学习率、L1正则项系数、L2正则项系数的初始值分别为“4”、“0.5”、“0”、“0”。

进一步地，作为示例，用户可从图6示出的算法参数调优分析报告中选出一组候选算法参数值，以应用于后续的机器学习步骤和/或以配置文件的形式进行保存。

根据本发明的示例性实施例，可通过有向无环图(DAG图)的形式来执行机器学习流程，该机器学习流程可涵盖用于进行机器学习模型训练、测试或预估的全部或部分步骤。例如，可针对算法参数自动调优来建立包括历史数据导入步骤、数据拆分步骤、特征抽取步骤、自动调参步骤的DAG图。也即，上述各个步骤可作为DAG图中的节点而被执行。

图7示出根据本发明示例性实施例的针对机器学习算法进行算法参数调优的DAG图的示例。

参照图7，第一步：建立数据导入节点。例如，如图7所示，可响应于用户操作对数据导入节点进行设置以将名称为“bank_jin”的银行业务数据表导入机器学习平台中，其中，该数据表中可包含多条历史数据记录。

第二步：建立数据拆分节点，并将数据导入节点连接到数据拆分节点，以将上述导入的数据表拆分为训练集和验证集，其中，训练集中的数据记录用于转换为机器学习样本以学习出模型，而验证集中的数据记录用于转换为测试样本以验证学习出的模型的效果。可响应于用户操作对数据拆分节点进行设置以按照设置的方式将上述导入的数据表拆分为训练集和验证集。

第三步：建立两个特征抽取节点，并将数据拆分节点分别连接特到这两个特征抽取节点，以对数据拆分节点输出的训练集和验证集分别进行特征抽取，例如，默认数据拆分节点左侧输出的是训练集，右侧输出的是验证集。可基于用户在特征抽取节点中设置的特征配置或编写的代码对训练集和验证集进行特征抽取。应理解，对于机器学习样本和测试样本而言，两者的特征抽取方式是对应一致的。用户可将对左侧特征抽取节点配置的特征抽取方式直接应用于对右侧特征抽取节点的特征抽取，或者，平台可将二者设为自动同步设置。

第四步：建立自动调参节点，并将两个特征抽取节点分别连接到自动调参节点。可响应于用户操作对自动调参节点进行设置，例如，当接收到用户点击“自动调参”节点的输入操作时，可向用户提供如图4和图5所示的用于设置调参配置项的图形界面，以便于用户通过所述图形界面来设置调参配置项。

在建立包括上述步骤的DAG图之后，可根据用户的指示来运行整个DAG图。在运行过程中，机器学习平台会根据用户设置的配置项来自动生成多组候选算法参数值；分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；并评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

此外，作为示例，在自动调参节点之后，也可建立模型训练节点，并将自动调参节点连接到模型训练节点，以将模型训练节点所使用的机器学习算法的待调算法参数的算法参数值直接设置为效果最好的机器学习模型所对应的一组候选算法参数值。相应地，可响应于用户操作对模型训练节点进行设置以按照设置的方式来训练模型。

图8示出根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统的框图。如图8所示，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统包括：算法确定装置10、显示装置20、配置项获取装置30、算法参数值生成装置40、至少一个计算装置50、评估装置60。

具体说来，算法确定装置10用于确定用于训练机器学习模型的机器学习算法。

显示装置20用于向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值。

配置项获取装置30用于接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项。

算法参数值生成装置40用于基于获取的调参配置项来生成多组候选算法参数值。

作为示例，所述调参配置项可包括以下项之中的至少一项：初始值配置项，用于指定待调算法参数的初始值，使得算法参数值生成装置40基于指定的待调算法参数的初始值来生成待调算法参数的至少一个候选算法参数值；取值范围配置项，用于指定待调算法参数的取值范围，使得算法参数值生成装置40基于指定的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值；调参方法配置项，用于指定生成多组候选算法参数值的方法，使得算法参数值生成装置40按照指定的方法基于每个待调算法参数的至少一个候选算法参数值来生成多组候选算法参数值。

所述至少一个计算装置50用于分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型。

作为示例，所述至少一个计算装置50可并行地训练与每组候选算法参数值对应的机器学习模型，其中，在所述至少一个计算装置50并行地训练与每组候选算法参数值对应的机器学习模型时，可由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数具有键值对的形式，所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对。

作为另一示例，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统可包括多个计算装置50，其中，所述多个计算装置50可并行地训练与每组候选算法参数值对应的机器学习模型，其中，在所述多个计算装置50并行地训练与每组候选算法参数值对应的机器学习模型时，可由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数服务器包括至少一个服务器端和多个客户端，其中，客户端与计算装置50一一对应，并且，对应的客户端和计算装置50集成为一体，其中，所述至少一个服务器端用于保存与每组候选算法参数值对应的机器学习模型的参数；每个客户端用于与一个或多个服务器端之间传送在至少一组候选算法参数值下的所述机器学习算法所涉及的参数的参数操作指令，其中，与所述每个客户端对应的计算装置50被配置为分别在所述至少一组候选算法参数值下，按照所述机器学习算法来训练机器学习模型，其中，在所述参数操作指令中，相同键被压缩和/或合并。

作为另一示例，所述至少一个计算装置50可在每组候选算法参数值下，按照所述机器学习算法来执行同样的关于机器学习模型训练的数据流式计算，其中，通过合并各个数据流式计算之间的相同处理步骤来执行数据流式计算。

评估装置60用于评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

作为示例，显示装置20还可向用户显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果。

作为示例，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统还可包括：应用装置(未示出)。应用装置用于直接将所述机器学习算法的待调算法参数的算法参数值设置为效果最好的机器学习模型所对应的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中；或者，用于将所述机器学习算法的待调算法参数的算法参数值设置为用户从显示的多组候选算法参数值中选出的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

作为示例，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统还可包括：保存装置(未示出)。保存装置用于将效果最好的机器学习模型所对应的一组候选算法参数值以配置文件的形式进行保存；或者，用于将用户从显示的多组候选算法参数值中选出的一组候选算法参数值以配置文件的形式进行保存。

应该理解，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统的具体实现方式可参照结合图1到图7描述的相关具体实现方式来实现，在此不再赘述。

根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

应理解，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法可通过记录在计算可读介质上的程序来实现，例如，根据本发明的示例性实施例，可提供一种用于针对机器学习算法进行算法参数调优的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：(A)确定用于训练机器学习模型的机器学习算法；(B)向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值；(C)接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；(D)基于获取的调参配置项来生成多组候选算法参数值；(E)分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；(F)评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照图1到图7进行了描述，这里为了避免重复将不再进行赘述。

应注意，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，根据本发明示例性实施例的针对机器学习算法进行算法参数调优的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本发明的示例性实施例还可以实现为计算机，该计算机包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行针对机器学习算法进行算法参数调优的方法。

具体说来，所述计算机可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算机可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算机并非必须是单个的装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算机还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算机中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算机还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算机的所有组件可经由总线和/或网络而彼此连接。

根据本发明示例性实施例的针对机器学习算法进行算法参数调优的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

例如，如上所述，根据本发明示例性实施例的用于针对机器学习算法进行算法参数调优的计算机可包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)确定用于训练机器学习模型的机器学习算法；(B)向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值；(C)接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；(D)基于获取的调参配置项来生成多组候选算法参数值；(E)分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；(F)评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

以上描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种针对机器学习算法进行算法参数调优的方法，包括：

(A)确定用于训练机器学习模型的机器学习算法；

(B)向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值；

(C)接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；

(D)基于获取的调参配置项来生成多组候选算法参数值；

(E)分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；

(F)评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

2.根据权利要求1所述的方法，还包括：

(G)向用户显示生成的多组候选算法参数值以及训练出的与每组候选算法参数值对应的机器学习模型的效果。

3.根据权利要求1所述的方法，还包括：

(H)直接将所述机器学习算法的待调算法参数的算法参数值设置为效果最好的机器学习模型所对应的一组候选算法参数值，并将设置的算法参数值应用于后续的训练机器学习模型的步骤中。

4.根据权利要求1所述的方法，其中，所述调参配置项包括以下项之中的至少一项：初始值配置项，用于指定待调算法参数的初始值，使得在步骤(D)中基于指定的待调算法参数的初始值来生成待调算法参数的至少一个候选算法参数值；取值范围配置项，用于指定待调算法参数的取值范围，使得在步骤(D)中基于指定的待调算法参数的取值范围来生成待调算法参数的至少一个候选算法参数值；调参方法配置项，用于指定生成多组候选算法参数值的方法，使得在步骤(D)中按照指定的方法基于每个待调算法参数的至少一个候选算法参数值来生成多组候选算法参数值。

5.根据权利要求1所述的方法，其中，在步骤(E)中，并行地训练与每组候选算法参数值对应的机器学习模型，

其中，在并行地训练与每组候选算法参数值对应的机器学习模型时，由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数具有键值对的形式，所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对。

6.根据权利要求1所述的方法，其中，在步骤(E)中，由多个计算装置并行地训练与每组候选算法参数值对应的机器学习模型，

其中，在并行地训练与每组候选算法参数值对应的机器学习模型时，由参数服务器维护与每组候选算法参数值对应的机器学习模型的参数，其中，所述参数服务器包括至少一个服务器端和多个客户端，其中，客户端与计算装置一一对应，并且，对应的客户端和计算装置集成为一体，其中，所述至少一个服务器端用于保存与每组候选算法参数值对应的机器学习模型的参数；每个客户端用于与一个或多个服务器端之间传送在至少一组候选算法参数值下的所述机器学习算法所涉及的参数的参数操作指令，其中，与所述每个客户端对应的计算装置被配置为分别在所述至少一组候选算法参数值下，按照所述机器学习算法来训练机器学习模型，其中，在所述参数操作指令中，相同键被压缩和/或合并。

7.根据权利要求1所述的方法，其中，在步骤(E)中，在每组候选算法参数值下，按照所述机器学习算法来执行同样的关于机器学习模型训练的数据流式计算，

其中，通过合并各个数据流式计算之间的相同处理步骤来执行数据流式计算。

8.一种针对机器学习算法进行算法参数调优的系统，包括：

算法确定装置，用于确定用于训练机器学习模型的机器学习算法；

显示装置，用于向用户提供用于设置所述机器学习算法的调参配置项的图形界面，其中，所述调参配置项用于限定如何生成多组候选算法参数值，其中，每组候选算法参数值包括所述机器学习算法的每个待调算法参数的一个候选算法参数值；

配置项获取装置，用于接收用户为了设置所述调参配置项而在图形界面上执行的输入操作，并根据所述输入操作来获取用户设置的调参配置项；

算法参数值生成装置，用于基于获取的调参配置项来生成多组候选算法参数值；

至少一个计算装置，用于分别在每组候选算法参数值下，按照所述机器学习算法来训练与每组候选算法参数值对应的机器学习模型；

评估装置，用于评估训练出的与每组候选算法参数值对应的机器学习模型的效果。

9.一种用于针对机器学习算法进行算法参数调优的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行如权利要求1至7任一所述的针对机器学习算法进行算法参数调优的方法的计算机程序。

10.一种用于针对机器学习算法进行算法参数调优的计算机，包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行如权利要求1至7任一所述的针对机器学习算法进行算法参数调优的方法。