CN113139332A

CN113139332A - 一种自动化模型构建方法、装置及设备

Info

Publication number: CN113139332A
Application number: CN202110349411.1A
Authority: CN
Inventors: 王伟啸; 李耀满; 赵诗林
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-20

Abstract

本发明公开了一种自动化模型构建方法、装置及设备，通过获取训练数据，提取训练数据的特征信息；从模型数据集中查找与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；基于模型训练策略确定模型训练过程信息的优化方案；根据优化方案对训练数据进行训练，得到至少一个第二模型；从而当用户输入训练数据后，可以在用户不参与的情况下，自动化地完成机器学习的完整流程，可以减少在机器学习建模过程中工程师消耗的时间和精力，且降低用户对人工智能的使用门槛。

Description

一种自动化模型构建方法、装置及设备

技术领域

本申请涉及数据建模技术领域，尤其涉及一种自动化模型构建方法、装置及设备。

背景技术

近几年来，随着人工智能(Artificial Intelligence，AI)技术的高速发展，越来越多的企业或个人将AI技术应用于生产、生活各个方面，解决实际生产、生活过程中面临的实际问题。然而，在利用AI技术解决实际问题时，需要人工智能工程师对数据及业务场景进行初步分析，人工设定机器学习建模过程的部分步骤或所有步骤，极大依赖工程师对于解决问题业务背景的了解，以及AI领域的经验，且需要不断地试错与穷举，极大消耗工程师的时间与精力。

发明内容

本发明实施例通过提供一种自动化模型构建方法、装置及设备，用以解决现有技术中在利用AI技术解决实际问题时，需要人工智能工程师对数据及业务场景进行初步分析，人工设定机器学习建模过程的部分步骤或所有步骤，极大消耗工程师的时间与精力的问题。

为了解决上述问题，第一方面，本发明实施例提供了一种自动化模型构建方法，包括：获取训练数据，提取训练数据的特征信息；从模型数据集中查找与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；基于模型训练策略确定模型训练过程信息的优化方案；根据优化方案对训练数据进行训练，得到至少一个第二模型。

可选地，模型训练过程信息包括第一模型、备选算法、子流程及对应的超参取值范围。

可选地，基于模型训练策略确定模型训练过程信息的优化方案，包括：根据模型训练策略及第一模型从备选算法、子流程及对应的超参取值范围中选取至少一个算法、至少一个子流程及对应的至少一组超参值；根据至少一个算法、至少一个子流程及对应的至少一组超参值确定模型训练过程信息的优化方案。

可选地，训练数据包括训练样本和验证样本；根据优化方案对训练数据进行训练，得到至少一个第二模型，包括：根据至少一个算法、至少一个子流程及对应的至少一组超参值对训练样本进行训练，得到至少一个第二模型。

可选地，在得到至少一个第二模型之后，自动化模型构建方法还包括：将验证样本输入至少一个第二模型，得到对应的第一输出结果；根据第一输出结果从至少一个第二模型中确定性能最好的一个第二模型；按照性能最好的第二模型的算法、子流程和对应的超参值对训练样本和验证样本进行训练，得到第三模型。

可选地，在得到第三模型之后，自动化模型构建方法还包括：获取测试数据；将测试数据输入第三模型，得到对应的第二输出结果；根据第二输出结果对第三模型进行性能评价。

可选地，在获取训练数据之后，在基于模型训练策略确定模型训练过程信息的优化方案之前，自动化模型构建方法还包括：获取用户输入的至少部分模型训练过程信息；将用户输入的至少部分模型训练过程信息与至少一个模型训练过程信息进行合并。

可选地，在得到至少一个第二模型之后，自动化模型构建方法还包括：记录至少一个第二模型对应的特征信息及模型训练过程信息。

第二方面，本发明实施例提供了一种自动化模型构建装置，包括：获取单元，用于获取训练数据，提取训练数据的特征信息；查找单元，用于从模型构建数据集中查找到与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系至少包括特征信息与模型训练过程信息；确定单元，用于基于模型训练策略确定模型训练过程信息的优化方案；训练单元，用于根据优化方案对训练数据进行训练，得到至少一个第二模型。

第三方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任意实施方式中的自动化模型构建方法。

本发明实施例提供的自动化模型构建方法、装置及设备，通过获取训练数据，提取训练数据的特征信息；从模型数据集中查找与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；基于模型训练策略确定模型训练过程信息的优化方案；根据优化方案对训练数据进行训练，得到至少一个第二模型；从而当用户输入训练数据后，可以通过训练数据的特征信息匹配到与训练数据对应的模型训练过程信息，然后基于模型训练过程信息的优化方案对训练数据进行训练，得到至少一个第二模型，从而可以在用户不参与的情况下，自动化地完成机器学习的完整流程，得到与训练数据对应的至少一个第二模型，可以减少在机器学习建模过程中工程师消耗的时间和精力，且降低用户对人工智能的使用门槛。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本发明实施例中一种自动化模型构建方法的流程示意图；

图2为本发明实施例中基于模型训练策略确定模型训练过程信息的优化方案的流程示意图；

图3为本发明实施例中另一种自动化模型构建方法的流程示意图；

图4为本发明实施例中另一种自动化模型构建方法的流程示意图；

图5为本发明实施例中另一种自动化模型构建方法的流程示意图；

图6为本发明实施例中另一种自动化模型构建方法的流程示意图；

图7为本发明实施例中另一种自动化模型构建方法的流程示意图；

图8为本发明实施例中一种自动化模型构建装置的结构示意图；

图9为本发明实施例中一种电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种自动化模型构建方法，可应用于采用人工智能技术分析数据的任何应用场景，例如，采用人工智能技术分析石化行业数据的应用场景，采用人工智能技术分析金融数据的应用场景，采用人工智能技术分析图像数据的应用场景等等。如图1所示，自动化模型构建方法包括：

S101.获取训练数据，提取训练数据的特征信息；具体地，用户可以根据生活、生产的需要选择训练数据，用于训练模型。例如，当用户需要对金融数据进行分析，进而训练数据可以选择为特定的金融数据，然后提取训练数据的特征信息。特征信息用于表征训练数据的特征，特征信息可以包括数据的行数、特征数目、离散类型数据数目、连续类型数据数目、标签的偏度和峰度等指标。

S102.从模型数据集中查找与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；具体地，可以对历史的模型训练过程信息进行记录，并记录与模型训练过程信息对应的数据特征，从而形成多个特征对应关系，得到模型数据集。当提取到训练数据的特征信息，从模型数据集中就可以查找到与特征信息对应的至少一个模型训练过程信息。模型训练过程信息为模型训练过程中记录的信息，可包括模型结构优化过程、部分有代表性的优秀模型结构、最终采用的模型结构等。

S103.基于模型训练策略确定模型训练过程信息的优化方案；具体地，模型训练策略包括贝叶斯优化。模型训练策略可以包含在模型训练过程信息中，也可以是预置的。基于选择的模型训练策略可以从模型训练过程信息中选取模型训练过程中所需的子流程、算法及超参值组成的至少一组数据，从而得到模型训练过程信息的优化方案。

S104.根据优化方案对训练数据进行训练，得到至少一个第二模型。具体地，基于模型训练过程中所需的子流程、算法及超参值组成的至少一组数据可以对训练数据进行训练，得到至少一个第二模型。

本发明实施例提供的自动化模型构建方法，通过获取训练数据，提取训练数据的特征信息；从模型数据集中查找与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；基于模型训练策略确定模型训练过程信息的优化方案；根据优化方案对训练数据进行训练，得到至少一个第二模型；从而当用户输入训练数据后，可以通过训练数据的特征信息匹配到与训练数据对应的模型训练过程信息，然后基于模型训练过程信息的优化方案对训练数据进行训练，得到至少一个第二模型，从而可以在用户不参与的情况下，自动化地完成机器学习的完整流程，得到与训练数据对应的至少一个第二模型，可以减少在机器学习建模过程中工程师消耗的时间和精力，且降低用户对人工智能的使用门槛。

在一个可选的实施例中，模型训练过程信息包括第一模型、备选算法、子流程及对应的超参取值范围。

具体地，第一模型为历史模型训练最终采用的模型结构。子流程为模型训练过程中的各个流程。备选算法为子流程对应的至少一个算法。超参取值范围为子流程对应的算法的参数的取值范围。

在本发明实施例中，通过记录模型训练过程信息中的第一模型、备选算法、子流程及对应的超参取值范围，从而在根据训练数据的特征信息匹配到模型训练过程信息后，就可以根据第一模型、备选算法、子流程及对应的超参取值范围得到训练数据的训练方案，从而实现训练数据的自动化机器学习过程。

在一个可选的实施例中，步骤S103，基于模型训练策略确定模型训练过程信息的优化方案，如图2所示，具体包括：S1031.根据模型训练策略及第一模型从备选算法、子流程及对应的超参取值范围中选取至少一个算法、至少一个子流程及对应的至少一组超参值；S1032.根据至少一个算法、至少一个子流程及对应的至少一组超参值确定模型训练过程信息的优化方案。

例如，当模型训练策略为贝叶斯优化，可以从子流程中选择至少一个子流程，然后各从子流程对应的备选算法中为各子流程选择至少一个算法，然后从超参取值范围中选择至少一组超参值，基于选择的至少一个算法、至少一个子流程及对应的至少一组超参值可以得到模型训练过程信息的优化方案。当模型训练策略为基于初始模型结构的贝叶斯优化，可以从备选算法、子流程中选择与第一模型结构的子流程、子流程的算法相同的至少一个子流程、至少一个算法，在超参取值范围中选择至少一组超参值，基于该一个算法、至少一个子流程及选择的至少一组超参值可以得到模型训练过程信息的优化方案。

在本发明实施例中，通过确定模型训练过程中的至少一个算法、至少一个子流程及对应的至少一组超参值，也即模型训练过程信息的优化方案，从而根据该至少一个算法、至少一个子流程及对应的至少一组超参值就可以实现对训练数据的训练，自动化得到训练数据对应的至少一个第二模型。

在一个可选的实施例中，训练数据包括训练样本和验证样本；步骤S104，根据优化方案对训练数据进行训练，得到至少一个第二模型，如图3所示，包括：S1041.根据至少一个算法、至少一个子流程及对应的至少一组超参值对训练样本进行训练，得到至少一个第二模型。

具体地，在用户输入训练数据时，可以将训练数据进行分组，将第一预设百分比例的训练数据作为训练样本来进行训练得到至少一个第二模型，然后将剩余的训练数据作为验证样本对该至少一个第二模型进行测试，从而可以测试各第二模型的性能，从而可以从第二模型中选择一个性能最好的模型结构，基于性能最好的模型结构确定各子流程及各子流程分析数据的策略。

在一个可选的实施例中，在步骤S1041，得到至少一个第二模型之后，自动化模型构建方法如图4所示，还包括：S105.将验证样本输入至少一个第二模型，得到对应的第一输出结果；根据第一输出结果从至少一个第二模型中确定性能最好的一个第二模型；按照性能最好的第二模型的算法、子流程和对应的超参值对训练样本和验证样本进行训练，得到第三模型。

具体地，在对各第二模型进行测试时，可以将验证样本分别输入各第二模型，从而可以得到对应的第一输出结果。根据第一输出结果，可以确定各第二模型的性能，从而可以从各第二模型中确定性能最好的一个第二模型。由于在第二模型训练时，是采用预设百分比例的训练样本进行训练的，而用户输入的训练数据还包括验证样本，因此，为了对性能最好的第二模型结构进行优化，得到用户最终想要的模型结构，可以按照性能最好的第二模型的算法、子流程和对应的超参值对训练样本和验证样本进行重新训练，得到第三模型。

在一个可选的实施例中，在步骤S105，得到第三模型之后，自动化模型构建方法如图5所示，还包括：S106，获取测试数据；将测试数据输入第三模型，得到对应的第二输出结果；根据第二输出结果对第三模型进行性能评价。

在基于训练数据进行训练，得到第三模型之后，可以采用测试数据对第三模型进行性能的测试，对第三模型进行性能评价。对第三模型进行性能测试时，可以将测试数据输入第三模型，基于第三模型的第二输出结果对第三模型进行性能评价。例如，第二输出结果显示测试数据的测试准确率在80％以上，则第三模型性能较好，可以用于数据分析。

通过对第三模型进行性能评价，可以测试第三模型的性能，从而根据确定第三模型是否能够用于实际的生产、生活中对于数据的分析。

在一个可选的实施例中，在步骤S101，获取训练数据之后，在步骤S103，基于模型训练策略确定模型训练过程信息的优化方案之前，自动化模型构建方法如图6所示，还包括：S107.获取用户输入的至少部分模型训练过程信息；将用户输入的至少部分模型训练过程信息与至少一个模型训练过程信息进行合并。

具体地，用户可以实际情况，对模型构建过程进行控制或调整。如手动设定至少部分模型训练过程信息，可以为手动设定模型训练策略、设定模型构建的初始点、备选算法、子流程或超参取值范围等。当用户手动设定了部分模型训练过程信息，可以在根据训练数据确定至少一个模型训练过程信息后，将用户手动设定的部分模型训练过程信息与至少一个模型训练过程信息进行合并，合并时，对于有差异的部分，以用户手动设定的部分模型训练过程信息为主。

在一个可选的实施例中，在得到至少一个第二模型之后，自动化模型构建方法还包括：记录至少一个第二模型对应的特征信息及模型训练过程信息。

具体地，将该至少一个第二模型对应的特征信息及模型训练过程信息进行记录，可以为后续与该特征信息对应的其他数据提供模型训练过程信息，从而根据该模型训练过程信息可对其他数据进行训练，从而实现其他数据自动化地机器学习过程。

为了便于对本发明的自动化模型构建方法进行进一步的说明，在以下的阐述中，将以石化行业的自动化模型构建为例进行说明。

在石化行业中，希望通过分析催化裂化装置的历史数据，预测不同条件下的关键产品收率。本发明实施例给出一种方法，基于催化裂化装置历史数据，构建基于催化裂化装置工艺数据与物料性质数据，预测催化裂化装置关键产品收率的机器学习模型，建立装置工艺指标与关键产品收率之间的拟合关系。自动化模型构建过程如图7所示，包括：

S201：输入催化裂化系统中的装置工艺数据、物料性质数据及产品收率等训练数据，设定至少部分模型训练过程信息；

用户需要输入训练数据(训练样本和验证样本，其中，训练样本必须输入，验证样本为可选)，其中，产品收率为标签。这里由于产品收率为连续数值，故该模型为解决回归问题的模型。输入的训练数据(训练样本、验证样本)和输出的结果数据均为表格型数据，数据格式可以为csv。

用户亦可以根据实际情况，控制模型构建的过程，这里假设用户设定如下：模型结构构建时间为30min，模型训练策略为贝叶斯优化，优化空间采用预置的中型优化空间，评估指标采均方误差(MSE)。其它参数均采用默认数值。

其中优化空间包括以下内容:

1.子流程：特征工程、回归；

2.特征工程的备选算法，或特征工程算法组合(注：为了保证特征工程后数据可以使用回归算法，在实际操作过程中，可能将某几种特征工程算法打包)

3.回归的备选算法，如线性回归，支持向量机(SVM)等。

4.不同算法(包括特征工程及回归的备选算法)对应的超参取值范围。如线性回归可能的超参：是否有截距。这里某种算法可能会对应多个超参，每个超参取值可能是整数、实数、离散值、布尔值(是否)等数据类型。

S202：提取催化裂化系统中的装置工艺数据、物料性质数据及产品收率等训练数据的特征信息，参考模型构建数据集，确定模型训练过程信息的优化方案；

催化裂化系统中的装置工艺数据、物料性质数据及产品收率等训练数据的特征信息包括：数据的行数、特征数目、离散类型数据数目、连续类型数目、标签的偏度峰度等。提取到这些特征信息后，可以以这些特征信息为依据，找到模型构建数据集中与该特征信息最近似的数据。找到最近似的数据，说明当前训练数据与最近似的数据情况类似，可以采用类似的模型构建过程。模型构建数据集中会保存最近似的数据对应的模型训练过程信息。如：模型构建时间、模型训练策略、模型训练最终采用的模型结构(第一模型)、备选算法、子流程、超参取值范围等。

在本发明实施例中，由于模型训练策略、子流程、备选算法、超参取值范围已由用户提前设定，故模型训练策略、子流程、备选算法、超参取值范围选取用户设定的。并选取第一模型为贝叶斯优化的初始点。基于贝叶斯优化，从备选算法、子流程及超参取值范围中选择至少一个子流程，至少一个算法及至少一组超参值，得到模型训练过程信息的优化方案。

S203：利用机器学习技术，构建模型结构，得到至少一个第二模型；

基于该至少一个子流程，至少一个算法及至少一组超参值，对训练样本进行训练，得到至少一个第二模型。

S204：确定一个性能最好的第二模型；

为了评判第二模型结构的好坏，将验证样本分别输入各第二模型结构，用于评估各第二模型结构的好坏，最终，确定一个性能最好的第二模型，性能最好的第二模型包括特征工程算法、回归算法及对应的超参值。

S205：基于第四步得到的性能最好的第二模型，用完整的训练数据进行训练，得到第三模型；

基于第三步得到的性能最好的第二模型对应的特征工程算法、回归算法及对应的超参值，用完整的训练数据(训练样本+验证样本)进行训练，得到第三模型。对于训练好的第三模型，可以利用测试数据评估该模型。也可以运行第三模型的可解释性模块，尝试分析训练好的第三模型。在本发明实施例中，如果训练数据提取的特征信息与数据库中所有记录都不相同情况下，保存该记录。如果训练数据提取的特征信息与数据库中某一记录相同，保存最终结果较好，评估指标较优的一次记录。

该第三模型可以用于：1)分析不同装置指标对关键产品收率的影响；2)对装置收率进行预测；3)指导装置工艺的优化。

本发明实施例还提供了一种自动化模型构建装置，如图8所示，包括：获取单元21，用于获取训练数据，提取训练数据的特征信息；具体的实施方式详见上述方法实施例步骤S101的描述，在此不再赘述。查找单元22，用于从模型构建数据集中查找到与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系至少包括特征信息与模型训练过程信息；具体的实施方式详见上述方法实施例步骤S102的描述，在此不再赘述。确定单元23，用于基于模型训练策略确定模型训练过程信息的优化方案；具体的实施方式详见上述方法实施例步骤S103的描述，在此不再赘述。训练单元24，用于根据优化方案对训练数据进行训练，得到至少一个第二模型。具体的实施方式详见上述方法实施例步骤S104的描述，在此不再赘述。

本发明实施例提供的自动化模型构建装置，通过获取训练数据，提取训练数据的特征信息；从模型数据集中查找与特征信息对应的至少一个模型训练过程信息，模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；基于模型训练策略确定模型训练过程信息的优化方案；根据优化方案对训练数据进行训练，得到至少一个第二模型；从而当用户输入训练数据后，可以通过训练数据的特征信息匹配到与训练数据对应的模型训练过程信息，然后基于模型训练过程信息的优化方案对训练数据进行训练，得到至少一个第二模型，从而可以在用户不参与的情况下，自动化地完成机器学习的完整流程，得到与训练数据对应的至少一个第二模型，可以减少在机器学习建模过程中工程师消耗的时间和精力，且降低用户对人工智能的使用门槛。

基于与前述实施例中一种自动化模型构建方法同样的发明构思，本发明还提供一种电子设备，如图9所示，包括：处理器31和存储器32，其中处理器31和存储器32可以通过总线或者其他方式连接，图9中以通过总线连接为例进行说明。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的自动化模型构建方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的自动化模型构建方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器31所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的一个或者多个模块存储在存储器32中，当被处理器31执行时，执行如图1所示实施例中的自动化模型构建方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种自动化模型构建方法，包括：

获取训练数据，提取所述训练数据的特征信息；

从模型数据集中查找与所述特征信息对应的至少一个模型训练过程信息，所述模型构建数据集包括多个特征对应关系，每个特征对应关系包括一个特征信息与至少一个模型训练过程信息；

基于模型训练策略确定模型训练过程信息的优化方案；

根据所述优化方案对所述训练数据进行训练，得到至少一个第二模型。

2.根据权利要求1所述的自动化模型构建方法，所述模型训练过程信息包括第一模型、备选算法、子流程及对应的超参取值范围。

3.根据权利要求2所述的自动化模型构建方法，所述基于模型训练策略确定模型训练过程信息的优化方案，包括：

根据所述模型训练策略及所述第一模型从备选算法、子流程及对应的超参取值范围中选取至少一个算法、至少一个子流程及对应的至少一组超参值；

根据所述至少一个算法、至少一个子流程及对应的至少一组超参值确定模型训练过程信息的优化方案。

4.根据权利要求3所述的自动化模型构建方法，所述训练数据包括训练样本和验证样本；

所述根据所述优化方案对所述训练数据进行训练，得到至少一个第二模型，包括：

根据所述至少一个算法、至少一个子流程及对应的至少一组超参值对所述训练样本进行训练，得到至少一个第二模型。

5.根据权利要求4所述的自动化模型构建方法，在得到至少一个第二模型之后，还包括：

将所述验证样本输入所述至少一个第二模型，得到对应的第一输出结果；

根据所述第一输出结果从所述至少一个第二模型中确定性能最好的一个第二模型；

按照性能最好的第二模型的算法、子流程和对应的超参值对所述训练样本和所述验证样本进行训练，得到第三模型。

6.根据权利要求5所述的自动化模型构建方法，在得到第三模型之后，还包括：

获取测试数据；

将所述测试数据输入所述第三模型，得到对应的第二输出结果；

根据所述第二输出结果对所述第三模型进行性能评价。

7.根据权利要求1所述的自动化模型构建方法，在获取训练数据之后，在基于模型训练策略确定模型训练过程信息的优化方案之前，还包括：

获取用户输入的至少部分模型训练过程信息；

将用户输入的至少部分模型训练过程信息与所述至少一个模型训练过程信息进行合并。

8.根据权利要求1所述的自动化模型构建方法，在得到至少一个第二模型之后，还包括：

记录所述至少一个第二模型对应的特征信息及模型训练过程信息。

9.一种自动化模型构建装置，包括：

获取单元，用于获取训练数据，提取所述训练数据的特征信息；

查找单元，用于从模型构建数据集中查找到与所述特征信息对应的至少一个模型训练过程信息，所述模型构建数据集包括多个特征对应关系，每个特征对应关系至少包括特征信息与模型训练过程信息；

确定单元，用于基于模型训练策略确定模型训练过程信息的优化方案

训练单元，用于根据所述优化方案对所述训练数据进行训练，得到至少一个第二模型。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-8任意一项所述的自动化模型构建方法。