CN108509727A

CN108509727A - 数据建模中的模型选择处理方法及装置

Info

Publication number: CN108509727A
Application number: CN201810290923.3A
Authority: CN
Inventors: 吴刚; 宋松海; 陈凯; 张涛; 党君利
Original assignee: Shenzhen Mixlinker Network Co Ltd
Current assignee: Shenzhen Mixlinker Network Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-07
Anticipated expiration: 2038-03-30
Also published as: CN108509727B

Abstract

本申请提供的数据建模中的模型选择处理方法及装置，利用随机森林算法，构建对应于机器学习任务的第一模型及第二模型，该第一模型及第二模型包括的多个子模型分别为基于候选模型算法及预定的参照模型算法所构建的模型；在此基础上，当第二模型的模型效果优于第一模型时，以第二模型为参照对第一模型进行调优处理或者更换候选模型算法处理，直至得到达到预期效果的第一模型为止，并将达到预期效果的第一模型所对应的模型算法作为与机器学习任务相匹配的较优模型算法。由此可见，利用本申请方案，可为所需处理的机器学习任务选择出一较优的建模模型，从而为机器学习任务的模型建模提供了较好的模型支持。

Description

数据建模中的模型选择处理方法及装置

技术领域

本发明属于基于机器学习的数据建模技术领域，尤其涉及一种数据建模中的模型选择处理方法及装置。

背景技术

在基于机器学习的数据建模技术领域中，在处理机器学习任务时，模型的选择是非常重要的一个环节，好的模型能够事半功倍，而坏的模型则可能会存在各种各样的问题。

鉴于此，本领域需提供一种模型选择方案，以能够针对所需处理的机器学习任务，为其选择出一较优的建模模型。

发明内容

有鉴于此，本发明的目的在于提供一种数据建模中的模型选择处理方法及装置，旨在能够针对所需处理的机器学习任务，为其选择出一较优的建模模型。

为此，本发明公开如下技术方案：

一种数据建模中的模型选择处理方法，包括：

根据待处理的机器学习任务的任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法；

利用随机森林算法，构建对应于所述机器学习任务的第一模型；所述第一模型包括多个第一子模型，各个第一子模型为基于所述候选模型算法所构建的模型；

利用随机森林算法，构建对应于所述机器学习任务的第二模型；所述第二模型包括多个第二子模型，各个第二子模型为基于预定的参照模型算法所构建的模型，所述参照模型算法区别于所述候选模型算法；

判断所述第一模型的模型效果是否优于所述第二模型的模型效果；

若否，则对所述第一模型进行调优处理；若在预定的调优次数内调优后所得的第一模型的模型效果能够达到预期效果，则确定所述候选模型算法为与所述机器学习任务相匹配的目标模型算法，若在预定的调优次数内调优后所得的第一模型的模型效果未能达到预期效果，则更换所述候选模型算法，并返回至所述利用随机森林算法，构建对应于所述机器学习任务的第一模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束；

若是，则更换所述参照模型算法，并返回至所述利用随机森林算法，构建对应于所述机器学习任务的第二模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束。

可选的，所述根据待处理的机器学习任务的任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法，包括：

确定所述机器学习任务的任务类型及任务的数据规模；

根据所述机器学习任务的任务类型及数据规模，确定对所述机器学习任务进行建模时所使用的候选模型算法。

可选的，所述利用随机森林算法，构建对应于所述机器学习任务的第一模型，包括：

利用随机森林算法，建立对应于所述机器学习任务的第一初始模型；所述第一初始模型包括多个第一子初始模型，各个第一子初始模型为通过对所述候选模型算法进行模型参数初始化所构建的模型；

利用所述机器学习任务所包括的多条任务数据，对所述第一初始模型进行训练，得到所述第一模型。

可选的，所述判断所述第一模型的模型效果是否优于所述第二模型的模型效果，包括：

判断所述第一模型的分类准确率是否高于所述第二模型的分类准确率。

可选的，所述对所述第一模型进行调优处理，包括以下处理中的至少一种：

根据所述第二模型的特征权重调整所述第一模型的特征权重；

调整所述第一模型的超参数或数据格式。

一种数据建模中的模型选择处理装置，包括：

确定单元，用于根据待处理的机器学习任务的任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法；

第一模型构建单元，用于利用随机森林算法，构建对应于所述机器学习任务的第一模型；所述第一模型包括多个第一子模型，各个第一子模型为基于所述候选模型算法所构建的模型；

第二模型构建单元，用于利用随机森林算法，构建对应于所述机器学习任务的第二模型；所述第二模型包括多个第二子模型，各个第二子模型为基于预定的参照模型算法所构建的模型，所述参照模型算法区别于所述候选模型算法；

判断单元，用于判断所述第一模型的模型效果是否优于所述第二模型的模型效果；

选择处理单元，用于在所述判断单元的判断结果为否时，对所述第一模型进行调优处理；若在预定的调优次数内调优后所得的第一模型的模型效果能够达到预期效果，则确定所述候选模型算法为与所述机器学习任务相匹配的目标模型算法，若在预定的调优次数内调优后所得的第一模型的模型效果未能达到预期效果，则更换所述候选模型算法，并返回至所述利用随机森林算法，构建对应于所述机器学习任务的第一模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束；

更换单元，用于在所述判断单元的判断结果为是时，更换所述的参照模型算法，并返回至所述利用随机森林算法，构建对应于所述机器学习任务的第二模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束。

可选的，所述确定单元，具体用于：

确定所述所述机器学习任务的任务类型及任务的数据规模；

可选的，所述第一模型构建单元，具体用于：

可选的，所述判断单元，具体用于：

可选的，所述选择处理单元对所述第一模型进行调优处理，包括以下处理中的至少一种：

调整所述第一模型的超参数或数据格式。

根据以上方案可知，本申请提供的数据建模中的模型选择处理方法及装置，利用随机森林算法，构建对应于机器学习任务的第一模型及第二模型，该第一模型及第二模型包括的多个子模型分别为基于候选模型算法及预定的参照模型算法所构建的模型；在此基础上，当第二模型的模型效果优于第一模型时，以第二模型为参照对第一模型进行调优处理或者更换候选模型算法处理，直至得到达到预期效果的第一模型为止，并以达到预期效果的第一模型所对应的候选模型算法为最终的目标模型算法，即将达到预期效果的第一模型所对应的候选模型算法作为与机器学习任务相匹配的较优模型算法。由此可见，利用本申请方案，可为所需处理的机器学习任务选择出一较优的建模模型，从而为机器学习任务的模型建模提供了较好的模型支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例一提供的数据建模中的模型选择处理方法的流程图；

图2是本申请实施例二提供的数据建模中的模型选择处理装置的结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

超参数：在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

随机森林算法：是一种集成学习方法，将数据按照特征分类使用N个决策树(子分类器/子模型)训练，得到N个决策树模型，通过投票得到最终结果。随机森林拥有相当好的准确率，能够评估各个特征的重要性，能很好地适应大数据集合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供一种数据建模中的模型选择处理方法及装置，旨在能够针对所需处理的机器学习任务，为其选择出一较优的建模模型。以下将通过多个实施例对本申请的方案进行说明。

实施例一

参考图1，为本申请实施例一提供的数据建模中的模型选择处理方法的流程图，如图1所示，该方法包括以下处理步骤：

步骤101、根据待处理的机器学习任务的任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法。

本步骤旨在为待处理的机器学习任务确定出需采用的候选模型算法，之后，可基于本申请接下来的各个处理步骤确定出该候选模型算法是否为与所述机器学习任务相匹配的较优模型算法。

所述待处理的机器学习任务的任务信息，可以包括但不限于机器学习任务的任务类型及任务的数据规模等信息。

鉴于此，本步骤可首先确定所述机器学习任务的任务类型及任务的数据规模等任务信息；在此基础上，根据所述机器学习任务的任务类型及数据规模等任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法。

具体地，例如，对于时序数列的机器学习任务可以使用HMM(Hidden MarkovModel，隐马尔可夫模型)作为其建模时的候选模型算法，对于图形或音频分析的机器学习任务，可以使用CNN(Convolutional Neural Network，卷积神经网络)作为其建模时的候选模型算法。除此之外，还可以结合机器学习任务的数据规模选择合适的模型算法作为其候选模型算法，其中，由于CNN、RNN(Recurrent Neural Networks，循环神经网络)、DNN(DeepNeural Networks，深度神经网络)等神经网络算法能够适用于大数据规模的机器学习任务，因此，对于数据规模较大的机器学习任务而言，可优选地选择神经网络算法作为其候选模型算法。

步骤102、利用随机森林算法，构建对应于所述机器学习任务的第一模型；所述第一模型包括多个第一子模型，各个第一子模型为基于所述候选模型算法所构建的模型。

该步骤可通过以下的处理过程来实现构建所述第一模型：利用随机森林算法，建立对应于所述机器学习任务的第一初始模型；所述第一初始模型包括多个第一子初始模型，各个第一子初始模型为通过对所述候选模型算法进行模型参数初始化所构建的模型；利用所述机器学习任务所包括的多条任务数据，对所述第一初始模型进行训练，得到所述第一模型。

以下以一具体示例进行说明。

假设待处理的机器学习任务共包括10⁶条图形/音频数据，数据特征个数为100，当前所选择的候选模型算法为CNN，且假设基于随机森林构建的第一模型共需包含5个子模型，则可首先利用随机森林算法，通过模型参数初始化建立对应于所述机器学习任务的第一初始模型，该第一初始模型包括5个CNN子初始模型，各个CNN子初始模型为通过对CNN模型的模型参数(如训练的学习速率、神经网络层数、各层神经元个数等)进行初始化所构建的模型。

在此基础上，可利用所述机器学习任务所包括的任务数据对所述第一初始模型进行训练。具体地，可将所述10⁶条图形/音频数据按特征进行分类得到5个特征子集，例如，将所述10⁶条图形/音频数据的前20个特征数据划分在第一个特征子集中，将所述10⁶条图形/音频数据的第20～40个特征数据划分在第二个特征子集中，以此类推，直至将所述10⁶条图形/音频数据的后20个特征数据划分在第五个特征子集中，之后，利用5个特征子集以一对一方式对5个CNN子初始模型进行训练，从而得到5个CNN子模型，训练所得的该5个CNN子模型构成所述对应于随机森林算法的第一模型。后续，在利用该第一模型进行数据处理时，可通过对所述5个CNN子模型的处理结果进行投票来得到最终结果。

步骤103、利用随机森林算法，构建对应于所述机器学习任务的第二模型；所述第二模型包括多个第二子模型，各个第二子模型为基于参照模型算法所构建的模型，所述参照模型算法区别于所述候选模型算法。

所述预定的参照模型算法可以是但不限于ID3或者C4.5等用来构造决策树的算法。

该步骤具体可通过以下的处理过程来实现构建所述第二模型：利用随机森林算法，建立对应于所述机器学习任务的第二初始模型；所述第二初始模型包括多个第二子初始模型，各个第二子初始模型为通过对所述参照模型算法进行模型参数初始化所构建的模型；利用所述机器学习任务所包括的多条任务数据，对所述第二初始模型进行训练，得到所述第二模型。

该步骤的处理过程与上述步骤102的处理过程相类似，区别仅在于将步骤102中的所述候选模型算法替换为本步骤中的ID3或者C4.5等参照模型算法，因此，相关构建过程具体可参考上一步骤的说明，此处不再详述。

步骤104、判断所述第一模型的模型效果是否优于所述第二模型的模型效果。

本实施例中，所述模型效果主要是指模型的分类准确率。

鉴于此，可通过判断所述第一模型的分类准确率是否高于所述第二模型的分类准确率来确定两者的模型效果的优劣，若第一模型的分类准确率高于第二模型的分类准确率，则表示所述第一模型的模型效果优于所述第二模型的模型效果；否则，若第一模型的分类准确率低于第二模型的分类准确率，则表示所述第二模型的模型效果优于所述第一模型的模型效果。

步骤105、若否，则对所述第一模型进行调优处理。

步骤106、若在预定的调优次数内调优后所得的第一模型的模型效果能够达到预期效果，则确定所述候选模型算法为与所述机器学习任务相匹配的目标模型算法，并结束。

步骤107、若在预定的调优次数内调优后所得的第一模型的模型效果未能达到预期效果，则更换所述候选模型算法，并返回至所述步骤102，直至确定出与所述机器学习任务相匹配的目标模型算法时结束。

其中，如果所述判断结果为否，即所述第二模型的模型效果(如分类准确率)优于所述第一模型的模型效果，则表示所述第一模型的相关模型参数不当/不够优化，或者所述第一模型所基于的所述候选模型算法不当，不是与所述机器学习任务相匹配的较优模型算法。

鉴于此，本申请首先以所述第二模型为参照对所述第一模型进行调优。

所述调优具体可以包括但不限于以下处理中的至少一种：根据所述第二模型的特征权重调整所述第一模型的特征权重；调整所述第一模型的超参数或数据格式。

具体地，比如，若第二模型中某特征的特征权重较高，则表示该特征于模型而言较为重要，从而，可以以第二模型为参照，相应地增加第一模型中该特征的特征权重数值；反之，若第二模型中某特征的特征权重较低，则表示该特征于模型而言重要度较低，从而，可以以第二模型为参照，相应地降低第一模型中该特征的特征权重数值。

所述调整第一模型的超参数可以包括但不限于：对第一模型的训练的学习速率、神经网络层数或每层的神经元个数等一些超参数进行调整。

每次调优后可测试调优后所得的第一模型的分类准确率，若在预定的调优次数内调优后所得的第一模型的分类准确率能够达到预定的准确率阈值，则表示该第一模型所基于的所述候选模型算法选择较为恰当，是与机器学习任务相匹配的较优模型算法，从而，可将该候选模型算法确定为所述机器学习任务的模型建模所需要的目标模型算法。

若在预定的调优次数内调优后所得的第一模型的模型效果未能达到所述准确率阈值，则表示所述第一模型所基于的所述候选模型算法选择不当，不是与所述机器学习任务相匹配的较优模型算法，从而需要更换所述候选模型算法，例如将所采用的HMM候选模型算法更换为采用LSTM(Long Short-Term Memory，长短期记忆网络)作为新的候选模型算法等。在更换所述候选模型算法后，可返回至步骤102，从步骤102起执行本申请的各个后续处理步骤，以确定出所更换的新的候选模型算法是否选择恰当，即是否为与机器学习任务相匹配的较优模型算法，直至训练/调优出一分类准确率达到所述准确率阈值的第一模型为止，此时该分类准确率达到所述准确率阈值的第一模型所基于的候选模型算法，即为与机器学习任务相匹配的较优的模型算法。

步骤108、若是，则更换所述参照模型算法，并返回至所述利用随机森林算法，构建对应于所述机器学习任务的第二模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束。

如果所述判断结果为是，即所述第一模型的模型效果(如分类准确率)优于所述第二模型的模型效果，则所述第二模型不具有参照意义，从而，可更换所述第二模型所基于的参照模型算法，例如将当前采用的ID3算法更换为采用C4.5算法等，并在更换参照模型算法后，返回至步骤103重新构建基于新的参照模型算法的第二模型，后续在该新的第二模型的模型效果优于第一模型时，以该新的第二模型为参照对第一模型进行调优处理或者更换候选模型算法处理，直至确定出一分类准确率达到所述准确率阈值的第一模型为止，后续，可将该分类准确率达到所述准确率阈值的第一模型所基于的候选模型算法，作为与机器学习任务相匹配的较优的模型算法。

本实施例提供的数据建模中的模型选择处理方法及装置，利用随机森林算法，构建对应于机器学习任务的第一模型及第二模型，该第一模型及第二模型包括的多个子模型分别为基于候选模型算法及预定的参照模型算法所构建的模型；在此基础上，当第二模型的模型效果优于第一模型时，以第二模型为参照对第一模型进行调优处理或者更换候选模型算法处理，直至得到达到预期效果的第一模型为止，并以达到预期效果的第一模型所对应的候选模型算法为最终的目标模型算法，即将达到预期效果的第一模型所对应的候选模型算法作为与机器学习任务相匹配的较优模型算法。由此可见，利用本申请方案，可为所需处理的机器学习任务选择出一较优的建模模型，从而为机器学习任务的模型建模提供了较好的模型支持。

实施例二

本申请实施例二提供一种数据建模中的模型选择处理装置，参考图2，该装置包括：

确定单元201，用于根据待处理的机器学习任务的任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法；

第一模型构建单元202，用于利用随机森林算法，构建对应于所述机器学习任务的第一模型；所述第一模型包括多个第一子模型，各个第一子模型为基于所述候选模型算法所构建的模型；

第二模型构建单元203，用于利用随机森林算法，构建对应于所述机器学习任务的第二模型；所述第二模型包括多个第二子模型，各个第二子模型为基于预定的参照模型算法所构建的模型，所述参照模型算法区别于所述候选模型算法；

判断单元204，用于判断所述第一模型的模型效果是否优于所述第二模型的模型效果；

选择处理单元205，用于在所述判断单元的判断结果为否时，对所述第一模型进行调优处理；若在预定的调优次数内调优后所得的第一模型的模型效果能够达到预期效果，则确定所述候选模型算法为与所述机器学习任务相匹配的目标模型算法，若在预定的调优次数内调优后所得的第一模型的模型效果未能达到预期效果，则更换所述候选模型算法，并返回至第一模型构建单元202利用随机森林算法，构建对应于所述机器学习任务的第一模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束；

更换单元206，用于在所述判断单元的判断结果为是时，更换所述的参照模型算法，并返回至第二模型构建单元203利用随机森林算法，构建对应于所述机器学习任务的第二模型的步骤，直至确定出与所述机器学习任务相匹配的目标模型算法时结束。

在本申请实施例的一实施方式中，所述确定单元201，具体用于：

确定所述所述机器学习任务的任务类型及任务的数据规模；

在本申请实施例的一实施方式中，所述第一模型构建单元202，具体用于：

在本申请实施例的一实施方式中，所述判断单元204，具体用于：

在本申请实施例的一实施方式中，所述选择处理单元205对所述第一模型进行调优处理，包括以下处理中的至少一种：

调整所述第一模型的超参数或数据格式。

对于本发明实施例二公开的数据建模中的模型选择处理装置而言，由于其与实施例一公开的数据建模中的模型选择处理方法相对应，所以描述的比较简单，相关相似之处请参见实施例一中数据建模中的模型选择处理方法部分的说明即可，此处不再详述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据建模中的模型选择处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据待处理的机器学习任务的任务信息，确定对所述机器学习任务进行建模时所使用的候选模型算法，包括：

确定所述机器学习任务的任务类型及任务的数据规模；

3.根据权利要求1所述的方法，其特征在于，所述利用随机森林算法，构建对应于所述机器学习任务的第一模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述判断所述第一模型的模型效果是否优于所述第二模型的模型效果，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述第一模型进行调优处理，包括以下处理中的至少一种：

调整所述第一模型的超参数或数据格式。

6.一种数据建模中的模型选择处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述确定单元，具体用于：

确定所述所述机器学习任务的任务类型及任务的数据规模；

8.根据权利要求6所述的装置，其特征在于，所述第一模型构建单元，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述判断单元，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述选择处理单元对所述第一模型进行调优处理，包括以下处理中的至少一种：

调整所述第一模型的超参数或数据格式。