CN111612163A

CN111612163A - 一种基于机器学习模型的训练方法及装置

Info

Publication number: CN111612163A
Application number: CN202010598094.2A
Authority: CN
Inventors: 许庶; 郭灿
Original assignee: Shanghai Youyang New Media Information Technology Co ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-09-01

Abstract

本发明公开了一种机器学习模型的训练方法及装置，该方法包括：基于每个训练样本对当前机器学习模型分别进行单次训练，获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合，在每个初始特征贡献度集合中确定目标特征贡献度，目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度，基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练，上述的训练方法中，所述目标训练样本中保留的是特征贡献度较大的目标特征，对所述当前机器学习模型训练的准确度影响较小，相较于人工筛选，不但速度快，而且不影响模型训练的准确度。

Description

一种基于机器学习模型的训练方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于机器学习模型的训练方法及装置。

背景技术

当前机器学习模型的训练过程中，训练样本中的冗余的特征虽然不会影响到模型的性能，但却会使得计算机做出无用功。现有技术中，为了减小机器学习模型训练过程中的计算压力，基于训练过程中成千上万的特征，而特征的筛选通常依赖人工进行筛选。

人工筛选不但耗费时间长，而且筛选的准确度无法保证，导致基于筛选后的数据对机器学习模型进行训练时，机器学习模型训练的准确度低。

发明内容

有鉴于此，本发明提供了一种基于机器学习模型的训练方法及装置，用以解决在机器学习模型进行训练过程中，人工筛选特征，不但耗费时间长，而且训练的准确度低。问题，具体方案如下：

一种机器学习模型的训练方法，包括：

基于每个训练样本对当前机器学习模型分别进行单次训练；

获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；

分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；

基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练。

上述的方法，可选的，每个训练样本包括:预设数量且类型相同的特征。

上述的方法，可选的，基于每个训练样本对当前机器学习模型进行单次训练，包括：

将每个训练样本划分为训练集和测试集；

基于所述训练集和所述测试集对所述当前机器学习模型进行单次训练，得到训练预测分和测试预测分；

依据所述训练预测分和所述测试预测分，计算训练效果分和测试效果分。

上述的方法，可选的，获得每个训练结果满足预设条件的训练样本的初始特征贡献度集合，包括：

计算所述训练效果分与所述测试效果分的第一差值和所述训练效果分与预设的最大效果分的第二差值，其中，所述预设的最大效果分为基于各个训练数据对所述当前训练模型进行第一次训练的第一测试效果分；

当所述第一差值小于所述预设的第一差值阈值且所述第二差值小于所述预设的第二差值阈值时，计算每个特征的特征贡献度，得到初始特征贡献度集合。

上述的方法，可选的，还包括：

当所述第一差值大于所述预设的第一阈值时，判定所述当前机器学习模型出现欠拟合或者过拟合，调整所述当前机器学习模型的参数后重新进行单次训练，或；

当所述第二差值大于所述预设的第二差值阈值时，退出当前训练。

上述的方法，可选的，基于所述目标训练样本对所述当前机器学习模型进行训练，还包括：

获取基于所述目标训练样本对所述当前机器学习模型进行第一次训练的第二测试效果分；

依据所述第二测试效果分，更新所述预设的最大效果分。

一种机器学习模型的训练装置，包括：

单次训练模块，用于单次基于每个训练样本对当前机器学习模型分别进行单次训练；

预处理模块，用于获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；

筛选模块，用于分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；

训练模块，用于基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练。

上述的装置，可选的，每个训练样本包括:预设数量且类型相同的特征。

上述的装置，可选的，所述单次训练模块包括：

划分单元，用于将每个训练样本划分为训练集和测试集；

单次训练单元，用于基于所述训练集和所述测试集对所述当前机器学习模型进行单次训练，得到训练预测分和测试预测分；

计算单元，用于依据所述训练预测分和所述测试预测分，计算训练效果分和测试效果分。

上述的装置，可选的，所述预处理模块包括：

第一计算单元，用于计算所述训练效果分与所述测试效果分的第一差值和所述训练效果分与预设的最大效果分的第二差值，其中，所述预设的最大效果分为基于各个训练数据对所述当前训练模型进行第一次训练的第一测试效果分；

第二计算单元，用于当所述第一差值小于所述预设的第一差值阈值且所述第二差值小于所述预设的第二差值阈值时，计算每个特征的特征贡献度，得到初始特征贡献度集合。

与现有技术相比，本发明包括以下优点：

本发明公开了一种机器学习模型的训练方法及装置，该方法包括：基于每个训练样本对当前机器学习模型分别进行单次训练；获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练。上述的方法，针对每个训练样本确定初始特征贡献度集合，在每个初始特征贡献度集合中确定目标特征贡献度，目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度，基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练，所述目标训练样本中保留的是特征贡献度较大的特征，对所述当前机器学习模型训练的准确度影响较小，相较于人工筛选，不但速度快，而且不影响模型训练的准确度。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种机器学习模型的训练方法流程图；

图2为本申请实施例公开的一种机器学习模型的训练方法又一流程图；

图3为本申请实施例公开的一种机器学习模型的训练装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种机器学习模型的训练方法及装置，应用在对机器学习模型进行训练的过程中，现有的机器学习模型训练过程中，面对成千上万的特征，而特征的选择很多时候依赖人工去筛选，人工筛选的主要缺点是，花费的人力成本和时间成本非常大，而且筛选过程中筛选的准确性无法保证，导致机器学习模型训练的准确度低，基于上述的问题，本发明提供了一种机器学习模型的训练方法，所述训练方法的执行流程如图1所示，包括步骤：

S101、基于每个训练样本对当前机器学习模型分别进行单次训练；

本发明实施例中，所述当前机器学习模型为含有特征贡献度属性的机器学习模型，其中，所述当前机器学习模型可以为基于随机森林、决策树、GBDT、XGBoost等算法实现。

基于具体的应用场景选定所述当前机器学习模型，同时获取与所述当前机器学习模型对应的各个训练样本，优选的，针对每一个训练样，将训练样本中的全量特征作为输入，针对每一个训练样本中特征的类型和数量相同，优选的，为了提高所述当前机器学习模型训练的准确度，针对不同训练样本同一特征的取值不同。每一个训练样本中包含的预设数量的全量特征，当针对某一训练样本特征缺失的情况下，可以采用当前缺失特征的平均值、默认值或者其它优选取值进行补充，本发明实施例中，对具体的补充形式不进行限定。

基于所述各个训练样本对所述当前机器学习模型进行单次训练，训练过程如下：将各个训练样本依据预设的划分比例划分为训练集和测试集，其中，所述预设的划分比例可以依据经验或者具体情况进行设定，本发明实施例中，对所述预设的划分比例的具体取值不进行限定，用于基于所述训练集和所述测试集对当前机器学习模型进行单次训练，得到训练预测分和测试预测分。优选的，可以对所述训练预测分和所述测试预测分进行归一化。

进一步的，针对所述训练预测分和所述测试预测分进行效果分计算，其中，所述训练效果分和所述测试效果分可以基于KS值、F-Score、准确率分等进行计算，本发明实施例中，对多数测试效果分和所述预测效果分的具体计算方式不进行限定。

优选的，针对所述预设数量的特征输入配置可以以内存变量方式也可以以文件磁盘方式进行存储，格式可以采取单个特征为一行进行配置。

S102、获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；

本发明实施例中，判断所述训练效果分和所述测试效果分是否满足预设的计算条件，其中，所述预设的计算条件可以依据经验或者具体情况进行设定，若所述训练效果分和所述测试效果分不满足预设的计算条件，重新执行S101，重新计算训练效果分和测试效果分，反之，计算每个特征的特征贡献度，所述特征贡献度值指每一个特征对所述当前机器学习模型的贡献度。针对每一个特征，贡献度取值越大对所述当前机器学习模型训练的准确度影响越大，其中，特征贡献度的计算方法与所述当前机器学习模型有关，本发明实施例中，以所述当前机器学习模型为决策时模型为例进行说明，由于决策树模型中的每个分支都有权重，权重是预先分配的，根据不同特征进入不同的分支得到不同的权重，依据该权重，确定其对应的特征贡献度，本发明实施例中，对特征贡献度的具体确定形式不进行限定。由于每个训练样本中包含预设数量的特征，特征和特征贡献度存在对应关系。因此，初始特征贡献度集合中包括：预设数量的特征贡献度。

S103、分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；

本发明实施例中，在所述当前机器学习模型训练之初，设定预设保留数量，其中，所述预设保留数量小于等于所述预设数量，设定的原则可以基于经验或者具体情况，本发明实施例中，对所述预设保留数量的取值不进行限定针对所述初始特征贡献度集合中预设数量的特征贡献度，对其进行排序，依据排序结果，保留所述预设保留数量的目标特征作为所述目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度。优选的，对所述初始特征贡献度集合中的其它特征贡献度进行删除处理。

S104、基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练。

本发明实施例中，基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练，训练过程如下：将所述目标训练样本划分为目标测试集和目标训练集，基于所述目标训练集对所述当前机器学习模型进行训练，训练完成后，基于所述目标测试集对所述当前机器学习模型进行测试。

本发明公开了一种机器学习模型的训练方法，包括：基于每个训练样本对当前机器学习模型分别进行单次训练；获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练。上述的方法，针对每个训练样本确定初始特征贡献度集合，在每个初始特征贡献度集合中确定目标特征贡献度，目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度，基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练，所述目标训练样本中保留的是特征贡献度较大的特征，对所述当前机器学习模型训练的准确度影响较小，相较于人工筛选，不但速度快，而且不影响模型训练的准确度。

本发明实施例中，获得每个训练结果满足预设条件的训练样本的初始特征贡献度集合的方法流程如图2所示，包括步骤：

S201、计算所述训练效果分与所述测试效果分的第一差值和所述训练效果分与预设的最大效果分的第二差值，其中，所述预设的最大效果分为基于各个训练数据对所述当前训练模型进行第一次训练的第一测试效果分；

本发明实施例中，所述预设的最大效果分为所述当前机器学习模型针对各个训练样本进行首次训练时，得到的第一测试效果分，分别计算所述训练效果分与所述测试效果分的第一差值和所述训练效果分与预设的最大效果分的第二差值。

S202、当所述第一差值小于所述预设的第一差值阈值且所述第二差值小于所述预设的第二差值阈值时，计算每个特征的特征贡献度，得到初始特征贡献度集合；

本发明实施例中，将所述第一差值与所述预设的第一差值阈值进行比较，将所述第二差值与所述预设的第二阈值比较，其中，所述第一差值阈值和所述第二差值阈值依据经验或者具体情况进行设定，优选的，所述第一差值阈值为所述训练效果分与所述测试效果分差值不超过10％为基准当所述第一差值小于所述预设的第一差值阈值且所述第二差值小于所述预设的第二差值阈值时，计算每个特征的特征贡献度，得到初始特征贡献度集合。

S203、当所述第一差值大于所述预设的第一差值阈值时，判定所述当前机器学习模型出现欠拟合或者过拟合，调整所述当前机器学习模型的参数后重新进行单次训练，或；

本发明实施例中，当所述第一差值大于所述预设的第一差值阈值时，判定所述当前机器学习模型出现欠拟合或者过拟合，其中，当所述训练效果分高于所述测试效果分时，所述当前机器学习模型出现过拟合，反之，当所述训练效果分低于所述测试效果分时，所述当前机器学习模型出现欠拟合，无论出现过拟合还是欠拟合，都需要调整所述当前机器学习模型的参数后重新进行单次训练。

S204、当所述第二差值大于所述预设的第二差值阈值时，退出当前训练。

本发明实施例中，当所述第二差值大于所述预设的第二差值阈值时，退出当前训练。

进一步的，获取基于所述目标训练样本对所述当前机器学习模型进行第一次训练的第二测试效果分，将所述预设的最大效果分更新为所述第二测试效果分。

基于上述的一种机器学习模型的训练方法，本发明实施例中，还提供了一种机器学习模型的训练装置，所述训练装置的结构框图如图3所示，包括：

单次训练模块301、预处理模块302、筛选模块303和训练模块304。

其中，

所述单次训练模块301，用于单次基于每个训练样本对当前机器学习模型分别进行单次训练；

所述预处理模块302，用于获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；

所述筛选模块303，用于分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；

所述训练模块304，用于基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练

本发明公开了一种机器学习模型的训练装置，包括：基于每个训练样本对当前机器学习模型分别进行单次训练；获取每个训练结果满足预设条件的训练样本的初始特征贡献度集合；分别从各个初始特征贡献度集合确定目标特征贡献度集合，所述目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度；基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练。上述的装置，针对每个训练样本确定初始特征贡献度集合，在每个初始特征贡献度集合中确定目标特征贡献度，目标特征贡献度集合中的目标特征贡献度均大于所述初始特征贡献度集合中的其他特征贡献度，基于各个目标特征贡献度集合，构建目标训练样本，基于所述目标训练样本对所述当前机器学习模型进行训练，所述目标训练样本中保留的是特征贡献度较大的特征，对所述当前机器学习模型训练的准确度影响较小，相较于人工筛选，不但速度快，而且不影响模型训练的准确度。

本发明实施例中，所述训练装置中每个训练样本包括:预设数量且类型相同的特征。

本发明实施例中，所述单次训练模块301包括：

划分单元305、单词训练单元306和单次训练单元307。

其中，

所述划分单元305，用于将每个训练样本划分为训练集和测试集；

所述单次训练单元306，用于基于所述训练集和所述测试集对所述当前机器学习模型进行单次训练，得到训练预测分和测试预测分；

所述计算单元307，用于依据所述训练预测分和所述测试预测分，计算训练效果分和测试效果分。

本发明实施例中，所述预处理模块302包括：

第一计算单元308和第二计算单元309。

其中，

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种机器学习模型的训练方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种机器学习模型的训练方法，其特征在于，包括：

基于每个训练样本对当前机器学习模型分别进行单次训练；

2.根据权利要求1所述的方法，其特征在于，每个训练样本包括:预设数量且类型相同的特征。

3.根据权利要求2所述的方法，其特征在于，基于每个训练样本对当前机器学习模型进行单次训练，包括：

将每个训练样本划分为训练集和测试集；

4.根据权利要求3所述的方法，其特征在于，获得每个训练结果满足预设条件的训练样本的初始特征贡献度集合，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求4所述的方法，其特征在于，基于所述目标训练样本对所述当前机器学习模型进行训练，还包括：

依据所述第二测试效果分，更新所述预设的最大效果分。

7.一种机器学习模型的训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，每个训练样本包括:预设数量且类型相同的特征。

9.根据权利要求8所述的装置，其特征在于，所述单次训练模块包括：

划分单元，用于将每个训练样本划分为训练集和测试集；

10.根据权利要求9所述的装置，其特征在于，所述预处理模块包括：