CN110009062A

CN110009062A - 分类模型训练方法及装置

Info

Publication number: CN110009062A
Application number: CN201910314510.9A
Authority: CN
Inventors: 李骥东; 王丹; 蓝科; 覃进学
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-12
Anticipated expiration: 2039-04-18
Also published as: CN110009062B

Abstract

本申请公开了一种分类模型训练方法及装置，通过将特征集合中部分特征以事件概率的形式表示，并根据这些事件概率进行模型训练，从而使得分类模型的预测精度得以提高。详细地，首先获取多个训练样本集，接着针对每个训练样本集，获取每个所述训练样本的每个第二特征对应的多个事件的发生概率；再接着在该训练样本集中，计算每个第二特征对应的每个事件的平均发生概率；紧接着针对每个训练样本，将每个第二特征对应的每个事件的平均发生概率作为新的第二特征；然后针对每个训练样本，对新的特征集合中的特征按照预设规则进行组合，获得多个组合特征；最后将每个组合特征采用随机森林方法进行机器学习训练，获得分类模型。

Description

分类模型训练方法及装置

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种分类模型训练方法及装置。

背景技术

在生产领域中，尤其是煤矿等行业，为了保证安全生产，往往都需要结合生产作业环境，制定相应的作业标准，从而根据制定的标准来对作业过程进行管控。

现有技术中，在采用随机森林进行模型训练时，往往是只选取部分样本，然后在选取出来的样本中，选取部分类型的属性输入随机森林模型进行训练。现有的这种方式中，由于特征中体现某一类别特征的状态的部分数据并未能得到体现，因此，在生产环境中，根据这种方式训练出来的分类模型的预测精度较低。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的之一在于提供一种分类模型训练方法，所述方法包括：

获取多个训练样本集，每个所述训练样本集包括多个训练样本，每个所述训练样本包括描述矿井状态的多个特征组成的特征集合以及表征对应矿井的安全状态的标签组成，所述多个特征包括第一特征和第二特征；

针对每个训练样本集，获取每个所述训练样本中每个第二特征对应的多个事件的发生概率；

在该训练样本集中，针对每个所述第二特征，计算该第二特征对应的每个所述事件的平均发生概率；

针对每个所述训练样本，将每个第二特征对应的每个所述事件的平均发生概率作为新的第二特征，获得每个所述训练样本的新的特征集合；

针对每个所述训练样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征；

将每个组合特征采用随机森林方法进行机器学习训练，获得分类模型。

可选地，所述针对每个训练样本集，获取每个所述训练样本中每个第二特征对应的多个事件的发生概率的步骤包括：

针对每个训练样本集，依次将每个第二特征作为因变量，将特征集合中，除因变量之外的第一特征作为自变量，采用逻辑回归模型进行预测，获得该第二特征对应的多个事件的发生概率。

可选地，所述针对每个所述训练样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征的步骤包括：

针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征。

可选地，所述针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征的步骤包括：

根据第一滑动窗口获取多个第一组合特征；

根据第二滑动窗口获取多个第二组合特征；

所述将每个组合特征采用随机森林方法进行机器学习训练，获得分类模型的步骤包括：

将所述第一组合特征输入第一随机森林模型，所述第二组合特征输入第二随机森林模型，获得多个融合特征；

将所述多个融合特征分别输入多个不同的第三随机森林模型，获得分类模型。

可选地，所述获取多个训练样本集的步骤包括：

获取多个训练样本构成的总样本集；

从所述总样本集中获取多个训练样本；

重复预设次数次从所述总样本集中获取多个训练样本的步骤，获得多个训练样本集。

可选地，所述方法还包括：

获取待预测样本，所述待预测样本包括描述待预测的矿井状态的多个特征组成的特征集合，所述特征集合包括第一特征和第二特征；

获取待预测样本中每个第二特征对应的事件的发生概率；

将每个所述事件的发生概率作为新的第二特征，获得每个所述待预测样本的新的特征集合；

针对每个所述待预测样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征；

将待预测样本的所述多个组合特征输入所述分类模型，获得待预测样本的状态预测结果。

本申请的另一目的在于提供一种分类模型训练装置，所述装置包括第一获取模块、第二获取模块、计算模块、替换模块、组合模块和训练模块；

所述第一获取模块，用于获取多个训练样本集，每个所述训练样本集包括多个训练样本，每个所述训练样本包括描述矿井状态的多个特征组成的特征集合以及表征对应矿井的安全状态的标签组成，所述多个特征包括第一特征和第二特征；

所述第二获取模块，用于针对每个训练样本集，获取每个所述训练样本中每个第二特征对应的多个事件的发生概率；

所述计算模块，用于在该训练样本集中，针对每个所述第二特征，计算该第二特征对应的每个所述事件的平均发生概率；

所述替换模块，用于针对每个所述训练样本，将每个第二特征对应的每个所述事件的平均发生概率作为新的第二特征，获得每个所述训练样本的新的特征集合；

所述组合模块，用于针对每个所述训练样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征；

所述训练模块，用于将每个组合特征采用随机森林方法进行机器学习训练，获得分类模型。

可选地，所述第二获取模块具体用于：

可选地，所述组合模块具体用于：

可选地，所述组合模块用于针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征的步骤包括：

根据第一滑动窗口获取多个第一组合特征；

根据第二滑动窗口获取多个第二组合特征；

所述训练模块具体用于：

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例中，针对每个训练样本集，通过将训练样本中的每个第二特征计算出该第二特征对应的各个时间的平均发生概率，然后根据各个第二特征对应的平均发生概率更新各个训练样本的特征集合中的第二特征，再将更新后的特征进行特征组合并进行分类模型训练。更新后的特征集合中，充分体现了各个第二特征的各种状态的特点，因此，本申请实施例中，根据更新后的特征来获得组合特征从而进行分类模型训练，能够充分利用第二特征的特点，极大地提高分类模型的预测精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例提供的分类模型训练设备的结构示意框图；

图2是本申请实施例提供的分类模型训练方法的流程示意图一；

图3是本申请实施例提供的分类模型训练方法的流程示意图二；

图4是本申请实施例提供的分类模型训练方法的流程示意图三；

图5是本申请实施例提供的分类模型训练方法的流程示意图四；

图6是本申请实施例提供的分类模型训练装置的结构示意图。

图标：100-分类模型训练设备；110-分类模型训练装置；111-第一获取模块；112-第二获取模块；113-计算模块；114-替换模块；115-组合模块；116-训练模块；120-存储器；130处理器。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参见图1，图1是本申请实施例提供的分类模型训练设备100的结构示意框图，所述分类模型训练设备100包括分类模型训练装置110、存储器120和处理器130，存储器120和处理器130相互之间直接或间接电性连接，用于实现数据交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述分类模型训练装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述分类模型训练设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述分类模型训练装置110所包括的软件功能模块及计算机程序等。

请参见图2，图2是本申请实施例提供的分类模型训练方法的流程示意图，所述方法包括步骤S110-步骤S160。以下对步骤S110-步骤S160进行详细阐述。

步骤S110，获取多个训练样本集，每个所述训练样本集包括多个训练样本，每个所述训练样本包括描述矿井状态的多个特征组成的特征集合以及表征对应矿井的安全状态的标签组成，所述多个特征包括第一特征和第二特征。

本实施例中，所述特征是用于描述矿井状态的标识，所述矿井状态是指矿井的属性情况，例如，矿井状态可以包括，但不限于，矿井的规范程度，或者工具损伤等级，或者培训技能等级，或者工作时长，或者矿井深度，或者工作年限中的至少一个等等。在本步骤中，所述特征中的每个特征可以是一个字段。

表征矿井的安全状态的标签，可以是，但不限于，表示矿井的安全程度的标识。特征集合是包括各个可能对矿井的安全状态产生影响的特征的集合，例如向量集等。特征集合中需要进行进一步变换的特征是第二特征，特征集合中第二特征以外的特征，均是第一特征。例如，第二特征可以是对矿井的安全程度影响较大的因素对应的特征。

请参见图3，可选地，本实施例中，步骤S110可以包括步骤S111-步骤S113。

步骤S111，获取多个训练样本构成的总样本集。

步骤S112，从所述总样本集中获取多个训练样本。

本实施例用于多次获取总样本集中的一定比例的训练样本，使每次获取的训练样本构成一个训练样本集，从而获取多个训练样本集，其中，每个训练样本集中的训练样本数量少于总样本集中的训练样本数量，也就是说，每个训练样本集均是总样本集的子集。例如，总样本集的训练样本数量可以是1000个，每次取样时，可以从总样本集中随机抽取30％的训练样本(300个)来构成一个训练样本集。重复取样5次时，便可以获得5个训练样本集。

本实施例中，多次随机抽取多个训练样本来获得训练样本集的方式，能够减少最终获得的分类模型的偏差。

请继续参见图2，步骤S120，针对每个训练样本集，获取各训练样本中各第二特征对应的多个事件的发生概率。

也就是，针对每个训练样本集，获取每个所述训练样本中每个第二特征对应的多个事件的发生概率。

可选地，本实施例中，步骤120的具体包括：针对每个训练样本集，依次将每个第二特征作为因变量，将特征集合中，除因变量之外的第一特征作为自变量，采用逻辑回归模型进行预测，获得该第二特征对应的多个事件的发生概率。

其中，所述事件是指每个第二特征可能的属性状态，例如，对于工具损伤等级这一第二特征而言，工具损伤等级可以分为A、B和C共3个等级，那么工具损伤等级对应的事件包括A、B和C这三个事件。对于矿井规范程度这一第二特征而言，可以分为规范和不规范，也就是说，矿井规范程度对应的事件包括规范和不规范。当需要预测工具损伤等级对应的事件A、B和C各自的发生概率时，便可以将工具损伤等级作为因变量，特征集合中，除工具损伤等级这一项之外的其他特征作为自变量，然后采用逻辑回归模型预测事件A、B和C各自的发生概率。

本实施例中，第二特征可以有多个，例如，在上述例子中的100个特征中，可以有10个是第二特征。本实施例用于通过逻辑回归模型来对进一步对第二特征进行变换，这样，便可以将第二特征中对最终分类结果产生影响的各个部分分离开来，从而使得第二特征的特点更加详细。例如，工具损伤等级这一第二特征经过逻辑回归模型后，便可以得到事件A、B、C对应的概率分别为10％、75％、15％。

对于每个训练样本集中均进行步骤S120的处理过程，便可以获得每个训练样本集中的各个训练样本的第二特征对应的各个事件的发生概率。

步骤S130，在该训练样本集中，计算每个第二特征对应的每个事件的平均发生概率。

具体地，在该训练样本集中，针对每个所述第二特征，计算该第二特征对应的每个所述事件的平均发生概率。

本实施例用于计算各个训练样本集中每个第二特征对应的事件的平均发生概率。仍然以包括5个训练样本(分别为训练样本T1、T2、T3、T4和T5)的训练样本集为例，如果需要计算该训练样本集中工具损伤等级对应的A、B和C这三个事件各自的平均发生概率，那么，便将T1、T2、T3、T4和T5这5个训练样本各自的事件A的发生概率求平均获得事件A的平均发生概率A1，将T1、T2、T3、T4和T5这5个训练样本各自的事件B的发生概率求平均获得事件B的平均发生概率B1，将T1、T2、T3、T4和T5这5个训练样本各自的事件C的发生概率求平均获得事件C的平均发生概率C1。

对于每一个训练样本集都进行本实施所述的步骤S130，便可以获得各个训练样本集中每个第二特征对应的每个事件的平均发生概率。

步骤S140，根据第二特征对应的每个事件的平均发生概率获取训练样本的新的特征集合。

具体地，针对每个所述训练样本，将每个第二特征对应的每个所述事件的平均发生概率作为新的第二特征，获得每个所述训练样本的新的特征集合。

本实施例用于在同一个训练样本集中，采用该训练样本集中各个第二特征对应的各个事件的平均发生概率替换该训练样本集中的每个训练样本的特征集合中的第二特征，获得新的特征集合。以上述例子中，事件A、B和C为例，由于在一个训练样本集中，事件A、B和C的平均发生概率为A1、B1和C1，此时，便可以将A1、B1和C1作为一个整体，替换掉工具损伤等级这一第二特征。

步骤S150，分别对每个训练样本的新特征集合进行组合，获得多个组合特征。

具体地，针对每个所述训练样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征。

可选地，本实施例中，针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征。

本实施例中，所述预设规则可以是预设的滑动窗口以及每个滑动窗口对应的滑动规律。

请参见图4，具体地，本实施例中，所述针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征的步骤可以具体包括步骤S151-步骤S152。

步骤S151，根据第一滑动窗口获取多个第一组合特征。

具体地，本实施例中，可以按照以下方式获取第一组合特征。将新的特征集合的中所有特征逐次排列，第一次取组合特征时，从第一个特征开始依次取第一预设数量个特征，第二次开始取组合特征时，从第二个特征开始依次取第一预设数量个特征，直至最后一个特征在所取的第一预设数量个特征中为止。

步骤S152，根据第二滑动窗口获取多个第二组合特征。

具体地，本实施例中，可以按照以下方式获取第二组合特征。将新的特征集合的中所有特征逐次排列，第一次取组合特征时，从第一个特征开始依次取第二预设数量个特征，第二取组次开始合特征时，从第二个特征开始依次取第二预设数量个特征，直至最后一个特征在所取的第二预设数量个特征中为止。

仍然以每个训练样本包含100个特征为例，第一滑动窗口可以包括5个特征，也就是说，可以将新的特征集合的特征按照一定顺序排列，然后从第一个特征开始，取5个特征，接着再取第一个特征之后的5个特征，接着再取第二个特征之后的5个特征……直至一个特征在所取的5个特征中为止，这样，总共可以获得96个第一组合特征。第二滑动窗口可以包括3个特征，也就是说，可以将新的特征集合的特征按照一定顺序排列，然后从第一个特征开始，取3个特征，接着再取第一个特征之后的3个特征，接着再取第二个特征之后的3个特征……直至一个特征在所取的3个特征中为止，这样，总共可以获得98个第二组合特征。

请继续参见图2，步骤S160，将每个组合特征采用随机森林方法进行机器学习训练，获得分类模型。

请继续参见图4，步骤S160包括步骤S161-步骤S162。

步骤S161，将所述第一组合特征输入第一随机森林模型，所述第二组合特征输入第二随机森林模型，获得多个融合特征。

本实施例中，将所述第一组合特征输入第一随机森林模型会获得一部分融合特征，所述第二组合特征输入第二随机森林模型也会获得一部分融合特征。其中，每个第一组合特征会对应得到一个矿井安全状态的预测结果，每个第二组合特征会对应得到一个矿井安全状态的预测结果，每个矿井安全状态的预测结果包括矿井安全状态的各个预设安全等级的出现的概率。例如，矿井安全状态共分为3个安全等级，这样，每个等级的发生概率就是一个融合特征。对于上述例子中的96个第一组合特征而言，则可以获得288个融合特征，对于上述例子中的98个第二组合特征而言，则可以获得294个融合特征。

步骤S162，将所述多个融合特征分别输入多个不同的第三随机森林模型，获得分类模型。

本实施例用于将获得的所有融合特征作为一个整体分别输入多个第三随机森林模型。

步骤S162中的多个第三随机森林模型可以是与第一随机森林模型和第二随机森林模型均不同的随机森林模型。

本实施例用于根据第一组合特征和第二组合特征并采用随机森林模型进行训练，从而获得可以预测矿井安全状态等级的分类模型。

请参见图5，可选地，本实施例中，所述方法还包括步骤S210-步骤S250。

步骤S210，获取待预测样本，所述待预测样本包括描述待预测的矿井状态的多个特征组成的特征集合，所述特征集合包括第一特征和第二特征。

该步骤的特征集合，步骤S110中定义相同，在此不再赘述。

步骤S220，获取待预测样本中每个第二特征对应的事件的发生概率。

关于该步骤的特征集合与，步骤S110中定义相同，在此不再赘述。

步骤S230，将每个所述事件的发生概率作为新的第二特征，获得每个所述待预测样本的新的特征集合。

步骤S230的原理与步骤S130的原理相同，关于本步骤的具体实施方式，请参见步骤S130的相关描述。

步骤S240，针对每个所述待预测样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征。

本实施例中，步骤S240的原理与步骤S150的原理相同，关于本步骤的具体实施方式，请参见步骤S150的相关描述。

步骤S250，将待预测样本的所述多个组合特征输入所述分类模型，获得待预测样本的状态预测结果。

请参见图6，本申请的另一目的在于提供一种分类模型训练装置110，所述装置包括第一获取模块111、第二获取模块112、计算模块113、替换模块114、组合模块115和训练模块116；所述分类模型训练装置110包括一个可以软件或固件的形式存储于所述存储器120中或固化在所述分裂模型训练设备的操作系统(operating system，OS)中的软件功能模块。

所述第一获取模块111，用于获取多个训练样本集，每个所述训练样本集包括多个训练样本，每个所述训练样本包括描述矿井状态的多个特征组成的特征集合以及表征对应矿井的安全状态的标签组成，所述多个特征包括第一特征和第二特征。

本实施例中的第一获取模块111用于步骤S110，关于所述第一获取模块111的具体描述可参照对所述步骤S110的描述。

所述第二获取模块112，用于针对每个训练样本集，获取每个所述训练样本中每个第二特征对应的多个事件的发生概率。

本实施例中的第二获取模块112用于步骤S120，关于所述第二获取模块112的具体描述可参照对所述步骤S120的描述。

所述计算模块113，用于在该训练样本集中，针对每个所述第二特征，计算该第二特征对应的每个所述事件的平均发生概率。

本实施例中的计算模块113用于步骤S130，关于所述计算模块113的具体描述可参照对所述步骤S130的描述。

所述替换模块114，用于针对每个所述训练样本，将每个第二特征对应的每个所述事件的平均发生概率作为新的第二特征，获得每个所述训练样本的新的特征集合。

本实施例中的替换模块114用于步骤S140，关于所述替换模块114的具体描述可参照对所述步骤S140的描述。

所述组合模块115，用于针对每个所述训练样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征。

本实施例中的组合模块115用于步骤S150，关于所述组合模块115的具体描述可参照对所述步骤S150的描述。

所述训练模块116，用于将每个组合特征采用随机森林方法进行机器学习训练，获得分类模型。

本实施例中的训练模块116用于步骤S160，关于所述训练模块116的具体描述可参照对所述步骤S160的描述。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种分类模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述针对每个训练样本集，获取每个所述训练样本中每个第二特征对应的多个事件的发生概率的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述针对每个所述训练样本，对所述新的特征集合中的特征按照预设规则进行组合，获得多个组合特征的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征的步骤包括：

根据第一滑动窗口获取多个第一组合特征；

根据第二滑动窗口获取多个第二组合特征；

5.根据权利要求1所述的方法，其特征在于，所述获取多个训练样本集的步骤包括：

获取多个训练样本构成的总样本集；

从所述总样本集中获取多个训练样本；

6.据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取待预测样本中每个第二特征对应的事件的发生概率；

7.一种分类模型训练装置，其特征在于，所述装置包括第一获取模块、第二获取模块、计算模块、替换模块、组合模块和训练模块；

8.根据权利要求7所述的装置，其特征在于，所述第二获取模块具体用于：

9.根据权利要求7所述的装置，其特征在于，所述组合模块具体用于：

10.根据权利要求9所述的装置，其特征在于，所述组合模块用于针对每个所述训练样本，在所述新的特征集合的所有特征中，以滑动窗口的方式获取滑动窗口内的特征，获得多个组合特征的步骤包括：

根据第一滑动窗口获取多个第一组合特征；

根据第二滑动窗口获取多个第二组合特征；

所述训练模块具体用于：