CN112036483A

CN112036483A - 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质

Info

Publication number: CN112036483A
Application number: CN202010897663.3A
Authority: CN
Inventors: 陈远波
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-04
Anticipated expiration: 2040-08-31
Also published as: CN112036483B

Abstract

本申请属于人工智能领域，涉及基于AutoML的对象预测分类方法，包括:获取多个对象的原始数据；获取包含多个模型的预设模型框架，基于各对象的原始数据构建与各模型相对应的特征，并将构建的各特征进行组合编码生成组合特征集，预设模型框架基于AutoML从多个模型框架中筛选获得；将组合特征集输入预设模型框架得到各对象的预测分类标签，实现各对象的预测分类。本申请还提供基于AutoML的对象预测分类装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，待预测分类的多个对象对应的原始数据可存储于区块链中。本申请通过AutoML挑选出最优的算法组合，实现对多个模型框架的筛选，通过基于最优算法组合的模型框架对各个对象进行预测分类，预测准确度更高。

Description

基于AutoML的对象预测分类方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及基于AutoML的对象预测分类方法、装置、计算机设备及存储介质。

背景技术

在对一些目标对象可能的分类进行预测时，往往建立基于机器学习的分类预测模型，机器学习的应用需要大量的人工干预，这些人工干预表现在征工程、模型构建、参数优化等机器学习的各个方面，每一个部分需要具备专业知识的数据科学家来完成，建立起数据到计算的桥梁，然而，即使是数据科学家也需要花费大量的精力来进行算法与模型的选择，机器学习的门槛增加了分类预测模型建立的难度和复杂度，导致无法快速得到满足分类预测要求的模型。

发明内容

本申请实施例的目的在于提出一种基于AutoML的对象预测分类方法、装置、计算机设备及存储介质，以解决现有技术中目标对象的分类预测模型构建速度慢效率低的问题。

为了解决上述技术问题，本申请实施例提供一种基于AutoML的对象预测分类方法，采用了如下所述的技术方案：

一种基于AutoML的对象预测分类方法，包括下述步骤：

获取待预测分类的多个对象对应的原始数据；

获取预设模型框架，所述预设模型框架包含多个模型，基于各所述对象的原始数据构建与各所述模型相对应的特征，并将构建的各所述特征进行组合编码生成组合特征集，其中，所述预设模型框架基于AutoML从多个模型框架中筛选获得；

将所述组合特征集输入所述预设模型框架，得到各所述对象的预测分类标签，实现各所述对象的预测分类。

为了解决上述技术问题，本申请实施例还提供一种基于AutoML的对象预测分类装置，采用了如下所述的技术方案：

一种基于AutoML的对象预测分类装置，包括：

数据获取模块，用于获取待预测分类的多个对象对应的原始数据；

特征生成模块，用于获取预设模型框架，所述预设模型框架包含多个模型，基于各所述对象的原始数据构建与各所述模型相对应的特征，并将构建的各所述特征进行组合编码生成组合特征集，其中，所述预设模型框架基于AutoML从多个模型框架中筛选获得；

分类预测模块，用于将所述组合特征集输入所述预设模型框架，得到各所述对象的预测分类标签，实现各所述对象的预测分类。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于AutoML的对象预测分类方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于AutoML的对象预测分类方法的步骤。

与现有技术相比，本申请实施例提供的基于AutoML的对象预测分类方法、装置、计算机设备及存储介质主要有以下有益效果：

通过AutoML使用自动化的数据驱动方式来从大量的算法中挑选出最优的算法组合，实现对多个模型框架的筛选，自动决定最佳的方案，用户不需要学习各种机器学习的算法也可以实现模型框架的生成，通过基于最优算法组合的模型框架对各个对象进行预测分类，可以获得更好的预测效果，预测准确度更高。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，下面描述中的附图对应于本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于AutoML的对象预测分类方法的一个实施例的流程图；

图3是根据本申请的基于AutoML从多个模型框架中筛选获得预设模型框架的一个实施例的流程图；

图4是根据本申请的基于AutoML的对象预测分类装置的一个实施例的结构示意图；

图5根据本申请的基于AutoML的对象预测分类装置的另一个实施例的结构示意图；

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于AutoML的对象预测分类方法一般由服务器执行，相应地，基于AutoML的对象预测分类装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的基于AutoML的对象预测分类方法的一个实施例的流程图。所述的基于AutoML的对象预测分类方法包括以下步骤：

S201、获取待预测分类的多个对象对应的原始数据；

S202、获取预设模型框架，所述预设模型框架包含多个模型，基于各所述对象的原始数据构建与各所述模型相对应的特征，并将构建的各所述特征进行组合编码生成组合特征集，其中，所述预设模型框架基于AutoML从多个模型框架中筛选获得；

S203、将所述组合特征集输入所述预设模型框架，得到各所述对象的预测分类标签，实现各所述对象的预测分类。

下面对上述步骤进行展开说明。

对于步骤S201，其中的多个对象可以是用户或者产品，分类可以看做是对对象添加指定的多个标签中的一个，比如二分类对应两个标签，对对象进行预测分类后，对象将被添加其中一个标签；多个对象的分类可基于对象本身的属性或对象的行为信息来确定，比如当预测分类的对象为用户时，所述原始数据对应有个人身份信息、与分类场景相关的用户行为信息等，当预测分类的对象为产品时，所述原始数据则有产品信息或产品使用信息、产品销售信息等。

以应用于保险代理人甄选留存场景为例，即对新入司保险代理人进行留存的预测分类，具体为对保险代理人添加预测标签，预测标签包括“流失”和“留存”，此时所述原始数据为保险代理人的信息，包括保险代理人提交入司前后的数据，基于保险代理人的信息给出保险代理人“流失”或“留存”的预测标签，实现对保险代理人的分类，以一个具体实例进行说明，在保险代理人入司流程过程中，推荐人在指定应用程序上对符合要求的的名下保险代理人进行入司操作，操作流程包括在应用程序中依次点击增员管理、自主入司进行信息录入(如年龄，性别、学历等数据等)，最后确认入司，完成保险代理人的信息提交，后续步骤S201将自动获取应用程序中的信息录入数据并获取保险代理人的其他行为指标数据，步骤S202和步骤S2O3根据获得的指标数据对保险代理人进行预测分类，并向应用程序返回预测分类结果，为各个机构判断是否让保险代理人上岗提供参考。

当然，本申请实施例的对象不限于用户或产品，对于任何需要进行分类预测的场景均适用本申请提供的方法，在此不做限定。

在一些实施例中，本步骤S201在获取到多个对象的原始数据后，可对原始数据进行初步的处理，包括数据的清洗、补全、转换等，以使数据符合后续步骤S202和步骤S2O3处理的要求。

对于步骤S202，本实施例中的预设模型框架为多个模型组合后形成，基于各个对象的原始数据分别构建与各模型相对应的特征，再将特征进行编码组合形成组合特征,比如GBDT+XGBoost由两个模型构成的模型框架，分别构建GBDT和XGBoost对应的特征后，通过GBDT和XGBoost对构建的特征建立森林结构(多棵树的结构)，树结构中的叶子节点可认为是由不同几个(取决于叶子节点的深度)特征经过组合过后的组合特征，然后对各种的组合特征进行重新编码，得到最终的组合特征集。

AutoML(Automatic Machine Learning，自动化机器学习)是将机器学习应用于现实问题的端到端流程自动化的过程，从传统机器学习模型出发，AutoML从特征工程、模型构建、超参优化三方面实现自动化。

在本实施例中，如图3所示，基于AutoML从多个模型框架中筛选获得所述预设模型框架包括：

S301、获取历史数据，所述历史数据对应多个历史对象；

S302、获取多个模型框架，基于所述历史数据构建与每个所述模型框架相对应的组合特征，形成多个训练集和多个验证集；

S303、将每个所述训练集输入对应的所述模型框架中进行模型训练，完成训练后将所述验证集输入对应的所述模型框架中，根据各所述模型框架的输出获取模型评价参数，根据所述模型评价参数从所述多个模型框架中筛选得到所述预设模型框架。

其中，S301历史数据的获取类似于前述S201的原始数据的获取过程。

本实施例S302中多个模型框架的获取的最终目的是为了提升模型预测精度，运用不同的组合得到多个具有不同预测精度的模型框架，然后针对各模型框架生成特征组合，作为最后模型框架的输入特征，若干输入特征可分组成训练集和验证集，训练集和验证集用于对对应的模型框架进行训练和验证，以得到预测精度最佳的模型框架。

在一些实施例中，所述获取多个模型框架包括：判断当前是否存在已构建的与对象预测分类相关的模型框架；若存在则直接获取已构建的模型框架，否则读取配置文件，根据所述配置文件获取至少一个模型框架的模型参数，根据所述模型参数构建至少一个模型框架。

具体的，在获取模型框架时，服务器端可能存在已经构建的与对象预测分类相关模型框架，此时可以直接获取该模型框架的接口即可，如果不存在已构建的模型框架，或者已构建的模型框架数量小于预设阈值，则需构建新的模型关键，具体通过配置文件来实现，配置文件至少包括模型框架对应的算法及模型参数的取值区间的相关信息，比如在保险代理人甄选留存场景，配置文件中配置的算法主要包括GBDT(Gradient Boosting DecisionTree，梯度提升迭代决策树)、DNN(Deep Neural Networks，深度神经网络)、LR(LogisticRegression，逻辑回归)、XGBoost(eXtreme Gradient Boosting，极端梯度提升)等算法，基于这些算法和对应的模型参数的取值可以构建多个模型框架，比如GBDT+DNN,GBDT+LR,XGBoost+DNN,XGBoost+LR,GBDT+XGBoost，GBDT+XGBoost+DNN,GBDT+XGBoost+LR等模型框架。

对于S302中组合特征的构建，下面以GBDT+XGBoost模型框架为例说明。

对于GBDT：首先使用GBDT对目标变量进行模型训练，然后保留每个树信息，并逐个解析为从根节点到叶子节点的知识条目，即特征，所有知识条目累加在一起，构成所有特征。然后对所有需要训练和预测的数据在每个特征上进行遍历，每条数据若能从特征开始顺利到达结尾，则在此特征上赋值为1，否则赋值为0，具体的，赋值过程包括将所有的叶子节点按照所属树进行分群，因为同一棵树下的叶子节点具有互斥性，如果一个样本落入了一个叶子节点，那么就不可能落入同一棵树下其它的叶子节点，如果某个样本落入了这个叶子节点中，则标记成1，否则就标记为0，即完成前述特征上的赋值，即实现编码。

对于XGBoost：首先使用XGBoost对目标变量进行模型训练，然后保留每个树信息，并逐个解析为从根节点到叶子节点的知识条目，所有知识条目累加在一起，构成所有特征。然后对所有需要训练和预测的数据在每个特征上进行遍历，每条数据若能从特征开始顺利到达结尾，则在此特征上赋值为1，否则赋值为0，具体赋值过程可参考前述相关内容。

最后将GBDT和XGBoost得到的特征被赋值后的结果拼接在一起形成组合特征，组成最终的训练数据和验证数据，即为所述训练集和所述特征集。

在一些实施例中，在步骤S302中基于所述历史数据构建与每个所述模型框架相对应的组合特征时，所述方法还包括：对基于所述历史数据构建的组合特征进行稳定性筛选。具体的，前述经过模型框架生成的组合特征，往往和目标变量的相关性更高，对叶子节点所表示的组合特征经过稳定性筛选过后，能够从整个森林(由多个树结构组成)较多的叶子节点中筛选出少量的相关性更高叶子节点，即高阶组合特征，例如假设XGBOOST森林中有1000棵树，树的最大深度为5，则最多生成32000个叶子节点，然后通过稳定性筛选，最后剩下5000个叶子节点，分属于原来的950棵树，意味着有50棵树所有的叶子节点经过稳定性筛选后都被筛选掉而没有入选。

在进一步的实施例中，所述对基于所述历史数据构建的组合特征进行稳定性筛选包括：确定所述历史数据的时间跨度，对所述时间跨度进行分区，得到多个时间区间，基于各所述时间区间计算基于所述历史数据构建的组合特征的饱和度和重要度，根据得到的所述饱和度和所述重要度对基于所述历史数据构建的组合特征进行稳定性筛选。

具体的，在上述模型和模型组合中分别用多个时间区间(比如多个月)的历史数据对每个知识条目做饱和度和重要性的结果统计，最后根据多种筛选规则，去除掉不符合要求的知识条目，保留的知识条目即为基于所述历史数据构建的最终的组合特征。

假设组合特征集包含六个月的数据，则测算每个叶子节点在训练月份的饱和度和重要性，将波动大的叶子节点剔除；其中饱和度筛选包括获取落在叶子节点的历史对象的比率，将比率较低的叶子节点剔除，即剔除组合特征较少的历史对象；重要度筛选的过程则是基于落在叶子节点的历史对象所具有的具体标签，结合上述赋值过程，当完成1或0的赋值后，计算历史对象的标签赋值为1所占的比例，然后与整体历史对象中标签赋值为1的占比进行对比，得到相对重要性(即重要度)，通过相对重要性剔除没有区分度的叶子节点；本实施例中落在叶子节点的历史对象比率低或相对重要性低，意味着叶子节点波动大，也即稳定性差，需要剔除，由此可以实现对基于所述历史数据构建的组合特征的稳定性筛选。

在一些实施例中，在步骤302中根据所述模型参数构建至少一个模型框架时，所述方法还包括：对所述历史数据进行预处理，所述预处理至少包括one-hot编码处理和归一化处理中的一种。具体的，可结合one-hot编码、归一化等相应的数据处理方式进行模型框架的构建，可相应地构建出GBDT+XGBoost+原始特征one-hot，原始特征one-hot+DNN，原始特征one-hot+GBDT+XGBoost+DNN，原始特征one-hot+GBDT+XGBoost+LR等模型框架。其中，通过原始特征one-hot可对原始数据离散值进行处理，通过归一化可对连续型数据进行处理，归一化处理方式可为：x*＝(x-min)/(max-min)，其中x*为归一化值，x为归一化处理前的数值，max为待预测对象原始数据的最大值，min为待预测对象原始数据的最小值。

对于步骤303，完成模型框架的训练后，将验证集输入对应的模型框架进行效果对比。在一些实施例中，所述根据各所述模型框架的输出获取模型评价参数包括：将各所述验证集输入对应的各所述模型框架后得到输出结果进行排序，将所述排序结果划分为N等份，得到N个分位，计算各所述模型框架对所有所述历史对象的目标预测分类在各所述分位的命中率、覆盖率和分位差，得到所述模型评价参数；其中N为不小于2的整数。此时进行模型框架的效果对比即为比较各模型框架对所有对象的目标预测分类在各个分位的命中率、覆盖率以及分位差，比如在保险代理人甄选留存场景中，假如目标预测分类为“留存”，则模型框架评估方式为比较各模型框架预测的留存对象在各个分位的命中率、覆盖率以及分位差。其中，分位命中率是计算累计区间正样本的比例，具体指每个分位中留存的对象数量占当前分位中对象总数的百分比；分位覆盖率计算累计区间正样本的人数除以总正样本的人数，具体指每个分位中留存的对象数量占总留存数量的百分比；分位差是指排序的前70分位覆盖正样本的比例与排序的后30分位覆盖负样本的比例差值。

分位的命中率和覆盖率用于判断模型框架效果，模型预测能力好，即模型区分能力较强，则各个区间分位的命中率和覆盖率是单调的；而对分位差而言，在模型框架预测结果中，分位差越大，模型框架预测效果越好。结合分位的命中率、覆盖率以及分位差即可有效评估模型框架的优劣。

对于步骤S203，组合特征集的形成与上述基于AutoML从多个模型框架中筛选获得的模型框架的组合特征集的生成过程一致，比如以保险代理人甄选留存场景为例，在构建的所有模型框架中筛选出“原始特征one-hot+GBDT+XGBoost+DNN”这一模型框架，则本步骤的组合特征集的生成过程与模型框架“原始特征one-hot+GBDT+XGBoost+DNN”的组合特征集的生成过程相同。在获得预测分类标签后可以为实际应用提供决策参考，保险代理人甄选留存场景中，将预测标签为“留存”作为对象可以被赋予更多的资源(佣金比例、职位等)的参考。

本申请提供的基于AutoML的对象预测分类方法通过AutoML使用自动化的数据驱动方式来实现从大量的算法中挑选出最优的算法组合，用户只要提供数据和包含模型框架及模型参数取值区间的配置信息服务器端就能够自动决定最佳的方案，实现对多个模型框架的筛选，用户不需要学习各种机器学习的算法也可以实现模型框架的生成，通过基于最优算法组合的模型框架对各个对象进行预测分类，可以获得更好的预测效果，预测准确度更高。

需要强调的是，为进一步保证信息的私密和安全性，待预测分类的多个对象对应的原始数据和历史对象的历史数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4，作为对上述图2所示方法的实现，本申请提供了一种基于AutoML的对象预测分类装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的基于AutoML的对象预测分类装置包括：数据获取模块401、特征生成模块402以及分类预测模块403。

在本实施例中，所述数据获取模块401用于获取待预测分类的多个对象对应的原始数据；数据获取模块401进行数据获取的对象可以是用户或者产品。当然，本申请实施例的对象不限于用户或产品，对于任何需要进行分类预测的场景均适用本装置，在此不做限定。

所述特征生成模块402用于获取预设模型框架，所述预设模型框架包含多个模型，基于各所述对象的原始数据构建与各所述模型相对应的特征，并将构建的各所述特征进行组合编码生成组合特征集，其中，所述预设模型框架基于AutoML从多个模型框架中筛选获得；

所述分类预测模块403用于将所述组合特征集输入所述预设模型框架，得到各所述对象的预测分类标签，实现各所述对象的预测分类。分类预测模块403执行的分类操作可以看做是对对象添加指定的多个标签中的一个，比如二分类对应两个标签，对对象进行预测分类后，对象将被添加其中一个标签；多个对象的分类可基于数据获取模块401获取的对象本身的属性或对象的行为信息来确定，比如当预测分类的对象为用户时，所述原始数据对应有个人身份信息、与分类场景相关的用户行为信息等，当预测分类的对象为产品时，所述原始数据则有产品信息或产品使用信息、产品销售信息等。

本申请提供得基于AutoML的对象预测分类装置可以应用于保险代理人甄选留存场景，具体应用过程可参考上述方法实施例的相关内容，在此不作展开。

在一些实施例中，数据获取模块401在获取到多个对象的原始数据后，还可用于对原始数据进行初步的处理，包括数据的清洗、补全、转换等，以使数据符合后续特征生成模块402和分类预测模块403的处理要求。

本实施例中，特征生成模块402获取的预设模型框架为多个模型组合后形成,比如GBDT+XGBoost由两个模型构成的模型框架，特征生成模块402分别构建GBDT和XGBoost对应的特征后，通过GBDT和XGBoost对构建的特征建立森林结构(多棵树的结构)，树结构中的叶子节点可认为是由不同几个(取决于叶子节点的深度)特征经过组合过后的组合特征，然后对各种的组合特征进行重新编码，得到最终的组合特征集。

在本实施例中，如图5所示，所述基于AutoML的对象预测分类装置还包括模型框架筛选模块404，用于基于AutoML从多个模型框架中筛选获得所述预设模型框架。

具体的，参考图5，所述模型框架筛选模块404包括数据获取单元4041、特征生成单元4042和模型筛选单元4043，其中，所述数据获取单元4041用于获取历史数据，所述历史数据对应多个历史对象；所述特征生成单元4042用于获取多个模型框架，基于所述历史数据构建与每个所述模型框架相对应的组合特征，形成多个训练集和多个验证集；所述模型筛选单元4043用于将每个所述训练集输入对应的所述模型框架中进行模型训练，完成训练后将所述验证集输入对应的所述模型框架中，根据各所述模型框架的输出获取模型评价参数，根据所述模型评价参数从所述多个模型框架中筛选得到所述预设模型框架。

其中，数据获取单元4041执行历史数据的获取过程类似于前述数据获取模块401执行原始数据的获取过程。

本实施例所述特征生成单元4042进行多个模型框架的获取的最终目的是为了提升模型预测精度，运用不同的组合得到多个具有不同预测精度的模型框架，然后针对各模型框架生成特征组合，作为最后模型框架的输入特征，若干输入特征可分组成训练集和验证集，训练集和验证集可用作所述模型筛选单元4043对对应的模型框架进行训练和验证的数据，以得到预测精度最佳的模型框架。

在一些实施例中，参考图5，上述模型框架筛选模块404还包括模型构建单元4044，其用于构建模型框架。进一步地，所述特征生成单元4042获取多个模型框架时，具体用于判断当前是否存在已构建的与对象预测分类相关的模型框架，若存在则直接获取已构建的模型框架，否则通过上述模型构建单元4044读取配置文件，根据所述配置文件获取至少一个模型框架的模型参数，根据所述模型参数构建至少一个模型框架。

具体的，在获取模型框架时，服务器端可能存在已经构建的与对象预测分类相关模型框架，此时可以直接获取该模型框架的接口即可，如果不存在已构建的模型框架，或者已构建的模型框架数量小于预设阈值，则需构建新的模型关键，具体通过配置文件来实现，配置文件至少包括模型框架对应的算法及模型参数的取值区间的相关信息，关于模型框架的构建过程可参考上述方法实施例中在保险代理人甄选留存场景中构建模型框架的相关内容，在此不作展开。同样的，所述特征生成单元4042进行组合特征的构建也可参考上述方法实施例中以GBDT+XGBoost模型框架为例构建组合特征的相关内容。

在一些实施例中，所述特征生成单元4042在基于所述历史数据构建与每个所述模型框架相对应的组合特征时，还用于对基于所述历史数据构建的组合特征进行稳定性筛选。具体的，前述经过模型框架生成的组合特征，往往和目标变量的相关性更高，对叶子节点所表示的组合特征经过稳定性筛选过后，能够从整个森林(由多个树结构组成)较多的叶子节点中筛选出少量的相关性更高叶子节点。

在进一步的实施例中，所述特征生成单元4042在对基于所述历史数据构建的组合特征进行稳定性筛选时，具体用于确定所述历史数据的时间跨度，对所述时间跨度进行分区，得到多个时间区间，基于各所述时间区间计算基于所述历史数据构建的组合特征的饱和度和重要度，根据得到的所述饱和度和所述重要度对基于所述历史数据构建的组合特征进行稳定性筛选。所述特征生成单元4042基于时间区间进行稳定性筛选的相关内容可参考上述方法实施例的相关内容，在此不作展开。

在一些实施例中，所述模型构建单元4044在根据所述模型参数构建至少一个模型框架时，还用于对所述历史数据进行预处理，所述预处理至少包括one-hot编码处理和归一化处理中的一种。具体的预处理过程可参考上述方法实施例的相关内容，在此不作展开。

在一些实施例中，所述模型筛选单元4043根据各所述模型框架的输出获取模型评价参数时，具体用于将各所述验证集输入对应的各所述模型框架后得到输出结果进行排序，将所述排序结果划分为N等份，得到N个分位，计算各所述模型框架对所有所述历史对象的目标预测分类在各所述分位的命中率、覆盖率和分位差，得到所述模型评价参数；其中N为不小于2的整数。此时进行模型框架的效果对比即为比较各模型框架对所有对象的目标预测分类在各个分位的命中率、覆盖率以及分位差，具体对比过程可以参考上述方法实施例中在保险代理人甄选留存场景中命中率、覆盖率以及分位差的相关内容，在此不作展开。分位的命中率和覆盖率用于判断模型框架效果，模型预测能力好，即模型区分能力较强，则各个区间分位的命中率和覆盖率是单调的；而对分位差而言，在模型框架预测结果中，分位差越大，模型框架预测效果越好。结合分位的命中率、覆盖率以及分位差即可有效评估模型框架的优劣。

在本实施例中，所述分类预测模块403采用的组合特征集的形成与上述基于AutoML从多个模型框架中筛选获得的模型框架的组合特征集的生成过程一致。所述分类预测模块403在获得预测分类标签后可以为实际应用提供决策参考，例如保险代理人甄选留存场景中，将预测标签为“留存”作为对象可以被赋予更多的资源(佣金比例、职位等)的参考。

本申请提供的基于AutoML的对象预测分类装置通过AutoML使用自动化的数据驱动方式来实现从大量的算法中挑选出最优的算法组合，用户只要提供数据和包含模型框架及模型参数取值区间的配置信息服务器端就能够自动决定最佳的方案，实现对多个模型框架的筛选，用户不需要学习各种机器学习的算法也可以实现模型框架的生成，通过基于最优算法组合的模型框架对各个对象进行预测分类，可以获得更好的预测效果，预测准确度更高。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63，所述存储器61中存储有计算机可读指令，所述处理器62执行所述计算机可读指令时实现上述方法实施例中所述的基于AutoML的对象预测分类方法的步骤，并具有与上述基于AutoML的对象预测分类方法相对应的有益效果，在此不作展开。

需要指出的是，图中仅示出了具有存储器61、处理器62、网络接口63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

在本实施例中，所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如对应于上述基于AutoML的对象预测分类方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行对应于所述基于AutoML的对象预测分类方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于AutoML的对象预测分类方法的步骤，并具有与上述基于AutoML的对象预测分类方法相对应的有益效果，在此不作展开。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于AutoML的对象预测分类方法，其特征在于，包括下述步骤：

获取待预测分类的多个对象对应的原始数据；

2.根据权利要求1所述的基于AutoML的对象预测分类方法，其特征在于，基于AutoML从多个模型框架中筛选获得所述预设模型框架包括：

获取历史数据，所述历史数据对应多个历史对象；

获取多个模型框架，基于所述历史数据构建与每个所述模型框架相对应的组合特征，形成多个训练集和多个验证集；

将每个所述训练集输入对应的所述模型框架中进行模型训练，完成训练后将所述验证集输入对应的所述模型框架中，根据各所述模型框架的输出获取模型评价参数，根据所述模型评价参数从所述多个模型框架中筛选得到所述预设模型框架。

3.根据权利要求2所述的基于AutoML的对象预测分类方法，其特征在于，所述获取多个模型框架包括：

判断当前是否存在已构建的与对象预测分类相关的模型框架；

若存在则直接获取已构建的模型框架，否则读取配置文件，根据所述配置文件获取至少一个模型框架的模型参数，根据所述模型参数构建至少一个模型框架。

4.根据权利要求3所述的基于AutoML的对象预测分类方法，其特征在于，在所述根据所述模型参数构建至少一个模型框架时，所述方法还包括对所述历史数据进行预处理，所述预处理至少包括one-hot编码处理和归一化处理中的一种。

5.根据权利要求2所述的基于AutoML的对象预测分类方法，其特征在于，在所述基于所述历史数据构建与每个所述模型框架相对应的组合特征时，所述方法还包括：对基于所述历史数据构建的组合特征进行稳定性筛选。

6.根据权利要求5所述的基于AutoML的对象预测分类方法，其特征在于，所述对基于所述历史数据构建的组合特征进行稳定性筛选包括：

确定所述历史数据的时间跨度，对所述时间跨度进行分区，得到多个时间区间，基于各所述时间区间计算基于所述历史数据构建的组合特征的饱和度和重要度，根据得到的所述饱和度和所述重要度对基于所述历史数据构建的组合特征进行稳定性筛选。

7.根据权利要求2所述的基于AutoML的对象预测分类方法，其特征在于，所述根据各所述模型框架的输出获取模型评价参数包括：

将各所述验证集输入对应的各所述模型框架后得到输出结果进行排序，将所述排序结果划分为N等份，得到N个分位，计算各所述模型框架对所有所述历史对象的目标预测分类在各所述分位的命中率、覆盖率和分位差，得到所述模型评价参数；其中N为不小于2的整数。

8.一种基于AutoML的对象预测分类装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于AutoML的对象预测分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于AutoML的对象预测分类方法的步骤。