CN113642652A

CN113642652A - 生成融合模型的方法、装置和设备

Info

Publication number: CN113642652A
Application number: CN202110939104.9A
Authority: CN
Inventors: 李招
Original assignee: Weikun Shanghai Technology Service Co Ltd
Current assignee: Weikun Shanghai Technology Service Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-12

Abstract

本申请涉及人工智能技术领域，公开了一种生成融合模型的方法、装置和设备，通过获取每一个第一子模型的历史全量数据，并基于历史全量数据计算每个第一子模型的查准率以及子模型之间的相关性系数，从而能够将相关性高且查准率小的第一子模型删除，得到第二子模型，基于第二子模型进行建模训练，得到训练后的融合模型，基于训练后融合模型，计算训练后融合模型中各第二子模型的比重分数，并将比重分数低于预设值的第二子模型淘汰，得到最终的融合模型，从而使得最终的融合模型能够对多种类型的第二子模型的数据进行融合预测，提高了融合模型的预测结果准确率。

Description

生成融合模型的方法、装置和设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种生成融合模型的方法、装置和设备。

背景技术

随着大数据和AI技术的普及，业务场景中使用了越来越多的AI模型，即使在某个单一业务场景中也可以使用多个AI模型。而每个AI模型都具有不同的开发人员、不同的AI算法、不同的数据构建思想、不同的数据范围、不同的策略侧重等等，因此多个AI模型对同一条数据可能会生成完全不一样的预测结果，这让AI模型在业务场景上的应用变的复杂和困难。为了应对这种问题，当前采取的措施是对多个AI模型的预测结果进行选举投票或平均值法，其本质都是少数服从多数。但是在部分业务场景中，例如违约场景、欺诈场景，其负样本数量远远小于正样本数量，因此对此类AI模型的预测结果进行选举投票或平均值法，预测结果的准确率较低。

申请内容

本申请的主要目的为提供一种生成融合模型的方法、装置和设备，旨在解决现有技术中多个模型应用在同一个业务场景时，其预测结果准确率较低的技术问题。

本申请提出一种生成融合模型的方法，包括：

获取每一个第一子模型的历史全量数据，其中，所述第一子模型基于决策树模型训练得到，所述历史全量数据包括历史预测结果值；

根据所述历史预测结果值，计算每一个所述第一子模型的查准率，其中，所述查准率用于衡量所述第一子模型的预测准确率；

根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型；

对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型；

获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各所述第二子模型的比重分数；

判断每一个所述第二子模型的比重分数是否低于预设阈值；

若低于预设阈值，则淘汰与低于预设阈值比重分数对应的所述第二子模型，得到最终的融合模型。

作为优选，所述获取每一个第一子模型的历史全量数据的步骤之后，包括：

获取每一个所述第一子模型历史全量数据中的多个历史预测结果值；

判断每一个所述历史预测结果值是否大于预设域值；

若所述历史预测结果值大于预设值，将该历史预测结果值判定为违约企业，并对所述违约企业进行负样本标识，得到具有负样本标识的历史预测结果值；

根据负样本标识的历史预测结果值计算每一个所述第一子模型的查准率。

作为优选，所述根据负样本标识的历史预测结果值计算每一个所述第一子模型的查准率的步骤包括：

对每一个所述第一子模型历史全量数据中的历史预测结果值进行排序，其中排序方式为从大到小；

根据排序方式，对所述历史预测结果值进行分段，得到每一个所述第一子模型的多个分段的历史预测结果值的子数据集；

分别统计每一个所述第一子模型中所述子数据集的历史预测结果值的数量与所述子数据集中进行了负样本标识的子负样本数量；

分别计算每一个所述第一子模型中每一个所述子数据集的所述子负样本数量与所述子数据集的历史预测结果值的数量的百分比，得到每一个所述第一子模型中每一个所述子数据集的查准率；

统计所有所述子数据集中进行了负样本标识的负样本数量，得到总负样本数量；

分别计算每一个所述子数据集中所述子负样本数量与所述总负样本数量的百分比，得到每一个所述第一子模型中每一个所述子数据集的查全率，其中每一个所述子数据集的查全率与查准率为对应关系；

将指定查全率对应的查准率作为所述第一子模型的查准率。

作为优选，所述根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型的步骤，包括:

根据所述历史预测结果值，计算多个所述第一子模型中任意两个所述第一子模型之间的相关性，得到任意两个所述第一子模型之间的相关性数，其中，计算公式为：

其中，cov(X，Y)表示两个不同第一子模型的相关系数，Xi代表的是标识为X的第一子模型中第i个预测结果；

表示标识为X的第一子模型中预测结果的均值，Yi代表的是标识为Y的第一子模型中第i个预测结果；

表示标识为Y的第一子模型中预测结果的均值，n表示标识为X的第一子模型或标识为Y的第一子模型的预测结果的数量。

判断所述相关性数值是否大于预设值；

若所述相关性数值大于预设值，分别计算与所述相关性数值对应的两个第一子模型的查准率；

比较两个所述第一子模型对应的查准率的大小，淘汰两个所述第一子模型中查准率小的第一子模型，并将两个所述第一子模型中未被淘汰的所述第一子模型作为第二子模型。

作为优选，所述对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型的步骤包括：

对所有的所述第二子模型的历史全量数据进行汇总，得到全量数据集；

基于剩余的每一个所述第二子模型的算法、参数创建初始的融合模型；

对所述初始的融合模型的参数按照预设规则调整，将所述全量数据集作为训练样本，输入到调整后的所述初始的融合模型中；

输出预测结果数列，并统计迭代次数；

判断迭代次数是否大于预设值；

若小于预设值，返回到所述对所述初始的融合模型的参数按照预设规则调整，将所述全量数据集作为训练样本，输入到调整后的所述初始的融合模型中的这一步骤中；

若大于预设值，对多次输出的预测结果数列进行比较；

选取出符合预设条件的一个预测结果数列，并将输出该预测结果数列的初始的融合模型作为训练后融合模型。

作为优选，所述获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各所述第二子模型的比重分数的步骤包括：

获取训练后的所述融合模型中，每一个所述第二子模型预测结果所对应的子权重；

计算每一个所述第二子模型的比重分数，其中，计算公式为：

其中，n表示训练后的所述融合模型中所述第二子模型的总数。

作为优选，所述计算每一个所述第二子模型的比重分数的步骤之后，还包括：

根据每一个所述第二子模型的比重分数对每一个所述第二子模型按照优先级等级划分；

获取预测数据流量；

根据所述优先级等级的顺序，将所述预测数据流量划分到每一个所述第二子模型中。

本申请还提供一种生成融合模型的装置，包括：

获取模块、用于获取每一个第一子模型的历史全量数据，其中，所述第一子模型基于决策树模型训练得到，所述历史全量数据包括历史预测结果值；

第一计算模块、用于根据所述历史预测结果值，计算每一个所述第一子模型的查准率，其中，所述查准率用于衡量所述第一子模型的预测准确率；

第二计算模块、用于根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型；

建模模块、用于对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型；

第三计算模块、用于获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各所述第二子模型的比重分数；

判断模块、用于判断每一个所述第二子模型的比重分数是否低于预设阈值；

生成模块、用于若低于预设阈值，则淘汰与低于预设阈值比重分数对应的所述第二子模型，得到最终的融合模型。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述生成融合模型方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述生成融合模型方法的步骤。

本申请的有益效果为：通过获取每一个第一子模型的历史全量数据，并基于历史全量数据计算每一个第一子模型的查准率以及第一子模型之间的相关性系数，从而能够将相关性高且查准率小的第一子模型删除，得到第二子模型，以使第二子模型之间相关性小且查准率较高，再基于剩余的第二子模型进行建模训练，得到训练后的融合模型，基于训练后融合模型，计算训练后融合模型中各所述第二子模型的比重分数，并将比重分数低于预设值的第二子模型淘汰，得到最终的融合模型，从而使得最终的融合模型能够对多种类型的第一子模型、第二子模型的数据进行融合预测，提高了融合模型的预测结果准确率。

附图说明

图1为本申请一实施例生成融合模型的方法流程示意图。

图2为本申请一实施例生成融合模型的装置结构示意图。

图3为本申请一实施例的计算机设备内部结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

如图1-3所示，本申请提供了一种生成融合模型的方法，包括：

S1、获取每一个第一子模型的历史全量数据，其中，所述第一子模型基于决策树模型训练得到，所述历史全量数据包括多个企业的历史预测结果值；

S2、根据所述历史预测结果值，计算每一个所述第一子模型的查准率，其中，所述查准率用于衡量所述第一子模型的预测准确率；

S3、根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型；

S4、对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型；

S5、获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各所述第二子模型的比重分数；

S6、判断每一个所述第二子模型的比重分数是否低于预设阈值；

S7、若低于预设阈值，则淘汰与低于预设阈值比重分数对应的所述第二子模型，得到最终的融合模型。

如上述步骤S1所述，第一子模型基于决策树模型训练得到，决策树模型的算法不限，例如贝叶斯算法，KNN算法(k-Nearest Neighbor，K最近邻分类算法)，xgboost算法(extreme Gradient Boosting，梯度增强算法)等等，具体的，训练过程如下：获取训练集，训练集中包括多个企业的季度财务指标、每年高管的离职率、负债总额等企业数据，例如训练集中包括8000家企业的企业数据，将8000家企业的企业数据作为训练样本依次输入到基于xgboost算法的决策树模型中进行建模训练，得到第一子模型，第一子模型包括8000家企业的预测结果值，8000家企业的预测结果值的集合则为第一子模型的历史全量数据；由于决策树模型的算法不同，因此将相同的8000家企业的企业数据输入到基于不同算法的决策树模型中，能够训练出不同的第一子模型，即不同算法得到的企业的预测结果值并不相同；即由于每个第一子模型的数据构建思想不同，算法不同，因此对于同一个企业，可能产生不同的预测结果，因此可通过获取每个第一子模型的历史全量数据，了解到每一个第一子模型对多个企业的预测结果值，从而以便后续计算每一个第一子模型的查准率。

如上述步骤S2所述，通过获取的历史预测结果值，这样可以计算出各第一子模型的查准率；对于数据检索等领域，通常采用查准率和查全率来评估算法性能，查准率定义为返回的与查询相关的数据的比例，而查全率定义为用户感兴趣的信息有多少被检索出来，因此在本申请中也可以通过计算各第一子模型中负样本标识的查准率来评估各第一子模型的预测准确率。

如上述步骤S3所述，通过计算每两个第一子模型的相关性，可检测出第一子模型之间是否存在雷同，若雷同，可将查准率较小的第一子模型淘汰掉，从而避免资源过度消耗。

如上述步骤S4所述，对第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型，其中建模训练可使用树模型xgboost算法，将全量数据集输入到该算法的python函数中，再对该算法的参数进行设置，从而使其根据该算法输出全量数据集对应的新的预测结果；为了获取到效果最佳的新的预测结果，可对该全量数据集进行多次训练，并在每次训练的过程中，调整对应算法的参数，从而从多次的新的预测结果中选择出效果相对最佳的，而效果相对最佳的新的预测结果所对应的训练模型，即为训练后的融合模型。

如上述步骤S5所述，可获取融合模型中各第二子模型的权重，具体的，可通过feature_importance()函数输出融合模型中各第二子模型全部特征因子的权重数值，全部特征因子即为历史全量数据中的全部历史预测结果值，通常情况下，各第二子模型的历史预测结果值的权重越高，则代表该第二子模型越重要。即预测结果值的权重越高则该第二子模型预测的准确率越高。根据所述各第二子模型特征因子的权重与查准率，计算融合模型中各模型的比重分数；通过计算各模型的比重分数，这样可以将预测数据的流量根据比重分数进行划分，即比重分数高的划分的预测数据流量多，比重分数低的划分的预测数据流量少，这样能够让比重分数高的模型测量更多的预测结果，从而整体提高融合模型的预测准确率。

如上述步骤S6-S7所述，可判断各所述第二子模型的比重分数是否低于预设阈值，例如，预设阈值可设置为5％，那么当某个第二子模型的比重分数低于5％时，可将其淘汰掉，得到最终的融合模型，从而使得最终的融合模型能够对多种类型的第二子模型的数据进行融合预测，提高了融合模型的预测结果准确率。更优的，也可在最终的融合模型中加入最新的历史全量数据，这样便于后期对最终的融合模型重新进行训练，即不改变最终的融合模型中高于预设阈值的第二子模型的构建方式和第二子模型参数的情况下，加入最新的历史全量数据，使得最终的融合模型根据最新的历史全量数据进行迭代，这样训练出来的新的融合模型可以替换掉旧的融合模型，从而能够使得融合模型中的各模型越来越优化。

在一个实施例中，所述获取每一个第一子模型的历史全量数据的步骤S1之后，包括：

S11、获取每一个所述第一子模型历史全量数据中的多个历史预测结果值；

S12、判断每一个所述历史预测结果值是否大于预设域值；

S13、若所述历史预测结果值大于预设值，将该历史预测结果值判定为违约企业，并对所述违约企业进行负样本标识，得到具有负样本标识的历史预测结果值；

S14、根据负样本标识的历史预测结果值计算每一个所述第一子模型的查准率。

如上述步骤S11-14所述，通过获取多个第一子模型历史全量数据中的多个历史预测结果值，并判断每一个历史预测结果值是否大于预设值，这样可以将良好企业与违约企业区分出来；例如，假设有第一子模型A与第一子模型B，第一子模型A与第一子模型B对同一个企业进行预测，第一子模型A的预测结果值可能是良好企业，第一子模型B的预测结果值可能是违约企业，由于第一子模型A、第一子模型B可能对上千家企业进行预测，因此为了获取上千家企业中的违约企业，可基于预测结果值对第一子模型A、第一子模型B的企业进行正负样本标识，例如预设值为0.5，则0.5以上为违约公司，0.5以下则为良好公司，通过进行正负样本标识，再对其中进行了负样本标识的数量进行统计，从而便于分析第一子模型A、第一子模型B预测结果的准确率。

在一个实施例中，所述根据负样本标识的历史预测结果值计算每一个所述第一子模型的查准率的步骤S2包括：

S21、对每一个所述第一子模型历史全量数据中的历史预测结果值进行排序，其中排序方式为从大到小；

S22、根据排序方式，对所述历史预测结果值进行分段，得到每一个所述第一子模型的多个分段的历史预测结果值的子数据集；

S23、分别统计每一个所述第一子模型中所述子数据集的历史预测结果值的数量与所述子数据集中进行了负样本标识的子负样本数量；

S24、分别计算每一个所述第一子模型中每一个所述子数据集的所述子负样本数量与所述子数据集的历史预测结果值的数量的百分比，得到每一个所述第一子模型中每一个所述子数据集的查准率；

S25、统计所有所述子数据集中进行了负样本标识的负样本数量，得到总负样本数量；

S26、分别计算每一个所述子数据集中所述子负样本数量与所述总负样本数量的百分比，得到每一个所述第一子模型中每一个所述子数据集的查全率，其中每一个所述子数据集的查全率与查准率为对应关系；

S27、将指定查全率对应的查准率作为所述第一子模型的查准率。

在上述步骤S21-S27中，通过将历史全量数据中的历史预测结果值按照从大到小的数据进行排序，这样能够将每个第一子模型中进行了负样本标识的预测结果尽量靠近头部，这样便于查看与统计所有第一子模型中的负样本数量。由于每个第一子模型都可能会对上千家的企业进行预测，因此会存在数以千计的历史预测结果值，故通过将历史全量数据中的历史预测结果值进行分段，这样便于对每一段的历史预测结果值进行查全率与查准率的计算，从而减小运算损耗。对于第一子模型的查全率与查准率的计算的过程，现进行举例说明：假设第一子模型对1000个企业进行了预测，得到了1000个预测结果值，现将1000个企业的预测结果值进行分段，得到子数据集A、子数据集B与子数据集C，已知子数据集A包括400个企业的预测结果值、子数据集B包括300个企业的预测结果值，子数据集C包括300个企业的预测结果值，已知子数据集A中统计到的违约企业有150个，而子数据集A中预测正确的违约企业只有130个，即第一子模型中子数据集A这一段总共预测到了150个违约企业，预测正确的违约企业是130个，则第一子模型中子数据集A这一段的查准率为130/150，而假设子数据集A、子数据集B与子数据集C中违约企业的总数为350个，那么由于一共有350个违约企业，而子数据集A中的违约企业只有150个，因此可知子数据集A未查到所有的违约企业，所以子数据集A的查全率为150/350；通过分别计算第一子模型中子数据集A、子数据集B与子数据集C的查全率与查准率，这样便于后续对第二子模型的比重分数进行计算，即计算第二子模型的比重分数时，可以选择指定的查全率对应的查准率作为第二子模型的查准率参与运算，例如选择查全率为90％这一档所对应的查准率，这样能够更大的限度的使第二子模型的查准率更加准确与客观。

在一个实施例中，所述根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型的步骤S3，包括:

S31、根据所述历史预测结果值，计算多个所述第一子模型中任意两个所述第一子模型之间的相关性，得到任意两个所述第一子模型之间的相关性数，其中，计算公式为：

S32、判断所述相关性数值是否大于预设值；

S33、若所述相关性数值大于预设值，分别计算与所述相关性数值对应的两个第一子模型的查准率；

S34、比较两个所述第一子模型对应的查准率的大小，淘汰两个所述第一子模型中查准率小的第一子模型，并将两个所述第一子模型中未被淘汰的所述第一子模型作为第二子模型。

在上述步骤S31-34中，通过计算任意两个第一子模型之间的相关性，从而能够将相关度较高的第一子模型与其它第一子模型区别开来，而相关度较高的第一子模型其起到的作用也较为雷同，因此，通过对比相关性较高的第一子模型的查准率，可以将查准率较高的第一子模型保留下来，将查准率较低的第一子模型淘汰掉，将未被淘汰的第一子模型作为第二子模型，从而能够保证留下来的第二子模型之间相关性较小。

在一个实施例中，所述对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型的步骤S4包括：

S41、对所有的所述第二子模型的历史全量数据进行汇总，得到全量数据集；

S42、基于剩余的每一个所述第二子模型的算法、参数创建初始的融合模型；

S43、对所述初始的融合模型的参数按照预设规则调整，将所述全量数据集作为训练样本，输入到调整后的所述初始的融合模型中；

S44、输出预测结果数列，并统计迭代次数；

S45、判断迭代次数是否大于预设值；

S46、若小于预设值，返回到所述对所述初始的融合模型的参数按照预设规则调整，将所述全量数据集作为训练样本，输入到调整后的所述初始的融合模型中的这一步骤中；

S47、若大于预设值，对多次输出的预测结果数列进行比较；

S48、选取出符合预设条件的一个预测结果数列，并将输出该预测结果数列的初始的融合模型作为训练后融合模型。

在上述步骤S41-S48中，对所有的所述第二子模型的历史全量数据进行汇总，即将每个第二子模型的历史全量数据组合到一起，例如依次放在同一张表格中的一行数列中，则该数列的集合可作为历史全量数据集，通过对历史全量数据集作为训练样本、基于第二子模型建立初始的融合模型，并对初始的融合模型的参数进行调整，例如算法参数“树深度”，每次迭代时可以将“树深度”从4逐步加1，一直加到10为止，这样每迭代一次，初始的融合模型均输出一次预测结果值的数列；当然也可以对进行多次迭代后，当迭代次数大于预设值时，统计每一次输出的预测结果值的数列，并放在一起比较，再选取出符合预设条件的一个预测结果值的数列，并将输出该预测结果值的数列的初始的预测模型作为训练后融合模型。其中，预设条件可以是比较输出的预测结果值的数列中，哪一个预测结果值的数列中负样本标识的企业尽量往头部集中，同时后半部分尽量不出现负样本标识的企业，将符合该预设条件的预测结果值的数列对应的训练后融合模型。

在一个实施例中，所述获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各所述第二子模型的比重分数的步骤S5包括：

S51、获取训练后的所述融合模型中，每一个所述第二子模型预测结果所对应的子权重；

S52、计算每一个所述第二子模型的比重分数，其中，计算公式为：

在上述步骤S51-S52中，训练后的融合模型可以通过feature_importance()的函数将各第二子模型的预测结果值所对应的权重全部输出，其中，预测结果值可以从大到小进行排序，按照排列顺序，越排在前面的预测结果值，其权重比例也就越大，例如第二子模型C的预测结果排在第二子模型D的前面，则可以将第二子模型C的权重输出为0.4，第二子模型D的权重输出为0.3，此时，可选取指定查全率对应的查准率与该第二子模型的子权重进行相乘，再除以所有第二子模型的子权重与指定查全率对应的查准率相乘之后再相加的数值，来得到各第二子模型在训练后的融合模型中的比例分数；具体的，指定查全率对应的查准率中，指定的查全率为90％这一档对应的查准率；一般情况下，比例分数越大则代表该第二子模型越重要，这样可以根据各第二子模型所占的比例，将与比例对应的预测数据的流量分给各第二子模型，从而可以有效控制各第二子模型的预测数据流量。

在一个实施例中，所述计算每一个所述第二子模型的比重分数的步骤S52之后，还包括：

S521、根据每一个所述第二子模型的比重分数对每一个所述第二子模型按照优先级等级划分；

S522、获取预测数据流量；

S523、根据所述优先级等级的顺序，将所述预测数据流量划分到每一个所述第二子模型中。

在上述步骤S521-523中，当各所述第二子模型的比重分数越高，该第二子模型就会获得更多的预测数据流量，产生更多的业务价值，因此通过将比重分数按照优先及级等级划分，再获取预测数据流量，这样能够按照优先级等级的顺序对各第二子模型划分预测数据流量，从而使得训练后的融合模型整体能够获得最大限度的预测数据流量，以使训练后融合模型的业务价值最大化。

本申请还提供一种生成融合模型的装置，包括：

获取模块1、用于获取每一个第一子模型的历史全量数据，其中，所述第一子模型基于决策树模型训练得到，所述历史全量数据包括多个企业的历史预测结果值；

第一计算模块2、用于根据所述历史预测结果值，计算每一个所述第一子模型的查准率，其中，所述查准率用于衡量所述第一子模型的预测准确率；

第二计算模块3、用于根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型；

建模模块4、用于对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型；

第三计算模块5、用于获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各所述第二子模型的比重分数；

判断模块6、用于判断每一个所述第二子模型的比重分数是否低于预设阈值；

生成模块7、用于若低于预设阈值，则淘汰与低于预设阈值比重分数对应的所述第二子模型，得到最终的融合模型。

在一个实施例中，所述生成融合模型的装置，还包括：

第一获取单元、用于获取每一个所述第一子模型历史全量数据中的多个历史预测结果值；

第一判断单元、用于判断每一个所述历史预测结果值是否大于预设域值；

负样本标识单元、用于若所述历史预测结果值大于预设值，将该历史预测结果值判定为违约企业，并对所述违约企业进行负样本标识；

正样本标识单元、用于若所述历史预测结果值小于或等于预设值，将该历史预测结果值判定为良好企业，并对所述良好企业进行正样本标识。

在一个实施例中，所述第一计算模块2包括：

排序单元、用于对每一个所述第一子模型历史全量数据中的历史预测结果值进行排序，其中排序方式为从大到小；

分段单元，用于根据排序方式，对所述历史预测结果值进行分段，得到每一个所述第一子模型的多个分段的历史预测结果值的子数据集；

统计单元、用于分别统计每一个所述第一子模型中所述子数据集的历史预测结果值的数量与所述子数据集中进行了负样本标识的子负样本数量；

第一计算单元、用于分别计算每一个所述第一子模型中每一个所述子数据集的所述子负样本数量与所述子数据集的历史预测结果值的数量的百分比，得到每一个所述第一子模型中每一个所述子数据集的查准率；

统计单元、用于统计所有所述子数据集中进行了负样本标识的负样本数量，得到总负样本数量；

第二计算单元、用于分别计算每一个所述子数据集中所述子负样本数量与所述总负样本数量的百分比，得到每一个所述第一子模型中每一个所述子数据集的查全率，其中每一个所述子数据集的查全率与查准率为对应关系。

指定单元，用于将指定查全率对应的查准率作为所述第一子模型的查准率。

在一个实施例中，所述第二计算模块3包括:

第三计算单元、用于根据所述历史预测结果值，计算多个所述第一子模型中任意两个所述第一子模型之间的相关性，得到任意两个所述第一子模型之间的相关性数，其中，计算公式为：

第二判断单元、用于判断所述相关性数值是否大于预设值；

第四计算单元、用于若所述相关性数值大于预设值，分别计算与所述相关性数值对应的两个第一子模型的查准率；

第一比较单元、用于比较两个所述第一子模型对应的查准率的大小，淘汰两个所述第一子模型中查准率小的第一子模型，并将两个所述第一子模型中未被淘汰的所述第一子模型作为第二子模型。

在一个实施例中，所述建模模块4包括：

整合单元、用于对所有的所述第二子模型的历史全量数据进行汇总，得到全量数据集；

创建单元、用于基于剩余的每一个所述第二子模型的算法、参数创建初始的融合模型；

调整单元、用于对所述初始的融合模型的参数按照预设规则调整，将所述全量数据集作为训练样本，输入到调整后的所述初始的融合模型中；

输出单元、用于输出预测结果数列，并统计迭代次数；

第三判断单元、用于判断迭代次数是否大于预设值；

返回单元、用于若小于预设值，返回到调整单元中；

第二比较单元、用于若大于预设值，对多次输出的预测结果数列进行比较；

选取单元、用于选取出符合预设条件的一个预测结果数列，并将输出该预测结果数列的初始的融合模型作为训练后融合模型。

在本实施例中，所述第三计算模块5包括：

第二获取单元、用于获取训练后的所述融合模型中，每一个所述第二子模型预测结果所对应的子权重；

第五计算单元、用于计算每一个所述第二子模型的比重分数，其中，计算公式为：

在一个实施例中，所述生成融合模型的装置，还包括：

第一划分单元、用于根据每一个所述第二子模型的比重分数对每一个所述第二子模型按照优先级等级划分；

第三获取单元、用于获取预测数据流量；

第二划分单元、用于根据所述优先级等级的顺序，将所述预测数据流量划分到每一个所述第二子模型中。

上述各单元均是对应执行上述生成融合模型的装置。

如图3所示，本申请还提供了一种计算机设备，该该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储生成融合模型的方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现生成融合模型的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一个生成融合模型的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种生成融合模型的方法，其特征在于，包括：

获取每一个第一子模型的历史全量数据，其中，所述第一子模型基于决策树模型训练得到，所述历史全量数据包括多个历史预测结果值，；

根据所述历史预测结果值，计算每一个所述第一子模型的查准率，其中，所述查准率用于衡量所述子模型的预测准确率；

获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各第二子模型的比重分数；

判断每一个所述第二子模型的比重分数是否低于预设阈值；

2.根据权利要求1所述的生成融合模型的方法，其特征在于，所述根据所述历史预测结果值，计算每一个所述第一子模型的查准率的步骤，包括：

判断每一个所述历史预测结果值是否大于预设域值；

若所述历史预测结果值大于预设阈值，将该历史预测结果值判定为违约企业，并对所述违约企业进行负样本标识，得到具有负样本标识的历史预测结果值；

3.根据权利要求2所述的生成融合模型的方法，其特征在于，所述根据负样本标识的历史预测结果值计算每一个所述第一子模型的查准率的步骤包

括：

将指定查全率对应的查准率作为所述第一子模型的查准率。

4.根据权利要求1所述的生成融合模型的方法，其特征在于，所述根据所述历史预测结果值，计算每两个所述第一子模型之间的相关性，得到相关性系数，判断所述相关性系数是否大于预设值，若所述相关性系数大于预设值，则比较两个所述第一子模型对应的查准率的大小，并删除查准率小的所述第一子模型，得到剩余的第二子模型的步骤，包括:

根据所述历史预测结果值，计算多个所述第一子模型中任意两个所述第一子模型之间的相关性，得到任意两个所述第一子模型之间的相关性系数，其中，计算公式为：

表示标识为Y的第一子模型中预测结果的均值，n表示标识为X的第一子模型或标识为Y的第一子模型的预测结果的数量；

判断所述相关性数值是否大于预设值；

5.根据权利要求1所述的生成融合模型的方法，其特征在于，所述对所有的所述第二子模型的历史全量数据进行汇总，得到历史全量数据集，基于所有的所述第二子模型建立初始的融合模型，基于所述历史全量数据集进行建模训练，得到训练后的融合模型的步骤包括：

基于每一个所述第二子模型的算法、参数创建初始的融合模型；

输出预测结果数列，并统计迭代次数；

判断迭代次数是否大于预设值；

若大于预设值，对多次输出的预测结果数列进行比较；

6.根据权利要求1所述的生成融合模型的方法，其特征在于，所述获取训练后的所述融合模型中每一个所述第二子模型的权重，并根据每一个所述第二子模型的权重与查准率，计算训练后的所述融合模型中各第二子模型的比重分数的步骤包括：

7.根据权利要求6所述的生成融合模型的方法，其特征在于，所述计算每一个所述第二子模型的比重分数的步骤之后，还包括：

获取预测数据流量；

8.一种生成融合模型的装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述生成融合模型的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的生成融合模型的方法的步骤。