CN114219602A

CN114219602A - 违约预测模型的生成方法、装置、设备及存储介质

Info

Publication number: CN114219602A
Application number: CN202210028876.1A
Authority: CN
Inventors: 谢馥芯; 王磊; 吴文哲; 黄振宇; 林浩然; 王媛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-03-22
Also published as: WO2023134072A1

Abstract

本申请涉及人工智能技术领域，揭示了一种违约预测模型的生成方法、装置、设备及存储介质，其中方法包括：获取全量标签数据和行业标签数据；对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型，以及分量决策树模型和分量梯度树模型；对全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；获取验证数据集，通过第一融合模型和第二融合模型分别对验证数据集进行违约概率计算；根据违约概率进行预测准确性分类，并根据预测准确性的分类结果在第一融合模型和第二融合模型中选取目标违约预测模型，从而提高违约预测模型预测的有效性。

Description

违约预测模型的生成方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种违约预测模型的生成方法、装置、设备及存储介质。

背景技术

债券违约是指债券发行主体不能按照事先达成的债券协议履行其义务的行为，对不同主体进行债券违约预测模型的生成，能够降低交易方遭受的风险，因此债券违约预测模型的生成是各家金融机构和科技企业在持续投入的业务。

现有技术中的违约预测模型的生成方法都存在过度看重数据的问题，多维度的、大量的数据虽然可以给违约预测模型的生成提供足够的数据基础，但是同时也存在数据分析时难以把握重点，预测的有效性较低的问题。

发明内容

本申请的主要目的为提供一种违约预测模型的生成方法、装置、设备及存储介质，旨在解决现有技术中违约预测模型预测的有效性较低的问题。

为了实现上述发明目的，本申请提出一种违约预测模型的生成方法，所述方法包括：

获取待预测企业的全量标签数据，以及所述待预测企业所属行业的行业标签数据；

根据所述全量标签数据对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型；

根据所述行业标签数据对所述初始决策树模型和初始梯度迭代树模型进行训练，分别得到分量决策树模型和分量梯度树模型；

基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；

获取验证数据集，通过所述第一融合模型和第二融合模型分别对所述验证数据集进行违约概率计算；

根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型。

进一步的，所述基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型，包括：

对所述全量决策树模型和分量决策树模型进行宽松投票计算，得到宽松决策树模型，对所述全量决策树模型和分量决策树模型进行严格投票计算，得到严格决策树模型；

对所述全量梯度树模型和分量梯度树模型进行宽松投票计算，得到宽松梯度树模型，对所述全量梯度树模型和分量梯度树模型进行严格投票计算，得到严格梯度树模型；

对所述宽松决策树模型和宽松梯度树模型进行宽松投票计算，得到所述第一融合模型，对所述严格决策树模型和严格梯度树模型进行严格投票计算，得到所述第二融合模型。

进一步的，所述根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型，包括：

获取所述验证数据集对应的标准预测结果，根据所述违约概率和所述标准预测结果对所述违约概率的预测准确性进行分类，得到所述分类结果；

根据所述分类结果分别计算所述第一融合模型对应的第一查准率和第一召回率，以及所述第二融合模型对应的第二查准率和第二召回率；

根据所述第一查准率和第一召回率计算所述第一融合模型的第一准确度，根据所述第二查准率和第二召回率计算所述第二融合模型的第二准确度；

当所述第一准确度大于所述第二准确度时，选取所述第一融合模型作为所述目标违约预测模型，当所述第一准确度小于所述第二准确度时，选取所述第二融合模型作为所述目标违约模型。

根据预设的阈值生成规则生成逻辑回归阈值，以及对所述违约概率进行拟合计算，得到所述违约概率对应的拟合概率；

根据所述逻辑回归阈值和拟合概率进行预测准确性分类，得到所述分类结果；

进一步的，所述根据所述第一查准率和第一召回率计算所述第一融合模型的第一准确度，根据所述第二查准率和第二召回率计算所述第二融合模型的第二准确度，包括：

获取所述第一查准率对应的第一权重值，以及所述第一召回率对应的第二权重值，其中，所述第一权重值小于所述第二权重值；

根据所述第一权重值和第二权重值对所述第一查准率和第一召回率进行加权计算，得到所述第一准确度；

获取所述第二查准率对应的第三权重值，以及所述第二召回率对应的第四权重值，其中，所述第三权重值小于所述第四权重值；

根据所述第三权重值和第四权重值对所述第二查准率和第二召回率进行加权计算，得到所述第二准确度。

进一步的，所述对所述违约概率进行拟合计算，得到所述违约概率对应的拟合概率，包括：

通过下式计算所述拟合概率：

y＝σ(ωx+b)

式中，y为所述拟合概率，x为所述违约概率，σ、ω和b分别为预设的拟合参数。

进一步的，所述获取验证数据集之前，还包括：

在所述全量标签数据中选取第一数据量的标签数据作为第一验证数据分集，并在所述行业标签数据中选取第二数据量的标签数据作为第二验证数据分集，其中，所述第一数据量与所述第二数据量之间的差值的绝对值小于预设的数据量阈值；

通过所述第一验证数据分集和第二验证数据分集组成所述验证数据集。

本申请还提出了一种违约预测模型的生成装置，包括：

数据获取模块，用于获取待预测企业的全量标签数据，以及所述待预测企业所属行业的行业标签数据；

全量训练模块，用于根据所述全量标签数据对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型；

分量训练模块，用于根据所述行业标签数据对所述初始决策树模型和初始梯度迭代树模型进行训练，分别得到分量决策树模型和分量梯度树模型；

模型融合模块，用于基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；

概率计算模块，用于获取验证数据集，通过所述第一融合模型和第二融合模型分别对所述验证数据集进行违约概率计算；

模型选取模块，用于根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的违约预测模型的生成方法、装置、设备及存储介质，通过获取企业的全量标签数据和行业标签数据，并根据全量标签数据和行业标签数据分别训练得到全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型，提高了获取的模型的全面性；通过投票融合的方式对各个模型进行融合计算，实现了全量样本训练的模型和分行业样本训练的模型之间的融合，从而使得第一融合模型和第二融合模型能够达到兼顾债券违约底层逻辑和行业特征逻辑相结合的效果，提高了模型的泛化能力；根据对验证数据集的预测结果在第一融合模型和第二融合模型中选取预测准确性较好的模型作为最优的目标违约预测模型，提高了目标违约预测模型预测的准确性和有效性。

附图说明

图1为本申请一实施例的违约预测模型的生成方法的流程示意图；

图2为本申请一实施例的违约预测模型的生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，为了实现上述发明目的，本申请提出一种违约预测模型的生成方法，所述方法包括：

S1：获取待预测企业的全量标签数据，以及所述待预测企业所属行业的行业标签数据；

S2：根据所述全量标签数据对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型；

S3：根据所述行业标签数据对所述初始决策树模型和初始梯度迭代树模型进行训练，分别得到分量决策树模型和分量梯度树模型；

S4：基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；

S5：获取验证数据集，通过所述第一融合模型和第二融合模型分别对所述验证数据集进行违约概率计算；

S6：根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型。

本实施例通过获取企业的全量标签数据和行业标签数据，并根据全量标签数据和行业标签数据分别训练得到全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型，提高了获取的模型的全面性；通过投票融合的方式对各个模型进行融合计算，实现了全量样本训练的模型和分行业样本训练的模型之间的融合，从而使得第一融合模型和第二融合模型能够达到兼顾债券违约底层逻辑和行业特征逻辑相结合的效果，提高了模型的泛化能力；根据对验证数据集的预测结果在第一融合模型和第二融合模型中选取预测准确性较好的模型作为最优的目标违约预测模型，提高了目标违约预测模型预测的准确性和有效性。

对于步骤S1，本实施例违约预测模型的生成，尤其是企业的违约预测模型的生成过程中，可以基于人工智能技术进行数据获取、模型训练和准确性计算。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。本实施例提供的一种违约预测模型的生成方法中，全量标签数据包括风险、造假、债券基本、舆情标签数据等，示例性地，公司的数据库内含有丰富的公司相关指标，其中包括60余条财务风险指标，70余条财务造假指标，130余条债券基本指标，以及数百条的分级舆情指标。这些数据大多经过了过往项目的检验，能较好地描述一家公司的风向特征。而在行业维度上，不同行业的债券违约率和债券违约的行业逻辑是不一样的，本实施例综合考虑建模效果和债券违约的行业逻辑，因此在获取企业数据的基础上，还需要获取该公司所属行业的平均风险、造假、债券基本、舆情标签等数据作为上述行业标签数据，从而提高了数据获取和模型训练的全面性。

对于步骤S2，上述初始决策树模型为Xgboost模型，Xgboost模型的代价函数中添加有正则项，该正则项用于控制模型的复杂度，从权衡偏差与方差的角度来说，正则项降低了模型的方差，使训练得到的全量决策树模型和分量决策树模型更加简单，防止了模型的过拟合；上述初始梯度迭代树模型为GBDT(Gradient Boosting Decision Tree，梯度提升迭代树)模型，GBDT模型通过多轮迭代训练，而每一轮迭代均能产生一个弱分类器，下一轮的分类器在上一轮分类器的残差基础上，通过不断降低偏差得到的，因此在训练过程中能够不断提高分类器的精度，从而提高模型的预测准确性。

对于步骤S3，对于单独的企业而言，受其经营方向的波动性以及样本的有限性的影响，待预测企业的全量标签数据往往容易出现样本量较小、偏差度较大的问题，因此，本实施例采用样本量较大的行业标签数据训练得到分量决策树模型和分量梯度树模型进行辅助预测，从而提高预测的稳定性。

对于步骤S4，上述融合规则可以为投票融合也可以为均值融合；具体来说，由于全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型能够分别计算得到样本数据的违约概率，例如30％、90％等，而根据违约概率能够进一步得到该样本数据对应的违约分类结果，例如违约或不违约；当以违约概率作为融合参考数据时，可以进行均值的方式进行融合，示例性地，若全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型得到某一个样本数据的违约概率分别为10％、5％、30％、60％，则按照均值法能够得到如下的融合模型计算式：F＝(10％+5％+30％+60％)/4＝26.25％。当以违约分类结果作为融合参考数据时，可以进行投票的方式进行融合，示例性地，若全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型得到某一个样本数据的违约概率分别为0、1、0、0，则按照少数服从多数的原则融合得到一个新的预测结果，即为0。

在一个具体的实施方式中，可以将均值融合作为上述第一融合规则，将均值融合得到的模型作为第一融合模型，将投票融合作为上述第二融合规则，将投票融合得到的模型作为第二融合模型。在另一个实施方式中，还可以在均值法的基础上设定加权系数，例如全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型的加权系数分别为0.3、0.3、0.2、0.2，则F＝0.3*10％+0.3*5％+0.2*30％+0.2*60％＝22.5％，可以理解地，通过设置加权系数的方式能够提高融合模型的可控性，并能够进一步提高了实际应用场景下预测的准确度，此时可以选择将加权融合作为上述第一融合规则，将加权融合得到的模型作为第一融合模型，将投票融合作为上述第二融合规则，将投票融合得到的模型作为第二融合模型，也可以选择将均值融合作为上述第一融合规则，将均值融合得到的模型作为第一融合模型，将加权融合作为上述第二融合规则，将加权融合得到的模型作为第二融合模型，本实施例不作具体限定。

对于步骤S5，得到上述第一融合模型和第二融合模型后，即可获取验证数据集，从而对第一融合模型和第二融合模型分别进行违约概率计算，从而为最优模型选取提供数据基础。

对于步骤S6，得到上述违约概率后，可以按照预设的分类阈值对验证数据集中的各个样本数据得到违约分类结果，并根据违约分类结果得到预测准确性。示例性地，可以将50％作为分类阈值，即将违约概率不大于50％的样本数据分类为不违约，将违约概率大于50％的样本数据分类为违约，此时，若对于样本数据A，得到的违约分类结果为不违约，而其对应的标准预测结果为不违约，则认为该样本数据A的预测准确性分类为1，若对于样本数据B，得到的违约分类结果为不违约，而其对应的标准预测结果为违约，则认为该样本数据B的预测准确性分类为0，此时，仅对于样本数据A和B而言，预测的正确率为50％。按照上述计算方式，能够根据预测准确性的分类结果得到第一融合模型和第二融合模型的正确率，本实施例将第一融合模型和第二融合模型中正确率更高的模型作为目标违约预测模型。

在一个实施例中，所述基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型S4，包括：

S41：对所述全量决策树模型和分量决策树模型进行宽松投票计算，得到宽松决策树模型，对所述全量决策树模型和分量决策树模型进行严格投票计算，得到严格决策树模型；

S42：对所述全量梯度树模型和分量梯度树模型进行宽松投票计算，得到宽松梯度树模型，对所述全量梯度树模型和分量梯度树模型进行严格投票计算，得到严格梯度树模型；

S43：对所述宽松决策树模型和宽松梯度树模型进行宽松投票计算，得到所述第一融合模型，对所述严格决策树模型和严格梯度树模型进行严格投票计算，得到所述第二融合模型。

本实施例通过宽松投票和严格投票的方式分别得到第一融合模型和第二融合模型，从而提高了模型融合的有效性和可靠性。

对于步骤S41，上述第一融合规则可以为宽松投票规则，即选取待融合模型中概率值更大的作为投票结果，对所述全量决策树模型和分量决策树模型进行宽松投票计算，得到宽松决策树模型的公式如下：

P(X|model＝xgb_loose)＝max(P(X|model＝xgb_indus)，P(X|model＝xgb_all))

式中，P(X|model＝xgb_loose)为宽松决策树模型预测的概率值，X为样本数据，P(X|model＝xgb_indus)为分量决策树模型预测的概率值，P(X|model＝xgb_all)为全量决策树模型的概率值。

上述第二融合规则可以为严格投票规则，即选取待融合模型中概率值更小的作为投票结果，对所述全量决策树模型和分量决策树模型进行严格投票计算，得到严格决策树模型的公式如下：

P(X|model＝xgb_strict)＝min(P(X|model＝xgb_indus)，P(X|model＝xgb_all))

式中，P(X|model＝xgb_strict)为严格决策树模型预测的概率值，X为样本数据，P(X|model＝xgb_indus)分量决策树模型预测的概率值，P(X|model＝xgb_all)为全量决策树模型的概率值。

对于步骤S42，对所述全量梯度树模型和分量梯度树模型进行宽松投票计算，得到宽松梯度树模型的公式如下：

P(X|model＝gbdt_strict)＝min(P(X|model＝gbdt_indus)，P(X|model＝gbdt_all))

式中，P(X|model＝xgb_loose)为宽松梯度树模型预测的概率值，X为样本数据，P(X|model＝xgb_indus)为分量决策树模型预测的概率值，P(X|model＝xgb_all)为全量决策树模型的概率值。

对所述全量梯度树模型和分量梯度树模型进行严格投票计算，得到严格梯度树模型的公式如下：

P(X|model＝gbdt_loose)＝max(P(X|model＝gbdt_indus)，P(X|model＝gbdt_all))

式中，P(X|model＝gbdt_loose)为严格梯度树模型预测的概率值，X为样本数据，P(X|model＝gbdt_indus)为分量梯度树模型预测的概率值，P(X|model＝gbdt_all)为全量梯度树模型的概率值。

对于步骤S43，对所述宽松决策树模型和宽松梯度树模型进行宽松投票计算，得到所述第一融合模型的公式如下：

P(X|model＝loose)＝max(P(X|model＝gbdt_loose)，P(X|model＝xgb_loose))

式中，P(X|model＝loose)为第一融合模型预测的概率值，X为样本数据，P(X|model＝gbdt_loose)为宽松梯度树模型预测的概率值，P(X|model＝xgb_loose)为宽松决策树模型的概率值。

对所述严格决策树模型和严格梯度树模型进行严格投票计算，得到所述第二融合模型的公式如下：

P(X|model＝strict)＝min(P(X|model＝gbdt_strict)，P(X|model＝xgb_strict))

式中，P(X|model＝strict)为第二融合模型预测的概率值，X为样本数据，(P(X|model＝gbdt_strict)为严格梯度树模型预测的概率值，P(X|model＝xgb_strict)为严格决策树模型的概率值。

在一个实施例中，所述根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型S6，包括：

S611：获取所述验证数据集对应的标准预测结果，根据所述违约概率和所述标准预测结果对所述违约概率的预测准确性进行分类，得到所述分类结果；

S621：根据所述分类结果分别计算所述第一融合模型对应的第一查准率和第一召回率，以及所述第二融合模型对应的第二查准率和第二召回率；

S631：根据所述第一查准率和第一召回率计算所述第一融合模型的第一准确度，根据所述第二查准率和第二召回率计算所述第二融合模型的第二准确度；

S641：当所述第一准确度大于所述第二准确度时，选取所述第一融合模型作为所述目标违约预测模型，当所述第一准确度小于所述第二准确度时，选取所述第二融合模型作为所述目标违约模型。

本实施例通过查准率和召回率分别计算模型预测的准确度，从而选取最优的模型作为目标违约模型，提高了最终模型的预测精度。

对于步骤S611，获取验证数据集中各个验证样本对应的标准预测结果，标准预测结果为0或1，其中0表示不违约，1表示违约，通过计算每一个验证样本对应的违约概率与标准预测结果之间的差值得到分类结果，具体来说，对标准预测结果为1的验证样本而言，预测的违约概率越大，即违约概率与标准预测结果之间的差值越小，表示预测准确性越高，对于标准预测结果为0的验证样本而言，预测的违约概率越小，即越接近0，表示预测准确性越高，反之亦然，因此，违约概率与标准预测结果之间的差值越大，表示预测准确性越低，差值越小，表示预测准确性越大，本实施例给出一个分类阈值，当差值大于分类阈值时，表示该验证样本的分类结果为预测错误，当差值小于分类阈值时，表示该验证样本的分类结果为预测正确。

对于步骤S621，查准率precison_n的计算方式如下：

precison_n＝TP/(TP+FP)

召回率recall_n的计算方式如下：

recall_n＝TP/(TP+FN)

式中，TP(True Positive，真阳性)意为标准预测结果为1，分类结果也为1的验证样本数量，FP(False Positive，假阳性)意为标准预测结果为1，分类结果为0的验证样本数量；FN(False Negative，假阴性)意为标准预测结果为0，分类结果为1的验证样本数量；TN(True Negative，真阴性)意为标准预测结果为0，分类结果也为0的验证样本数量，n＝1，2。

对于步骤S631，第一准确度和第二准确度可以为综合精准率，综合精准率f1_score_n＝2*(precision_n*recall_n)/(precision+recall_n)。

S612：根据预设的阈值生成规则生成逻辑回归阈值，以及对所述违约概率进行拟合计算，得到所述违约概率对应的拟合概率；

S622：根据所述逻辑回归阈值和拟合概率进行预测准确性分类，得到所述分类结果；

S632：根据所述分类结果分别计算所述第一融合模型对应的第一查准率和第一召回率，以及所述第二融合模型对应的第二查准率和第二召回率；

S642：根据所述第一查准率和第一召回率计算所述第一融合模型的第一准确度，根据所述第二查准率和第二召回率计算所述第二融合模型的第二准确度；

S652：当所述第一准确度大于所述第二准确度时，选取所述第一融合模型作为所述目标违约预测模型，当所述第一准确度小于所述第二准确度时，选取所述第二融合模型作为所述目标违约模型。

本实施例通过按照预设的阈值生成规则生成逻辑回归阈值，并根据逻辑回归阈值和拟合概率进行预测准确性分类得到所述分类结果，从而根据分类结果对第一融合模型和第二融合模型进行选取，提高了模型选取的准确性和目标违约模型的实用性。

对于步骤S612，在二值分类中，假定一个分类阈值为0.5，若拟合概率f(x)>＝0.5，则分类结果＝1；若f(x)<0.5，则分类结果＝0。在具体的实施方式中，增加分类阈值，会使得用户的反馈为对预测结果更有信心，即增加了查准率precison_n，然而这样会降低召回率recall_n，而减小分类阈值，则模型放过的真例就变少，召回率recall_n就会增加，因此，可以根据实际需求，以查准率precison_n为优先，或以召回率recall_n为优先，又或以综合精准率f1_score_n为优先设定分类阈值，此时的分类阈值即上述逻辑回归阈值，从而提高了模型的泛用性和实用性。

在具体的实施方式中，由于企业违约数据往往为不平衡数据，例如4000家企业中，债券违约的企业是小部分企业，违约企业数量可能为100左右，因此不能将逻辑回归阈值简单设置为0.5，而是可以按照0.2或0.1为基准对逻辑回归阈值进行调整。

对于步骤S622，当拟合概率不小于逻辑回归阈值时，认为分类结果为1，当拟合概率小于逻辑回归阈值时，认为分类结果为0。

在一个实施例中，所述根据所述第一查准率和第一召回率计算所述第一融合模型的第一准确度，根据所述第二查准率和第二召回率计算所述第二融合模型的第二准确度，包括：

S66：获取所述第一查准率对应的第一权重值，以及所述第一召回率对应的第二权重值，其中，所述第一权重值小于所述第二权重值；

S67：根据所述第一权重值和第二权重值对所述第一查准率和第一召回率进行加权计算，得到所述第一准确度；

S68：获取所述第二查准率对应的第三权重值，以及所述第二召回率对应的第四权重值，其中，所述第三权重值小于所述第四权重值；

S69：根据所述第三权重值和第四权重值对所述第二查准率和第二召回率进行加权计算，得到所述第二准确度。

本实施例通过对召回率和查准率分别设置不同的权重的方式计算各个模型的准确度，提高了模型选取的可控性，提高了目标违约模型选取的灵活性，并且按照1.2的倍率对召回率进行加权，提高了目标违约模型的全面性。

对于步骤S66，由于召回率recall_n表示预测为正确的样本数量除以所有标准预测结果为违约的样本数量，而查准率precision_n表示预测为违约的样本数量中，预测正确的样本比例，由此可见，查准率表示正确即可，召回率表示越多越好；而在实际的债券违约预测中，为了最小化用户的金融风险，显然召回率的重要性大于查准率，即宁可错判也尽量不要漏判，以便于缩小后续复查范围，因此，本实施例将第一查准率对应的第一权重值设置为小于第一召回率对应的第二权重值，从而提高召回率在模型选取中的影响度。具体来说，为了在强调召回率的情况下避免查准率和召回率失衡，可以将第一查准率与第一召回率对应的第一权重值和第二权重值之间的权重比例设置为1：1.2。

对于步骤S67，通过下式计算第一准确度：

K1＝a₁*precision_1+a₂*recall_1

式中，K1为第一准确度，recall_1为第一召回率，precision_1为第一查准率，a₁为第一权重值，a₂为第一权重值。在具体的实施方式中，当a₁＝1，a₂＝1.2时，有K1＝precision_1+1.2*recall_1。

对于步骤S68，为了提高模型选取的可靠性，本实施例将第一融合模型和第二融合模型的准确度计算规则设置为一致，即第三权重值等于第一权重值，第四权重值等于第二权重值。在具体的实施方式中，当需要体现对不同模型的不同偏好性时，可以根据实际偏好情况设置不同的第三权重值和第四权重值，例如将第三权重值和第四权重值之间的比例设置为1：1.5或1：0.9等。

对于步骤S69，通过下式计算第二准确度：

K2＝a₃*precision_2+a₄*recall_2

式中，K2为第二准确度，recall_2为第二召回率，precision_2为第二查准率，a₃为第三权重值，a₄为第四权重值。在具体的实施方式中，当a₃＝1，a₄＝1.2时，有K2＝precision_2+1.2*recall_2。

在一个实施例中，所述对所述违约概率进行拟合计算，得到所述违约概率对应的拟合概率，包括：

通过下式计算所述拟合概率：

y＝σ(ωx+b)

本实施例通过二元一次线性表达式进行拟合概率和违约概率换算，提高了换算效率。

对于步骤S612，本实施例可以通过最小二乘法计算ω和b，通过预设的拟合参数σ对拟合概率和违约概率的换算倍率进行设定，提高了拟合的准确性。

在一个实施例中，所述获取验证数据集之前，还包括：

S501：在所述全量标签数据中选取第一数据量的标签数据作为第一验证数据分集，并在所述行业标签数据中选取第二数据量的标签数据作为第二验证数据分集，其中，所述第一数据量与所述第二数据量之间的差值的绝对值小于预设的数据量阈值；

S502：通过所述第一验证数据分集和第二验证数据分集组成所述验证数据集。

本实施例通过在全量标签数据和行业标签数据中选取数据组成验证数据集，提高了验证数据集的可靠性和平衡性。

对于步骤S501，由于在实际应用中，真正发生债券违约的企业在所有企业中仅占了较小的一部分，而为了同时提高用于训练的标签数据和验证数据集的违约样本量，避免验证数据集中的违约样本过少导致数据失衡，本实施例对全量标签数据和行业标签数据进行重复利用。与此同时，为了避免验证数据集中的企业数据和行业数据不平衡，本实施例将第一数据量与第二数据量之间的差距小于预设的数据量阈值，提高了数据的平衡性，从而提高验证结果的可靠性。具体地，数据量阈值可以为第一数据量或第二数据量的10％，示例性地，若在全量标签数据中选取了第一数据量为10000的标签数据作为第一验证数据分集，那么第二数据量应当大于10000*(1-10％)，小于10000*(1+10％)，即第二数据量大于9000且小于11000，此时第二数据量与第一数据量之间的差值的绝对值小于10000*10％，即小于1000，由此提高验证数据集中，全量标签数据和行业标签数据之间的平衡性。

对于步骤S502，为了避免训练的标签数据与验证数据集完全重合导致验证效果降低，本实施例仅选取全量标签数据和行业标签数据中的一部分作为第一验证数据分集和第二验证数据分集，再与选取的若干其余样本组合形成上述验证数据集，提高了验证数据集的可靠性。

参照图2，本申请还提出了一种违约预测模型的生成装置，包括：

数据获取模块100，用于获取待预测企业的全量标签数据，以及所述待预测企业所属行业的行业标签数据；

全量训练模块200，用于根据所述全量标签数据对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型；

分量训练模块300，用于根据所述行业标签数据对所述初始决策树模型和初始梯度迭代树模型进行训练，分别得到分量决策树模型和分量梯度树模型；

模型融合模块400，用于基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；

概率计算模块500，用于获取验证数据集，通过所述第一融合模型和第二融合模型分别对所述验证数据集进行违约概率计算；

模型选取模块600，用于根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型。

在一个实施例中，所述模型融合模块400，还用于：

在一个实施例中，所述模型选取模块600，还用于：

通过下式计算所述拟合概率：

y＝σ(ωx+b)

在一个实施例中，所述概率计算模块500，用于：

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存违约预测模型的生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种违约预测模型的生成方法。所述违约预测模型的生成方法，包括：获取待预测企业的全量标签数据，以及所述待预测企业所属行业的行业标签数据；根据所述全量标签数据对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型；根据所述行业标签数据对所述初始决策树模型和初始梯度迭代树模型进行训练，分别得到分量决策树模型和分量梯度树模型；对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；获取验证数据集，通过所述第一融合模型和第二融合模型分别对所述验证数据集进行违约概率计算；根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种违约预测模型的生成方法，包括步骤：获取待预测企业的全量标签数据，以及所述待预测企业所属行业的行业标签数据；根据所述全量标签数据对预设的初始决策树模型和初始梯度迭代树模型进行训练，分别得到全量决策树模型和全量梯度树模型；根据所述行业标签数据对所述初始决策树模型和初始梯度迭代树模型进行训练，分别得到分量决策树模型和分量梯度树模型；对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型；获取验证数据集，通过所述第一融合模型和第二融合模型分别对所述验证数据集进行违约概率计算；根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型。

上述执行的违约预测模型的生成方法，本实施例通过获取企业的全量标签数据和行业标签数据，并根据全量标签数据和行业标签数据分别训练得到全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型，提高了获取的模型的全面性；通过投票融合的方式对各个模型进行融合计算，实现了全量样本训练的模型和分行业样本训练的模型之间的融合，从而使得第一融合模型和第二融合模型能够达到兼顾债券违约底层逻辑和行业特征逻辑相结合的效果，提高了模型的泛化能力；根据对验证数据集的预测结果在第一融合模型和第二融合模型中选取预测准确性较好的模型作为最优的目标违约预测模型，提高了目标违约预测模型预测的准确性和有效性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种违约预测模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的违约预测模型的生成方法，其特征在于，所述基于预设的第一融合规则和第二融合规则，对所述全量决策树模型、全量梯度树模型、分量决策树模型和分量梯度树模型进行融合计算，得到第一融合模型和第二融合模型，包括：

3.根据权利要求1所述的违约预测模型的生成方法，其特征在于，所述根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型，包括：

4.根据权利要求1所述的违约预测模型的生成方法，其特征在于，所述根据所述违约概率进行预测准确性分类，并根据所述预测准确性的分类结果在所述第一融合模型和第二融合模型中选取目标违约预测模型，包括：

5.根据权利要求3或4所述的违约预测模型的生成方法，其特征在于，所述根据所述第一查准率和第一召回率计算所述第一融合模型的第一准确度，根据所述第二查准率和第二召回率计算所述第二融合模型的第二准确度，包括：

6.根据权利要求4所述的违约预测模型的生成方法，其特征在于，所述对所述违约概率进行拟合计算，得到所述违约概率对应的拟合概率，包括：

通过下式计算所述拟合概率：

y＝σ(ωx+b)

7.根据权利要求1所述的违约预测模型的生成方法，其特征在于，所述获取验证数据集之前，还包括：

8.一种违约预测模型的生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。