CN113240527A

CN113240527A - 基于可解释机器学习的债券市场违约风险预警方法

Info

Publication number: CN113240527A
Application number: CN202110619850.XA
Authority: CN
Inventors: 翁福添; 许谋
Original assignee: Xiamen Taiye Network Technology Co ltd
Current assignee: Xiamen Taiye Network Technology Co ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-10

Abstract

本发明公开了基于可解释机器学习的债券市场违约风险预警方法，涉及机器学习中的不平衡数据处理领域。结合聚类采样技术和XGBoost机器学习算法，并在此基础上使用SHAP方法对模型预测结果进行解释，经可获取渠道收集中国债券市场2014‑2020年的相关样本，将通过统计检验的变量纳入模型中，用于模型的训练与验证，该方法的输出即为违约风险概率，且能通过Shapely值从全局及局部对预测结果进行解释，通过上述技术方案，实现了更精准的债务违约风险预测，且能在不牺牲模型精度的前提下，对模型的预测进行解释，弥补了机器学习模型解释性弱的不足。全局解释能有效地识别出各个指标的整体重要性，而局部解释则进一步量化各个指标对每个企业的影响，利于微观层面的差异研究。

Description

基于可解释机器学习的债券市场违约风险预警方法

技术领域

本发明属于违约风险预警领域，具体为基于可解释机器学习的债券市场违约风险预警方法。

背景技术

现有生活中，债券市场的违约风险是金融市场信用风险中至关重要的组成部分，与股票相比债券的收益较为稳定风险较小，但随着我国经济的高速增长，市场中各类企业在发展壮大的过程中融资需求和债务规模也在逐步扩大，在我国经济发展进入新常态的同时，经济面临较大下行压力，债券市场中开始出现违约事件，并且发生频率有较快的增长态势，呈现出违约主体数量增加、违约金额扩大、由民营企业向国企扩散等特点，债券违约事件频发，除了宏观经济下滑的原因外，还有行业不景气、公司治理不完善等因素，债券违约是企业信用状况的严重恶化，对企业的外部融资活动和日常生产经营都会造成不利影响，同时也给债券市场的投资者造成了巨大损失，债券市场的发展丰富了我国多层次的金融体系，有利于提高直接融资占比，降低企业对银行等金融机构的间接融资过度依赖，缓解融资难、融资贵问题，另一方面，债券市场上无法按期兑付本息的违约风险也不断增加，对监管层的监管能力和投资者的风险管理与风险承担能力提出了更高的要求，在信用债违约频发的背景之下，债券违约风险预警工作具有愈发重要的实际意义。

同时近年来，机器学习、人工智能技术在经济、管理等领域的应用方兴未艾，与传统的统计方法相比，机器学习算法可以更好地拟合预测因子与目标之间复杂的非线性关系，获得更好的样本外预测性能，然而，机器学习不再提供将预测因子与输出变量相关联的参数估计，透明度较低，目前，基于机器学习的最高精度通常是通过复杂模型获得的，即使是专家都难以解释，例如集成学习和深度学习，这大大降低了金融行业人员对机器学习结果的接受程度，对于债务市场问题，不管是放贷方还是申请方，都想知道人工智能模型做出风险评估的原因，因此，基于机器学习模型的债务风险的可解释预测研究具有现实意义。

已有研究主要采用传统的统计方法以及经典的机器学习方法，如人工神经网络、支持向量机、决策树、贝叶斯方法等，然而，债务违约风险预测是典型的类别不平衡问题，传统的分类模型倾向于将样本预测为多数类，无法对少数类群体进行有效预测，此外，机器学习虽然在预测精度上往往高于传统的统计方法，但由于透明度低，无法对如何做出预测结果进行解释，难以真正落地。

发明内容：

本发明的目的就在于为了解决上述问题而提供基于可解释机器学习的债券市场违约风险预警方法，解决了背景技术中提到的问题。

为了解决上述问题，本发明提供了一种技术方案：

基于可解释机器学习的债券市场违约风险预警方法，包括以下步骤：

S1、获取数据，通过市场调研获取首次发生债券违约的企业过去每季/年财务数据、公司治理、公司特征以及所在市场环境的测度变量，同时选取同期内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本；

S2、数据预处理，首先对数据进行整理，然后提取发生债务违约企业的各类型数据，并对其进行变量筛选，同时进行数据集划分；

S3、选取模型和构造模型，选取现有的模型作为对比，同时建立多种机器学习模型；

S4、模型训练，选取评估指标F1分数、精确率、准确率、平衡精度得分和受试者工作特征曲线下的面积作为模型评估指标，以各个模型在训练数据集上的交叉验证结果来选取最优模型；

S5、模型验证，进一步测试模型在测试集上的预测性能，评估最终模型的泛化能力；

S6、模型解释，通过SHAP方法对最优机器学习模型的预测结果进行解释，计算样本中各个特征对预测结果的贡献度。

作为优选，所述步骤S1中获取数据的具体操作步骤为：按照发生违约行为的企业和相同期间内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本去搜集这些企业的相关指标，同时进行数据标记，违约标记为1，非违约标记为0。

作为优选，所述步骤S2中的数据整理具体操作步骤为：

S21、对各企业所包含的财务数据、行业类别以及所属区域分别进行编号，用阿拉伯数字代替各项数据；

S22、对缺失值数据进行填充；

S23、针对连续型数值变量采用Mann-Whitney U检验统计量，对分类型变量采用卡方检验统计量，通过95％显著水平的变量被纳入模型；

S24、对连续型数据进行归一化处理，具体操作为，遍历特征向量的每一个数据，将Max(最大值)和Min(最小值)的记录下来，并通过Max-Min作为基数进行数据的归一化处理，将数据转换到0-1之间。

作为优选，所述步骤S2中的数据集划分步骤将数据划分为训练集和测试集，所述步骤S2中的数据集划分步骤的具体操作为：将数据按照不平衡比例以7:3随机划分为两份，即分别从违约和不违约样本中随机抽取70％作为训练集，其余的作为测试集样本。

作为优选，所述步骤S3中的构造模型具体包括以下步骤：

S31、建立训练样本集

同时建立初始化样本权重D₁(i)＝1/m；

S32、在类样本数据中，使用K-means算法将其划分为K个聚类，同时在每个聚类中，随机选择一定比例的数据，与少数类数据组合成平衡数据，样本的权重根据以下方式进行更新迭代：

若一个实例在迭代中被正确分类，其权重将乘以可变系数β_i：

其中，error(M_i)为每次迭代的训练数据集中错误分类实例的权重之和；

S33、经过对正确分类的权重的更新以及归一化处理，错误分类实例的权重增加，而正确分类实例的权重将减少，当达到最大迭代数时，训练停止，得到最终集成的模型：

作为优选，所述步骤S4中的模型训练具体包括以下步骤：

S41、建立模型，建立企业债券市场违约风险预警模型；

S42、模型选取，通过对模型特异度、灵敏度和整体预测准确率三个指标进行比对，对每个机器学习算法建立的模型进行综合评估和比较，选取预测表现最佳的模型。

作为优选，所述步骤S6中的模型解释具体包括以下步骤：

S61、通过SHAP将解释定义为：

其中g是解释模型，z'∈{0,1}^M是联盟向量，M是最大联盟大小，φ_j∈R是特征j的特征归因Shapley值；

S62、同时设定联盟向量，输入1表示相应的特征存在，而输入0表示不存在，对于感兴趣的实例x，联盟向量x'是全为1的向量，即所有特征值均为存在，该公式简化为：

S63、通过SHAP来计算Shapley值，同时建立SHAP核：

其中，M是最大联盟大小，|z'|是实例z'中当前特征的数量；

S64、然后建立加权线性回归模型：

通过优化以下优化函数L来训练线性模型g：

其中Z是训练数据，通过对线性模型进行优化的误差平方和，模型的估计系数φ_j即为需要求解的Shapley值。

作为优选，所述步骤S64中当需要全局重要性时，在数据中对每个特征的Shapley绝对值取平均值：

本发明的有益效果是：本发明将采样技术与机器学习算法相结合，并在此基础上采用SHAP方法计算Shapley值对模型的预测进行解释，通过设计和改进的机器学习框架实现更精准的债务违约风险预测，同时运用SHAP方法解释机器学习模型的预测，从而弥补机器学习模型解释性低的不足。

附图说明：

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1是本发明债券违约风险预警方法框架示意图；

图2是本发明局部解释示例图；

图3是本发明全局解释示例图。

具体实施方式：

如图1-3所示，本具体实施方式采用以下技术方案：

实施例：

进一步的，所述步骤S1中获取数据的具体操作步骤为：按照发生违约行为的企业和相同期间内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本去搜集这些企业的相关指标，同时进行数据标记，违约标记为1，非违约标记为0。

进一步的，S21、对各企业所包含的财务数据、行业类别以及所属区域分别进行编号，用阿拉伯数字代替各项数据；

S22、对缺失值数据进行填充；

进一步的，所述步骤S2中的数据集划分步骤将数据划分为训练集和测试集，所述步骤S2中的数据集划分步骤的具体操作为：将数据按照不平衡比例以7:3随机划分为两份，即分别从违约和不违约样本中随机抽取70％作为训练集，其余的作为测试集样本。

进一步的，所述步骤S3中的构造模型具体包括以下步骤：

S31、建立训练样本集

同时建立初始化样本权重D₁(i)＝1/m；

进一步的，所述步骤S4中的模型训练具体包括以下步骤：

S41、建立模型，建立企业债券市场违约风险预警模型；

进一步的，所述步骤S6中的模型解释具体包括以下步骤：

S61、通过SHAP将解释定义为：

S63、通过SHAP来计算Shapley值，同时建立SHAP核：

其中，M是最大联盟大小，|z'|是实例z'中当前特征的数量；

S64、然后建立加权线性回归模型：

通过优化以下优化函数L来训练线性模型g：

进一步的，所述步骤S64中当需要全局重要性时，在数据中对每个特征的Shapley绝对值取平均值：

具体的：首先，通过市场调研获取首次发生债券违约的企业过去每季/年财务数据、公司治理、公司特征以及所在市场环境的测度变量，同时选取同期内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本；首先对数据进行整理，即对各企业所包含的财务数据、行业类别以及所属区域分别进行编号，用阿拉伯数字代替各项数据，然后对缺失值数据进行填充，接着针对连续型数值变量采用Mann-Whitney U检验统计量，对分类型变量采用卡方检验统计量，通过95％显著水平的变量被纳入模型，最后对连续型数据进行归一化处理，具体操作为，遍历特征向量的每一个数据，将Max(最大值)和Min(最小值)的记录下来，并通过Max-Min作为基数进行数据的归一化处理，将数据转换到0-1之间，然后提取发生债务违约企业的各类型数据，并对其进行变量筛选，同时进行数据集划分，将数据划分为训练集和测试集，即将数据按照不平衡比例以7:3随机划分为两份，即分别从违约和不违约样本中随机抽取70％作为训练集，其余的作为测试集样本；接着选取模型和构造模型，选取现有的模型作为对比，同时建立多种机器学习模型；建立训练样本集

同时建立初始化样本权重D₁(i)＝1/m，在类样本数据中，使用K-means算法将其划分为K个聚类，同时在每个聚类中，随机选择一定比例的数据，与少数类数据组合成平衡数据，样本的权重根据以下方式进行更新迭代：

其中，error(M_i)为每次迭代的训练数据集中错误分类实例的权重之和，经过对正确分类的权重的更新以及归一化处理，错误分类实例的权重增加，而正确分类实例的权重将减少，当达到最大迭代数时，训练停止，得到最终集成的模型：

选取评估指标F1分数、精确率、准确率、平衡精度得分和受试者工作特征曲线下的面积作为模型评估指标，以各个模型在训练数据集上的预测性能来选取最优模型，接着对数据集进行训练与交叉验证；通过SHAP将解释定义为：

其中g是解释模型，z'∈{0,1}^M是联盟向量，M是最大联盟大小，φ_j∈R是特征j的特征归因Shapley值，同时设定联盟向量，输入1表示相应的特征存在，而输入0表示不存在，对于感兴趣的实例x，联盟向量x'是全为1的向量，即所有特征值均为存在，该公式简化为：

通过SHAP来计算Shapley值，同时建立SHAP核：

其中，M是最大联盟大小，|z'|是实例z'中当前特征的数量，然后建立加权线性回归模型：

通过优化以下优化函数L来训练线性模型g：

其中Z是训练数据，通过对线性模型进行优化的误差平方和，模型的估计系数φ_j即为需要求解的Shapley值，当需要全局重要性时，在数据中对每个特征的Shapley绝对值取平均值：

经过步骤S2中筛选后的数据变量如下表所示：

图2为局部解释示例。由图2可得，基准值为0.5005，即所有预测值的均值，SOE＝0左侧条形部位表示该特征值推高了结果的预测，即增加债务违约风险的概率，反之，SOE＝0右侧条形部位表示该变量降低了该实例债务违约风险的概率，在图2中，前三个实例均为未发生违约的公司，模型预测违约的概率分别为：0.25、0.23和0.27，而后面三个实例均为发生违约的公司，模型预测违约的概率分别为0.76、0.82和0.70。SHAP不仅能对单个实例的预测进行解释，也能通过综合单个实例的Shapley值得到特征的全局重要性，如图3所示，仿真结果表明，在债务违约风险预测问题中，所提出的机器学习预测框架精度高于传统的统计方法和机器学习方法，AUC值超过了80％，该框架能有效地用于债券市场的违约风险预警，其次，该框架能有效地从局部和全局的角度，解释机器学习模型所做出的预测。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于可解释机器学习的债券市场违约风险预警方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法，其特征在于，所述步骤S1中获取数据的具体操作步骤为：按照发生违约行为的企业和相同期间内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本去搜集这些企业的相关指标，同时进行数据标记，违约标记为1，非违约标记为0。

3.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法，其特征在于，所述步骤S2中的数据整理具体操作步骤为：

S22、对缺失值数据进行填充；

4.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法，其特征在于，所述步骤S2中的数据集划分步骤将数据划分为训练集和测试集，所述步骤S2中的数据集划分步骤的具体操作为：将数据按照不平衡比例以7:3随机划分为两份，即分别从违约和不违约样本中随机抽取70％作为训练集，其余的作为测试集样本。

5.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法，其特征在于，所述步骤S3中的构造模型具体包括以下步骤：

S31、建立训练样本集