CN113240527A - 基于可解释机器学习的债券市场违约风险预警方法 - Google Patents

基于可解释机器学习的债券市场违约风险预警方法 Download PDF

Info

Publication number
CN113240527A
CN113240527A CN202110619850.XA CN202110619850A CN113240527A CN 113240527 A CN113240527 A CN 113240527A CN 202110619850 A CN202110619850 A CN 202110619850A CN 113240527 A CN113240527 A CN 113240527A
Authority
CN
China
Prior art keywords
data
model
machine learning
default
bond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110619850.XA
Other languages
English (en)
Inventor
翁福添
许谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Taiye Network Technology Co ltd
Original Assignee
Xiamen Taiye Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Taiye Network Technology Co ltd filed Critical Xiamen Taiye Network Technology Co ltd
Priority to CN202110619850.XA priority Critical patent/CN113240527A/zh
Publication of CN113240527A publication Critical patent/CN113240527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于可解释机器学习的债券市场违约风险预警方法,涉及机器学习中的不平衡数据处理领域。结合聚类采样技术和XGBoost机器学习算法,并在此基础上使用SHAP方法对模型预测结果进行解释,经可获取渠道收集中国债券市场2014‑2020年的相关样本,将通过统计检验的变量纳入模型中,用于模型的训练与验证,该方法的输出即为违约风险概率,且能通过Shapely值从全局及局部对预测结果进行解释,通过上述技术方案,实现了更精准的债务违约风险预测,且能在不牺牲模型精度的前提下,对模型的预测进行解释,弥补了机器学习模型解释性弱的不足。全局解释能有效地识别出各个指标的整体重要性,而局部解释则进一步量化各个指标对每个企业的影响,利于微观层面的差异研究。

Description

基于可解释机器学习的债券市场违约风险预警方法
技术领域
本发明属于违约风险预警领域,具体为基于可解释机器学习的债券市场违约风险预警方法。
背景技术
现有生活中,债券市场的违约风险是金融市场信用风险中至关重要的组成部分,与股票相比债券的收益较为稳定风险较小,但随着我国经济的高速增长,市场中各类企业在发展壮大的过程中融资需求和债务规模也在逐步扩大,在我国经济发展进入新常态的同时,经济面临较大下行压力,债券市场中开始出现违约事件,并且发生频率有较快的增长态势,呈现出违约主体数量增加、违约金额扩大、由民营企业向国企扩散等特点,债券违约事件频发,除了宏观经济下滑的原因外,还有行业不景气、公司治理不完善等因素,债券违约是企业信用状况的严重恶化,对企业的外部融资活动和日常生产经营都会造成不利影响,同时也给债券市场的投资者造成了巨大损失,债券市场的发展丰富了我国多层次的金融体系,有利于提高直接融资占比,降低企业对银行等金融机构的间接融资过度依赖,缓解融资难、融资贵问题,另一方面,债券市场上无法按期兑付本息的违约风险也不断增加,对监管层的监管能力和投资者的风险管理与风险承担能力提出了更高的要求,在信用债违约频发的背景之下,债券违约风险预警工作具有愈发重要的实际意义。
同时近年来,机器学习、人工智能技术在经济、管理等领域的应用方兴未艾,与传统的统计方法相比,机器学习算法可以更好地拟合预测因子与目标之间复杂的非线性关系,获得更好的样本外预测性能,然而,机器学习不再提供将预测因子与输出变量相关联的参数估计,透明度较低,目前,基于机器学习的最高精度通常是通过复杂模型获得的,即使是专家都难以解释,例如集成学习和深度学习,这大大降低了金融行业人员对机器学习结果的接受程度,对于债务市场问题,不管是放贷方还是申请方,都想知道人工智能模型做出风险评估的原因,因此,基于机器学习模型的债务风险的可解释预测研究具有现实意义。
已有研究主要采用传统的统计方法以及经典的机器学习方法,如人工神经网络、支持向量机、决策树、贝叶斯方法等,然而,债务违约风险预测是典型的类别不平衡问题,传统的分类模型倾向于将样本预测为多数类,无法对少数类群体进行有效预测,此外,机器学习虽然在预测精度上往往高于传统的统计方法,但由于透明度低,无法对如何做出预测结果进行解释,难以真正落地。
发明内容:
本发明的目的就在于为了解决上述问题而提供基于可解释机器学习的债券市场违约风险预警方法,解决了背景技术中提到的问题。
为了解决上述问题,本发明提供了一种技术方案:
基于可解释机器学习的债券市场违约风险预警方法,包括以下步骤:
S1、获取数据,通过市场调研获取首次发生债券违约的企业过去每季/年财务数据、公司治理、公司特征以及所在市场环境的测度变量,同时选取同期内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本;
S2、数据预处理,首先对数据进行整理,然后提取发生债务违约企业的各类型数据,并对其进行变量筛选,同时进行数据集划分;
S3、选取模型和构造模型,选取现有的模型作为对比,同时建立多种机器学习模型;
S4、模型训练,选取评估指标F1分数、精确率、准确率、平衡精度得分和受试者工作特征曲线下的面积作为模型评估指标,以各个模型在训练数据集上的交叉验证结果来选取最优模型;
S5、模型验证,进一步测试模型在测试集上的预测性能,评估最终模型的泛化能力;
S6、模型解释,通过SHAP方法对最优机器学习模型的预测结果进行解释,计算样本中各个特征对预测结果的贡献度。
作为优选,所述步骤S1中获取数据的具体操作步骤为:按照发生违约行为的企业和相同期间内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本去搜集这些企业的相关指标,同时进行数据标记,违约标记为1,非违约标记为0。
作为优选,所述步骤S2中的数据整理具体操作步骤为:
S21、对各企业所包含的财务数据、行业类别以及所属区域分别进行编号,用阿拉伯数字代替各项数据;
S22、对缺失值数据进行填充;
S23、针对连续型数值变量采用Mann-Whitney U检验统计量,对分类型变量采用卡方检验统计量,通过95%显著水平的变量被纳入模型;
S24、对连续型数据进行归一化处理,具体操作为,遍历特征向量的每一个数据,将Max(最大值)和Min(最小值)的记录下来,并通过Max-Min作为基数进行数据的归一化处理,将数据转换到0-1之间。
作为优选,所述步骤S2中的数据集划分步骤将数据划分为训练集和测试集,所述步骤S2中的数据集划分步骤的具体操作为:将数据按照不平衡比例以7:3随机划分为两份,即分别从违约和不违约样本中随机抽取70%作为训练集,其余的作为测试集样本。
作为优选,所述步骤S3中的构造模型具体包括以下步骤:
S31、建立训练样本集
Figure BDA0003099117200000031
同时建立初始化样本权重D1(i)=1/m;
S32、在类样本数据中,使用K-means算法将其划分为K个聚类,同时在每个聚类中,随机选择一定比例的数据,与少数类数据组合成平衡数据,样本的权重根据以下方式进行更新迭代:
若一个实例在迭代中被正确分类,其权重将乘以可变系数βi
Figure BDA0003099117200000041
Figure BDA0003099117200000042
其中,error(Mi)为每次迭代的训练数据集中错误分类实例的权重之和;
S33、经过对正确分类的权重的更新以及归一化处理,错误分类实例的权重增加,而正确分类实例的权重将减少,当达到最大迭代数时,训练停止,得到最终集成的模型:
Figure BDA0003099117200000043
作为优选,所述步骤S4中的模型训练具体包括以下步骤:
S41、建立模型,建立企业债券市场违约风险预警模型;
S42、模型选取,通过对模型特异度、灵敏度和整体预测准确率三个指标进行比对,对每个机器学习算法建立的模型进行综合评估和比较,选取预测表现最佳的模型。
作为优选,所述步骤S6中的模型解释具体包括以下步骤:
S61、通过SHAP将解释定义为:
Figure BDA0003099117200000044
其中g是解释模型,z'∈{0,1}M是联盟向量,M是最大联盟大小,φj∈R是特征j的特征归因Shapley值;
S62、同时设定联盟向量,输入1表示相应的特征存在,而输入0表示不存在,对于感兴趣的实例x,联盟向量x'是全为1的向量,即所有特征值均为存在,该公式简化为:
Figure BDA0003099117200000051
S63、通过SHAP来计算Shapley值,同时建立SHAP核:
Figure BDA0003099117200000052
其中,M是最大联盟大小,|z'|是实例z'中当前特征的数量;
S64、然后建立加权线性回归模型:
Figure BDA0003099117200000053
通过优化以下优化函数L来训练线性模型g:
Figure BDA0003099117200000054
其中Z是训练数据,通过对线性模型进行优化的误差平方和,模型的估计系数φj即为需要求解的Shapley值。
作为优选,所述步骤S64中当需要全局重要性时,在数据中对每个特征的Shapley绝对值取平均值:
Figure BDA0003099117200000055
本发明的有益效果是:本发明将采样技术与机器学习算法相结合,并在此基础上采用SHAP方法计算Shapley值对模型的预测进行解释,通过设计和改进的机器学习框架实现更精准的债务违约风险预测,同时运用SHAP方法解释机器学习模型的预测,从而弥补机器学习模型解释性低的不足。
附图说明:
为了易于说明,本发明由下述的具体实施及附图作以详细描述。
图1是本发明债券违约风险预警方法框架示意图;
图2是本发明局部解释示例图;
图3是本发明全局解释示例图。
具体实施方式:
如图1-3所示,本具体实施方式采用以下技术方案:
实施例:
基于可解释机器学习的债券市场违约风险预警方法,包括以下步骤:
S1、获取数据,通过市场调研获取首次发生债券违约的企业过去每季/年财务数据、公司治理、公司特征以及所在市场环境的测度变量,同时选取同期内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本;
S2、数据预处理,首先对数据进行整理,然后提取发生债务违约企业的各类型数据,并对其进行变量筛选,同时进行数据集划分;
S3、选取模型和构造模型,选取现有的模型作为对比,同时建立多种机器学习模型;
S4、模型训练,选取评估指标F1分数、精确率、准确率、平衡精度得分和受试者工作特征曲线下的面积作为模型评估指标,以各个模型在训练数据集上的交叉验证结果来选取最优模型;
S5、模型验证,进一步测试模型在测试集上的预测性能,评估最终模型的泛化能力;
S6、模型解释,通过SHAP方法对最优机器学习模型的预测结果进行解释,计算样本中各个特征对预测结果的贡献度。
进一步的,所述步骤S1中获取数据的具体操作步骤为:按照发生违约行为的企业和相同期间内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本去搜集这些企业的相关指标,同时进行数据标记,违约标记为1,非违约标记为0。
进一步的,S21、对各企业所包含的财务数据、行业类别以及所属区域分别进行编号,用阿拉伯数字代替各项数据;
S22、对缺失值数据进行填充;
S23、针对连续型数值变量采用Mann-Whitney U检验统计量,对分类型变量采用卡方检验统计量,通过95%显著水平的变量被纳入模型;
S24、对连续型数据进行归一化处理,具体操作为,遍历特征向量的每一个数据,将Max(最大值)和Min(最小值)的记录下来,并通过Max-Min作为基数进行数据的归一化处理,将数据转换到0-1之间。
进一步的,所述步骤S2中的数据集划分步骤将数据划分为训练集和测试集,所述步骤S2中的数据集划分步骤的具体操作为:将数据按照不平衡比例以7:3随机划分为两份,即分别从违约和不违约样本中随机抽取70%作为训练集,其余的作为测试集样本。
进一步的,所述步骤S3中的构造模型具体包括以下步骤:
S31、建立训练样本集
Figure BDA0003099117200000071
同时建立初始化样本权重D1(i)=1/m;
S32、在类样本数据中,使用K-means算法将其划分为K个聚类,同时在每个聚类中,随机选择一定比例的数据,与少数类数据组合成平衡数据,样本的权重根据以下方式进行更新迭代:
若一个实例在迭代中被正确分类,其权重将乘以可变系数βi
Figure BDA0003099117200000072
Figure BDA0003099117200000073
其中,error(Mi)为每次迭代的训练数据集中错误分类实例的权重之和;
S33、经过对正确分类的权重的更新以及归一化处理,错误分类实例的权重增加,而正确分类实例的权重将减少,当达到最大迭代数时,训练停止,得到最终集成的模型:
Figure BDA0003099117200000074
进一步的,所述步骤S4中的模型训练具体包括以下步骤:
S41、建立模型,建立企业债券市场违约风险预警模型;
S42、模型选取,通过对模型特异度、灵敏度和整体预测准确率三个指标进行比对,对每个机器学习算法建立的模型进行综合评估和比较,选取预测表现最佳的模型。
进一步的,所述步骤S6中的模型解释具体包括以下步骤:
S61、通过SHAP将解释定义为:
Figure BDA0003099117200000081
其中g是解释模型,z'∈{0,1}M是联盟向量,M是最大联盟大小,φj∈R是特征j的特征归因Shapley值;
S62、同时设定联盟向量,输入1表示相应的特征存在,而输入0表示不存在,对于感兴趣的实例x,联盟向量x'是全为1的向量,即所有特征值均为存在,该公式简化为:
Figure BDA0003099117200000082
S63、通过SHAP来计算Shapley值,同时建立SHAP核:
Figure BDA0003099117200000083
其中,M是最大联盟大小,|z'|是实例z'中当前特征的数量;
S64、然后建立加权线性回归模型:
Figure BDA0003099117200000084
通过优化以下优化函数L来训练线性模型g:
Figure BDA0003099117200000085
其中Z是训练数据,通过对线性模型进行优化的误差平方和,模型的估计系数φj即为需要求解的Shapley值。
进一步的,所述步骤S64中当需要全局重要性时,在数据中对每个特征的Shapley绝对值取平均值:
Figure BDA0003099117200000091
具体的:首先,通过市场调研获取首次发生债券违约的企业过去每季/年财务数据、公司治理、公司特征以及所在市场环境的测度变量,同时选取同期内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本;首先对数据进行整理,即对各企业所包含的财务数据、行业类别以及所属区域分别进行编号,用阿拉伯数字代替各项数据,然后对缺失值数据进行填充,接着针对连续型数值变量采用Mann-Whitney U检验统计量,对分类型变量采用卡方检验统计量,通过95%显著水平的变量被纳入模型,最后对连续型数据进行归一化处理,具体操作为,遍历特征向量的每一个数据,将Max(最大值)和Min(最小值)的记录下来,并通过Max-Min作为基数进行数据的归一化处理,将数据转换到0-1之间,然后提取发生债务违约企业的各类型数据,并对其进行变量筛选,同时进行数据集划分,将数据划分为训练集和测试集,即将数据按照不平衡比例以7:3随机划分为两份,即分别从违约和不违约样本中随机抽取70%作为训练集,其余的作为测试集样本;接着选取模型和构造模型,选取现有的模型作为对比,同时建立多种机器学习模型;建立训练样本集
Figure BDA0003099117200000094
同时建立初始化样本权重D1(i)=1/m,在类样本数据中,使用K-means算法将其划分为K个聚类,同时在每个聚类中,随机选择一定比例的数据,与少数类数据组合成平衡数据,样本的权重根据以下方式进行更新迭代:
若一个实例在迭代中被正确分类,其权重将乘以可变系数βi
Figure BDA0003099117200000092
Figure BDA0003099117200000093
其中,error(Mi)为每次迭代的训练数据集中错误分类实例的权重之和,经过对正确分类的权重的更新以及归一化处理,错误分类实例的权重增加,而正确分类实例的权重将减少,当达到最大迭代数时,训练停止,得到最终集成的模型:
Figure BDA0003099117200000101
选取评估指标F1分数、精确率、准确率、平衡精度得分和受试者工作特征曲线下的面积作为模型评估指标,以各个模型在训练数据集上的预测性能来选取最优模型,接着对数据集进行训练与交叉验证;通过SHAP将解释定义为:
Figure BDA0003099117200000102
其中g是解释模型,z'∈{0,1}M是联盟向量,M是最大联盟大小,φj∈R是特征j的特征归因Shapley值,同时设定联盟向量,输入1表示相应的特征存在,而输入0表示不存在,对于感兴趣的实例x,联盟向量x'是全为1的向量,即所有特征值均为存在,该公式简化为:
Figure BDA0003099117200000103
通过SHAP来计算Shapley值,同时建立SHAP核:
Figure BDA0003099117200000104
其中,M是最大联盟大小,|z'|是实例z'中当前特征的数量,然后建立加权线性回归模型:
Figure BDA0003099117200000105
通过优化以下优化函数L来训练线性模型g:
Figure BDA0003099117200000106
其中Z是训练数据,通过对线性模型进行优化的误差平方和,模型的估计系数φj即为需要求解的Shapley值,当需要全局重要性时,在数据中对每个特征的Shapley绝对值取平均值:
Figure BDA0003099117200000107
经过步骤S2中筛选后的数据变量如下表所示:
Figure BDA0003099117200000111
图2为局部解释示例。由图2可得,基准值为0.5005,即所有预测值的均值,SOE=0左侧条形部位表示该特征值推高了结果的预测,即增加债务违约风险的概率,反之,SOE=0右侧条形部位表示该变量降低了该实例债务违约风险的概率,在图2中,前三个实例均为未发生违约的公司,模型预测违约的概率分别为:0.25、0.23和0.27,而后面三个实例均为发生违约的公司,模型预测违约的概率分别为0.76、0.82和0.70。SHAP不仅能对单个实例的预测进行解释,也能通过综合单个实例的Shapley值得到特征的全局重要性,如图3所示,仿真结果表明,在债务违约风险预测问题中,所提出的机器学习预测框架精度高于传统的统计方法和机器学习方法,AUC值超过了80%,该框架能有效地用于债券市场的违约风险预警,其次,该框架能有效地从局部和全局的角度,解释机器学习模型所做出的预测。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.基于可解释机器学习的债券市场违约风险预警方法,其特征在于,包括以下步骤:
S1、获取数据,通过市场调研获取首次发生债券违约的企业过去每季/年财务数据、公司治理、公司特征以及所在市场环境的测度变量,同时选取同期内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本;
S2、数据预处理,首先对数据进行整理,然后提取发生债务违约企业的各类型数据,并对其进行变量筛选,同时进行数据集划分;
S3、选取模型和构造模型,选取现有的模型作为对比,同时建立多种机器学习模型;
S4、模型训练,选取评估指标F1分数、精确率、准确率、平衡精度得分和受试者工作特征曲线下的面积作为模型评估指标,以各个模型在训练数据集上的交叉验证结果来选取最优模型;
S5、模型验证,进一步测试模型在测试集上的预测性能,评估最终模型的泛化能力;
S6、模型解释,通过SHAP方法对最优机器学习模型的预测结果进行解释,计算样本中各个特征对预测结果的贡献度。
2.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S1中获取数据的具体操作步骤为:按照发生违约行为的企业和相同期间内有存续的公司债、企业债或中期票据且未发生债券违约的公司作为非违约样本去搜集这些企业的相关指标,同时进行数据标记,违约标记为1,非违约标记为0。
3.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S2中的数据整理具体操作步骤为:
S21、对各企业所包含的财务数据、行业类别以及所属区域分别进行编号,用阿拉伯数字代替各项数据;
S22、对缺失值数据进行填充;
S23、针对连续型数值变量采用Mann-Whitney U检验统计量,对分类型变量采用卡方检验统计量,通过95%显著水平的变量被纳入模型;
S24、对连续型数据进行归一化处理,具体操作为,遍历特征向量的每一个数据,将Max(最大值)和Min(最小值)的记录下来,并通过Max-Min作为基数进行数据的归一化处理,将数据转换到0-1之间。
4.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S2中的数据集划分步骤将数据划分为训练集和测试集,所述步骤S2中的数据集划分步骤的具体操作为:将数据按照不平衡比例以7:3随机划分为两份,即分别从违约和不违约样本中随机抽取70%作为训练集,其余的作为测试集样本。
5.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S3中的构造模型具体包括以下步骤:
S31、建立训练样本集
Figure FDA0003099117190000021
同时建立初始化样本权重D1(i)=1/m;
S32、在类样本数据中,使用K-means算法将其划分为K个聚类,同时在每个聚类中,随机选择一定比例的数据,与少数类数据组合成平衡数据,样本的权重根据以下方式进行更新迭代:
若一个实例在迭代中被正确分类,其权重将乘以可变系数βi
Figure FDA0003099117190000022
Figure FDA0003099117190000023
其中,error(Mi)为每次迭代的训练数据集中错误分类实例的权重之和;
S33、经过对正确分类的权重的更新以及归一化处理,错误分类实例的权重增加,而正确分类实例的权重将减少,当达到最大迭代数时,训练停止,得到最终集成的模型:
Figure FDA0003099117190000031
6.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S4中的模型训练具体包括以下步骤:
S41、建立模型,建立企业债券市场违约风险预警模型;
S42、模型选取,通过对模型特异度、灵敏度和整体预测准确率三个指标进行比对,对每个机器学习算法建立的模型进行综合评估和比较,选取预测表现最佳的模型。
7.根据权利要求1所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S6中的模型解释具体包括以下步骤:
S61、通过SHAP将解释定义为:
Figure FDA0003099117190000032
其中g是解释模型,z'∈{0,1}M是联盟向量,M是最大联盟大小,φj∈R是特征j的特征归因Shapley值;
S62、同时设定联盟向量,输入1表示相应的特征存在,而输入0表示不存在,对于感兴趣的实例x,联盟向量x'是全为1的向量,即所有特征值均为存在,该公式简化为:
Figure FDA0003099117190000033
S63、通过SHAP来计算Shapley值,同时建立SHAP核:
Figure FDA0003099117190000034
其中,M是最大联盟大小,|z'|是实例z'中当前特征的数量;
S64、然后建立加权线性回归模型:
Figure FDA0003099117190000041
通过优化以下优化函数L来训练线性模型g:
Figure FDA0003099117190000042
其中Z是训练数据,通过对线性模型进行优化的误差平方和,模型的估计系数φj即为需要求解的Shapley值。
8.根据权利要求7所述的基于可解释机器学习的债券市场违约风险预警方法,其特征在于,所述步骤S64中当需要全局重要性时,在数据中对每个特征的Shapley绝对值取平均值:
Figure FDA0003099117190000043
CN202110619850.XA 2021-06-03 2021-06-03 基于可解释机器学习的债券市场违约风险预警方法 Pending CN113240527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110619850.XA CN113240527A (zh) 2021-06-03 2021-06-03 基于可解释机器学习的债券市场违约风险预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110619850.XA CN113240527A (zh) 2021-06-03 2021-06-03 基于可解释机器学习的债券市场违约风险预警方法

Publications (1)

Publication Number Publication Date
CN113240527A true CN113240527A (zh) 2021-08-10

Family

ID=77136552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110619850.XA Pending CN113240527A (zh) 2021-06-03 2021-06-03 基于可解释机器学习的债券市场违约风险预警方法

Country Status (1)

Country Link
CN (1) CN113240527A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707883A (zh) * 2022-04-18 2022-07-05 工银瑞信基金管理有限公司 基于时序特征的债券违约预测方法、装置、设备和介质
CN116776095A (zh) * 2023-08-25 2023-09-19 湘江实验室 空气质量数据标准化方法、装置、计算机设备及介质
TWI817237B (zh) * 2021-11-04 2023-10-01 關貿網路股份有限公司 風險預測方法、系統及其電腦可讀媒介

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI817237B (zh) * 2021-11-04 2023-10-01 關貿網路股份有限公司 風險預測方法、系統及其電腦可讀媒介
CN114707883A (zh) * 2022-04-18 2022-07-05 工银瑞信基金管理有限公司 基于时序特征的债券违约预测方法、装置、设备和介质
CN116776095A (zh) * 2023-08-25 2023-09-19 湘江实验室 空气质量数据标准化方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN113240527A (zh) 基于可解释机器学习的债券市场违约风险预警方法
CN106897918A (zh) 一种混合式机器学习信用评分模型构建方法
CN111949939B (zh) 基于改进topsis和聚类分析的智能电表运行状态评价方法
CN112735097A (zh) 一种区域滑坡预警方法及系统
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN112132210A (zh) 一种基于客户用电行为的窃电概率预警分析方法
CN110490496A (zh) 一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法
CN116468536A (zh) 一种自动化风险控制规则生成的方法
CN112950048A (zh) 基于模糊综合评价的国家高等教育体系健康评价
Zhai et al. A financial ratio-based predicting model for hotel business failure
Ardyanta et al. A prediction of stock price movements using support vector machines in Indonesia
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
CN115293641A (zh) 一种基于金融大数据的企业风险智能识别方法
CN114091961A (zh) 一种基于半监督svm的电力企业供应商评价方法
Marevac et al. Decision-making AI for customer worthiness and viability
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
CN113888047A (zh) 考虑区域投资能力的技改项目投资规模预测方法及系统
Liu et al. RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction
CN117709908B (zh) 一种电网工程人、材、机分配合理性智慧审计方法与系统
CN117688455B (zh) 一种基于数据质量与强化学习的元任务小样本分类方法
CN111024557B (zh) 一种纸页吸水性软测量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination