CN107248030A

CN107248030A - 一种基于机器学习算法的债券风险预测方法及系统

Info

Publication number: CN107248030A
Application number: CN201710385291.4A
Authority: CN
Inventors: 谢首鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-13

Abstract

本发明提供的基于机器学习算法的债券风险预测方法级系统，该方法获取并保存债券数据样本；运用统计学软件对债券数据样本进行预处理，得到预处理数据；运用多种机器学习算法对预处理数据进行建模，通过模型特异度、灵敏度和整体预测准确率3个指标，对每个机器学习算法建立的模型进行综合评估和比较，选出预测表现最好、最合适的模型；对所述建模步骤选出的模型进行调参和优化，得到最优模型；实时获取债券数据，并采用所述最优模型对所述债券数据进行预测。该方法能够对债券风险进行实时精准的预测、准确的判断和跟踪，有助于投资人及时掌握债券风险情况，并作出正确的投资决策，避免可能发生的债券违约损失，降低投资人的风险。

Description

一种基于机器学习算法的债券风险预测方法及系统

技术领域

本发明属于大数据技术领域，具体涉及一种基于机器学习算法的债券风险预测方法及系统。

背景技术

金融市场的投资者，尤其商业银行、证券公司、保险机构、基金公司等，处于金融监管及风险控制的要求，有相当规模的资金用于购买固定收益类产品，债券是其中的重要投资标的。为了确保所投资的债券能带来稳定的利息收益，避免违约损失，投资人需要对其所投资的债券进行风险预警和跟踪预测，以买入优质的债券，并及时地卖出可能存在风险的债券。

现有的债券风险预警或预测技术的主要运用债券发行人与风险相关的信息，如征信信息、财务数据、第三方信用评级报告及研究报告等进行判断，但这些方法或技术往往具有滞后性，当发行人出现了相关的风险事件之后，才能被投资人获知。信用评级机构也是在债券发行主体发生风险事件后才采取相关的降级措施，而不少投资机构由于不具备提前预测风险的能力或者预测能力不足，往往可能面临巨大的债券违约风险。同时，目前由于金融市场的复杂性和相关金融技术的缺乏，极少有金融机构能够对债券风险做出精准的预测和准确的判断。

发明内容

针对现有技术中的缺陷，本发明提供亟需提供一种基于机器学习算法的债券风险预测方法及系统，能够对债券风险做出精准的预测和准确的判断，降低投资人的风险。

一种基于机器学习算法的债券风险预测方法，包括

获取步骤：获取并保存债券数据样本；

预处理步骤：运用统计学软件对债券数据样本进行预处理，得到预处理数据；

建模步骤：运用多种机器学习算法对预处理数据进行建模，通过模型特异度、灵敏度和整体预测准确率3个指标，对每个机器学习算法建立的模型进行综合评估和比较，选出预测表现最好、最合适的模型；

调参步骤：对所述建模步骤选出的模型进行调参和优化，得到最优模型；

预测步骤：实时获取债券数据，并采用所述最优模型对所述债券数据进行预测。

优选地，所述预处理步骤中预处理包括：

对债券数据样本进行去重处理，保留同单一发行主体数据；运用多重随机插补方法，对去重处理后的数据进行随机插补。

优选地，所述建模步骤中的机器学习算法包括逻辑回归、决策树、随机森林、支持向量机和神经网络中一种或几种组合。

优选地，所述调参步骤中调参和优化包括：

通过逐步调整风险厌恶水平，对所述建模步骤选出的模型进行迭代，找出使得灵敏度达到100％的最优风险厌恶水平，定义该厌恶水平对应的模型为所述最优模型。

优选地，所述调参步骤之后、预测步骤之前还包括：

检验步骤：运用蒙特卡洛模拟中的自助法，设定置信水平，对所述最优模型预测效果的稳定性进行检验。

优选地，所述预测步骤还包括：

采用所述最优模型对所述债券数据进行预测，将所述最优模型输出的概率值转化为风险值和风险标识，同时将所述风险值和风险标识返回至数据库；所述风险标识包括红、黄、绿3种，其中红、黄、绿对应的风险值逐渐减小。

优选地，还包括：

查询步骤：获取所述预测步骤对所述债券数据的预测结果，并与其对应发行的债券进行匹配；还根据输入的发行人名称或债券名称，查询对应发行人或债券的风险值和风险标识。

优选地，所述查询步骤之后还包括：

跟踪步骤：实时更新所述发行人或债券的风险值和风险标识，并对所述发行人或债券的风险值和风险标识进行实时跟踪。

基于机器学习算法的债券风险预测系统，运行上述基于机器学习算法的债券风险预测方法；包括：金融资讯终端、数据库、服务器和用户终端；

所述金融资讯终端上存储有各个发行人的债券数据；

所述服务器上设有获取单元、预处理单元、建模单元、调参单元、和预测单元：

所述获取单元用于从金融资讯终端获取并保存债券数据样本；

所述预处理单元用于运用统计学软件对债券数据样本进行预处理，得到预处理数据；

所述建模单元用于运用多种机器学习算法对预处理数据进行建模，通过模型特异度、灵敏度和整体预测准确率3个指标，对每个机器学习算法建立的模型进行综合评估和比较，选出预测表现最好、最合适的模型；

所述调参单元用于对所述建模单元选出的模型进行调参和优化，得到最优模型；

所述预测单元用于实时获取债券数据，并采用所述最优模型对所述债券数据进行预测，并将预测结果发送给数据库；

所述数据库用于保存所述预测结果。

所述用户终端供用户输入的发行人名称或债券名称，查询数据库中对应发行人或债券的风险值和风险标识。

优选地，所述服务器上还设有检验单元，

所述检验单元运用蒙特卡洛模拟中的自助法，设定置信水平，对所述最优模型预测效果的稳定性进行检验。

由上述技术方案可知，本发明提供的基于机器学习算法的债券风险预测方法及系统，能够对债券风险进行实时精准的预测、准确的判断和跟踪，有助于投资人及时掌握债券风险情况，并作出正确的投资决策，避免可能发生的债券违约损失，降低投资人的风险。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为基于机器学习算法的债券风险预测方法的流程图。

图2为基于机器学习算法的债券风险预测系统的系统框图。

图3为混淆矩阵的定义。

图4为实施例中21个差异显著财务指标的P值。

图5为实施例中12个差异不显著财务指标的P值。

图6为实施例中全国各省份债券发行人信用风险分布图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例：

一种基于机器学习算法的债券风险预测方法，如图1-6所示，包括

获取步骤：获取并保存债券数据样本；

该方法的工作原理是借助大数据分析技术和机器学习算法，通过债券发行主体的财务数据，寻找出能够最大限度识别债券风险高低的算法模型，从而实现债券风险的识别及预警。能够对债券风险进行实时精准的预测、准确的判断和跟踪，有助于投资人及时掌握债券风险情况，并作出正确的投资决策，避免可能发生的债券违约损失，降低投资人的风险。

所述预处理步骤中预处理包括：

对债券数据样本进行去重处理，保留同单一发行主体数据；运用多重随机插补方法，对去重处理后的数据进行随机插补，以完善数据。

所述建模步骤中的机器学习算法包括逻辑回归、决策树、随机森林、支持向量机和神经网络中一种或几种组合。

所述调参步骤中调参和优化包括：

所述调参步骤之后、预测步骤之前还包括：

检验步骤：运用蒙特卡洛模拟中的自助法，设定置信水平，对所述最优模型预测效果的稳定性进行检验，对检验后的具有良好表现的模型的用程序语言进行封装，以备调用。

所述预测步骤还包括：

还包括：

查询步骤：获取所述预测步骤对所述债券数据的预测结果，将各个债券发行主体的预测结果调至前端，并与其对应发行的债券进行匹配；还根据输入的发行人名称或债券名称，查询对应发行人或债券的风险值和风险标识，作为对应发行人或债券的具体风险水平，作为风险控制、投资决策方面的参考，通过定时的数据更新，可实现预测结果的更新，对债券风险情况进行实时跟踪。

所述查询步骤之后还包括：

跟踪步骤：实时更新所述发行人或债券的风险值和风险标识，并对所述发行人或债券的风险值和风险标识进行实时跟踪，当发行人或债券的风险值大于预设的风险阈值时，生成提醒命令，发送给用户终端。

所述金融资讯终端上存储有各个发行人的债券数据；

所述获取单元用于从金融资讯终端获取并保存债券数据样本，并保存至数据库；原始债券数据样本中往往存在大量同一发行主体的债券，同时也存在不少财务数据缺失的现象，需要进行预处理。

所述调参单元用于对所述建模单元选出的模型进行调参和优化，得到最优模型，发送给数据库保存。

所述数据库用于保存所述预测结果。

所述服务器上还设有检验单元，

所述移动终端上还设有推荐单元，所述推荐步骤用于对数据库中发行人或债券的风险值进行排序，读取风险值最低的发行人或债券，并进行显示；

还用于获取用户关注或投资的发行人或债券，识别发行人或债券所处类别，读取数据库中该类别对应的风险值最低的发行人或债券，并进行显示；

造成债券发行人主体信用等级变动的潜在因数有很多，宏观经济环境、行业景气程度、公司自身财务状况以及其他不可抗的因素等等，均有可能对债券主体的信用等级造成影响，从而引起信用风险的变化。本发明旨在通过债券发行人主体的财务指标以及相关发债信息，对其主体信用度等级是否达到AA及以上等级进行识别。本实施例分析所用的数据集包含2015年末市场上的15638只债券，经过财务指标去重处理和对缺失值进行多重随机插补后，剩余3409只债券(发行主体)信息。本实施例选取的潜在影响因素主要为债券发行人的相关财务指标，包括资产结构、偿债能力、经营效益和经营能力等方面，同时也包含了部分债券发行信息，共计45个变量(含债券名称)，删除部分非必要变量后，剩余37个自变量，前36个为自变量(Xi)，最后一个为因变量(Y，发行人最新评级)。具体如表1所示：

表1：数据集变量名称与符号对应情况

本实施例Logistic回归模型分析说明本发明的效果。基于当通过一系列的连续性和(或)类别型自变量来预测二值型因变量时，Logistic回归模型是一种非常有用的方法。该最大特点之一就是可以得到事件发生概率的显性表达。模型假设因变量Y服从二项分布，模型的基本表达形式如下：

其中π表示给定一系列X时Y＝1的概率，即一定条件下事件发生的概率，π/(1-π)为Y＝1时的优势比，ln(π/(1-π))表示对数优势比，是Logistic回归模型的链接函数，等式右边表示各个自变量的和，则是一个多元线性方程。

Logistic回归模型属于广义线性模型(GLM)，实际上是线性模型的一种推广，常用于二值型结果的统计建模，在医学、心理学、社会学、经济学等领域有着广泛的应用。本实施例研究问题是对债券发行人主体信用等级是否在AA及以上进行识别，因而选择该模型进行分析研究。

1、统计描述。

如前所述，本实施例数据集中包含3409个样本，其中发行主体信用等级AA及以上级别的债券2973只，占比87.21％；AA以下级别的436只，占比12.79％。从是否为城投债角度看，非城投类2033个，占比59.64％，城投类1376个，占比40.36％。AA级以上主体中，非城投有1724个，城投债1249个；AA级以下债券中，非城投债有309个，城投债127个。不难看出，尽管城投债占总体比重超过40％，但AA级以下城投债占比为3.73％，低于非城投债的9.06％，可见城投类债券相对非城投类债券优质。

从是否为上市公司角度看，非上市公司2645个，占比77.59％，上市公司764个，占比22.41％。AA级以上主体中，非上市公司2337个，上市公司636个；AA级以下债券中，二者分别为308和128个。可以看出，平均而言，上市公司在债券主体级别表现要逊色于非上市公司。

从公司属性来看，3409个发行主体中，有2294个为地方国有企业，占比67.29％，其中AA及以上级别和AA以下级别个数分别为2050和244，相应占比为89.36％和10.64％；其次为民营企业，合计549个发行主体，AA及以上级别和AA以下级别个数分别为419和130，相应占比为76.32％和23.68％；再次为中央国有企业363个，AA及以上级别和AA以下级别个数分别为342和21，相应占比为94.21％和5.79％。不难看出，中央国有企业级别表现最好，其次为地方国企，民营企业表现则逊色于前两者。

2、相关性分析。

在建立Logistic回归模型之前，尝试对33个财务指标两两之间的相关性进行分析，计算出528个(组合C(33，2))相关系数，并对其相关系数矩阵进行可视化。从相关性分析结果看出，大部分的财务指标之间相关性不强，且正相关关系多于、强于负相关关系，剔除因指标计算公式接近引起的数值较大的相关系数，可以发现X13和X27(总资产收益率和EBITDA/负债总额)相关系数为0.787，X29和X34(经营活动净现金流/带息债务和EBITDA/带息债务)相关系数为0.957；负相关关系方面，X20和X22(经营活动净现金流/流动负债和非筹资性净现金流/负债总额)相关系数为-0.591。财务指标间的相关系。

3.显著性检验。

对于AA及以上级别的发行人和AA以下级别发行人，很自然地会关心的一个重要问题是，两种类型的发行人在财务表现上是否存在显著性差异，哪些财务指标差异显著，哪些差异不显著。本实施例采用Wilcoxon秩和检验对两种类型发行人的35个财务指标分别进行检验。在进行显著性检验之前，可以先分组计算一下33个财务指标的均值和标准差，如表2所示。从中不难看出，有些财务指标间的均值相差较大，如净资产收益率，AA及以上级别的发行人净资产收益率的平均值为4.41％，而AA以下级别发行人的平均值则为-3.37％；现金到期债务比，二者平均值分别为24.82％和-6.22％，说明级别高的发行人盈利能力和现金支付能力均比较强。有些财务指标的均值则相差较小，如销售毛利率，AA及以上级别的发行人销售毛利率的平均值为23.76％，而AA以下级别发行人的平均值则为22.93％，仅相差0.83个百分点；速动比率，二者平均值分别为1.45％和1.25％，相差0.2个百分点。

表2：33个财务指标的分组平均值和标准差

尽管从表2中可以看出某些财务指标的均值之间相差较大，有些相差较小，但差异是否显著须进行统计检验。从Wilcoxon检验结果来看，共有21个财务指标的P值小于等于0.05，且其中13个财务指标的P值等于0，说明两类发行人的上述财务指标差异非常显著；剩余12个财务指标的P值大于0.05，说明两类发行人在这12个财务指标上的差异不显著。具体情况如图4和图5所示。

4.Logistic回归。

通过逐步回归的方法对数据建立Logistic模型，本实施例可以得到因变量和各个自变量之间数量关系的线性表达，找出影响债券发行人信用等级的因素，从而建立起债券发行人信用等级的识别模型。更进一步地，本实施例可以运用模型得到每个发行人级别为AA以下的概率，找出最合适的阀值并作出预测，通过与实际情况对比可以得到模型预测的准确度，对模型预测效果进行评估。运用BIC准则，逐步回归进行变量筛选后，得到的回归模型参数估计结果。

5、模型预测和准确度。

通过Logistic回归建立模型后，我们可以对每个发行人债券的信用等级在AA以下的概率进行计算，得到对应的混淆矩阵。

在机器学习领域，混淆矩阵，又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习。其每一列代表预测值，每一行代表的是实际的类别。

混淆矩阵是由false positives，false negatives，true positives和truenegatives组成的两行两列的表格。它允许我们做出更多的分析，而不仅仅是局限在正确率。准确率对于分类器的性能分析来说，并不是一个很好地衡量指标，因为如果数据集不平衡(每一类的数据样本数量相差太大)，很可能会出现误导性的结果。假定一个实验有P个positive实例，在某些条件下有N个negative实例。那么上面这四个输出可以用如图3所示的混淆矩阵来表示，图3中的参数计算如下表所示。

6、区域风险、行业风险度量。

可以很容易得到每个发行人的信用等级在AA以下的概率值。根据每个发行人的省份、行业等分类信息，本实施例可以对概率值进行分类统计并计算其均值，作为分类情况下对债券发行人信用风险的一种描述，以此为基础构建出债券发行人的区域、行业等分类风险度量。

从区域风险分布情况可以看出，除港澳台三地外，全国31个省、直辖市中，债券发行人信用风险最高前5个地区依次是辽宁(0.176)、山西(0.150)、青海(0.149)、内蒙古(0.148)和黑龙江(0.145)，风险最低的5个地区则依次是西藏(0.053)、广西(0.098)、宁夏(0.099)、海南(0.101)和陕西(0.105)。各个地区具体风险情况如表3和图6所示。

表3：全国各省份债券发行人信用风险情况

序号	省份	风险	序号	省份	风险	序号	省份	风险	序号	省份	风险
												1	西藏	0.053	9	四川	0.113	17	山东	0.127	25	河南	0.140
2	广西	0.098	10	广东	0.116	18	上海	0.130	26	云南	0.142
												3	宁夏	0.099	11	福建	0.118	19	贵州	0.134	27	黑龙江	0.145
4	海南	0.101	12	重庆	0.118	20	甘肃	0.135	28	内蒙古	0.148
												5	陕西	0.105	13	吉林	0.119	21	浙江	0.136	29	青海	0.149
6	安徽	0.109	14	天津	0.126	22	新疆	0.136	30	山西	0.150
												7	湖北	0.110	15	北京	0.126	23	江苏	0.138	31	辽宁	0.176
8	江西	0.112	16	湖南	0.126	24	河北	0.139

除了区域风险，也关心发行人的行业1风险情况。从行业风险分布情况可以看出，债券发行人信用风险最高的前5个行业依次是制造业(0.183)，农、林、牧渔业(0.181)，住宿和餐饮业(0.178)，采矿业(0.164)，文化体育和娱乐业(0.150)，风险最低的5个行业则依次是电力、热力、燃气及水生产和供应业(0.068)，交通运输、仓储和邮政业(0.076)，卫生和社会工作(0.093)，居民服务、修理和其他服务业(0.104)，金融业(0.105)。各个行业具体风险情况如表4所示。

表4：各行业债券发行人信用风险情况

除了区域风险和行业风险度量，本实施例也可以按照发行人是否为城投债主体、是否为上市公司和发行人公司属性进行风险计算。根据计算结果，本实施例得到城投债发行主体的风险值为0.092，低于非城投债发行主体的风险值0.152，说明平均而言城投债信用风险低于非城投债。上市公司债券发行主体风险值为0.156，高于非上市公司发行主体的0.120，则说明平均意义下上市公司债券信用风险反而高于非上市公司。同时，本实施例可以看到，在不同公司属性下，平均而言地方国有企业的风险最低，为0.115，其次是中央国有企业(0.131)；风险最高的为公众企业(0.241)和外资企业(0.167)，具体情况如表5所示。

表5：不同公司属性债券发行人信用风险情况

序号	行业	风险	序号	行业	风险
						1	地方国有企业	0.115	6	外商独资企业	0.161
2	中央国有企业	0.131	7	民营企业	0.166
						3	中外合资企业	0.132	8	外资企业	0.167
4	其他企业	0.152	9	公众企业	0.241
						5	集体企业	0.152

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于机器学习算法的债券风险预测方法，其特征在于，包括

获取步骤：获取并保存债券数据样本；

2.根据权利要求1所述的基于机器学习算法的债券风险预测方法，其特征在于，所述预处理步骤中预处理包括：

3.根据权利要求1所述的基于机器学习算法的债券风险预测方法，其特征在于，所述建模步骤中的机器学习算法包括逻辑回归、决策树、随机森林、支持向量机和神经网络中一种或几种组合。

4.根据权利要求1所述的基于机器学习算法的债券风险预测方法，其特征在于，所述调参步骤中调参和优化包括：

5.根据权利要求1所述的基于机器学习算法的债券风险预测方法，其特征在于，所述调参步骤之后、预测步骤之前还包括：

6.根据权利要求1所述的基于机器学习算法的债券风险预测方法，其特征在于，所述预测步骤还包括：

7.根据权利要求6所述的基于机器学习算法的债券风险预测方法，其特征在于，还包括：

8.根据权利要求7所述的基于机器学习算法的债券风险预测方法，其特征在于，所述查询步骤之后还包括：

9.基于机器学习算法的债券风险预测系统，其特征在于，运行权利要求1所述基于机器学习算法的债券风险预测方法；包括：金融资讯终端、数据库、服务器和用户终端；

所述金融资讯终端上存储有各个发行人的债券数据；

所述数据库用于保存所述预测结果；

10.根据权利要求9所述的基于机器学习算法的债券风险预测系统，其特征在于，所述服务器上还设有检验单元，