CN111340236B

CN111340236B - 一种基于债券估值数据与集成机器学习的债券违约预测方法

Info

Publication number: CN111340236B
Application number: CN202010138315.8A
Authority: CN
Inventors: 殷宪晨
Original assignee: China Bond Financial Valuation Center Co ltd
Current assignee: China Bond Financial Valuation Center Co ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2023-09-22
Anticipated expiration: 2040-03-03
Also published as: CN111340236A

Abstract

本发明提供一种基于债券估值数据与集成机器学习的债券违约预测方法，包括以下步骤：(1)获取债券估值数据和基本资料数据；(2)特征工程，清洗数据；(3)K折交叉验证选择最优模型参数；(4)训练模型；(5)使用训练好的模型进行违约预测；(6)集成模型，得到风险评分。其通过使用结构化的债券估值数据进行违约预测，降低使用非结构化数据的处理复杂度，增强所用数据与债券的相关性；通过运用K折交叉验证选择最优的模型参数，避免人为选参造成的模型效果差的问题；通过集成多个不同特点的模型的预测结果，降低只用个别模型预测产生错误的概率；通过给出不同模型预测的违约概率和集成的风险评分，辅助投资者进行投资决策。

Description

一种基于债券估值数据与集成机器学习的债券违约预测方法

技术领域

本发明属于金融风险评估领域，具体涉及一种基于债券估值数据与集成机器学习的债券违约预测方法。

背景技术

债券作为投资者重要的融资工具，连续爆发的违约事件损害了投资者的利益，影响了债券市场融资功能的发挥。为了更好地维护投资者的利益，保护投资者合法权益，需要一种能够提前预测债券违约风险的方法，在债券违约前预警，以辅助投资者进行债券投资决策，避免财产遭受严重损失。

到目前为止，市场上已经有一些利用机器学习进行债券违约预测的方法，这些方法主要使用与债券本身无关的数据，例如债券主体相关的财务数据、主体所在行业数据、地区的财政数据、宏观经济数据、市场舆情数据和征信数据等。将这些数据结构化、清洗之后，使用特定参数的机器学习模型进行训练，最后对新债券是否违约进行预测。

这些方法主要使用和债券本身无关的非结构化数据，这些数据和债券的特征没有直接联系，而且需要花费大量的时间成本和人力成本将非结构化数据处理成机器学习模型可用的结构化数据。此外人为选择机器学习模型的参数，不恰当的选择会严重影响模型的效果，降低预测结果的准确性。这些方法通常只用一个模型进行训练预测，由于数据分布具有很大的不确定性，一个模型只能拟合一部分数据的分布特性，另外一部分数据拟合程度差，往往导致预测准确性降低。

发明内容

为了解决现有方法的不足，本发明提供一种基于债券估值数据与集成机器学习的债券违约预测方法，本方法首次将债券的估值数据应用在债券违约预测中，使用公司估值中心编制的为金融资产提供公允价值的债券估值数据和债券发行时的基本资料数据预测债券违约风险；通过K折交叉验证选择模型参数，避免了人为选择参数造成的模型效果差的问题；集成多个不同特点的机器学习模型进行债券风险评分，降低了只使用一个模型进行债券违约预测产生错误的概率。

为实现上述目的，本发明的技术方案如下：

一种基于债券估值数据与集成机器学习的债券违约预测方法，包括以下步骤：

(1)获取债券估值数据和基本资料数据。

(2)特征工程，清洗数据。

(3)K折交叉验证选择最优模型参数。

(4)训练模型。

(5)使用训练好的模型进行违约预测。

(6)集成模型，得到风险评分。

步骤(1)中，从中债金融估值中心获取正常到期债券和违约债券的估值数据和基本资料数据，这些数据称为训练样本集合，正常到期债券样本为正样本，违约债券样本为负样本。样本的特征包括类别特征和数值特征，类别特征包括：证券类型代码、证券品种代码、证券类别代码、证券性质代码、证券期限单位、计息方式代码、担保方式代码、含权标志、城投债标志、付息规则标志、机构类型代码、组织形式、是否上市、地区代码、行业代码、最新主体信用评级编号、最新债项信用评级编号和曲线评级编号，数值特征包括：证券期限、票面利率、发行时利差、付息频率、发行价格、实际发行总额、本期本金值、注册资本、修正久期、凸性、基点价值、估值全价、估值净价、估价收益率、实际待偿期和上一个工作日净价离差。

步骤(2)中进行特征工程，清洗数据包括以下步骤：第一，进行空值处理，对于数值特征取空值的情况，用训练样本集合中该特征的所有非空样本取值的平均值填充，对于类别特征取空值的情况，用同一个特殊类别填充。第二，进行特征合并，将相关联的特征进行合并。第三，对类别特征进行独热编码。第四，对每一个特征进行标准化，将每一个特征取值减去该特征所有取值的均值再除以标准差进行特征标准化，如果特征所有取值的标准差等于0，则不对该特征进行标准化处理。

步骤(3)中，选择多个特点不同的机器学习模型进行K折交叉验证。K折交叉验证选择最优模型参数包括以下步骤：第一，确定机器学习模型需要验证的参数组合。第二，选择一个还没有K折交叉验证过的参数组合。第三，将所有样本数据随机打乱顺序，近似等分成K份，在K-1份数据上训练，剩下的1份数据上验证训练效果。第四，进行K次训练和验证，保证在所有K份数据上都进行了一次验证。第五，统计K份验证集上正确预测的负样本数目和正样本数目，作为当前参数组合的评价标准。第六，对没有K折交叉验证的参数组合，重复第二到第五步，直到所有的参数组合都已经K折交叉验证过，选择评价标准最优的参数组合作为该模型训练的参数。

步骤(4)中，使用步骤(2)中数据清洗后的全部样本训练K折交叉验证选定参数的每一个模型，并存储模型结果。

步骤(5)中，对新样本用训练好的模型预测违约概率，包括以下步骤：

第一，获取需要违约预测的债券，选择特定日期的债券估值数据。

第二，采用步骤(2)的方法，特征工程，清洗预测数据。第三，用训练好的每一个模型，分别预测样本违约的概率。

步骤(6)中，集成步骤(5)中每一个模型的预测结果，根据每一个模型预测的违约概率定义债券违约风险评分。

与现有技术相比，本发明的有益效果是：

1、使用和债券直接相关的结构化的债券估值数据和基本资料数据，无需进行复杂耗时的非结构化数据处理。

2、K折交叉验证选择机器学习模型参数，减少人为选择对模型效果的负面影响。

3、集成多个特点不同的机器学习模型的预测结果得出债券风险评分，提高债券违约预测可信度。

附图说明

附图1为本方法的整体流程示意图。

附图2为本方法中特征工程数据清洗流程示意图。

附图3为本方法中K折交叉验证选择模型参数的流程示意图。

附图4为本方法中债券样本违约预测的流程示意图。

具体实施方式

下面结合附图与具体实施例对本发明做进一步的说明，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

如附图1所示，一种基于债券估值数据与集成机器学习的债券违约预测方法，包括以下步骤：

(1)获取债券估值数据和基本资料数据。

(2)特征工程，清洗数据。

(3)K折交叉验证选择最优模型参数。

(4)训练模型。

(5)使用训练好的模型进行违约预测。

(6)集成模型，得到风险评分。

步骤(1)中，从中债金融估值中心获得正常到期债券和违约债券的基本资料数据、正常到期债券的到期前一日和违约债券违约前一日的估值数据作为模型参数选择和训练的数据，其中一支债券称为一个样本，正常债券是正样本，共包含121119个，违约债券是负样本，包含411个。

样本的属性字段称为样本特征，样本属性字段的数目称为样本特征的维数。

样本特征又分为类别特征和数值特征，类别特征是指在有限类别内取值的特征，数值特征是指取连续数值的特征。类别特征包括：证券类型代码、证券品种代码、证券类别代码、证券性质代码、证券期限单位、计息方式代码、担保方式代码、含权标志、城投债标志、付息规则标志、机构类型代码、组织形式、是否上市、地区代码、行业代码、最新主体信用评级编号、最新债项信用评级编号和曲线评级编号，数值特征包括：证券期限、票面利率、发行时利差、付息频率、发行价格、实际发行总额、本期本金值、注册资本、修正久期、凸性、基点价值、估值全价、估值净价、估价收益率、实际待偿期和上一个工作日净价离差。

步骤(2)中，进行特征工程，清洗数据的流程如附图2所示，包括以下步骤：

(2.1)进行空值处理，对于数值特征取空值的情况，用训练样本集合中该特征的所有非空样本的取值平均值填充所有空值，对于类别特征取空值的情况，用同一个特殊类别‘-11111’填充。

(2.2)进行特征合并，将相关联的特征进行合并，把债券期限处理成以天为单位的期限，对于以年为单位的债券期限，用债券期限乘以365；用本期本金值分别减去估值全价和估值净价，得到的结果作为新的估价全价和估价净价；删除处理后无用的债券期限和本期本金值。

(2.3)对类别特征进行独热编码，由于大部分机器学习模型是基于向量空间中的度量来进行计算的，使用独热编码，将类别特征的取值扩展到了欧式空间，类别特征的某个取值就对应欧式空间的某个点，让特征之间的距离计算更加合理。对于一个类别特征，如果它有m个取值，那么经过独热编码后，就变成了m个0和1取值二元特征。通过统计所有训练样本集合的样本类别特征的不重复取值确定每一个类别特征用于独热编码的值。类别特征进行独热编码后，特征总数目为2266个，每一个特征都是数值特征。

(2.4)对每一个特征进行标准化，数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。许多机器学习模型中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级，那么它就会在学习算法中占据主导位置，严重影响模型训练效果。因此，对每个特征，将该特征取值减去特征所有取值的均值再除以标准差进行特征标准化，如果特征所有取值的标准差等于0，则不对该特征进行标准化处理。

步骤(3)中，K折交叉验证选择最优模型参数的流程如附图3所示，包括以下步骤：

(3.1)确定机器学习模型需要验证的参数组合。

(3.2)选择一个还没有K折交叉验证过的参数组合。

(3.3)将所有样本数据随机打乱顺序，近似等分成K份，在K-1份数据上训练，剩下的1份数据上验证训练效果。

(3.4)进行K次训练和验证，保证在所有K份数据上都进行了一次验证。

(3.5)统计K份验证集上正确预测的负样本数目和正样本数目，作为当前参数组合的评价标准。

(3.6)对没有K折交叉验证的参数组合，重复第二到第五步，直到所有的参数组合都已经K折交叉验证过，选择评价标准最优的参数组合作为该模型训练的参数。

本实施例选择四个特点不同的机器学习模型：Logistic Regression模型、kernel-SVM(核支持向量机)模型、XGBoost(极端梯度提升)模型和neural network(神经网络)模型进行K折交叉验证和模型训练。直接使用python的sklearn和xgboost包提供的函数实现K折交叉验证和模型训练的过程，其中K取10。训练环境为配置为Intel(R)Core(TM)i7-8550U CPU@1.80GHz 2.0GHz，内存容量8GB的便携式计算机。

Logistic Regression模型是一个线性模型，适用于二分类问题，其本质是用一个超平面对样本特征空间进行划分，划分成两个部分，每一个部分就是一个类别。该模型对应于sklearn包SGDClassifer函数，需要选择的模型参数是损失函数正则化方式和是否在训练集上划分验证集来允许提前停止训练，其他参数取函数默认值。为了避免正负样本比例失衡对模型的影响，采用对每一个样本赋权的方式，正负样本的权重比值反比于正负样本数目的比值。K折交叉验证的结果如表1所示。

表1：不同参数组合下，Logistic Regression正确预测负样本数目/正确预测正样本数目。

根据表1结果，选择无提前停止训练和L2正则化的参数组合，模型训练耗时约为20s，在全部样本上训练该参数组合的模型，并验证在全部样本上的正确预测负样本数目/正确预测正样本数目为：410/121017。

kernel-SVM模型在传统SVM模型上引入核函数，非线性核函数的SVM模型是一个在样本特征空间中的非线性模型，适用于二分类问题，该模型的本质是通过核函数将特征空间映射到极高维中，特别地，高斯(rbf)核函数可以将样本空间映射到无限维，使得样本在高维空间中线性可分，通过训练得到高维空间的分类超平面，该分类超平面在低维原样本空间中就是一个分类超曲面。该模型对应于sklearn包SVC函数。需要选择的模型参数组合主要是惩罚项因子C和核函数kernel，其他参数取函数默认值。在训练过程中同样用正负样本数目比值定义样本权重。K折交叉验证的结果如表2所示。

表2：不同参数组合下，kernel-SVM正确预测负样本数目/正确预测正样本数目。

根据表2结果，选择sigmoid核函数和C＝1.0的参数组合，模型训练耗时约为9000s。在全部样本上训练该参数组合的模型，并验证在全部样本上的正确预测负样本数目/正确预测正样本数目为：408/119434。

XGBoost模型称为极端梯度提升模型。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。XGBoost是一种提升树模型，它是将许多树模型集成在一起，形成一个很强的分类器。该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差，通过新树来减少之前训练的树的误差。当训练完成时会得到m棵树，要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。该模型对应于xgboost包的train函数。这里用K折交叉验证的参数组合为正负样本权重是否平衡(在训练过程中用正负样本数目比值定义样本权重)weight和单个树的最大深度depth，其他参数取函数默认值。K折交叉验证的结果如表3所示。

表3：不同参数组合下，XGBoost正确预测负样本数目/正确预测正样本数目。

根据表3结果，选择weight＝balanced，depth＝6的参数组合，模型训练耗时约为160s。在全部样本上训练该参数组合的模型，并验证在全部样本上的正确预测负样本数目/正确预测正样本数目为：411/120752。

Neural network模型，神经网络模型是目前人工智能领域应用最广泛的模型，前馈神经网络是一种最简单的神经网络，各神经元分层排列。其中每一层包含若干个神经元，在此种神经网络中，各神经元可以接收前一层神经元的信号，并产生输出到下一层，各层之间没有反馈。第0层叫输入层，最后一层叫输出层，其他中间层叫做隐含层。前馈神经网络结构简单，应用广泛，能够以任意精度逼近任意连续函数及平方可积函数，可用通过简单非线性处理单元的复合映射，可获得复杂的非线性处理能力，鉴于样本的数量，本实施例采用具有一个隐藏层的前馈神经网络模型，也称为多层感知器(MLP)模型。需要选择的模型参数组合是隐含层神经元的激活函数activation和模型复杂度的惩罚因子alpha，其他参数取函数默认值。K折交叉验证的结果如表4所示。

表4：不同参数组合下，MLP正确预测负样本数目/正确预测正样本数目

根据表4结果，选择activation＝relu，alpha＝0.0001的参数组合，模型训练耗时约为362s。在全部样本上训练该参数组合的模型，并验证在全部样本上的正确预测负样本数目/正确预测正样本数目为：411/121118。

步骤(4)中，使用数据清洗后的全部样本训练K折交叉验证选定参数的每一个模型，并存储模型结果。每种模型训练的核心代码如表5所示。

表5：模型训练的核心代码及注释。

步骤(5)中，对需要预测违约风险的新样本用训练好的模型预测违约概率的过程如附图4所示，包括以下步骤：

(5.1)获取需要违约预测的债券，选择最新一天的债券估值数据。

(5.2)采用步骤(2)的方法进行特征工程，清洗预测数据。

(5.3)用训练好的四个模型，分别预测样本违约的概率。

通过直接调用python中训练好的模型的predict_proba(x)函数(X6Boost模型的predict(x)函数)，其中x是预测样本，即可输出预测样本的违约概率。

步骤(6)中，集成模型，得到风险评分。对于每一个需要预测违约风险的新样本，四个模型输出的四个违约概率，将违约概率写入表中，表中第一列为债券代码，第二列为债券简称，第三列为LR模型预测违约概率，第四列为kernel-SVM模型预测违约概率，第五列为xgboost模型预测违约概率，第六列为MLP模型预测违约概率。将四个模型预测结果进行集成，预测违约概率大于0.5的模型数目定义为预测风险评分，如果所有模型预测的违约概率都大于0.99，则预测风险评分为5。最后将预测风险评分写入表的第七列。表6是对2019年11月8日的未到期且未违约的债券风险评分的结果示例，债券代码和债券简称已脱敏。

表6：预测样本风险评分。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡是在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本发明采用以上技术方案，具有以下技术效果：

使用和债券直接相关的结构化的债券估值数据和基本资料数据，无需进行复杂耗时的非结构化数据处理。

K折交叉验证选择机器学习模型参数，减少了人为选择对模型效果的负面影响。

集成了多个特点不同的机器学习模型的预测结果得出债券风险评分，提高债券违约预测可信度。

上述虽然结合附图以及实验结果表格对本发明的具体实施方式进行了详细描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围之内。

Claims

1.一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，该方法包括以下步骤：

(1)获取债券估值数据和基本资料数据，用于得到该方法所使用的训练样本数据；

(2)特征工程，清洗数据，用于处理步骤(1)中得到的样本数据，作为机器学习模型的输入；其中，步骤(2)包括：(1)空值处理；(2)特征合并；(3)类别特征one-hot(独热)编码；以及(4)对每一个特征进行标准化；

(3)K折交叉验证选择机器学习的模型参数，用于选择最优的机器学习参数组合；其中，步骤(3)包括：(1)确定机器学习模型需要验证的参数组合；(2)选择一个没有K折交叉验证过的参数组合；(3)将所有样本数据随机打乱顺序，近似等分成K份，在K-1份数据上训练，剩下的1份数据上验证训练效果；(4)进行K次训练和验证，保证在所有K份数据上都进行了一次验证；(5)统计K份验证集上正确预测的负样本数目和正样本数目，作为给定参数组合的评价标准；以及(6)对没有K折交叉验证的参数组合，重复步骤(3)中的(2)到(5)，直到所有的参数组合都已经K折交叉验证过，选择评价标准最优的参数组合作为该模型训练的参数；

(4)训练模型，用于得到最终进行债券违约预测的机器学习模型；

(5)使用训练好的多个模型进行违约预测，用于输出每个模型对输入债券预测的违约概率；

(6)集成模型，得到风险评分，用于集成多个模型对输入债券的违约预测的结果。

2.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的权利要求1中的步骤(1)，是从中债金融估值中心获取债券估值数据和基本资料数据。

3.根据权利要求2所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的从中债金融估值中心获取债券估值数据和基本资料数据，包括获取正常到期债券和违约债券的估值数据和基本资料数据，获取的所有数据作为训练样本集合。

4.根据权利要求3所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的获取的所有数据作为训练样本集合，在训练样本集合中，正常到期债券样本为正样本，违约债券样本为负样本。

5.根据权利要求3所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的获取的所有数据作为训练样本集合，样本的特征包括类别特征和数值特征。

6.根据权利要求5所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的样本的类别特征包括：证券类型代码、证券品种代码、证券类别代码、证券性质代码、证券期限单位、计息方式代码、担保方式代码、含权标志、城投债标志、付息规则标志、机构类型代码、组织形式、是否上市、地区代码、行业代码、最新主体信用评级编号、最新债项信用评级编号和曲线评级编号。

7.根据权利要求5所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的样本的数值特征包括：证券期限、票面利率、发行时利差、付息频率、发行价格、实际发行总额、本期本金值、注册资本、修正久期、凸性、基点价值、估值全价、估值净价、估价收益率、实际待偿期和上一个工作日净价离差。

8.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的空值处理，包括数值特征空值处理和类别特征空值处理。

9.根据权利要求8所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的数值特征空值处理是用训练样本集合中该特征的所有非空样本的取值平均值填充所有空值。

10.根据权利要求8所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的类别特征空值处理是用同一个特殊类别填充所有空值。

11.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的特征合并是将所有特征中相关联的特征进行合并。

12.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的对每一个特征进行标准化，是将每一个特征取值减去该特征所有取值的均值再除以标准差进行特征标准化，如果特征所有取值的标准差等于0，则不对该特征进行标准化处理。

13.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的权利要求1中的步骤(4)是用权利要求1中的步骤(2)数据清洗后的全部样本训练多个权利要求1中的步骤(3)选定参数的机器学习模型，并存储模型结果。

14.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的权利要求1中的步骤(5)包括：

(1)获取需要违约预测的债券；

(2)使用权利要求1中的步骤(2)，特征工程，清洗预测数据；

(3)用训练好的多个模型，分别预测样本违约的概率。

15.根据权利要求14所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的获取需要违约预测的债券，是从中债金融估值中心获取特定日期的债券估值数据和基本资料数据。

16.根据权利要求14所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的获取需要违约预测的债券，债券的特征是权利要求6和权利要求7所述的特征。

17.根据权利要求1所述的一种基于债券估值数据与集成机器学习的债券违约预测方法，其特征在于，所述的权利要求1中的步骤(6)包括将权利要求1中的步骤(5)得到的多个模型预测的结果进行集成，根据多个模型预测的违约概率定义债券违约风险评分。