CN116306958A

CN116306958A - 违约风险预测模型训练方法、违约风险预测方法及设备

Info

Publication number: CN116306958A
Application number: CN202211112221.9A
Authority: CN
Inventors: 王延昭; 唐华云; 李�荣; 孙爽; 商丽丽; 华娇娇
Original assignee: China Bond Jinke Information Technology Co ltd
Current assignee: China Bond Jinke Information Technology Co ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2023-06-23

Abstract

本发明提供一种违约风险预测模型训练方法、违约风险预测方法及设备，涉及金融风险防范技术领域，所述训练方法包括：获取样本债券数据；基于K折交叉验证，将样本债券数据进行分组，得到多组训练数据集和测试数据集；针对每个初始违约风险预测模型，将目标训练数据集内的样本债券数据输入初始违约风险预测模型，输出预测指标；基于预测指标和违约风险类别数据，确定初始违约风险预测模型的第一累计误差和第一预测精度，并基于第一累计误差和第一预测精度更新初始违约风险预测模型的超参数，得到更新后的预测模型；将多个预测模型中超参数最优的预测模型确定为违约风险预测模型。本发明可实现违约风险预测，提高泛化能力和预测精度。

Description

违约风险预测模型训练方法、违约风险预测方法及设备

技术领域

本发明涉及金融风险防范技术领域，尤其涉及一种违约风险预测模型训练方法、违约风险预测方法及设备。

背景技术

违约风险防范是指金融市场主体在对相关数据分析的基础上运用一定的方法合规性地防范风险发生或规避风险以实现预期目标的行为。针对金融风险防范，一般通过构建违约风险防范模型来进行违约风险预测。

目前，违约风险防范模型包括传统债券评级模型、基于统计规则的模型和基于神经网络和支持向量机等机器学习的模型，其中，传统债券评级模型中采用信用评级等方法，主要基于主观打分进行风险预测，存在模型较为简单、依赖专家经验且难以形成量化风险指标的问题，导致预测精度较低；基于统计规则的方法通常依赖财务数据，违约预警滞后，难以做到事前预测；基于神经网络和支持向量机等机器学习的方法以量化的方式对违约相关指标进行了特征提取，进而实现违约风险预测，但泛化能力较弱，一定的影响了预测精度。

发明内容

本发明提供一种违约风险预测模型训练方法、违约风险预测方法及设备，用以解决现有技术中预测精度较低的缺陷，基于多源异构数据实现违约风险预测，提高泛化能力和预测精度。

本发明提供一种违约风险预测模型训练方法，包括：

获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据；

基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K-1:1的训练数据集和测试数据集；

针对每个初始违约风险预测模型，将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标；

基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定各所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；

将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。

根据本发明提供的违约风险预测模型训练方法，所述初始违约风险预测模型包括多棵决策树；

所述基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，包括：

确定所述第一累计误差超过阈值的至少一棵决策树，并更新所述至少一棵决策树的深度参数；

基于所述第一预测精度，更新各所述决策树对应的特征数量参数和所述初始违约风险预测模型中决策树的数量参数。

根据本发明提供的违约风险预测模型训练方法，所述将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标，包括：

将多组所述训练数据集内的目标训练数据集内的样本债券数据输入初始违约风险预测模型，确定所述初始违约风险预测模型中各决策树输出的子预测指标；

基于投票思想，将所属违约风险类别数量最多的所述子预测指标确定为预测指标。

根据本发明提供的违约风险预测模型训练方法，所述初始违约风险预测模型是基于以下步骤得到的：

对所述目标训练数据集进行预设次数的有放回的抽样，确定多个债券学习数据集；

基于所述债券学习数据集的债券特征，随机确定预设数量的债券子特征；

基于所述债券学习数据集和所述债券子特征，确定债券学习数据子集；

基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树；

基于投票思想，将所述多棵决策树组合为初始违约风险预测模型。

根据本发明提供的违约风险预测模型训练方法，所述基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树，包括：

确定各所述债券子特征的信息增益和以对应所述债券子特征为随机变量的熵；

基于所述信息增益和熵，确定对应所述债券子特征的信息增益率；

基于所述信息增益率最高的债券子特征对所述债券学习数据子集进行分类，得到至少一个分裂子集；

确定各所述分裂子集中信息增益率最大的新债券子特征，并基于所述新债券子特征对所述分裂子集再次进行分类；

循环对债券学习数据子集进行分类，在所述债券子特征均进行分类的情况下停止继续分类，以构建所述决策树。

根据本发明提供的违约风险预测模型训练方法，所述将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型，包括：

确定多个更新后的预测模型各自对应的评估指标，所述评估指标包括第二预测精度、第二累积误差和泛化能力；

基于所述评估指标的平均值，确定多个更新后的预测模型的最优参数组，并将所述最优参数组对应的所述更新后的预测模型确定为最终训练好的违约风险预测模型。

本发明还提供一种违约风险预测方法，包括：

获取债券待检测数据；

将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于上述任一项所述的违约风险预测模型训练方法进行训练得到的。

本发明还提供一种违约风险预测模型训练装置，包括：

第一获取模块，用于获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据；

分组模块，用于基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K-1:1的训练数据集和测试数据集；

第一输出模块，用于针对每个初始违约风险预测模型，将多组所述训练数据集内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入初始违约风险预测模型，输出用于表征违约风险程度的预测指标；

第一确定模块，用于基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定各所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；

第二确定模块，用于将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。

本发明还提供一种违约风险预测装置，包括：

第二获取模块，用于获取债券待检测数据；

第二输出模块，用于将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于上述任一项所述的违约风险预测模型训练方法进行训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述违约风险预测模型训练方法，或上述任一项所述违约风险预测方法。

本发明提供的违约风险预测模型训练方法、违约风险预测方法及设备，通过K折交叉验证，对样本债券数据进行分组，每次得到数据量比例为K-1:1的训练数据集和测试数据集，并基于得到的多组相互具有一定区分度的训练数据集对初始违约风险预测模型进行多次训练，确定各初始违约风险预测模型的第一累积误差和第一预测精度，并基于第一累积误差和第一预测精度对对应的初始违约风险预测模型的超参数进行调优，提高模型的泛化能力，避免过拟合降低预测精度，并将训练后超参数最优的更新后的预测模型确定为最终训练好的违约风险预测模型，基于对多个预测模型的预测效果的客观评价，确定最优的违约风险预测模型，使得预测结果准确、可靠。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的违约风险预测模型训练方法的流程示意图之一；

图2是本发明提供的违约风险预测模型训练方法的流程示意图之二；

图3是本发明提供的违约风险预测方法的流程示意图；

图4是本发明提供的违约风险预测模型训练装置的结构示意图；

图5是本发明提供的违约风险预测装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有方案中金融风险防范模型预测精度较低且泛化能力较弱的问题，本发明中提供一种违约风险预测模型训练方法，图1是本发明提供的违约风险预测模型训练方法的流程示意图之一，如图1所示，所述训练方法包括：

步骤110、获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据。

具体地，样本债券数据可以为包括至少一个债券特征数据的样本数据，且违约风险类别数据为用于表征该样本债券数据违约风险程度的标签，违约风险类别数据可以通过字符表示不同的违约风险程度。

表1财务经营指标数据第一定义表

可选地，债券特征数据包括：财务经营指标数据、行情指标数据和债券及企业特征指标数据，其中：

财务经营指标数据包括盈利能力数据、收益质量数据和现金流数据，可以将上述财务经营指标数据、行情指标数据、债券及企业特征指标数据和对应的违约风险类别数据进行拼接，作为样本债券数据。上述财务经营指标数据具体定义如表1所示。

其中，盈利能力指标中，“总资产报酬率”和“总资产净利率”分别从投资人加债权人、投资人两个角度以企业经营收益与总资产的商来反映企业利用资产获利的综合能力；“投入资本回报率”从单位投入资本产生的收益方面反映债券发行主体的债务和权益的收益率；“净利润/营业总收入”、“营业利润/营业总收入”、“营业总成本/营业总收入”反映企业销售获利率。

收益质量指标中，“经营活动净收益/利润总额”、“价值变动净收益/利润总额”和“营业外收支净额/利润总额”分别从债券发行主体扣减生产运营成本后的经营盈利情况、投资汇兑及公允价值带来的净收益和实体经营之外发生的收入和费用三个方面，以实体经营、投资获利和经营外的收入及费用三个角度反映企业的获利能力；“资产减值损失/营业总收入”反映资产减值损失对企业带来的影响。

现金流量指标中，“经营活动产生的现金流量净额占比”、“投资活动产生的现金流量净额占比”和“筹资活动产生的现金流量净额占比”分别反映债券发行主体从生产经营活动、投资活动和筹资活动三个不同层面产生的净现金流在企业总净现金流中占的比率，刻画债券发行主体偿债资金的来源；“净利润现金含量”和“全部资产现金回收率”分别从经营活动产生的现金流占归属于母公司所有者的净利润中的比率和其资产产生现金的能力两方面反映债券发行主体的现金流量特征。

可选地，财务经营指标数据还包括：偿债能力数据和资本结构数据，可以将偿债能力数据、资本结构数据、盈利能力数据、收益质量数据和现金流数据进行拼接，构建完整的财务经营指标数据，偿债能力数据和资本结构数据的具体定义如表2所示。

表2财务经营指标数据第二定义表

其中，偿债能力指标中，“现金比率”、“流动比率”、“速动比率”及“保守速动比率”分别从债券发行主体现金及现金等价物、流动资产、扣除存货的流动资产、扣除存货和与当期现金流量无关项目的流动资产四个维度反映企业现金及流动资产总体变现能力，进而影响债券兑付情况；“现金到期债务比”和“产权比率”分别从现金、股东权益与债务额度的相对关系反映债券发行主体偿还到期债务和长期债务的能力；“净资产负债率”、“净负债率”、“归属母公司股东的权益/负债合计”、“归属母公司股东的权益/带息债务”、“有形资产/带息债务”、“有形资产/负债合计”、“有形资产/净债务”从不同角度衡量债务安全性，其中带息债务往往到期无法展期，到期必须偿还，因此特别设立额外指标，且如果企业濒临破产，其无形资产往往不具备变现价值，因此部分指标只考虑有形资产。

资本结构指标中，“资产负债率”以债务占总资产的比例反映债券发行主体在债券到期时付息兑付的能力和意愿；“流动资产/总资产”反映企业资产流动性；“流动负债/负债合计”反映企业的债务结构。

表3行情指标数据定义表

可选地，行情指标数据包括：中债估值数据、季度行情数据和信用指标数据，具体定义如表3所示。

其中，中债估值指标反映了债券收益率及其对债券价格变化的影响；季度行情指标反映了当前季度债券的市场表现，侧面反映投资人根据多方渠道消息对债券做出的综合评判；信用指标中，“市场隐含评级(中债)”是中央结算公司根据包含行情、发行主体特征信息等指标计算出的反映市场投资者对债券的信用评价，“债项评级”、“主体评级”及“主体评级变动方向”反映主评级机构对债券及发行主体的最新评级情况。

可选地，债券及企业特征指标数据包括：债券发行特征数据、发债主体特征数据和持有人特征数据，具体定义如表4所示。

其中，债券发行特征数据中，“发行总额”、“债券期限”反映债券发行主体的融资情况，偿债能力强的企业往往倾向于缩短债券期限和发行总额以降低融资成本；“有效投标总量”、“超额认购倍数”、“参考收益率”反映投资人对债券发行主体的认可程度，发展前景好的企业发行债券通常会得到投资人更大程度的青睐因此可以采用较低收益率；“担保人公司属性”从担保人企业性质角度反映债券违约可能性，中央国有企业、地方国有企业、民营企业、外资企业和集体企业等不同属性的公司在融资渠道、融资成本、受监管力度、外界支持等方面都具备差异性；“发行时债项评级”、“发行时主体评级”、“发行时担保人评级”从不同角度通过评级机构认定的信用等级衡量债券违约可能性，理论上越高的信用等级对应越低的违约风险，但需要注意的是国内部分以发行人付费方式开展的评级业务存在评级结果较高、评级调整滞后的问题。

发债主体特征指标中，“企业注册资本”、“员工总数”反映债券发行主体规模，进而对违约可能做出区分，通常认为更大规模的公司具备更强的抗波动能力和更稳定的经营情况；“企业所在城市”、“公司属性”、“股东公司属性”和“所属行业”分别从公司所处地域经济环境、公司性质和公司所处行业景气程度三方面反映债券发行主体状况，间接对债券违约率产生影响，生产过剩阶段的行业往往具备较高风险，可能对债券发行主体的销售和盈利造成影响，进而降低偿债能力；“实际可用剩余额度”为企业还未使用的融资工具的注册额度，反映企业剩余融资空间，侧面体现偿债能力。

表4债券及企业特征指标数据定义表

示例地，采用数字0-3表示不同的违约风险程度，0表示该样本债券数据没有违约风险，1表示该样本债券数据的违约风险较低，2表示该样本债券数据的违约风险为中等，3表示该样本债券数据的违约风险较高。

可选地，样本债券数据还包括：舆情数据、工商数据、司法数据，可根据需要采集数据，本发明中的样本债券数据具有可扩展性，本发明对此不作限制。

步骤120、基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K-1:1的训练数据集和测试数据集。

具体地，图2是本发明提供的违约风险预测模型训练方法的流程示意图之二，如图2所示，为更好地选择最优的参数和模型，将采集的样本债券数据分为K份，轮流将其中1份为测试数据集，其余K-1份作为训练数据集，由此得到K组由训练数据集和测试数据集组成的数据集，且每组数据集均具有一定的区分度，每组数据集可对一个初始违约风险预测模型进行训练，得到K个预测模型，并从K个预测模型中确定最优的预测模型作为最终训练好的违约风险预测模型。

步骤130、针对每个初始违约风险预测模型，将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入初始违约风险预测模型，输出用于表征违约风险程度的预测指标。

步骤140、基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；

步骤150、将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。

具体地，针对每个初始违约风险预测模型，在确定好训练数据集中的目标训练数据集后，将目标训练数据集内的样本债券数据输入预先构建的初始违约风险预测模型，基于输出的预测指标和样本债券数据中的债券特征数据，确定第一累计误差和第二预测精度，对初始违约风险预测模型的超参数进行调优，并将超参数最优的预测模型确定为最终训练好的违约风险预测模型，进一步提高预测精度。

可选地，所述初始违约风险预测模型包括多棵决策树，所述超参数包括决策树的深度参数、特征数量参数和决策树的数量参数；

所述基于所述第一累计误差和第二预测精度更新所述初始违约风险预测模型的超参数，包括：

具体地，为提高初始违约风险预测模型的预测精度，通过确定各决策树的第一累计误差，基于减小误差的策略，将第一累计误差超过阈值的决策树进行剪枝，并将剪去的对应判别节点替换为判别出的数量最多的预测指标，通过减小决策树的深度，避免发生过拟合，提高决策树的判别效果，进而提高整个初始违约风险预测模型的预测精度。此外，还可通过将各决策树中判别节点对应的债券特征数据替换为对初始违约风险预测模型进行预测贡献较大的债券特征数据，并调节初始违约风险监测模型中决策树的数量参数，进而提高模型的预测精度。

可选地，本发明实施例中的初始违约风险预测模型是基于随机森林算法构建的。

可选地，在调节决策树的数量参数时，可通过比较决策树中对应债券特征数据的相关性，进而确定该债券特征数据对模型预测的贡献程度，若贡献程度较低，可将该决策树中的债券特征数据替换为贡献程度较高的债券特征数据，或者还可以考虑删除该决策树。若需要增加决策数据的数量，可对训练数据集进行预设数量的有放回的抽样，得到新的数据集，并基于新的数据集构建新的决策树。

可选地，所述将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标，包括：

具体地，在将样本债券数据输入初始违约风险预测模型的各决策树后，由于各决策树的判别效果不同，每棵决策树输出对应的子预测指标，为确定最终的预测指标，基于投票思想中少数服从多数的策略，将子预测指标中数量最多的子预测指标确定为初始违约风险预测模型输出的预测指标。

可选地，所述初始违约风险预测模型是基于以下步骤得到的：

具体地，在执行步骤130之前，需通过目标训练数据集构建初始违约风险预测模型，即构建多棵决策树。首先，通过对目标训练数据集进行预设数量有放回的抽样，以得到构建决策树所需的债券学习数据，每组债券学习数据可构建一棵决策树。在通过债券学习数据构建决策树时，为提高初始违约风险预测模型的预测性能和多样性，在决策树中并不包括债券学习数据中所有的债券特征数据，而是在所有的债券特征数据中进行预设数量的随机选取，并将选取的债券子特征作为决策树的分裂节点特征，使得初始违约风险预测模型中各决策树均不相同，提高泛化能力。

需要说明的是，由于抽样是随机且有放回的，因此，得到的多组债券学习数据中的元素可以重复，同一组债券学习数据中可能包括相同元素，避免决策树仅针对部分数据生成最优的预测精度，进而对其他数据的预测精度较低，影响整体的预测精度。

可选地，随机且有放回的抽样次数可以与目标训练数据集中的数据量相同，即，若目标训练数据集中的数据量为M，则对目标训练数据集进行M次随机且有放回的抽样，进而获取一组债券学习数据集，该债券学习数据集内的元素可以相同。

可选地，若债券学习数据中债券特征数据的总量为N，则随机选取的债券子特征的数量K可以为：K＝[sqrt(N)]，或者，K＝[sqrt(N+1)]。

可选的，在确定决策树对应的债券子特征时，可以通过确定随机选取的债券子特征的相关性，判断当前选取的债券子特征是否最佳，若最佳，则将该债券子特征作为决策树的分裂节点特征，若不佳，则重新进行随机抽取。

可选地，构建的决策树可以为CART决策树，或者基于ID3算法构建的决策树，本发明对此不作限制。

可选地，所述基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树，包括：

具体地，为进一步确定决策树的具体结构，即确定决策树中各债券子特征的顺序，本发明实施例中，通过确定各债券子特征的信息增益和熵，并通过信息增益和熵进一步确定对应债券子特征的信息增益率，将信息增益率最大的债券子特征作为决策树的根节点，并通过该根节点对应的债券子特征对债券学习数据子集进行分类，若该债券学习数据子集均属于同一风险类别，则将该风险类别作为决策树的叶节点，输出整棵决策树；若分类后的分裂子集无法确定风险类别，则继续确定分裂子集中信息增益率最大的债券子特征，将该债券子特征确定为根节点之下的内部节点，并通过该内部节点对分裂子集进行再次分类；循环执行确定子集中信息增益率最大的债券子特征，直至各债券子特征均进行过分类后终止，此时，决策树已构建完成。

可选地，上述信息增益(Information Gain，IG)如式(1)所示，式(1)为：

其中，T表示债券子特征，S表示特征T的输入空间，Values表示特征T的所有值构成的集合，S_v表示输入空间S中特征T的值为v的元素构成的集合，Entropy(S)表示信息熵，且信息熵如式(2)所示，式(2)为：

其中，p_i表示第i个风险类别的概率。

可选地，上述以对应债券子特征为随机变量的熵如式(3)所示，式(3)为：

其中，S_i表示第i类风险类别的输入空间。

可选地，基于上述信息增益和熵，确定各债券子特征的信息增益率，信息增益率如式(4)所示，式(4)为：

可选地，所述将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型，包括：

具体地，由于K折交叉验证得到多组具有一定区分度的目标训练数据集，每个目标训练数据集对初始违约风险预测模型进行训练，可得到一个训练后的预测模型，确定各预测模型的评估指标，通过确定评估指标中各指标的平均值，以客观确定模型的准确且可靠的预测效果，综合确定具有最优参数的预测模型，并选择该预测模型为最终训练好的违约风险预测模型。

本发明提供的违约风险预测模型训练方法，通过K折交叉验证，对样本债券数据进行分组，每次得到数据量比例为K-1：1的训练数据集和测试数据集，并基于得到的多组相互具有一定区分度的训练数据集对初始违约风险预测模型进行多次训练，确定各初始违约风险预测模型的第一累积误差和第一预测精度，并基于第一累积误差和第一预测精度对对应的初始违约风险预测模型的超参数进行调优，提高模型的泛化能力，避免过拟合降低预测精度，并将训练后超参数最优的更新后的预测模型确定为最终训练好的违约风险预测模型，基于对多个模型的预测效果的客观评价，确定最优的违约风险预测模型，使得预测结果准确、可靠。

基于上述违约风险预测模型训练方法，本发明还提供一种违约风险预测方法，图3是本发明提供的违约风险预测方法的流程示意图，如图3所示，该违约风险预测方法，包括：

步骤310、获取债券待检测数据；

步骤320、将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于上述任一项所述的违约风险预测模型训练方法进行训练得到的。

本发明提供的违约风险预测方法，将采集的债券待检测数据输入上述训练好的违约风险预测模型，通过输出准确可靠的违约风险预测结果，助力监管机构及金融机构加强债券信用风险管理，完善债券市场体系和制度，支持投资决策和风险评估识别，有利于引导债券市场良性发展。

本发明还提供一种违约风险预测模型训练装置，图4是本发明提供的违约风险预测模型训练装置的结构示意图，如图4所示，该违约风险预测模型训练装置400，包括：第一获取模块401、分组模块402、第一输出模块403、第一确定模块404和第二确定模块405，其中：

第一获取模块401，用于获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据；

分组模块402，用于基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K-1:1的训练数据集和测试数据集；

第一输出模块403，用于针对每个初始违约风险预测模型，将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入初始违约风险预测模型，输出用于表征违约风险程度的预测指标；

第一确定模块404，用于基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定各所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新对应所述初始违约风险预测模型的超参数，得到更新后的预测模型；

第二确定模块405，用于将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。

本发明提供的违约风险预测模型训练装置，通过K折交叉验证，对样本债券数据进行分组，每次得到数据量比例为K-1：1的训练数据集和测试数据集，并基于得到的多组相互具有一定区分度的训练数据集对初始违约风险预测模型进行多次训练，确定各初始违约风险预测模型的第一累积误差和第一预测精度，并基于第一累积误差和第一预测精度对对应的初始违约风险预测模型的超参数进行调优，提高模型的泛化能力，避免过拟合降低预测精度，并将训练后超参数最优的更新后的预测模型确定为最终训练好的违约风险预测模型，基于对多个模型的预测效果的客观评价，确定最优的违约风险预测模型，使得预测结果准确、可靠。

可选地，第一输出模块403，具体用于：

所述将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标，包括：

可选地，第一输出模块403，具体用于：

所述初始违约风险预测模型是基于以下步骤得到的：

可选地，第一输出模块403，具体用于：

所述基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树，包括：

可选地，第一确定模块404，具体用于：

所述初始违约风险预测模型包括多棵决策树，所述超参数包括决策树的深度参数、特征数量参数和决策树的数量参数；

可选地，第二确定模块405，具体用于：

所述将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型，包括：

本发明还提供一种违约风险预测装置，图5是本发明提供的违约风险预测装置的结构示意图，如图5所示，该违约风险预测模型500，包括：第二获取模块501和第二输出模块502，其中：

第二获取模块501，用于获取债券待检测数据；

第二输出模块502，用于将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于上述任一项所述的违约风险预测模型训练方法进行训练得到的。

本发明提供的违约风险预测装置，将采集的债券待检测数据输入上述训练好的违约风险预测模型，通过输出准确可靠的违约风险预测结果，助力监管机构及金融机构加强债券信用风险管理，完善债券市场体系和制度，支持投资决策和风险评估识别，有利于引导债券市场良性发展。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备600可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行违约风险预测模型训练方法或违约风险预测方法，其中：

该违约风险预测模型训练方法包括：

基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；

将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型；

该违约风险预测方法包括：

获取债券待检测数据；

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的违约风险预测模型训练方法或违约风险预测方法，其中：

该违约风险预测模型训练方法包括：

该违约风险预测方法包括：

获取债券待检测数据；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的违约风险预测模型训练方法或违约风险预测方法，其中：

该违约风险预测模型训练方法包括：

该违约风险预测方法包括：

获取债券待检测数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种违约风险预测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的违约风险预测模型训练方法，其特征在于，所述初始违约风险预测模型包括多棵决策树，所述超参数包括决策树的深度参数、特征数量参数和决策树的数量参数；

确定第一累计误差超过阈值的至少一棵决策树，并更新所述至少一棵决策树的深度参数；

3.根据权利要求2所述的违约风险预测模型训练方法，其特征在于，所述将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标，包括：

4.根据权利要求2或3所述的违约风险预测模型训练方法，其特征在于，所述初始违约风险预测模型是基于以下步骤得到的：

5.根据权利要求4所述的违约风险预测模型训练方法，其特征在于，所述基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树，包括：

6.根据权利要求4所述的违约风险预测模型训练方法，其特征在于，所述将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型，包括：

7.一种违约风险预测方法，其特征在于，包括：

获取债券待检测数据；

将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于权利要求1至6任一项所述的违约风险预测模型训练方法进行训练得到的。

8.一种违约风险预测模型训练装置，其特征在于，包括：

9.一种违约风险预测装置，其特征在于，包括：

第二获取模块，用于获取债券待检测数据；

第二输出模块，用于将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于权利要求1至6任一项所述的违约风险预测模型训练方法进行训练得到的。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述违约风险预测模型训练方法，或如权利要求7所述违约风险预测方法。