CN116797343A

CN116797343A - 风险评估方法、模型训练方法、装置、介质及设备

Info

Publication number: CN116797343A
Application number: CN202310511660.5A
Authority: CN
Inventors: 项舒畅; 李天明
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-09-22

Abstract

本说明书实施例公开了一种风险评估方法、风险评估模型训练方法、装置、存储介质及设备。该方法包括：获取待评估企业的多个因子数据；基于多个因子数据，通过风险评估模型中多个子评估模型确定待评估企业对应的子风险评分，风险评估模型为基于训练样本通过集成学习方式对多个子评估模型进行集成得到的模型，训练样本包括待评估企业所处行业的多个企业的多个因子数据；基于多个因子数据，通过风险评估模型中的分类权重子模型确定各个子风险评分的分类权重；基于分类权重对各个子风险评分进行加权运算，确定待评估企业的信用风险评分。

Description

风险评估方法、模型训练方法、装置、介质及设备

技术领域

本说明书涉及机器学习技术领域，尤其涉及一种风险评估方法、风险评估模型训练方法、装置、存储介质及设备。

背景技术

信用债是债券市场规模最大的投资品种之一，评判信用债的资质状况主要依赖于对发债主体的信用风险定价。因此，如何科学评价和跟踪信用债资产的风险，防范化解金融系统风险并保护众多机构投资者和居民理财权益，成了亟待解决的问题。

在一种技术方案中，根据外部评级机构给出的评级，以及基于该评级的简单判断规则来评估发债主体的信用风险。然而，在这种技术方案中，往往发债主体已经出现违约或信用资质出现重大变化，外部评级机构给出的评级才会发生变动，难以及时准确地预测发债主体的信用风险。

因此，如何及时准确地预测发债主体的信用风险，成为了亟待解决的技术难题。

发明内容

本说明书提供一种风险评估方法、风险评估模型训练方法、装置、存储介质及设备，能够及时准确地预测发债主体的信用风险。

第一方面，本说明书实施例提供一种风险评估方法，包括：

获取待评估企业的多个因子数据；

基于所述多个因子数据，通过风险评估模型中多个子评估模型确定所述待评估企业对应的子风险评分，所述风险评估模型为基于训练样本通过集成学习方式对所述多个子评估模型进行集成得到的模型，所述训练样本包括所述待评估企业所处行业的多个企业的所述多个因子数据；

基于所述多个因子数据，通过所述风险评估模型中的分类权重子模型确定各个所述子风险评分的分类权重，所述分类权重子模型为对所述多个子评估模型进行集成以生成所述风险评估模型的模型；

基于所述分类权重对各个所述子风险评分进行加权运算，确定所述待评估企业的信用风险评分。

第二方面，本说明书实施例提供一种风险评估模型训练方法，其中，所述风险评估模型包括多个子评估模型以及分类权重子模型，所述方法包括：

获取目标行业的多个企业中各个企业的多个因子数据；

基于所述多个因子数据中各个所述子评估模型对应的因子数据，构建对应的所述子评估模型，所述子评估模型用于确定所述企业的子风险评分；

基于各个所述子评估模型对应的因子数据以及评价指标，对所述分类权重子模型进行训练，所述分类权重模型用于确定各个所述子风险评分的分类权重，所述分类权重子模型还用于基于所述分类权重对所述多个子评估模型进行集成来生成所述风险评估模型。

第三方面，本说明书实施例提供一种风险评估装置，包括：

数据获取模块，用于获取待评估企业的多个因子数据；

子评分确定模块，用于基于所述多个因子数据，通过风险评估模型中多个子评估模型确定所述待评估企业对应的子风险评分，所述风险评估模型为基于训练样本通过集成学习方式对所述多个子评估模型进行集成得到的模型，所述训练样本包括所述待评估企业所处行业的多个企业的所述多个因子数据；

权重确定模块，用于基于所述多个因子数据，通过所述风险评估模型中的分类权重子模型确定各个所述子风险评分的分类权重，所述分类权重子模型为对所述多个子评估模型进行集成以生成所述风险评估模型的模型；

总评分确定模块，用于基于所述分类权重对各个所述子风险评分进行加权运算，确定所述待评估企业的信用风险评分。

第四方面，本说明书实施例提供一种风险评估模型训练装置，所述风险评估模型包括多个子评估模型以及分类权重子模型，所述装置包括：

数据获取模块，用于获取目标行业的多个企业中各个企业的多个因子数据；

子模型构建模块，用于基于所述多个因子数据中各个子评估模型对应的因子数据，构建对应的子评估模型，所述子评估模型用于确定所述企业的子风险评分；

分类权重模型训练模块，用于基于各个所述子评估模型对应的因子数据以及评价指标，对分类权重子模型进行训练，所述分类权重模型用于确定各个所述子风险评分的分类权重，所述分类权重子模型还用于基于所述分类权重对所述多个子评估模型进行集成来生成所述风险评估模型。

第五方面，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法的步骤。

第六方面，本说明书实施例提供一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或处理器执行上述的方法的步骤。

第七方面，本说明书实施例提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。

根据本说明书实施例的技术方案，一方面，通过多模型集成学习的方式对多个指标因子采用多个模型进行融合生成风险评估模型，能够利用集成学习的方式融合多种模型的预测能力；另一方面，根据风险评估模型确定待评估企业的信用风险评分，能够通过多种子评估模型来融合学习企业的多类风险指标因子信息，例如时序动量信息、非线性信息和线性信息，从而能够根据多类风险指标因子信息及时准确地预测企业例如发债主体的信用风险。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种风险评估方法的实施环境的示意图；

图2为本说明书实施例提供的一种风险评估方法的流程示意图；

图3为根据本说明书实施例提供的确定分类权重的流程示意图；

图4为根据本说明书实施例提供的一种风险评估方法的实施系统的架构图；

图5为根据本说明书实施例提供的风险评估模型训练方法的流程示意图；

图6示出了根据本说明书实施例提供的对分类权重子模型进行训练的流程示意图；

图7为本说明书实施例提供的一种风险评估模型训练装置的结构示意图；

图8为本说明书实施例提供的另一种风险评估装置的结构示意图；

图9为本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本说明书的特征和优点能够更加的明显和易懂，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而非全部实施例。基于本说明书中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

分类权重子模型：利用分类机器学习模型选择子模型，分配子模型预测结果的概率权重。

梯度提升决策树模型：是一种迭代的决策树模型，该模型由多棵决策树组成，各个决策树的子结果累加起来得到结果值。例如，迭代多颗回归树，新树以上一棵树的梯度来构造，模型的结果是各个树相同位置的节点值的和。

行业中枢状态：行业的大量企业的评分的中间值，行业中枢状态可以为行业的大量企业的评分的中位数或众数。以房地产行业为例，设房地产行业评分的行业中枢状态为7。

在一种技术方案中，主要依赖于外部评级机构给出的评级，以及基于该评级衍生的简单判断规则。但是外部评级结构的平均在信用风险处置场景存在几个明显的缺点，比如：(1)外评事前预警能力弱，往往发债主体已经出现违约或信用资质出现重大变化，相应评级才会发生变动；(2)外评评级中枢较高，AAA档占比40％以上，对调低评级或者负面展望较为谨慎；(3)外评主要依赖于人工基于发债主体财务报表所做出的分析，很难综合挖掘二级成交、估值、舆情、公告等高频信息中蕴含的对于公司信用资质的指示和影响因素；(4)外评主要基于线性研究的方法，无法挖掘出不同信用风险影响因素之间的耦合效应。

基于上述内容，本说明书实施例提供了一种风险评估方法，通过多模型集成学习的方式对多个指标因子采用多个模型进行融合生成风险评估模型，根据风险评估模型确定待评估企业的信用风险评分。因此，根据本说明书实施例的技术方案，能够通过多种子评估模型来融合学习企业的多类风险指标因子信息，例如时序动量信息、非线性信息和线性信息，从而能够及时准确地预测企业例如发债主体的信用风险。

下面，将结合附图对本说明书实施例的技术方案进行详细的说明。

图1为本说明书实施例提供的一种风险评估方法的实施环境的示意图。

参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选的，终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等，但并不局限于此。终端110安装和运行有支持风险评估方法的应用程序。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)，以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本说明书实施例对终端的数量和设备类型不加以限定。

在介绍完本说明书实施例的实施环境之后，下面将结合上述实施环境对本说明书实施例的应用场景进行介绍，在下述说明过程中，终端也即是上述实施环境中的终端110，服务器也即是上述实施环境中的服务器140。本说明书实施例提供的技术方案能够应用在发债企业的风险评估的场景中，发债企业可以为房地产发债企业、银行发债企业或者基金发债企业等行业的企业。

以本说明书实施例提供的技术方案应用在房地产企业的风险评估的场景中为例，根据该风险评估模型的多个子评估模型确定待评估房地产企业对应的子风险评分，通过风险评估模型中的分类权重子模型确定各个子风险评分的分类权重，基于分类权重对各个子风险评分进行加权运算，确定待评估房地产企业的信用风险评分。

需要说明的是，上述是以本说明书实施例提供的技术方案应用在发债企业风险评估的场景中为例进行说明的，在本说明书实施例提供的技术方案还可以应用在其他企业的风险评估的场景下，实现过程与上述描述属于同一发明构思，在此不再赘述。

需要说明的是，本说明书的示例实施例中的风险评估方法中的步骤可以部分由客户端执行，部分由服务器执行，也可以全部由服务器或者全部由客户端执行，本说明书对此不进行特殊限定。

基于图1所示的实施环境，下面将结合图2-图4，对本说明书实施例提供的风险评估方法进行详细介绍。需要注意的是，上述实施环境仅是为了便于理解本说明书的精神和原理而示出，本说明书的实施例在此方面不受任何限制。相反，本说明书的实施例可以应用于适用的任何场景。

图2为本说明书实施例提供的一种风险评估方法的流程示意图。该风险评估模型方法可以通过具有计算能力的设备执行，例如终端或服务器。如图2所示，本说明书实施例的风险评估方法可以包括以下步骤S210至步骤S240。

参照图2所示，在步骤S210中，获取待评估企业的多个因子数据。

在示例实施例中，待评估企业为目标行业的企业，目标行业可以为房地产行业或金融行业等，多个因子数据包括待评估企业的专家评分数据、企业基本数据以及行业数据等。举例而言，多个因子数据主要包括：公司基础信息、地区与行业信息、信用评级信息、资产和负债结构信息、二级估值与成交信息、一级发行信息、工商信息以及新闻舆情信息等信息。

进一步地，在示例实施例中，对待评估企业的上述多个因子数据进行监测，根据监测结果获取待评估企业的上述多个因子数据。例如，以日为周期监测待评估企业的上述多个因子，若上述多个因子中的至少一个因子发生变化，则获取待评估企业的变化后的多个因子数据。

在步骤S220中，基于多个因子数据，通过风险评估模型中多个子评估模型确定待评估企业对应的子风险评分。

在示例实施例中，风险评估模型为基于训练样本通过集成学习方式对多个子评估模型进行集成得到的模型，训练样本包括待评估企业所处行业的多个企业的多个因子数据。多个子评估模型可以包括时序评估子模型以及至少一个非时序评估子模型，至少一个非时序评估子模型包括线性模型和非线性多因子模型，线性模型包括线性多因子模型，非线性模模型包括决策树回归模型。

进一步地，在示例实施例中，基于多个因子数据，通过风险评估模型中多个子评估模型确定待评估企业对应的子风险评分。举例而言，设多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型，时序评估子模型为时间序列模型，至少一个非时序评估子模型包括非线性多因子模型和线性多因子模型，基于多个因子数据中的时序因子数据，通过时序评估子模型确定待评估企业的第一子风险评分；基于多个因子数据，通过至少一个非时序评估子模型确定待评估企业的至少一个第二子风险评分。

在步骤S230中，基于多个因子数据，通过风险评估模型中的分类权重子模型确定各个子风险评分的分类权重。

在示例实施例中，分类权重子模型为对多个子评估模型进行集成的模型，例如，分类权重子模型可以为基于梯度决策树的集成学习分类模型。确定待评估企业的多个因子数据中与各个子评估模型对应的因子数据，基于子评估模型对应的因子数据，通过分类权重子模型确定子评估模型对应的预测评价指标，基于该预测评价指标确定各个子风险评分的分类权重。

需要说明的是，虽然以分类权重子模型为梯度提升决策树模型为例进行了说明，但是本领域技术人员应该理解的是，分类权重子模型还可以为其他适当的模型例如AdaBoost模型或者XGBOOT模型，这同样在本说明书实施例的范围内。

进一步地，在示例实施例中，基于各个子评估模型对应的因子数据以及评价指标，对初始分类权重子模型进行训练，得到训练后的分类权重子模型。举例而言，基于子评估模型对应的因子数据，通过分类权重子模型确定子评估模型对应的预测评价指标；基于各个子评估模型对应的评价指标以及预测评价指标的差值，确定分类权重子模型的损失函数；基于损失函数对分类权重子模型进行训练。

在步骤S240中，基于分类权重对各个子风险评分进行加权运算，确定待评估企业的信用风险评分。

在示例实施例中，信用风险评分是风险评分模型加工上述因子数据融合得到的结果，用于反应企业未来风险资质的动态变化。例如，风险评估模型的产出结果为一个0-10的量化的风险分数，用以度量企业的信用风险程度，数值越大信用风险越大。

进一步地，获取各个子风险评分的分类权重，基于分类权重对各个子风险评分进行加权运算，确定待评估企业的信用风险评分。设子评估模型包括时间序列模型、决策树回归模型以及线性多因子模型，确定各个子评估模型的子风险评分的分类权重，基于分类权重对各个子评估模型的子风险评分进行加权运算，基于加权运算的结果确定待评估企业的信用风险评分。

在一些示例实施例中，该信用风险评分是日频积累的，每一日的风险分数都会随着该企业的因子数据例如市场环境、基本信息、财务状况、工商数据和所发行债券二级市场估值、报价与成交等各类信息的变化而变化。

根据图2的示例实施例中的技术方案，一方面，通过多模型集成学习的方式对多个指标因子采用多个模型进行融合生成风险评估模型，能够利用集成学习的方式融合多种模型的预测能力；另一方面，根据风险评估模型确定待评估企业的信用风险评分，能够通过多种子评估模型来融合学习企业的多类风险指标因子信息，例如时序动量信息、非线性信息和线性信息，从而能够根据多类风险指标因子信息及时准确地预测企业例如发债主体的信用风险。

进一步地，在示例实施例中，基于多个因子数据中的时序因子数据，通过时序评估子模型确定待评估企业的第一子风险评分，其中，时序评估子模型可以为时间序列模型；基于多个因子数据，通过非线性多因子模型确定待评估企业的第二子风险评分，例如非线性多因子模型可以为决策树回归模型；基于多个因子数据，通过线性多因子模型确定待评估企业的第三子风险评分，线性因子模型是多个因子数据之间的线性关系模型。

根据上述示例实施例中的技术方案，通过多种类型的模型确定待评估企业的信用风险评分，能够通过不同类型的模型捕捉信用风险评分的多类风险指标因子信息例如时序动量信息、非线性信息和线性信息，从而能够更准确地确定企业的信用风险评分。

图3为根据本说明书实施例提供的确定分类权重的流程示意图。

参照图3所示，在步骤S310中，获取待评估企业所处行业的行业数据。

在示例实施例中，行业数据包括行业基本面数据和行业内多个发债主体的财务数据。设待评估企业为房地产行业的企业，获取房地产行业的行业基本面数据和行业内多个发债主体的财务数据，例如行业内的销售情况和融资环境等信息。

在步骤S320中，基于行业数据，通过行业评估子模型确定待评估企业所处行业的信用风险评分的行业中枢状态。

在示例实施例中，行业中枢状态表示行业的大量企业的评分的中间值，行业中枢状态可以为行业的大量企业的评分的中位数或众数。以房地产行业为例，设房地产行业评分的行业中枢状态为7。行业评估子模型为用于确定待评估企业所处行业的信用风险评分的行业中枢状态的统计模型，例如隐式马尔科夫模型。

进一步地，基于行业评估子模型对行业数据进行统计，确定待评估企业所处行业的信用风险评分的行业中枢状态。以房地产行业为例，通过隐式马尔科夫模型基于行业数据统计房地产行业的多个企业的信用风险评分，基于统计结果确定房地产行业的信用风险评分的当前的行业中枢状态。

在步骤S330中，结合行业中枢状态以及多个因子数据，通过风险评估模型中的分类权重子模型确定各个风险评分的分类权重。

在示例实施例中，分类权重子模型为对多个子评估模型进行集成以生成风险评估模型的模型，例如，分类权重子模型可以为基于梯度决策树的集成学习分类模型。确定待评估企业的多个因子数据中与各个子评估模型对应的因子数据，基于子评估模型对应的因子数据以及行业中枢状态，通过分类权重子模型确定子评估模型对应的预测评价指标，基于该预测评价指标确定各个子风险评分的分类权重。

根据图3的示例实施例中的技术方案，通过不同类型的模型捕捉信用风险评分的时序动量信息、非线性信息和线性信息，并通过机器学习模型选择器结合行业中枢状态得到信用风险评分在以上三部分信息(分别由三个模型刻画)上分别的暴露度，加权得到企业的信用风险评分，从而能够降低单模型偏差和误差。

图4为根据本说明书实施例提供的一种风险评估方法的实施系统的架构图。

参照图4所示，该实施系统的整个框架分为三层，第一层为大数据计算层410，大数据计算层410为数据接入、清洗和指标加工层，主要利用云原生大数据计算工具(MaxCompute)来对数据进行接入、清洗和指标加工，例如，通过大数据计算工具接入各种高低频数据，并基于PIT(Point in Time，时间点)和TTM(Trailing Twelve Months，滚动12月)规则加工多个因子。多个因子可以包括：公司基础信息、地区与行业信息、信用评级信息、资产和负债结构信息、二级估值与成交信息、一级发行信息、工商信息以及新闻舆情信息等信息。

以房地产行业模型为例，总共构建和筛选了97个有效因子。公司基础信息主要是房企是否为国企、是否为地方支持企业等信息。地区与行业信息主要是行业内的销售情况和融资环境等信息，关注行业基本面指标的变动，以尝试让模型学习到行业信用风险中枢。信用评级主要关注外部评级机构的评级变动情况。资产和负债结构指标主要来源于发行人公布的财务指标，主要看房企的资产规模、债务压力等信息。二级市场因子主要看房企所发行债券的中债估值水平、信用利差及其一系列衍生指标等。一级发行信息观察的是房企融资成本。新闻舆情因子通过自然语言处理(Natural Language Process，NLP)技术可以及时捕捉发行人近期的相关舆情蕴含的有效信息。

第二层为机器学习模型层420，机器学习模型层420的主要工具为人工智能平台(AI Platform)。在机器学习模型层420构建风险评估模型，风险评估模型主要包括5个模型，模型1是一种时间序列模型例如TSM(Temporal Shift Module，时间位移模型)，该模型用于捕捉历史专家评分的时序动量信息，基于该模型得到第一个信用风险评分。模型2是一种机器学习决策树回归模型(Decision Tree Module，DTM)，该模型基于发行人和行业各类因子组合的信息增益率得到多指标的树形裂变过程，进而得到风险评分2。模型3是一种线性多因子模型(MFM)，用于捕捉发行人信息和行业数据对专家评分的线性方程，基于方程给出线性的风险评分3。模型4是一种随机过程模型例如HMM(Hidden Markov Model，隐式马尔可夫模型)，利用行业基本面数据和行业内所有发行人的财务信息得到行业总体信用风险评价的状态，以此确立各行业模型的评分中枢状态。上述四个模型是子评估模型，将子评估模型1至3的相关的评价指标及模型4的行业中枢状态作为因子输入到模型5，将子评估模型1-3的训练后的模型例如用1、2、3标记模型作为当期训练标签，训练一个基于梯度提升决策树例如基于Boosting的集成学习分类模型，得到模型5例如Boosting分类模型，取模型5在模型1至3上的分类概率或分类权重对风险评分1至3进行加权，得到企业的信用风险评分。风险评估模型可以按照每月末进行训练更新，每日对企业的信用风险评分进行预测，因此，每个企业的信用风险评分可以日频积累。

根据上述示例实施例中的技术方案，基于上述模型结构能够通过不同类型的模型捕捉企业的信用评分的时序动量信息、非线性信息和线性信息，并通过设计机器学习模型选择器得到企业信用评分在上述三部分信息(分别由上述三个模型刻画)上分别的暴露度，以加权得到企业的信用风险评分进而降低单模型偏差和误差。

第三层为数据展示层430，数据展示层430的主要工具为以大数据技术为基础的商业智能(BigData BI)分析平台，在该数据展示层430主要将第二层的评分结果和第一层产生的量化指标通过商业智能的方式展示和披露给对应风险处理人员，用于实际的风险处置中，并通过指标告警的方式在群组内进行监测。

根据图4的示例实施例中的技术方案，一方面，打通了从量化指标加工到机器学习模型聚合再到风险评估应用的全链路，实现了对一家企业从发债到违约后的整个生命周期全流程的信用风险评价和预警管理能力；另一方面，利用自动化的信息处理能力对企业信用的多模态数据进行加工和萃取，可以人工给机器输入业务规则和专家经验，进行专家与机器的互动，增加了双方对信用风险识别的准确度。

图5为根据本说明书实施例提供的风险评估模型训练方法的流程示意图。该风险评估模型训练方法可以通过具有计算能力的设备执行，例如终端或服务器。如图5所示，本说明书实施例的风险评估方法可以包括以下步骤S510至步骤S530。

参照图5所示，在步骤S510中，获取目标行业的多个企业中各个企业的多个因子数据。

在示例实施例中，目标行业可以为房地产行业或金融行业等，多个因子数据包括企业的专家评分数据、企业基本数据以及行业数据等。举例而言，多个因子数据主要包括：公司基础信息、地区与行业信息、信用评级信息、资产和负债结构信息、二级估值与成交信息、一级发行信息、工商信息以及新闻舆情信息等信息。

进一步地，通过大数据计算层410接入目标行业的多个企业中各个企业的企业数据，对企业数据进行清洗和指标加工，生成各个企业的多个因子数据。例如，基于PIT和TTM规则加工多个因子数据。

在步骤S520中，基于多个因子数据中各个子评估模型对应的因子数据，构建对应的子评估模型，子评估模型用于确定企业的子风险评分。

在示例实施例中，风险评估模型包括多个子评估模型以及分类权重子模型。多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型。时序评估子模型包括时间序列模型，至少一个非时序评估子模型包括线性模型和非线性多因子模型，线性模型包括线性多因子模型，非线性模模型包括决策树回归模型。

进一步地，在示例实施例中，基于多个因子数据中的时序因子数据，构建对应的时序子评估模型；基于多个因子数据与非时序评估子模型对应的因子数据，构建至少一个非时序评估子模型。其中，时序评估子模型为时间序列模型，至少一个非时序评估子模型包括决策树回归模型和线性多因子模型。

在步骤S530中，基于各个子评估模型对应的因子数据以及评价指标，对分类权重子模型进行训练，分类权重模型用于确定各个子风险评分的分类权重。

在示例实施例中，分类权重子模型用于基于分类权重对多个子评估模型进行集成来生成风险评估模型。例如，分类权重子模型可以为基于梯度决策树的集成学习分类模型。子评估模型对应的评价指标可以包括ROC(Receiver Operating Characteristic，受试者工作特征)曲线、ROC曲线下的面积、精准度以及召回率等。

进一步地，在示例实施例中，基于子评估模型对应的因子数据，通过分类权重子模型确定子评估模型对应的预测评价指标；基于各个子评估模型对应的评价指标以及预测评价指标的差值，确定分类权重子模型的损失函数；基于损失函数对所述分类权重子模型进行训练。

根据图5的示例实施例中的技术方案，一方面，通过多模型集成学习的方式对多个指标因子采用多个模型进行融合生成风险评估模型，能够利用集成学习的方式融合多种模型的预测能力；另一方面，根据风险评估模型确定待评估企业的信用风险评分，能够通过多种子评估模型来融合学习企业的多类风险指标因子信息，例如时序动量信息、非线性信息和线性信息，从而能够根据多类风险指标因子信息及时准确地预测企业例如发债主体的信用风险。

图6示出了根据本说明书实施例提供的对分类权重子模型进行训练的流程示意图。

参照图6所示，在步骤S610中，获取目标行业的行业数据。

在步骤S620中，基于行业数据，构建目标行业的行业评估模型，行业评估子模型用于确定目标行业的信用风险评分的行业中枢状态。

在示例实施例中，行业中枢状态表示该行业的大量企业的评分的中间值，行业中枢状态可以为行业的大量企业的评分的中位数或众数。以房地产行业为例，设房地产行业评分的行业中枢状态为7。行业评估子模型为用于确定待评估企业所处行业的信用风险评分的行业中枢状态的统计模型，例如隐式马尔科夫模型。

隐式马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程，隐藏的马尔科夫链随机生成的状态的序列，称为状态序列；每个状态生成一个规则，而由此产生的观测的随机序列称为观测序列。序列的每一个位置又可以看作是一个时刻。隐式马尔科夫模型由初始概率分布、状态转移概率分布和观测概率分布确定。

以行业评估子模型为隐式马尔科夫模型为例，基于行业数据确定该行业的风险评分的初始概率分布、状态转移分布以及观测概率分布，基于风险评分的初始概率分布、状态转移分布以及观测概率分布确定对应的行业中枢状态。

在步骤S630中，基于各个子评估模型对应的因子数据、评价指标以及行业中枢状态，对分类权重子模型进行训练。

在示例实施例中，基于各个子评估模型对应的因子数据、评价指标以及行业中枢状态，对初始分类权重子模型进行训练，得到训练后的分类权重子模型。举例而言，基于子评估模型对应的因子数据以及行业中枢状态，通过分类权重子模型确定子评估模型对应的预测评价指标；基于各个子评估模型对应的评价指标与预测评价指标的差值，确定分类权重子模型的损失函数；基于损失函数对分类权重子模型进行训练。

根据图6的示例实施例中的技术方案，通过不同类型的模型捕捉信用风险评分的时序动量信息、非线性信息和线性信息，并通过机器学习模型选择器结合行业中枢状态得到信用风险评分在以上三部分信息(分别由三个模型刻画的信息)上分别的暴露度，加权得到企业的信用风险评分，从而能够降低单模型偏差和误差。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

下面，将结合图7以及图1所示系统架构，对本说明书实施例提供的风险评估装置进行详细介绍。需要说明的是，图7中的风险评估装置，用于执行本说明书图2-图4所示实施例的方法，为了便于说明，仅示出了与本说明书实施例相关的部分，具体技术细节未揭示的，请参照本说明书图2-图4所示的实施例。

请参见图7，图7为本说明书实施例提供的一种风险评估装置的结构示意图。如图7所示，本说明书实施例的风险评估装置700可以包括：数据获取模块710、子评分确定模块720、权重确定模块730以及总评分确定模块740。其中，

数据获取模块710，用于获取待评估企业的多个因子数据；

子评分确定模块720，用于基于所述多个因子数据，通过风险评估模型中多个子评估模型确定所述待评估企业对应的子风险评分，所述风险评估模型为基于训练样本通过集成学习方式对所述多个子评估模型进行集成得到的模型，所述训练样本包括所述待评估企业所处行业的多个企业的所述多个因子数据；

权重确定模块730，用于基于所述多个因子数据，通过所述风险评估模型中的分类权重子模型确定各个所述子风险评分的分类权重，所述分类权重子模型为对所述多个子评估模型进行集成以生成所述风险评估模型的模型；

总评分确定模块740，用于基于所述分类权重对各个所述子风险评分进行加权运算，确定所述待评估企业的信用风险评分。

在一些示例实施例中，基于上述方案，所述多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型，所述子评分确定模块720包括：

第一子评分确定单元，用于基于所述多个因子数据中的时序因子数据，通过所述时序评估子模型确定所述待评估企业的第一子风险评分；

第二子评分确定单元，用于基于所述多个因子数据，通过所述至少一个非时序评估子模型确定所述待评估企业的至少一个第二子风险评分。

在一些示例实施例中，基于上述方案，所述至少一个非时序评估子模型包括：非线性多因子模型和线性多因子模型，所述第二子评分确定单元包括：

非线性单元，用于基于所述多个因子数据，通过所述非线性多因子模型确定所述待评估企业的第二子风险评分；

线性单元，用于基于所述多个因子数据，通过所述线性多因子模型确定所述待评估企业的第三子风险评分，所述线性因子模型是所述多个因子数据之间的线性关系模型。

在一些示例实施例中，基于上述方案，所述非线性多因子模型包括决策树回归模型，所述非线性单元还用于：

基于所述决策树回归模型确定所述多个因子数据的信息增益率；

基于所述多个因子数据的信息增益率确定所述待评估企业的第二子风险评分。

在一些示例实施例中，基于上述方案，所述风险评估模型还包括行业评估子模型，所述装置还包括：

行业数据获取模块，用于获取所述待评估企业所处行业的行业数据，所述行业数据包括行业基本面数据和行业内多个发债主体的财务数据；

行业中枢确定模块，用于基于所述行业数据，通过所述行业评估子模型确定所述行业的信用风险评分的行业中枢状态，所述行业评估子模型为用于确定所述行业的信用风险评分的行业中枢状态的统计模型，

所述权重确定模块730还用于：

结合所述行业中枢状态以及所述多个因子数据，通过所述风险评估模型中的分类权重子模型确定各个所述风险评分的分类权重。

在一些示例实施例中，基于上述方案，所述数据获取模块710还用于：

周期性获取待评估企业的多个因子数据，所述多个因子数据包括：所述待评估企业的专家评分数据、企业基本数据以及行业数据。

在一些示例实施例中，基于上述方案，所述分类权重子模型为梯度提升决策树模型。

上述为本说明书实施例的一种风险评估装置的示意性方案。需要说明的是，该风险评估装置的技术方案与上述的风险评估方法的技术方案属于同一构思，风险评估装置的技术方案未详细描述的细节内容，均可以参见上述风险评估方法的技术方案的描述。

下面，将结合图8以及图1所示系统架构，对本说明书实施例提供的风险评估模型训练装置进行详细介绍。需要说明的是，图8中的风险评估模型训练装置，用于执行本说明书图5-图6所示实施例的方法，为了便于说明，仅示出了与本说明书实施例相关的部分，具体技术细节未揭示的，请参照本说明书图5-图6所示的实施例。

请参见图8，为本说明书实施例提供了一种风险评估模型训练装置的结构示意图。如图8所示，本说明书实施例的风险评估模型训练装置800可以包括：数据获取模块810、以及参数调整模块850。其中，所述风险评估模型包括多个子评估模型以及分类权重子模型。所述装置800包括：

数据获取模块810，用于获取目标行业的多个企业中各个企业的多个因子数据；

子模型构建模块820，用于基于所述多个因子数据中各个子评估模型对应的因子数据，构建对应的子评估模型，所述子评估模型用于确定所述企业的子风险评分；

分类权重模型训练模块830，用于基于各个所述子评估模型对应的因子数据以及评价指标，对分类权重子模型进行训练，所述分类权重模型用于确定各个所述子风险评分的分类权重，所述分类权重子模型还用于基于所述分类权重对所述多个子评估模型进行集成来生成所述风险评估模型。

在一些示例实施例中，基于上述方案，所述分类权重模型训练模块830还用于：

基于所述子评估模型对应的因子数据，通过所述分类权重子模型确定所述子评估模型对应的预测评价指标；

基于各个所述子评估模型对应的评价指标以及所述预测评价指标的差值，确定所述分类权重子模型的损失函数；

基于所述损失函数对所述分类权重子模型进行训练。

在一些示例实施例中，基于上述方案，所述装置还包括：

行业数据获取模块，用于在所述对所述分类权重子模型进行训练之前，获取所述目标行业的行业数据，所述行业数据包括行业基本面数据和行业内多个发债主体的财务数据；

行业评估模型构建模块，用于基于所述行业数据，构建所述目标行业的行业评估模型，所述行业评估子模型用于确定所述目标行业的信用风险评分的行业中枢状态，

所述分类权重模型训练模块830还用于：

基于各个所述子评估模型对应的因子数据、评价指标以及所述行业中枢状态，对所述分类权重子模型进行训练。

在一些示例实施例中，基于上述方案，所述多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型，所述基子模型构建模块820包括：

时序子评估模型构建模块，用于基于所述多个因子数据中的时序因子数据，构建对应的所述时序子评估模型；

非时序子评估模型构建模块，用于基于所述多个因子数据与所述非时序评估子模型对应的因子数据，构建所述至少一个非时序评估子模型。

在一些示例实施例中，基于上述方案，所述至少一个非时序评估子模型包括：决策树回归模型和线性多因子模型，非时序子评估模型构建模块还用于：

基于所述多个因子数据中与所述决策树回归模型对应的第一因子数据，确定所述第一因子数据的信息增益率，基于所述信息增益率构建所述决策树回归模型；

基于所述多个因子数据中与所述线性多因子模型对应的第二因子数据，构建所述第二因子数据之间的线性多因子模型。

在一些示例实施例中，基于上述方案，分类权重子模型为梯度提升决策树模型。

在一些示例实施例中，基于上述方案，所述装置还包括：

数据处理单元，用于在所述获取目标行业的多个企业中各个企业的多个因子数据之后，通过时间点PIT方式和/或滚动12个月TTM方式对所述多个因子数据进行处理。

根据本说明书图8的实施例的技术方案，一方面，通过多模型集成学习的方式对多个指标因子采用多个模型进行融合生成风险评估模型，能够利用集成学习的方式融合多种模型的预测能力；另一方面，根据风险评估模型确定待评估企业的信用风险评分，能够通过多种子评估模型来融合学习企业的多类风险指标因子信息，例如时序动量信息、非线性信息和线性信息，从而能够根据多类风险指标因子信息及时准确地预测企业例如发债主体的信用风险。

上述为本说明书实施例的一种风险评估模型训练装置的示意性方案。需要说明的是，该风险评估模型训练装置的技术方案与上述的风险评估模型训练方法的技术方案属于同一构思，风险评估模型训练装置的技术方案未详细描述的细节内容，均可以参见上述风险评估模型训练方法的技术方案的描述。

本说明书实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条程序指令，所述程序指令适于由处理器加载并执行如上述图2～图6所示实施例的方法步骤，具体执行过程可以参见图2～图6所示实施例的具体说明，在此不进行赘述。

本说明书实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由处理器加载并执行如上述图2～图6所示实施例的所述风险评估方法，具体执行过程可以参见图2～图6所示实施例的具体说明，在此不进行赘述。

请参考图9，其示出了本说明书一个示例性实施例提供的电子设备的结构示意图。本说明书中的电子设备可以包括一个或多个如下部件：处理器910、存储器920、输入装置930、输出装置940和总线950。处理器910、存储器920、输入装置930和输出装置940之间可以通过总线950连接。

处理器910可以包括一个或者多个处理核心。处理器910利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行电子设备900的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器910可集成中心处理器(centralprocessing unit，CPU)、风险评估器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器920包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(例如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、IOS系统，包括基于IOS系统深度开发的系统或其它系统。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

其中，输入装置930用于接收输入的指令或数据，输入装置930包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置940用于输出指令或数据，输出装置940包括但不限于显示设备和扬声器等。在一个示例中，输入装置930和输出装置940可以合设，输入装置930和输出装置940为触摸显示屏。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在图9所示的电子设备中，处理器910可以用于调用存储器920中存储的风险评估应用程序，并具体执行以下操作：

获取待评估企业的多个因子数据；

在一些示例实施例中，所述多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型，处理器910在执行所述通过风险评估模型中多个子评估模型确定所述待评估企业对应的子风险评分时，具体执行以下操作：

基于所述多个因子数据中的时序因子数据，通过所述时序评估子模型确定所述待评估企业的第一子风险评分；

基于所述多个因子数据，通过所述至少一个非时序评估子模型确定所述待评估企业的至少一个第二子风险评分。

在一些示例实施例中，所述至少一个非时序评估子模型包括：非线性多因子模型和线性多因子模型，处理器910在执行所述基于所述多个因子数据，通过所述至少一个非时序评估子模型确定所述待评估企业的至少一个第二子风险评分时，具体执行以下操作：

基于所述多个因子数据，通过所述非线性多因子模型确定所述待评估企业的第二子风险评分；

基于所述多个因子数据，通过所述线性多因子模型确定所述待评估企业的第三子风险评分，所述线性因子模型是所述多个因子数据之间的线性关系模型。

在一些示例实施例中，所述非线性多因子模型包括决策树回归模型，处理器910在执行所述基于所述多个因子数据，通过所述非线性多因子模型确定所述待评估企业的第二子风险评分时，具体执行以下操作：

在一些示例实施例中，所述风险评估模型还包括行业评估子模型，处理器910还执行以下操作：

获取所述待评估企业所处行业的行业数据，所述行业数据包括行业基本面数据和行业内多个发债主体的财务数据；

基于所述行业数据，通过所述行业评估子模型确定所述行业的信用风险评分的行业中枢状态，所述行业评估子模型为用于确定所述行业的信用风险评分的行业中枢状态的统计模型，

所述基于所述多个因子数据，通过所述风险评估模型中的分类权重子模型确定各个所述风险评分的分类权重，包括：

在一些示例实施例中，处理器910在执行所述获取待评估企业的多个因子数据时，具体执行以下操作：

在一些示例实施例中，所述分类权重子模型为梯度提升决策树模型。

上述为本说明书实施例的一种电子设备的示意性方案。需要说明的是，该电子设备的技术方案与上述的风险评估方法的技术方案属于同一构思，电子设备的技术方案未详细描述的细节内容，均可以参见上述风险评估方法的技术方案的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，计算机程序的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本说明书较佳实施例而已，当然不能以此来限定本说明书之权利范围，因此依本说明书权利要求所作的等同变化，仍属本说明书所涵盖的范围。

Claims

1.一种风险评估方法，包括：

获取待评估企业的多个因子数据；

2.根据权利要求1所述的方法，其中，所述多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型，所述通过风险评估模型中多个子评估模型确定所述待评估企业对应的子风险评分，包括：

3.根据权利要求2所述的方法，其中，所述至少一个非时序评估子模型包括：非线性多因子模型和线性多因子模型，所述基于所述多个因子数据，通过所述至少一个非时序评估子模型确定所述待评估企业的至少一个第二子风险评分，包括：

4.根据权利要求3所述的方法，其中，所述非线性多因子模型包括决策树回归模型，所述基于所述多个因子数据，通过所述非线性多因子模型确定所述待评估企业的第二子风险评分，包括：

5.根据权利要求1所述的方法，其中，所述风险评估模型还包括行业评估子模型，所述方法还包括：

6.根据权利要求1所述的方法，其中，所述获取待评估企业的多个因子数据，包括：

7.根据权利要求1至6中任一项所述的方法，其中，所述分类权重子模型为梯度提升决策树模型。

8.一种风险评估模型训练方法，其中，所述风险评估模型包括多个子评估模型以及分类权重子模型，所述方法包括：

获取目标行业的多个企业中各个企业的多个因子数据；

9.根据权利要求8所述的方法，其中，所述基于各个所述子评估模型对应的因子数据以及评价指标，对所述分类权重子模型进行训练，包括：

基于所述损失函数对所述分类权重子模型进行训练。

10.根据权利要求8所述的方法，其中，在所述对所述分类权重子模型进行训练之前，所述方法还包括：

获取所述目标行业的行业数据，所述行业数据包括行业基本面数据和行业内多个发债主体的财务数据；

基于所述行业数据，构建所述目标行业的行业评估模型，所述行业评估子模型用于确定所述目标行业的信用风险评分的行业中枢状态，

所述基于各个所述子评估模型对应的因子数据以及评价指标，对所述分类权重子模型进行训练，包括：

11.根据权利要求8所述的方法，其中，所述多个子评估模型包括时序评估子模型以及至少一个非时序评估子模型，所述基于所述多个因子数据中各个子评估模型对应的因子数据，构建对应的子评估模型，包括：

基于所述多个因子数据中的时序因子数据，构建对应的所述时序子评估模型；

基于所述多个因子数据与所述非时序评估子模型对应的因子数据，构建所述至少一个非时序评估子模型。

12.根据权利要求11所述的方法，其中，所述至少一个非时序评估子模型包括：决策树回归模型和线性多因子模型，基于所述多个因子数据与所述非时序评估子模型对应的因子数据，构建所述至少一个非时序评估子模型，包括：

13.根据权利要求8至12中任一项所述的方法，其中，分类权重子模型为梯度提升决策树模型。

14.根据权利要求8至12中任一项所述的方法，其中，在所述获取目标行业的多个企业中各个企业的多个因子数据之后，所述方法还包括：

通过时间点PIT方式和/或滚动12个月TTM方式对所述多个因子数据进行处理。

15.一种风险评估装置，包括：

数据获取模块，用于获取待评估企业的多个因子数据；

16.一种风险评估模型训练装置，所述风险评估模型包括多个子评估模型以及分类权重子模型，所述装置包括：

17.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～14中任一项所述方法的步骤。

18.一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～14中任一项所述方法的步骤。

19.一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1-14任一项所述的方法的步骤。