CN114782173A

CN114782173A - 信用风险评估方法及装置、电子设备、存储介质

Info

Publication number: CN114782173A
Application number: CN202210609762.6A
Authority: CN
Inventors: 李捷; 宋军超; 陈浩然; 何珍珍
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-07-22

Abstract

本发明公开了一种信用风险评估方法及装置、电子设备、存储介质。其中，该方法包括：选取对待评估主体进行信用评估的多个财务指标，得到指标体系；采用随机森林算法对指标体系进行排序，得到指标排序结果；采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。本发明解决了相关技术中金融机构所采用的信用评估策略，评估结果误差大的技术问题。

Description

信用风险评估方法及装置、电子设备、存储介质

技术领域

本发明涉及金融科技技术领域，具体而言，涉及一种信用风险评估方法及装置、电子设备、存储介质。

背景技术

金融机构的稳定运营对金融市场说具有非常重要的意义，在金融机构运营的多种风险中，信用风险是最重要的风险之一，无法有效控制信用风险会直接导致金融机构的不良贷款增加，甚至造成金融机构破产，在金融市场引起恐慌。

目前的企业信用风险度量方法而言，信用体系建设还不太完善，存在主观评价顾客水平的局限性，且人员成本过高等问题。

相关技术中，在评估各贷款主体的信用风险时，各金融机构都尝试采用各种信用风险度量模型，目前运用最为广泛的信用风险度量模型有KMV模型、信用度量术模型等。其中，KMV模型主要是通过贷款主体在股票市场中的表现来衡量企业违约的概率。通过其股价与负债信息对企业的资产做出具有预测性的资产价值衡量，但是该模型只适用于上市企业，对非上市企业的预测有局限，对于模型的后期功能升级有限制，而且单凭股票市场信息可能对公司违约率进行分析有所局限。而信用度量术模型通过计算一段时间内企业的信贷违约率、损失率、信用评级以及信用评级跃迁等数据，计算得到信用风险的VaR值(风险价值)，可以用于计算不同信用背景下的贷款或贷款组合的损失值；但是该模型也有一个显著的缺点，评级迁移矩阵和违约率的假设太过于理想，与实际市场不符，因此会有预测误差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种信用风险评估方法及装置、电子设备、存储介质，以至少解决相关技术中金融机构所采用的信用评估策略，评估结果误差大的技术问题。

根据本发明实施例的一个方面，提供了一种信用风险评估方法，包括：选取对待评估主体进行信用评估的多个财务指标，得到指标体系；采用随机森林算法对所述指标体系进行排序，得到指标排序结果；采用主成分分析策略将所述指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；基于所述多个新综合指标，采用预先构建的逻辑回归模型度量所述待评估主体的信用风险指数，其中，所述信用风险指数用于确定所述待评估主体是否为信用风险主体。

可选地，选取对待评估主体进行信用评估的多个财务指标，得到指标体系的步骤，包括：获取多个已评估主体的财务披露信息中的财务数据；从所述财务数据中选取与所述待评估主体的财务状态存在危机关联的指标集合；从所述指标集合中筛选出与预设财务指标类别对应的多个财务指标，得到所述指标体系，其中，所述预设财务指标类别包括下述至少之一：偿债能力、主体发展能力、主体经营能力、主体盈利能力、现金流能力、主体规模。

可选地，采用随机森林算法对所述指标体系进行排序，得到指标排序结果的步骤，包括：基于主体类别个数以及每个主体类别占待评估的财务指标所属当前节点的比例值，计算所述当前节点的基尼指数；获取在以所述当前节点为基准进行分支后得到的前一节点和后一节点的基尼指数变化量；结合所述当前节点的基尼指数、所述前一节点和所述后一节点的基尼指数变化量，计算所有所述待评估的财务指标在所述当前节点的权重值；基于每个所述待评估的财务指标的权重值，对所述指标体系中的所有财务指标进行排序，得到所述指标排序结果。

可选地，采用主成分分析策略将所述指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标的步骤，包括：按照所述预设数值阈值，筛选所述指标排序结果，得到所述多个筛选指标；计算所有所述筛选指标的协方差矩阵；对所述协方差矩阵中的矩阵数据进行标准化处理；采用所述主成分分析策略，对标准化处理后的所述矩阵数据进行主成分分析，得到所述多个新综合指标。

可选地，计算所有所述筛选指标的协方差矩阵的步骤，包括：基于每个所述筛选指标对应的指标数据，计算所有所述筛选指标的指标平均值；基于所有所述筛选指标的指标平均值和所述筛选指标的总数量，计算每两个所述筛选指标之间的协方差；综合每两个所述筛选指标之间的协方差，确定与所有所述筛选指标对应的所述协方差矩阵。

可选地，采用所述主成分分析策略，对标准化处理后的所述矩阵数据进行主成分分析的步骤，包括：基于所有所述筛选指标的指标数据，计算数据方差；基于每两个所述筛选指标之间的协方差以及多个所述筛选指标对应的指标数据的方差，计算与所述矩阵数据具备关联关系的相关系数矩阵；基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值以及对应的特征向量，完成主成分分析。

可选地，基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值以及对应的特征向量，完成主成分分析的步骤，包括：基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值；将所述相关系数矩阵以及对应的特征值代入预设特征方程组，解析所述预设特征方程组，得到多个所述特征向量，其中，每个所述特征向量用于表征所述新综合指标。

可选地，基于所述多个新综合指标，采用预先构建的逻辑回归模型度量所述待评估主体的信用风险指数的步骤，包括：将所述多个新综合指标作为逻辑回归的变量，代入选取的样本数据，得到逻辑回归系数；将所述逻辑回归系数代入所述逻辑回归模型，以度量所述待评估主体的违规参数；基于所述待评估主体的违规参数，评估所述待评估主体的信用风险指数。

根据本发明实施例的另一方面，还提供了一种信用风险评估装置，包括：选取单元，用于选取对待评估主体进行信用评估的多个财务指标，得到指标体系；排序单元，用于采用随机森林算法对所述指标体系进行排序，得到指标排序结果；转化单元，用于采用主成分分析策略将所述指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；度量单元，用于基于所述多个新综合指标，采用预先构建的逻辑回归模型度量所述待评估主体的信用风险指数，其中，所述信用风险指数用于确定所述待评估主体是否为信用风险主体。

可选地，选取单元包括：第一获取模块，用于获取多个已评估主体的财务披露信息中的财务数据；第一选取模块，用于从所述财务数据中选取与所述待评估主体的财务状态存在危机关联的指标集合；第一筛选模块，用于从所述指标集合中筛选出与预设财务指标类别对应的多个财务指标，得到所述指标体系，其中，所述预设财务指标类别包括下述至少之一：偿债能力、主体发展能力、主体经营能力、主体盈利能力、现金流能力、主体规模。

可选地，排序单元包括：第一计算模块，用于基于主体类别个数以及每个主体类别占待评估的财务指标所属当前节点的比例值，计算所述当前节点的基尼指数；第二获取模块，用于获取在以所述当前节点为基准进行分支后得到的前一节点和后一节点的基尼指数变化量；第二计算模块，用于结合所述当前节点的基尼指数、所述前一节点和所述后一节点的基尼指数变化量，计算所有所述待评估的财务指标在所述当前节点的权重值；排序模块，用于基于每个所述待评估的财务指标的权重值，对所述指标体系中的所有财务指标进行排序，得到所述指标排序结果。

可选地，转化单元包括：第二筛选模块，用于按照所述预设数值阈值，筛选所述指标排序结果，得到所述多个筛选指标；第三计算模块，用于计算所有所述筛选指标的协方差矩阵；标准化处理模块，用于对所述协方差矩阵中的矩阵数据进行标准化处理；分析模块，用于采用所述主成分分析策略，对标准化处理后的所述矩阵数据进行主成分分析，得到所述多个新综合指标。

可选地，第三计算模块包括：第一计算子模块，用于基于每个所述筛选指标对应的指标数据，计算所有所述筛选指标的指标平均值；第二计算子模块，用于基于所有所述筛选指标的指标平均值和所述筛选指标的总数量，计算每两个所述筛选指标之间的协方差；第一确定子模块，用于综合每两个所述筛选指标之间的协方差，确定与所有所述筛选指标对应的所述协方差矩阵。

可选地，所述分析模块包括：第三计算子模块，用于基于所有所述筛选指标的指标数据，计算数据方差；第四计算子模块，用于基于每两个所述筛选指标之间的协方差以及多个所述筛选指标对应的指标数据的方差，计算与所述矩阵数据具备关联关系的相关系数矩阵；第五计算子模块，用于基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值以及对应的特征向量，完成主成分分析。

可选地，所述第五计算子模块包括：第六计算子模块，用于基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值；解析子模块，用于将所述相关系数矩阵以及对应的特征值代入预设特征方程组，解析所述预设特征方程组，得到多个所述特征向量，其中，每个所述特征向量用于表征所述新综合指标。

可选地，所述度量单元包括：代入模块，用于将所述多个新综合指标作为逻辑回归的变量，代入选取的样本数据，得到逻辑回归系数；度量模块，用于将所述逻辑回归系数代入所述逻辑回归模型，以度量所述待评估主体的违规参数；评估模块，用于基于所述待评估主体的违规参数，评估所述待评估主体的信用风险指数。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的信用风险评估方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任意一项所述的信用风险评估方法。

本发明中，采用选取对待评估主体进行信用评估的多个财务指标，得到指标体系，采用随机森林算法对指标体系进行排序，得到指标排序结果，采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标，基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。在本发明中，基于预先选取的财务数据指标，用主成分分析法将筛选的多个指标转化为几个综合指标，最后使用逻辑回归对信用风险进行度量，使得金融机构可以有效地通过待评估主体的现有财务信息得到企业的信用风险与企业分类，使得信用评估结果更加客观可靠，由此预测企业类别与信用风险水平，减少因待评估主体的经营问题而导致的不良贷款，从而解决相关技术中金融机构所采用的信用评估策略，评估结果误差大的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的信用风险评估方法的流程图；

图2是根据本发明实施例的一种可选的信用风险评估装置的示意图；

图3是根据本发明实施例的一种信用风险评估方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

随机森林：包含多颗决策树的分类器，可用于评价指标重要性，其思路主要是评估每个特征(代指指标)在随机森林中的每棵树上的贡献，然后取平均，比较不同指标的贡献大小，这里用了基尼系数衡量指标，公式为

其中，k是类别个数，本发明k为2，pmk表示节点m中类别k所占的比例。

协方差：两个变量的总体误差，

其中

为X的平均值，

为Y的平均值，n为样本个数。

相关系数：是指变量之间线性相关程度的量。

需要说明的是，本公开中的信用风险评估方法及其装置可用于金融科技领域在对各市场主体(如企业)、贷款主体等进行信用风险评估的情况下，也可用于除金融科技领域之外的任意领域在对各市场主体(如企业)、贷款主体等进行信用风险评估的情况下，本公开中信用风险评估方法及其装置的应用领域不做限定。

需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

本发明下述各实施例可应用于各种信用评估系统、征信软件、贷款发放系统中的信用风险评估软件/接口，通过逻辑回归模型找出企业分类与其财务信息的联系，并找到企业分类的决策边界，使得判断结果更加客观可靠，由此预测企业类别与信用风险水平。通过本发明的信用风险评估策略，能够帮助各金融机构(例如，银行机构)筛选出存在高信用风险的主体(例如，企业)，帮助金融机构/资金发放APP/资金发放接口在各种信用使用场景(例如，贷款前)对企业还款能力进行多方面分析，避免因企业经营问题而导致的不良贷款。

下面结合各个实施例来详细说明本发明。

实施例一

根据本发明实施例，提供了一种信用风险评估方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的信用风险评估方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，选取对待评估主体进行信用评估的多个财务指标，得到指标体系；

步骤S102，采用随机森林算法对指标体系进行排序，得到指标排序结果；

步骤S103，采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；

步骤S104，基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。

通过上述步骤，可以选取对待评估主体进行信用评估的多个财务指标，得到指标体系，采用随机森林算法对指标体系进行排序，得到指标排序结果，采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标，基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。在该实施例中，基于预先选取的财务数据指标，用主成分分析法将筛选的多个指标转化为几个综合指标，最后使用逻辑回归对信用风险进行度量，使得金融机构可以有效地通过待评估主体的现有财务信息得到企业的信用风险与企业分类，使得信用评估结果更加客观可靠，由此预测企业类别与信用风险水平，减少因待评估主体的经营问题而导致的不良贷款，从而解决相关技术中金融机构所采用的信用评估策略，评估结果误差大的技术问题。

下面结合上述各实施步骤来详细说明本发明实施例。

步骤S101，选取对待评估主体进行信用评估的多个财务指标，得到指标体系。

需要说明的是，本实施例中的待评估主体，包括多种类型，例如，市场主体(公司/企业)、自然人、贷款主体等。本实施例中以企业作为待评估主体进行示意说明，对于企业在贷款前或者获取资金之前，对企业的信用等级、信用风险进行评估，帮助金融机构筛选出高信用风险企业，帮助金融机构在贷款前对企业还款能力进行多方面分析，避免因企业经营问题而导致的不良贷款。

本发明实施例中，在进行信用评估之前，会通过已公开的公司财务信息，来选用对企业财务危机影响较大的财务指标，组成指标体系，当前很多小微企业或者非上市企业并不会公开器财务报表，因此，本发明的主要数据来源是已公开企业的财务报表或者已上市公司的财务报表，以及财务指标分析。

可选的，选取对待评估主体进行信用评估的多个财务指标，得到指标体系的步骤，包括：获取多个已评估主体的财务披露信息中的财务数据；从财务数据中选取与待评估主体的财务状态存在危机关联的指标集合；从指标集合中筛选出与预设财务指标类别对应的多个财务指标，得到指标体系，其中，预设财务指标类别包括下述至少之一：偿债能力、主体发展能力、主体经营能力、主体盈利能力、现金流能力、主体规模。

本发明实施例中，对预先获取的多个已评估主体的财务披露信息中的财务数据进行分析，筛选出对企业财务危机影响较大的指标，涵盖了企业的规模、偿债能力、经营能力、盈利能力、现金流能力、发展能力等各个方面。

下面通过表1示意说明了多个指标结构

表1财务指标结构和财务指标分类

通过对财务信息/报表进行分析，可以得到如上述表1中指示的多个财务指标，该财务指标在分类后，组成了对应的指标体系。

步骤S102，采用随机森林算法对指标体系进行排序，得到指标排序结果。

本实施例中，选用随机森林方法将财务指标体系中的指标排序。随机森林是包含了多颗决策树的分类器，可用于评价指标重要性，其思路主要是评估每个特征(应当是指评估指标)在随机森林中的每棵树上的贡献，然后取平均，比较不同指标的贡献大小。

在本实施例中，采用随机森林算法对指标体系进行排序，得到指标排序结果的步骤，包括：基于主体类别个数以及每个主体类别占待评估的财务指标所属当前节点的比例值，计算当前节点的基尼指数；获取在以当前节点为基准进行分支后得到的前一节点和后一节点的基尼指数变化量；结合当前节点的基尼指数、前一节点和后一节点的基尼指数变化量，计算所有待评估的财务指标在当前节点的权重值；基于每个待评估的财务指标的权重值，对指标体系中的所有财务指标进行排序，得到指标排序结果。

可选的，本实施例在对指标进行排序时，使用了基尼系数衡量指标，采用公式(1)来计算基尼系数，公式(1)如下：

其中，k是类别个数，本实施例中k为2，k指示的类别为企业/公司类别，分为两类，即信用无风险企业、信用高风险企业。

其中，p_mk表示节点m(关联指标)中类别k所占的比例，由于在随机森林中，包含有多颗决策树，每颗决策树上可以存在多个节点，不同节点表征不同的指标内容，通过决策树上的一个个节点，确定指标在随机森林中的每棵树上的贡献。

特征的重要性评分系列公式(2)如下：

其中，

表示特征在节点m的重要性，GI_l和GI_r分别表示分枝后两个新节点的基尼指数，即重要性为m分支前后的基尼指数变化量(即指上述的前一节点和后一节点的基尼指数变化量)。

在得到全部指标(或者是特征)的重要度后，可以对指标进行排序，保留部分的指标。

加入随机森林后的模型对违规待评估主体的预测能力，无论是在训练集还是验证集都更强，即随机森林对重要指标的筛选对提高模型的准确率有很显著的效果，可以为金融机构的信用风险度量建模提供参考。

步骤S103，采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标。

例如，下面通过表格2示意出通过随机森林筛选的指标。

上述表2示意了通过重要度进行排序后，筛选出的重要度大于0.01的指标共21个。

可选的，采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标的步骤，包括：按照预设数值阈值，筛选指标排序结果，得到多个筛选指标；计算所有筛选指标的协方差矩阵；对协方差矩阵中的矩阵数据进行标准化处理；采用主成分分析策略，对标准化处理后的矩阵数据进行主成分分析，得到多个新综合指标。

上树的预设数值阈值，可以自行设置，例如，对于表2来说，设置的预设数值阈值为0.01，超过该预设数值阈值的重要度，可以确定为筛选指标。

由于数据存在较高相关性和多重共线性问题，并且指标数量较多，直接代入模型会出现数据信息重复，影响模型结果的精度。因此在得到多个筛选指标后，需要对现有指标进行主成分分析，以构建新的预测指标，在尽可能保留原有信息的条件下，通过数量较少的新指标反映原有指标中的信息，然后再将新指标进一步代入模型分析。这样可以有效减少指标之间的相关性。

在本实施例中，计算所有筛选指标的协方差矩阵的步骤，包括：基于每个筛选指标对应的指标数据，计算所有筛选指标的指标平均值；基于所有筛选指标的指标平均值和筛选指标的总数量，计算每两个筛选指标之间的协方差；综合每两个筛选指标之间的协方差，确定与所有筛选指标对应的协方差矩阵。

数据的主成分等价于其协方差矩阵的所有特征值和与其相应的正交单位化特征向量。

每两个筛选指标(或者说两个变量)之间的协方差公式(3)为：

其中

为x_i(i为指标，x_i为指标i对应的数据)的平均值，n为样本个数，cov(x_i,x_j)为协方差。

数据集的协方差矩阵为两两筛选指标之间的协方差的集合，是一个对称矩阵，其显示公式(4)如下：

通过综合每两个筛选指标之间的协方差，得到与所有筛选指标对应的协方差矩阵。

一种可选的，采用主成分分析策略，对标准化处理后的矩阵数据进行主成分分析的步骤，包括：基于所有筛选指标的指标数据，计算数据方差；基于每两个筛选指标之间的协方差以及多个筛选指标对应的指标数据的方差，计算与矩阵数据具备关联关系的相关系数矩阵；基于相关系数矩阵和预先配置的单位矩阵，计算相关系数矩阵的特征值以及对应的特征向量，完成主成分分析。

由于样本数据中存在不同量纲，会使得不同筛选指标之间的数值分散较大，直接用协方差矩阵求解可能会导致输出结果的准确性下降，因此需要对数据进行标准化处理。根据标准化后数据做主成分分析，等价于求其相关系数矩阵的特征值与对应的特征向量，

其中，相关系数矩阵如下公式(5)：

其中，

为筛选指标i对应的指标数据X的数据方差，结合协方差cov(x_i,x_j)，能够得到相关系数矩阵。

可选的，基于相关系数矩阵和预先配置的单位矩阵，计算相关系数矩阵的特征值以及对应的特征向量，完成主成分分析的步骤，包括：基于相关系数矩阵和预先配置的单位矩阵，计算相关系数矩阵的特征值；将相关系数矩阵以及对应的特征值代入预设特征方程组，解析预设特征方程组，得到多个特征向量，其中，每个特征向量用于表征新综合指标。

例如，求解以下公式(6)示意的线性方程组，可得特征值。

det(λ_kE-R)＝0 公式(6)；

其中，E为单位矩阵(对角线全是1的矩阵)，贡献率为

m为特征值个数。

下面通过表3示意说明主成分分析指标后得到的指标特征值。

表3主成分分析指标

K(指标)	λ<sub>k</sub>(特征值)	贡献率	累计贡献率
				1	4.673948744	0.222568988	0.222568988
2	3.093740731	0.147320987	0.369889975
				3	2.543673015	0.121127286	0.491017261
4	1.973181385	0.093961018	0.58497828
				5	1.453557191	0.069217009	0.654195289
6	1.11972553	0.053320263	0.707515552
				7	1.050371395	0.050017685	0.757533238
8	0.953399817	0.045399991	0.802933229

本发明上述实施例，可以运用随机森林的原理筛选用于建立逻辑回归模型的指标，在建立信用风险度量的逻辑回归模型时，最重要的一步是选取合适的、对分类结果预测能力强的指标。

如上表3所示，用主成分分析得到数据集相关矩阵的特征值，可知前8个主成分涵盖了原数据80％的信息。

根据主成分分析中得到的特征值解以下方程组，公式(7)：

RV_k＝λ_kV_k 公式(7)；

得对应的特征向量V_k，将新的指标(即上述的新综合指标)代入下一步的逻辑回归模型中。

可选的，基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数的步骤，包括：将多个新综合指标作为逻辑回归的变量，代入选取的样本数据，得到逻辑回归系数；将逻辑回归系数代入逻辑回归模型，以度量待评估主体的违规参数；基于待评估主体的违规参数，评估待评估主体的信用风险指数。

采用逻辑回归模型度量待评估主体的信用风险，逻辑回归模型可以通过待评估主体的财务报告，分析出违规企业与非违规企业之间的区分边界，同时逻辑回归在拟合决策边界后，还可以建立边界与分类概率的联系，从而预测企业的类型。

可选的，本实施例中的逻辑回归模型如下公式(8)示意:

其中，Y＝1为待评估主体是违规主体的情况，Y＝0为非违规主体，w、b为待求参数。

将上述主成分分析得到的8个新指标作为逻辑回归的变量，代入选取的样本数据，得到逻辑回归系数如下：

w^TV+b＝0.358V₁-0.304V₂+0.307V₃-0.391V₄-0.583V₅+0.057V₆-0.049V₇-0.299V₈-2.56

将待评估主体的财务指标数据代入模型，即可得到待评估主体的违规概率，得到信用风险指数。逻辑回归模型对待评估主体现状的适用性强，可以帮助金融机构(例如，商业银行)对待评估主体还款能力进行多方面分析，筛选出高信用风险企业，违规率的预测准确率高，稳定性强，避免因待评估主体经营问题而导致的不良贷款，是可信赖的模型。

本发明实施例，可以先获取各公司的财务年报中的重要财务数据，选用31个对企业财务危机影响较大的财务指标组成指标体系，通过随机森林筛选出重要的指标，并用主成分分析法将筛选的多个指标转化为几个综合指标，最后使用逻辑回归对信用风险进行度量。通过该逻辑回归模型，金融机构可以有效地通过待评估主体的现有财务信息得到待评估主体的信用风险与企业分类。

下面结合另一个可选的实施例来说明本发明。

实施例二

本实施例提供了一种信用风险评估装置，该评估装置中涉及的多个实施单元对应于上述实施例一中的各个实施步骤。

图2是根据本发明实施例的一种可选的信用风险评估装置的示意图，如图2所示，该评估装置可以包括：选取单元21、排序单元22、转化单元23、度量单元24，其中，

选取单元21，用于选取对待评估主体进行信用评估的多个财务指标，得到指标体系；

排序单元22，用于采用随机森林算法对指标体系进行排序，得到指标排序结果；

转化单元23，用于采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；

度量单元24，用于基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。

上述信用风险评估装置，可以通过选取单元21选取对待评估主体进行信用评估的多个财务指标，得到指标体系，通过排序单元22采用随机森林算法对指标体系进行排序，得到指标排序结果，通过转化单元23采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标，通过度量单元24基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。在该实施例中，基于预先选取的财务数据指标，用主成分分析法将筛选的多个指标转化为几个综合指标，最后使用逻辑回归对信用风险进行度量，使得金融机构可以有效地通过待评估主体的现有财务信息得到企业的信用风险与企业分类，使得信用评估结果更加客观可靠，由此预测企业类别与信用风险水平，减少因待评估主体的经营问题而导致的不良贷款，从而解决相关技术中金融机构所采用的信用评估策略，评估结果误差大的技术问题。

可选的，选取单元包括：第一获取模块，用于获取多个已评估主体的财务披露信息中的财务数据；第一选取模块，用于从财务数据中选取与待评估主体的财务状态存在危机关联的指标集合；第一筛选模块，用于从指标集合中筛选出与预设财务指标类别对应的多个财务指标，得到指标体系，其中，预设财务指标类别包括下述至少之一：偿债能力、主体发展能力、主体经营能力、主体盈利能力、现金流能力、主体规模。

可选的，排序单元包括：第一计算模块，用于基于主体类别个数以及每个主体类别占待评估的财务指标所属当前节点的比例值，计算当前节点的基尼指数；第二获取模块，用于获取在以当前节点为基准进行分支后得到的前一节点和后一节点的基尼指数变化量；第二计算模块，用于结合当前节点的基尼指数、前一节点和后一节点的基尼指数变化量，计算所有待评估的财务指标在当前节点的权重值；排序模块，用于基于每个待评估的财务指标的权重值，对指标体系中的所有财务指标进行排序，得到指标排序结果。

可选的，转化单元包括：第二筛选模块，用于按照预设数值阈值，筛选指标排序结果，得到多个筛选指标；第三计算模块，用于计算所有筛选指标的协方差矩阵；标准化处理模块，用于对协方差矩阵中的矩阵数据进行标准化处理；分析模块，用于采用主成分分析策略，对标准化处理后的矩阵数据进行主成分分析，得到多个新综合指标。

可选的，第三计算模块包括：第一计算子模块，用于基于每个筛选指标对应的指标数据，计算所有筛选指标的指标平均值；第二计算子模块，用于基于所有筛选指标的指标平均值和筛选指标的总数量，计算每两个筛选指标之间的协方差；第一确定子模块，用于综合每两个筛选指标之间的协方差，确定与所有筛选指标对应的协方差矩阵。

可选的，分析模块包括：第三计算子模块，用于基于所有筛选指标的指标数据，计算数据方差；第四计算子模块，用于基于每两个筛选指标之间的协方差以及多个筛选指标对应的指标数据的方差，计算与矩阵数据具备关联关系的相关系数矩阵；第五计算子模块，用于基于相关系数矩阵和预先配置的单位矩阵，计算相关系数矩阵的特征值以及对应的特征向量，完成主成分分析。

可选的，第五计算子模块包括：第六计算子模块，用于基于相关系数矩阵和预先配置的单位矩阵，计算相关系数矩阵的特征值；解析子模块，用于将相关系数矩阵以及对应的特征值代入预设特征方程组，解析预设特征方程组，得到多个特征向量，其中，每个特征向量用于表征新综合指标。

可选的，度量单元包括：代入模块，用于将多个新综合指标作为逻辑回归的变量，代入选取的样本数据，得到逻辑回归系数；度量模块，用于将逻辑回归系数代入逻辑回归模型，以度量待评估主体的违规参数；评估模块，用于基于待评估主体的违规参数，评估待评估主体的信用风险指数。

上述的信用风险评估装置还可以包括处理器和存储器，上述选取单元21、排序单元22、转化单元23、度量单元24等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：选取对待评估主体进行信用评估的多个财务指标，得到指标体系；采用随机森林算法对指标体系进行排序，得到指标排序结果；采用主成分分析策略将指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；基于多个新综合指标，采用预先构建的逻辑回归模型度量待评估主体的信用风险指数，其中，信用风险指数用于确定待评估主体是否为信用风险主体。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的信用风险评估方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述任意一项的信用风险评估方法。

图3是根据本发明实施例的一种信用风险评估方法的电子设备(或移动设备)的硬件结构框图。如图3所示，电子设备可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信用风险评估方法，其特征在于，包括：

选取对待评估主体进行信用评估的多个财务指标，得到指标体系；

采用随机森林算法对所述指标体系进行排序，得到指标排序结果；

采用主成分分析策略将所述指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；

基于所述多个新综合指标，采用预先构建的逻辑回归模型度量所述待评估主体的信用风险指数，其中，所述信用风险指数用于确定所述待评估主体是否为信用风险主体。

2.根据权利要求1所述的方法，其特征在于，选取对待评估主体进行信用评估的多个财务指标，得到指标体系的步骤，包括：

获取多个已评估主体的财务披露信息中的财务数据；

从所述财务数据中选取与所述待评估主体的财务状态存在危机关联的指标集合；

从所述指标集合中筛选出与预设财务指标类别对应的多个财务指标，得到所述指标体系，其中，所述预设财务指标类别包括下述至少之一：偿债能力、主体发展能力、主体经营能力、主体盈利能力、现金流能力、主体规模。

3.根据权利要求1所述的方法，其特征在于，采用随机森林算法对所述指标体系进行排序，得到指标排序结果的步骤，包括：

基于主体类别个数以及每个主体类别占待评估的财务指标所属当前节点的比例值，计算所述当前节点的基尼指数；

获取在以所述当前节点为基准进行分支后得到的前一节点和后一节点的基尼指数变化量；

结合所述当前节点的基尼指数、所述前一节点和所述后一节点的基尼指数变化量，计算所有所述待评估的财务指标在所述当前节点的权重值；

基于每个所述待评估的财务指标的权重值，对所述指标体系中的所有财务指标进行排序，得到所述指标排序结果。

4.根据权利要求1所述的方法，其特征在于，采用主成分分析策略将所述指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标的步骤，包括：

按照所述预设数值阈值，筛选所述指标排序结果，得到多个所述筛选指标；

计算所有所述筛选指标的协方差矩阵；

对所述协方差矩阵中的矩阵数据进行标准化处理；

采用所述主成分分析策略，对标准化处理后的所述矩阵数据进行主成分分析，得到所述多个新综合指标。

5.根据权利要求4所述的方法，其特征在于，计算所有所述筛选指标的协方差矩阵的步骤，包括：

基于每个所述筛选指标对应的指标数据，计算所有所述筛选指标的指标平均值；

基于所有所述筛选指标的指标平均值和所述筛选指标的总数量，计算每两个所述筛选指标之间的协方差；

综合每两个所述筛选指标之间的协方差，确定与所有所述筛选指标对应的所述协方差矩阵。

6.根据权利要求4所述的方法，其特征在于，采用所述主成分分析策略，对标准化处理后的所述矩阵数据进行主成分分析的步骤，包括：

基于所有所述筛选指标的指标数据，计算数据方差；

基于每两个所述筛选指标之间的协方差以及多个所述筛选指标对应的指标数据的方差，计算与所述矩阵数据具备关联关系的相关系数矩阵；

基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值以及对应的特征向量，完成主成分分析。

7.根据权利要求6所述的方法，其特征在于，基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值以及对应的特征向量，完成主成分分析的步骤，包括：

基于所述相关系数矩阵和预先配置的单位矩阵，计算所述相关系数矩阵的特征值；

将所述相关系数矩阵以及对应的特征值代入预设特征方程组，解析所述预设特征方程组，得到多个所述特征向量，其中，每个所述特征向量用于表征所述新综合指标。

8.根据权利要求1所述的方法，其特征在于，基于所述多个新综合指标，采用预先构建的逻辑回归模型度量所述待评估主体的信用风险指数的步骤，包括：

将所述多个新综合指标作为逻辑回归的变量，代入选取的样本数据，得到逻辑回归系数；

将所述逻辑回归系数代入所述逻辑回归模型，以度量所述待评估主体的违规参数；

基于所述待评估主体的违规参数，评估所述待评估主体的信用风险指数。

9.一种信用风险评估装置，其特征在于，包括：

选取单元，用于选取对待评估主体进行信用评估的多个财务指标，得到指标体系；

排序单元，用于采用随机森林算法对所述指标体系进行排序，得到指标排序结果；

转化单元，用于采用主成分分析策略将所述指标排序结果中排序在预设数值阈值之前的多个筛选指标转化为多个新综合指标；

度量单元，用于基于所述多个新综合指标，采用预先构建的逻辑回归模型度量所述待评估主体的信用风险指数，其中，所述信用风险指数用于确定所述待评估主体是否为信用风险主体。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的信用风险评估方法。

11.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至8中任意一项所述的信用风险评估方法。