CN114298819A

CN114298819A - 一种企业信用风险预测方法

Info

Publication number: CN114298819A
Application number: CN202111486678.1A
Authority: CN
Inventors: 孙永鹏; 王福政; 高峰; 罗成龙
Original assignee: Guojiu Big Data Co ltd
Current assignee: Guojiu Big Data Co ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-08

Abstract

本发明提供了一种企业信用风险预测方法，包括如下步骤：步骤1、采集样本企业的多维度数据，构建白样本库和黑样本库；步骤2、基于白样本库计算样本企业信息透明度，并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业；步骤3、将所述样本企业输入GBDT模型中进行训练，得到n颗决策树T并对T结果进行一位有效编码，获取所述样本企业的特征编码结果并进行组合得到风险特征；步骤4、学习获得的风险特征，构建风险预测模型进行风险概率预测。本发明能够在数据量不足够充分且未构建关联网络的情况下高效识别透明度较低企业的信用风险。

Description

一种企业信用风险预测方法

技术领域

本发明涉及企业风险管控技术领域，具体而言，涉及一种企业信用风险预测方法。

背景技术

企业信用风险的识别主要分为机器识别、人工识别以及两者相结合3种情况，机器识别主要通过使用机器学习技术，人工识别主要借助专家经验。由于企业数量的庞大，人工识别效率低下，而机器学习技术存在误判，因此当前主要使用的是机器与人工识别相结合的方法。使用机器识别的前提条件是要信息的输入，否则难以发挥其特长；而当前信用风险在低透明度(公开信息较少)的企业发生率较高，这部分企业机器又难以识别。

发明内容

本发明的目的在于提供一种企业信用风险预测方法，能够在不建立完整关联网络且数据量有限制的条件下，对低透明度且存在信用风险的企业有很好的识别效果。

本发明的实施例通过以下技术方案实现：一种企业信用风险预测方法，包括如下步骤：

步骤1、采集样本企业的多维度数据，构建白样本库和黑样本库；

步骤2、基于白样本库计算样本企业信息透明度，并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业；

步骤3、将所述样本企业输入GBDT模型中进行训练，得到n颗决策树T并对T结果进行一位有效编码，获取所述样本企业的特征编码结果并进行组合得到风险特征；

步骤4、学习获得的风险特征，构建风险预测模型进行风险概率预测。

进一步地，所述方法还包括：

步骤5、获取待预测目标的Cell单元，并从中获取父关联点集与待预测目标的属性信息，所述Cell单元由关联类型、待预测目标、标签集合以及自然人与企业集合组成；

步骤6、从黑样本库内所有样本企业的关联方网络图谱结构Cell中选取满足预设条件的Cell，并从白样本库中查找得到所述属性信息；

步骤7、基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型，预测出父关联节点的风险传至待预测目标的概率，对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新。

进一步地，步骤2中计算样本企业信息透明度的公式如下：

上式中，transp表示透明度，N表示白样本库中特征的数量，feature_i表示在白样本库中第i个特征，当不存在对应信息时，feature_i设为Null，ω_i表示feature_i信息重要程度，当feature_i为Null时，I取1，否则为0。

进一步地，所述步骤3之前还包括：对白样本和黑样本进行降采样。

进一步地，所述步骤4中构建风险预测模型进行风险概率预测包括：

将风险特征输入如下公式进行训练，公式表示为：

上式中，X_GBDT表示风险特征，y表示预测的风险概率，β表示回归系数。

进一步地，所述步骤4还包括：

重复执行步骤3至4，将所得模型进行封装，通过封装所得模型进行风险概率预测，对预测结果取均值。

进一步地，所述步骤5中的标签集合的标签类型为是否传递成功，当自然人与企业集合的立案时间早于待预测目标的立案时间且两者均立案，则视为传递成功。

进一步地，所述步骤6中的预设条件包括：目标透明度小于阈值、Cell中父关联点集不为空、父关联点透明度不小于阈值、父关联点集与黑样本库存在交集。

进一步地，所述步骤7中基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型，模型结果如下：

上式中，P_i表示第i个父关联节点的风险传至待预测目标的概率，t表示第i个父关联节点所属企业类型，label表示传递成功，

表示预测目标与第i个父关联节点第j个属性的实际值，e_i表示预测目标与第i个父关联节点的关联类型，P_t(label＝1)表示在t企业类型下，label为1的先验概率，

表示在t企业类型下，label为1的条件下X_j属性的实际值为

时的先验概率。

进一步地，所述步骤7中对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新，通过表达式表示为：

risk_score＝f(p₁*risk_score₁,p₂*risk_score₂,...,p_i*risk_score_i)

上式中，risk_score_i表示第i个父关联节点的风险概率，如果第i个父关联点不存在于黑样本库中且为企业，则步骤4的计算结果不变，如果第i个父关联点存在于黑样本库中，则risk_score_i为1，否则为0，f(x₁,x₂,...,x_n)表示待预测目标风险概率与父关联节点风险概率的映射函数。

本发明实施例的技术方案至少具有如下优点和有益效果：本发明能够在数据量不足够充分且未构建关联网络的情况下高效识别透明度较低企业的信用风险。

附图说明

图1为本发明实施例1提供的信用风险预测方法的流程示意图；

图2为本发明实施例1提供的决策路径一位有效编码示意图；

图3为本发明实施例1提供的Cell拓扑结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

经申请人研究发现，企业信用风险的识别主要分为机器识别、人工识别以及两者相结合3种情况，机器识别主要通过使用机器学习技术，人工识别主要借助专家经验。由于企业数量的庞大，人工识别效率低下，而机器学习技术存在误判，因此当前主要使用的是机器与人工识别相结合的方法。使用机器识别的前提条件是要信息的输入，否则难以发挥其特长；而当前信用风险在低透明度(公开信息较少)的企业发生率较高，这部分企业机器又难以识别。

因此，本发明实施例提供一种企业信用风险预测方法，能够在不建立完整关联网络且数据量有限制的条件下，对低透明度且存在信用风险的企业有很好的识别效果；具体包括如下步骤：

步骤1、采集样本企业的多维度数据，构建白样本库和黑样本库；在本实施例的一种实施方式中，白样本库所收集的多维度数据具体包括基本信息、司法信息、运营信息、投融资信息、资质许可信息以及高管信息等，并从中提取主体、事件和时间3要素信息；其中主体主要包括企业和人，事件有司法信息、运营信息以及变更信息等，基于三要素信息构建全量企业特征，比如企业近1年新增分支机构的数量，然后形成白样本库。黑样本库则具体包括失信企业、黑名单企业、失信人员以及黑名单人员等。

进一步执行步骤2、基于白样本库计算样本企业信息透明度，公式如下：

并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业；本实施例设置透明度阈值为k，根据k对黑样本库进行筛选，匹标注为1，否则为0，标注结果即为Y；根据k对白样本库进行筛选，匹配结果即为X。

进一步地对X进行标准化处理，公式表示为：

上式中，X_sd表示X标准化之后的结果，μ表示X的均值，σ表示X的标准差。

在本实施例中，考虑到由于匹配成功的黑样本数量较少导致训练样本黑白样本严重不均衡，按照黑白样本1：m的比例采用降采样的方法进行采样，结果即为(X_sd_samples,Y_samples)，其中m可结合实际情况灵活调整。

进一步地执行步骤3、将(X_sd_samples,Y_samples)输入GBDT模型中进行训练，得到n颗决策树T；如果T结果共有q_n条决策路径，则设企业在n颗决策树上的决策路径id为(id_1，id_2，...，id_n)，并进行一位有效编码，参考图2，将图中的特征编码结果进行组合得到风险特征。

进一步地执行步骤4、学习获得的风险特征，构建风险预测模型进行风险概率预测。具体包括：将风险特征输入如下公式进行训练，公式表示为：

重复执行步骤3至4共c次，将所得c个模型进行封装，通过封装所得模型进行风险概率预测，对预测结果取均值。

本实施所提供的所述方法还包括：

步骤5、获取待预测目标的Cell单元，并从中获取父关联点集与待预测目标的属性信息，所述Cell单元由关联类型、待预测目标、标签集合以及自然人与企业集合组成；在本实施例中，设待预测目标为A，A的父关联节点集为R，则(R,A,e，label)即为一个Cell，其中e主要包括任职关系、投资关系两种关联类型，任职关系包括法定代表人、董事长、总经理、监事等，投资关系根据股权占比大小区分强弱；label表示对应的标签集合，标签类型为是否传递成功，其中R的立案时间早于A的立案时间且两者均立案，则视为传递成功；R为自然人与企业集合。单个Cell的拓扑结构类型具体如图3所示，包括了一对一、多对一两种类型，其又可以根据R集合中父关联点的类型做进一步细分。

进一步地执行步骤6、从黑样本库内所有样本企业的Cell单元中选取满足预设条件的Cell，并从白样本库中查找得到所述属性信息；所述预设条件包括：目标透明度小于阈值、Cell中父关联点集不为空、父关联点透明度不小于阈值、父关联点集与黑样本库存在交集。

进一步地执行步骤7、基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型，模型结果如下：

表示在t企业类型下，label为1的条件下X_j属性的实际值为

时的先验概率。

基于贝叶斯概率模型预测出父关联节点的风险传至待预测目标的概率，对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新，通过表达式表示为：

risk_score＝f(p₁*risk_score₁,p₂*risk_score₂,...,p_i*risk_score_i)

综上所述，本发明能够在数据量不足够充分且未构建关联网络的情况下高效识别透明度较低企业的信用风险。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。