CN114298819A - 一种企业信用风险预测方法 - Google Patents

一种企业信用风险预测方法 Download PDF

Info

Publication number
CN114298819A
CN114298819A CN202111486678.1A CN202111486678A CN114298819A CN 114298819 A CN114298819 A CN 114298819A CN 202111486678 A CN202111486678 A CN 202111486678A CN 114298819 A CN114298819 A CN 114298819A
Authority
CN
China
Prior art keywords
risk
enterprise
probability
transparency
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111486678.1A
Other languages
English (en)
Inventor
孙永鹏
王福政
高峰
罗成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guojiu Big Data Co ltd
Original Assignee
Guojiu Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guojiu Big Data Co ltd filed Critical Guojiu Big Data Co ltd
Priority to CN202111486678.1A priority Critical patent/CN114298819A/zh
Publication of CN114298819A publication Critical patent/CN114298819A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种企业信用风险预测方法,包括如下步骤:步骤1、采集样本企业的多维度数据,构建白样本库和黑样本库;步骤2、基于白样本库计算样本企业信息透明度,并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业;步骤3、将所述样本企业输入GBDT模型中进行训练,得到n颗决策树T并对T结果进行一位有效编码,获取所述样本企业的特征编码结果并进行组合得到风险特征;步骤4、学习获得的风险特征,构建风险预测模型进行风险概率预测。本发明能够在数据量不足够充分且未构建关联网络的情况下高效识别透明度较低企业的信用风险。

Description

一种企业信用风险预测方法
技术领域
本发明涉及企业风险管控技术领域,具体而言,涉及一种企业信用风险预测方法。
背景技术
企业信用风险的识别主要分为机器识别、人工识别以及两者相结合3种情况,机器识别主要通过使用机器学习技术,人工识别主要借助专家经验。由于企业数量的庞大,人工识别效率低下,而机器学习技术存在误判,因此当前主要使用的是机器与人工识别相结合的方法。使用机器识别的前提条件是要信息的输入,否则难以发挥其特长;而当前信用风险在低透明度(公开信息较少)的企业发生率较高,这部分企业机器又难以识别。
发明内容
本发明的目的在于提供一种企业信用风险预测方法,能够在不建立完整关联网络且数据量有限制的条件下,对低透明度且存在信用风险的企业有很好的识别效果。
本发明的实施例通过以下技术方案实现:一种企业信用风险预测方法,包括如下步骤:
步骤1、采集样本企业的多维度数据,构建白样本库和黑样本库;
步骤2、基于白样本库计算样本企业信息透明度,并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业;
步骤3、将所述样本企业输入GBDT模型中进行训练,得到n颗决策树T并对T结果进行一位有效编码,获取所述样本企业的特征编码结果并进行组合得到风险特征;
步骤4、学习获得的风险特征,构建风险预测模型进行风险概率预测。
进一步地,所述方法还包括:
步骤5、获取待预测目标的Cell单元,并从中获取父关联点集与待预测目标的属性信息,所述Cell单元由关联类型、待预测目标、标签集合以及自然人与企业集合组成;
步骤6、从黑样本库内所有样本企业的关联方网络图谱结构Cell中选取满足预设条件的Cell,并从白样本库中查找得到所述属性信息;
步骤7、基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型,预测出父关联节点的风险传至待预测目标的概率,对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新。
进一步地,步骤2中计算样本企业信息透明度的公式如下:
Figure BDA0003396860150000021
上式中,transp表示透明度,N表示白样本库中特征的数量,featurei表示在白样本库中第i个特征,当不存在对应信息时,featurei设为Null,ωi表示featurei信息重要程度,当featurei为Null时,I取1,否则为0。
进一步地,所述步骤3之前还包括:对白样本和黑样本进行降采样。
进一步地,所述步骤4中构建风险预测模型进行风险概率预测包括:
将风险特征输入如下公式进行训练,公式表示为:
Figure BDA0003396860150000031
上式中,X_GBDT表示风险特征,y表示预测的风险概率,β表示回归系数。
进一步地,所述步骤4还包括:
重复执行步骤3至4,将所得模型进行封装,通过封装所得模型进行风险概率预测,对预测结果取均值。
进一步地,所述步骤5中的标签集合的标签类型为是否传递成功,当自然人与企业集合的立案时间早于待预测目标的立案时间且两者均立案,则视为传递成功。
进一步地,所述步骤6中的预设条件包括:目标透明度小于阈值、Cell中父关联点集不为空、父关联点透明度不小于阈值、父关联点集与黑样本库存在交集。
进一步地,所述步骤7中基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型,模型结果如下:
Figure BDA0003396860150000041
上式中,Pi表示第i个父关联节点的风险传至待预测目标的概率,t表示第i个父关联节点所属企业类型,label表示传递成功,
Figure BDA0003396860150000042
表示预测目标与第i个父关联节点第j个属性的实际值,ei表示预测目标与第i个父关联节点的关联类型,Pt(label=1)表示在t企业类型下,label为1的先验概率,
Figure BDA0003396860150000043
表示在t企业类型下,label为1的条件下Xj属性的实际值为
Figure BDA0003396860150000044
时的先验概率。
进一步地,所述步骤7中对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新,通过表达式表示为:
risk_score=f(p1*risk_score1,p2*risk_score2,...,pi*risk_scorei)
上式中,risk_scorei表示第i个父关联节点的风险概率,如果第i个父关联点不存在于黑样本库中且为企业,则步骤4的计算结果不变,如果第i个父关联点存在于黑样本库中,则risk_scorei为1,否则为0,f(x1,x2,...,xn)表示待预测目标风险概率与父关联节点风险概率的映射函数。
本发明实施例的技术方案至少具有如下优点和有益效果:本发明能够在数据量不足够充分且未构建关联网络的情况下高效识别透明度较低企业的信用风险。
附图说明
图1为本发明实施例1提供的信用风险预测方法的流程示意图;
图2为本发明实施例1提供的决策路径一位有效编码示意图;
图3为本发明实施例1提供的Cell拓扑结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
经申请人研究发现,企业信用风险的识别主要分为机器识别、人工识别以及两者相结合3种情况,机器识别主要通过使用机器学习技术,人工识别主要借助专家经验。由于企业数量的庞大,人工识别效率低下,而机器学习技术存在误判,因此当前主要使用的是机器与人工识别相结合的方法。使用机器识别的前提条件是要信息的输入,否则难以发挥其特长;而当前信用风险在低透明度(公开信息较少)的企业发生率较高,这部分企业机器又难以识别。
因此,本发明实施例提供一种企业信用风险预测方法,能够在不建立完整关联网络且数据量有限制的条件下,对低透明度且存在信用风险的企业有很好的识别效果;具体包括如下步骤:
步骤1、采集样本企业的多维度数据,构建白样本库和黑样本库;在本实施例的一种实施方式中,白样本库所收集的多维度数据具体包括基本信息、司法信息、运营信息、投融资信息、资质许可信息以及高管信息等,并从中提取主体、事件和时间3要素信息;其中主体主要包括企业和人,事件有司法信息、运营信息以及变更信息等,基于三要素信息构建全量企业特征,比如企业近1年新增分支机构的数量,然后形成白样本库。黑样本库则具体包括失信企业、黑名单企业、失信人员以及黑名单人员等。
进一步执行步骤2、基于白样本库计算样本企业信息透明度,公式如下:
Figure BDA0003396860150000061
上式中,transp表示透明度,N表示白样本库中特征的数量,featurei表示在白样本库中第i个特征,当不存在对应信息时,featurei设为Null,ωi表示featurei信息重要程度,当featurei为Null时,I取1,否则为0。
并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业;本实施例设置透明度阈值为k,根据k对黑样本库进行筛选,匹标注为1,否则为0,标注结果即为Y;根据k对白样本库进行筛选,匹配结果即为X。
进一步地对X进行标准化处理,公式表示为:
Figure BDA0003396860150000062
上式中,X_sd表示X标准化之后的结果,μ表示X的均值,σ表示X的标准差。
在本实施例中,考虑到由于匹配成功的黑样本数量较少导致训练样本黑白样本严重不均衡,按照黑白样本1:m的比例采用降采样的方法进行采样,结果即为(X_sd_samples,Y_samples),其中m可结合实际情况灵活调整。
进一步地执行步骤3、将(X_sd_samples,Y_samples)输入GBDT模型中进行训练,得到n颗决策树T;如果T结果共有qn条决策路径,则设企业在n颗决策树上的决策路径id为(id_1,id_2,...,id_n),并进行一位有效编码,参考图2,将图中的特征编码结果进行组合得到风险特征。
进一步地执行步骤4、学习获得的风险特征,构建风险预测模型进行风险概率预测。具体包括:将风险特征输入如下公式进行训练,公式表示为:
Figure BDA0003396860150000071
上式中,X_GBDT表示风险特征,y表示预测的风险概率,β表示回归系数。
重复执行步骤3至4共c次,将所得c个模型进行封装,通过封装所得模型进行风险概率预测,对预测结果取均值。
本实施所提供的所述方法还包括:
步骤5、获取待预测目标的Cell单元,并从中获取父关联点集与待预测目标的属性信息,所述Cell单元由关联类型、待预测目标、标签集合以及自然人与企业集合组成;在本实施例中,设待预测目标为A,A的父关联节点集为R,则(R,A,e,label)即为一个Cell,其中e主要包括任职关系、投资关系两种关联类型,任职关系包括法定代表人、董事长、总经理、监事等,投资关系根据股权占比大小区分强弱;label表示对应的标签集合,标签类型为是否传递成功,其中R的立案时间早于A的立案时间且两者均立案,则视为传递成功;R为自然人与企业集合。单个Cell的拓扑结构类型具体如图3所示,包括了一对一、多对一两种类型,其又可以根据R集合中父关联点的类型做进一步细分。
进一步地执行步骤6、从黑样本库内所有样本企业的Cell单元中选取满足预设条件的Cell,并从白样本库中查找得到所述属性信息;所述预设条件包括:目标透明度小于阈值、Cell中父关联点集不为空、父关联点透明度不小于阈值、父关联点集与黑样本库存在交集。
进一步地执行步骤7、基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型,模型结果如下:
Figure BDA0003396860150000081
上式中,Pi表示第i个父关联节点的风险传至待预测目标的概率,t表示第i个父关联节点所属企业类型,label表示传递成功,
Figure BDA0003396860150000082
表示预测目标与第i个父关联节点第j个属性的实际值,ei表示预测目标与第i个父关联节点的关联类型,Pt(label=1)表示在t企业类型下,label为1的先验概率,
Figure BDA0003396860150000083
表示在t企业类型下,label为1的条件下Xj属性的实际值为
Figure BDA0003396860150000084
时的先验概率。
基于贝叶斯概率模型预测出父关联节点的风险传至待预测目标的概率,对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新,通过表达式表示为:
risk_score=f(p1*risk_score1,p2*risk_score2,...,pi*risk_scorei)
上式中,risk_scorei表示第i个父关联节点的风险概率,如果第i个父关联点不存在于黑样本库中且为企业,则步骤4的计算结果不变,如果第i个父关联点存在于黑样本库中,则risk_scorei为1,否则为0,f(x1,x2,...,xn)表示待预测目标风险概率与父关联节点风险概率的映射函数。
综上所述,本发明能够在数据量不足够充分且未构建关联网络的情况下高效识别透明度较低企业的信用风险。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种企业信用风险预测方法,其特征在于,包括如下步骤:
步骤1、采集样本企业的多维度数据,构建白样本库和黑样本库;
步骤2、基于白样本库计算样本企业信息透明度,并根据透明度阈值从白样本库和黑样本库中分别筛选得到大于阈值的样本企业;
步骤3、将所述样本企业输入GBDT模型中进行训练,得到n颗决策树T并对T结果进行一位有效编码,获取所述样本企业的特征编码结果并进行组合得到风险特征;
步骤4、学习获得的风险特征,构建风险预测模型进行风险概率预测。
2.如权利要求1所述的企业信用风险预测方法,其特征在于,所述方法还包括:
步骤5、获取待预测目标的Cell单元,并从中获取父关联点集与待预测目标的属性信息,所述Cell单元由关联类型、待预测目标、标签集合以及自然人与企业集合组成;
步骤6、从黑样本库内所有样本企业的Cell单元中选取满足预设条件的Cell,并从白样本库中查找得到所述属性信息;
步骤7、基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型,预测出父关联节点的风险传至待预测目标的概率,对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新。
3.如权利要求2所述的企业信用风险预测方法,其特征在于,步骤2中计算样本企业信息透明度的公式如下:
Figure FDA0003396860140000021
上式中,transp表示透明度,N表示白样本库中特征的数量,featurei表示在白样本库中第i个特征,当不存在对应信息时,featurei设为Null,ωi表示featurei信息重要程度,当featurei为Null时,I取1,否则为0。
4.如权利要求3所述的企业信用风险预测方法,其特征在于,所述步骤3之前还包括:对白样本和黑样本进行降采样。
5.如权利要求4所述的企业信用风险预测方法,其特征在于,所述步骤4中构建风险预测模型进行风险概率预测包括:
将风险特征输入如下公式进行训练,公式表示为:
Figure FDA0003396860140000022
上式中,X_GBDT表示风险特征,y表示预测的风险概率,β表示回归系数。
6.如权利要求5所述的企业信用风险预测方法,其特征在于,所述步骤4还包括:
重复执行步骤3至4,将所得模型进行封装,通过封装所得模型进行风险概率预测,对预测结果取均值。
7.如权利要求6所述的企业信用风险预测方法,其特征在于,所述步骤5中的标签集合的标签类型为是否传递成功,当自然人与企业集合的立案时间早于待预测目标的立案时间且两者均立案,则视为传递成功。
8.如权利要求7所述的企业信用风险预测方法,其特征在于,所述步骤6中的预设条件包括:目标透明度小于阈值、Cell中父关联点集不为空、父关联点透明度不小于阈值、父关联点集与黑样本库存在交集。
9.如权利要求8所述的企业信用风险预测方法,其特征在于,所述步骤7中基于所述满足预设条件的Cell以及属性信息建立贝叶斯概率模型,模型结果如下:
Figure FDA0003396860140000031
上式中,Pi表示第i个父关联节点的风险传至待预测目标的概率,t表示第i个父关联节点所属企业类型,label表示传递成功,
Figure FDA0003396860140000032
表示预测目标与第i个父关联节点第j个属性的实际值,ei表示预测目标与第i个父关联节点的关联类型,Pt(label=1)表示在t企业类型下,label为1的先验概率,
Figure FDA0003396860140000033
表示在t企业类型下,label为1的条件下Xj属性的实际值为
Figure FDA0003396860140000034
时的先验概率。
10.如权利要求9所述的企业信用风险预测方法,其特征在于,所述步骤7中对步骤4中所有透明度小于透明度阈值的待预测目标风险概率预测结果进行更新,通过表达式表示为:
risk_score=f(p1*risk_score1,p2*risk_score2,...,pi*risk_scorei)
上式中,risk_scorei表示第i个父关联节点的风险概率,如果第i个父关联点不存在于黑样本库中且为企业,则步骤4的计算结果不变,如果第i个父关联点存在于黑样本库中,则risk_scorei为1,否则为0,f(x1,x2,...,xn)表示待预测目标风险概率与父关联节点风险概率的映射函数。
CN202111486678.1A 2021-12-07 2021-12-07 一种企业信用风险预测方法 Pending CN114298819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111486678.1A CN114298819A (zh) 2021-12-07 2021-12-07 一种企业信用风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111486678.1A CN114298819A (zh) 2021-12-07 2021-12-07 一种企业信用风险预测方法

Publications (1)

Publication Number Publication Date
CN114298819A true CN114298819A (zh) 2022-04-08

Family

ID=80966019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111486678.1A Pending CN114298819A (zh) 2021-12-07 2021-12-07 一种企业信用风险预测方法

Country Status (1)

Country Link
CN (1) CN114298819A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151867A (zh) * 2023-09-20 2023-12-01 江苏数诚信息技术有限公司 一种基于大数据的企业异常识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151867A (zh) * 2023-09-20 2023-12-01 江苏数诚信息技术有限公司 一种基于大数据的企业异常识别方法及系统
CN117151867B (zh) * 2023-09-20 2024-04-30 江苏数诚信息技术有限公司 一种基于大数据的企业异常识别方法及系统

Similar Documents

Publication Publication Date Title
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
CN111860882A (zh) 一种电网调度故障处理知识图谱的构建方法及装置
CN108629413A (zh) 神经网络模型训练、交易行为风险识别方法及装置
CN106778882B (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN111444956B (zh) 低负载信息预测方法、装置、计算机系统及可读存储介质
CN110197207B (zh) 对未归类用户群进行归类的方法及相关装置
CN112016313A (zh) 口语化要素识别方法及装置、警情分析系统
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN112115957A (zh) 数据流识别方法及装置、计算机存储介质
CN112507912A (zh) 一种识别违规图片的方法及装置
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
CN116976318A (zh) 基于深度学习和模型推理的电网倒闸操作票智能审核系统
CN116861924A (zh) 基于人工智能的项目风险预警方法及系统
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN114298819A (zh) 一种企业信用风险预测方法
CN115858906A (zh) 企业搜索方法、装置、设备、计算机存储介质及程序
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN110704803A (zh) 目标对象的评估值计算方法及装置、存储介质、电子设备
CN106611189A (zh) 标准化多维代价敏感决策树的集成分类器构建方法
CN117573876A (zh) 一种业务数据分类分级方法及装置
CN113222109A (zh) 一种基于多源异构数据聚合技术的物联网边缘算法
CN115797795B (zh) 基于强化学习的遥感影像问答式检索系统及方法
CN113177164A (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN115329380A (zh) 一种数据库表分类分级方法、装置、设备及存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination