CN111598682A - 一种针对企业的信用风险评估方法及系统 - Google Patents
一种针对企业的信用风险评估方法及系统 Download PDFInfo
- Publication number
- CN111598682A CN111598682A CN202010392904.9A CN202010392904A CN111598682A CN 111598682 A CN111598682 A CN 111598682A CN 202010392904 A CN202010392904 A CN 202010392904A CN 111598682 A CN111598682 A CN 111598682A
- Authority
- CN
- China
- Prior art keywords
- data
- credit card
- standard
- enterprise
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种针对企业的信用风险评估方法及系统,步骤S1获取企业相关维度数据集;步骤S2维度数据集包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据;步骤S3对标准的数字信息数据处理得到有效数据集;步骤S4有效数据集分为验证集和测试集,用验证集和测试集训练信用卡评分模型得到具备泛用性的信用卡评分模型;步骤S5非标准变量中数据处理得到逐月滑动波动率变化数据,标准变量中数据与逐月滑动波动率变化数据计算得到相关系数数据;步骤S6通过相关系数数据得到非标准变量对应的分数;步骤S7对步骤S6中对应的分数与步骤S4中信用卡评分模型相结合得到标准信用卡评分模型,且输出企业信用评分报告。
Description
技术领域
本发明涉及金融服务的风险评估技术领域,尤其涉及一种针对企业的信用风险评估方法及系统。
背景技术
随着社会的发展进步,企业信用与企业经济利益的关联越来越密切。因此企业的信用评评分报告越来越重要,而现有的企业信用可以由征信机构(即提供信用信息服务的企业)或在金融机构自身(银行自身的企业信用评评分报告)通过企业信用评评分报告手段得出,按照合法手段收集企业的信用信息,对信用信息进行加工处理,形成企业的信用报告等征信产品。但是现有的评估方式主要使用的是Zeta信用模型、KMV模型、层次分析法(AHP)或信用评分卡模型等,其中信用评分卡模型相对成熟,尤其在信用风险评估以及金融风险控制领域运用最多。
信用评分卡模型可以根据多维度传统数据特征对待估企业的信用进行评估,涉及数据一般分为五类,即:
(1)信用的环境要素——这是影响企业信用状况的外部条件,包括法律环境、市场环境、政策环境和经济环境等内容;
(2)信用的基础要素——这是影响企业信用状况的内部条件,包括企业素质、规模实力、管理机制等信用评评分报告内容;
(3)信用的动力要素——企业的经营能力、成长能力、发展前景等信用评评分报告内容,体现了企业信用的动力,是推动企业不断前进,改善信用状况的作用力;
(4)信用的表现要素——偿债能力和履约情况是企业信用状况的表现,也是信用评评分报告的主要内容。企业信用状况的好坏,最后要从偿债能力和履约情况表现出来;
(5)信用的保证要素——企业信用状况的保证是企业的经济效益或盈利能力,这是企业信用状况的根本。企业信用状况的表现是偿债能力和履约能力,而保证偿债能力和履约能力的关键是企业的经济效益或盈利能力,针对中小企业一般标的为企业法人。
总之在信用卡评分模型中,这些特征的值域范围与申请企业未来信用表现之间存在一定关系,然后给特征的值域分配适当的分数权重,分配的分数权重反映相互关系。分数权重越大,说明该属性表示的信用表现越好,且一组申请企业的得分是其特征的值对应的权重得分的简单求和。然而随着社会变化,以上传统数据维度对企业信用状况产生影响发生不同,尤其针对中小企业而言财务状况难以清算、人员变动不规律和避税频频,传统数据难以支撑企业信用体系完善化并会为企业造成负担(尽职调查费用/法律咨询费用等)。因此现有对企业信用度的评估是不够准确和合理,有必要作出改进。
发明内容
针对现有技术的缺陷,本发明提供了一种针对企业的信用风险评估方法,通过采用建立信用评分模型,有利于解决了现有企业中财务状况难以清算、人员变动不规律和避税频频等信息不全面和不客观的情况下,无法对企业的信用进行准确评估的问题,从而大大提高评估企业尤其是中小企业信用的准确度。
为了实现上述目的,本发明所采取的技术方案是:
一种针对企业的信用风险评估方法,包括如下步骤:
步骤S1、获取企业相关数据:根据企业的个性化社会基础信息获取企业相关的维度数据集。
步骤S2、维度数据集包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据,具体说,文字信息数据需要转换为初步数字信息数据,对于数字信息数据和初步数字信息数据安照数据规范进行重新整理生成标准的数字信息数据。
步骤S3、数据预处理为包括对上述步骤S2中标准的数字信息数据的异常值和缺失值进行对应的剔除和补充得到有效数据集。
步骤S4、上述步骤S3中有效数据集划分为验证集和测试集,通过验证集和测试集来训练信用卡评分模型,得到具备泛用性的信用卡评分模型。
步骤S5、针对步骤S2非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且调取步骤S2标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据。其中,通过非标准变量中五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息等等做逐月滑动动态分析分别得到五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息等等的逐月滑动波动率变化数据,且调取标准变量中营业收入等企业相关数字信息与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据。
步骤S6、针对步骤S5中通过相关系数数据得到非标准变量对应的分数PScore。其中,具体的是相关系数数据通过步骤S5中sum[corri,j/(N-n+1)]得到平均相关系数,将步骤S5中最末组相关系数、平均相关系数进行比值,从而得到非标准变量对应的分数PScore。
步骤S7、针对步骤S6中对应的分数PScore与步骤S4中泛用性的信用卡评分模型相结合得到标准信用卡评分模型,最终通过标准信用卡评分模型能输出企业信用评分报告。
优选,所述步骤S1企业的个性化社会基础信息包括:企业公积金信息、社会保险信息、企业基础水电信息、企业公用商业保险信息、企业人员变动信息与结构构成信息,对于结构构成信息是指企业基础维度构成相关信息。
优选,步骤S1中所述标准变量包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入,所述非标准变量包括五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
优选,步骤S2中所述文字信息数据包括企业所处行业、所处区域和企业性质,所述数字信息数据包括注册资本、经营年限、企业性质、净利润、营业收入、五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
优选,所述步骤S3中数字信息数据的异常值剔除,设定实验数据总体的数学期望值μ,总体标准差为σ,对于数字信息数据大于μ+3σ或小于μ—3σ的数据为异常值,予以剔除。
优选,所述步骤S3中缺失值进行补充采用的是随机森林法通过变量相关关系进行补全缺失数据。
优选,所述步骤S4中上述步骤S3中有效数据集划分为验证集和测试集,通过验证集和测试集来训练信用卡评分模型,得到具备泛用性的信用卡评分模型,其中的步骤为:
第一步,通过验证集对信用卡评分模型进行验证,若验证集全部通过,此时将信用卡评分模型通过测试集进行测试;若验证集全部不通过,此时进行调整信用卡评分模型直到验证集验证通过,此时将调整后的信用卡评分模型通过测试集进行测试(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止);若验证集含有局部不通过,则进行调整信用卡评分模型,从而使得若验证集全部(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止),验证集可进行多次循环验证,可以用于调整信用卡评分模型的超参数和用于对信用卡评分模型的能力进行初步评估。
如验证集有三组(每组有多个数据组成)数据,当若验证集三组数据全部通过,此时将信用卡评分模型通过测试集进行测试,则说明此时的信用卡评分模型与若验证集均相一致的,说明信用卡评分模型可用来下一步的测试集进行使用;当若验证集三组数据全部不通过,此时需要重新调整信用卡评分模型,然后进行验证集重新输入验证,还是不通过,重新调整信用卡评分模型,如此循环,直到若验证集三组数据全部通过,调整后的信用卡评分模型可用来下一步的测试集进行使用;当若验证集一组数据通过,两组数据不通过(或两组数据通过,一组数据不通过),此时需要重新调整信用卡评分模型,然后进行验证集重新输入验证,还是不通过,重新调整信用卡评分模型,如此循环,直到若验证集三组数据全部通过,调整后的信用卡评分模型可用来下一步的测试集进行使用。
第二步,通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,用所述测试集通过分别计算ROC和AUC值进行检验,达标,则通过后的信用卡评分模型构建为信用评分模型;如不满足,则再进行调整通过后的信用卡评分模型直到满足为止,用所述测试集通过分别计算ROC和AUC值进行检验,达标,此时最终满足后的信用卡评分模型构建为信用评分模型。测试集只经过一次测试,有利于剔除非数字性信息,构成信用评分模型。
当满足验证集后的信用卡评分模型,此时需要通过测试集对信用卡评分模型进行验证,当满足时,用所述测试集通过分别计算ROC和AUC值进行检验,达标则通过后的信用卡评分模型构建为信用评分模型;当不满足时则再进行调整通过后的信用卡评分模型直到满足为止,或者进入到验证集进行重新走一遍,直到满足为止,用所述测试集通过分别计算ROC和AUC值进行检验。测试集只经过一次测试,满足条件的信用卡评分模型构成信用评分模型。
优选,所述步骤S4中有效数据集预先依次经过离散化处理、证据权重分析WOE和筛选得到符合预测能力的标准数据,其具体的步骤为:
①所述可有效数据经过离散化处理得到分散化分段数据;
②所述分散化分段数据通过证据权重分析WOE,具体为计算各个档位的WOE值并观察WOE值随指标变化的趋势,其中WOE的数学定义是:WOEi=log(Bi/Gi)/(Bj/Gj),Bi为第i箱中的不良企业数、Gi为第i箱中的优质企业数、Bj为所有不良企业数、Gj为所有优质企业数,WOE转换可将Logistic回归模型转变为标准评分卡格式;
③所述可有效数据通过计算对应的信息价值IV,其公式为:IV=sum((Bi/Bj-Gi/Gj)*WOEi));
④通过对信息价值IV值判断变量预测能力的标准是:
<0.02:unpredictive
0.02to 0.1:weak
0.1to 0.3:medium
0.3to 0.5:strong
>0.5:suspicious
将结果输出IV值低于0.02的数据予以删除,得到价值预测能力数据;
⑤通过所述Logistic回归模型对价值预测能力数据进行显著性检验,检验通过后,用所述测试集通过分别计算ROC和AUC值进行检验,将Logistic模型转化成为标准评分卡的形式,建立评分标准表,评分标准表涉及公式如下:Score=A-B*log(odds),其中A,B均为常数,是指根据logistic基本原理可得:令单变量中信用不良的概率表示为p,信用良好的概率则为(1-p),有:p=1/(1+e-n),其中e为自然数,n为指数代号,即几率函数取对数log[p/(1-p)]=w,发生概率Odds=p/(1-p),即log(odds)=w,w=θTx,T指数代号,w,θ和x均为代数。
优选,步骤S5中针对步骤S2非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且调取步骤S2标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据,具体的步骤为:
①通过对企业的公积金缴纳明细、社会保险缴纳明细、企业水电使用情况缴纳明细和企业员工变动采集得到对应时间段的企业的公积金缴纳明细数据、社会保险缴纳明细数据、企业水电使用情况缴纳明细数据和企业员工变动数据,且所述时间段按月份计数,通过做逐月滑动动态分析(公式V=Ri/Ri-1-1,V为波动率、Ri为第i个月企业的公积金缴纳明细数据或社会保险缴纳明细数据或企业水电使用情况缴纳明细数据或企业员工变动数据的具体值、Ri-1为第i-1个月企业的公积金缴纳明细数据或社会保险缴纳明细数据或企业水电使用情况缴纳明细数据或企业员工变动数据的具体值)得到逐月滑动动态波动率变化数据;
②将上述①中得到的企业的逐月滑动动态波动率变化数据与企业的营业收入数据进行定距分组为n组,设定取得总月份数为N,每组动态间隔1月,则求取相关系数为N-(n-1)组,且则依据logistic基本原理得到相关系数数据,通过sum[corri,j/(N-n+1)]可得平均相关系数,计算相关系数并依据logistic基本原理得:令最末组相关系数与平均相关系数比值为-z,则有:log(corr)=-z即log(corr)=corrf/{sum[corri,j/(N-n+1)]},其中f为末组,corrf为最末组相关系数。
优选,所述步骤S6针对步骤S5中对应的分数PScore与步骤S4中信用评分模型相结合得到企业信用评分报告,具体为:
①通过相关系数数据得到企业相关的维度数据集中对应的分数PScore;
②通过具体的步骤S4中信用评分模型的Score总分公式为:Score=A–B{θ0+θ1x1+…+θnxn}+PScore,其中A和B为常数,θ为系数,X为项数,得到企业相关的数据分数,从而的企业信用评分报告。
本发明的有益效果:本发明主要是根据企业的个性化社会基础信息获取企业相关的维度数据集,包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入的标准变量与五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息的非标准变量,而这些数据通过时间段采集下来,能够全面揭示企业的发展状况,综合反映企业的整体状况;维度数据集中划分文字信息数据和数字信息数据,然后将数字信息数据进行异常值和缺失值进行对应的剔除和补充得到有效数据集,有利于得到更加真实数据,从而减少后期的误差;非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据,然后通过相关系数数据得到非标准变量对应的分数PScore,最后对应的分数PScore与步骤S4中信用评分模型相结合得到企业信用评分报告,从而得到更加全面和准确的信用评评分报告。
针对现有技术的缺陷,本发明提供了一种针对企业的信用风险评估系统,其设计合理,从而能够得到更加全面和准确的评估,更加全面的了解企业,也更加能够客观的分析数据,从而更加有利于对企业尤其是中小企业的信用评评分报告。
一种针对企业的信用风险评估系统,至少包括收集单元、归纳划分单元、预处理单元、存储单元、计算处理单元和输出单元,其中收集单元,是指根据企业的个性化社会基础信息获取企业相关的维度数据集,包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入的标准变量与五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息的非标准变量;
归纳划分单元,用于将维度数据集中标准变量与非标准变量包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据;
存储单元,用于将企业的个性化社会基础信息和数字信息数据保存云端数据库中,可进行调取;
预处理单元,用于将标准的数字信息数据的异常值和缺失值进行对应的剔除和补充得到有效数据集,有效数据集划分为测试集和验证集;
模型测试集模块,用于将经过探索性数据分析检验数据直到达标为止,如不达标,则重新进入到数据预处理达到标为止,通过测试集与信用卡评分模型建模得到信用评分模型;
模型验证集模块,通过验证集对信用卡评分模型进行验证,若验证集全部通过,此时将信用卡评分模型通过测试集进行测试;若验证集全部不通过,此时进行调整信用卡评分模型直到验证集验证通过(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止),此时将调整后的信用卡评分模型通过测试集进行测试;若验证集含有局部不通过,则进行调整信用卡评分模型,从而使得若验证集全部(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止);
模型测试集模块,通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,则通过后的信用卡评分模型构建为信用评分模型;如不满足,则再进行调整通过后的信用卡评分模型直到满足为止,此时最终满足后得到具备泛用性的信用卡评分模型;
计算处理单元,是指非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据,通过相关系数数据得到非标准变量对应的分数PScore;
输出单元、用于将对应的分数PScore与泛用性的信用卡评分模型相结合得到标准信用卡评分模型,最终通过标准信用卡评分模型能输出企业信用评分报告。
本发明的有益效果:
本发明中收集单元,是指根据企业的个性化社会基础信息获取企业相关的维度数据集,包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入的标准变量与五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息的非标准变量,此种收集单元能够采集到企业尤其中小企业都能够得到的企业数据,有利于方便得到数据,也更加能够提高评估企业信用准确度;
存储单元用于将企业的个性化社会基础信息和数字信息数据保存云端数据库中,可进行调取,方便可随时随地存储和调取;计算处理单元和输出单元,有利于进行处理得到企业信用评分报告,使得信用评分报告更加全面和客观,从而更加有利于适合企业尤其是中小企业,符合现代企业的需求。
附图说明
图1为本发明一种针对企业的信用风险评估方法的流程示意图;
图2为本发明一种针对企业的信用风险评估系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,一种针对企业的信用风险评估方法,包括如下步骤:
步骤S1、获取企业相关数据:根据企业的个性化社会基础信息获取企业相关的维度数据集,其中根据企业所属行业,维度数据集将存在差异性,维度数据集也就是包括标准变量和非标准变量。标准变量包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入,还包含有基础工商信息、企业规模、盈利能力、杠杆率和现金流等,使得标准变量适用于银行风险评估体系或标普信用评级体系,非标准变量包括五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息,非标准变量是用于完善评估结果的特殊维度数据集,其中非标准变量中的五险一金缴纳明细(企业公积金/社保缴纳明细)作为较为真实的企业经营状况相关性变量,其逐月动态变化能够反映信用评级中受评企业的经营管理素质与经营能力等方面,且结合企业人员变动明细和企业水电费用缴纳明细则能够成为企业人员结构变化与远期经营能力的佐证,全面揭示企业的发展状况,能够综合反映企业的整体状况,其非标准变量的详细列表如下:
其中,企业的个性化社会基础信息包括:企业公积金信息、社会保险信息、企业基础水电信息、企业公用商业保险信息、企业人员变动信息与结构构成信息,对于结构构成信息是指企业基础维度构成相关信息。
步骤S2、维度数据集包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据,具体说,文字信息数据需要转换为初步数字信息数据,文字信息数据可通过行业映射表或地区映射表等方式转换为初步数字信息数据,对于数字信息数据和初步数字信息数据安照数据规范进行重新整理生成标准的数字信息数据,例如对于数字信息数据中公积金缴纳信息包含累计信息逐年信息、逐月信息和个人信息等需要分类和统一整理(规范)生成标准的数字信息数据,文字信息数据包括企业所处行业、所处区域和企业性质,数字信息数据包括注册资本、经营年限、企业性质、净利润、营业收入、五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
步骤S3、数据预处理为包括对上述步骤S2中标准的数字信息数据的异常值和缺失值进行对应的剔除和补充得到有效数据集。
其中,数字信息数据的异常值剔除,设定实验数据总体的数学期望值μ,总体标准差为σ,对于数字信息数据大于μ+3σ或小于μ—3σ的数据为异常值,予以剔除。对于缺失值进行补充采用的是随机森林法通过变量相关关系进行补全缺失数据。
其中,有效数据集划分为测试集和验证集,通过将测试集和验证集经过探索性数据分析检验数据直到达标为止,其中探索性数据分析方法有直方图、散点图和箱线图等,如不达标,则重新进入到步骤S3中进行数据预处理达到标为止。有效数据集依次经过离散化处理、证据权重分析WOE和筛选得到符合预测能力的标准数据,其具体的步骤为:
①所述可有效数据经过离散化处理得到分散化分段数据;
②所述分散化分段数据通过证据权重分析WOE,具体为计算各个档位的WOE值并观察WOE值随指标变化的趋势,其中WOE的数学定义是:WOEi=log(Bi/Gi)/(Bj/Gj),Bi为第i箱中的不良企业数、Gi为第i箱中的优质企业数、Bj为所有不良企业数、Gj为所有优质企业数,WOE转换可将Logistic回归模型转变为标准评分卡格式;
③所述可有效数据通过计算对应的信息价值IV,其公式为:IV=sum((Bi/Bj-Gi/Gj)*WOEi));
④通过对信息价值IV值判断变量预测能力的标准是:
<0.02:unpredictive
0.02to 0.1:weak
0.1to 0.3:medium
0.3to 0.5:strong
>0.5:suspicious
将结果输出IV值低于0.02的数据予以删除,得到价值预测能力数据;
⑤通过所述Logistic回归模型对价值预测能力数据进行显著性检验,检验通过后,用所述测试集通过分别计算ROC和AUC值进行检验,将Logistic模型转化成为标准评分卡的形式,建立评分标准表,评分标准表涉及公式如下:Score=A-B*log(odds),其中A,B均为常数,是指根据logistic基本原理可得:令单变量中信用不良的概率表示为p,信用良好的概率则为(1-p),有:p=1/(1+e-n),其中e为自然数,n为指数代号,即几率函数取对数log[p/(1-p)]=w,发生概率Odds=p/(1-p),即log(odds)=w,w=θTx,T指数代号,w,θ和x均为代数。
步骤S4、上述步骤S3中有效数据集划分为验证集和测试集,通过验证集和测试集来训练信用卡评分模型,得到具备泛用性的信用卡评分模型(由于经过验证集和测试集对信用卡评分模型能力进行初步评估,从而使信用评分模型具备泛用性)。其中的步骤为:
第一步,通过验证集对信用卡评分模型进行验证,若验证集全部通过,此时将信用卡评分模型通过测试集进行测试;若验证集全部不通过,此时进行调整信用卡评分模型直到验证集验证通过(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止),此时将调整后的信用卡评分模型通过测试集进行测试;若验证集含有局部不通过,则进行调整信用卡评分模型,从而使得若验证集全部(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止);
第二步,通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,用所述测试集通过分别计算ROC(统计学上算法)和AUC值(统计学上算法)进行检验,则通过后的信用卡评分模型构建为信用评分模型;如不满足,则再进行调整通过后的信用卡评分模型直到满足为止,用所述测试集通过分别计算ROC和AUC值进行检验,此时最终满足后的信用卡评分模型构建为信用评分模型。测试集只经过一次测试,有利于剔除非数字性信息,构成信用评分模型。
步骤S5、针对步骤S2非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且调取步骤S2标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据。其中,具体的步骤为:
①通过对企业的公积金缴纳明细、社会保险缴纳明细、企业水电使用情况缴纳明细和企业员工变动采集得到对应时间段的企业的公积金缴纳明细数据、社会保险缴纳明细数据、企业水电使用情况缴纳明细数据和企业员工变动数据,且所述时间段按月份计数,通过做逐月滑动动态分析(公式V=Ri/Ri-1-1,V为波动率、Ri为第i个月企业的公积金缴纳明细数据或社会保险缴纳明细数据或企业水电使用情况缴纳明细数据或企业员工变动数据的具体值、Ri-1为第i-1个月企业的公积金缴纳明细数据或社会保险缴纳明细数据或企业水电使用情况缴纳明细数据或企业员工变动数据的具体值)得到逐月滑动动态波动率变化数据;
②将上述①中得到的企业的逐月滑动动态波动率变化数据与企业的营业收入数据进行定距分组为n组,设定取得总月份数为N,每组动态间隔1月,则求取相关系数为N-(n-1)组,且则依据logistic基本原理得到相关系数数据,通过sum[corri,j/(N-n+1)]可得平均相关系数,计算相关系数并依据logistic基本原理得:令最末组相关系数与平均相关系数比值为-z,则有:log(corr)=-z即log(corr)=corrf/{sum[corri,j/(N-n+1)]},其中f为末组,corrf为最末组相关系数。
其中,逐月动态变化能够反映信用评级中受评企业的经营管理素质与经营能力等方面,结合企业人员变动明细和企业水电费用缴纳明细则能够成为企业人员结构变化与远期经营能力的佐证,全面揭示企业的发展状况,综合反映企业的整体状况。
步骤S6、针对步骤S5中通过相关系数数据得到非标准变量对应的分数PScore。
其中,具体的是相关系数数据通过步骤S5中sum[corri,j/(N-n+1)]得到平均相关系数,将步骤S5中最末组相关系数、平均相关系数进行比值,从而得到非标准变量对应的分数PScore。举个例子,平均相关系数为80,最末组为20,z为1/4,代入回logistic计算有1/(1+e的-z次方)=0.625,此时非标准变量对应的分数PScore为0.625。
步骤S7、针对步骤S6中对应的分数PScore与步骤S4中泛用性的信用卡评分模型相结合得到标准信用卡评分模型,最终通过标准信用卡评分模型能输出企业信用评分报告,具体为:
①通过相关系数数据得到企业相关的维度数据集中对应的分数PScore;
②通过具体的步骤S4中信用评分模型的Score总分公式为:Score=A–B{θ0+θ1x1+…+θnxn}+PScore,其中A和B为常数,θ为系数,X为项数,得到企业相关的数据分数,从而的企业信用评分报告。
如图2所示,一种针对企业的信用风险评估系统,至少包括收集单元、归纳划分单元、预处理单元、存储单元、计算处理单元和输出单元,其中:
收集单元,是指根据企业的个性化社会基础信息获取企业相关的维度数据集。企业的个性化社会基础信息包括:企业公积金信息、社会保险信息、企业基础水电信息、企业公用商业保险信息、企业人员变动信息与结构构成信息,对于结构构成信息是指企业基础维度构成相关信息。标准变量包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入,非标准变量包括五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
其中,对于收集单元是一种计算机,通过计算机采取企业的企业的个性化社会基础信息,从而获取得到企业相关的维度数据集。其便于获取到企业相关的维度数据集,更加方便人们的使用与操作。
归纳划分单元,用于将维度数据集中标准变量与非标准变量包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据,文字信息数据包括企业所处行业、所处区域和企业性质,数字信息数据包括注册资本、经营年限、企业性质、净利润、营业收入、五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
存储单元,用于将企业的个性化社会基础信息和数字信息数据保存云端数据库中,可进行调取,有利于方便进行数据的调取。
预处理单元,用于将标准的数字信息数据的异常值和缺失值进行对应的剔除和补充得到有效数据集,有效数据集划分为测试集和验证集。
模型验证集模块,通过验证集对信用卡评分模型进行验证,若验证集全部通过,此时将信用卡评分模型通过测试集进行测试;若验证集全部不通过,此时进行调整信用卡评分模型直到验证集验证通过(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止),此时将调整后的信用卡评分模型通过测试集进行测试;若验证集含有局部不通过,则进行调整信用卡评分模型,从而使得若验证集全部(手动调整信用卡评分模型中参数,从而使得信用卡评分模型进行调整,直到验证集全部为止)。
模型测试集模块,通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,用所述测试集通过分别计算ROC和AUC值进行检验,则通过后的信用卡评分模型构建为信用评分模型;如不满足,用所述测试集通过分别计算ROC和AUC值进行检验,则再进行调整通过后的信用卡评分模型直到满足为止,此时最终满足后得到具备泛用性的信用卡评分模型。
计算处理单元,通过数字信息数据与企业营业收入做相关逐月滑动动态分析得到相关逐月滑动动态波动率变化数据,且将数字信息数据与相关逐月滑动动态波动率变化数据进行相关系数计算得到相对应的相关系数数据,通过相关系数数据得到企业相关的维度数据集中对应的分数PScore。
输出单元、用于将对应的分数PScore与泛用性的信用卡评分模型相结合得到标准信用卡评分模型,最终通过标准信用卡评分模型能输出企业信用评分报告。
本发明尤其针对中小企业而言,财务状况难以清算、人员变动不规律、避税频频,传统数据难以支撑企业信用体系完善化并会为企业造成负担(尽职调查费用/法律咨询费用等),故发明一种更完善的对企业信用进行评估的方法。
在本发明中,通过维度数据集分为标准变量和非标准变量,标准变量包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入,非标准变量包括五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息,其中五险一金缴纳明细(企业公积金/社保缴纳明细)与水电缴纳明细可纳入企业信用基本要素,公用商业保险(企业的个性化社会基础信息中企业公用商业保险信息和)可纳入企业信用保证要素,人员变动明细和结构构成(企业的个性化社会基础信息中结构构成信息,对于结构构成信息是指企业基础维度构成相关信息,建立成为指数计算)可纳入企业信用动力要素。通过新增数字数据的协同,大大增强了原始因子有效性。其对可有效数据经过离散化处理(分箱处理)、证据权重分析WOE、得到分散化分段数据和计算对应的信息价值IV(Infomation Value)判断变量强度,从而能够使得组件了信用评分模型,信用评分模型添加了社会公信力数据,使得得到准确度更高的企业信用评分报告,尤其是对中小企业而言。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明专利的保护范围之内。
Claims (10)
1.一种针对企业的信用风险评估方法,其特征在于:包括如下步骤:
步骤S1、获取企业相关数据:根据企业相关的结构基础信息获取维度数据集,其中包括标准变量和非标准变量;
步骤S2、维度数据集包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据;
步骤S3、数据预处理为包括对上述步骤S2中标准的数字信息数据的异常值和缺失值进行对应的剔除和补充得到有效数据集;
步骤S4、上述步骤S3中有效数据集划分为验证集和测试集,通过验证集和测试集来训练信用卡评分模型,得到具备泛用性的信用卡评分模型;
步骤S5、针对步骤S2非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且调取步骤S2标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据;
步骤S6、针对步骤S5中通过相关系数数据得到非标准变量对应的分数PScore;
步骤S7、针对步骤S6中对应的分数PScore与步骤S4中泛用性的信用卡评分模型相结合得到标准信用卡评分模型,最终通过标准信用卡评分模型能输出企业信用评分报告。
2.如权利要求1所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S1企业的个性化社会基础信息包括:企业公积金信息、社会保险信息、企业基础水电信息、企业公用商业保险信息、企业人员变动信息与结构构成信息。
3.如权利要求1所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S1标准变量包括企业所处行业、所处区域、注册资本、经营年限、企业性质、净利润和营业收入,非标准变量包括五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
4.如权利要求1所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S2文字信息数据包括企业所处行业、所处区域和企业性质,所述数字信息数据包括注册资本、经营年限、企业性质、净利润、营业收入、五险一金缴纳明细、公用商业保险缴纳明细、水电缴纳明细和人员变动明细与结构构成信息。
5.如权利要求1所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S3中数字信息数据的异常值剔除,设定实验数据总体的数学期望值μ,总体标准差为σ,对于数字信息数据大于μ+3σ或小于μ—3σ的数据为异常值,予以剔除。
6.如权利要求1所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S3中缺失值进行补充采用的是随机森林法通过变量相关关系进行补全缺失数据。
7.如权利要求1所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S4中上述步骤S3中有效数据集划分为验证集和测试集,通过验证集和测试集来训练信用卡评分模型,得到具备泛用性的信用卡评分模型,其中的步骤为:
第一步,通过验证集对信用卡评分模型进行验证,若验证集全部通过,此时将信用卡评分模型通过测试集进行测试;若验证集全部不通过,此时进行调整信用卡评分模型直到验证集验证通过,此时将调整后的信用卡评分模型通过测试集进行测试;若验证集含有局部不通过,则进行调整信用卡评分模型,从而使得若验证集全部;
第二步,通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,则通过后的信用卡评分模型构建为信用评分模型;如不满足,则再进行调整通过后的信用卡评分模型直到满足为止,此时最终满足后的信用卡评分模型构建为信用评分模型。
8.如权利要求7所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S4中有效数据集预先依次经过离散化处理、证据权重分析WOE和筛选得到符合预测能力的标准数据,其具体的步骤为:
①所述可有效数据经过离散化处理得到分散化分段数据;
②所述分散化分段数据通过证据权重分析WOE,具体为计算各个档位的WOE值并观察WOE值随指标变化的趋势,其中WOE的数学定义是:WOEi=log(Bi/Gi)/(Bj/Gj),Bi为第i箱中的不良企业数、Gi为第i箱中的优质企业数、Bj为所有不良企业数、Gj为所有优质企业数,WOE转换可将Logistic回归模型转变为标准评分卡格式;
③所述可有效数据通过计算对应的信息价值IV,其公式为:IV=sum((Bi/Bj-Gi/Gj)*WOEi));
④通过对信息价值IV值判断变量预测能力的标准是:
<0.02:unpredictive
0.02to 0.1:weak
0.1to 0.3:medium
0.3to 0.5:strong
>0.5:suspicious
将结果输出IV值低于0.02的数据予以删除,得到价值预测能力数据;⑤通过所述Logistic回归模型对价值预测能力数据进行显著性检验,检验通过后,用所述测试集通过分别计算ROC和AUC值进行检验,将Logistic模型转化成为标准评分卡的形式,建立评分标准表,评分标准表涉及公式如下:Score=A-B*log(odds),其中A,B均为常数,是指根据logistic基本原理可得:令单变量中信用不良的概率表示为p,信用良好的概率则为(1-p),有:p=1/(1+e-n),其中e为自然数,n为指数代号,即几率函数取对数log[p/(1-p)]=w,发生概率Odds=p/(1-p),即log(odds)=w,w=θTx,T指数代号,w,θ和x均为代数。
9.如权利要求1或7所述一种针对企业的信用风险评估方法,其特征在于:所述步骤S4中通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,此时通过分别计算ROC和AUC值进行检验,则通过后的信用卡评分模型构建为信用评分模型;如不满足,则再进行调整通过后的信用卡评分模型直到满足为止,此时通过分别计算ROC和AUC值进行检验,则最终满足后的信用卡评分模型构建为信用评分模型。
10.一种针对企业的信用风险评估系统,其特征在于:至少包括收集单元、归纳划分单元、预处理单元、存储单元、模型验证集模块、模型测试集模块、计算处理单元和输出单元,其中
收集单元,是指根据企业的个性化社会基础信息获取企业相关的维度数据集;
存储单元,用于将企业的个性化社会基础信息和数字信息数据保存云端数据库中,可进行调取;
归纳划分单元,用于将维度数据集中标准变量与非标准变量包括文字信息数据和数字信息数据,对文字信息数据和数字信息数据进行转换成标准的数字信息数据;
预处理单元,用于将标准的数字信息数据的异常值和缺失值进行对应的剔除和补充得到有效数据集,有效数据集划分为测试集和验证集;
模型验证集模块,通过验证集对信用卡评分模型进行验证,若验证集全部通过,此时将信用卡评分模型通过测试集进行测试;若验证集全部不通过,此时进行调整信用卡评分模型直到验证集验证通过,此时将调整后的信用卡评分模型通过测试集进行测试;若验证集含有局部不通过,则进行调整信用卡评分模型,从而使得若验证集全部;
模型测试集模块,通过测试集进行对验证集全部达标后的信用卡评分模型进行测试,如满足,则通过后的信用卡评分模型构建为信用评分模型;如不满足,则再进行调整通过后的信用卡评分模型直到满足为止,此时最终满足后的得到具备泛用性的信用卡评分模型;
计算处理单元,是指非标准变量中数字信息数据做逐月滑动动态分析得到逐月滑动波动率变化数据,且标准变量中数字信息数据与逐月滑动波动率变化数据进行相关系数计算得到相对应的相关系数数据,通过相关系数数据得到非标准变量对应的分数PScore;
输出单元、用于将对应的分数PScore与泛用性的信用卡评分模型相结合得到标准信用卡评分模型,最终通过标准信用卡评分模型能输出企业信用评分报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392904.9A CN111598682A (zh) | 2020-05-11 | 2020-05-11 | 一种针对企业的信用风险评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392904.9A CN111598682A (zh) | 2020-05-11 | 2020-05-11 | 一种针对企业的信用风险评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111598682A true CN111598682A (zh) | 2020-08-28 |
Family
ID=72183615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010392904.9A Pending CN111598682A (zh) | 2020-05-11 | 2020-05-11 | 一种针对企业的信用风险评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598682A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112051992A (zh) * | 2020-09-02 | 2020-12-08 | 天元大数据信用管理有限公司 | 基于征信报告生成的数据处理方法及系统 |
CN112364182A (zh) * | 2020-12-09 | 2021-02-12 | 交通银行股份有限公司 | 基于图特征的企业风险传导预测方法、设备及存储介质 |
CN112633709A (zh) * | 2020-12-26 | 2021-04-09 | 中国农业银行股份有限公司 | 一种企业征信评估方法和装置 |
CN112669142A (zh) * | 2021-01-05 | 2021-04-16 | 深圳前海微众银行股份有限公司 | 高维行为数据的建模方法、装置、设备及可读存储介质 |
CN112686749A (zh) * | 2020-12-31 | 2021-04-20 | 上海竞动科技有限公司 | 一种基于逻辑回归技术的信用风险评估方法及装置 |
CN115660774A (zh) * | 2022-10-14 | 2023-01-31 | 国网山东省电力公司物资公司 | 一种基于区块链的物资供应链体系信用评价方法 |
-
2020
- 2020-05-11 CN CN202010392904.9A patent/CN111598682A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112051992A (zh) * | 2020-09-02 | 2020-12-08 | 天元大数据信用管理有限公司 | 基于征信报告生成的数据处理方法及系统 |
CN112364182A (zh) * | 2020-12-09 | 2021-02-12 | 交通银行股份有限公司 | 基于图特征的企业风险传导预测方法、设备及存储介质 |
CN112633709A (zh) * | 2020-12-26 | 2021-04-09 | 中国农业银行股份有限公司 | 一种企业征信评估方法和装置 |
CN112686749A (zh) * | 2020-12-31 | 2021-04-20 | 上海竞动科技有限公司 | 一种基于逻辑回归技术的信用风险评估方法及装置 |
CN112669142A (zh) * | 2021-01-05 | 2021-04-16 | 深圳前海微众银行股份有限公司 | 高维行为数据的建模方法、装置、设备及可读存储介质 |
CN112669142B (zh) * | 2021-01-05 | 2024-02-20 | 深圳前海微众银行股份有限公司 | 高维行为数据的建模方法、装置、设备及可读存储介质 |
CN115660774A (zh) * | 2022-10-14 | 2023-01-31 | 国网山东省电力公司物资公司 | 一种基于区块链的物资供应链体系信用评价方法 |
CN115660774B (zh) * | 2022-10-14 | 2023-09-19 | 国网山东省电力公司物资公司 | 一种基于区块链的物资供应链体系信用评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rajgopal et al. | Measuring audit quality | |
CN111598682A (zh) | 一种针对企业的信用风险评估方法及系统 | |
Bertomeu et al. | Using machine learning to detect misstatements | |
Lai et al. | Internal control quality and investment efficiency | |
Wang | A comprehensive survey of data mining-based accounting-fraud detection research | |
KR102032924B1 (ko) | 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템 | |
CN111476660B (zh) | 一种基于数据分析的智能风控系统及方法 | |
US20160225076A1 (en) | System and method for building and validating a credit scoring function | |
Nugrahanti | Analyzing the evolution of auditing and financial insurance: tracking developments, identifying research frontiers, and charting the future of accountability and risk management | |
Johnson et al. | Exploratory research applying Benford's law to selected balances in the financial statements of state governments | |
CN112613977A (zh) | 一种基于政务数据的个人信用贷款准入授信方法及系统 | |
Buslepp et al. | Misclassification of audit-related fees as a measure of internal control quality | |
Chircop et al. | CEO risk taking equity incentives and workplace misconduct | |
CN113763154A (zh) | 一种基于模糊灰色评价的钢贸供应链金融风险评估方法 | |
CN112037006A (zh) | 小微企业的信用风险识别方法及装置 | |
Derks et al. | The Bayesian approach to audit evidence: Quantifying statistical evidence using the Bayes factor | |
Xu et al. | Peer effect in the initial recognition of goodwill | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
Kubic | Time to get it right: An examination of post-acquisition fair value adjustments | |
CN117455681A (zh) | 业务风险预测方法和装置 | |
Carson et al. | Assessing accuracy and reliability: a note based on approaches used in national accounts and balance of payments statistics | |
Lambert et al. | Unintended Consequences of Accelerated Filings: Do Changes in Audit Delay Lead to Changes in Earnings Quality? | |
Şen et al. | Detecting falsified financial statements using data mining: empirical research on finance sector in Turkey | |
CN114663102A (zh) | 基于半监督模型预测发债主体违约的方法、设备及存储介质 | |
Shivaram et al. | Measuring audit quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |