CN117635304A - 一种中小微企业信用评级系统构建方法 - Google Patents
一种中小微企业信用评级系统构建方法 Download PDFInfo
- Publication number
- CN117635304A CN117635304A CN202311572349.8A CN202311572349A CN117635304A CN 117635304 A CN117635304 A CN 117635304A CN 202311572349 A CN202311572349 A CN 202311572349A CN 117635304 A CN117635304 A CN 117635304A
- Authority
- CN
- China
- Prior art keywords
- credit
- index
- data
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title description 3
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000012795 verification Methods 0.000 claims abstract description 18
- 238000013210 evaluation model Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000005058 diapause Effects 0.000 claims description 6
- 230000005611 electricity Effects 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000003245 coal Substances 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007306 turnover Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种中小微企业信用评级系统构建方法,包括建立信用评价指标集、将指标数据集进行标准化处理,并划分训练集、测试集和验证集、采用wRACOG方法对扩充样本数量做均衡化处理、使用FocalLoss修正BPNN算法的交叉熵损失函数构建企业信用风险模型、信用评价模型应用。本发明的有益效果是:采用了wRACOG很好地解决了贷款数据中违约样本和非违约样本比例失衡的问题,有效提高了在不均衡的数据样本中识别违约样本能力;在信用模型的建模过程中,引入了聚焦参数,通过增加误判样本的权重,构建了BPNN‑FocalLoss信用风险评价模型,弥补了深度学习信用评价模型在不均衡数据中有效识别违约样本的不足;实现了大数据的有效挖掘,提高了数据使用率。
Description
技术领域
本发明涉及一种信用评价系统,具体为一种中小微企业信用评级系统构建方法,属于企业信用评估模型技术领域。
背景技术
信用评估模型是金融机构划分客户信用等级、信贷决策、风险管理、客户关系管理的重要依据。
现阶段信用风险评估方法主要有三类,第一类是基于数理统计的信用评估方法,主要代表的方法为Logistic和判别分析法,如公开号为CN115689716A所公开的一种基于大数据技术的企业信用风险评估方法,通过对未记录在官方数据库中记录的未进入司法程序的产品质量纠纷、劳务纠纷和知识产权纠纷进行执法信息检索,将检索出来的执法信息的数量和类别作为判断企业信用风险的判断依据;第二类是基于传统机器学习方法,常用的算法包括决策树、支持向量机等分类算法,如公开号为CN115205033A所公开的一种信用风险评估方法及装置、存储介质及电子设备,其通过将各个决策树组成随机森林模型,并应用随机森林模型输出所述供应链金融的信用风险评估结果;第三类是基于深度学习的信用评价方法,深度学习主要是使用BP神经网络模型,如公开号为CN114519508A所公开的一种基于时序深度学习和法律文书信息的信用风险评估方法,采用基于规则的抽取方法进行法律文书实体抽取;对抽取的法律文书数据进行了预处理,并对法律文书文本信息进行事件抽取;利用RFE递归特征选择方法选择出预测能力强的法律文书特征;设置混合数据集并进行LSTM模型的训练获得评估模型进行信用风险的评估;实际应用中,金融机构借助信用评估模型工具量化贷款客户的风险,最大限度地降低金融机构贷款业务的违约率和降低坏账率,同时也能缓解信贷客户“贷款难、贷款贵”的问题。但在实践中,由于违约客户和非违约客户的不均衡分布,导致在使用传统的机器学习算法构建的信用模型不能很好完成风险识别功能,贷款数据中违约样本和非违约样本存在比例失衡的问题,而在不均衡的数据样本中无法识别违约样本,其次,传统的信用评价方式中专业人员的主观影响较大,造成人力成本和资金成本较高,降低了企业信用评价生成效率。
发明内容
本发明的目的就在于为了解决上述至少一个技术问题而提供一种中小微企业信用评级系统构建方法。
本发明通过以下技术方案来实现上述目的:一种中小微企业信用评级系统构建方法,包括以下步骤:
S1、建立信用评价指标集,通过采集中小微企业的基础数据,并根据基础数据建立海选指标集设计企业信用评分模型;
S2、将指标数据集进行标准化处理,并划分训练集、测试集和验证集;
S3、针对训练集采用wRACOG方法在保留违约样本数据特征前提下扩充样本数量做均衡化处理;
S4、使用FocalLoss修正BPNN算法的交叉熵损失函数构建企业信用风险模型,利用验证集调整模型超参数,最后通过测试集得到模型结果;
S5、信用评价模型应用,将信用评价转为评分规则,开发成SDK应用程序,同时部署在电子政务云,提供中小微企业信用评价API接口。
作为本发明再进一步的方案:S1具体包括:
S11、采集企业基础数据的数据模块包括但不限于工商数据、税务数据、涉诉信息、水电煤、社保缴纳信息以及知识产权信息。
S12、建立海选指标集的维度模块包含但不限于组织背景评分模块、经营状况指标模块、纳税状况指标模块、财务状况指标模块、创新能力指标模块以及信用状况指标模块。
作为本发明再进一步的方案:海选指标集的维度模块具体包括:
S121、组织背景评分模块是根据企业的照面信息、工商注册信息、员工社保等信息设计的综合评分,是信用行为的直接表现,该模块设计的指标有企业行业门类,企业成立年限,近2年法定代表人变更次数,近2年股东变更次数,股东数量,法人股东持股占比,注册资本,员工人数(个税、社保、公积金缴纳人数,取最大);
S122、经营状况指标模块是根据企业多个交易行为指标设计的综合信用评分,反映了企业经营合规性及经营能力,该模块设计的指标有近12个月销售收入(替换近12个月开票金额),近12个月应税销售收入为0或缺失的月份数,近12个月连续应税销售收入为0或缺失的月份数最大值;
S123、纳税状况指标模块是根据企业的税务缴纳情况设计的综合信用评分,反映了企业的税务贡献能力和状况,该模块设计的指标有近3个月应纳税额环比,近12个月实缴纳税额同比,近12个月实缴纳税额,近3个月实缴纳税额环比,近12个月增值税纳税额为0月份数,近6个月增值税实缴纳税额同比,纳税信用等级,纳税人状态;
S124、财务状况指标模块是根据企业多项财务指标结合不同权重设计的综合评分,反映了企业的财务信用水平,是判断企业财务信用能力的重要维度。该模块包含偿债能力、盈利能力、成长能力3个子模块;
S125、创新能力指标模块是根据企业团队发展、所在行业发展、知识产权等方面设计综合评分,反映了企业长期发展预测,设计的指标有是否是高新技术企业,是否是技术先进型服务企业,有效商标个数,专利个数,发明申请个数,近2年农业补贴金额;
S126、信用状况指标模块是根据企业用水用电、税务异常行为、失信执行情况等行为表现设计的综合评分,反映了企业规范行为状况,设计的指标有当前是否被列入经营异常名录,当前是否被列入严重违法失信名录,最长滞纳时长,近12个月罚款次数,近24个月滞纳金计税依据,近12个月违法违章记录条数,近3年企业是否命中失信被执行人。
作为本发明再进一步的方案:财务状况指标模块具体包括:
S1241偿债能力子模块设计的指标有流动比率,速动比率,资产负债率,短期销贷比,已获利息倍数;
S1242盈利能力子模块设计的指标有营业收入,营业利润率,营业利润增长率,净利润增长率,净资产收益率;
S1243成长能力子模块设计的指标有营业收入增长率,资产增长率。
作为本发明再进一步的方案:S2具体包括:
S21、正向指标数据标准化,正向指标指的是数值越大,样本信用状况越好的指标,例如总资产、周转率等,设为第i个客户第j个指标标准化后的值,/>是第i个客户第j个指标的原始数据,则
S22、负向指标数据标准化,负向指标指的是数值越大,样本信用状况越好的指标,例如总负债、资产负债率等,则
S23、区间指标数据标准化,区间指标是指取值在某个特定区间内,信用情况是最佳的指标,例如,客户的信用风险评价“总资产增长率”的最佳区间为[10%,60%],表示位于这个取值范围的信贷客户资产扩张的质和量能做到好的平衡。设q1是区间的左端点,q2区间的右端点,则
S24、将标准化后的样本数据划分为训练集、验证集和测试集。
作为本发明再进一步的方案:S3具体包括:
S31、在训练集样本中选择类别为少数的样本,即违约客户样本集train,初始化敏感数列长度为10,初始化值为inf;
S32、使用Chow-Liu决策树计算违约客户的分布决策树;
S33、基于算法KNN使用训练数据集训练一个预测模型作为model;
S34、使用Gibbs采样方法模拟生成新的违约样本;
S35、使用模型model预测新产生的违约样本;
S36、把模型预测失败的新的样本加入训练集形成新的训练集new_train,并重新执行步骤S33得到新的model;
S37、将验证集输入模型查看模型表现,并计算验证集上的准确率,并计算敏感度,S#是违约样本的数据集,S%是模型预测为违约的数据集采用公式如下,将计算结果添加到敏感度数列;
S38、如果敏感度数据序列的最新10个数据序列的标准差大于0.02,则从步骤S35开始执行,否则终止输出样本集new_train,记为平衡后的训练违约样本集。
作为本发明再进一步的方案:S32具体包括:
S321、输入要计算分布的样本数据集,设样本集的数量为n;
S322、对于样本集中的样本进行两两计算互信息,设第xi为第i个样本,第xj为第j个样本,P(xi)表示样本xi概率分布,P(xj)表示样本xj概率分布,P(xi,xj)示样本xi和样本xj的联合概率分布,I(xi,xj)为样本xi和样本xj的互信息,则
i=1,2,3…,n-1and j=2,3…n and i<j
S323、使用Kruskal算法生成最大权重决策树DT。
作为本发明再进一步的方案:S4具体包括:
S41、设置BP神经网络模型的结构为输入层、隐藏层、输出层的三层神经网络,其中涉及的参数有:神经网络层数设置为10,输出层神经元个数为输入指标的个数m,输出层神经元个数为分类个数n即为2,隐藏层神经元个数计算方式为:
其中a的取值范围为[1,10],隐藏层使用的激活函数为Relu,输出层的激活函数为softmax,dropout设置范围为0.2,所有训练数据的训练次数epoch取值范围100,训练数据划分的batchsize为50;
S42、预设的网络损失函数使用的FocalLoss,其计算方式如下:
其中γ是超参数,用于调整误判的违约样本损失所占目标损失的权重;
S43、使用训练集在FocalLoss修正的BP神经网络上训练得到信用评价模型,将测试集代入模型,可以得到测试数据集的预测结果,根据真实情况和预测结果对模型进行评价,模型评价的指标有准确度Accuracy,AUC(AreaUnderCurve),第一错误率(Type1-error),第二错误率(Type2-error)4个标准,设TP为非违约样本正确判定为非违约的个数,FN为非违约样本误判为违约样本的个数,TN为违约样本正确判定为违约样本的个数,FP为违约样本判定为非违约样本的个数,各个指标计算公式如下:
作为本发明再进一步的方案:S5具体包括:
S51、指标模型部署,根据获取S4中结果,制定评分卡规则形成SDK应用,将SDK部署到电子政务云系统,对接主题数据库数据源;
S52、指标模型调用,并将企业的名称和社会统一信用代码作为业务系统请求参数,发起请求指令,根据实际情况调用SDK中接口,返回被调用企业的信用评价等价。
本发明的有益效果是:
1.本发明采用了wRACOG很好地解决了贷款数据中违约样本和非违约样本比例失衡的问题,有效提高了在不均衡的数据样本中识别违约样本能力;
2.在信用模型的建模过程中,引入了聚焦参数,通过增加误判样本的权重,构建了BPNN-FocalLoss信用风险评价模型,弥补了深度学习信用评价模型在不均衡数据中有效识别违约样本的不足;
3.本发明构建的中小微企业信用评价系统,实现了大数据的有效挖掘,提高了数据使用率,提供了一套以数据为驱动的客观信用评价方法,避免了传统的信用评价方式中专业人员的主观影响,降低了人力成本和资金成本,提高了企业信用评价生成效率。
附图说明
图1为本发明中小微企业信用评价模型构建流程图;
图2为本发明企业信用评价海选指标集示意图;
图3为本发明企业财务状况指标模块示意图;
图4为本发明wRACOG对不平衡样本扩充流程示意图;
图5为本发明信用评价模型应用流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,一种中小微企业信用评级系统构建方法,包括以下步骤:
S1、建立信用评价指标集,通过采集中小微企业的基础数据,并根据基础数据建立海选指标集设计企业信用评分模型;
S2、将指标数据集进行标准化处理,并划分训练集、测试集和验证集;
S3、针对训练集采用wRACOG方法在保留违约样本数据特征前提下扩充样本数量做均衡化处理;
S4、使用FocalLoss修正BPNN算法的交叉熵损失函数构建企业信用风险模型,利用验证集调整模型超参数,最后通过测试集得到模型结果;
S5、信用评价模型应用,将信用评价转为评分规则,开发成SDK应用程序,同时部署在电子政务云,提供中小微企业信用评价API接口。
实施例二
如图2至图3所示,本实施例中除包括实施例一中的所有技术特征之外,还包括:
S1具体包括:
S11、采集企业基础数据的数据模块包括但不限于工商数据、税务数据、涉诉信息、水电煤、社保缴纳信息以及知识产权信息。
S12、建立海选指标集的维度模块包含但不限于组织背景评分模块、经营状况指标模块、纳税状况指标模块、财务状况指标模块、创新能力指标模块以及信用状况指标模块。
进一步地,海选指标集的维度模块具体包括:
S121、组织背景评分模块是根据企业的照面信息、工商注册信息、员工社保等信息设计的综合评分,是信用行为的直接表现,该模块设计的指标有企业行业门类,企业成立年限,近2年法定代表人变更次数,近2年股东变更次数,股东数量,法人股东持股占比,注册资本,员工人数(个税、社保、公积金缴纳人数,取最大);
S122、经营状况指标模块是根据企业多个交易行为指标设计的综合信用评分,反映了企业经营合规性及经营能力,该模块设计的指标有近12个月销售收入(替换近12个月开票金额),近12个月应税销售收入为0或缺失的月份数,近12个月连续应税销售收入为0或缺失的月份数最大值;
S123、纳税状况指标模块是根据企业的税务缴纳情况设计的综合信用评分,反映了企业的税务贡献能力和状况,该模块设计的指标有近3个月应纳税额环比,近12个月实缴纳税额同比,近12个月实缴纳税额,近3个月实缴纳税额环比,近12个月增值税纳税额为0月份数,近6个月增值税实缴纳税额同比,纳税信用等级,纳税人状态;
S124、财务状况指标模块是根据企业多项财务指标结合不同权重设计的综合评分,反映了企业的财务信用水平,是判断企业财务信用能力的重要维度,该模块包含偿债能力、盈利能力、成长能力3个子模块;
S125、创新能力指标模块是根据企业团队发展、所在行业发展、知识产权等方面设计综合评分,反映了企业长期发展预测,设计的指标有是否是高新技术企业,是否是技术先进型服务企业,有效商标个数,专利个数,发明申请个数,近2年农业补贴金额;
S126、信用状况指标模块是根据企业用水用电、税务异常行为、失信执行情况等行为表现设计的综合评分,反映了企业规范行为状况,设计的指标有当前是否被列入经营异常名录,当前是否被列入严重违法失信名录,最长滞纳时长,近12个月罚款次数,近24个月滞纳金计税依据,近12个月违法违章记录条数,近3年企业是否命中失信被执行人。
进一步地,财务状况指标模块具体包括:
S1241偿债能力子模块设计的指标有流动比率,速动比率,资产负债率,短期销贷比,已获利息倍数;
S1242盈利能力子模块设计的指标有营业收入,营业利润率,营业利润增长率,净利润增长率,净资产收益率;
S1243成长能力子模块设计的指标有营业收入增长率,资产增长率。
实施例三
本实施例中除包括实施例一中的所有技术特征之外,还包括:
S2具体包括:
S21、正向指标数据标准化,正向指标指的是数值越大,样本信用状况越好的指标,例如总资产、周转率等,设为第i个客户第j个指标标准化后的值,/>是第i个客户第j个指标的原始数据,则
S22、负向指标数据标准化,负向指标指的是数值越大,样本信用状况越好的指标,例如总负债、资产负债率等,则
S23、区间指标数据标准化,区间指标是指取值在某个特定区间内,信用情况是最佳的指标,例如,客户的信用风险评价“总资产增长率”的最佳区间为[10%,60%],表示位于这个取值范围的信贷客户资产扩张的质和量能做到好的平衡。设q1是区间的左端点,q2区间的右端点,则
S24、将标准化后的样本数据划分为训练集、验证集和测试集。
实施例二
如图4所示,本实施例中除包括实施例一中的所有技术特征之外,还包括:
S3具体包括:
S31、在训练集样本中选择类别为少数的样本,即违约客户样本集train,初始化敏感数列长度为10,初始化值为inf;
S32、使用Chow-Liu决策树计算违约客户的分布决策树;
S33、基于算法KNN使用训练数据集训练一个预测模型作为model;
S34、使用Gibbs采样方法模拟生成新的违约样本;
S35、使用模型model预测新产生的违约样本;
S36、把模型预测失败的新的样本加入训练集形成新的训练集new_train,并重新执行步骤S33得到新的model;
S37、将验证集输入模型查看模型表现,并计算验证集上的准确率,并计算敏感度,S#是违约样本的数据集,S%是模型预测为违约的数据集采用公式如下,将计算结果添加到敏感度数列;
S38、如果敏感度数据序列的最新10个数据序列的标准差大于0.02,则从步骤S35开始执行,否则终止输出样本集new_train,记为平衡后的训练违约样本集。
进一步地,S32具体包括:
S321、输入要计算分布的样本数据集,设样本集的数量为n;
S322、对于样本集中的样本进行两两计算互信息,设第xi为第i个样本,第xj为第j个样本,P(xi)表示样本xi概率分布,P(xj)表示样本xj概率分布,P(xi,xj)示样本xi和样本xj的联合概率分布,I(xi,xj)为样本xi和样本xj的互信息,则
i=1,2,3…,n-1and j=2,3…n and i<j
S323、使用Kruskal算法生成最大权重决策树DT。
实施例四
本实施例中除包括实施例一中的所有技术特征之外,还包括:
S4具体包括:
S41、设置BP神经网络模型的结构为输入层、隐藏层、输出层的三层神经网络,其中涉及的参数有:神经网络层数设置为10,输出层神经元个数为输入指标的个数m,输出层神经元个数为分类个数n即为2,隐藏层神经元个数计算方式为:
其中a的取值范围为[1,10],隐藏层使用的激活函数为Relu,输出层的激活函数为softmax,dropout设置范围为0.2,所有训练数据的训练次数epoch取值范围100,训练数据划分的batchsize为50;
S42、预设的网络损失函数使用的FocalLoss,其计算方式如下:
其中γ是超参数,用于调整误判的违约样本损失所占目标损失的权重;
S43、使用训练集在FocalLoss修正的BP神经网络上训练得到信用评价模型,将测试集代入模型,可以得到测试数据集的预测结果,根据真实情况和预测结果对模型进行评价,模型评价的指标有准确度Accuracy,AUC(AreaUnderCurve),第一错误率(Type1-error),第二错误率(Type2-error)4个标准,设TP为非违约样本正确判定为非违约的个数,FN为非违约样本误判为违约样本的个数,TN为违约样本正确判定为违约样本的个数,FP为违约样本判定为非违约样本的个数,各个指标计算公式如下:
实施例五
如图5所示,本实施例中除包括实施例一中的所有技术特征之外,还包括:
S5具体包括:
S51、指标模型部署,根据获取S4中结果,制定评分卡规则形成SDK应用,将SDK部署到电子政务云系统,对接主题数据库数据源;
S52、指标模型调用,并将企业的名称和社会统一信用代码作为业务系统请求参数,发起请求指令,根据实际情况调用SDK中接口,返回被调用企业的信用评价等价。
工作原理:建立信用评价指标集,将指标数据集进行标准化处理,并划分训练集、测试集和验证集,针对训练集采用wRACOG方法在保留违约样本数据特征前提下扩充样本数量做均衡化处理,使用Focal Loss修正BPNN算法的交叉熵损失函数构建企业信用风险模型,利用验证集调整模型超参数,最后通过测试集得到模型结果,将信用评价转为评分规则,开发成SDK应用程序,同时部署在电子政务云,提供中小微企业信用评价API接口。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种中小微企业信用评级系统构建方法,其特征在于,包括以下步骤:
S1、建立信用评价指标集,通过采集中小微企业的基础数据,并根据基础数据建立海选指标集设计企业信用评分模型;
S2、将指标数据集进行标准化处理,并划分训练集、测试集和验证集;
S3、针对训练集采用wRACOG方法在保留违约样本数据特征前提下扩充样本数量做均衡化处理;
S4、使用FocalLoss修正BPNN算法的交叉熵损失函数构建企业信用风险模型,利用验证集调整模型超参数,最后通过测试集得到模型结果;
S5、信用评价模型应用,将信用评价转为评分规则,开发成SDK应用程序,同时部署在电子政务云,提供中小微企业信用评价API接口。
2.根据权利要求1所述的中小微企业信用评级系统构建方法,其特征在于:所述S1具体包括:
S11、采集企业基础数据的数据模块包括但不限于工商数据、税务数据、涉诉信息、水电煤、社保缴纳信息以及知识产权信息。
S12、建立海选指标集的维度模块包含但不限于组织背景评分模块、经营状况指标模块、纳税状况指标模块、财务状况指标模块、创新能力指标模块以及信用状况指标模块。
3.根据权利要求2所述的中小微企业信用评级系统构建方法,其特征在于:所述海选指标集的维度模块具体包括:
S121、组织背景评分模块是根据企业的照面信息、工商注册信息、员工社保等信息设计的综合评分,是信用行为的直接表现,该模块设计的指标有企业行业门类,企业成立年限,近2年法定代表人变更次数,近2年股东变更次数,股东数量,法人股东持股占比,注册资本,员工人数;
S122、经营状况指标模块是根据企业多个交易行为指标设计的综合信用评分,反映了企业经营合规性及经营能力,该模块设计的指标有近12个月销售收入,近12个月应税销售收入为0或缺失的月份数,近12个月连续应税销售收入为0或缺失的月份数最大值;
S123、纳税状况指标模块是根据企业的税务缴纳情况设计的综合信用评分,反映了企业的税务贡献能力和状况,该模块设计的指标有近3个月应纳税额环比,近12个月实缴纳税额同比,近12个月实缴纳税额,近3个月实缴纳税额环比,近12个月增值税纳税额为0月份数,近6个月增值税实缴纳税额同比,纳税信用等级,纳税人状态;
S124、财务状况指标模块是根据企业多项财务指标结合不同权重设计的综合评分,反映了企业的财务信用水平,是判断企业财务信用能力的重要维度。该模块包含偿债能力、盈利能力、成长能力3个子模块;
S125、创新能力指标模块是根据企业团队发展、所在行业发展、知识产权等方面设计综合评分,反映了企业长期发展预测,设计的指标有是否是高新技术企业,是否是技术先进型服务企业,有效商标个数,专利个数,发明申请个数,近2年农业补贴金额;
S126、信用状况指标模块是根据企业用水用电、税务异常行为、失信执行情况等行为表现设计的综合评分,反映了企业规范行为状况,设计的指标有当前是否被列入经营异常名录,当前是否被列入严重违法失信名录,最长滞纳时长,近12个月罚款次数,近24个月滞纳金计税依据,近12个月违法违章记录条数,近3年企业是否命中失信被执行人。
4.根据权利要求3所述的中小微企业信用评级系统构建方法,其特征在于:所述财务状况指标模块具体包括:
S1241偿债能力子模块设计的指标有流动比率,速动比率,资产负债率,短期销贷比,已获利息倍数;
S1242盈利能力子模块设计的指标有营业收入,营业利润率,营业利润增长率,净利润增长率,净资产收益率;
S1243成长能力子模块设计的指标有营业收入增长率,资产增长率。
5.根据权利要求1所述的中小微企业信用评级系统构建方法,其特征在于:所述S2具体包括:
S21、正向指标数据标准化,正向指标指的是数值越大,样本信用状况越好的指标,例如总资产、周转率等,设为第i个客户第j个指标标准化后的值,/>是第i个客户第j个指标的原始数据,则
S22、负向指标数据标准化,负向指标指的是数值越大,样本信用状况越好的指标,例如总负债、资产负债率等,则
S23、区间指标数据标准化,区间指标是指取值在某个特定区间内,信用情况是最佳的指标,例如,客户的信用风险评价“总资产增长率”的最佳区间为[10%,60%],表示位于这个取值范围的信贷客户资产扩张的质和量能做到好的平衡,设q1是区间的左端点,q2区间的右端点,则
S24、将标准化后的样本数据划分为训练集、验证集和测试集。
6.根据权利要求1所述的中小微企业信用评级系统构建方法,其特征在于:所述S3具体包括:
S31、在训练集样本中选择类别为少数的样本,即违约客户样本集train,初始化敏感数列长度为10,初始化值为inf;
S32、使用Chow-Liu决策树计算违约客户的分布决策树;
S33、基于算法KNN使用训练数据集训练一个预测模型作为model;
S34、使用Gibbs采样方法模拟生成新的违约样本;
S35、使用模型model预测新产生的违约样本;
S36、把模型预测失败的新的样本加入训练集形成新的训练集new_train,并重新执行步骤S33得到新的model;
S37、将验证集输入模型查看模型表现,并计算验证集上的准确率,并计算敏感度,S#是违约样本的数据集,S%是模型预测为违约的数据集采用公式如下,将计算结果添加到敏感度数列;
S38、如果敏感度数据序列的最新10个数据序列的标准差大于0.02,则从步骤S35开始执行,否则终止输出样本集new_train,记为平衡后的训练违约样本集。
7.根据权利要求6所述的中小微企业信用评级系统构建方法,其特征在于:所述S32具体包括:
S321、输入要计算分布的样本数据集,设样本集的数量为n;
S322、对于样本集中的样本进行两两计算互信息,设第xi为第i个样本,第xj为第j个样本,P(xi)表示样本xi概率分布,P(xj)表示样本xj概率分布,P(xi,xj)示样本xi和样本xj的联合概率分布,I(xi,xj)为样本xi和样本xj的互信息,则
i=1,2,3…,n-1and j=2,3…n and i<j
S323、使用Kruskal算法生成最大权重决策树DT。
8.根据权利要求1所述的中小微企业信用评级系统构建方法,其特征在于:所述S4具体包括:
S41、设置BP神经网络模型的结构为输入层、隐藏层、输出层的三层神经网络,其中涉及的参数有:神经网络层数设置为10,输出层神经元个数为输入指标的个数m,输出层神经元个数为分类个数n即为2,隐藏层神经元个数计算方式为:
其中a的取值范围为[1,10],隐藏层使用的激活函数为Relu,输出层的激活函数为softmax,dropout设置范围为0.2,所有训练数据的训练次数epoch取值范围100,训练数据划分的batchsize为50;
S42、预设的网络损失函数使用的FocalLoss,其计算方式如下:
其中γ是超参数,用于调整误判的违约样本损失所占目标损失的权重;
S43、使用训练集在FocalLoss修正的BP神经网络上训练得到信用评价模型,将测试集代入模型,可以得到测试数据集的预测结果,根据真实情况和预测结果对模型进行评价,模型评价的指标有准确度Accuracy,AUC,第一错误率,第二错误率4个标准,设TP为非违约样本正确判定为非违约的个数,FN为非违约样本误判为违约样本的个数,TN为违约样本正确判定为违约样本的个数,FP为违约样本判定为非违约样本的个数,各个指标计算公式如下:
9.根据权利要求1所述的中小微企业信用评级系统构建方法,其特征在于:所述S5具体包括:
S51、指标模型部署,根据获取S4中结果,制定评分卡规则形成SDK应用,将SDK部署到电子政务云系统,对接主题数据库数据源;
S52、指标模型调用,并将企业的名称和社会统一信用代码作为业务系统请求参数,发起请求指令,根据实际情况调用SDK中接口,返回被调用企业的信用评价等价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311572349.8A CN117635304A (zh) | 2023-11-22 | 2023-11-22 | 一种中小微企业信用评级系统构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311572349.8A CN117635304A (zh) | 2023-11-22 | 2023-11-22 | 一种中小微企业信用评级系统构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117635304A true CN117635304A (zh) | 2024-03-01 |
Family
ID=90029707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311572349.8A Pending CN117635304A (zh) | 2023-11-22 | 2023-11-22 | 一种中小微企业信用评级系统构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635304A (zh) |
-
2023
- 2023-11-22 CN CN202311572349.8A patent/CN117635304A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114066242A (zh) | 一种企业风险的预警方法及装置 | |
CN106779755A (zh) | 一种网络电商借贷风险评估方法及模型 | |
Gao | The use of machine learning combined with data mining technology in financial risk prevention | |
CN112700319A (zh) | 基于政务数据的企业授信额度确定方法及装置 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN112613977A (zh) | 一种基于政务数据的个人信用贷款准入授信方法及系统 | |
CN113409150A (zh) | 经营风险及信用风险评估方法、装置及计算机存储介质 | |
CN112508689A (zh) | 一种基于多维度实现决策评估的方法 | |
CN113393328A (zh) | 融资贷前审批评估方法、装置及计算机存储介质 | |
Zhu et al. | Risk assessment of biological asset mortgage loans of China’s new agricultural business entities | |
CN107093018A (zh) | 基于健康模型的电信工程项目信息可视化方法及装置 | |
CN110738565A (zh) | 基于数据集合的房产金融人工智能复合风控模型 | |
CN116911994B (zh) | 对外贸易风险预警系统 | |
CN117787715A (zh) | 基于信息框架生成客户画像的金融风控方法和系统 | |
Zeng | [Retracted] Research on Risk Measurement and Early Warning of Electronic Banking Business Based on GMDH Algorithm | |
CN112766814A (zh) | 一种信用风险压力测试模型的训练方法、装置及设备 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
Qiang et al. | [Retracted] Relationship Model between Human Resource Management Activities and Performance Based on LMBP Algorithm | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
Mittal et al. | A study on credit risk assessment in banking sector using data mining techniques | |
CN117635304A (zh) | 一种中小微企业信用评级系统构建方法 | |
CN114862563A (zh) | 基于主成分分析和神经网络的中小信贷策略模型 | |
CN114529402A (zh) | 一种基于大数据风控的信贷管理方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |