CN115271907A - 基于公开数据对中小微企业评价的方法及相关设备 - Google Patents

基于公开数据对中小微企业评价的方法及相关设备 Download PDF

Info

Publication number
CN115271907A
CN115271907A CN202210721384.0A CN202210721384A CN115271907A CN 115271907 A CN115271907 A CN 115271907A CN 202210721384 A CN202210721384 A CN 202210721384A CN 115271907 A CN115271907 A CN 115271907A
Authority
CN
China
Prior art keywords
variable
enterprises
variables
enterprise
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210721384.0A
Other languages
English (en)
Inventor
钱晓军
万军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinascope Shanghai Technology Co ltd
Original Assignee
Chinascope Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinascope Shanghai Technology Co ltd filed Critical Chinascope Shanghai Technology Co ltd
Priority to CN202210721384.0A priority Critical patent/CN115271907A/zh
Publication of CN115271907A publication Critical patent/CN115271907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Accounting & Taxation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种基于公开数据对中小微企业评价的方法及相关设备。一种基于公开数据对中小微企业评价的方法,包括:获取若干企业的企业数据,企业数据包含若干变量及对应的变分值;将所有企业的所有变量以变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;将单个企业的所有变量以变量分值和证据权重进行加权求和,得到单个企业的评分信息。本发明能实现对小微企业多维度评价,评价信息可为投资机构提供投资参考,有利于提高投资效率,降低投资风险,为小微企业解决融资难等问题。

Description

基于公开数据对中小微企业评价的方法及相关设备
技术领域
本发明属于数据处理技术领域,具体涉及一种基于公开数据对中小微企业评价的方法及相关设备。
背景技术
目前,我国产业环境、征信服务与担保体系等不完善,使得金融服务供给者与需求者之间难以形成有效沟通。特别是在商业银行与民营和小微企业之间,信息不对称矛盾更为突出:一方面,银行难以收集和甄别民营和小微企业有效信息并据此进行信贷决策;另一方面,民营和小微企业未全面了解银行产品和服务,难以迈出建立银企关系的第一步。企业无授信,即在银行无信用等级评定,小微企业本身存在财务信息披露不规范,银行和企业之间存在较突出的信息不对称问题。没有贷款经历的小微企业信用信息相对更少,所以难以通过观察其历史还款情况判断其还款意愿,或者是本身不符合银行贷款的准入条件,并且这些小微企业没有贷款经历对银行贷款业务可能了解更少。这些因素导致小微企业难以获得银行贷款。小微企业存在信用信息缺失、抵押不足、担保弱以及融资成本高等痛点问题。
目前通行的解决方式是:一是国家政策,二是银行营销,三是信息共享。
国家政策方面,由银保监会大力推动政府性担保机构对小微企业贷款进行担保,解决企业担保弱问题;增加支持普惠小微信用贷款总体额度,既有利于支持银行市场化持续支持原客户信贷需求,也有利于促进银行挖掘新客户普惠小微贷款;实行阶段性税收缓缴等政策,可降低企业运营成本。
在银行营销方面,增加营销人员,扩大普惠金融等银行产品宣传范围,让更多有融资需求的小微企业了解这些产品。促进银企间的信息沟通,打破双方零信息及信息不对称问题。
信息共享方面,目前银保监会正在打通金融信用信息和政府公共信息、企业信息,在各地推动组建中小企业信用信息平台。能够进一步推进市场营销。
上述三种方式均存在一些问题:
靠国家政策确实可以在一定程度上解决小微企业融资问题,但是这种情况复杂,国家出台各种政策,一是推高了各方政务机关成本,二是仅从表面解决了部分融资问题,但是随之而来的提高了银行的金融风险。
银行营销也一样,提高运营成本及伴随着推高金融风险;
信息共享确实是个不错的方向,但是也存在信息量不够全面,及信息仅停留在推进营销的联系上。
发明内容
本发明针对现有的民营和小微企业在银行无授信,存在信用信息缺失、抵押不足、担保弱以及融资成本高的技术问题,目的在于提供一种基于公开数据对中小微企业评价的方法及相关设备。
一种基于公开数据对中小微企业评价的方法,包括:
获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值;
将所有企业的所有变量以所述变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;
将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息。
作为优选方案,所述获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值,包括:
获取若干企业的原始数据,对所述原始数据中的脏数据进行清洗;
整理原始数据,得到变量及对应的变量数据;
对所述变量数据进行归一化处理,得到每个变量的变量分值。
作为优选方案,所述脏数据包括缺失值或异常值,在对所述缺失值或异常值进行清洗时,采用填充0值或当空置NA处理。
作为优选方案,所述将所有企业的所有变量以所述变量分值进行分箱,包括:
将所有的所述变量分值按从小到大的顺序排列;
按照所述变量分值平均跨度范围进行划分为若干等距的区间,每个所述区间作为一个分箱。
作为优选方案,所述计算每个变量在每个分箱中的证据权重,包括:
定义差企业的概率表示为p,则好企业的概率表示为1-p,将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类,确定出所有企业的企业信用,所述企业信用为差企业或好企业;
对单个变量计算在单个分箱中的证据权重WOE:
Figure BDA0003711402830000031
其中,WOEi为单个变量在第i个分箱中的证据权重;pi1为第i个分箱中差企业占所有差企业比例;pi0为第i个分箱中好企业占所有好企业比例;
Figure BDA0003711402830000032
为第i个分箱中差企业数量;
Figure BDA0003711402830000033
为第i个分箱中好企业数量;
Figure BDA0003711402830000034
为所有差企业数量;
Figure BDA0003711402830000035
为所有好企业数量。
作为优选方案,在将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类时,还计算所述自变量的p-value值(假定值),若所述p-value值大于预设的假定阈值,则筛除所述自变量,再将剩下的自变量采用所述逻辑回归模型进行二分类。
作为优选方案,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的AUC值(ROC曲线下的面积),当所述AUC值小于0.5时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
作为优选方案,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的KS值(模型评价指标),当所述KS值不大于0.4时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
作为优选方案,所述对单个变量计算在单个分箱中的证据权重WOE之前,还包括通过计算单个变量的信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量计算证据权重及计算加权求和。
作为优选方案,计算单个变量的信息价值IV:
Figure BDA0003711402830000036
将单个变量的信息价值小于预设信息价值阈值的变量进行剔除,剩下的变量作为目标变量。
作为优选方案,所述将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息,包括采用如下公式计算评分信息Score:
Figure BDA0003711402830000037
其中,A-Bθ0为预设的基础分数,A和B均为预设的常数;θi为第i个变量的变量分值;wij为第i个变量所在的第j个分箱的证据权重;δij是0或1的逻辑变量,当δij=1代表第i个变量取第j个分箱,当δij=0代表第i个变量不取第j个分箱。
作为优选方案,若单个企业的所述评分信息高于预设的最高评分阈值,则将所述评分信息重置为所述最高评分阈值;
若单个企业的所述评分信息低于预设的最底评分阈值,则将所述评分信息重置为所述最底评分阈值。
作为优选方案,还包括将所述评分信息生成企业评分结果并输出。
作为优选方案,所述将所述评分信息生成企业评分结果并输出,包括:
由所述评分信息公式可知,单个企业的单个变量的评分分值为:
-B(θiwi1δi1iwi2δi2…+θiwijδij)
将单个企业的变量划分为预设的若干维度,将单个所述维度中所有变量的评分分值相加得到单个所述维度对应的维度总分;
将所有企业及对应的评分信息、维度和维度总分作为企业评分结果并输出。
作为优选方案,还包括:
获取待评价企业的目标数据,所述目标数据包含若干预设的目标变量及对应的目标变量分值;
将所述目标变量以所述目标变量分值进行分箱,计算每个目标变量的评分分值并相加,最后加上预设的基础分数,得到待评价企业对应的评分信息、维度及维度总分。
一种基于公开数据对中小微企业评价的装置,包括:
获取数据模块,用于获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值;
计算证据权重模块,用于将所有企业的所有变量以所述变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;
计算评分信息模块,用于将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于公开数据对中小微企业评价的方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于公开数据对中小微企业评价的方法步骤。
本发明的积极进步效果在于:本发明采用基于公开数据对中小微企业评价的方法及相关设备,使用公开数据,即小微企业相关的工商数据及网络上可查询到的相关信息,实现对小微企业多维度评价,评价信息可为投资机构提供投资参考,有利于提高投资效率,降低投资风险,为小微企业解决融资难等问题。
附图说明
图1为本发明的一种实施例流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本发明。
参照图1,一种基于公开数据对中小微企业评价的方法,包括如下步骤:
S1,获取数据:获取若干企业的企业数据,企业数据包含若干变量及对应的变分值。
本步骤中的企业数据是围绕企业收集的与其相关的所有信息,经处理后,得到的数据。具体处理过程可以包括如下步骤:
在一些实施例中,步骤S1,包括:
S101,获取若干企业的原始数据,对原始数据中的脏数据进行清洗。
本步骤中的原始数据是与企业相关的所有信息,包括但不限于基本信息、股东情况、财报、专利或处罚等。
对这些原始数据进行分析,分析缺失值情况、异常值情况、平均值、中位数、最大值、最小值或分布情况等,根据这些情况可对原始数据进行清洗。
在一些实施例中,脏数据包括缺失值或异常值,在对缺失值或异常值进行清洗时,采用填充0值或当空置NA处理。
S102,整理原始数据,得到变量及对应的变量数据。
将清洗后的原始数据进行整理,整理成具有变量及对应变量数据的数据。部分变量及变量数据例如下表所示:
Figure BDA0003711402830000061
变量是基于已收集到的变量数据定义的,收集到的变量数据范围越多定义更多的变量,才能更准确的对企业评分,然后筛选变量,筛选去对模型有意义的变量。所以收集和整理原始数据是本发明关键步骤。
S103,对变量数据进行归一化处理,得到每个变量的变量分值。
本步骤通过归一化处理可以把变量数据转成0~1之间的数值,或放大到0~1000的数值,以便于后续分箱等需要。
S2,计算证据权重:将所有企业的所有变量以变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重(WOE,weight ofevidence)。
本步骤通过对变量进行分箱来实现变量的分段,分箱可以对连续变量进行分段离散化,将多状态的离散变量进行合并,减少离散变量的状态数。
在一些实施例中,本步骤的分箱使用等距划分的方式:
S201,将所有的变量分值按从小到大的顺序排列;
S202,按照变量分值平均跨度范围进行划分为若干等距的区间,每个区间作为一个分箱。
本实施例中的区间个数优选为10个或100个,需按照变量值平均跨度范围进行等距划分。将变量分箱后,数据和模型会更稳定,将所有变量统一变换为类别型变量,可大大简化后续的逻辑回归模型,降低模型过拟合的风险。转化为标准的评分信息格式,才能对不同的分段进行评分。
本步骤通过计算每个变量在其自身所在的分箱中的证据权重,证据权重是一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值。
在一些实施例中,计算每个变量在每个分箱中的证据权重,包括:
S211,定义差企业的概率表示为p,则好企业的概率表示为1-p,将变量分值作为自变量,采用预设的逻辑回归模型对每个企业进行二分类,确定出所有企业的企业信用,企业信用为差企业或好企业。
在计算证据权重之前,需要通过预设的已训练完成的逻辑回归模型对所有的企业根据变量进行二分类,确定出每个企业是差企业还是好企业。
本步骤中,在将变量分值作为自变量,采用预设的逻辑回归模型对每个企业进行二分类时,还计算自变量的p-value值(假定值),若p-value值大于预设的假定阈值,则筛除自变量,再将剩下的自变量采用逻辑回归模型进行二分类。
逻辑回归模型的优势在于其简单稳定、技术成熟、可解释性强、易于部署及维护。根据模型结果的p-value值进行筛选变量,得到最终的逻辑回归模型。p-value是通过假设检验计算得到的值。一般当p-value小于预设的假定阈值时,表示假设不显著,即自变量与因变量线性相关;当p-value大于预设的假定阈值时,表示假设显著,即自变量与因变量线性无关。阈值又称为显著性水平,通常取0.05。因此当某个变量的p-value值大于0.05时,应筛掉此变量。
本步骤中,在确定出所有企业的企业信用后,还计算逻辑回归模型的AUC值(ROC曲线下的面积),当AUC值小于0.5时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用逻辑回归模型进行二分类。
AUC表示逻辑回归模型对任意坏企业的输出结果为大于逻辑回归模型对任意好企业的输出结果的概率。AUC的取值范围在0.5和1之间,AUC越大,表示逻辑回归模型预测性能越好。当AUC值小于0.5时,说明逻辑回归模型预测性能不太好,原因是使用的变量预测性能不好。因此需要通过计算单个变量IV值的方法来筛选预测性能强的变量。
本步骤中,在确定出所有企业的企业信用后,还计算逻辑回归模型的KS值(模型评价指标),当KS值不大于0.4时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用逻辑回归模型进行二分类。
KS值表示了逻辑回归模型区分好坏企业的能力。其实质是好坏企业阈值变化的最大值。KS的取值范围在0和1之间,值越大,逻辑回归模型的预测准确性越好。本步骤中,KS>0.4即认为逻辑回归模型有比较好的预测性能。当KS值不大于0.4时,说明逻辑回归模型预测性能不太好,原因是使用的变量预测性能不好。因此需要通过计算单个变量IV值的方法来筛选预测性能强的变量。
S212,对单个变量计算在单个分箱中的证据权重WOE:
Figure BDA0003711402830000081
其中,WOEi为单个变量在第i个分箱中的证据权重;pi1为第i个分箱中差企业占所有差企业比例;pi0为第i个分箱中好企业占所有好企业比例;
Figure BDA0003711402830000082
为第i个分箱中差企业数量;
Figure BDA0003711402830000083
为第i个分箱中好企业数量;
Figure BDA0003711402830000084
为所有差企业数量;
Figure BDA0003711402830000085
为所有好企业数量。
本步骤中的证据权重表示的实际上是“当前分箱中坏企业占所有坏企业的比例”和“当前分箱中好企业占所有好企业的比例”的差异。证据权重越大,这种差异越大,当前分箱里的坏企业的可能性就越大,证据权重越小,差异越小,这个分箱里的样本相应的可能性就越小。当分箱中坏企业和好企业的比例等于随机坏企业和好企业的比值时,说明这个分箱没有预测能力,即WOE=0。WOE编码的作业在于将自变量规范到同一尺度上,有利于对变量的每个分箱进行评分。
在一些实施例中,在步骤S212之前,还包括对变量的筛选:通过对单个变量计算信息价值(IV值,information value)对单个变量进行筛选,通过计算单个变量的信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量计算证据权重及计算加权求和。
单个企业的变量可以定义几百几千个,若变量使用太大会导致工程量很大,大量变量中其中不乏很多变量直接其实是线性相关的,导致重复。所以本实施例中使用IV值筛选出需要的变量,信息价值筛选的作用在于剔除跟目标变量不太相关的其他变量,以及剔除其他线性相关的变量,避免变量冗余。
在一些实施例中,单个变量的信息价值IV的计算公式如下:
Figure BDA0003711402830000091
将单个变量的信息价值小于预设信息价值阈值的变量进行剔除,剩下的变量作为目标变量。
单个变量的IV值越大,表示变量的预测能力越强。筛选范围标准如下表所示:
IV值范围 预测能力
<0.02 无效
0.02-0.10 弱预测能力
0.1-0.20 中预测能力
>0.20 强预测能力
本实施例中的预设信息价值阈值可选用0.05,即当单个变量的信息价值小于0.05时,将其进行剔除。
S3,计算评分信息:将单个企业的所有变量以变量分值和证据权重进行加权求和,得到单个企业的评分信息。
单个企业具有若干或大量的变量,将这些变量通过其对应的变量分值和步骤S2计算得到的证据权重进行加权求和即可得到该企业的评分信息。
在进行加权求和时,还可以加入预设的基础分数和权重用常数来加入计算评分信息。具体采用如下公式计算评分信息Score:
Figure BDA0003711402830000092
其中,A-Bθ0为预设的基础分数,A和B均为预设的常数,B前面的负号可以使得违约概率越低,得分越高;θi为第i个变量的变量分值;wij为第i个变量所在的第j个分箱的证据权重;δij是0或1的逻辑变量,当δij=1代表第i个变量取第j个分箱,当δij=0代表第i个变量不取第j个分箱。具体的,i∈(1,n),j∈(1,n)。
具体的,由逻辑回归公式:
Figure BDA0003711402830000101
及差企业的相对概率公式:
Figure BDA0003711402830000102
换算后可得:
log(odds)=θTx
评分信息的分值定义为比率对数的线性表达,即:
Score=A–B×log(odds)
即:
Score=A-B{θ01x1nxn}
换算并且带入变量x1...xn和WOE,得到上述评分信息Score的计算公式。
变量x1…xn通过步骤S3计算得到的评分信息如下表所示:
Figure BDA0003711402830000103
在一些实施例中,若单个企业的评分信息高于预设的最高评分阈值,则将评分信息重置为最高评分阈值;若单个企业的评分信息低于预设的最底评分阈值,则将评分信息重置为所述最底评分阈值。
在对单个企业的评分信息进行计算后,可能存在因变量数据导致评分信息数值特别低或特别高的情况,为了评分信息偏离不要太大,本发明将低于预设的最底评分阈值和高于最高评分阈值的评分信息进行重置。例如,低于400分的评分信息,则评分信息重置为400分。高于1000分的评分信息,则评分信息重置为1000分。以使各企业的评分信息在可控范围内,用于后续其他场景的数据处理或比较中。
S4,生成企业评分结果并输出:将评分信息生成企业评分结果并输出。
由评分信息公式可知,单个企业的单个变量的评分分值为:
-B(θiwi1δi1iwi2δi2...+θiwijδij)
将单个企业的变量划分为预设的若干维度,将单个维度中所有变量的评分分值相加得到单个维度对应的维度总分;将所有企业及对应的评分信息、维度和维度总分作为企业评分结果并输出。
例如,将变量划分为六个维度,分别是创新、履约、成长、规模、调整和财务,从六个维度评分及计算总分,最终得到的企业评分结果如下表所示:
Figure BDA0003711402830000111
本发明可通过上述三个步骤,采集大量企业的变量,计算出每个变量在各分箱对应的分值。若需要对一个新企业进行评分时,新企业无需再进行计算证据权重的步骤,可直接对应到每个分箱的值,将这些值相加,最后加上预设的基础分数即可得到最终的企业评分结果,具体包括如下步骤S5,应用上线:
S501,获取待评价企业的目标数据,目标数据包含若干预设的目标变量及对应的目标变量分值。
本步骤中的目标变量可直接是步骤S2中通过IV值对变量进行筛选后剩下的目标变量。以实现更具有针对性的获取数据,减少数据冗余。
在获取目标变量过程中,可采用本发明步骤S101至S103,以得到清洗、整理及归一化处理后的目标变量及目标变量分值。
S502,将目标变量以目标变量分值进行分箱,计算每个目标变量的评分分值并相加,最后加上预设的基础分数,得到待评价企业对应的评分信息、维度及维度总分。
在分箱时,可根据步骤S202的分箱方式,直接根据目标变量分值将变量划分至对应的分箱中。通过步骤S3中的评分信息计算公式,最终得到待评价企业的评分信息。通过步骤S4的维度划分方式,得到维度及对应的维度总分。最终得到待评价企业对应的评分信息、维度及维度总分,可制作成表格后进行输出。
在一些实施例中,本发明还提供一种基于公开数据对中小微企业评价的装置,包括:
获取数据模块,用于获取若干企业的企业数据,企业数据包含若干变量及对应的变分值;
计算证据权重模块,用于将所有企业的所有变量以变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;
计算评分信息模块,用于将单个企业的所有变量以变量分值和证据权重进行加权求和,得到单个企业的评分信息。
在一些实施例中,本发明还提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例基于公开数据对中小微企业评价的方法的步骤。
在一些实施例中,本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例基于公开数据对中小微企业评价的方法步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上各实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (17)

1.一种基于公开数据对中小微企业评价的方法,其特征在于,包括:
获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值;
将所有企业的所有变量以所述变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;
将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息。
2.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值,包括:
获取若干企业的原始数据,对所述原始数据中的脏数据进行清洗;
整理原始数据,得到变量及对应的变量数据;
对所述变量数据进行归一化处理,得到每个变量的变量分值。
3.如权利要求2所述的基于公开数据对中小微企业评价的方法,其特征在于,所述脏数据包括缺失值或异常值,在对所述缺失值或异常值进行清洗时,采用填充0值或当空置NA处理。
4.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述将所有企业的所有变量以所述变量分值进行分箱,包括:
将所有的所述变量分值按从小到大的顺序排列;
按照所述变量分值平均跨度范围进行划分为若干等距的区间,每个所述区间作为一个分箱。
5.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述计算每个变量在每个分箱中的证据权重,包括:
定义差企业的概率表示为p,则好企业的概率表示为1-p,将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类,确定出所有企业的企业信用,所述企业信用为差企业或好企业;
对单个变量计算在单个分箱中的证据权重WOE:
Figure FDA0003711402820000011
其中,WOEi为单个变量在第i个分箱中的证据权重;pi1为第i个分箱中差企业占所有差企业比例;pi0为第i个分箱中好企业占所有好企业比例;
Figure FDA0003711402820000012
为第i个分箱中差企业数量;
Figure FDA0003711402820000013
为第i个分箱中好企业数量;
Figure FDA0003711402820000014
为所有差企业数量;
Figure FDA0003711402820000021
为所有好企业数量。
6.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,在将所述变量分值作为自变量,采用预设的逻辑回归模型对每个所述企业进行二分类时,还计算所述自变量的p-value值,若所述p-value值大于预设的假定阈值,则筛除所述自变量,再将剩下的自变量采用所述逻辑回归模型进行二分类。
7.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的AUC值,当所述AUC值小于0.5时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
8.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,在确定出所有企业的企业信用后,还计算所述逻辑回归模型的KS值,当所述KS值不大于0.4时,通过计算单个变量信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量重新采用所述逻辑回归模型进行二分类。
9.如权利要求5所述的基于公开数据对中小微企业评价的方法,其特征在于,所述对单个变量计算在单个分箱中的证据权重WOE之前,还包括通过计算单个变量的信息价值的方法来筛选预测性能强的变量,剩下的变量作为目标变量计算证据权重及计算加权求和。
10.如权利要求7、8或9所述的基于公开数据对中小微企业评价的方法,其特征在于,计算单个变量的信息价值IV:
Figure FDA0003711402820000022
将单个变量的信息价值小于预设信息价值阈值的变量进行剔除,剩下的变量作为目标变量。
11.如权利要求1所述的基于公开数据对中小微企业评价的方法,其特征在于,所述将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息,包括采用如下公式计算评分信息Score:
Figure FDA0003711402820000023
其中,A-Bθ0为预设的基础分数,A和B均为预设的常数;θi为第i个变量的变量分值;wij为第i个变量所在的第j个分箱的证据权重;δij是0或1的逻辑变量,当δij=1代表第i个变量取第j个分箱,当δij=0代表第i个变量不取第j个分箱。
12.如权利要求11所述的基于公开数据对中小微企业评价的方法,其特征在于,若单个企业的所述评分信息高于预设的最高评分阈值,则将所述评分信息重置为所述最高评分阈值;
若单个企业的所述评分信息低于预设的最底评分阈值,则将所述评分信息重置为所述最底评分阈值。
13.如权利要求1至12中任意一项所述的基于公开数据对中小微企业评价的方法,其特征在于,还包括将所述评分信息生成企业评分结果并输出,所述将所述评分信息生成企业评分结果并输出,包括:
由所述评分信息公式可知,单个企业的单个变量的评分分值为:
-B(θiwi1δi1iwi2δi2...+θiwijδij)
将单个企业的变量划分为预设的若干维度,将单个所述维度中所有变量的评分分值相加得到单个所述维度对应的维度总分;
将所有企业及对应的评分信息、维度和维度总分作为企业评分结果并输出。
14.如权利要求13所述的基于公开数据对中小微企业评价的方法,其特征在于,还包括:
获取待评价企业的目标数据,所述目标数据包含若干预设的目标变量及对应的目标变量分值;
将所述目标变量以所述目标变量分值进行分箱,计算每个目标变量的评分分值并相加,最后加上预设的基础分数,得到待评价企业对应的评分信息、维度及维度总分。
15.一种基于公开数据对中小微企业评价的装置,其特征在于,包括:
获取数据模块,用于获取若干企业的企业数据,所述企业数据包含若干变量及对应的变分值;
计算证据权重模块,用于将所有企业的所有变量以所述变量分值进行分箱,得到若干分箱后的变量及对应的变量分值,计算每个变量在每个分箱中的证据权重;
计算评分信息模块,用于将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和,得到单个所述企业的评分信息。
16.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至14中任一项权利要求所述的基于公开数据对中小微企业评价的方法的步骤。
17.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至14中任一项权利要求所述的基于公开数据对中小微企业评价的方法步骤。
CN202210721384.0A 2022-06-24 2022-06-24 基于公开数据对中小微企业评价的方法及相关设备 Pending CN115271907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210721384.0A CN115271907A (zh) 2022-06-24 2022-06-24 基于公开数据对中小微企业评价的方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210721384.0A CN115271907A (zh) 2022-06-24 2022-06-24 基于公开数据对中小微企业评价的方法及相关设备

Publications (1)

Publication Number Publication Date
CN115271907A true CN115271907A (zh) 2022-11-01

Family

ID=83761276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210721384.0A Pending CN115271907A (zh) 2022-06-24 2022-06-24 基于公开数据对中小微企业评价的方法及相关设备

Country Status (1)

Country Link
CN (1) CN115271907A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012143A (zh) * 2023-01-03 2023-04-25 睿智合创(北京)科技有限公司 一种分箱回归下的变量选择及参数估计方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012143A (zh) * 2023-01-03 2023-04-25 睿智合创(北京)科技有限公司 一种分箱回归下的变量选择及参数估计方法
CN116012143B (zh) * 2023-01-03 2023-10-13 睿智合创(北京)科技有限公司 一种分箱回归下的变量选择及参数估计方法

Similar Documents

Publication Publication Date Title
Maldonado et al. Credit scoring using three-way decisions with probabilistic rough sets
CN110334737B (zh) 一种基于随机森林的客户风险指标筛选的方法和系统
Hájek Municipal credit rating modelling by neural networks
CN113537807B (zh) 一种企业智慧风控方法及设备
CN111738843B (zh) 一种使用流水数据的量化风险评价系统和方法
Shen et al. Comparing two novel hybrid MRDM approaches to consumer credit scoring under uncertainty and fuzzy judgments
Baran et al. Prediction of motor insurance claims occurrence as an imbalanced machine learning problem
CN115271907A (zh) 基于公开数据对中小微企业评价的方法及相关设备
Tsai et al. Data pre-processing by genetic algorithms for bankruptcy prediction
Ashwitha et al. An approach to predict loan eligibility using machine learning
Yang et al. An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity
Chen et al. A stable credit rating model based on learning vector quantization
CN114219606A (zh) 一种基于电力数据的用电企业信用评价的方法和系统
CN113592292A (zh) 一种电网一次设备技改大修项目准入评价方法
Zeng A comparison study on the era of internet finance China construction of credit scoring system model
Nazari et al. Using the Hybrid Model for Credit Scoring (Case Study: Credit Clients of microloans, Bank Refah-Kargeran of Zanjan, Iran)
CN113610638B (zh) 基于smaa-ds的信用等级与违约损失率相匹配的评级系统及方法
Ding Construction and Exploration of a Financial Risk Control Model Based on Machine Learning
Piermarini et al. Predicting municipalities in financial distress: a machine learning approach enhanced by domain expertise
Dalal et al. Predicting credit default using ML
CN117273919A (zh) 针对个体户及小微企业电商商户的互联网信用评估方法
Klebanova et al. Model basis of information and analytical security system of corporate business structures
Xu et al. An XGboost Algorithm Based Model for Financial Risk Prediction
CN117788133A (zh) 构建零售信用风险预测模型的方法和零售信贷Scoresigma模型
Peng Construction and Evaluation of Credit Risk Early Warning Indicator System of Internet Financial Enterprises Based On AI and Knowledge Graph Theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination