CN113129133A

CN113129133A - 一种融资平台企业性质分类方法和系统

Info

Publication number: CN113129133A
Application number: CN202110536252.6A
Authority: CN
Inventors: 徐衡锐; 黄雪
Original assignee: Wuxi Hangwu Technology Co ltd
Current assignee: Wuxi Hangwu Technology Co ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-07-16
Anticipated expiration: 2041-05-17
Also published as: CN113129133B

Abstract

本发明公开了一种融资平台企业性质分类方法和系统，分类系统包括数据获取模块、数据计算模块和信息展示模块，数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表，并从分析基表中统计和衍生出P个特征变量，数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类，信息展示模块用于展示数据计算模块的分类结果，本发明通过对平台的债务、流水、资产、人员等特征数据进行大数据分析，形成一套科学、有效的平台公司性质分类预测方法，便于对融资平台企业进行有效监管。

Description

一种融资平台企业性质分类方法和系统

技术领域

本发明涉及企业分类评估技术领域，具体为一种融资平台企业性质分类方法和系统。

背景技术

近年来，融资平台作为主力军和先锋队，为推进城市教育医疗、文体场馆、道路桥梁、污水处理及地下管网等公共基础设施建设积极筹措资金，有效促进了地方经济增长和民生改善，为提高城市品位做出了突出贡献。然而，随着经济增长下行与系统性风险上升压力并存局面的形成，融资平台潜在的违约、经营、政策及建设等风险不容忽视。融资平台务必要审时度势，防患未然，多措并举做好风险防控。融资平台实现业务转型，是防控融资平台政策风险的核心关键。

融资平台的业务转型是一个逐步推进的过程，需要有一套科学、高效、实时的融资平台分析机制。根据融资平台公司实际情况，分为空壳类公司、实体类公司、商业类公司。空壳类公司待相关债务化解完毕后，通过整合、撤销，减少数量。实体类公司在债务化解过程中，通过市场化转型，做大做强主体业务。商业类公司，逐步化解相关债务。

发明内容

本发明的目的在于提供一种融资平台企业性质分类方法和系统，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种融资平台企业性质分类方法和系统，所述分类方法包括以下步骤：

步骤S100：从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表，从分析基表中统计和衍生出P个特征变量，P为自然数；

步骤S200：根据各个特征变量的实际意义选择合适的方法补充缺失值，得到特征变量与企业相对应的数据表，并对这P个特征变量进行标准化处理；

步骤S300：计算各个特征变量的重要度，并从P个特征变量中选取部分样本数据分别构建多棵决策树，选择出M个合适的特征变量作为模型输入特征变量，其中，M为自然数；

步骤S400：构建由多棵决策树构成的随机森林，以信息熵作为特征选择的标准，判别输入特征变量的类型，进而对企业进行分类。

进一步的，所述步骤S200中的标准化处理包括以下步骤：

步骤S210：计算各个特征变量的平均值

其中，t表示企业的数量，i的取值范围为1到P,

为第i个特征变量的平均值，x_i1表示第一个企业的第i个特征变量的数值；

步骤S220，计算各特征变量标准差，计算公式为：

其中，σ_i为第i个特征变量的标准差，

为开平方，

为步骤210所述的各个特征变量平均值；

步骤S230，对各特征变量进行数据标准化处理，其计算公式为：

其中，X为各个特征变量的数据，V^*为对应的X经过标准化处理得到的数据。。

进一步的，所述步骤S300包括以下步骤：

步骤S310，利用P个特征变量的部分样本数据构建多棵决策树，对每一棵决策树，选择相应的袋外数据OOB计算袋外数据误差，记为errOOB1；

步骤S320，随机对袋外数据OOB所有样本的特征X加入噪声干扰，随机改变样本在特征X处的值，再次计算袋外数据误差errOOB2；

步骤S330，那么特征X的重要性＝∑(errOOB2-errOOB1)/N，其中，N为决策树的棵数，将各个特征按照重要性从大到小的顺序排序，选取排序前M所对应的特征变量作为模型输入特征变量。

进一步的，所述步骤S400包括以下步骤：

步骤S410，计算某棵决策树的当前样本数据集的初始信息熵E_init，计算公式为：

其中，当该棵决策树未划分子集时，该棵决策树的当前样本数据集为该棵决策树的原始样本数据集，当该棵决策树划分子集后，该棵决策树的当前样本数据集为划分子集后的样本数据集，P_i为第i个类别在当前样本数据集中出现的概率，j为当前样本数据集中的企业分类数量；

步骤S420，计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵，其中，K小于等于M，K个模型输入特征变量为从M个模型输入特征变量中选取的变量，运用二叉树将当前样本数据集划分为两个子集D_left和D_right，包括：

步骤S421，将某个输入特征所对应的所有特征值按照从小到大的顺序排序，按顺序依次选取该个输入特征的各个特征值作为参照值进行比较，在将该输入特征的特征值与该次选取的参照值进行比较时，当存在该个输入特征的特征值小于等于参照值时，将该相应的特征值归到D_left子集中，当存在该个输入特征的特征值大于参照值时，将该相应的特征值归到D_right子集中，计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I，取其中I最小的特征值作为该输入特征的信息熵；

其中，输入特征的某个特征值得到的子集划分情况所对应的信息熵

N表示当前样本数据集中样本个数，当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集，N为原始样本数据集中的样本个数，当该棵决策树的当前样本数据集为划分子集后的样本数据集，N为划分子集中的样本个数，N_left表示当前样本数据集分出的一个子集D_left中样本个数，N_right表示当前样本数据集分出的另一个子集D_right中样本个数；E(D_left)表示子集D_left的信息熵，E(D_right)表示子集D_right的信息熵，按照上述方法，计算出所有模型输入特征变量维度的信息熵；

步骤S422，计算所有特征的I_n-E_init,I_n表示第n个特征的信息熵，取I_n-E_intit值最大所对应的特征作为切分点将当前样本数据集分成两个子集D_left和D_right；

步骤S430，在子集部分递归调用步骤S410-420直到子集信息熵I为0或者I_n-E_init小于阈值的时候，停止继续划分子集，模型训练完成；

步骤S440，在模型的最底层子集中，样本类型个数最多的类型为该子集的类型，根据输入特征，返回与输入特征相对应的子集的类型作为该企业的性质类别。

进一步的，所述分类方法还包括：所述P个特征变量确定是根据业务特性，通过多维统计、均值计算方法来获取，所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。

进一步的，所述分类系统包括数据获取模块和数据计算模块；

所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表，并从分析基表中统计和衍生出P个特征变量；

所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。

进一步的，所述分类系统还包括信息展示模块，所述信息展示模块用于展示数据计算模块的分类结果。

与现有技术相比，本发明所达到的有益效果是：本发明通过对平台的债务、流水、资产、人员等特征数据进行大数据分析，形成一套科学、有效的平台公司性质分类预测方法，便于对融资平台企业进行有效监管。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明融资平台企业性质分类方法的流程示意图；

图2是本发明融资平台企业性质分类系统的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供技术方案：一种融资平台企业性质分类方法，所述分类方法包括以下步骤：

在具体实施过程中，从企业的银行账户信息和交易流水中按照时间、资金往来、账户类型等维度统计交易卡数、交易次数、交易金额；

例如：

a)按照年月统计公司的全部交易：卡数，次数，金额；

b)按照资金进出及年月统计公司的全部交易：卡数，次数，金额；

c)按照资金内外部交易及年月统计公司的全部交易：卡数，次数，金额；

d)按照账户类型及年月统计公司的全部交易：卡数，次数，金额；

e)按照账户类型，内外部交易及年月统计公司的全部交易：卡数，次数，金额；

f)按照账户类型，内外部交易，资金进出及年月统计公司的全部交易：卡数，次数，金额；

g)按照以上生成月平均指标的衍生变量；

h)b-f按年月统计数据除以a中按年月统计的变量，生成占比指标衍生变量；

根据上述内容提取特征变量，同时还可以将下述内容作为特征变量考虑进去：注册地址重合情况、按照备注类型交易情况、按照股权结构内外部交易情况、按照账户状态交易情况、按照大额交易情况；

步骤S200：根据各个特征变量的实际意义选择合适的方法补充缺失值，得到特征变量与企业相对应的数据表，并对这P个特征变量进行标准化处理；P个特征变量确定是根据业务特性，通过多维统计、均值计算方法来获取，所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。

所述步骤S200中的标准化处理包括以下步骤：

步骤S210：计算各个特征变量的平均值

其中，t表示企业的数量，i的取值范围为1到P,

步骤S220，计算各特征变量标准差，计算公式为：

其中，σ_i为第i个特征变量的标准差，

为开平方，

为步骤210所述的各个特征变量平均值；

其中，X为各个特征变量的数据，V^*为对应的X经过标准化处理得到的数据；在进行标准化处理时，是将各个特征变量中的每一个数据都进行标准化处理；

所述步骤S300包括以下步骤：

所述步骤S400包括以下步骤：

步骤S421，将某个输入特征所对应的所有特征值按照从小到大的顺序排序，按顺序依次选取该个输入特征的各个特征值作为参照值进行比较，在将该输入特征的特征值与该次选取的参照值进行比较时，当存在该个输入特征的特征值小于等于参照值时，将该相应的特征值归到D_left子集中，当存在该个输入特征的特征值大于参照值时，将该相应的特征值归到D_right子集中，计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I，取其中I最小的特征值作为该输入特征的信息熵；一个输入特征对应有多个特征值，对这些特征值进行排序去重后，分别依次选取排序去重后的特征值作为参照值，如果这个输入特征的一个特征值大于该次选取的参照值，分为一类子集，如果这个输入特征的一个特征值小于等于该次选取的参照值，分为一类子集，每一个特征值作为参照值时都会得到一种子集划分情况，本申请中该个输入特征的所有特征值得到的所有子集划分情况即为排序去重后得到的所有特征值作参照值时得到的子集划分情况。

N表示当前样本数据集中样本个数，当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集，N为原始样本数据集中的样本个数，当该棵决策树的当前样本数据集为划分子集后的样本数据集，N为划分子集中的样本个数，N_left表示当前样本数据集分出的一个子集D_left中样本个数，N_right表示当前样本数据集分出的另一个子集D_right中样本个数；

E(D_left)表示子集D_left的信息熵，E(D_right)表示子集D_right的信息熵；

步骤S422，计算所有特征的I_n-E_init,I_n表示第n个特征的信息熵，取I_n-E_init值最大所对应的特征作为切分点将当前样本数据集分成两个子集D_left和D_right；

一种应用上述的融资平台企业性质分类方法的融资平台企业性质分类系统，所述分类系统包括数据获取模块和数据计算模块；

所述分类系统还包括信息展示模块，所述信息展示模块用于展示数据计算模块的分类结果。

因为企业的样本数据已有阳性样本，即已标记企业的性质为空壳还是实体，因此，本申请中通过随机森林算法对样本进行训练和预测，根据不同性质的企业，训练模型学习样本数据固有的内在属性或联系，找到区分空壳或实体公司的数据特征，以此来预测企业的性质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。