CN113129133A - 一种融资平台企业性质分类方法和系统 - Google Patents

一种融资平台企业性质分类方法和系统 Download PDF

Info

Publication number
CN113129133A
CN113129133A CN202110536252.6A CN202110536252A CN113129133A CN 113129133 A CN113129133 A CN 113129133A CN 202110536252 A CN202110536252 A CN 202110536252A CN 113129133 A CN113129133 A CN 113129133A
Authority
CN
China
Prior art keywords
characteristic
sample data
data set
value
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110536252.6A
Other languages
English (en)
Other versions
CN113129133B (zh
Inventor
徐衡锐
黄雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Hangwu Technology Co ltd
Original Assignee
Wuxi Hangwu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Hangwu Technology Co ltd filed Critical Wuxi Hangwu Technology Co ltd
Priority to CN202110536252.6A priority Critical patent/CN113129133B/zh
Publication of CN113129133A publication Critical patent/CN113129133A/zh
Application granted granted Critical
Publication of CN113129133B publication Critical patent/CN113129133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种融资平台企业性质分类方法和系统,分类系统包括数据获取模块、数据计算模块和信息展示模块,数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量,数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类,信息展示模块用于展示数据计算模块的分类结果,本发明通过对平台的债务、流水、资产、人员等特征数据进行大数据分析,形成一套科学、有效的平台公司性质分类预测方法,便于对融资平台企业进行有效监管。

Description

一种融资平台企业性质分类方法和系统
技术领域
本发明涉及企业分类评估技术领域,具体为一种融资平台企业性质分类方法和系统。
背景技术
近年来,融资平台作为主力军和先锋队,为推进城市教育医疗、文体场馆、道路桥梁、污水处理及地下管网等公共基础设施建设积极筹措资金,有效促进了地方经济增长和民生改善,为提高城市品位做出了突出贡献。然而,随着经济增长下行与系统性风险上升压力并存局面的形成,融资平台潜在的违约、经营、政策及建设等风险不容忽视。融资平台务必要审时度势,防患未然,多措并举做好风险防控。融资平台实现业务转型,是防控融资平台政策风险的核心关键。
融资平台的业务转型是一个逐步推进的过程,需要有一套科学、高效、实时的融资平台分析机制。根据融资平台公司实际情况,分为空壳类公司、实体类公司、商业类公司。空壳类公司待相关债务化解完毕后,通过整合、撤销,减少数量。实体类公司在债务化解过程中,通过市场化转型,做大做强主体业务。商业类公司,逐步化解相关债务。
发明内容
本发明的目的在于提供一种融资平台企业性质分类方法和系统,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种融资平台企业性质分类方法和系统,所述分类方法包括以下步骤:
步骤S100:从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,从分析基表中统计和衍生出P个特征变量,P为自然数;
步骤S200:根据各个特征变量的实际意义选择合适的方法补充缺失值,得到特征变量与企业相对应的数据表,并对这P个特征变量进行标准化处理;
步骤S300:计算各个特征变量的重要度,并从P个特征变量中选取部分样本数据分别构建多棵决策树,选择出M个合适的特征变量作为模型输入特征变量,其中,M为自然数;
步骤S400:构建由多棵决策树构成的随机森林,以信息熵作为特征选择的标准,判别输入特征变量的类型,进而对企业进行分类。
进一步的,所述步骤S200中的标准化处理包括以下步骤:
步骤S210:计算各个特征变量的平均值
Figure BDA0003069946740000021
其中,t表示企业的数量,i的取值范围为1到P,
Figure BDA0003069946740000022
为第i个特征变量的平均值,xi1表示第一个企业的第i个特征变量的数值;
步骤S220,计算各特征变量标准差,计算公式为:
Figure BDA0003069946740000023
其中,σi为第i个特征变量的标准差,
Figure BDA0003069946740000024
为开平方,
Figure BDA0003069946740000025
为步骤210所述的各个特征变量平均值;
步骤S230,对各特征变量进行数据标准化处理,其计算公式为:
Figure BDA0003069946740000026
其中,X为各个特征变量的数据,V*为对应的X经过标准化处理得到的数据。。
进一步的,所述步骤S300包括以下步骤:
步骤S310,利用P个特征变量的部分样本数据构建多棵决策树,对每一棵决策树,选择相应的袋外数据OOB计算袋外数据误差,记为errOOB1;
步骤S320,随机对袋外数据OOB所有样本的特征X加入噪声干扰,随机改变样本在特征X处的值,再次计算袋外数据误差errOOB2;
步骤S330,那么特征X的重要性=∑(errOOB2-errOOB1)/N,其中,N为决策树的棵数,将各个特征按照重要性从大到小的顺序排序,选取排序前M所对应的特征变量作为模型输入特征变量。
进一步的,所述步骤S400包括以下步骤:
步骤S410,计算某棵决策树的当前样本数据集的初始信息熵Einit,计算公式为:
Figure BDA0003069946740000027
Figure BDA0003069946740000028
其中,当该棵决策树未划分子集时,该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,当该棵决策树划分子集后,该棵决策树的当前样本数据集为划分子集后的样本数据集,Pi为第i个类别在当前样本数据集中出现的概率,j为当前样本数据集中的企业分类数量;
步骤S420,计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵,其中,K小于等于M,K个模型输入特征变量为从M个模型输入特征变量中选取的变量,运用二叉树将当前样本数据集划分为两个子集Dleft和Dright,包括:
步骤S421,将某个输入特征所对应的所有特征值按照从小到大的顺序排序,按顺序依次选取该个输入特征的各个特征值作为参照值进行比较,在将该输入特征的特征值与该次选取的参照值进行比较时,当存在该个输入特征的特征值小于等于参照值时,将该相应的特征值归到Dleft子集中,当存在该个输入特征的特征值大于参照值时,将该相应的特征值归到Dright子集中,计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I,取其中I最小的特征值作为该输入特征的信息熵;
其中,输入特征的某个特征值得到的子集划分情况所对应的信息熵
Figure BDA0003069946740000031
N表示当前样本数据集中样本个数,当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,N为原始样本数据集中的样本个数,当该棵决策树的当前样本数据集为划分子集后的样本数据集,N为划分子集中的样本个数,Nleft表示当前样本数据集分出的一个子集Dleft中样本个数,Nright表示当前样本数据集分出的另一个子集Dright中样本个数;E(Dleft)表示子集Dleft的信息熵,E(Dright)表示子集Dright的信息熵,按照上述方法,计算出所有模型输入特征变量维度的信息熵;
步骤S422,计算所有特征的In-Einit,In表示第n个特征的信息熵,取In-Eintit值最大所对应的特征作为切分点将当前样本数据集分成两个子集Dleft和Dright
步骤S430,在子集部分递归调用步骤S410-420直到子集信息熵I为0或者In-Einit小于阈值的时候,停止继续划分子集,模型训练完成;
步骤S440,在模型的最底层子集中,样本类型个数最多的类型为该子集的类型,根据输入特征,返回与输入特征相对应的子集的类型作为该企业的性质类别。
进一步的,所述分类方法还包括:所述P个特征变量确定是根据业务特性,通过多维统计、均值计算方法来获取,所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。
进一步的,所述分类系统包括数据获取模块和数据计算模块;
所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量;
所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。
进一步的,所述分类系统还包括信息展示模块,所述信息展示模块用于展示数据计算模块的分类结果。
与现有技术相比,本发明所达到的有益效果是:本发明通过对平台的债务、流水、资产、人员等特征数据进行大数据分析,形成一套科学、有效的平台公司性质分类预测方法,便于对融资平台企业进行有效监管。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明融资平台企业性质分类方法的流程示意图;
图2是本发明融资平台企业性质分类系统的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供技术方案:一种融资平台企业性质分类方法,所述分类方法包括以下步骤:
步骤S100:从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,从分析基表中统计和衍生出P个特征变量,P为自然数;
在具体实施过程中,从企业的银行账户信息和交易流水中按照时间、资金往来、账户类型等维度统计交易卡数、交易次数、交易金额;
例如:
a)按照年月统计公司的全部交易:卡数,次数,金额;
b)按照资金进出及年月统计公司的全部交易:卡数,次数,金额;
c)按照资金内外部交易及年月统计公司的全部交易:卡数,次数,金额;
d)按照账户类型及年月统计公司的全部交易:卡数,次数,金额;
e)按照账户类型,内外部交易及年月统计公司的全部交易:卡数,次数,金额;
f)按照账户类型,内外部交易,资金进出及年月统计公司的全部交易:卡数,次数,金额;
g)按照以上生成月平均指标的衍生变量;
h)b-f按年月统计数据除以a中按年月统计的变量,生成占比指标衍生变量;
根据上述内容提取特征变量,同时还可以将下述内容作为特征变量考虑进去:注册地址重合情况、按照备注类型交易情况、按照股权结构内外部交易情况、按照账户状态交易情况、按照大额交易情况;
步骤S200:根据各个特征变量的实际意义选择合适的方法补充缺失值,得到特征变量与企业相对应的数据表,并对这P个特征变量进行标准化处理;P个特征变量确定是根据业务特性,通过多维统计、均值计算方法来获取,所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。
所述步骤S200中的标准化处理包括以下步骤:
步骤S210:计算各个特征变量的平均值
Figure BDA0003069946740000051
其中,t表示企业的数量,i的取值范围为1到P,
Figure BDA0003069946740000052
为第i个特征变量的平均值,xi1表示第一个企业的第i个特征变量的数值;
步骤S220,计算各特征变量标准差,计算公式为:
Figure BDA0003069946740000053
其中,σi为第i个特征变量的标准差,
Figure BDA0003069946740000054
为开平方,
Figure BDA0003069946740000055
为步骤210所述的各个特征变量平均值;
步骤S230,对各特征变量进行数据标准化处理,其计算公式为:
Figure BDA0003069946740000056
其中,X为各个特征变量的数据,V*为对应的X经过标准化处理得到的数据;在进行标准化处理时,是将各个特征变量中的每一个数据都进行标准化处理;
步骤S300:计算各个特征变量的重要度,并从P个特征变量中选取部分样本数据分别构建多棵决策树,选择出M个合适的特征变量作为模型输入特征变量,其中,M为自然数;
所述步骤S300包括以下步骤:
步骤S310,利用P个特征变量的部分样本数据构建多棵决策树,对每一棵决策树,选择相应的袋外数据OOB计算袋外数据误差,记为errOOB1;
步骤S320,随机对袋外数据OOB所有样本的特征X加入噪声干扰,随机改变样本在特征X处的值,再次计算袋外数据误差errOOB2;
步骤S330,那么特征X的重要性=∑(errOOB2-errOOB1)/N,其中,N为决策树的棵数,将各个特征按照重要性从大到小的顺序排序,选取排序前M所对应的特征变量作为模型输入特征变量。
步骤S400:构建由多棵决策树构成的随机森林,以信息熵作为特征选择的标准,判别输入特征变量的类型,进而对企业进行分类。
所述步骤S400包括以下步骤:
步骤S410,计算某棵决策树的当前样本数据集的初始信息熵Einit,计算公式为:
Figure BDA0003069946740000061
Figure BDA0003069946740000062
其中,当该棵决策树未划分子集时,该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,当该棵决策树划分子集后,该棵决策树的当前样本数据集为划分子集后的样本数据集,Pi为第i个类别在当前样本数据集中出现的概率,j为当前样本数据集中的企业分类数量;
步骤S420,计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵,其中,K小于等于M,K个模型输入特征变量为从M个模型输入特征变量中选取的变量,运用二叉树将当前样本数据集划分为两个子集Dleft和Dright,包括:
步骤S421,将某个输入特征所对应的所有特征值按照从小到大的顺序排序,按顺序依次选取该个输入特征的各个特征值作为参照值进行比较,在将该输入特征的特征值与该次选取的参照值进行比较时,当存在该个输入特征的特征值小于等于参照值时,将该相应的特征值归到Dleft子集中,当存在该个输入特征的特征值大于参照值时,将该相应的特征值归到Dright子集中,计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I,取其中I最小的特征值作为该输入特征的信息熵;一个输入特征对应有多个特征值,对这些特征值进行排序去重后,分别依次选取排序去重后的特征值作为参照值,如果这个输入特征的一个特征值大于该次选取的参照值,分为一类子集,如果这个输入特征的一个特征值小于等于该次选取的参照值,分为一类子集,每一个特征值作为参照值时都会得到一种子集划分情况,本申请中该个输入特征的所有特征值得到的所有子集划分情况即为排序去重后得到的所有特征值作参照值时得到的子集划分情况。
其中,输入特征的某个特征值得到的子集划分情况所对应的信息熵
Figure BDA0003069946740000071
N表示当前样本数据集中样本个数,当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,N为原始样本数据集中的样本个数,当该棵决策树的当前样本数据集为划分子集后的样本数据集,N为划分子集中的样本个数,Nleft表示当前样本数据集分出的一个子集Dleft中样本个数,Nright表示当前样本数据集分出的另一个子集Dright中样本个数;
E(Dleft)表示子集Dleft的信息熵,E(Dright)表示子集Dright的信息熵;
步骤S422,计算所有特征的In-Einit,In表示第n个特征的信息熵,取In-Einit值最大所对应的特征作为切分点将当前样本数据集分成两个子集Dleft和Dright
步骤S430,在子集部分递归调用步骤S410-420直到子集信息熵I为0或者In-Einit小于阈值的时候,停止继续划分子集,模型训练完成;
步骤S440,在模型的最底层子集中,样本类型个数最多的类型为该子集的类型,根据输入特征,返回与输入特征相对应的子集的类型作为该企业的性质类别。
一种应用上述的融资平台企业性质分类方法的融资平台企业性质分类系统,所述分类系统包括数据获取模块和数据计算模块;
所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量;
所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。
所述分类系统还包括信息展示模块,所述信息展示模块用于展示数据计算模块的分类结果。
因为企业的样本数据已有阳性样本,即已标记企业的性质为空壳还是实体,因此,本申请中通过随机森林算法对样本进行训练和预测,根据不同性质的企业,训练模型学习样本数据固有的内在属性或联系,找到区分空壳或实体公司的数据特征,以此来预测企业的性质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种融资平台企业性质分类方法,其特征在于,所述分类方法包括以下步骤:
步骤S100:从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,从分析基表中统计和衍生出P个特征变量,P为自然数;
步骤S200:根据各个特征变量的实际意义选择合适的方法补充缺失值,得到特征变量与企业相对应的数据表,并对这P个特征变量进行标准化处理;
步骤S300:计算各个特征变量的重要度,并从P个特征变量中选取部分样本数据分别构建多棵决策树,选择出M个合适的特征变量作为模型输入特征变量,其中,M为自然数;
步骤S400:构建由多棵决策树构成的随机森林,以信息熵作为特征选择的标准,判别输入特征变量的类型,进而对企业进行分类。
2.根据权利要求1所述的一种融资平台企业性质分类方法,其特征在于:所述步骤S200中的标准化处理包括以下步骤:
步骤S210:计算各个特征变量的平均值
Figure FDA0003069946730000011
其中,t表示企业的数量,i的取值范围为1到P,
Figure FDA0003069946730000012
为第i个特征变量的平均值,xi1表示第一个企业的第i个特征变量的数值;
步骤S220,计算各特征变量标准差,计算公式为:
Figure FDA0003069946730000013
其中,σi为第i个特征变量的标准差,
Figure FDA0003069946730000014
为开平方,
Figure FDA0003069946730000015
为步骤210所述的各个特征变量平均值;
步骤S230,对各特征变量进行数据标准化处理,其计算公式为:
Figure FDA0003069946730000016
其中,X为各个特征变量的数据,V*为对应的X经过标准化处理得到的数据。
3.根据权利要求1所述的一种融资平台企业性质分类方法,其特征在于:所述步骤S300包括以下步骤:
步骤S310,利用P个特征变量的部分样本数据构建多棵决策树,对每一棵决策树,选择相应的袋外数据OOB计算袋外数据误差,记为errOOB1;
步骤S320,随机对袋外数据OOB所有样本的特征X加入噪声干扰,随机改变样本在特征X处的值,再次计算袋外数据误差errOOB2;
步骤S330,那么特征X的重要性=∑(errOOB2-errOOB1)/N,其中,N为决策树的棵数,将各个特征按照重要性从大到小的顺序排序,选取排序前M所对应的特征变量作为模型输入特征变量。
4.根据权利要求1所述的一种融资平台企业性质分类方法,其特征在于:所述步骤S400包括以下步骤:
步骤S410,计算某棵决策树的当前样本数据集的初始信息熵Einit,计算公式为:
Figure FDA0003069946730000021
Figure FDA0003069946730000022
其中,当该棵决策树未划分子集时,该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,当该棵决策树划分子集后,该棵决策树的当前样本数据集为划分子集后的样本数据集,Pi为第i个类别在当前样本数据集中出现的概率,j为当前样本数据集中的企业分类数量;
步骤S420,计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵,其中,K小于等于M,K个模型输入特征变量为从M个模型输入特征变量中选取的变量,运用二叉树将当前样本数据集划分为两个子集Dleft和Dright,包括:
步骤S421,将某个输入特征所对应的所有特征值按照从小到大的顺序排序,按顺序依次选取该个输入特征的各个特征值作为参照值进行比较,在将该输入特征的特征值与该次选取的参照值进行比较时,当存在该个输入特征的特征值小于等于参照值时,将该相应的特征值归到Dleft子集中,当存在该个输入特征的特征值大于参照值时,将该相应的特征值归到Dright子集中,计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I,取其中I最小的特征值作为该输入特征的信息熵;
其中,输入特征的某个特征值得到的子集划分情况所对应的信息熵
Figure FDA0003069946730000023
N表示当前样本数据集中样本个数,当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,N为原始样本数据集中的样本个数,当该棵决策树的当前样本数据集为划分子集后的样本数据集,N为划分子集中的样本个数,Nleft表示当前样本数据集分出的一个子集Dleft中样本个数,Nright表示当前样本数据集分出的另一个子集Dright中样本个数;E(Dleft)表示子集Dleft的信息熵,E(Dright)表示子集Dright的信息熵,按照上述方法,计算出所有模型输入特征变量维度的信息熵;
步骤S422,计算所有特征的In-Einit,In表示第n个特征的信息熵,取In-Einit值最大所对应的特征作为切分点将当前样本数据集分成两个子集Dleft和Dright
步骤S430,在子集部分递归调用步骤S410-420直到子集信息熵I为0或者In-Einit小于阈值的时候,停止继续划分子集,模型训练完成;
步骤S440,在模型的最底层子集中,样本类型个数最多的类型为该子集的类型,根据输入特征,返回与输入特征相对应的子集的类型作为该企业的性质类别。
5.根据权利要求1所述的一种融资平台企业性质分类方法和系统,其特征在于:所述分类方法还包括:所述P个特征变量确定是根据业务特性,通过多维统计、均值计算方法来获取,所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。
6.一种应用权利要求1-5中任一项所述的融资平台企业性质分类方法的融资平台企业性质分类系统,其特征在于:所述分类系统包括数据获取模块和数据计算模块;
所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量;
所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。
7.根据权利要求6所述的一种融资平台企业性质分类方法和系统,其特征在于:所述分类系统还包括信息展示模块,所述信息展示模块用于展示数据计算模块的分类结果。
CN202110536252.6A 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统 Active CN113129133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536252.6A CN113129133B (zh) 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536252.6A CN113129133B (zh) 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统

Publications (2)

Publication Number Publication Date
CN113129133A true CN113129133A (zh) 2021-07-16
CN113129133B CN113129133B (zh) 2023-11-21

Family

ID=76782179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536252.6A Active CN113129133B (zh) 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统

Country Status (1)

Country Link
CN (1) CN113129133B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114524A (ko) * 2018-03-30 2019-10-10 세종대학교산학협력단 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치
CN112053233A (zh) * 2020-09-04 2020-12-08 天元大数据信用管理有限公司 基于gra的动态中小企业信用评分方法及系统
CN112308466A (zh) * 2020-11-26 2021-02-02 东莞市盟大塑化科技有限公司 企业资质审核方法、装置、计算机设备和存储介质
CN112329862A (zh) * 2020-11-09 2021-02-05 杭州安恒信息技术股份有限公司 基于决策树的反洗钱方法及系统
CN112801773A (zh) * 2021-01-20 2021-05-14 招商银行股份有限公司 企业风险预警方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114524A (ko) * 2018-03-30 2019-10-10 세종대학교산학협력단 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치
CN112053233A (zh) * 2020-09-04 2020-12-08 天元大数据信用管理有限公司 基于gra的动态中小企业信用评分方法及系统
CN112329862A (zh) * 2020-11-09 2021-02-05 杭州安恒信息技术股份有限公司 基于决策树的反洗钱方法及系统
CN112308466A (zh) * 2020-11-26 2021-02-02 东莞市盟大塑化科技有限公司 企业资质审核方法、装置、计算机设备和存储介质
CN112801773A (zh) * 2021-01-20 2021-05-14 招商银行股份有限公司 企业风险预警方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄天云;刘一平;: "基于二类Logistic回归的小微企业网贷在线评估及实现", 西南民族大学学报(自然科学版), no. 04 *

Also Published As

Publication number Publication date
CN113129133B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
Kirkos et al. Data mining techniques for the detection of fraudulent financial statements
Babenko et al. Classical machine learning methods in economics research: Macro and micro level example
CN109492945A (zh) 企业风险识别监控方法、装置、设备及存储介质
CN111461216B (zh) 一种基于机器学习的案件风险识别方法
CN109739844B (zh) 基于衰减权重的数据分类方法
CN113095927A (zh) 一种反洗钱可疑交易识别方法及设备
AU2019101189A4 (en) A financial mining method for credit prediction
CN110930218A (zh) 一种识别欺诈客户的方法、装置及电子设备
CN110689437A (zh) 一种基于随机森林的通信施工项目财务风险预测方法
CN108228687A (zh) 大数据知识挖掘及精准跟踪方法与系统
CN110782349A (zh) 一种模型训练方法和系统
Wu et al. Application analysis of credit scoring of financial institutions based on machine learning model
CN112330441A (zh) 一种中小企业商业价值信用贷款评价方法
Zhu et al. Explainable prediction of loan default based on machine learning models
AU2019101160A4 (en) Application of decision tree and random forest in cash loan
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
Luo et al. Discrimination-aware association rule mining for unbiased data analytics
Ke et al. Loan repayment behavior prediction of provident fund users using a stacking-based model
CN113988878B (zh) 一种基于图数据库技术的反欺诈方法及系统
CN115618297A (zh) 识别异常企业的方法及其装置
CN113129133A (zh) 一种融资平台企业性质分类方法和系统
WO2022143431A1 (zh) 一种反洗钱模型的训练方法及装置
CN112926989B (zh) 一种基于多视图集成学习的银行贷款风险评估方法及设备
Kulothungan Loan Forecast by Using Machine Learning
Lee et al. Application of machine learning in credit risk scorecard

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant