CN113129133B - 一种融资平台企业性质分类方法和系统 - Google Patents

一种融资平台企业性质分类方法和系统 Download PDF

Info

Publication number
CN113129133B
CN113129133B CN202110536252.6A CN202110536252A CN113129133B CN 113129133 B CN113129133 B CN 113129133B CN 202110536252 A CN202110536252 A CN 202110536252A CN 113129133 B CN113129133 B CN 113129133B
Authority
CN
China
Prior art keywords
characteristic
sample data
value
feature
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110536252.6A
Other languages
English (en)
Other versions
CN113129133A (zh
Inventor
徐衡锐
黄雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Hangwu Technology Co ltd
Original Assignee
Wuxi Hangwu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Hangwu Technology Co ltd filed Critical Wuxi Hangwu Technology Co ltd
Priority to CN202110536252.6A priority Critical patent/CN113129133B/zh
Publication of CN113129133A publication Critical patent/CN113129133A/zh
Application granted granted Critical
Publication of CN113129133B publication Critical patent/CN113129133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种融资平台企业性质分类方法和系统,分类系统包括数据获取模块、数据计算模块和信息展示模块,数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量,数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类,信息展示模块用于展示数据计算模块的分类结果,本发明通过对平台的债务、流水、资产、人员等特征数据进行大数据分析,形成一套科学、有效的平台公司性质分类预测方法,便于对融资平台企业进行有效监管。

Description

一种融资平台企业性质分类方法和系统
技术领域
本发明涉及企业分类评估技术领域,具体为一种融资平台企业性质分类方法和系统。
背景技术
近年来,融资平台作为主力军和先锋队,为推进城市教育医疗、文体场馆、道路桥梁、污水处理及地下管网等公共基础设施建设积极筹措资金,有效促进了地方经济增长和民生改善,为提高城市品位做出了突出贡献。然而,随着经济增长下行与系统性风险上升压力并存局面的形成,融资平台潜在的违约、经营、政策及建设等风险不容忽视。融资平台务必要审时度势,防患未然,多措并举做好风险防控。融资平台实现业务转型,是防控融资平台政策风险的核心关键。
融资平台的业务转型是一个逐步推进的过程,需要有一套科学、高效、实时的融资平台分析机制。根据融资平台公司实际情况,分为空壳类公司、实体类公司、商业类公司。空壳类公司待相关债务化解完毕后,通过整合、撤销,减少数量。实体类公司在债务化解过程中,通过市场化转型,做大做强主体业务。商业类公司,逐步化解相关债务。
发明内容
本发明的目的在于提供一种融资平台企业性质分类方法和系统,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种融资平台企业性质分类方法和系统,所述分类方法包括以下步骤:
步骤S100:从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,从分析基表中统计和衍生出P个特征变量,P为自然数;
步骤S200:根据各个特征变量的实际意义选择合适的方法补充缺失值,得到特征变量与企业相对应的数据表,并对这P个特征变量进行标准化处理;
步骤S300:计算各个特征变量的重要度,并从P个特征变量中选取部分样本数据分别构建多棵决策树,选择出M个合适的特征变量作为模型输入特征变量,其中,M为自然数;
步骤S400:构建由多棵决策树构成的随机森林,以信息熵作为特征选择的标准,判别输入特征变量的类型,进而对企业进行分类。
进一步的,所述步骤S200中的标准化处理包括以下步骤:
步骤S210:计算各个特征变量的平均值其中,t表示企业的数量,i的取值范围为1到P,/>为第i个特征变量的平均值,xi1表示第一个企业的第i个特征变量的数值;
步骤S220,计算各特征变量标准差,计算公式为:
其中,σi为第i个特征变量的标准差,/>为开平方,/>为步骤210所述的各个特征变量平均值;
步骤S230,对各特征变量进行数据标准化处理,其计算公式为:其中,X为各个特征变量的数据,V*为对应的X经过标准化处理得到的数据。。
进一步的,所述步骤S300包括以下步骤:
步骤S310,利用P个特征变量的部分样本数据构建多棵决策树,对每一棵决策树,选择相应的袋外数据OOB计算袋外数据误差,记为errOOB1;
步骤S320,随机对袋外数据OOB所有样本的特征X加入噪声干扰,随机改变样本在特征X处的值,再次计算袋外数据误差errOOB2;
步骤S330,那么特征X的重要性=∑(errOOB2-errOOB1)/N,其中,N为决策树的棵数,将各个特征按照重要性从大到小的顺序排序,选取排序前M所对应的特征变量作为模型输入特征变量。
进一步的,所述步骤S400包括以下步骤:
步骤S410,计算某棵决策树的当前样本数据集的初始信息熵Einit,计算公式为: 其中,当该棵决策树未划分子集时,该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,当该棵决策树划分子集后,该棵决策树的当前样本数据集为划分子集后的样本数据集,Pi为第i个类别在当前样本数据集中出现的概率,j为当前样本数据集中的企业分类数量;
步骤S420,计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵,其中,K小于等于M,K个模型输入特征变量为从M个模型输入特征变量中选取的变量,运用二叉树将当前样本数据集划分为两个子集Dleft和Dright,包括:
步骤S421,将某个输入特征所对应的所有特征值按照从小到大的顺序排序,按顺序依次选取该个输入特征的各个特征值作为参照值进行比较,在将该输入特征的特征值与该次选取的参照值进行比较时,当存在该个输入特征的特征值小于等于参照值时,将该相应的特征值归到Dleft子集中,当存在该个输入特征的特征值大于参照值时,将该相应的特征值归到Dright子集中,计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I,取其中I最小的特征值作为该输入特征的信息熵;
其中,输入特征的某个特征值得到的子集划分情况所对应的信息熵
N表示当前样本数据集中样本个数,当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,N为原始样本数据集中的样本个数,当该棵决策树的当前样本数据集为划分子集后的样本数据集,N为划分子集中的样本个数,Nleft表示当前样本数据集分出的一个子集Dleft中样本个数,Nright表示当前样本数据集分出的另一个子集Dright中样本个数;E(Dleft)表示子集Dleft的信息熵,E(Dright)表示子集Dright的信息熵,按照上述方法,计算出所有模型输入特征变量维度的信息熵;
步骤S422,计算所有特征的In-Einit,In表示第n个特征的信息熵,取In-Eintit值最大所对应的特征作为切分点将当前样本数据集分成两个子集Dleft和Dright
步骤S430,在子集部分递归调用步骤S410-420直到子集信息熵I为0或者In-Einit小于阈值的时候,停止继续划分子集,模型训练完成;
步骤S440,在模型的最底层子集中,样本类型个数最多的类型为该子集的类型,根据输入特征,返回与输入特征相对应的子集的类型作为该企业的性质类别。
进一步的,所述分类方法还包括:所述P个特征变量确定是根据业务特性,通过多维统计、均值计算方法来获取,所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。
进一步的,所述分类系统包括数据获取模块和数据计算模块;
所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量;
所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。
进一步的,所述分类系统还包括信息展示模块,所述信息展示模块用于展示数据计算模块的分类结果。
与现有技术相比,本发明所达到的有益效果是:本发明通过对平台的债务、流水、资产、人员等特征数据进行大数据分析,形成一套科学、有效的平台公司性质分类预测方法,便于对融资平台企业进行有效监管。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明融资平台企业性质分类方法的流程示意图;
图2是本发明融资平台企业性质分类系统的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供技术方案:一种融资平台企业性质分类方法,所述分类方法包括以下步骤:
步骤S100:从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,从分析基表中统计和衍生出P个特征变量,P为自然数;
在具体实施过程中,从企业的银行账户信息和交易流水中按照时间、资金往来、账户类型等维度统计交易卡数、交易次数、交易金额;
例如:
a)按照年月统计公司的全部交易:卡数,次数,金额;
b)按照资金进出及年月统计公司的全部交易:卡数,次数,金额;
c)按照资金内外部交易及年月统计公司的全部交易:卡数,次数,金额;
d)按照账户类型及年月统计公司的全部交易:卡数,次数,金额;
e)按照账户类型,内外部交易及年月统计公司的全部交易:卡数,次数,金额;
f)按照账户类型,内外部交易,资金进出及年月统计公司的全部交易:卡数,次数,金额;
g)按照以上生成月平均指标的衍生变量;
h)b-f按年月统计数据除以a中按年月统计的变量,生成占比指标衍生变量;
根据上述内容提取特征变量,同时还可以将下述内容作为特征变量考虑进去:注册地址重合情况、按照备注类型交易情况、按照股权结构内外部交易情况、按照账户状态交易情况、按照大额交易情况;
步骤S200:根据各个特征变量的实际意义选择合适的方法补充缺失值,得到特征变量与企业相对应的数据表,并对这P个特征变量进行标准化处理;P个特征变量确定是根据业务特性,通过多维统计、均值计算方法来获取,所述补齐数据值是人工根据表中的数据特性为属性还是数值来补充缺失值。
所述步骤S200中的标准化处理包括以下步骤:
步骤S210:计算各个特征变量的平均值其中,t表示企业的数量,i的取值范围为1到P,/>为第i个特征变量的平均值,xi1表示第一个企业的第i个特征变量的数值;
步骤S220,计算各特征变量标准差,计算公式为:
其中,σi为第i个特征变量的标准差,/>为开平方,/>为步骤210所述的各个特征变量平均值;
步骤S230,对各特征变量进行数据标准化处理,其计算公式为:其中,X为各个特征变量的数据,V*为对应的X经过标准化处理得到的数据;在进行标准化处理时,是将各个特征变量中的每一个数据都进行标准化处理;
步骤S300:计算各个特征变量的重要度,并从P个特征变量中选取部分样本数据分别构建多棵决策树,选择出M个合适的特征变量作为模型输入特征变量,其中,M为自然数;
所述步骤S300包括以下步骤:
步骤S310,利用P个特征变量的部分样本数据构建多棵决策树,对每一棵决策树,选择相应的袋外数据OOB计算袋外数据误差,记为errOOB1;
步骤S320,随机对袋外数据OOB所有样本的特征X加入噪声干扰,随机改变样本在特征X处的值,再次计算袋外数据误差errOOB2;
步骤S330,那么特征X的重要性=∑(errOOB2-errOOB1)/N,其中,N为决策树的棵数,将各个特征按照重要性从大到小的顺序排序,选取排序前M所对应的特征变量作为模型输入特征变量。
步骤S400:构建由多棵决策树构成的随机森林,以信息熵作为特征选择的标准,判别输入特征变量的类型,进而对企业进行分类。
所述步骤S400包括以下步骤:
步骤S410,计算某棵决策树的当前样本数据集的初始信息熵Einit,计算公式为: 其中,当该棵决策树未划分子集时,该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,当该棵决策树划分子集后,该棵决策树的当前样本数据集为划分子集后的样本数据集,Pi为第i个类别在当前样本数据集中出现的概率,j为当前样本数据集中的企业分类数量;
步骤S420,计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵,其中,K小于等于M,K个模型输入特征变量为从M个模型输入特征变量中选取的变量,运用二叉树将当前样本数据集划分为两个子集Dleft和Dright,包括:
步骤S421,将某个输入特征所对应的所有特征值按照从小到大的顺序排序,按顺序依次选取该个输入特征的各个特征值作为参照值进行比较,在将该输入特征的特征值与该次选取的参照值进行比较时,当存在该个输入特征的特征值小于等于参照值时,将该相应的特征值归到Dleft子集中,当存在该个输入特征的特征值大于参照值时,将该相应的特征值归到Dright子集中,计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I,取其中I最小的特征值作为该输入特征的信息熵;一个输入特征对应有多个特征值,对这些特征值进行排序去重后,分别依次选取排序去重后的特征值作为参照值,如果这个输入特征的一个特征值大于该次选取的参照值,分为一类子集,如果这个输入特征的一个特征值小于等于该次选取的参照值,分为一类子集,每一个特征值作为参照值时都会得到一种子集划分情况,本申请中该个输入特征的所有特征值得到的所有子集划分情况即为排序去重后得到的所有特征值作参照值时得到的子集划分情况。
其中,输入特征的某个特征值得到的子集划分情况所对应的信息熵
N表示当前样本数据集中样本个数,当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,N为原始样本数据集中的样本个数,当该棵决策树的当前样本数据集为划分子集后的样本数据集,N为划分子集中的样本个数,Nleft表示当前样本数据集分出的一个子集Dleft中样本个数,Nright表示当前样本数据集分出的另一个子集Dright中样本个数;
E(Dleft)表示子集Dleft的信息熵,E(Dright)表示子集Dright的信息熵;
步骤S422,计算所有特征的In-Einit,In表示第n个特征的信息熵,取In-Einit值最大所对应的特征作为切分点将当前样本数据集分成两个子集Dleft和Dright
步骤S430,在子集部分递归调用步骤S410-420直到子集信息熵I为0或者In-Einit小于阈值的时候,停止继续划分子集,模型训练完成;
步骤S440,在模型的最底层子集中,样本类型个数最多的类型为该子集的类型,根据输入特征,返回与输入特征相对应的子集的类型作为该企业的性质类别。
一种应用上述的融资平台企业性质分类方法的融资平台企业性质分类系统,所述分类系统包括数据获取模块和数据计算模块;
所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量;
所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。
所述分类系统还包括信息展示模块,所述信息展示模块用于展示数据计算模块的分类结果。
因为企业的样本数据已有阳性样本,即已标记企业的性质为空壳还是实体,因此,本申请中通过随机森林算法对样本进行训练和预测,根据不同性质的企业,训练模型学习样本数据固有的内在属性或联系,找到区分空壳或实体公司的数据特征,以此来预测企业的性质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种融资平台企业性质分类方法,其特征在于,所述分类方法包括以下步骤:
步骤S100:从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,从分析基表中统计和衍生出P个特征变量,P为自然数;
步骤S200:根据各个特征变量的实际意义选择合适的方法补充缺失值,得到特征变量与企业相对应的数据表,并对这P个特征变量进行标准化处理;
步骤S300:计算各个特征变量的重要度,并从P个特征变量中选取部分样本数据分别构建多棵决策树,选择出M个合适的特征变量作为模型输入特征变量,其中,M为自然数;
步骤S400:构建由多棵决策树构成的随机森林,以信息熵作为特征选择的标准,判别输入特征变量的类型,进而对企业进行分类;
所述步骤S400包括以下步骤:
步骤S410,计算某棵决策树的当前样本数据集的初始信息熵Einit,计算公式为: 其中,当该棵决策树未划分子集时,该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,当该棵决策树划分子集后,该棵决策树的当前样本数据集为划分子集后的样本数据集,Pi为第i个类别在当前样本数据集中出现的概率,j为当前样本数据集中的企业分类数量;
步骤S420,计算各个当前样本数据集中输入K个模型输入特征变量维度的信息熵,其中,K小于等于M,K个模型输入特征变量为从M个模型输入特征变量中选取的变量,运用二叉树将当前样本数据集划分为两个子集Dleft和Dright,包括:
步骤S421,将某个输入特征所对应的所有特征值按照从小到大的顺序排序,按顺序依次选取该个输入特征的各个特征值作为参照值进行比较,在将该输入特征的特征值与该次选取的参照值进行比较时,当存在该个输入特征的特征值小于等于参照值时,将该特征值归到Dleft子集中,当存在该个输入特征的特征值大于参照值时,将该特征值归到Dright子集中,计算出该个输入特征的所有参照值得到的所有子集划分情况所对应的I,取其中I最小的特征值作为该输入特征的信息熵;
其中,输入特征的某个特征值得到的子集划分情况所对应的信息熵
N表示当前样本数据集中样本个数,当该棵决策树的当前样本数据集为该棵决策树的原始样本数据集,N为原始样本数据集中的样本个数,当该棵决策树的当前样本数据集为划分子集后的样本数据集,N为划分子集中的样本个数,Nleft表示当前样本数据集分出的一个子集Dleft中样本个数,Nright表示当前样本数据集分出的另一个子集Dright中样本个数;E(Dleft)表示子集Dleft的信息熵,E(Dright)表示子集Dright的信息熵,按照上述方法,计算出所有模型输入特征变量维度的信息熵;
步骤S422,计算所有特征的In-Einit,In表示第n个特征的信息熵,取In-Einit值最大所对应的特征作为切分点将当前样本数据集分成两个子集Dleft和Dright
步骤S430,在子集部分递归调用步骤S410-420直到子集信息熵I为0或者In-Einit小于阈值的时候,停止继续划分子集,模型训练完成;
步骤S440,在模型的最底层子集中,样本类型个数最多的类型为该子集的类型,根据输入特征,返回与输入特征相对应的子集的类型作为该企业的性质类别。
2.根据权利要求1所述的一种融资平台企业性质分类方法,其特征在于:所述步骤S200中的标准化处理包括以下步骤:
步骤S210:计算各个特征变量的平均值其中,t表示企业的数量,i的取值范围为1到P,/>为第i个特征变量的平均值,xi1表示第一个企业的第i个特征变量的数值;
步骤S220,计算各特征变量标准差,计算公式为:
其中,σi为第i个特征变量的标准差,/>为开平方,/>为步骤210所述的各个特征变量平均值;
步骤S230,对各特征变量进行数据标准化处理,其计算公式为:其中,X为各个特征变量的数据,V*为对应的X经过标准化处理得到的数据。
3.根据权利要求1所述的一种融资平台企业性质分类方法,其特征在于:所述步骤S300包括以下步骤:
步骤S310,利用P个特征变量的部分样本数据构建多棵决策树,对每一棵决策树,选择相应的袋外数据OOB计算袋外数据误差,记为errOOB1;
步骤S320,随机对袋外数据OOB所有样本的特征X加入噪声干扰,随机改变样本在特征X处的值,再次计算袋外数据误差errOOB2;
步骤S330,那么特征X的重要性=∑(errOOB2-errOOB1)/N,其中,N为决策树的棵数,将各个特征按照重要性从大到小的顺序排序,选取排序前M所对应的特征变量作为模型输入特征变量。
4.根据权利要求1所述的一种融资平台企业性质分类方法,其特征在于:所述分类方法还包括:所述P个特征变量确定是根据业务特性,通过多维统计、均值计算方法来获取,所述补充缺失值是人工根据表中的数据特性为属性还是数值来补充缺失值。
5.一种应用权利要求1-4中任一项所述的融资平台企业性质分类方法的融资平台企业性质分类系统,其特征在于:所述分类系统包括数据获取模块和数据计算模块;
所述数据获取模块从企业的银行账户信息和交易流水中获取交易卡数、交易次数和交易金额构建分析基表,并从分析基表中统计和衍生出P个特征变量;
所述数据计算模块基于随机森林分类算法对数据获取模块得到的特征变量进行判别分类。
6.根据权利要求5所述的一种融资平台企业性质分类系统,其特征在于:所述分类系统还包括信息展示模块,所述信息展示模块用于展示数据计算模块的分类结果。
CN202110536252.6A 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统 Active CN113129133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536252.6A CN113129133B (zh) 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536252.6A CN113129133B (zh) 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统

Publications (2)

Publication Number Publication Date
CN113129133A CN113129133A (zh) 2021-07-16
CN113129133B true CN113129133B (zh) 2023-11-21

Family

ID=76782179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536252.6A Active CN113129133B (zh) 2021-05-17 2021-05-17 一种融资平台企业性质分类方法和系统

Country Status (1)

Country Link
CN (1) CN113129133B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114524A (ko) * 2018-03-30 2019-10-10 세종대학교산학협력단 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치
CN112053233A (zh) * 2020-09-04 2020-12-08 天元大数据信用管理有限公司 基于gra的动态中小企业信用评分方法及系统
CN112308466A (zh) * 2020-11-26 2021-02-02 东莞市盟大塑化科技有限公司 企业资质审核方法、装置、计算机设备和存储介质
CN112329862A (zh) * 2020-11-09 2021-02-05 杭州安恒信息技术股份有限公司 基于决策树的反洗钱方法及系统
CN112801773A (zh) * 2021-01-20 2021-05-14 招商银行股份有限公司 企业风险预警方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114524A (ko) * 2018-03-30 2019-10-10 세종대학교산학협력단 합성 특징 생성을 이용한 기업의 부도 예측 방법 및 장치
CN112053233A (zh) * 2020-09-04 2020-12-08 天元大数据信用管理有限公司 基于gra的动态中小企业信用评分方法及系统
CN112329862A (zh) * 2020-11-09 2021-02-05 杭州安恒信息技术股份有限公司 基于决策树的反洗钱方法及系统
CN112308466A (zh) * 2020-11-26 2021-02-02 东莞市盟大塑化科技有限公司 企业资质审核方法、装置、计算机设备和存储介质
CN112801773A (zh) * 2021-01-20 2021-05-14 招商银行股份有限公司 企业风险预警方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于二类Logistic回归的小微企业网贷在线评估及实现;黄天云;刘一平;;西南民族大学学报(自然科学版)(第04期);全文 *

Also Published As

Publication number Publication date
CN113129133A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CA3090128A1 (en) System and method for machine learning architecture for enterprise capitalization
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111597348B (zh) 用户画像方法、装置、计算机设备和存储介质
CN110597870A (zh) 一种企业关系挖掘方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN112182246A (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN110990529B (zh) 企业的行业明细划分方法及系统
CN111738504A (zh) 企业财务指标资金量预测方法和装置、设备及存储介质
CN114265967A (zh) 一种敏感数据安全等级标注方法及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN110782349A (zh) 一种模型训练方法和系统
CN112365339A (zh) 一种中小企业商业价值信用贷款额度判定方法
Zhu et al. Explainable prediction of loan default based on machine learning models
CN113157757A (zh) 一种数据推荐方法、装置、电子设备及存储介质
CN113129133B (zh) 一种融资平台企业性质分类方法和系统
US20240152818A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN115618297A (zh) 识别异常企业的方法及其装置
US20210073247A1 (en) System and method for machine learning architecture for interdependence detection
CN113849580A (zh) 一种主体评级预测方法、装置、电子设备及存储介质
US8515841B2 (en) Financial product application pull-through system
Arora et al. Prediction of corporate bankruptcy using financial ratios and news
Zaytsev Selection and evaluation of relevant predictors for credit scoring in peer-to-peer lending with random forest based methods
CN118052291B (zh) 一种基于扩张因果图嵌入的垂直领域大语言模型训练方法
Glorfeld et al. An Enhancement of the Pocket Algorithm with Ratchet for Use in Data Mining Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant