CN109685526A - 一种企业信用等级评价方法、装置及相关设备 - Google Patents

一种企业信用等级评价方法、装置及相关设备 Download PDF

Info

Publication number
CN109685526A
CN109685526A CN201811518778.6A CN201811518778A CN109685526A CN 109685526 A CN109685526 A CN 109685526A CN 201811518778 A CN201811518778 A CN 201811518778A CN 109685526 A CN109685526 A CN 109685526A
Authority
CN
China
Prior art keywords
enterprise
data
credit rating
processing
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811518778.6A
Other languages
English (en)
Inventor
蔡燕
王培勇
刘勇
王宏新
陈宏仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SERVYOU SOFTWARE GROUP Co Ltd
Original Assignee
SERVYOU SOFTWARE GROUP Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SERVYOU SOFTWARE GROUP Co Ltd filed Critical SERVYOU SOFTWARE GROUP Co Ltd
Priority to CN201811518778.6A priority Critical patent/CN109685526A/zh
Publication of CN109685526A publication Critical patent/CN109685526A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种企业信用等级评价方法,包括获取企业样本数据,对所述企业样本数据进行多维度特征加工处理,获得特征数据;在所有所述特征数据中抽取相关性特征数据作为训练样本数据;根据所述训练样本数据进行模型训练,获得GBDT模型;当接收到信用等级评价指令时,将所述信用等级评价指令对应的待测企业数据发送至所述GBDT模型进行处理,获得数据处理结果;根据所述数据处理结果确定企业信用等级;该企业信用等级评价方法可在保证企业信用等级评估效率的基础上,有效提高对应评估结果的准确性。本申请还公开了一种企业信用等级评价装置、设备及计算机可读存储介质,均具有上述有益效果。

Description

一种企业信用等级评价方法、装置及相关设备
技术领域
本申请涉及数据存储技术领域,特别涉及一种企业信用等级评价方法,还涉及一种企业信用等级评价装置、设备以及计算机可读存储介质。
背景技术
目前,在对一些企业进行信用评估的实际工作中,主要依赖于相关工作人员的业务经验,从业务层面对企业的信用等级进行评估,视角单一,且主观影响较重,难以全面覆盖影响信用等级的行为数据,导致评估结果的不准确性,同时,也造成了人力浪费、时间浪费,效率较低。
近年来,随着互联网行业的发展,虽然有一些基于计算机算法的信用等级评估方法的提出,如随机森林机器学习模型等,在一定程度上提高了评估效率,但鉴于其样例数据、特征数据的提取不够完备,对应评估结果的准确性依然较低,难以在实践中取得成效,
因此,如何在保证企业信用等级评估效率的基础上,有效提高对应评估结果的准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种企业信用等级评价方法,该企业信用等级评价方法可在保证企业信用等级评估效率的基础上,有效提高对应评估结果的准确性;本申请的另一目的是提供一种企业信用等级评价装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种企业信用等级评价方法,所述企业信用等级评价方法包括:
获取企业样本数据,对所述企业样本数据进行多维度特征加工处理,获得特征数据;
在所有所述特征数据中抽取相关性特征数据作为训练样本数据;
根据所述训练样本数据进行模型训练,获得GBDT模型;
当接收到信用等级评价指令时,将所述信用等级评价指令对应的待测企业数据发送至所述GBDT模型进行处理,获得数据处理结果;
根据所述数据处理结果确定企业信用等级。
优选的,所述对所述企业样本数据进行多维度特征加工处理,获得特征数据之前,还包括:
对所述企业样本数据进行缺失值分析处理,获得第一处理数据;
对所述第一处理数据进行异常值分析处理,获得第二处理数据;
对所述第二处理数据进行变量相关性分析处理,获得预处理数据。
优选的,所述对所述企业样本数据进行缺失值分析处理,获得第一处理数据,包括:
通过聚类替代法对所述企业样本数据进行缺失值分析处理,获得所述第一处理数据。
优选的,所述对所述第二处理数据进行变量相关性分析处理,获得预处理数据,包括:
对所述第二处理数据进行变量相关性计算;
当所述变量相关性超出预设阈值时,对所述第二处理数据进行降纬处理,获得所述预处理数据。
优选的,所述在所有所述特征数据中抽取相关性特征数据作为训练样本数据,包括:
通过逻辑回归算法在所有所述特征数据中抽取所述相关性特征数据作为所述训练样本数据。
优选的,所述企业信用等级评价方法还包括:
获取企业测试数据,通过所述企业测试数据对所述GBDT模型进行模型预测,获得测试结果;
根据所述测试结果对所述GBDT模型进行优化,获得优化后GBDT模型。
优选的,所述根据所述数据处理结果确定企业信用等级,包括:
根据企业信用等级评价表对所述数据处理结果进行比对,获得所述企业信用等级。
为解决上述技术问题,本申请还提供了一种企业信用等级评价装置,所述企业信用等级评价装置包括:
特征加工模块,用于获取企业样本数据,对所述企业样本数据进行多维度特征加工处理,获得特征数据;
数据抽取模块,用于在所有所述特征数据中抽取相关性特征数据作为训练样本数据;
模型训练模块,用于根据所述训练样本数据进行模型训练,获得GBDT模型;
数据处理模块,用于当接收到信用等级评价指令时,将所述信用等级评价指令对应的待测企业数据发送至所述GBDT模型进行处理,获得数据处理结果;
等级确定模块,用于根据所述数据处理结果确定企业信用等级。
为解决上述技术问题,本申请还提供了一种企业信用等级评价设备,所述企业信用等级评价设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一种企业信用等级评价方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种企业信用等级评价方法的步骤。
本申请所提供的一种企业信用等级评价方法,包括获取企业样本数据,对所述企业样本数据进行多维度特征加工处理,获得特征数据;在所有所述特征数据中抽取相关性特征数据作为训练样本数据;根据所述训练样本数据进行模型训练,获得GBDT模型;当接收到信用等级评价指令时,将所述信用等级评价指令对应的待测企业数据发送至所述GBDT模型进行处理,获得数据处理结果;根据所述数据处理结果确定企业信用等级。
可见,本申请所提供的企业信用等级评价方法,在进行模型构建之前,对用于进行模型构建的企业样本数据进行了多维度加工处理,即对企业样本数据进行了基于多维度的时间、区间等的特征加工,使得样本数据更加全面,对涉及到企业信用等级评价结果的相关数据进行了全方位考虑;进一步,在多维度加工后获得的特征数据中对相关性特征数据进行了抽取,即在所有特征数据中抽取获得了与企业信用等级评价结果较为相关的特征数据作为训练数据,并以此进行了GBDT(Gradient Boosting Decision Tree,梯度下降树)模型的构建,由此,极大的提高了GBDT模型进行数据处理的准确率。进一步,当对某目标企业进行信用等级评价时,即可直接基于上述GBDT模型对该企业进行评估,获得更为准确的评估结果。此外,基于机器学习算法的信用等级评估,可最大程度的减少评价结果对主观经验的依赖,降低了人力资源浪费,保证了评估效率。因此,该企业信用等级评价方法达到了在保证评估效率的基础上,有效提高对应评估结果准确性的效果。
本申请所提供的一种企业信用等级评价装置、设备以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种企业信用等级评价方法的流程示意图;
图2为本申请所提供的一种样本数据预处理方法的流程示意图;
图3为本申请所提供的一种企业信用等级评价装置的结构示意图;
图4为本申请所提供的一种企业信用等级评价设备的结构示意图。
具体实施方式
本申请的核心是提供一种企业信用等级评价方法,该企业信用等级评价方法可在保证企业信用等级评估效率的基础上,有效提高对应评估结果的准确性;本申请的另一核心是提供一种企业信用等级评价装置、设备以及计算机可读存储介质,也具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种企业信用等级评价方法的流程示意图,该企业信用等级评价方法可以包括:
S101:获取企业样本数据,对企业样本数据进行多维度特征加工处理,获得特征数据;
具体的,在进行企业信用等级评价之前,需要进行模型构建,本步骤旨在实现对企业样本数据的获取及其加工处理。具体而言,用户可预先采集大量的企业样本数据,并基于客户终端发送至处理器进行多维度特征加工处理,从而获得特征数据。
此处,对企业样本数据进行多维度加工处理主要是对其进行多角度的加工计算处理,例如,上述获取的企业样本数据可包括年度月营业收入、月营业成本、月利润总和等数据,则对其进行多维度特征加工处理可包括:各季度营业收入以及均值、各季度营业成本以及均值、各季度利润总和以及均值以及年度各类相关数据的最大值、最小值、中位数、涨幅均值等,由此,即实现了对企业样本数据进行多维度的时间、区间等特征加工处理,使得样本数据更加全面,对涉及到企业信用等级评价结果的相关数据进行了全方位考虑,有效保证了后期构建获得的GBDT模型识别效果的准确性。
需要说明的是,上述企业样本数据均为已知评价结果的数据,即已知对应企业的信用评价等级的数据,该企业样本数据越多,所构建模型的识别度将更为准确。
S102:在所有特征数据中抽取相关性特征数据作为训练样本数据;
具体的,本步骤旨在实现相关性特征数据的抽取,即在基于S101获得的所有特征数据中抽取与企业信用等级评价结果相关性较高的特征数据,即上述相关性特征数据作为用于进行模型构建的数据,即上述训练样本数据,进一步提高了GBDT模型识别效果的准确率。其中,对于上述相关性特征数据的抽取方法,可采用已有技术中的任意一种,本申请对此不做限定。
优选的,上述在所有特征数据中抽取相关性特征数据作为训练样本数据可以包括通过逻辑回归算法在所有特征数据中抽取相关性特征数据作为训练样本数据。
具体的,本申请实施例提供了一种较为具体的相关性特征数据的抽取方法,即基于逻辑回归算法(Logistic Regression,LR)实现,以获得区分性较高,也即相关性较高的特征数据,并将其作为训练样本数据。
S103:根据训练样本数据进行模型训练,获得GBDT模型;
具体的,本步骤旨在实现GBDT模型的构建,即基于S102中获得的训练样本数据进行模型训练和构建即可。当然,对于其模型构建方法,可参照已有技术中的任意一种机器学习模型的构建过程,或已有技术中任意一种GBDT模型的构建方法,本申请在此不再赘述。
需要说明的是,以上S101至S103主要在于实现GBDT模型的构建,该构建过程只需执行一次,即在首次基于本申请所提出的技术方案进行企业信用等级评价时执行,在之后的企业信用等级评价过程中,直接调取该GBDT模型进行等级评估即可。
S104:当接收到信用等级评价指令时,将信用等级评价指令对应的待测企业数据发送至GBDT模型进行处理,获得数据处理结果;
本步骤旨在实现基于上述获得的GBDT模型对目标企业进行信用等级评价。具体而言,当接收到针对某一企业的信用等级评价指令时,即可将该指令对应的待测企业数据发送至GBDT模型中进行处理,获得对应的数据处理结果。其中,上述待测企业数据可基于信用等级评价指令进行解析获得。
S105:根据数据处理结果确定企业信用等级。
具体的,在获得基于GBDT模型的数据处理结果后,即可根据该数据处理结果确定该企业的企业信用等级,完成企业的信用评估。例如,假设该数据处理结果为某企业的欠税概率,那么,如果该欠税概率较高,则该企业的信用等级就越低,如果欠税概率较低,则该企业的信用等级就越高。当然,以上欠税概率的假设仅为本申请所提供的一种实现方式,并不唯一,也可以为其他相关类型数据。
优选的,上述根据数据处理结果确定企业信用等级可以包括根据企业信用等级评价表对数据处理结果进行比对,获得企业信用等级。
本申请提供了一种较为具体的企业信用等级的确定方法,即基于企业信用等级评价表进行比对确定。具体而言,可对企业信用等级进行划分,并将其与对应的数据处理结果进行一一对应,形成企业信用等级评价表,当基于GBDT模型计算获得数据处理结果后,即可将其与该企业信用等级评价表进行比对,以获得该数据处理结果对应的企业信用等级。同样针对上述举例,可预先设定企业信用等级分为高、中、低三个等级,对应的信用等级评价表中预先设定欠税概率在0.1~0.3之间时,对应于企业信用等级为高;欠税概率在0.4~0.6之间时,对应于企业信用等级为中;欠税概率在0.6~1.0之间时,对应于企业信用等级为低,由此,即通过该企业信用等级评价表实现了对数据处理结果的比对,并进一步获得对应的企业信用等级。
需要说明的是,上述S104和S105为对各类企业进行信用等级评价的过程,由于GBDT模型是预先构建获得的,在后期企业信用等级的评价过程中,直接对其进行调用即可,无需多次进行模型构建。其中,可将该GBDT模型预先存储于对应的存储介质中,以便调用。
本申请所提供的企业信用等级评价方法,在进行模型构建之前,对用于进行模型构建的企业样本数据进行了多维度加工处理,即对企业样本数据进行了基于多维度的时间、区间等的特征加工,使得样本数据更加全面,对涉及到企业信用等级评价结果的相关数据进行了全方位考虑;进一步,在多维度加工后获得的特征数据中对相关性特征数据进行了抽取,即在所有特征数据中抽取获得了与企业信用等级评价结果较为相关的特征数据作为训练数据,并以此进行了GBDT模型的构建,由此,极大的提高了GBDT模型进行数据处理的准确率。进一步,当对某目标企业进行信用等级评价时,即可直接基于上述GBDT模型对该企业进行评估,获得更为准确的评估结果。此外,基于机器学习算法的信用等级评估,可最大程度的减少评价结果对主观经验的依赖,降低了人力资源浪费,保证了评估效率。因此,该企业信用等级评价方法达到了在保证评估效率的基础上,有效提高对应评估结果准确性的效果。
在上述各实施例的基础上,请参考图2,图2为本申请所提供的一种样本数据预处理方法的流程示意图。
作为一种优选实施例,上述对所述企业样本数据进行多维度特征加工处理,获得特征数据之前,还可以包括:
S201:对企业样本数据进行缺失值分析处理,获得第一处理数据;
S202:对第一处理数据进行异常值分析处理,获得第二处理数据;
S203:对第二处理数据进行变量相关性分析处理,获得预处理数据。
本申请实施例旨在实现对企业样本数据预处理,以获得适用于进行GBDT模型构建的数据,从而提高GBDT模型的识别准确度。具体而言,对获得的所有企业样本数据依次进行缺失值分析处理、异常值分析处理、变量相关性分析处理,从而获得预处理数据。
其中,缺失值处理是指根据所有企业样本数据的分布情况,通过相关分析算法对企业样本数据中的缺失值进行处理;异常值处理即根据数值类指标的分布范围,对极大值、极小值进行分析,以确定该值出现的原因,如数据输入问题或真正的业务问题;变量相关性处理是指对指标与指标之间、指标与企业之间的相关性进行分析计算处理。
当然,对于上述缺失值分析处理、异常值分析处理、变量相关性分析处理的具体实现方式,可采用已有技术中的任意一种,本申请对此不做限定。
优选的,上述对企业样本数据进行缺失值分析处理,获得第一处理数据可以包括通过聚类替代法对企业样本数据进行缺失值分析处理,获得第一处理数据。
本申请提供了一种较为具体的缺失值分析处理的方法,即基于聚类替代法实现。当然,该实现方法并不限于此,还可以为回归替代法、均值替代法等实现。对于其具体实现方法,参照已有技术即可,本申请在此不再赘述。
优选的,上述对第二处理数据进行变量相关性分析处理,获得预处理数据可以包括对第二处理数据进行变量相关性计算;当变量相关性超出预设阈值时,对第二处理数据进行降纬处理,获得预处理数据。
本申请提供了一种较为具体的变量相关性分析处理的方法,即对异常值分析处理后的所有数据,即上述第二处理数据进行变量相关性计算,获得对应的取值,将该取值与预设阈值进行比对,若超出预设阈值,则说明变量相关性较高,此时,对其进行降纬处理即可。当然,当变量相关性较高时,也可对第二处理数据进行剔除处理,以获得最终的预处理数据。对于降纬处理或剔除处理的具体实现方法,参照已有技术即可,本申请在此不再赘述。
需要说明的是,上述预设阈值可由技术人员根据实际情况进行设定,其具体取值并不影响本技术方案的实施。
对于本申请实施例的其他实现步骤,参照上一实施例即可,本申请在此不再赘述。
本申请实施例所提供的企业信用等级评价方法,在基于企业样本数据进行GBDT模型构建之前,对企业样本数据进行了预处理,从而获得了适用于进行GBDT模型构建的数据,进一步提高了GBDT模型的识别准确度,保证了企业信用等级评价结果的准确度。
在上述各实施例的基础上,作为一种优选实施例,该企业信用等级评价方法还可包括:获取企业测试数据,通过企业测试数据对GBDT模型进行模型预测,获得测试结果;根据测试结果对GBDT模型进行优化,获得优化后GBDT模型。
本申请实施例旨在实现对GBDT模型的测试,以进一步保证模型处理结果的准确度。具体而言,可获取企业测试数据,该企业测试数据与上述企业样本数据的性质完全相同,同样为已经获知对应企业信用评价等级的数据。进一步,通过该企业测试数据对GBDT模型进行测试,获得对应的测试结果,从而即可根据该测试结果对GBDT模型进行优化,获得具有更高数据处理准确度的优化后的GBDT模型。
其中,上述测试结果可以为GBDT模型数据处理的准确率,则对于上述优化过程,可基于以下方式实现:当该准确率低于某预设标准值时,说明GBDT模型准确度较低,此时需要进行模型优化,直至获得的GBDT模型的准确率高于上述预设标准值,获得优化后GBDT模型,并基于该优化后GBDT模型进行后续的企业信用等级评价。当然,对于上述预设标准值的具体取值,可由技术人员根据实际需求预先进行设定,本申请对此不做限定。
此外,对于上述GBDT模型的构建与测试,也可基于交叉验证的方法实现,该实现过程参照已有技术即可,本申请在此不再赘述。
对于本申请实施例的其他实现步骤,参照上一实施例即可,本申请在此不再赘述。
在上述各个实施例的基础上,本申请提供了一种具体应用场景的企业信用等级评价方法。
税收是国家财政收入的主要来源,是国家预算的重要组成部分。欠税管理是税务机关保证税款及时足额入库的重要环节。因此,本申请实施例以企业交税状况为例,提供了一种基于欠税评估的企业信用等级评价方法。
1、数据的获取与预处理:
具体而言,预先获取一批企业名单,根据税款征收信息构建样本集,例如,把应征处理日期为空,或者应征处理日期大于应征发生日期超过多少天的标记为欠税,否则,标记为不欠税。
需要说明的是,为保证GBDT模型的准确度,上述数据集中的企业样本数据可以在企业基本信息、征收信息、申报信息中提取获得。进一步,在得到数据集后,对该数据集中的所有数据依次进行缺失值分析处理、异常值分析处理、变量相关性分析处理,从而获得预处理数据。
2、数据的多维度特征加工与抽取:
考虑到数据的多维度时间区间特性,对于同一个指标,可按照月度、季度、年度等多个维度加工,有意义的特征越多,机器学习的结果会越准确,因此,可先对预处理数据进行多维度特征加工处理。具体而言,由于所有的表格数据都是按照时间顺序逐渐累加的,不同时间范围内的数据信息可以构成不同的特征,如营业收入、营业成本、利润总额等,在判断某一季度是否欠税时,如果使用当前季度的营业信息将毫无意义,因此,可以从之前时间的信息数据中获取特征。由此,对于某户企业的某一个季度,可计算该企业上一个季度的营业收入、营业成本、利润总额,上两个季度的营业收入和、营业成本和、利润总额和与各自的均值,上三个季度的营业收入、营业成本、利润总额的和、均值、中位数、最大值、最小值、涨幅均值,上四个季度的营业收入、营业成本、利润总额的和、均值、中位数、最大值、最小值、涨幅均值。当然,还可以综合考虑登记注册类型上的季均值作为特征。
进一步,在获得上述多维度的特征数据之后,即可基于逻辑回归算法从中抽取区分性较好的特征数据,即相关性特征数据作为训练样本特征,以实现后期GBDT模型的构建。
3、模型构建与测试:
具体而言,可基于交叉验证方法,将获得的相关性特征数据按照7:3的比例分配训练数据和测试数据,其中,训练数据和测试数据中的欠税企业和不欠税企业的比例需要控制在1/5到5之间,以防止样本数据中正负样本比例偏差过大导致的GBDT模型识别准确度较低的问题。
进一步,基于测试数据对训练好的欠税模型,即GBDT模型进行测试,并获得模型准确率,召回率等模型评估指标,从而接口根据该模型评估指标实现对GBDT模型的优化,最终得到符合业务要求的可用模型,即上述优化后GBDT模型。
4、企业信用等级评价:
基于上述优化后GBDT模型对目标企业的所有相关税款数据进行分析,获得欠税概率;进一步,即可根据该欠税概率与预先设定的企业信用等级评价表进行比对,获得该目标企业的信用等级。
例如,设定基于GBDT模型进行数据处理的输出为0~1之间的一个小数,以表示企业欠税概率,其数值越大,对应企业欠税的几率越大,其信用等级越低;其数值越小,对应企业欠税的几率越小,其信用等级越高。
进一步,基于本申请所提供的技术方案,还实现了对企业的欠税评估。例如,可预先设定欠税阈值为0.5,当上述欠税概率低于0.5时,预测该企业欠税,当高于0.5时,则预测该企业不欠税。
本申请所提供的企业信用等级评价方法,在进行模型构建之前,对用于进行模型构建的企业样本数据进行了多维度加工处理,即对企业样本数据进行了基于多维度的时间、区间等的特征加工,使得样本数据更加全面,对涉及到企业信用等级评价结果的相关数据进行了全方位考虑;进一步,在多维度加工后获得的特征数据中对相关性特征数据进行了抽取,即在所有特征数据中抽取获得了与企业信用等级评价结果较为相关的特征数据作为训练数据,并以此进行了GBDT模型的构建,由此,极大的提高了GBDT模型进行数据处理的准确率。进一步,当对某目标企业进行信用等级评价时,即可直接基于上述GBDT模型对该企业进行评估,获得更为准确的评估结果。此外,基于机器学习算法的信用等级评估,可最大程度的减少评价结果对主观经验的依赖,降低了人力资源浪费,保证了评估效率。因此,该企业信用等级评价方法达到了在保证评估效率的基础上,有效提高对应评估结果准确性的效果。
为解决上述问题,请参考图3,图3为本申请所提供的一种企业信用等级评价装置的结构示意图,该企业信用等级评价装置可包括:
特征加工模块10,用于获取企业样本数据,对企业样本数据进行多维度特征加工处理,获得特征数据;
数据抽取模块20,用于在所有特征数据中抽取相关性特征数据作为训练样本数据;
模型训练模块30,用于根据训练样本数据进行模型训练,获得GBDT模型;
数据处理模块40,用于当接收到信用等级评价指令时,将信用等级评价指令对应的待测企业数据发送至GBDT模型进行处理,获得数据处理结果;
等级确定模块50,用于根据数据处理结果确定企业信用等级。
作为一种优选实施例,该企业信用等级评价装置还可以包括预处理模块,该预处理模块可包括:
缺失值分析单元,用于对企业样本数据进行缺失值分析处理,获得第一处理数据;
异常值分析单元,用于对第一处理数据进行异常值分析处理,获得第二处理数据;
相关性分析单元,用于对第二处理数据进行变量相关性分析处理,获得预处理数据。
作为一种优选实施例,上述缺失值分析单元可具体用于通过聚类替代法对企业样本数据进行缺失值分析处理,获得第一处理数据。
作为一种优选实施例,上述相关性分析单元可具体用于对第二处理数据进行变量相关性计算;当变量相关性超出预设阈值时,对第二处理数据进行降纬处理,获得预处理数据。
作为一种优选实施例,上述数据抽取模块20可具体用于通过逻辑回归算法在所有特征数据中抽取相关性特征数据作为训练样本数据。
作为一种优选实施例,该企业信用等级评价装置还可以包括:
模型优化模块,用于获取企业测试数据,通过企业测试数据对GBDT模型进行模型预测,获得测试结果;根据测试结果对GBDT模型进行优化,获得优化后GBDT模型。
作为一种优选实施例,上述等级确定模块50可具体用于根据企业信用等级评价表对数据处理结果进行比对,获得企业信用等级。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,请参考图4,图4为本申请所提供的一种企业信用等级评价设备的结构示意图,该企业信用等级评价设备可包括:
存储器11,用于存储计算机程序;
处理器12,用于执行计算机程序时实现如下步骤:
获取企业样本数据,对企业样本数据进行多维度特征加工处理,获得特征数据;在所有特征数据中抽取相关性特征数据作为训练样本数据;根据训练样本数据进行模型训练,获得GBDT模型;当接收到信用等级评价指令时,将信用等级评价指令对应的待测企业数据发送至GBDT模型进行处理,获得数据处理结果;根据数据处理结果确定企业信用等级。
对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下骤:
获取企业样本数据,对企业样本数据进行多维度特征加工处理,获得特征数据;在所有特征数据中抽取相关性特征数据作为训练样本数据;根据训练样本数据进行模型训练,获得GBDT模型;当接收到信用等级评价指令时,将信用等级评价指令对应的待测企业数据发送至GBDT模型进行处理,获得数据处理结果;根据数据处理结果确定企业信用等级。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的企业信用等级评价方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。

Claims (10)

1.一种企业信用等级评价方法,其特征在于,包括:
获取企业样本数据,对所述企业样本数据进行多维度特征加工处理,获得特征数据;
在所有所述特征数据中抽取相关性特征数据作为训练样本数据;
根据所述训练样本数据进行模型训练,获得GBDT模型;
当接收到信用等级评价指令时,将所述信用等级评价指令对应的待测企业数据发送至所述GBDT模型进行处理,获得数据处理结果;
根据所述数据处理结果确定企业信用等级。
2.如权利要求1所述的企业信用等级评价方法,其特征在于,所述对所述企业样本数据进行多维度特征加工处理,获得特征数据之前,还包括:
对所述企业样本数据进行缺失值分析处理,获得第一处理数据;
对所述第一处理数据进行异常值分析处理,获得第二处理数据;
对所述第二处理数据进行变量相关性分析处理,获得预处理数据。
3.如权利要求2所述的企业信用等级评价方法,其特征在于,所述对所述企业样本数据进行缺失值分析处理,获得第一处理数据,包括:
通过聚类替代法对所述企业样本数据进行缺失值分析处理,获得所述第一处理数据。
4.如权利要求2所述的企业信用等级评价方法,其特征在于,所述对所述第二处理数据进行变量相关性分析处理,获得预处理数据,包括:
对所述第二处理数据进行变量相关性计算;
当所述变量相关性超出预设阈值时,对所述第二处理数据进行降纬处理,获得所述预处理数据。
5.如权利要求1所述的企业信用等级评价方法,其特征在于,所述在所有所述特征数据中抽取相关性特征数据作为训练样本数据,包括:
通过逻辑回归算法在所有所述特征数据中抽取所述相关性特征数据作为所述训练样本数据。
6.如权利要求1至5任意一项所述的企业信用等级评价方法,其特征在于,还包括:
获取企业测试数据,通过所述企业测试数据对所述GBDT模型进行模型预测,获得测试结果;
根据所述测试结果对所述GBDT模型进行优化,获得优化后GBDT模型。
7.如权利要求6所述的企业信用等级评价方法,其特征在于,所述根据所述数据处理结果确定企业信用等级,包括:
根据企业信用等级评价表对所述数据处理结果进行比对,获得所述企业信用等级。
8.一种企业信用等级评价装置,其特征在于,包括:
特征加工模块,用于获取企业样本数据,对所述企业样本数据进行多维度特征加工处理,获得特征数据;
数据抽取模块,用于在所有所述特征数据中抽取相关性特征数据作为训练样本数据;
模型训练模块,用于根据所述训练样本数据进行模型训练,获得GBDT模型;
数据处理模块,用于当接收到信用等级评价指令时,将所述信用等级评价指令对应的待测企业数据发送至所述GBDT模型进行处理,获得数据处理结果;
等级确定模块,用于根据所述数据处理结果确定企业信用等级。
9.一种企业信用等级评价设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的企业信用等级评价方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的企业信用等级评价方法的步骤。
CN201811518778.6A 2018-12-12 2018-12-12 一种企业信用等级评价方法、装置及相关设备 Pending CN109685526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811518778.6A CN109685526A (zh) 2018-12-12 2018-12-12 一种企业信用等级评价方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811518778.6A CN109685526A (zh) 2018-12-12 2018-12-12 一种企业信用等级评价方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN109685526A true CN109685526A (zh) 2019-04-26

Family

ID=66186681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811518778.6A Pending CN109685526A (zh) 2018-12-12 2018-12-12 一种企业信用等级评价方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN109685526A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400215A (zh) * 2019-07-31 2019-11-01 浪潮软件集团有限公司 面向企业家族的小微企业信用评估模型构建方法及系统
CN111062602A (zh) * 2019-12-12 2020-04-24 百望股份有限公司 企业信用风险评估的方法、装置及存储介质
CN111161080A (zh) * 2019-12-10 2020-05-15 中国建设银行股份有限公司 信息处理方法和装置
CN111932356A (zh) * 2020-01-02 2020-11-13 百望股份有限公司 确定企业信用风险等级的方法和装置
CN112017040B (zh) * 2020-10-16 2021-01-29 银联商务股份有限公司 信用评分模型训练方法、评分方法及系统、设备及介质
CN112329978A (zh) * 2020-09-17 2021-02-05 搜信信用产业集团有限公司 一种智能公共资源交易主体履约监控与信用评价方法
CN112581342A (zh) * 2020-12-25 2021-03-30 中国建设银行股份有限公司 评价养老机构等级的方法、装置、设备及存储介质
CN112749894A (zh) * 2021-01-12 2021-05-04 云南电网有限责任公司电力科学研究院 一种缺陷检测模型评价方法以及装置
CN112884016A (zh) * 2021-01-28 2021-06-01 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 云平台可信评估模型训练方法和云平台可信评估方法
CN113760484A (zh) * 2020-06-29 2021-12-07 北京沃东天骏信息技术有限公司 数据处理的方法和装置
CN114429395A (zh) * 2021-12-23 2022-05-03 四川新网银行股份有限公司 基于半监督学习的企业信用评级方法、系统及存储介质
CN115511506A (zh) * 2022-09-30 2022-12-23 中国电子科技集团公司第十五研究所 企业信用的评级方法、装置、终端设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636912A (zh) * 2015-02-13 2015-05-20 银联智惠信息服务(上海)有限公司 信用卡套现识别方法和装置
CN106251049A (zh) * 2016-07-25 2016-12-21 国网浙江省电力公司宁波供电公司 一种大数据的电费风险模型构建方法
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN108009914A (zh) * 2017-12-19 2018-05-08 马上消费金融股份有限公司 一种信用风险评估方法、系统、设备及计算机存储介质
CN108492176A (zh) * 2018-04-04 2018-09-04 冯世程 一种p2p借贷平台运营风险评估系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636912A (zh) * 2015-02-13 2015-05-20 银联智惠信息服务(上海)有限公司 信用卡套现识别方法和装置
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN106251049A (zh) * 2016-07-25 2016-12-21 国网浙江省电力公司宁波供电公司 一种大数据的电费风险模型构建方法
CN108009914A (zh) * 2017-12-19 2018-05-08 马上消费金融股份有限公司 一种信用风险评估方法、系统、设备及计算机存储介质
CN108492176A (zh) * 2018-04-04 2018-09-04 冯世程 一种p2p借贷平台运营风险评估系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
管河山 等: "一种处理缺失数据的新方法", 《第二十一届中国数据库学术会议论文集(技术报告篇)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400215A (zh) * 2019-07-31 2019-11-01 浪潮软件集团有限公司 面向企业家族的小微企业信用评估模型构建方法及系统
CN110400215B (zh) * 2019-07-31 2023-11-03 浪潮软件集团有限公司 面向企业家族的小微企业信用评估模型构建方法及系统
CN111161080A (zh) * 2019-12-10 2020-05-15 中国建设银行股份有限公司 信息处理方法和装置
CN111062602A (zh) * 2019-12-12 2020-04-24 百望股份有限公司 企业信用风险评估的方法、装置及存储介质
CN111932356A (zh) * 2020-01-02 2020-11-13 百望股份有限公司 确定企业信用风险等级的方法和装置
CN113760484A (zh) * 2020-06-29 2021-12-07 北京沃东天骏信息技术有限公司 数据处理的方法和装置
CN112329978A (zh) * 2020-09-17 2021-02-05 搜信信用产业集团有限公司 一种智能公共资源交易主体履约监控与信用评价方法
CN112017040B (zh) * 2020-10-16 2021-01-29 银联商务股份有限公司 信用评分模型训练方法、评分方法及系统、设备及介质
CN112581342A (zh) * 2020-12-25 2021-03-30 中国建设银行股份有限公司 评价养老机构等级的方法、装置、设备及存储介质
CN112749894A (zh) * 2021-01-12 2021-05-04 云南电网有限责任公司电力科学研究院 一种缺陷检测模型评价方法以及装置
CN112884016A (zh) * 2021-01-28 2021-06-01 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 云平台可信评估模型训练方法和云平台可信评估方法
CN112884016B (zh) * 2021-01-28 2024-02-02 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 云平台可信评估模型训练方法和云平台可信评估方法
CN114429395A (zh) * 2021-12-23 2022-05-03 四川新网银行股份有限公司 基于半监督学习的企业信用评级方法、系统及存储介质
CN115511506A (zh) * 2022-09-30 2022-12-23 中国电子科技集团公司第十五研究所 企业信用的评级方法、装置、终端设备和存储介质

Similar Documents

Publication Publication Date Title
CN109685526A (zh) 一种企业信用等级评价方法、装置及相关设备
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
CN106650992A (zh) 一种量化投资策略的生成方法及装置
CN109711424B (zh) 一种基于决策树的行为规则获取方法、装置及设备
CN106875206A (zh) 信息获取、评估、问卷调查方法、装置及服务器
CN111951050B (zh) 理财产品推荐方法及装置
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN113449046A (zh) 基于企业知识图谱的模型训练方法、系统及相关装置
CN113434685A (zh) 一种资讯分类处理的方法及系统
Yilanci et al. Testing the persistence of shocks on ecological footprint and sub-accounts: evidence from the big ten emerging markets
Zeleňáková et al. Using risk analysis for flood protection assessment
CN111597343A (zh) 一种基于app的智能化用户职业判断方法、装置和电子设备
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
Estrada et al. Baselines and monitoring in local REDD+ projects
CN113298119B (zh) 机器学习模型的投放策略评估方法、装置及电子设备
CN113450158A (zh) 银行活动信息推送方法及装置
CN113065969A (zh) 企业评分模型构建方法、企业评分方法、介质和电子设备
Akimov et al. Analysis of the risk of bankruptcy LLC" Group of Companies" Rusagro" based on softw are package
CN116167629A (zh) 一种分布式的策略自动化生成方法、系统及存储介质
CN109785155A (zh) 基于医保报销模型调整医保策略的方法及相关产品
Karmshahi et al. Application of an integrated CA-Markov model in simulating spatiotemporal changes in forest cover: a case study of Malekshahi county forests, Ilam province
CN114971240A (zh) 一种阅读行为风险评估处理方法及装置
CN114817480A (zh) 一种土地资源值确定方法、装置、电子设备及存储介质
Paukowits et al. Bridging CAATs and Risk.
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426