CN111507822A - 一种基于特征工程的企业风险评估方法 - Google Patents
一种基于特征工程的企业风险评估方法 Download PDFInfo
- Publication number
- CN111507822A CN111507822A CN202010285342.8A CN202010285342A CN111507822A CN 111507822 A CN111507822 A CN 111507822A CN 202010285342 A CN202010285342 A CN 202010285342A CN 111507822 A CN111507822 A CN 111507822A
- Authority
- CN
- China
- Prior art keywords
- risk assessment
- model
- enterprise
- risk
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 21
- 238000000926 separation method Methods 0.000 claims description 14
- 238000013210 evaluation model Methods 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 abstract description 31
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013479 data entry Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请公开了一种基于特征工程的企业风险评估方法,该方法基于企业的税务数据构建基于税务的特征工程,并通过机器学习算法从中选择与征信风险相关联的特征,以作为风险评估指标;进而根据风险评估指标构建多个模型,并选出评估效果最好的模型,将该模型作为风险评估模型,用以对目标企业进行风险评估。可见,该方法剔除了以往评估方案的主观性,完全根据建模样本以及相关算法建立模型,从数据层面寻找与企业征信相关的指标因子并构建模型,能够更客观、更全面、更准确的量化企业的征信风险,降低信贷业务的风险。此外,本申请还提供了一种基于特征工程的企业风险评估装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于特征工程的企业风险评估方法、装置、设备及可读存储介质。
背景技术
目前,采用评分卡技术办理小微企业信贷业务,是富国银行、美国银行等先进银行的普遍做法。富国银行于1993年率先在小企业贷款中应用评分卡技术,并取得举世公认的业绩。调查显示,2005年,美国46%的社区银行在小企业信贷业务中使用评分卡技术,美国银行目前使用的评分卡有上百个之多。
2012年,小微企业信贷业务首先在“信用贷”业务中使用评分卡技术,随后小微信用贷业务也通过评分卡评价客户。此后,越来越多的银行或者信贷机构通过评分卡来评价客户,从而给客户授信。
企业征信也随着这些技术的发展而随之发展。征信业在中国从无到有,随着大数据时代的到来,征信业的发展更是突飞猛进,显然,企业征信制度可以解决一些信息不对称的问题,降低信息成本和交易成本,进而减轻逆向选择。征信体系能大规模高效率地收集、加工、处理交易的信息,尽可能降低交易过程中的不确定性,降低银行信息成本,也提高了银行贷款的质量。同时,企业征信制度使得中小企业的风险更加透明化,进而增加中小企业的融资机会。此外,企业征信制度还可以形成企业经营风险约束机制,征信系统为企业展示自身的经营风险水平和信誉提供了一个平台,企业会自发形成约束机制,倾向于披露真实信息,最终形成社会认可的信誉交易机制。
综上,如何实现企业的征信风险的自动化量化,降低信贷业务风险,提升信贷业务效率,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种基于特征工程的企业风险评估方法、装置、设备及可读存储介质,用以解决当前无法自动量化企业征信风险,导致信贷业务风险高且效率低的问题。其具体方案如下:
第一方面,本申请提供了一种基于特征工程的企业风险评估方法,包括:
S1、获取企业的税务数据样本;
S2、根据所述税务数据样本,构建基于税务的特征工程;
S3、利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
S4、根据所述风险评估指标,构建多个模型;
S5、根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型;
S6、利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果。
优选的,在所述根据所述税务数据样本,构建基于税务的特征工程之前,还包括:
对所述税务数据样本进行清洗操作和加工操作,所述清洗操作包括缺失值处理和/或异常值处理,所述加工操作包括数据转置和/或数据求和。
优选的,所述根据所述风险评估指标,构建多个模型,包括:
利用分箱方法对所述风险评估指标进行分箱处理;
根据所述风险评估指标的分箱结果,构建多个模型。
优选的,所述根据所述风险评估指标的分箱结果,构建多个模型,包括:
利用多种模型拟合算法,根据所述风险评估指标的分箱结果构建多个模型,所述模型拟合算法包括以下任意一项或任意组合:决策树、梯度下降决策树、XGBOOST、逻辑回归。
优选的,所述利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果,包括:
获取目标企业的税务数据;
从所述税务数据中提取所述风险评估指标的指标数据;
将所述指标数据输入风险评估模型,得到所述目标企业的风险评估结果。
优选的,所述根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型,包括:
根据各个所述模型在测试集上的评估参数,从所述多个模型中筛选出最优模型,以作为风险评估模型,所述评估参数包括以下任意一项或任意组合:KS统计值、基尼系数、群体稳定性系数。
优选的,所述根据各个所述模型在测试集上的评估参数,从所述多个模型中筛选出最优模型,以作为风险评估模型,包括:
确定所述多个模型中在测试集上的评估参数最优的最优模型;
判断所述最优模型的模型参数是否达到预设标准;
若是,则将所述最优模型作为风险评估模型;
若否,则重新执行S3和S4。
第二方面,本申请提供了一种基于特征工程的企业风险评估装置,包括:
样本获取模块:用于获取企业的税务数据样本;
特征工程模块;用于根据所述税务数据样本,构建基于税务的特征工程;
特征筛选模块:用于利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
模型构建模块:用于根据所述风险评估指标,构建多个模型;
模型筛选模块:用于根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型;
风险评估模块:用于利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果。
第三方面,本申请提供了一种基于特征工程的企业风险评估设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述存储器上的计算机程序,以实现如上所述的基于特征工程的企业风险评估方法的步骤。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上所述的基于特征工程的企业风险评估方法的步骤。
本申请所提供的一种基于特征工程的企业风险评估方法,包括:获取企业的税务数据样本;根据税务数据样本,构建基于税务的特征工程;利用机器学习算法,对特征工程中的特征进行筛选,得到风险评估指标;根据风险评估指标,构建多个模型;根据各个模型在测试集上的评估效果,从多个模型中筛选出最优模型,以作为风险评估模型;利用所述风险评估模型对目标企业进行评估,得到目标企业的风险评估结果。
综上,该方法基于企业的税务数据构建基于税务的特征工程,并通过机器学习算法从中选择与征信风险相关联的特征,以作为风险评估指标;进而根据风险评估指标构建多个模型,并选出评估效果最好的模型,将该模型作为风险评估模型,用以对目标企业进行风险评估。可见,该方法剔除了以往评估方案的主观性,完全根据建模样本以及相关算法建立模型,从数据层面寻找本质上与企业征信相关的指标因子,从而构建模型,是纯数据驱动的方法,能够更客观、更全面、更准确的量化企业的征信风险,降低信贷业务的风险,有助于提升信贷业务的效率。
此外,本申请还提供了一种基于特征工程的企业风险评估装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种基于特征工程的企业风险评估方法实施例一的实现流程图;
图2为本申请所提供的一种基于特征工程的企业风险评估方法实施例二中风险评估模型构建过程的流程图;
图3为本申请所提供的一种基于特征工程的企业风险评估方法实施例二中利用风险评估模型进行分箱评估的流程图;
图4为本申请所提供的一种基于特征工程的企业风险评估方法实施例二的系统架构图;
图5为本申请所提供的一种基于特征工程的企业风险评估方法实施例二的实现过程示意图;
图6为本申请所提供的一种基于特征工程的企业风险评估装置实施例的功能框图;
图7为本申请所提供的一种基于特征工程的企业风险评估设备实施例的结构示意图。
具体实施方式
本申请的核心是提供一种基于特征工程的企业风险评估方法、装置、设备及可读存储介质,根据建模样本以及相关算法建立模型,从数据层面寻找本质上与企业征信相关的指标因子并构建模型,能够更客观、更全面、更准确的量化企业的征信风险,降低信贷业务的风险,提升信贷业务的效率。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面对本申请提供的一种基于特征工程的企业风险评估方法实施例一的实现流程图进行介绍,参见图1,实施例一包括:
S101、获取企业的税务数据样本;
本实施例主要从税务数据的维度去量化企业风险,其中上述税务数据样本是指能够与企业征信相关的数据,具体可以包括企业税务登记信息、股东信息、收入申报信息、税金逾期信息等。具体的,在经过企业的合法授权之后,通过API专线采用点对点传输方式获取上述税务数据样本,这种获取方式比从互联网获取数据的方式更加安全可靠,有助于后续对企业进行全面的分析和评价,得到更具可信力的企业征信状况税务画像。
在实际应用中,为保证评估的全面性,可以同时根据企业的税务数据和其他公开信息来对其进行评估。
S102、根据所述税务数据样本,构建基于税务的特征工程;
考虑到特征缺失值、特征重要性、IV值(Information value,信息量)、业务解释性、特征相关性等因素,本实施例根据税务数据样本构建基于税务的特征工程,其目的在于加工出后续建模所需的能代表企业征信风险的变量。
可以理解的是,构建特征工程之前,可以先对税务数据样本进行预处理,例如数据清洗、数据加工等。此外,可以按照一定比例对税务数据样本进行划分,得到训练集、测试集和验证集。
S103、利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
本实施例通过机器学习算法从特征工程中筛选合适的特征,以作为风险评估指标。具体的,对特征类型进行识别,并通过随机森林(Random Forest)算法按照重要性筛选特征。可以理解的是,在特征筛选过程中,可以结合业务知识执行筛选。
S104、根据所述风险评估指标,构建多个模型;
在筛选得到风险评估指标之后,计算风险评估指标之间的共线性以及相关性,利用逻辑回归(logistics regression)根据风险评估指标拟合出模型。具体的,可以利用不同的算法以构建多个模型,例如决策树、GBDT、XGBOOST、逻辑回归等算法。
S105、根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型;
具体的,根据模型在测试集上表现出的性能参数,确定全部模型中的最优模型;为了保证评估效果的可靠性,需要进一步判断最优模型所表现出的性能参数是否满足预设标准;如果满足,则将最优模型作为风险评估模型以投入使用;若不满足,则重新执行特征筛选和模型构建的过程,即重复S103和S104。
S106、利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果。
在得到风险评估模型之后,即可利用该模型评估特定企业的征信风险。具体的,获取目标企业的税务数据,并根据前文筛选得到的风险评估指标,从税务数据中提取中风险评估指标的指标参数;进而将指标参数输入风险评估模型,即可得到目标企业的风险评估结果。
本实施例所提供一种基于特征工程的企业风险评估方法,为了解决小微企业的征信风险量化困难的问题,基于企业的税务数据,构建基于税务的特征工程,并且通过算法以及业务知识选择合适的特征指标,通过不同的算法构建模型,并选出最适合的模型以作为风险评估,最终利用该模型对企业进行征信风险评估。可见,该方法根据建模样本以及相关算法建立模型,从数据层面寻找本质上与企业征信相关的指标因子,从而构建模型,是纯数据驱动的方法,能够更客观、更全面、更准确的量化企业的征信风险,降低信贷业务的风险,有助于提升信贷业务的效率。
下面开始详细介绍本申请提供的一种基于特征工程的企业风险评估方法实施例二的实现流程图,实施例二基于前述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
为更清楚的描述本实施例的实施过程,下面分两个部分进行说明,一部分为风险评估模型的构建过程,另一部分为利用风险评估模型进行风险评估的过程。
参见图2,实施例二中的风险评估模型的构建过程具体包括:
S201、获取企业的税务数据样本;
S202、对所述税务数据样本进行清洗操作和加工操作;
上述清洗操作包括缺失值处理和/或异常值处理,所述加工操作包括数据转置和/或数据求和。也就是说,对税务数据样本进行清洗,缺失值,异常值处理,对税务数据样本进行缺失值、异常值的清洗和加工,加工包括对数据的转置、求和等操作。
S203、根据所述税务数据样本,构建基于税务的特征工程;
S204、利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
S205、利用分箱方法对所述风险评估指标进行分箱处理;
本实施例提供多种分箱方法进行分箱,例如决策树最优分箱、卡方分箱、等频分箱、等距分箱、支持图形化输出分箱数据、分箱图。在实际应用中可以根据场景需求自行选择采用何种分箱方法,本实施例不做具体限定。
S206、利用多种模型拟合算法,根据所述风险评估指标的分箱结果构建多个模型;
上述模型拟合算法包括以下任意一项或任意组合:决策树、梯度下降决策树、XGBOOST、逻辑回归。
S207、根据各个所述模型在测试集上的评估参数,从所述多个模型中筛选出最优模型;
上述评估参数包括以下任意一项或任意组合:AR、KS统计值、基尼系数(GINI)、群体稳定性系数(PSI)。其中,KS统计值、基尼系数、分离度(Divergence)均是用来衡量模型区分好坏的能力,也就是模型的预测能力;而PSI、增益图等主要用来衡量模型的稳定性。
S208、判断所述最优模型的模型参数是否达到预设标准;若否,跳转至S204;若是,跳转至S209;
S209、将所述最优模型作为风险评估模型。
参见图3,实施例二中,利用风险评估模型进行风险评估的过程具体包括:
S301、获取目标企业的税务数据;
S302、对所述税务数据进行数据清洗和数据加工;
S303、从所述税务数据中提取所述风险评估指标的指标数据;
S304、将所述指标数据输入风险评估模型,得到所述目标企业的风险评估结果。
在实际应用中,用于实现本实施例的系统架构可以如图4所示,包括后台和管理控制台,其中,后台负责生成风险评估模型,输出模型的风险评估结果,还负责对税务数据进行处理。当需要评估目标企业的征信风险时,后台负责对该企业的税务数据做清洗加工,将指标数据输入风险评估模型,得到风险评估结果。
相应的,管理控制台负责将税务数据输入到风险评估模型中;在得到风险评估结果之后,管理控制台可以将风险评估结果以网页的方式(例如图表)进行展示。具体的,管理控制台包括数据录入模块和展示模块,其中,数据录入模块用于输入企业ID,从而根据企业的ID计算该企业基于税务和公开数据的指标数据,并将该企业的指标数据输入风险评估模型,得到风险评估结果;展示模块用于输出企业的风险评估结果,此外还可以基于风险评估结果计算企业的违约率。
本实施例的整体实现过程如图5所示,该系统基于现有的样本数据,建立风险评估模型;再将需要进行风险评估的企业ID输入进系统,获取企业的相关税务数据;系统后台计算所需的风险评估指标;最终利用风险评估模型根据税务数据中的指标数据得到风险评估结果。下面根据图5对本实施例的整体实现过程做进一步详细说明:
(1)系统管理员在后台启动“风险评估模型程序”,启动数据采集模块,采集税务数据以作为样本;
(2)系统管理员启动数据清洗模块的程序,并对税务数据进行缺失值、异常值的清洗和加工,其中加工包括对数据的转置、求和等操作;
(3)将样本切分为测试集,训练集,测试集;构建特征工程,并通过随机森林等算法筛选特征,得到风险评估指标;根据分箱方法对风险评估指标进行分箱。
(4)系统启动模型创建模块,将上述风险评估指标用来入模,并且计算变量之间的共线性以及相关性,尝试不同的算法以构建不同的模型;
(5)系统启动模型评估模块,观察模型在测试集、验证集、训练集上的评估效果,如果评估效果不满足模型要求,则重复(3)和(4)步骤,直到模型评估效果达到要求。
(6)管理员在前端输入页面输入需要进行风险评的企业ID,系统进而启动数据录入模块,计算风险评估指标,获取企业的指标数据,并根据指标数据和风险评估模型得到最终的风险评估结果。
可见,本实施例提供的一种基于特征工程的企业风险评估方法,首先,通过这种基于税务数据量化征信风险的方法,本实施例可以更全面、准确的评估企业的征信风险,使得中小企业的风险更加透明化,进而增加中小企业的融资机会,也降低银行等金融机构为实体经济小微企业授信的信用风险。其次,本实施例完全根据建模样本以及相关算法建立模型,是纯数据驱动的方法,从客观上评价企业的征信风险,保证了风险评估结果的准确性和可信性。
下面对本申请实施例提供的一种基于特征工程的企业风险评估装置进行介绍,下文描述的一种基于特征工程的企业风险评估装置与上文描述的一种基于特征工程的企业风险评估方法可相互对应参照。
如图6所示,本实施例的基于特征工程的企业风险评估装置,包括:
样本获取模块601:用于获取企业的税务数据样本;
特征工程模块602;用于根据所述税务数据样本,构建基于税务的特征工程;
特征筛选模块603:用于利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
模型构建模块604:用于根据所述风险评估指标,构建多个模型;
模型筛选模块605:用于根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型;
风险评估模块606:用于利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果。
本实施例的基于特征工程的企业风险评估装置用于实现前述的基于特征工程的企业风险评估方法,因此该装置中的具体实施方式可见前文中的基于特征工程的企业风险评估方法的实施例部分,例如,样本获取模块601、特征工程模块602、特征筛选模块603、模型构建模块604、模型筛选模块605、风险评估模块606,分别用于实现上述基于特征工程的企业风险评估方法中步骤S101,S102,S103,S104,S105,S106。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于特征工程的企业风险评估装置用于实现前述的基于特征工程的企业风险评估方法,因此其作用与上述方法的作用相对应,这里不再赘述。
此外,本申请还提供了一种基于特征工程的企业风险评估设备,如图7所示,包括:
存储器100:用于存储计算机程序;
处理器200:用于执行所述存储器上的计算机程序,以实现如上文所述的基于特征工程的企业风险评估方法的步骤。
最后,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上文所述的基于特征工程的企业风险评估方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于特征工程的企业风险评估方法,其特征在于,包括:
S1、获取企业的税务数据样本;
S2、根据所述税务数据样本,构建基于税务的特征工程;
S3、利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
S4、根据所述风险评估指标,构建多个模型;
S5、根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型;
S6、利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果。
2.如权利要求1所述的方法,其特征在于,在所述根据所述税务数据样本,构建基于税务的特征工程之前,还包括:
对所述税务数据样本进行清洗操作和加工操作,所述清洗操作包括缺失值处理和/或异常值处理,所述加工操作包括数据转置和/或数据求和。
3.如权利要求1所述的方法,其特征在于,所述根据所述风险评估指标,构建多个模型,包括:
利用分箱方法对所述风险评估指标进行分箱处理;
根据所述风险评估指标的分箱结果,构建多个模型。
4.如权利要求3所述的方法,其特征在于,所述根据所述风险评估指标的分箱结果,构建多个模型,包括:
利用多种模型拟合算法,根据所述风险评估指标的分箱结果构建多个模型,所述模型拟合算法包括以下任意一项或任意组合:决策树、梯度下降决策树、XGBOOST、逻辑回归。
5.如权利要求1所述的方法,其特征在于,所述利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果,包括:
获取目标企业的税务数据;
从所述税务数据中提取所述风险评估指标的指标数据;
将所述指标数据输入风险评估模型,得到所述目标企业的风险评估结果。
6.如权利要求1-5任意一项所述的方法,其特征在于,所述根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型,包括:
根据各个所述模型在测试集上的评估参数,从所述多个模型中筛选出最优模型,以作为风险评估模型,所述评估参数包括以下任意一项或任意组合:KS统计值、基尼系数、群体稳定性系数。
7.如权利要求6所述的方法,其特征在于,所述根据各个所述模型在测试集上的评估参数,从所述多个模型中筛选出最优模型,以作为风险评估模型,包括:
确定所述多个模型中在测试集上的评估参数最优的最优模型;
判断所述最优模型的模型参数是否达到预设标准;
若是,则将所述最优模型作为风险评估模型;
若否,则重新执行S3和S4。
8.一种基于特征工程的企业风险评估装置,其特征在于,包括:
样本获取模块:用于获取企业的税务数据样本;
特征工程模块;用于根据所述税务数据样本,构建基于税务的特征工程;
特征筛选模块:用于利用机器学习算法,对所述特征工程中的特征进行筛选,得到风险评估指标;
模型构建模块:用于根据所述风险评估指标,构建多个模型;
模型筛选模块:用于根据各个所述模型在测试集上的评估效果,从所述多个模型中筛选出最优模型,以作为风险评估模型;
风险评估模块:用于利用所述风险评估模型对目标企业进行评估,得到所述目标企业的风险评估结果。
9.一种基于特征工程的企业风险评估设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述存储器上的计算机程序,以实现如权利要求1-7任意一项所述的基于特征工程的企业风险评估方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的基于特征工程的企业风险评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010285342.8A CN111507822A (zh) | 2020-04-13 | 2020-04-13 | 一种基于特征工程的企业风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010285342.8A CN111507822A (zh) | 2020-04-13 | 2020-04-13 | 一种基于特征工程的企业风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507822A true CN111507822A (zh) | 2020-08-07 |
Family
ID=71877507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010285342.8A Pending CN111507822A (zh) | 2020-04-13 | 2020-04-13 | 一种基于特征工程的企业风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507822A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951097A (zh) * | 2020-08-12 | 2020-11-17 | 深圳微众信用科技股份有限公司 | 企业信用风险评估方法、装置、设备及存储介质 |
CN111950624A (zh) * | 2020-08-10 | 2020-11-17 | 中国平安人寿保险股份有限公司 | 客户风险评估模型构建方法、装置、存储介质及终端设备 |
CN112287337A (zh) * | 2020-10-27 | 2021-01-29 | 国网电子商务有限公司 | 一种风险量化方法及系统 |
CN113205271A (zh) * | 2021-05-12 | 2021-08-03 | 国家税务总局山东省税务局 | 一种基于机器学习对企业所得税风险评估的方法 |
CN113393328A (zh) * | 2021-06-21 | 2021-09-14 | 深圳微众信用科技股份有限公司 | 融资贷前审批评估方法、装置及计算机存储介质 |
CN113409150A (zh) * | 2021-06-21 | 2021-09-17 | 深圳微众信用科技股份有限公司 | 经营风险及信用风险评估方法、装置及计算机存储介质 |
CN113554519A (zh) * | 2021-08-25 | 2021-10-26 | 山大地纬软件股份有限公司 | 一种医保支出风险分析方法及系统 |
CN113673870A (zh) * | 2021-08-23 | 2021-11-19 | 杭州安恒信息技术股份有限公司 | 一种企业数据分析方法及相关组件 |
CN114092216A (zh) * | 2021-09-22 | 2022-02-25 | 金蝶征信有限公司 | 企业信贷评级方法、装置、计算机设备和存储介质 |
CN115545881A (zh) * | 2022-09-02 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种基于信贷风险处理的风险因子归因方法 |
CN116777597A (zh) * | 2023-06-19 | 2023-09-19 | 中国银行保险信息技术管理有限公司 | 金融风险评估方法、装置、存储介质及计算机设备 |
CN117033561A (zh) * | 2023-10-07 | 2023-11-10 | 中建西南咨询顾问有限公司 | 基于esg指标优化的企业评估模型生成方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651190A (zh) * | 2016-12-28 | 2017-05-10 | 深圳微众税银信息服务有限公司 | 一种企业风险等级评估方法以及系统 |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN109409677A (zh) * | 2018-09-27 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 企业信用风险评估方法、装置、设备及存储介质 |
CN109636036A (zh) * | 2018-12-12 | 2019-04-16 | 税友软件集团股份有限公司 | 一种企业发票数量预测的方法、系统及设备 |
CN109815267A (zh) * | 2018-12-21 | 2019-05-28 | 天翼征信有限公司 | 数据建模中特征的分箱优化方法及系统、存储介质及终端 |
CN109993412A (zh) * | 2019-03-01 | 2019-07-09 | 百融金融信息服务股份有限公司 | 风险评估模型的构建方法及装置、存储介质、计算机设备 |
-
2020
- 2020-04-13 CN CN202010285342.8A patent/CN111507822A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651190A (zh) * | 2016-12-28 | 2017-05-10 | 深圳微众税银信息服务有限公司 | 一种企业风险等级评估方法以及系统 |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN109409677A (zh) * | 2018-09-27 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 企业信用风险评估方法、装置、设备及存储介质 |
CN109636036A (zh) * | 2018-12-12 | 2019-04-16 | 税友软件集团股份有限公司 | 一种企业发票数量预测的方法、系统及设备 |
CN109815267A (zh) * | 2018-12-21 | 2019-05-28 | 天翼征信有限公司 | 数据建模中特征的分箱优化方法及系统、存储介质及终端 |
CN109993412A (zh) * | 2019-03-01 | 2019-07-09 | 百融金融信息服务股份有限公司 | 风险评估模型的构建方法及装置、存储介质、计算机设备 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950624A (zh) * | 2020-08-10 | 2020-11-17 | 中国平安人寿保险股份有限公司 | 客户风险评估模型构建方法、装置、存储介质及终端设备 |
CN111951097A (zh) * | 2020-08-12 | 2020-11-17 | 深圳微众信用科技股份有限公司 | 企业信用风险评估方法、装置、设备及存储介质 |
CN112287337A (zh) * | 2020-10-27 | 2021-01-29 | 国网电子商务有限公司 | 一种风险量化方法及系统 |
CN113205271A (zh) * | 2021-05-12 | 2021-08-03 | 国家税务总局山东省税务局 | 一种基于机器学习对企业所得税风险评估的方法 |
CN113393328A (zh) * | 2021-06-21 | 2021-09-14 | 深圳微众信用科技股份有限公司 | 融资贷前审批评估方法、装置及计算机存储介质 |
CN113409150A (zh) * | 2021-06-21 | 2021-09-17 | 深圳微众信用科技股份有限公司 | 经营风险及信用风险评估方法、装置及计算机存储介质 |
CN113673870B (zh) * | 2021-08-23 | 2024-04-30 | 杭州安恒信息技术股份有限公司 | 一种企业数据分析方法及相关组件 |
CN113673870A (zh) * | 2021-08-23 | 2021-11-19 | 杭州安恒信息技术股份有限公司 | 一种企业数据分析方法及相关组件 |
CN113554519A (zh) * | 2021-08-25 | 2021-10-26 | 山大地纬软件股份有限公司 | 一种医保支出风险分析方法及系统 |
CN114092216A (zh) * | 2021-09-22 | 2022-02-25 | 金蝶征信有限公司 | 企业信贷评级方法、装置、计算机设备和存储介质 |
CN115545881A (zh) * | 2022-09-02 | 2022-12-30 | 睿智合创(北京)科技有限公司 | 一种基于信贷风险处理的风险因子归因方法 |
CN116777597A (zh) * | 2023-06-19 | 2023-09-19 | 中国银行保险信息技术管理有限公司 | 金融风险评估方法、装置、存储介质及计算机设备 |
CN117033561A (zh) * | 2023-10-07 | 2023-11-10 | 中建西南咨询顾问有限公司 | 基于esg指标优化的企业评估模型生成方法及系统 |
CN117033561B (zh) * | 2023-10-07 | 2023-12-26 | 中建西南咨询顾问有限公司 | 基于esg指标优化的企业评估模型生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507822A (zh) | 一种基于特征工程的企业风险评估方法 | |
KR102061987B1 (ko) | 위험 평가 방법 및 시스템 | |
WO2020037942A1 (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN111507831A (zh) | 信贷风险自动评估方法和装置 | |
CN112017040B (zh) | 信用评分模型训练方法、评分方法及系统、设备及介质 | |
CN108876188B (zh) | 一种间连服务商风险评估方法及装置 | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN112801498A (zh) | 风险识别模型的训练方法、风险识别方法、装置及设备 | |
CN111275338A (zh) | 一种企业欺诈行为的判定方法、装置、设备及存储介质 | |
CN112785420A (zh) | 信用评分模型的训练方法、装置、电子设备及存储介质 | |
CN111967802A (zh) | 一种企业金融风险定量分析和预警方法、装置及设备 | |
CN107862599B (zh) | 银行风险数据处理方法、装置、计算机设备和存储介质 | |
CN111553685B (zh) | 确定交易路由通道的方法、装置、电子设备和存储介质 | |
CN113919432A (zh) | 一种分类模型构建方法、数据分类方法及装置 | |
CN114092216A (zh) | 企业信贷评级方法、装置、计算机设备和存储介质 | |
CN113918471A (zh) | 测试用例的处理方法、装置及计算机可读存储介质 | |
CN113240513A (zh) | 一种用户授信额度的确定方法和相关装置 | |
CN112256988A (zh) | 监测跨境购房网站的方法及装置、电子设备及存储介质 | |
JP5118707B2 (ja) | 検索ログ悪用防止方法及び装置 | |
Lobonț et al. | Difficulties Concerning Public Sector Efficiency And Performance Measurement | |
EP3073432A1 (en) | Country specific revenue estimation | |
CN117150065B (zh) | 一种图像信息的采集方法及系统 | |
CN117314914B (zh) | 一种对工程无损检测图像的缺陷识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |