CN114066622A - 一种小微企业信用评级的方法、装置 - Google Patents
一种小微企业信用评级的方法、装置 Download PDFInfo
- Publication number
- CN114066622A CN114066622A CN202111431111.4A CN202111431111A CN114066622A CN 114066622 A CN114066622 A CN 114066622A CN 202111431111 A CN202111431111 A CN 202111431111A CN 114066622 A CN114066622 A CN 114066622A
- Authority
- CN
- China
- Prior art keywords
- data
- credit
- model
- rating
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及信息技术领域,提供了一种小微企业信用评级的方法、装置。包括数据获取模块,获取小微企业信贷申请数据及相关授权协议,向第三方数据服务商调用查询征信数据;数据处理模块,对获取后的数据进行探索、验证,并按数据治理管理规范进行清洗;信用评级模块,建立信用评级模型,然后使用交叉验证方法对评级结果进行评价,持续优化信用评级模型;数据支撑模块,通过开放的API接口,供业务系统调用信用评级结果。本发明可实现对小微企业信用的评级,便于金融机构对小微企业客户进行有效的评估分析,以规避信贷违约风险。
Description
技术领域
本发明涉及信息技术领域,提供了一种小微企业信用评级的方法、装置。
背景技术
在政策引导下,小微企业贷款突出了“量增、面扩、价降、结构优化”的特点。在传统的信贷风险中主要考量借款人的还款能力和还款意愿,因各行业受到的疫情影响的差异,产生了一些新的变化和相应的信贷需求,需要金融机构跳出原有风控模式,适当调整以做出灵活应对。
发明内容
本发明的目的在:针对现有技术的缺陷和不足,提供一种小微企业信用评级的方法、装置,解决金融机构小微企业信贷业务中面临的数据稀缺、不全面、历史信息沉淀不足等问题,从而提高小微企业信用评级风险分析能力,提升信用评级模型效果,改善金融机构服务实体经济水平。
为了解决上述技术问题,本发明采用以下技术手段:
一种解决小微企业信贷授信风险控制和管理方法,包括以下步骤:
步骤1、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
步骤2、提取步骤1中数据集Data1的数据,对其进行EDA探索与数据验证,然后依据数据治理管理规范进行清洗,得到新的数据集Data2;
步骤3、提取步骤2中数据集Data2的数据,建立信用评级模型,利用交叉验证的方法对评级结果进行评价,持续优化信用评级模型,形成数据集Data3;
步骤4、通过开放的API接口,将信用评级数据集Data3推送到各业务系统中,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
可选的,所涉及步骤1中小微企业信贷申请数据集包括四部分。第一部分是申请人的基本信息数据,包括但不限于学历、家庭住址、联系人及电话等信息;第二部分是申请企业的基础资料数据,包括但不限于企业工商、税务等数据;第三部分为可选填信息项,包括但不限于担保人或机构的相关信息及其他信贷申请辅助材料数据;第四部分是申请人在信贷申请各阶段中操作所记录的行为埋点数据。
可选的,所涉及步骤2中数据治理管理规范包括但不限于中国人民银行发布的JR/T 0065—2019《银行间市场基础数据元》、工业和信息化部发布的SJ/T 11445.4-2017《信息技术服务外包第4部分:非结构化数据管理与服务规范》、国家标准化管理委员会发布GB/T35119-2017《产品生命周期数据管理规范》等标准及规范,金融机构依据标准规范、根据实际业务开展情况对数据集Data1进行处理,将探索、验证、清洗完成后的数据保存在数据集Data2的存储介质中,具体操作内容包括:
步骤2.1、提取数据集Data1,使用SQL查询语句获取所需的全部数据,并使用Python进行数据的加载;
步骤2.2、对步骤2.2加载后的数据进行EDA探索,包含变量的统计值、有效性分析,根据业务特征对变量进行缺失值填充、删除重复数据等操作;
步骤2.3、对步骤2.2探索完成后的数据进行验证,对数据的合理性、有效性进行分析验证;
步骤2.4、然后对步骤2.3验证后的数据变量特征进行无量纲化、数值化、离散化等处理,以及合成衍生新的符合业务逻辑的变量,完成后形成数据集 Data2。
可选的,执行步骤3,提取数据集Data2进行信用评级建模,然后利用交叉验证进行模型的优化,具体操作内容包括:
步骤3.1、提取步骤2.4处理完成后的数据集的Data2数据,由于存在大量首次申请客户,因此可以将客户分为首贷客群和复贷客群;
步骤3.2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3.3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤3.4、首贷客群因没有贷后行为表现,故跳过该步骤。复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤3.5、将步骤3.3中的申请评分卡、步骤3.4中的行为评分卡、催收评分卡按一定权重进行计算,得到最终的信用评级模型,然后需要对模型的预测能力、稳定性进行检验;
步骤3.6、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤3.7、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3.8、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤3.9、计算k组测试结果的平均值作为模型精度的估计,并作为当前 k折交叉验证下模型的性能指标,若指标达到设定阈值则调整参数重新执行信用评级步骤,将信用评级输出至数据集Data3。
可选的,执行步骤4,提取数据集Data3数据,业务系统通过API接口调用评级数据并推送客户数据,具体操作内容包括:
步骤4.1、根据业务系统实际业务需求,确定可行的数据交互模式,包括但不限于Message Queue、Web services等接口方式;
步骤4.2、通过步骤4.1的API接口,业务系统可根据业务需求调用步骤3.x评级完成的数据集Data3;
步骤4.3、然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
本发明还提供了一种小微企业信用评级的装置,包括:
数据获取模块、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
数据处理模块、对数据集Data1的数据今天探索性分析并进行验证,然后依据数据治理管理规范进行数据的清洗,得到新的数据集Data2;
信用评级模块、提取数据集Data2,建立信用评级模型,然后使用交叉验证方法对评级结果进行评价,持续优化信用评级模型,得到数据集Data3;
数据支撑模块、通过开放的API接口,业务系统可以调用数据集Data3信用评级结果,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
上述技术方案中,包括以下步骤:所涉及步骤1中小微企业信贷申请数据集包括四部分:
第一部分是申请人的基本信息数据,包括但不限于学历、家庭住址、联系人及电话等信息;
第二部分是申请企业的基础资料数据,包括但不限于企业工商、税务等数据;
第三部分为可选填信息项,包括但不限于担保人或机构的相关信息及其他信贷申请辅助材料数据;
第四部分是申请人在信贷申请各阶段中操作所记录的行为埋点数据。
所涉及步骤2中数据治理管理规范包括但不限于中国人民银行发布的JR/T0065—2019《银行间市场基础数据元》、工业和信息化部发布的SJ/T 11445.4- 2017《信息技术服务外包第4部分:非结构化数据管理与服务规范》、国家标准化管理委员会发布GB/T35119-2017《产品生命周期数据管理规范》等标准及规范;
上述技术方案中,信用评级模块中对数据集Data1的处理,包括数据的探索、验证及清洗,完成后的数据保存在数据集Data2中,具体操作内容包括:
步骤2.1、提取数据集Data1,使用SQL查询语句获取所需的全部数据,并使用Python进行数据的加载;
步骤2.2、对步骤2.2加载后的数据进行EDA探索,包含变量的统计值、有效性分析,根据业务特征对变量进行缺失值填充、删除重复数据等操作;
步骤2.3、对步骤2.2探索完成后的数据进行验证,对数据的合理性、有效性进行分析验证;
步骤2.4、然后对步骤2.3验证后的数据变量特征进行无量纲化、数值化、离散化等处理,以及合成衍生新的符合业务逻辑的变量,完成后形成数据集Data2。
上述技术方案中,所涉及步骤3中建立的信用评级模型和交叉验证模型优化具体操作内容包括:
步骤3.1、提取步骤2.4处理完成后的数据集的Data2数据,由于存在大量首次申请客户,因此可以将客户分为首贷客群和复贷客群;
步骤3.2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3.3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤3.4、首贷客群因没有贷后行为表现,故跳过该步骤。复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤3.5、将步骤3.3、3.4评分卡按一定权重进行计算,得到最终的信用评级模型,然后需要对模型的预测能力、稳定性进行检验;
步骤3.6、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤3.7、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3.8、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤3.9、计算k组测试结果的平均值作为模型精度的估计,并作为当前 k折交叉验证下模型的性能指标,若指标达到设定阈值则调整参数重新执行信用评级步骤,将信用评级输出至数据集Data3。
所涉及步骤4中业务系统包括但不限于企业客户信息管理系统、催收管理系统等。
一种小微企业信用评级的装置,包括:
数据获取模块、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
数据处理模块、对数据集Data1的数据今天探索性分析并进行验证,然后依据数据治理管理规范进行数据的清洗,得到新的数据集Data2;
信用评级模块、提取数据集Data2,建立信用评级模型,然后使用交叉验证方法对评级结果进行评价,持续优化信用评级模型,得到数据集Data3;
数据支撑模块、通过开放的API接口,业务系统可以调用数据集Data3信用评级结果,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
上述技术方案中,数据获取模块中小微企业信贷申请数据包括四个部分:
第一部分是申请人的基本信息数据,包括但不限于学历、家庭住址、联系人及电话信息;
第二部分是申请企业的基础资料数据,包括但不限于企业工商、税务数据;
第三部分为可选填信息项,包括但不限于担保人或机构的相关信息及其他信贷申请辅助材料数据;
第四部分是申请人在信贷申请各阶段中操作所记录的行为埋点数据。
所涉及步骤1中相关授权协议包括但不限于征信授权协议,金融机构获得客户授权后可向第三方数据服务商调用查询个人或企业相关信息,个人类包括人行征信、反欺诈及黑名单等数据,企业类包括企业税票信息、司法信息、多头信贷信息、公共信息和声明信息,形成客户信息基础数据集Data1。
上述技术方案中,数据处理模块,进行数据验证前,需要对客户信息基础数据集Data1所包含的数据进行结构化与非结构化数据处理,具体操作内容包括:
步骤2.1、提取数据集Data1,使用SQL查询语句获取所需的全部数据,并使用Python进行数据的加载;
步骤2.2、对步骤2.2加载后的数据进行EDA探索,包含变量的统计值、有效性分析,根据业务特征对变量进行缺失值填充、删除重复数据操作;
步骤2.3、对步骤2.2探索完成后的数据进行验证,对数据的合理性、有效性进行分析验证;
步骤2.4、然后对步骤2.3验证后的数据变量特征进行无量纲化、数值化、离散化处理,以及合成衍生新的符合业务逻辑的变量,完成后形成数据集Data2。
上述技术方案中,信用评级模块,提取数据集Data2进行信用评级建模,然后利用交叉验证进行模型的优化,具体操作内容包括:
步骤3.1、提取步骤2.4处理完成后的数据集的Data2数据,由于存在大量首次申请客户,因此将客户分为首贷客群和复贷客群;
步骤3.2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3.3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤3.4、首贷客群因没有贷后行为表现,故跳过该步骤,复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤3.5、将步骤3.3中的申请评分卡、步骤3.4中的行为评分卡、催收评分卡按一定权重进行计算,得到最终的信用评级模型,然后需要对模型的预测能力、稳定性进行检验;
步骤3.6、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤3.7、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3.8、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤3.9、计算k组测试结果的平均值作为模型精度的估计,并作为当前 k折交叉验证下模型的性能指标,若指标达到设定阈值则调整参数重新执行信用评级步骤,将信用评级输出至数据集Data3。
上述技术方案中,数据支撑模块,提取数据集Data3数据,业务系统通过 API接口调用评级数据并推送客户数据,具体操作内容包括:
步骤4.1、根据业务系统实际业务需求,确定可行的数据交互模式,包括但不限于Message Queue、Web services接口方式;
步骤4.2、通过步骤4.1的API接口,业务系统可根据业务需求调用信用评级模块评级完成的数据集Data3;
步骤4.3、然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
因为本发明采用上述技术方案,因此具备以下有益效果:
本发明提出的一种小微企业信用评级的方法、装置,在信贷申请的流程上,利用了大数据、机器学习等新兴技术的应用,针对小微企业信贷申请的数据稀缺、不全面、历史信息沉淀不足等问题,通过建立信用评级模型可用于信贷业务审批阶段前对小微企业的量化评估,然后利用交叉验证的方法对信用评级结果评分,并依据评分系统持续调整优化模型,能够有效的区分企业风险,并减少人工介入的,更符合金融科技的实际业务需求。另外在模型的扩展性上,增加了周期性信用评级的方法,将客户动态资料数据更新至信用评级数据集中,可以使得信用评级模型更加丰富且准确,以提高金融机构风险控制与管理能力。
附图说明
图1为本发明小微企业信用评级的装置实例功能模块示意图;
图2为本发明小微企业信用评级的装置实例信用评级模块中信用评级模型示意图;
图3为本发明小微企业信用评级的装置实例信用评级模块中交叉验证模型示意图;
图4为本发明小微企业信用评级的装置实例存储介质示意图。
具体实施方式
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1为本发明实施例方案涉及的小微企业信用评级的装置实例的功能模块示意图。
步骤1、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
步骤2、对数据集Data1的数据今天探索性分析并进行验证,然后依据数据治理管理规范进行数据的清洗,得到新的数据集Data2;
步骤3、提取数据集Data2,建立信用评级模型,然后使用交叉验证方法对评级结果进行评价,持续优化信用评级模型,得到数据集Data3;
步骤4、通过开放的API接口,业务系统可以调用数据集Data3信用评级结果,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
参照图2为本发明实施例方案涉及的小微企业信用评级的装置实例信用评级模块中信用评级模型示意图。
步骤1、提取数据集Data2,由于存在大量首次申请客户,因此可以将客户分为首次客群和复贷客群;
步骤2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤4、首贷客群因没有贷后行为表现,故跳过该步骤。复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤5、将步骤3中的申请评分卡、步骤4中的行为评分卡、催收评分卡按一定权重进行计算,得到最终的信用评级模型。
参照图3为本发明实施例方案涉及的小微企业信用评级的装置实例信用评级模块中交叉验证模型示意图。
步骤1、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤2、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤4、计算k组测试结果的平均值作为模型精度的估计,并作为当前k 折交叉验证下模型的性能指标。
本发明还提供了一种小微企业信用评级的装置,包括:
数据获取模块、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
数据处理模块、对数据集Data1的数据今天探索性分析并进行验证,然后依据数据治理管理规范进行数据的清洗,得到新的数据集Data2;
信用评级模块、提取数据集Data2,建立信用评级模型,然后使用交叉验证方法对评级结果进行评价,持续优化信用评级模型,得到数据集Data3;
数据支撑模块、通过开放的API接口,业务系统可以调用数据集Data3信用评级结果,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
上述技术方案中,数据获取模块中小微企业信贷申请数据包括四个部分:
第一部分是申请人的基本信息数据,包括但不限于学历、家庭住址、联系人及电话信息;
第二部分是申请企业的基础资料数据,包括但不限于企业工商、税务数据;
第三部分为可选填信息项,包括但不限于担保人或机构的相关信息及其他信贷申请辅助材料数据;
第四部分是申请人在信贷申请各阶段中操作所记录的行为埋点数据。
所涉及步骤1中相关授权协议包括但不限于征信授权协议,金融机构获得客户授权后可向第三方数据服务商调用查询个人或企业相关信息,个人类包括人行征信、反欺诈及黑名单等数据,企业类包括企业税票信息、司法信息、多头信贷信息、公共信息和声明信息,形成客户信息基础数据集Data1。
上述技术方案中,数据处理模块,进行数据验证前,需要对客户信息基础数据集Data1所包含的数据进行结构化与非结构化数据处理,具体操作内容包括:
步骤2.1、提取数据集Data1,使用SQL查询语句获取所需的全部数据,并使用Python进行数据的加载;
步骤2.2、对步骤2.2加载后的数据进行EDA探索,包含变量的统计值、有效性分析,根据业务特征对变量进行缺失值填充、删除重复数据操作;
步骤2.3、对步骤2.2探索完成后的数据进行验证,对数据的合理性、有效性进行分析验证;
步骤2.4、然后对步骤2.3验证后的数据变量特征进行无量纲化、数值化、离散化处理,以及合成衍生新的符合业务逻辑的变量,完成后形成数据集Data2。
上述技术方案中,信用评级模块,提取数据集Data2进行信用评级建模,然后利用交叉验证进行模型的优化,具体操作内容包括:
步骤3.1、提取步骤2.4处理完成后的数据集的Data2数据,由于存在大量首次申请客户,因此将客户分为首贷客群和复贷客群;
步骤3.2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3.3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤3.4、首贷客群因没有贷后行为表现,故跳过该步骤,复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤3.5、将步骤3.3中的申请评分卡、步骤3.4中的行为评分卡、催收评分卡按一定权重进行计算,得到最终的信用评级模型,然后需要对模型的预测能力、稳定性进行检验;
步骤3.6、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤3.7、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3.8、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤3.9、计算k组测试结果的平均值作为模型精度的估计,并作为当前 k折交叉验证下模型的性能指标,若指标达到设定阈值则调整参数重新执行信用评级步骤,将信用评级输出至数据集Data3。
上述技术方案中,数据支撑模块,提取数据集Data3数据,业务系统通过 API接口调用评级数据并推送客户数据,具体操作内容包括:
步骤4.1、根据业务系统实际业务需求,确定可行的数据交互模式,包括但不限于Message Queue、Web services接口方式;
步骤4.2、通过步骤4.1的API接口,业务系统可根据业务需求调用信用评级模块评级完成的数据集Data3;
步骤4.3、然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
Claims (10)
1.一种小微企业信用评级的方法,该其特征在于,包括以下步骤:
步骤1、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
步骤2、提取步骤1中数据集Data1的数据,对其进行EDA探索与数据验证,然后依据数据治理管理规范进行清洗,得到新的数据集Data2;
步骤3、提取步骤2中数据集Data2的数据,建立信用评级模型,利用交叉验证的方法对评级结果进行评价,持续优化信用评级模型,形成数据集Data3;
步骤4、通过开放的API接口,将信用评级数据集Data3推送到各业务系统中,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
2.根据权利要求1所述的一种小微企业信用评级的方法,其特征在于,包括以下步骤:所涉及步骤1中小微企业信贷申请数据包括四个部分:
第一部分是申请人的基本信息数据,包括但不限于学历、家庭住址、联系人及电话信息;
第二部分是申请企业的基础资料数据,包括但不限于企业工商、税务数据;
第三部分为可选填信息项,包括但不限于担保人或机构的相关信息及其他信贷申请辅助材料数据;
第四部分是申请人在信贷申请各阶段中操作所记录的行为埋点数据。
所涉及步骤1中相关授权协议包括但不限于征信授权协议,金融机构获得客户授权后可向第三方数据服务商调用查询个人或企业相关信息,个人类包括人行征信、反欺诈及黑名单等数据,企业类包括企业税票信息、司法信息、多头信贷信息、公共信息和声明信息,形成客户信息基础数据集Data1。
3.根据权利要求2所述的一种小微企业信用评级的方法、装置,其特征在于,包括以下步骤:执行步骤2,进行数据验证前,需要对客户信息基础数据集Data1所包含的数据进行结构化与非结构化数据处理,具体操作内容包括:
步骤2.1、提取数据集Data1,使用SQL查询语句获取所需的全部数据,并使用Python进行数据的加载;
步骤2.2、对步骤2.2加载后的数据进行EDA探索,包含变量的统计值、有效性分析,根据业务特征对变量进行缺失值填充、删除重复数据操作;
步骤2.3、对步骤2.2探索完成后的数据进行验证,对数据的合理性、有效性进行分析验证;
步骤2.4、然后对步骤2.3验证后的数据变量特征进行无量纲化、数值化、离散化处理,以及合成衍生新的符合业务逻辑的变量,完成后形成数据集Data2。
4.根据权利要求3所述的一种小微企业信用评级的方法,其特征在于,包括以下步骤:执行步骤3,提取数据集Data2进行信用评级建模,然后利用交叉验证进行模型的优化,具体操作内容包括:
步骤3.1、提取步骤2.4处理完成后的数据集的Data2数据,由于存在大量首次申请客户,因此将客户分为首贷客群和复贷客群;
步骤3.2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3.3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤3.4、首贷客群因没有贷后行为表现,故跳过该步骤,复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤3.5、将步骤3.3中的申请评分卡、步骤3.4中的行为评分卡、催收评分卡按一定权重进行计算,得到最终的信用评级模型,然后需要对模型的预测能力、稳定性进行检验;
步骤3.6、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤3.7、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3.8、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤3.9、计算k组测试结果的平均值作为模型精度的估计,并作为当前k折交叉验证下模型的性能指标,若指标达到设定阈值则调整参数重新执行信用评级步骤,将信用评级输出至数据集Data3。
5.根据权利要求4所述的一种小微企业信用评级的方法,其特征在于,包括以下步骤:执行步骤4,提取数据集Data3数据,业务系统通过API接口调用评级数据并推送客户数据,具体操作内容包括:
步骤4.1、根据业务系统实际业务需求,确定可行的数据交互模式,包括但不限于Message Queue、Web services接口方式;
步骤4.2、通过步骤4.1的API接口,业务系统可根据业务需求调用步骤3评级完成的数据集Data3;
步骤4.3、然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
6.一种小微企业信用评级的装置,其特征在于,包括:
数据获取模块、获取小微企业信贷申请数据及相关授权协议,请求三方数据服务商调用客户征信数据,形成数据集Data1;
数据处理模块、对数据集Data1的数据今天探索性分析并进行验证,然后依据数据治理管理规范进行数据的清洗,得到新的数据集Data2;
信用评级模块、提取数据集Data2,建立信用评级模型,然后使用交叉验证方法对评级结果进行评价,持续优化信用评级模型,得到数据集Data3;
数据支撑模块、通过开放的API接口,业务系统可以调用数据集Data3信用评级结果,然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
7.根据权利要求6所述的一种小微企业信用评级的装置,其特征在于,数据获取模块中小微企业信贷申请数据包括四个部分:
第一部分是申请人的基本信息数据,包括但不限于学历、家庭住址、联系人及电话信息;
第二部分是申请企业的基础资料数据,包括但不限于企业工商、税务数据;
第三部分为可选填信息项,包括但不限于担保人或机构的相关信息及其他信贷申请辅助材料数据;
第四部分是申请人在信贷申请各阶段中操作所记录的行为埋点数据。
所涉及步骤1中相关授权协议包括但不限于征信授权协议,金融机构获得客户授权后可向第三方数据服务商调用查询个人或企业相关信息,个人类包括人行征信、反欺诈及黑名单等数据,企业类包括企业税票信息、司法信息、多头信贷信息、公共信息和声明信息,形成客户信息基础数据集Data1。
8.根据权利要求7所述的一种小微企业信用评级的方法、装置,其特征在于,数据处理模块,进行数据验证前,需要对客户信息基础数据集Data1所包含的数据进行结构化与非结构化数据处理,具体操作内容包括:
步骤2.1、提取数据集Data1,使用SQL查询语句获取所需的全部数据,并使用Python进行数据的加载;
步骤2.2、对步骤2.2加载后的数据进行EDA探索,包含变量的统计值、有效性分析,根据业务特征对变量进行缺失值填充、删除重复数据操作;
步骤2.3、对步骤2.2探索完成后的数据进行验证,对数据的合理性、有效性进行分析验证;
步骤2.4、然后对步骤2.3验证后的数据变量特征进行无量纲化、数值化、离散化处理,以及合成衍生新的符合业务逻辑的变量,完成后形成数据集Data2。
9.根据权利要求7所述的一种小微企业信用评级的方法,其特征在于,信用评级模块,提取数据集Data2进行信用评级建模,然后利用交叉验证进行模型的优化,具体操作内容包括:
步骤3.1、提取步骤2.4处理完成后的数据集的Data2数据,由于存在大量首次申请客户,因此将客户分为首贷客群和复贷客群;
步骤3.2、通过对数据变量的分割、分组和合并转换,最终剔除掉预测能力较弱的变量,筛选出符合信贷实际业务需求、具有较强预测能力的变量,使建立的模型更加有效;
步骤3.3、利用步骤3.2分组后形成的最新数据集进行逻辑回归运算得到回归模型,在回归模型的基础上,通过概率与分数之间的转换算法把概率转换成分数进而得到申请评分卡;
步骤3.4、首贷客群因没有贷后行为表现,故跳过该步骤,复贷客群因增加了贷后管理数据,并更新了部分资料数据,所以需要重新对样本的每个变量进行分组的决策树计算,通过转换得到行为评分卡、催收评分卡;
步骤3.5、将步骤3.3中的申请评分卡、步骤3.4中的行为评分卡、催收评分卡按一定权重进行计算,得到最终的信用评级模型,然后需要对模型的预测能力、稳定性进行检验;
步骤3.6、首先会将评级数据集分为三部分:训练集、验证集和测试集;
步骤3.7、不重复抽样将原始数据随机分为k份,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
步骤3.8、重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集,在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
步骤3.9、计算k组测试结果的平均值作为模型精度的估计,并作为当前k折交叉验证下模型的性能指标,若指标达到设定阈值则调整参数重新执行信用评级步骤,将信用评级输出至数据集Data3。
10.根据权利要求9所述的一种小微企业信用评级的方法,其特征在于,数据支撑模块,提取数据集Data3数据,业务系统通过API接口调用评级数据并推送客户数据,具体操作内容包括:
步骤4.1、根据业务系统实际业务需求,确定可行的数据交互模式,包括但不限于Message Queue、Web services接口方式;
步骤4.2、通过步骤4.1的API接口,业务系统可根据业务需求调用信用评级模块评级完成的数据集Data3;
步骤4.3、然后周期性的从业务系统中更新客户数据,将更新后的客户数据推送至数据集Data2中,循环更新客户信用评级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111431111.4A CN114066622A (zh) | 2021-11-29 | 2021-11-29 | 一种小微企业信用评级的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111431111.4A CN114066622A (zh) | 2021-11-29 | 2021-11-29 | 一种小微企业信用评级的方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114066622A true CN114066622A (zh) | 2022-02-18 |
Family
ID=80277065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111431111.4A Pending CN114066622A (zh) | 2021-11-29 | 2021-11-29 | 一种小微企业信用评级的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114066622A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115511596A (zh) * | 2022-09-02 | 2022-12-23 | 杭州榜置科技有限公司 | 一种辅助决策的征信验证评估管理方法及系统 |
CN116645014A (zh) * | 2023-07-27 | 2023-08-25 | 湖南华菱电子商务有限公司 | 一种基于人工智能的供应商供应数据模型构建方法 |
-
2021
- 2021-11-29 CN CN202111431111.4A patent/CN114066622A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115511596A (zh) * | 2022-09-02 | 2022-12-23 | 杭州榜置科技有限公司 | 一种辅助决策的征信验证评估管理方法及系统 |
CN115511596B (zh) * | 2022-09-02 | 2023-09-19 | 杭州榜置科技有限公司 | 一种辅助决策的征信验证评估管理方法及系统 |
CN116645014A (zh) * | 2023-07-27 | 2023-08-25 | 湖南华菱电子商务有限公司 | 一种基于人工智能的供应商供应数据模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106803168B (zh) | 一种异常转账侦测方法和装置 | |
CN111309822B (zh) | 用户身份识别方法及装置 | |
CN114066622A (zh) | 一种小微企业信用评级的方法、装置 | |
CN111160473A (zh) | 一种分类标签的特征挖掘方法及装置 | |
CN109961165B (zh) | 件量预测方法、装置、设备及其存储介质 | |
CN112561685B (zh) | 客户的分类方法和装置 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN110866832A (zh) | 一种风险控制方法、系统、存储介质及计算设备 | |
CN116402512B (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN113793214B (zh) | 一种解决小微企业信贷授信风险控制和管理方法及装置 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及系统 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
US11568308B2 (en) | Correcting bias in supervised machine learning data | |
CN111951050A (zh) | 理财产品推荐方法及装置 | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
US20230103753A1 (en) | Generating adaptive textual explanations of output predicted by trained artificial-intelligence processes | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
WO2021129368A1 (zh) | 一种客户类型的确定方法及装置 | |
CN115713248A (zh) | 对用于交易所的数据打分和评价的方法 | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111984798A (zh) | 图谱数据预处理方法及装置 | |
CN114581249B (zh) | 基于投资风险承受能力评估的金融产品推荐方法及系统 | |
CN115062698A (zh) | 用户识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |