CN107944708A - 借贷风险控制的模型筛选方法、装置和存储介质 - Google Patents
借贷风险控制的模型筛选方法、装置和存储介质 Download PDFInfo
- Publication number
- CN107944708A CN107944708A CN201711211464.7A CN201711211464A CN107944708A CN 107944708 A CN107944708 A CN 107944708A CN 201711211464 A CN201711211464 A CN 201711211464A CN 107944708 A CN107944708 A CN 107944708A
- Authority
- CN
- China
- Prior art keywords
- model
- debt
- credit
- sample data
- repaying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种借贷风险控制的模型筛选方法、装置和存储介质,所述方法包括:获取借贷业务的验证样本数据;通过已训练的多个模型分别预测所述验证样本数据的借贷结果;对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;根据所述风险控制模型评估指标进行模型筛选。根据风险控制模型评估指标进行模型筛选,提高了模型筛选的准确率。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种借贷风险控制的模型筛选方法、装置和存储介质。
背景技术
随着计算机技术的不断发展,借贷数据越来越倾向电子信息化,借贷指标数据也朝着多维度、大数据量方向发展,传统的以人工的方式实现的经验风险控制,因效率低且需要投入大量人力而不适用于目前借贷中的风险控制。因此,通过采集大量借贷指标数据进行数据建模的大数据风险控制不断发展。大数据风险控制通过运用大数据构建模型的方法对借贷人或借贷企业进行风险控制和风险提示,相比传统的人工经验风险控制方式更科学,效率更高。
目前,大数据风险控制所运用的借贷风险控制模型主要是逻辑回归算法模型。逻辑回归算法模型的衡量标准是K-S值(模型的区分度指标)的大小,当K-S值在0.3以上的逻辑回归算法模型才会被采用。
然而,当在多个算法模型中筛选出一个最佳的模型作为风险控制模型时,只能根据已有经验和/或各个算法模型的K-S值相结合进行筛选,因而筛选出的模型不一定是最佳的模型,从而导致筛选最佳借贷风险控制模型的准确率下降。
发明内容
基于此,有必要针对目前筛选最佳借贷风险控制模型的准确率低的技术问题,提供了一种借贷风险控制的模型筛选方法、装置和存储介质。
一种借贷风险控制的模型筛选方法,所述方法包括:
获取借贷业务的验证样本数据;
通过已训练的多个模型分别预测所述验证样本数据的借贷结果;
对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;
对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;
根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;
根据所述风险控制模型评估指标进行模型筛选。
一种借贷风险控制的模型筛选装置,所述装置包括:
验证样本数据获取模块,用于获取借贷业务的验证样本数据;
借贷结果预测模块,用于通过已训练的多个模型分别预测所述验证样本数据的借贷结果;
还贷逾期率下降指标计算模块,用于对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;
借贷拒绝率计算模块,用于对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;
风险控制模型评估指标计算模块,用于根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;
模型筛选模块,用于根据所述风险控制模型评估指标进行模型筛选。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取借贷业务的验证样本数据;
通过已训练的多个模型分别预测所述验证样本数据的借贷结果;
对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;
对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;
根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;
根据所述风险控制模型评估指标进行模型筛选。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取借贷业务的验证样本数据;
通过已训练的多个模型分别预测所述验证样本数据的借贷结果;
对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;
对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;
根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;
根据所述风险控制模型评估指标进行模型筛选。
上述借贷风险控制的模型筛选方法、装置、计算机设备和存储介质,通过已训练的多个模型分别预测各个验证样本数据的借贷结果,并分别根据每个模型所预测的借贷结果和相应验证样本数据的实际借贷结果进行统计计算,获得相应的还贷逾期率下降指标和借贷拒绝率。根据每个模型对应的还贷逾期率下降指标和借贷拒绝率计算相应的风险控制模型评估指标,再根据计算所得的风险控制模型评估指标对该多个模型进行横向比较,从而筛选出用于借贷风险控制的最佳模型,提高了模型筛选的准确率。
附图说明
图1为一个实施例中借贷风险控制的模型筛选方法的应用环境图;
图2为一个实施例中计算机设备的内部结构示意图;
图3为一个实施例中借贷风险控制的模型筛选方法的流程示意图;
图4为另一个实施例中借贷风险控制的模型筛选方法的流程示意图;
图5为又一个实施例中借贷风险控制的模型筛选方法的流程示意图;
图6为一个实施例中借贷风险控制的模型筛选装置的结构框图;
图7为另一个实施例中借贷风险控制的模型筛选装置的结构框图;
图8为又一个实施例中借贷风险控制的模型筛选装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种借贷风险控制的模型筛选方法的应用环境图。参照图1,该借贷风险控制的模型筛选方法应用于借贷风险控制的模型筛选系统,该系统包括计算机设备100。其中,计算机设备100可以是终端或者服务器。终端可以是移动终端,比如平板电脑或笔记本电脑。服务器具体可以是单个服务器或者多个服务器组成的服务器集群,可以是物理服务器或者虚拟服务器。计算机设备100可用于借贷业务的建模样本数据的获取和清洗,也可用于模型的建立和筛选,还可用于验证样本数据的获取与预测等。
图2为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的存储器中可存储有操作系统,还存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现一种借贷风险控制的模型筛选方法。该计算机设备的内存储器为非易失性存储介质中的计算机程序的运行提供环境。该处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的网络接口用于据以与外部通信,如获取建模样本数据和验证样本数据等。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按钮、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种借贷风险控制的模型筛选方法。本实施例中,以该方法应用于上述图1中的计算机设备来举例说明。该方法具体包括如下步骤:
S302,获取借贷业务的验证样本数据。
其中,借贷业务是将资源借给他人或向他人借用资源的业务。资源可以是钱财、交通工具或者图书等可进行借贷的对象。验证样本数据是用于验证模型效果的样本数据。验证样本数据具体包括借贷方基本信息、借贷方历史行为数据和借贷方资本状况数据中的至少一种。借贷方是需要从其他对象借取资源的一方。借贷方历史行为数据表示借贷方过往一段时间内的行为数据。借贷方历史行为数据可以包括借贷方历史的借贷数据、还贷数据和借贷信用数据等。借贷方基本信息表示借贷方的基本属性。当借贷方为个人时,借贷方基本信息可以包括性别、年龄、婚姻和收入等信息中的至少一种。当借贷方为机构时,借贷方基本信息可以包括注册资本、所属行业或者企业类型等。
具体地,计算机设备获取借贷业务的多个验证样本数据,该验证样本数据用于验证已经训练完的模型的预测效果,以及用于根据该验证样本数据和相应的预测结果进行分析,从已训练的多个模型中筛选出一个用于借贷风险控制的模型。
在一个实施例中,验证样本数据可以是内部数据库中已存储的对应于借贷业务的历史数据,计算机设备通过访问数据库,从数据库中读取借贷业务的相关历史数据,作为所获取的验证样本数据。通过从数据库中读取已存储的历史数据来获取验证样本数据,提高了验证样本数据的获取效率。
在一个实施例中,计算机设备可以从互联网上的共享资源中获取相应的借贷业务数据,并将该获取的借贷业务数据作为借贷业务的验证样本数据。通过该种途径获取验证样本数据,能够获取到近期更新后的借贷业务数据,提高了验证样本数据的准确性和全面性。
S304,通过已训练的多个模型分别预测验证样本数据的借贷结果。
其中,已训练是指已经进行过训练并且训练已经完成。模型是通过选择建模样本数据和指定的算法进行训练构建的虚拟模型。已训练的模型具体可用于对输入的验证样本数据预测输出相应的借贷结果。预测是根据模型估计验证样本数据的借贷结果。借贷结果是模型根据所输入的验证样本数据对应输出的借贷审批决定。借贷结果具体可以是借贷通过或借贷拒绝。
具体地,计算机设备将所获取的验证样本数据输入已经训练完成的多个模型,通过该多个模型分别预测并输出该验证样本数据所对应的借贷结果。计算机设备对于所获取的多个验证样本数据中的每个验证样本数据分别通过该多个模型预测相应的借贷结果。
在一个实施例中,已训练完成的多个模型分别对应有相应的置信度,计算机设备将验证样本数据输入已训练的模型后,在选择模型对应的置信度的条件下,预测输出相应的借贷结果。其中,置信度是判断借贷结果为借贷通过或借贷拒绝的可信度概率。具体地,计算机设备通过比较借贷结果为借贷通过的置信度与借贷结果为借贷拒绝的置信度的大小,选择其中置信度较大的借贷结果作为最终预测输出的借贷结果。通过比较置信度来确定预测输出的借贷结果,提高了模型预测的准确率。
S306,对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标。
其中,借贷通过是模型对验证样本数据所预测输出的表示可以进行借贷的结论。还贷数据是用于表示还贷的相关信息。还贷数据具体可以是约定还贷日期、实际还贷日期和其他与还贷相关的数据。自然还贷逾期率是所获取的多个验证样本数据中,还贷逾期的验证样本数据的数量占所获取的验证样本数据的总量的比率。还贷逾期是指实际还贷日期晚于约定还贷日期。还贷逾期率下降指标,表示预测借贷结果所得的预测还贷逾期率相较于自然还贷逾期率下降的变化趋势。
具体地,计算机设备根据所获取的多个验证样本数据所对应的还贷数据,进行统计分析,获得该多个验证样本数据所对应的自然还贷逾期率。计算机设备通过多个模型中的每个模型,分别预测计算机设备所获取的多个验证样本数据中的每个验证样本数据所对应的借贷结果。对于多个模型中的每个模型,计算机设备分别根据所预测的借贷结果对所获取的多个验证样本数据进行统计分析。对于每个模型,计算机设备分别统计分析该模型所预测的多个验证样本数据中,借贷结果为借贷通过的验证样本数据所对应的还贷数据,并根据该统计分析的结果和上述自然还贷逾期率,计算获得每个模型所对应的还贷逾期率下降指标。其中,统计分析是根据多个验证样本数据所分别对应的还贷数据进行的累计分析。
S308,对于多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率。
其中,借贷拒绝是模型对验证样本数据所预测输出的表示拒绝借贷的结论。验证样本数据总量是计算机设备所获取的验证样本数据的总数量。借贷拒绝率,表示预测的借贷结果中借贷拒绝的数量占借贷结果总数的比率。
具体地,计算机设备统计分析所获取的验证样本数据的总数量,获得相应的验证样本数据总量。对于多个模型中的每个模型,计算机设备分别统计分析每个模型所预测的多个验证样本数据中,借贷结果为借贷拒绝的验证样本数据的数量,并根据累计计算所得的总数量和验证样本数据总量,计算获得每个模型所对应的借贷拒绝率。
S310,根据每个模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个模型的风险控制模型评估指标。
其中,风险控制模型评估指标是评估模型用作风险控制模型所获得的风险控制效果的参数。风险控制模型评估指标,具体可以表示通过模型预测后,相较于未采用模型预测,借贷拒绝率提高对还贷逾期率下降的影响。风险控制模型评估指标可以与还贷逾期率下降指标正相关,且与借贷拒绝率负相关。
具体地,对于上述多个模型中的每个模型,计算机设备通过分别统计分析获得相应的还贷逾期率下降指标和借贷拒绝率,再根据所获得的还贷逾期率下降指标和借贷拒绝率,对应确定每个模型的风险控制模型评估指标。
S312,根据风险控制模型评估指标进行模型筛选。
其中,模型筛选是按照预设条件从多个模型中筛选出满足条件的模型。预设条件是预先设定的筛选条件。预设条件具体可以是从多个模型中筛选出风险控制模型评估指标最高的模型。
具体地,对于上述多个模型中的每个模型,计算机设备分别计算出相应的风险控制模型评估指标,再通过比较该多个模型所对应的风险控制模型评估指标,对该多个模型进行筛选。
上述借贷风险控制的模型筛选方法,通过已训练的多个模型分别预测各个验证样本数据的借贷结果,并分别根据每个模型所预测的借贷结果和相应验证样本数据的实际借贷结果进行统计计算,获得相应的还贷逾期率下降指标和借贷拒绝率。根据每个模型对应的还贷逾期率下降指标和借贷拒绝率计算相应的风险控制模型评估指标,再根据计算所得的风险控制模型评估指标对该多个模型进行横向比较,从而筛选出用于借贷风险控制的最佳模型,提高了模型筛选的准确率。
在一个实施例中,步骤S304之后,上述借贷风险控制的模型筛选方法还包括:根据预测的借贷结果和相应验证样本数据的真实借贷结果,分别计算多个模型各自相应的通用模型评估指标;从多个模型中按照相应的通用模型评估指标筛选模型;其中,对于多个模型中的模型,是对于从多个模型中按照相应的通用模型评估指标筛选出的模型。
其中,真实借贷结果表示现实场景下验证样本数据所对应的借贷结果。通用模型评估指标是适用于评估各种模型的模型分类效果的参数。通用评估指标具体可以是AUC(用于评估模型的预测精准度的通用指标)。
具体地,对于上述多个模型中的每个模型,计算机设备分别根据每个模型所预测的多个验证样本数据的借贷结果,以及该多个验证样本数据的真实借贷结果,计算每个模型的通用模型评估指标。计算机设备分别计算出上述多个模型中的每个模型所对应的通用模型评估指标后,根据每个模型所对应的通用模型评估指标对该多个模型进行筛选。
进一步地,对于根据通用模型评估指标从上述多个模型中筛选出的模型,计算机设备根据上述计算还贷逾期率下降指标和借贷拒绝率的方法,分别计算筛选出的模型所对应的还贷逾期率下降指标和借贷拒绝率。对于筛选出的每个模型,计算机设备根据所计算出的还贷逾期率下降指标和借贷拒绝率,分别计算相应的风险控制模型评估指标。计算机设备根据所计算出的风险控制模型评估指标,对于上述根据通用模型评估指标筛选出的模型进行再次筛选。
在一个实施例中,计算机设备计算出多个模型中的每个模型所对应的通用模型评估指标后,将所计算出的每个通用模型评估指标分别与预设阈值相比较。计算机设备对于通用模型评估指标小于预设阈值的模型不做进一步的处理。计算机设备对于通用模型评估指标大于等于预设阈值的模型,根据上述方法计算该模型的还贷逾期率下降指标和借贷拒绝率,以及相应的风险控制模型评估指标。对于通用模型评估指标大于等于预设阈值的多个模型,根据该多个模型中的每个模型所对应的风险控制模型评估指标进行模型筛选。
其中,预设阈值是预先设定的比较标准。预设阈值用于对上述多个模型进行初步筛选,具体可以根据实际需要进行预设。预设阈值具体可以是0.7。首先分别计算每个模型的通用模型评估指标,并通过将其与预设阈值进行比较,从而实现多个模型的初步筛选,只有通用模型评估指标大于等于预设阈值的模型才会进一步计算相应的风险控制模型评估指标,提高了后续模型的计算与筛选效率。
上述实施例中,通过计算多个模型中的每个模型的通用模型评估指标,并根据所计算出的通用模型评估指标对该多个模型进行初步筛选。通过模型的初步筛选,减少了进一步计算并比较风险控制模型评估指标的模型的数量,提高了模型的筛选效率。
在一个实施例中,步骤S306包括:对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据,计算相应的预测还贷逾期率;将自然还贷逾期率和预测还贷逾期率作差,得到还贷逾期率下降指标。
其中,预测还贷逾期率是模型预测的借贷结果为借贷通过的验证样本数据中,还贷逾期的验证样本数据的数量占借贷通过对应的验证样本数据的数量的比率。
具体地,对于多个模型中的每个模型,计算机设备对每个模型所预测的借贷结果为借贷通过的验证样本数据所对应的还贷数据进行统计分析。计算机设备分别统计分析每个模型所预测的借贷结果为借贷通过的验证样本数据中,还贷逾期的验证样本数据的数量占借贷结果为借贷通过的验证样本数据的数量的比率,获得相应的预测还贷逾期率。计算机设备计算出每个模型的预测还贷逾期率后,将所获取的多个验证样本数据所对应的自然还贷逾期率和每个模型的预测还贷逾期率作差,分别计算出每个模型对应的还贷逾期率下降指标。
在一个实施例中,计算机设备已经训练完成且用于验证样本数据预测的模型能够有效降低验证样本数据的还贷逾期率,不能有效降低还贷逾期率的模型则舍弃。通过模型预测的验证样本数据,所获取的预测还贷逾期率低于自然还贷逾期率。计算机设备计算出每个模型的预测还贷逾期率后,计算所获取的多个验证样本数据所对应的自然还贷逾期率与每个模型的预测还贷逾期率之间的差值,再对计算所得的差值取绝对值,获得相应的还贷逾期率下降指标。
上述实施例中,分别根据每个模型预测的借贷结果为借贷通过的验证样本数据统计分析获得相应的预测还贷逾期率,再根据验证样本数据的自然还贷逾期率和每个模型的预测还贷逾期率计算相应的还贷逾期率下降指标。通过计算每个模型的还贷逾期率下降指标,为模型评估与筛选时提供了量化依据,能够根据该量化的还贷逾期率下降指标实现了模型的客观预测能力。
在一个实施例中,步骤S308包括:对于多个模型中的模型,分别用相应的借贷结果为借贷拒绝的验证样本数据的数量除以验证样本数据总量,得到借贷拒绝率;步骤S310包括:对于多个模型中的模型,分别用相应的还贷逾期率下降指标除以借贷拒绝率,得到相应的风险控制模型评估指标。
其中,风险控制模型评估指标用于表示计算机设备根据模型预测的验证样本数据的借贷结果进行统计分析所获得的借贷拒绝率上升,与该模型对应的预测还贷逾期率下降的关系。换句话说,风险控制模型评估指标是每个模型的借贷拒绝率与还贷逾期率下降指标之间的线性关系。
具体地,对于多个模型中的每个模型,计算机设备分别统计分析每个模型预测的借贷结果为借贷拒绝的验证样本数据的数量,并将统计分析所得的数量除以所获取的验证样本数据对应的验证样本数据总量,得到每个模型的借贷拒绝率。
进一步地,对于多个模型中的每个模型,计算机设备获得相应的还贷逾期率下降指标和借贷拒绝率后,将所获得的还贷逾期率下降指标除以借贷拒绝率,获得每个模型对应的风险控制模型评估指标。
上述实施例中,根据每个模型预测的借贷结果统计分析获得相应的借贷拒绝率和风险控制模型评估指标,通过计算每个模型的借贷拒绝率和风险控制模型评估指标,能够量化每个模型的预测能力,并且能够实现多个模型之间的横向比较。
在一个实施例中,上述借贷风险控制的模型筛选方法中,还包括:获取与借贷拒绝率相应的借贷通过率;在多个模型中,筛选借贷通过率满足预设条件的模型;对于借贷通过率满足预设条件的模型,执行步骤S312。
其中,借贷通过率用于表示模型所预测的多个验证样本数据中,借贷结果为借贷通过的验证样本数据的数量占验证样本数据总量的比率。预设条件是预先设定的比较标准。预设条件具体可以是借贷通过率的区间范围,比如说60%~70%。
具体地,对于多个模型中的每个模型,计算机设备分别获取与借贷拒绝率相对应的借贷通过率。计算机设备获取每个模型的借贷通过率后,从该多个模型中,筛选出借贷通过率满足预设条件的模型。计算机设备对于筛选出的借贷通过率满足预设条件的模型,再根据该筛选出的模型所对应的风险控制模型评估指标进行再次筛选。
上述实施例中,首先根据多个模型的借贷通过率对该多个模型进行筛选,再对筛选出的模型根据相应的风险控制模型评估指标进行再次筛选,从而筛选出用于借贷风控控制的模型。计算机设备通过根据不同的参数指标对模型进行两次筛选,从而筛选出最符合要求的模型,提高了筛选的准确率。
在一个实施例中,上述借贷风险控制的模型筛选方法中,获取与借贷拒绝率相应的借贷通过率的步骤包括:根据每个模型所对应的借贷拒绝率分别计算相应的借贷通过率;和/或,对于多个模型中的模型,分别根据相应的借贷结果为借贷通过的验证样本数据的数量和验证样本数据总量,计算借贷通过率。
其中,对于每个模型,借贷拒绝和借贷通过是相互对立的两个方面。换句话说,计算机设备通过模型预测的每个验证样本数据的借贷结果,是且只能是借贷通过和借贷拒绝中的任一方面。因而,借贷拒绝率与借贷通过率是和为1的两个相关概率。
具体地,计算机设备对于多个模型中的每个模型计算出相应的借贷拒绝率后,根据该借贷拒绝率即可计算出相应的借贷通过率。对于每个模型,计算机设备分别将单位1与借贷拒绝率作差,计算出相应的借贷通过率。
进一步地,对于多个模型中的每个模型,计算机设备分别统计分析每个模型预测的借贷结果为借贷通过的验证样本数据的数量,并计算该统计分析所的数量占验证样本数据总量的比率,从而获得每个模型对应的借贷通过率。
上述实施例中,通过两种方式计算每个模型的借贷通过率,以使得能够根据该计算所得的借贷通过率对多个模型进行筛选,从而使得计算机设备能够根据该量化的借贷通过率客观分析相应模型的预测能力,提高了模型筛选的准确率。
在一个实施例中,上述借贷风险控制的模型筛选方法,还包括:获取借贷业务的建模样本数据;对建模样本数据进行数据清洗;按照指定的多种机器学习算法,分别根据清洗后的建模样本数据进行模型训练,获得与多种机器学习算法相应的多个模型。
其中,建模样本数据是用于训练模型的数据。建模样本数据具体可以包括借贷方基本信息、借贷方历史行为数据和借贷方资本状况数据中的至少一种。借贷方历史行为数据可以包括借贷方历史的借贷数据、还贷数据和借贷信用数据等。借贷方基本信息表示借贷方的基本属性。当借贷方为个人时,借贷方基本信息可以包括性别、年龄、婚姻和收入等信息中的至少一种。当借贷方为机构时,借贷方基本信息可以包括注册资本、所属行业或者企业类型等。
数据清洗是对建模样本数据进行重新审查和校验,提高建模样本数据的数据质量的过程。数据清洗具体可以是提取有效变量、去除垃圾数据和降低建模维度等过程中的至少一种。
机器学习算法是根据已知的数据或经验自动改进模型参数的计算机算法。机器学习算法具体可以是逻辑回归算法、神经网络算法、线性回归、决策树、支持向量机和深度学习等中的至少一种。训练是根据已知的算法和训练数据不断更新模型参数并确定模型参数的过程。
具体地,计算机设备获取借贷业务的建模样本数据,并对所获取的建模样本数据进行数据清洗。计算机设备指定多种机器学习算法,并根据清洗后的建模样本数据,按照所指定的多种机器学习算法分别进行模型训练。模型训练完成后,计算机设备能够获取对应于该多种机器学习算法的多个模型。计算机设备将训练完成后的多个模型调整至最佳状态,再根据上述模型筛选方法对该多个模型进行筛选。
上述实施例中,计算机设备根据所获得的建模样本数据,分别按照多种机器学习算法进行模型训练,以获得相应的多个模型,从而能够根据上述量化的指标从该多个模型中筛选出适用于借贷风险控制的模型。根据同样的建模样本数据进行模型训练,再根据同样的验证样本数据进行模型筛选,能够对该多个模型进行横向的量化比较,有效提高了模型的筛选准确率。
如图4所示,在一个具体的实施例中,提供了一种借贷风险控制的模型筛选方法,该方法包括以下步骤:
S402,计算机设备获取借贷业务的建模样本数据。
S404,计算机设备对建模样本数据进行数据清洗。
S406,计算机设备按照指定的多种机器学习算法,分别根据清洗后的建模样本数据进行模型训练,获得与多种机器学习算法相应的多个模型。
S408,计算机设备获取借贷业务的验证样本数据。
S410,计算机设备通过已训练的多个模型分别预测验证样本数据的借贷结果。
S412,计算机设备根据预测的借贷结果和相应验证样本数据的真实借贷结果,分别计算多个模型各自相应的通用模型评估指标。
S414,计算机设备从多个模型中按照相应的通用模型评估指标筛选模型。
S416,对于每个模型,计算机设备分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据,计算相应的预测还贷逾期率。
S418,计算机设备将自然还贷逾期率和预测还贷逾期率作差,得到还贷逾期率下降指标。
S420,对于每个模型,计算机设备分别用相应的借贷结果为借贷拒绝的验证样本数据的数量除以验证样本数据总量,得到借贷拒绝率。
S422,对于每个模型,计算机设备分别用相应的还贷逾期率下降指标除以借贷拒绝率,得到相应的风险控制模型评估指标。获得每个模型的风险控制模型评估指标后,直接执行步骤S428,也可以先执行步骤S424-S426,再执行步骤S428。
S424,计算机设备根据每个模型所对应的借贷拒绝率分别计算相应的借贷通过率。
S426,计算机设备在多个模型中,筛选借贷通过率满足预设条件的模型。
S428,计算机设备根据风险控制模型评估指标进行模型筛选。
上述实施例中,计算机设备通过训练获取多个模型,并通过该多个模型分别预测所获取的验证样本数据的借贷结果,再根据预测的借贷结果分别统计分析获取该多个模型中的每个模型的通用模型评估指标,并根据所获取的通用模型评估指标对多个模型进行初步筛选。计算机设备对于从初步筛选出的模型中,筛选出用于借贷风险控制的模型有两种可选的方式。一种是直接根据风险控制模型评估指标进行模型筛选。一种是先根据每个模型的借贷通过率是否满足预设条件进行二次筛选,再对筛选出的模型根据风险控制模型评估指标进行筛选。通过多重筛选提高了模型筛选的准确率,同时还提供了多种筛选方式,可以根据实际需要进行选择,进一步提高了筛选的准确率。
在一个具体地实施例中,计算机设备通过选定的5个算法分别进行模型训练获得相应的5个算法模型,比如所获得的5个算法模型分别为第一算法模型、第二算法模型、第三算法模型、第四算法模型和第五算法模型。计算机设备分别获取某产品2016年4月份和2016年5月份的两组数据作为两组验证样本数据。其中,为了描述简洁,对于每个算法模型,用A值表示还贷逾期率下降指标,B值表示借贷拒绝率,C值表示风险控制模型评估指标,D值表示借贷通过率。
计算机设备通过上述5个算法模型分别预测所获得的两组验证样本数据中的每个验证样本数据所对应的借贷结果,并根据预测的借贷结果分别计算每个模型对于每组数据的通用模型评估指标。计算机设备将通用模型评估指标的预设阈值预设为0.7。通过将上述5个算法模型的通用模型评估指标分别与该预设阈值相比较,筛选出通用模型评估指标大于等于预设阈值的算法模型。其中,通过比较筛选出的4个算法模型分别为第一算法模型、第二算法模型、第三算法模型和第四算法模型。
计算机设备对于筛选出的4个算法模型,分别根据预测的借贷结果分别计算两组验证样本数据所对应的A值、B值、C值和D值。计算机设备通过计算获得的具体结果如下表1所示:
计算机设备根据上述数据具体可以有两种筛选算法模型的方式:
第一种筛选方式是根据C值进行模型筛选。如上述表1的数据所示,对于两组验证样本数据,均是第一算法模型的C值较高,因而筛选出第一算法模型作为用于借贷风险控制的模型。
第二种筛选方式是先将D值与预设阈值进行比较对模型进行筛选,再对筛选出的模型根据C值进行筛选。比如说可以将预设阈值设定为60%-70%。从上述表1可知,根据D值筛选出的模型有第二算法模型、第三算法模型和第四算法模型三个算法模型,再根据C值筛选出第四算法模型作为用于借贷风险控制的模型。
如图5所示,计算机设备对于上述两种筛选方案的具体过程可以概括为以下步骤:
(1)、计算机设备获取建模样本数据,并对所获取的建模样本数据进行数据清洗。
(2)、计算机设备根据数据清洗后的建模样本数据,分别按照指定的5个机器学习算法进行模型训练,获得相应的第一算法模型、第二算法模型、第三算法模型、第四算法模型和第五算法模型。
(3)、计算机设备对于上述5个算法模型分别进行统计分析获得相应的通用模型评估指标、还贷逾期率下降指标和借贷拒绝率。
(4)、计算机设备根据上述还贷逾期率下降指标和借贷拒绝率分别计算相应的风险控制模型评估指标和借贷通过率。
(5)、计算机设备根据风险控制模型评估指标对模型进行直接筛选,或,参考借贷通过率再根据风险控制模型评估指标对模型进行筛选。
上述实施例中,提供了从多个模型中选择用于借贷风险控制的模型的量化依据,提高了筛选的客观性,从而提高了模型筛选的准确率,同时还提供了两种用于筛选模型的方式,可以根据需要选择相应的筛选方式,进一步提高了模型筛选的准确率。
为了验证上述两种模型筛选方式筛选出的模型是用于借贷风险控制的最佳模型,以下根据上述两组验证样本数据分别计算3个证指标来进行验证。其中,3个验证指标分别为误杀率、命中率和覆盖率。
具体地,误杀率是指模型预测的借贷结果为借贷拒绝的验证样本数据所对应的还贷数据中实际上并没有还贷逾期的比例。命中率是指模型预测的借贷结果为借贷拒绝的验证样本数据所对应的还贷数据中实际上真的还贷逾期的比例。覆盖率是指模型预测的借贷结果为借贷拒绝的验证样本数据所对应的还贷数据中,实际上真的还贷逾期的验证样本数据在所有实际还贷逾期的验证样本数据中的占比。
计算机设备根据上述两组验证样本数据分别计算的上述3个验证指标的数据如下表2所示:
根据上述表2中的数据分别述两种模型筛选方式进行分析:
对于第一种筛选方式,筛选出的用于借贷风险控制的模型是第一算法模型,而根据上述表2可知,第一算法模型在D值很高时,仍然能够保持较小的误杀率和较高的命中率,因而该筛选方式效果较好。
对于第二种筛选方式,在预设阈值为60%-70%时,筛选出的模型为第四算法模型,根据上述表2可知,第四算法模型相对于第二算法模型和第三算法模型的覆盖率和命中率更高,误差率处于中间水平,因而第四算法模型在预设阈值为60%-70%时是最佳的模型。
通过上述两组验证数据可知,上述两种模型的筛选方式在不同的前提下,均能筛选出相对最佳的模型用于借贷风险控制模型。
如图6所示,在一个实施例中,提供了一种借贷风险控制的模型筛选装置600。参照图6,借贷风险控制的模型筛选装置600包括:验证样本数据获取模块601、借贷结果预测模块602、还贷逾期率下降指标计算模块603、借贷拒绝率计算模块604、风险控制模型评估指标计算模块605和模型筛选模块606。
验证样本数据获取模块601,用于获取借贷业务的验证样本数据。
借贷结果预测模块602,用于通过已训练的多个模型分别预测验证样本数据的借贷结果。
还贷逾期率下降指标计算模块603,用于对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标。
借贷拒绝率计算模块604,用于对于多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率。
风险控制模型评估指标计算模块605,用于根据每个模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个模型的风险控制模型评估指标。
模型筛选模块606,用于根据风险控制模型评估指标进行模型筛选。
上述借贷风险控制的模型筛选装置,通过已训练的多个模型分别预测各个验证样本数据的借贷结果,并分别根据每个模型所预测的借贷结果和相应验证样本数据的实际借贷结果进行统计计算,获得相应的还贷逾期率下降指标和借贷拒绝率。根据每个模型对应的还贷逾期率下降指标和借贷拒绝率计算相应的风险控制模型评估指标,再根据计算所得的风险控制模型评估指标对该多个模型进行横向比较,从而筛选出用于借贷风险控制的最佳模型,提高了模型筛选的准确率。
如图7所示,在一个实施例中,借贷风险控制的模型筛选装置600还包括:通用模型评估指标计算模块607。
通用模型评估指标计算模块607用于根据预测的借贷结果和相应验证样本数据的真实借贷结果,分别计算多个模型各自相应的通用模型评估指标。
模型筛选模块606还用于从多个模型中按照相应的通用模型评估指标筛选模型;其中,对于多个模型中的模型,是对于从多个模型中按照相应的通用模型评估指标筛选出的模型。
上述实施例中,通过计算多个模型中的每个模型的通用模型评估指标,并根据所计算出的通用模型评估指标对该多个模型进行初步筛选。通过模型的初步筛选,减少了进一步计算并比较风险控制模型评估指标的模型的数量,提高了模型的筛选效率。
在一个实施例中,还贷逾期率下降指标计算模块603还用于对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据,计算相应的预测还贷逾期率;还用于将自然还贷逾期率和预测还贷逾期率作差,得到还贷逾期率下降指标。
上述实施例中,计算机设备分别根据每个模型预测的借贷结果为借贷通过的验证样本数据统计分析获得相应的预测还贷逾期率,再根据验证样本数据的自然还贷逾期率和每个模型的预测还贷逾期率计算相应的还贷逾期率下降指标。通过计算每个模型的还贷逾期率下降指标,为模型评估与筛选时提供了量化依据,能够根据该量化的还贷逾期率下降指标实现了模型的客观预测能力。
在一个实施例中,借贷拒绝率计算模块604还用于对于多个模型中的模型,分别用相应的借贷结果为借贷拒绝的验证样本数据的数量除以验证样本数据总量,得到借贷拒绝率;风险控制模型评估指标计算模块605还用于对于多个模型中的模型,分别用相应的还贷逾期率下降指标除以借贷拒绝率,得到相应的风险控制模型评估指标。
上述实施例中,具体体现了计算机设备根据每个模型预测的借贷结果统计分析获得相应的借贷拒绝率和风险控制模型评估指标的过程。通过计算每个模型的借贷拒绝率和风险控制模型评估指标,能够量化每个模型的预测能力,并且能够实现多个模型之间的横向比较。
在一个实施例中,借贷风险控制的模型筛选装置600还包括:借贷通过率获取模型608。
借贷通过率获取模型608用于获取与借贷拒绝率相应的借贷通过率。
模型筛选模块606还用于在多个模型中,筛选借贷通过率满足预设条件的模型;还用于对于借贷通过率满足预设条件的模型,根据风险控制模型评估指标进行模型筛选。
上述实施例中,计算机设备首先根据多个模型的借贷通过率对该多个模型进行筛选,再对筛选出的模型根据相应的风险控制模型评估指标进行再次筛选,从而筛选出用于借贷风控控制的模型。计算机设备通过根据不同的参数指标对模型进行两次筛选,从而筛选出最符合要求的模型,提高了筛选的准确率。
在一个实施例中,借贷通过率获取模型608还用于根据每个模型所对应的借贷拒绝率分别计算相应的借贷通过率;和/或,还用于对于多个模型中的模型,分别根据相应的借贷结果为借贷通过的验证样本数据的数量和验证样本数据总量,计算借贷通过率。
上述实施例中,具体描述了计算机设备计算每个模型的借贷通过率的两种方式,以使得能够根据该计算所得的借贷通过率对多个模型进行筛选,从而使得计算机设备能够根据该量化的借贷通过率客观分析相应模型的预测能力,提高了模型筛选的准确率。
如图8所示,在一个实施例中,借贷风险控制的模型筛选装置600还包括:建模样本数据获取模块609、建模样本数据清洗模块610和模型训练模块611。
建模样本数据获取模块609用于获取借贷业务的建模样本数据。
建模样本数据清洗模块610用于对建模样本数据进行数据清洗。
模型训练模块611用于按照指定的多种机器学习算法,分别根据清洗后的建模样本数据进行模型训练,获得与多种机器学习算法相应的多个模型。
上述实施例中,计算机设备根据所获得的建模样本数据,分别按照多种机器学习算法进行模型训练,以获得相应的多个模型,从而能够根据上述量化的指标从该多个模型中筛选出适用于借贷风险控制的模型。根据同样的建模样本数据进行模型训练,再根据同样的验证样本数据进行模型筛选,能够对该多个模型进行横向的量化比较,有效提高了模型的筛选准确率。
一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取借贷业务的验证样本数据;通过已训练的多个模型分别预测验证样本数据的借贷结果;对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;对于多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;根据每个模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个模型的风险控制模型评估指标;根据风险控制模型评估指标进行模型筛选。
在一个实施例中,计算机程序被处理器执行时,使得处理器执行以下步骤:根据预测的借贷结果和相应验证样本数据的真实借贷结果,分别计算多个模型各自相应的通用模型评估指标;从多个模型中按照相应的通用模型评估指标筛选模型;其中,对于多个模型中的模型,是对于从多个模型中按照相应的通用模型评估指标筛选出的模型。
在一个实施例中,对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标,包括:对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据,计算相应的预测还贷逾期率;将自然还贷逾期率和预测还贷逾期率作差,得到还贷逾期率下降指标。
在一个实施例中,对于多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率,包括:对于多个模型中的模型,分别用相应的借贷结果为借贷拒绝的验证样本数据的数量除以验证样本数据总量,得到借贷拒绝率;根据每个模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个模型的风险控制模型评估指标,包括:对于多个模型中的模型,分别用相应的还贷逾期率下降指标除以借贷拒绝率,得到相应的风险控制模型评估指标。
在一个实施例中,计算机程序被处理器执行时,使得处理器执行以下步骤:获取与借贷拒绝率相应的借贷通过率;在多个模型中,筛选借贷通过率满足预设条件的模型;对于借贷通过率满足预设条件的模型,执行根据风险控制模型评估指标进行模型筛选的步骤。
在一个实施例中,获取与借贷拒绝率相应的借贷通过率包括:根据每个模型所对应的借贷拒绝率分别计算相应的借贷通过率;和/或,对于多个模型中的模型,分别根据相应的借贷结果为借贷通过的验证样本数据的数量和验证样本数据总量,计算借贷通过率。
在一个实施例中,计算机程序被处理器执行时,使得处理器执行以下步骤:获取借贷业务的建模样本数据;对建模样本数据进行数据清洗;按照指定的多种机器学习算法,分别根据清洗后的建模样本数据进行模型训练,获得与多种机器学习算法相应的多个模型。
上述计算机设备,通过已训练的多个模型分别预测各个验证样本数据的借贷结果,并分别根据每个模型所预测的借贷结果和相应验证样本数据的实际借贷结果进行统计计算,获得相应的还贷逾期率下降指标和借贷拒绝率。根据每个模型对应的还贷逾期率下降指标和借贷拒绝率计算相应的风险控制模型评估指标,再根据计算所得的风险控制模型评估指标对该多个模型进行横向比较,从而筛选出用于借贷风险控制的最佳模型,提高了模型筛选的准确率。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取借贷业务的验证样本数据;通过已训练的多个模型分别预测验证样本数据的借贷结果;对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;对于多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;根据每个模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个模型的风险控制模型评估指标;根据风险控制模型评估指标进行模型筛选。
在一个实施例中,计算机程序被处理器执行时,使得处理器执行以下步骤:根据预测的借贷结果和相应验证样本数据的真实借贷结果,分别计算多个模型各自相应的通用模型评估指标;从多个模型中按照相应的通用模型评估指标筛选模型;其中,对于多个模型中的模型,是对于从多个模型中按照相应的通用模型评估指标筛选出的模型。
在一个实施例中,对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标,包括:对于多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据,计算相应的预测还贷逾期率;将自然还贷逾期率和预测还贷逾期率作差,得到还贷逾期率下降指标。
在一个实施例中,对于多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率,包括:对于多个模型中的模型,分别用相应的借贷结果为借贷拒绝的验证样本数据的数量除以验证样本数据总量,得到借贷拒绝率;根据每个模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个模型的风险控制模型评估指标,包括:对于多个模型中的模型,分别用相应的还贷逾期率下降指标除以借贷拒绝率,得到相应的风险控制模型评估指标。
在一个实施例中,计算机程序被处理器执行时,使得处理器执行以下步骤:获取与借贷拒绝率相应的借贷通过率;在多个模型中,筛选借贷通过率满足预设条件的模型;对于借贷通过率满足预设条件的模型,执行根据风险控制模型评估指标进行模型筛选的步骤。
在一个实施例中,获取与借贷拒绝率相应的借贷通过率包括:根据每个模型所对应的借贷拒绝率分别计算相应的借贷通过率;和/或,对于多个模型中的模型,分别根据相应的借贷结果为借贷通过的验证样本数据的数量和验证样本数据总量,计算借贷通过率。
在一个实施例中,计算机程序被处理器执行时,使得处理器执行以下步骤:获取借贷业务的建模样本数据;对建模样本数据进行数据清洗;按照指定的多种机器学习算法,分别根据清洗后的建模样本数据进行模型训练,获得与多种机器学习算法相应的多个模型。
上述计算机可读存储介质,通过已训练的多个模型分别预测各个验证样本数据的借贷结果,并分别根据每个模型所预测的借贷结果和相应验证样本数据的实际借贷结果进行统计计算,获得相应的还贷逾期率下降指标和借贷拒绝率。根据每个模型对应的还贷逾期率下降指标和借贷拒绝率计算相应的风险控制模型评估指标,再根据计算所得的风险控制模型评估指标对该多个模型进行横向比较,从而筛选出用于借贷风险控制的最佳模型,提高了模型筛选的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上方法实施例中的各个步骤不限定执行顺序,可以进行任意调整,为使描述简洁,未对上述方法实施例中各个步骤的所有可能排列组合都进行描述,然而,只要所有这些步骤的排列组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种借贷风险控制的模型筛选方法,所述方法包括:
获取借贷业务的验证样本数据;
通过已训练的多个模型分别预测所述验证样本数据的借贷结果;
对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;
对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;
根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;
根据所述风险控制模型评估指标进行模型筛选。
2.根据权利要求1所述的方法,其特征在于,所述通过已训练的多个模型分别预测所述验证样本数据的借贷结果的步骤之后,所述方法还包括:
根据预测的借贷结果和相应验证样本数据的真实借贷结果,分别计算所述多个模型各自相应的通用模型评估指标;
从所述多个模型中按照相应的通用模型评估指标筛选模型;
其中,所述对于所述多个模型中的模型,是对于从所述多个模型中按照相应的通用模型评估指标筛选出的模型。
3.根据权利要求1所述的方法,其特征在于,所述对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标,包括:
对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据,计算相应的预测还贷逾期率;
将自然还贷逾期率和所述预测还贷逾期率作差,得到还贷逾期率下降指标。
4.根据权利要求3所述的方法,其特征在于,所述对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率,包括:
对于所述多个模型中的模型,分别用相应的借贷结果为借贷拒绝的验证样本数据的数量除以验证样本数据总量,得到借贷拒绝率;
根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标,包括:
对于所述多个模型中的模型,分别用相应的还贷逾期率下降指标除以借贷拒绝率,得到相应的风险控制模型评估指标。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述借贷拒绝率相应的借贷通过率;
在所述多个模型中,筛选借贷通过率满足预设条件的模型;
对于所述借贷通过率满足预设条件的模型,执行所述根据所述风险控制模型评估指标进行模型筛选的步骤。
6.根据权利要求5所述的方法,其特征在于,所述获取与所述借贷拒绝率相应的借贷通过率包括:
根据每个所述模型所对应的借贷拒绝率分别计算相应的借贷通过率;和/或,
对于所述多个模型中的模型,分别根据相应的借贷结果为借贷通过的验证样本数据的数量和验证样本数据总量,计算借贷通过率。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
获取借贷业务的建模样本数据;
对所述建模样本数据进行数据清洗;
按照指定的多种机器学习算法,分别根据清洗后的建模样本数据进行模型训练,获得与所述多种机器学习算法相应的多个模型。
8.一种借贷风险控制的模型筛选装置,其特征在于,所述装置包括:
验证样本数据获取模块,用于获取借贷业务的验证样本数据;
借贷结果预测模块,用于通过已训练的多个模型分别预测所述验证样本数据的借贷结果;
还贷逾期率下降指标计算模块,用于对于所述多个模型中的模型,分别根据借贷结果为借贷通过的验证样本数据所对应的还贷数据和自然还贷逾期率,计算还贷逾期率下降指标;
借贷拒绝率计算模块,用于对于所述多个模型中的模型,分别根据相应的借贷结果为借贷拒绝的验证样本数据的数量和验证样本数据总量,计算借贷拒绝率;
风险控制模型评估指标计算模块,用于根据每个所述模型所对应的还贷逾期率下降指标和借贷拒绝率,分别确定每个所述模型的风险控制模型评估指标;
模型筛选模块,用于根据所述风险控制模型评估指标进行模型筛选。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711211464.7A CN107944708A (zh) | 2017-11-28 | 2017-11-28 | 借贷风险控制的模型筛选方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711211464.7A CN107944708A (zh) | 2017-11-28 | 2017-11-28 | 借贷风险控制的模型筛选方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107944708A true CN107944708A (zh) | 2018-04-20 |
Family
ID=61949304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711211464.7A Pending CN107944708A (zh) | 2017-11-28 | 2017-11-28 | 借贷风险控制的模型筛选方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944708A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573355A (zh) * | 2018-05-08 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN109117976A (zh) * | 2018-06-22 | 2019-01-01 | 重庆小雨点小额贷款有限公司 | 一种贷款损失预测方法、装置、服务器及存储介质 |
CN109598285A (zh) * | 2018-10-24 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种模型的处理方法、装置及设备 |
CN110263859A (zh) * | 2019-06-21 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 样本分类方法、装置、设备及可读存储介质 |
CN110262939A (zh) * | 2019-05-14 | 2019-09-20 | 苏宁金融服务(上海)有限公司 | 算法模型运行监控方法、装置、计算机设备和存储介质 |
CN110349038A (zh) * | 2019-06-13 | 2019-10-18 | 中国平安人寿保险股份有限公司 | 风险评估模型训练方法和风险评估方法 |
WO2020042503A1 (zh) * | 2018-08-27 | 2020-03-05 | 深圳壹账通智能科技有限公司 | 风控系统的验证方法、装置、设备及存储介质 |
CN112270478A (zh) * | 2020-10-30 | 2021-01-26 | 重庆富民银行股份有限公司 | 用于风控模型竞争的管理方法及平台 |
CN112434073A (zh) * | 2019-08-24 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 一种样本选择模型的确定方法及装置 |
CN113487225A (zh) * | 2021-07-23 | 2021-10-08 | 北京云从科技有限公司 | 一种风险控制方法、系统、设备及介质 |
CN113487225B (zh) * | 2021-07-23 | 2024-05-24 | 北京云从科技有限公司 | 一种风险控制方法、系统、设备及介质 |
-
2017
- 2017-11-28 CN CN201711211464.7A patent/CN107944708A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573355A (zh) * | 2018-05-08 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN108573355B (zh) * | 2018-05-08 | 2021-07-13 | 创新先进技术有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN109117976A (zh) * | 2018-06-22 | 2019-01-01 | 重庆小雨点小额贷款有限公司 | 一种贷款损失预测方法、装置、服务器及存储介质 |
CN109117976B (zh) * | 2018-06-22 | 2021-05-11 | 重庆小雨点小额贷款有限公司 | 一种贷款损失预测方法、装置、服务器及存储介质 |
WO2020042503A1 (zh) * | 2018-08-27 | 2020-03-05 | 深圳壹账通智能科技有限公司 | 风控系统的验证方法、装置、设备及存储介质 |
CN109598285A (zh) * | 2018-10-24 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种模型的处理方法、装置及设备 |
CN110262939A (zh) * | 2019-05-14 | 2019-09-20 | 苏宁金融服务(上海)有限公司 | 算法模型运行监控方法、装置、计算机设备和存储介质 |
CN110349038A (zh) * | 2019-06-13 | 2019-10-18 | 中国平安人寿保险股份有限公司 | 风险评估模型训练方法和风险评估方法 |
CN110263859A (zh) * | 2019-06-21 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 样本分类方法、装置、设备及可读存储介质 |
CN112434073A (zh) * | 2019-08-24 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 一种样本选择模型的确定方法及装置 |
CN112434073B (zh) * | 2019-08-24 | 2024-03-19 | 北京地平线机器人技术研发有限公司 | 一种样本选择模型的确定方法及装置 |
CN112270478A (zh) * | 2020-10-30 | 2021-01-26 | 重庆富民银行股份有限公司 | 用于风控模型竞争的管理方法及平台 |
CN112270478B (zh) * | 2020-10-30 | 2023-06-09 | 重庆富民银行股份有限公司 | 用于风控模型竞争的管理方法及平台 |
CN113487225A (zh) * | 2021-07-23 | 2021-10-08 | 北京云从科技有限公司 | 一种风险控制方法、系统、设备及介质 |
CN113487225B (zh) * | 2021-07-23 | 2024-05-24 | 北京云从科技有限公司 | 一种风险控制方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944708A (zh) | 借贷风险控制的模型筛选方法、装置和存储介质 | |
CN108875963A (zh) | 机器学习模型的优化方法、装置、终端设备和存储介质 | |
CN103810101B (zh) | 一种软件缺陷预测方法和软件缺陷预测系统 | |
TW201734837A (zh) | 一種多重抽樣模型訓練方法及裝置 | |
CN107203774A (zh) | 对数据的归属类别进行预测的方法及装置 | |
CN108596495A (zh) | 一种零售信贷业务评分系统及方法 | |
CN106022892A (zh) | 信用评分模型的更新方法及系统 | |
CN108389120A (zh) | 一种对互联网信贷资产进行自动评级的方法、系统及装置 | |
CN108171335A (zh) | 建模数据的选取方法、装置、存储介质及电子设备 | |
CN106408411A (zh) | 信用评估方法及装置 | |
CN109615280A (zh) | 员工数据处理方法、装置、计算机设备和存储介质 | |
CN107633455A (zh) | 基于数据模型的信用评估方法及装置 | |
CN107633030A (zh) | 基于数据模型的信用评估方法及装置 | |
CN113139687A (zh) | 一种预测信用卡用户违约的方法及装置 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN108629508A (zh) | 信用风险分类方法、装置、计算机设备及存储介质 | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
CN114971891A (zh) | 风险预测方法和装置、处理器及电子设备 | |
CN106528774A (zh) | 一种配网项目管理趋势预测方法和装置 | |
CN110033117A (zh) | 模型校准方法及装置 | |
CN109255389A (zh) | 一种装备评价方法、装置、设备及可读存储介质 | |
CN112733340A (zh) | 一种基于数据驱动储层改造候选井的选井方法及设备 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
KR102336462B1 (ko) | 신용평가정보 제공 장치 및 방법 | |
JP5348351B2 (ja) | リスクプロファイル生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180420 |
|
RJ01 | Rejection of invention patent application after publication |