CN112598294A - 在线建立评分卡模型的方法、装置、机器可读介质及设备 - Google Patents
在线建立评分卡模型的方法、装置、机器可读介质及设备 Download PDFInfo
- Publication number
- CN112598294A CN112598294A CN202011562160.7A CN202011562160A CN112598294A CN 112598294 A CN112598294 A CN 112598294A CN 202011562160 A CN202011562160 A CN 202011562160A CN 112598294 A CN112598294 A CN 112598294A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- card model
- scoring card
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 124
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 7
- 238000000926 separation method Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种在线建立评分卡模型的方法,包括:获取业务对象的原始属性数据;对原始属性数据进行特征提取,得到多个特征变量;基于多个特征变量确定用于评分卡模型训练的第一训练标签;对个特征变量进行特征筛选得到至少一个目标特征变量;对至少一个目标特征变量进行自动分箱,得到特征条件;基于征条件与所述第一训练标签训练得到评分卡模型。本发明针对目前存在的问题,提供了一种在线建立评分卡模型的方法,能够完成评分卡模型建模过程中的特征选择和自动分箱,节省时间的同时,相比实际银行建模场景下,能达到持平甚至高于传统评分卡手工建模的模型预测效果,且产出的评分卡形式也与传统评分卡模型的形式一致,满足银行对评分卡可解释的要求。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种在线建立评分卡模型的方法、装置、机器可读介质及设备。
背景技术
随着电商业务和互联网金融业务的兴起,银行、证券、信托等金融领域的风控职能,显得愈加重要,而人工智能又给这个岗位赋予了新的外延与生命。
提升对风险的精确判断能力是银行向新的价值转换的核心,特别是在利差收入(贷款利息收入与存款利息支出的差额)占主导地位的时候,风险的控制直接影响其盈利能力。由此,不良资产率成为衡量银行竞争力的重要指标之一;而对风险的把控不仅包括设置客户门槛,还包括运用各种技术手段(如数据建模)来支撑决策。
互联网金融产品中,比较普遍的风控产品是信贷风控服务(各公司对产品的命名可能不同),即通过贷前审核、贷中复查、贷后监控3个不同的阶段来进行风险控制。再结合具体的金融业务场景,风险控制模型中使用到算法、规则不一样。例如:在P2P借贷产品中,可能会更加考察用户偿还能力和偿还意愿;而在电商场景中,还会加入对用户收入和消费能力等维度的考察。
“数据驱动业务”是风控的核心,数学是定量解决复杂问题最有效的工具。在当前的环境下,人工智能赋能风控业务已经成为了一项数学、金融学、信息安全、管理科学、行为心理学等多学科交叉的复杂业务,以定量/定性分析的思维,使用传统的经济学分析范式:
1)在横向时间线上需要做到预知风险、监控风险和处置风险;
2)在纵向流程线上做到发现问题、分析问题和解决问题。
“评分卡”作为风控最重要的工具之一,自然而然就诞生了。
评分卡模型是指根据客户的各种属性和行为数据,利用信用评分模型,对客户进行信用评分,以分数的形式来衡量风险。一般来说分数越高越安全,根据评分决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。
信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是,根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立机器学习模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。评分卡模型的生成方式应用了机器学习策略。
现在评分卡应用场景中,逻辑回归LR是用的最多的算法(传统评分卡),将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。
然而银行等金融机构使用的传统评分卡存在以下问题:
1)使用门槛高:传统评分卡模型中变量筛选和分箱操作需要建模人员具备丰富的调参和业务经验,使用门槛高。
2)建模耗时长:传统评分卡模型的建模过程依赖于建模人员手动完成特征选择和自动分箱工作。
另外,银行对评分卡还有可解释性的硬性要求,否则不利于在后续业务中应用。
由此,如果能有一个兼具可解释性、模型预测效果、省时省力、使用门槛低的评分卡建模工具,将会给银行等金融机构提供一个在风控业务环节中多快好省的解决方案。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种在线建立评分卡模型的方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种在线建评分卡模型的方法,包括:
获取业务对象的原始属性数据;
对所述原始属性数据进行特征提取,得到多个特征变量;
基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;
对所述多个特征变量进行特征筛选得到至少一个目标特征变量;
对所述至少一个目标特征变量进行自动分箱,得到特征条件;
基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。
可选地,所述评分卡模型包括XGBoost模型、逻辑回归模型。
可选地,还包括:对所述原始属性数据进行划分,得到用于训练评分卡模型的训练集和测试集。
可选地,所述训练集与所述测试集的比例为7:3。
可选地,还包括:从所述第一训练标签中确定出第二训练标签,基于所述一个或多个特征变量与所述第二训练标签训练得到评分卡模型。
为实现上述目的及其他相关目的,本发明提供一种在线建评分卡模型的装置,包括:
数据获取模块,用于获取业务对象的原始属性数据;
特征提取模块,用于对所述原始属性数据进行特征提取,得到多个特征变量;
第一训练标签确定模块,用于基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;
特征筛选模块,用于对所述多个特征变量进行特征筛选得到至少一个目标特征变量;
自动分箱模块,用于对所述至少一个目标特征变量进行自动分箱,得到特征条件;
训练模块,用于基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。
可选地,所述评分卡模型包括XGBoost模型、逻辑回归模型。
可选地,还包括:数据划分模块,用于对所述原始属性数据进行划分,得到用于训练评分卡模型的训练集和测试集。
可选地,所述训练集与所述测试集的比例为7:3。
可选地,还包括:第二训练标签确定模块,用于从所述第一训练标签中确定出第二训练标签,基于所述一个或多个特征变量与所述第二训练标签训练得到评分卡模型。
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。
为实现上述目的及其他相关目的,本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。
如上所述,本发明提供的一种基于金融风控评分卡建模场景的在线自动建模方法、装置、机器可读介质及设备,具有以下有益效果:
本发明的一种在线建立评分卡模型的方法,包括:获取业务对象的原始属性数据;对所述原始属性数据进行特征提取,得到多个特征变量;基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;对所述多个特征变量进行特征筛选得到至少一个目标特征变量;对所述至少一个目标特征变量进行自动分箱,得到特征条件;基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。本发明针对目前存在的问题,提供了一种在线建立评分卡模型的方法,能够完成评分卡模型建模过程中的特征选择和自动分箱,节省时间的同时,相比实际银行建模场景下,能达到持平甚至高于传统评分卡手工建模(人工调参)的模型预测效果,且产出的评分卡形式也与传统评分卡模型的形式一致,满足银行对评分卡可解释的要求。
附图说明
图1为本发明一实施例一种在线建立评分卡模型的方法的流程图;
图2为本发明一实施例一种在线建立评分卡模型的装置的结构示意图;
图3为本发明一实施例中终端设备的硬件结构示意图;
图4为本发明一实施例中终端设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本申请的实施例提供一种在线建立评分卡模型的方法,包括:
S11获取业务对象的原始属性数据;
S12对所述原始属性数据进行特征提取,得到多个特征变量;
S13基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;
S14对所述多个特征变量进行特征筛选得到至少一个目标特征变量;
S15对所述至少一个目标特征变量进行自动分箱,得到特征条件;
S16基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。
本发明针对目前存在的问题,提供了一种在线建立评分卡模型的方法,能够完成评分卡模型建模过程中的特征选择和自动分箱,节省时间的同时,相比实际银行建模场景下,能达到持平甚至高于传统评分卡手工建模(人工调参)的模型预测效果,且产出的评分卡形式也与传统评分卡模型的形式一致,满足银行对评分卡可解释的要求。
应该理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在步骤S11中,所述的原始属性数据包括但不限于姓名、年龄、所在地区、职业、收入、文化程度、资产情况、是否发生借贷、是否逾期。在步骤S12中对所述原始属性数据进行特征提取,得到包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况、是否发生借贷、是否逾期的特征变量。
在步骤S13中,从多个特征变量中确定出一个用于明确评分卡模型训练的预测目的。
例如:从某个数据集中选择“bad”作为预测目的,即评分卡模型训练的目的是为了预测申请信贷的客户中是“坏人”的概率。进一步,从已选的数据集的第一训练标签中选择第二训练标签,即明确本次模型训练的预测目标。基于所述一个或多个特征变量与所述第二训练标签训练得到评分卡模型。
例如:从某个数据集中选择“bad”作为第一训练标签后,继续选择将“bad”中的“1”作为本次模型训练的目标,代表标识为“1”的客户是历史上申请信贷后发生逾期的“坏人”。
在对所述原始属性数据进行特征提取,得到多个特征变量。在这些特征变量中,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的准确性。因此,需要对所述多个特征变量进行特征筛选得到至少一个目标特征变量。通过特征筛选可以排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练集。
在步骤S14中,所述的特征筛选即从多个特征变量中筛选出有用的特征变量作为模型的训练数据。例如,对建立评分卡模型来说,判断客户申请信贷后是否会发生逾期。其中,有用的特征变量包括收入、文化程度、资产情况、是否发生借贷、曾经是否逾期,而姓名、年龄、性别等特征变量为无用的特征变量。
在一实施例中,所述评分卡模型包括XGBoost模型(XGBoost,eXtreme GradientBoosting,极端梯度提升。XGBoost所应用的算法就是GBDT(gradient boosting decisiontree)的改进,既可以用于分类也可以用于回归问题中)、逻辑回归模型。
在步骤S14中,自动分箱可以采用基于决策树的集成学习分箱算法对所述至少一个目标特征变量进行分箱处理,得到分箱结果。当然,自动分箱的方法还可以采用其他现有的方法,本实施例对此不作限定。
在一实施例中,还包括:对所述原始属性数据进行划分,得到用于训练评分卡模型的训练集和测试集。其中训练集用于评分卡模型训练,测试集用于评分卡模型评估。
在一实施例中,所述训练集与所述测试集的比例为7:3。
在一实施例中,在完成评分卡模型训练后,可以用于以下的评估指标对评分卡模型进行模型评估。
评估指标包括:KS、AUC、混淆矩阵、P-R曲线等。
KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。KS越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求。
AUC(Area Under the Curve)表示所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。由于画ROC曲线时都是先将所有样本按分类器的预测概率排序,所以AUC反映的是分类器对样本的排序能力,AUC越大,排序能力越好,即分类器将越多的正例排在负例之前。AUC越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求。
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。
P-R曲线就是精确率precision曲线,召回率recall曲线,以recall作为横坐标轴,precision作为纵坐标轴
Precision指的是正确预测的正样本数占所有预测为正样本的数量的比值,也就是说所有预测为正样本的样本中有多少是真正的正样本。Precision只关注预测为正样本的部分,而Accuracy考虑全部样本。
Recall指的是正确预测的正样本数占真实正样本总数的比值,也就是我能从这些样本中能够正确找出多少个正样本。
在利用如图1所示的方法建立评分卡模型的时候,可以参考以下步骤:
步骤S101,在模型管理页创建评分卡模型任务;其中,模型管理页,起到统一管理模型和发起创建模型任务的作用。
步骤S102,编辑模型名称;
步骤S103,选择数据集;其中,所述数据集包含样本和特征变量。
步骤S104,选择第一训练标签;
由于数据集一般来表格进行统计,其每一行表示一个样本,每列表示该样本的特征变量,第一训练标签为表中的其中一列,因此,第一训练标签也可以被叫作标签列。选择数据集中的某个特征变量列作为标签列,即明确本次模型训练的预测目的。
例如:从某个数据集中选择“bad”作为标签列,即本次模型训练的目的是为了预测申请信贷的客户中是“坏人”的概率。
步骤S105,选择正例值;
从已选的数据集的标签列中选择正例值,即明确本次模型训练的预测目标。
例如:从某个数据集中选择“bad”作为标签列后,继续选择将“bad”列中的“1”作为本次模型训练的目标,代表标识为“1”的客户是历史上申请信贷后发生逾期的“坏人”。
步骤S106,调整训测比例;
设置所选数据集分配训练集和测试集的比例。其中训练集用于模型训练,测试集用于模型评估。
步骤S107,启动模型训练;
当以上选项都配置完成后,即可一键启动模型训练任务。在模型训练过程中,可以查看模型训练进度。模型训练任务进行中时,可手动停止当前进行的任务。方便停止长期占用服务器资源无法完成模型训练的任务。
步骤S108,模型评估;
模型训练成功后,查看模型评估指标(KS、AUC)。
步骤S109,查看评分卡;
模型训练成功后,查看生成的评分卡。
步骤S110,模型存储;
模型训练成功后,将模型相关数据存储到服务器,便于下游工具/平台,如推理引擎、部署平台等作为标准输入使用;同时也便于建模人员将模型以文件形式导出到本地来查看模型详情。
步骤S111,模型导出;
模型导出时,将模型相关数据以文件形式下载到本地,包括:
woe_table.csv(WOE表),iv_table.csv(IV表),feature_selection_table.csv(特征选择过程的记录表)文件,model执行文件(Unix),model_scorecard.json,score_group.csv(评分分组样本统计表),scorecard.csv(评分卡表),train_dataset.csv(训练集数据)。
步骤S112,模型发布;
对于已完成训练的模型,可一键将其发布至下游系统/平台,如推理引擎等。
如图2所示,本实施例提供一种在线建评分卡模型的装置,包括:
数据获取模块21,用于获取业务对象的原始属性数据;
特征提取模块22,用于对所述原始属性数据进行特征提取,得到多个特征变量;
第一训练标签确定模块23,用于基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;
特征筛选模块24,用于对所述多个特征变量进行特征筛选得到至少一个目标特征变量;
自动分箱模块25,用于对所述至少一个目标特征变量进行自动分箱,得到特征条件;
训练模块26,用于基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。
本发明针对目前存在的问题,提供了一种在线建立评分卡模型的装置,能够完成评分卡模型建模过程中的特征选择和自动分箱,节省时间的同时,相比实际银行建模场景下,能达到持平甚至高于传统评分卡手工建模(人工调参)的模型预测效果,且产出的评分卡形式也与传统评分卡模型的形式一致,满足银行对评分卡可解释的要求。
所述的原始属性数据包括但不限于姓名、年龄、所在地区、职业、收入、文化程度、资产情况、是否发生借贷、是否逾期。在步骤S12中对所述原始属性数据进行特征提取,得到包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况、是否发生借贷、是否逾期的特征变量。
所述第一训练标签确定模块,从多个特征变量中确定出一个用于明确评分卡模型训练的预测目的。
例如:从某个数据集中选择“bad”作为预测目的,即评分卡模型训练的目的是为了预测申请信贷的客户中是“坏人”的概率。进一步,该装置还包括第二训练标签确定模块,用于从已选的数据集的第一训练标签中选择第二训练标签,即明确本次模型训练的预测目标。基于所述一个或多个特征变量与所述第二训练标签训练得到评分卡模型。
例如:从某个数据集中选择“bad”作为第一训练标签后,继续选择将“bad”中的“1”作为本次模型训练的目标,代表标识为“1”的客户是历史上申请信贷后发生逾期的“坏人”。
在对所述原始属性数据进行特征提取,得到多个特征变量。在这些特征变量中,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的准确性。因此,在一实施例中,通过特征筛选模块对所述多个特征变量进行特征筛选得到至少一个目标特征变量。通过特征筛选可以排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练集。
所述的特征筛选即从多个特征变量中筛选出有用的特征变量作为模型的训练数据。例如,对建立评分卡模型来说,判断客户申请信贷后是否会发生逾期。其中,有用的特征变量包括收入、文化程度、资产情况、是否发生借贷、曾经是否逾期,而姓名、年龄、性别等特征变量为无用的特征变量。
在一实施例中,所述评分卡模型包括XGBoost模型(XGBoost,eXtreme GradientBoosting,极端梯度提升。XGBoost所应用的算法就是GBDT(gradient boosting decisiontree)的改进,既可以用于分类也可以用于回归问题中)、逻辑回归模型。
自动分箱可以采用基于决策树的集成学习分箱算法对所述至少一个目标特征变量进行分箱处理,得到分箱结果。当然,自动分箱的方法还可以采用其他现有的方法,本实施例对此不作限定。
在一实施例中,该装置还包括:数据划分模块,用于对所述原始属性数据进行划分,得到用于训练评分卡模型的训练集和测试集。其中训练集用于评分卡模型训练,测试集用于评分卡模型评估。
在一实施例中,所述训练集与所述测试集的比例为7:3。
在一实施例中,在完成评分卡模型训练后,可以用于以下的评估指标对评分卡模型进行模型评估。
评估指标包括:KS、AUC、混淆矩阵、P-R曲线等。
KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。KS越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求。
AUC(Area Under the Curve)表示所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。由于画ROC曲线时都是先将所有样本按分类器的预测概率排序,所以AUC反映的是分类器对样本的排序能力,AUC越大,排序能力越好,即分类器将越多的正例排在负例之前。AUC越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求。
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。
P-R曲线就是精确率precision曲线,召回率recall曲线,以recall作为横坐标轴,precision作为纵坐标轴
Precision指的是正确预测的正样本数占所有预测为正样本的数量的比值,也就是说所有预测为正样本的样本中有多少是真正的正样本。Precision只关注预测为正样本的部分,而Accuracy考虑全部样本。
Recall指的是正确预测的正样本数占真实正样本总数的比值,也就是我能从这些样本中能够正确找出多少个正样本。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,MovingPicture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中方法所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (12)
1.一种在线建评分卡模型的方法,其特征在于,包括:
获取业务对象的原始属性数据;
对所述原始属性数据进行特征提取,得到多个特征变量;
基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;
对所述多个特征变量进行特征筛选得到至少一个目标特征变量;
对所述至少一个目标特征变量进行自动分箱,得到特征条件;
基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。
2.根据权利要求1所述的在线建立评分卡模型的方法,其特征在于,所述评分卡模型包括XGBoost模型、逻辑回归模型。
3.根据权利要求1所述的在线建立评分卡模型的方法,其特征在于,还包括:对所述原始属性数据进行划分,得到用于训练评分卡模型的训练集和测试集。
4.根据权利要求3所述的在线建立评分卡模型的方法,其特征在于,所述训练集与所述测试集的比例为7:3。
5.根据权利要求1所述的在线建立评分卡模型的方法,其特征在于,还包括:从所述第一训练标签中确定出第二训练标签,基于所述一个或多个特征变量与所述第二训练标签训练得到评分卡模型。
6.一种在线建评分卡模型的装置,其特征在于,包括:
数据获取模块,用于获取业务对象的原始属性数据;
特征提取模块,用于对所述原始属性数据进行特征提取,得到多个特征变量;
第一训练标签确定模块,用于基于所述多个特征变量确定用于评分卡模型训练的第一训练标签;
特征筛选模块,用于对所述多个特征变量进行特征筛选得到至少一个目标特征变量;
自动分箱模块,用于对所述至少一个目标特征变量进行自动分箱,得到特征条件;
训练模块,用于基于所述特征条件与所述第一训练标签训练得到所述评分卡模型。
7.根据权利要求6所述的在线建立评分卡模型的装置,其特征在于,所述评分卡模型包括XGBoost模型、逻辑回归模型。
8.根据权利要求6所述的在线建立评分卡模型的装置,其特征在于,还包括:数据划分模块,用于对所述原始属性数据进行划分,得到用于训练评分卡模型的训练集和测试集。
9.根据权利要求8所述的在线建立评分卡模型的装置,其特征在于,所述训练集与所述测试集的比例为7:3。
10.根据权利要求6所述的在线建立评分卡模型的装置,其特征在于,还包括:第二训练标签确定模块,用于从所述第一训练标签中确定出第二训练标签,基于所述一个或多个特征变量与所述第二训练标签训练得到评分卡模型。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-4中一个或多个所述的方法。
12.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-4中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011562160.7A CN112598294A (zh) | 2020-12-25 | 2020-12-25 | 在线建立评分卡模型的方法、装置、机器可读介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011562160.7A CN112598294A (zh) | 2020-12-25 | 2020-12-25 | 在线建立评分卡模型的方法、装置、机器可读介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112598294A true CN112598294A (zh) | 2021-04-02 |
Family
ID=75202582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011562160.7A Pending CN112598294A (zh) | 2020-12-25 | 2020-12-25 | 在线建立评分卡模型的方法、装置、机器可读介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598294A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966991A (zh) * | 2021-05-19 | 2021-06-15 | 南京蜂泰互联网科技有限公司 | 基于逻辑回归模型的评分卡模型的建立方法 |
CN113159917A (zh) * | 2021-04-07 | 2021-07-23 | 北京芯盾时代科技有限公司 | 一种信息预测方法、装置及存储介质 |
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN113610645A (zh) * | 2021-08-11 | 2021-11-05 | 平安信托有限责任公司 | 项目数据的风险评估方法、装置、设备及存储介质 |
CN113988651A (zh) * | 2021-10-29 | 2022-01-28 | 深圳壹账通智能科技有限公司 | 一种评分卡模型的评价方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563810A (zh) * | 2020-04-28 | 2020-08-21 | 北京云从科技有限公司 | 信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
-
2020
- 2020-12-25 CN CN202011562160.7A patent/CN112598294A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563810A (zh) * | 2020-04-28 | 2020-08-21 | 北京云从科技有限公司 | 信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159917A (zh) * | 2021-04-07 | 2021-07-23 | 北京芯盾时代科技有限公司 | 一种信息预测方法、装置及存储介质 |
CN112966991A (zh) * | 2021-05-19 | 2021-06-15 | 南京蜂泰互联网科技有限公司 | 基于逻辑回归模型的评分卡模型的建立方法 |
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN113610645A (zh) * | 2021-08-11 | 2021-11-05 | 平安信托有限责任公司 | 项目数据的风险评估方法、装置、设备及存储介质 |
CN113988651A (zh) * | 2021-10-29 | 2022-01-28 | 深圳壹账通智能科技有限公司 | 一种评分卡模型的评价方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598294A (zh) | 在线建立评分卡模型的方法、装置、机器可读介质及设备 | |
CN110895758B (zh) | 存在作弊交易的信用卡账户的筛选方法、装置及系统 | |
CN108921456A (zh) | 风险评估方法、装置及计算机可读存储介质 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN110659817A (zh) | 一种数据处理方法、装置、机器可读介质及设备 | |
CN111709826A (zh) | 目标信息确定方法和装置 | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN111784053A (zh) | 交易风险检测方法、设备及可读存储介质 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN110544166A (zh) | 样本生成方法、装置及存储介质 | |
CN115563176A (zh) | 一种电子商务数据处理系统及方法 | |
CN110728243B (zh) | 一种权级分类的业务管理方法、系统、设备和介质 | |
CN115049991A (zh) | 共享设备位姿整齐度判断方法、装置、终端及介质 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN114511022A (zh) | 特征筛选、行为识别模型训练、异常行为识别方法及装置 | |
CN113450208A (zh) | 贷款风险变动预警、模型训练方法和装置 | |
CN113283979A (zh) | 一种贷款申请人的贷款信用评估方法、装置及存储介质 | |
CN110738561A (zh) | 一种基于特征分类的业务管理方法、系统、设备和介质 | |
CN112184417A (zh) | 一种业务的审批方法、装置、介质及电子设备 | |
CN110766544A (zh) | 信用风险的检测方法及装置、存储介质、电子装置 | |
CN110767224B (zh) | 一种基于特征权级的业务管理方法、系统、设备和介质 | |
CN112926816B (zh) | 供应商评价方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210402 |
|
RJ01 | Rejection of invention patent application after publication |