CN114926261A - 汽车金融用户申请欺诈概率预测方法及介质 - Google Patents
汽车金融用户申请欺诈概率预测方法及介质 Download PDFInfo
- Publication number
- CN114926261A CN114926261A CN202210447578.6A CN202210447578A CN114926261A CN 114926261 A CN114926261 A CN 114926261A CN 202210447578 A CN202210447578 A CN 202210447578A CN 114926261 A CN114926261 A CN 114926261A
- Authority
- CN
- China
- Prior art keywords
- samples
- value
- fraud probability
- feature
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012216 screening Methods 0.000 claims abstract description 33
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000009795 derivation Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 19
- 230000008030 elimination Effects 0.000 claims description 15
- 238000003379 elimination reaction Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Computational Mathematics (AREA)
- Development Economics (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Pure & Applied Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种汽车金融用户申请欺诈概率预测方法及介质,其中方法包括:获取用户的历史申请数据,并进行分组;进行数据衍生,以衍生出多维特征;对多维特征进行过滤式筛选,随后进行集成式递归特征消除,以得到最优特征;对最优特征进行最优分箱,并对每个分箱进行WOE编码;进行欠采样和过采样组合处理,以生成训练样本集;根据训练样本集进行模型训练,以得到各单模型,并进行模型融合,以生成最终欺诈概率预测模型;获取用户申请信息,并将用户申请信息输入最终欺诈概率预测模型,以通过最终欺诈概率预测模型输出欺诈概率;能够根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
Description
技术领域
本发明涉及金融风险管控技术领域,特别涉及一种汽车金融用户申请欺诈概率预测方法和一种计算机可读存储介质。
背景技术
在互联网金融时代飞速发展的今天,各种金融产品逐步改变人类的生活和储蓄方式,汽车金融就是其中之一。汽车金融指的是由消费者在购买汽车需要贷款时,消费者向汽车金融公司申请优惠的支付方式。
相关技术中,汽车金融公司在接收到消费者的贷款申请时,多通过人工对接收到的申请数据进行审核;这种方式极为耗费人力;并且,人工方式下难以对消费者当前贷款行为的欺诈概率进行有效分析;进而,导致汽车金融公司的风险难以管控。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种汽车金融用户申请欺诈概率预测方法,能够根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
本发明的第二个目的在于提出一种计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出了一种汽车金融用户申请欺诈概率预测方法,包括以下步骤:获取用户的历史申请数据,并对所述历史申请数据进行分组;对分组后的历史申请数据进行数据衍生,以衍生出所述历史申请数据对应的多维特征;对所述多维特征进行过滤式筛选,以得到特征组,并对所述特征组中的所有样本进行欠采样平衡样本,以及进行递归特征消除以得到最优特征;对所述最优特征进行最优分箱,并对每个分箱进行WOE编码;对WOE编码后的数据进行欠采样和过采样组合处理,以生成训练样本集;根据所述训练样本集进行单模型的训练,以得到多个单模型,并将多个单模型进行模型融合,以生成最终欺诈概率预测模型;获取用户申请信息,并将所述用户申请信息输入所述最终欺诈概率预测模型,以通过所述最终欺诈概率预测模型输出所述用户申请信息对应的欺诈概率。
根据本发明实施例的汽车金融用户申请欺诈概率预测方法,首先,获取用户的历史申请数据,并对所述历史申请数据进行分组;接着,对分组后的历史申请数据进行数据衍生,以衍生出所述历史申请数据对应的多维特征;然后,对所述多维特征进行过滤式筛选,以得到特征组,并对所述特征组中的所有样本进行欠采样平衡样本,以及进行递归特征消除以得到最优特征;接着,对所述最优特征进行最优分箱,并对每个分箱进行WOE编码;然后,对WOE编码后的数据进行欠采样和过采样组合处理,以生成训练样本集;接着,根据所述训练样本集进行单模型的训练,以得到多个单模型,并将多个单模型进行模型融合,以生成最终欺诈概率预测模型;然后,获取用户申请信息,并将所述用户申请信息输入所述最终欺诈概率预测模型,以通过所述最终欺诈概率预测模型输出所述用户申请信息对应的欺诈概率;从而实现根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
另外,根据本发明上述实施例提出的汽车金融用户申请欺诈概率预测方法还可以具有如下附加的技术特征:
可选地,对所述多维特征进行过滤式筛选,包括:对多维特征进行皮尔森相关系数筛选,并在皮尔森相关系数筛选完成后进行信息价值筛选,以及在所述信息价值筛选完成后进行PSI值筛选。
可选地,所述皮尔森相关系数筛选根据以下公式进行:
其中,ρX,Y表示两个连续变量X,Y之间的皮尔森相关系数,cov(X,Y)表示变量X、变量Y之间的协方差,σXσY为X、Y各自标准差的乘积,μX与μY分别表示变量X,Y的均值,E(……)表示数学期望,E[(X-μX)(Y-μY)]表示两个变量总体误差的数学期望。
可选地,信息价值根据以下公式计算:
其中,WOEi表示第i个分箱的WOE值,Badi表示第i个分箱的坏人数,BadT表示总坏人数,Goodi表示第i个分箱的好人数,GoodT表示总好人数,WOE值可理解为每个分箱里坏人分布相对于好人分布的差异性,IVi表示第i个分箱的IV值,IV表示信息价值,某一特征的IV值为该特征各分箱的IVi值的总和。
可选地,PSI值根据以下公式计算:
其中,PSI表示PSI值,表示验证样本在各分数段的实际分布与预期分布的差异,Actuali表示在第i个分数段验证样本的数量,ActualT表示验证样本的总数量,即为表示实际占比,Expecti表示在第i个分数段训练样本的数量,ExpectT表示训练样本的总数量,即为表示预期占比。
可选地,对所述特征组中的所有样本进行欠采样平衡样本,以得到最优特征,包括:在完成过滤式筛选后,计算过滤式筛选后正样本集中正样本的数量值与负样本集中负样本的数量值之间的比值,并根据所述比值对正样本进行划分,以得到正样本子集,其中,所述正样本子集中正样本的数量值等于负样本集中负样本的数量值;根据正样本子集和负样本集生成多个样本子集,并根据所述多个样本子集进行递归特征消除,以得到特征排序,以及根据特征排序确定最优特征。
可选地,对WOE编码后的数据进行欠采样和过采样组合处理,以生成训练样本集,包括:根据WOE编码后数据中正样本的数量值和负样本的数量值计算欠采样比率,以根据所述欠采样比率进行欠采样,以得到中间样本集;根据SMOTE算法对所述中间样本集进行过采样,以得到训练样本集,其中,所述训练样本集中的正样本的数量值等于负样本的数量值。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有汽车金融用户申请欺诈概率预测程序,该汽车金融用户申请欺诈概率预测程序被处理器执行时实现如上述的汽车金融用户申请欺诈概率预测方法。
根据本发明实施例的计算机可读存储介质,通过存储汽车金融用户申请欺诈概率预测程序,以使得处理器在执行该汽车金融用户申请欺诈概率预测程序时,实现如上述的汽车金融用户申请欺诈概率预测方法,从而实现根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
附图说明
图1为根据本发明实施例的汽车金融用户申请欺诈概率预测方法的流程示意图;
图2为根据本发明实施例的样本欠采样的流程示意图;
图3为根据本发明实施例的欠采样过程示意图;
图4为根据本发明实施例的SMOTE算法过采样过程示意图;
图5为根据本发明实施例的单模型融合过程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
根据本发明实施例的汽车金融用户申请欺诈概率预测方法,首先,获取用户的历史申请数据,并对所述历史申请数据进行分组;接着,对分组后的历史申请数据进行数据衍生,以衍生出所述历史申请数据对应的多维特征;然后,对所述多维特征进行过滤式筛选,以得到特征组,并对所述特征组中的所有样本进行欠采样平衡样本,以及进行递归特征消除以得到最优特征;接着,对所述最优特征进行最优分箱,并对每个分箱进行WOE编码;然后,对WOE编码后的数据进行欠采样和过采样组合处理,以生成训练样本集;接着,根据所述训练样本集进行单模型的训练,以得到多个单模型,并将多个单模型进行模型融合,以生成最终欺诈概率预测模型;然后,获取用户申请信息,并将所述用户申请信息输入所述最终欺诈概率预测模型,以通过所述最终欺诈概率预测模型输出所述用户申请信息对应的欺诈概率;从而实现根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的汽车金融用户申请欺诈概率预测方法的流程示意图,如图1所示,该汽车金融用户申请欺诈概率预测方法包括以下步骤:
S101,获取用户的历史申请数据,并对历史申请数据进行分组。
也就是说,对用户申请汽车金融时所使用的历史申请数据进行获取,并获取完成后对历史申请数据进行分组。
其中,对历史申请数据进行分组的方式可以有多种。
作为一种示例,采集多个维度的历史申请数据,在分组时,可以按照提供数据公司的不同进行分类,即言,将不同第三方公司作为一个维度;或者,按照数据功能进行分类,例如,将数据分类为:用户外部评分数据、用户多头类数据、用户关系网络类数据等。
S102,对分组后的历史申请数据进行数据衍生,以衍生出历史申请数据对应的多维特征。
也就是说,在分组完成后,对历史申请数据进行数据衍生,以衍生出历史申请数据对应的多维特征(即能够为有效预测做出贡献的特征)。
其中,对历史申请数据进行数据衍生的方式可以有多种。
作为一种示例,在获取到用户的身份证数据后,首先,可以根据18位身份证数据中的前6为数字得到用户的户籍所在地特征;接着,根据第7到第14位可以得到用户的出生年月日特征(进而得到年龄特征和生日特征);然后,根据第17位得到用户的性别特征;如此,可以通过用户的身份证数据衍生出多维特征。
作为另一种示例,首先,预设通讯录备注字段类别(例如,将通讯录备注字段分为押车、车管所、代办、法院、信贷、中介、做直等类别);在获取到用户的通讯录信息之后,根据通讯录中备注信息,判断备注信息是否属于预设备注字段类别;以根据判断结果来统计每个预设备注字段类别所对应的备注数量;从而,可以得到多维特征。
S103,对多维特征进行过滤式筛选,以得到特征组,并对特征组中的所有样本进行欠采样平衡样本,以及进行递归特征消除以得到最优特征。
即言,在得到多维特征之后,对多维特征进行过滤式筛选,以滤除多维特征中的冗余特征和低重要性的特征;接着,对过滤筛选后的特征进行集成式递归特征消除(即言,先进行欠采样平衡样本,再进行递归特征消除),以保证在正负样本数量比例严重失调的情况下,进行特征重要性筛选,最终得到最优特征;具体地,对特征组中的所有样本进行欠采样的流程如图2所示;对过滤筛选后的特征进行集成式递归特征消除的过程如图3所示。
在一些实施例中,对多维特征进行过滤式筛选,包括:对多维特征进行皮尔森相关系数筛选,并在皮尔森相关系数筛选完成后进行信息价值筛选,以及在信息价值筛选完成后进行PSI值筛选。
作为一种示例,皮尔森相关系数筛选根据以下公式进行:
其中,ρx,Y表示两个连续变量X,Y之间的皮尔森相关系数,cov(X,Y)表示变量X、变量Y之间的协方差,σXσY为X、Y各自标准差的乘积,μX与μY分别表示变量X,Y的均值,E(……)表示数学期望,E[(X-μX)(Y-μY)]表示两个变量总体误差的数学期望。可以理解,皮尔森相关系数是一种常用到的线性相关系数,皮尔森相关系数是用协方差除以两个变量的标准差得到的。当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;当一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。第一步首先要进行自相关性筛选,对于两个特征,如果它们的皮尔森相关系数高于某一阈值,只需留下其中一个,以此来减轻特征的噪声和消除冗余特征。
作为一种示例,信息价值根据以下公式计算:
其中,WOEi表示第i个分箱的WOE值,Badi表示第i个分箱的坏人数,BadT表示总坏人数,Goodi表示第i个分箱的好人数,GoodT表示总好人数,WOE值可理解为每个分箱里坏人分布相对于好人分布的差异性。
IVi表示第i个分箱的IV值。IV表示信息价值,某一特征的IV值为该特征各分箱的IVi值的总和。
可以理解,信息价值用于表示特征对目标预测的贡献程度,即特征的预测能力。一般来说,信息价值越高,该特征的预测能力越强,信息贡献程度越高。由于信息价值的计算是以WOE值为基础的,所以计算信息价值之前,首先得计算WOE值。在使用WOE之前,需要对变量进行分箱处理。因此计算信息价值的步骤就为:分箱、计算各箱的WOE值、最后计算该特征的信息价值。
其中,WOE表示的是当前分箱当中,“坏样本占所有样本中坏样本数量的比例”,与“好样本数量占所有样本中好样本数量的比例”。如果差异越大,那么该分箱响应坏人的可能性就越大;当差异越小时,该分箱响应的坏人的可能性就越小。而信息价值的计算是对WOE值的加权和,是用来衡量WOE表示的变量对二分类变量之间关系的强度。信息价值越大,说明该特征对预测结果的重要性越大,即对预测做出较大贡献。因此过滤式筛选的第二步是筛选出信息价值大于某一阈值的特征进入下一步PSI筛选,而舍弃信息价值较小的特征。
作为一种示例,PSI值根据以下公式计算:
其中,PSI表示PSI值,表示验证样本在各分数段的实际分布与预期分布的差异,Actuali表示在第i个分数段验证样本的数量,ActualT表示验证样本的总数量,表示实际占比,Expecti表示在第i个分数段训练样本的数量,ExpectT表示训练样本的总数量,表示预期占比。
可以理解,PSI值反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中,我们常用来筛选特征变量、评估模型稳定性。在建模时以训练样本(In theSample,INS)作为预期分布,而验证样本通常作为实际分布。PSI值衡量预期分布和实际分布之间的差异性。PSI数值越小,两个分布之间的差异就越小,代表越稳定。因此,需要筛除PSI值大于某一阈值的特征,即筛除稳定性差的变量。具体地,可以对所有特征计算该特征的PSI值,对PSI值进行排序,筛除PSI值排名前五的特征。
从而,通过上述方式,可以对多维特征进行有效的过滤式筛选;接着,需要对过滤式筛选后的特征进行集成式递归特征消除。
可以理解,递归特征消除(RFECV)的主要思想是反复构建模型,根据系数(特征重要性)选出最差的特征进行删除,在剩余的特征上重复这个过程,直至遍历了所有的特征。在这个过程中被消除的次序就是特征的排序。最后得到最重要的n_features个特征。而正负样本严重不均衡的场景下进行RFECV会产生基模型失效的问题。因为RFE的稳定性很大程度上取决于迭代时底层用的哪种模型。比如RFE采用的是普通的回归(LR),没有经过正则化的回归是不稳定的,那么RFE就是不稳定的。假如采用的是Lasso/Ridge,正则化的回归是稳定的,那么RFE就是稳定的。因此如果正负样本严重分布不均,底层所使用的逻辑回归、支持向量机、树模型等基模型会直接失效,无法计算出特征重要性,导致最后RFECV失效。
因此,本发明所提出的汽车金融用户申请欺诈概率预测方法采用的是集成式递归特征消除,以克服上述情况。
在一些实施例中,对特征组中的所有样本进行欠采样平衡样本,以得到最优特征,包括:在完成过滤式筛选后,计算过滤式筛选后正样本集中正样本的数量值与负样本集中负样本的数量值之间的比值,并根据比值对正样本进行划分,以得到正样本子集,其中,正样本子集中正样本的数量值等于负样本集中负样本的数量值;根据正样本子集和负样本集生成多个样本子集,并根据多个样本子集进行递归特征消除,以得到特征排序,以及根据特征排序确定最优特征。
作为一种示例,基模型采用支持向量机(SVM);在正样本的数量大于负样本的数量时,首先,进行欠采样;即言,将正样本根据比值(正样本的数量/负样本的数量)进行划分,以形成多个正样本子集;接着,将每一份正样本子集和负样本集合组合形成样本子集;可以理解,此时的样本子集中正样本的数量与负样本的数量为1:1。如此,可以保证基模型训练时正负样本的数量是均衡的。如此,每次进行RFECV后都会得到特征重要性的排序;进行多次RFECV,将每个特征的排名进行平均,能够得到最后的特征重要性排名;接着,根据预设的排名阈值来确定最终要留下的特征,即为最优特征。
S104,对最优特征进行最优分箱,并对每个分箱进行WOE编码。
作为一种示例,首先,针对离散值,将每个值作为一个分组,计算各分组WOE值,再计算IV值;而对于连续值,则首先,计算将整体数据作为一个分组的IV值(命名为IV0)。接着,对所有值排序,根据最大,最小值平均划分100个取值区间(99个区间分割点,每个分割点可以将整体数据分割为左右两部分);然后,针对每个分割点,尝试将左右两部分作为两个分组,计算IV值(如果此种分组中,左右有一个分组中数据少于总体数据量的5%,不计算此分组IV)。获取99中分组方式中的最大IV值(IVmax)。接着,假如此最大IV值(IVmax)大于不分组IV值的101%(IV0),不进行分割。否则,以此分割点将数据整体分为左右两个组。每个组独立重新进行1步骤,进入下一轮循环。然后,根据记录所有分组点进行数据整体分组,计算IV值(即信息价值)。
S105,对WOE编码后的数据进行欠采样和过采样处理,以生成训练样本集。
在一些实施例中,对WOE编码后的数据进行欠采样和过采样处理,以生成训练样本集,包括:根据WOE编码后数据中正样本的数量值和负样本的数量值计算欠采样比率,以根据欠采样比率进行欠采样,以得到中间样本集;根据SMOTE算法对中间样本集进行过采样,以得到训练样本集,其中,训练样本集中的正样本的数量值等于负样本的数量值。
作为一种示例,对WOE编码后的数据进行欠采样和过采样处理的目的是克服正负样本的分布严重不均匀,欠采样通过减少分类中多数样本数量来实现样本均衡,过采样通过增加分类中少数类样本的数量来实现样本均衡。首先,在数据入模前采用混合采样,即言,先采用不放回抽样进行欠采样,然后根据SMOTE法进行过采样,以达到数据平衡的目的。具体地,如图4所示,首先,进行欠采样,即不放回抽样,欠采样比率为[正样本/负样本*2],即将正样本分为[正样本/负样本*2]份。随后对负样本进行SMOTE法合成少数类过采样,复制一倍。接着,根据SMOTE法进行过采样,SMOTE算法流程如下:(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。(3)对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。
如此,先经过欠采样,在根据SMOTE算法合成少数类以进行过采样,可以得到多个训练子集,而多个训练子集即为训练样本集;后续可以根据多个训练子集分别进行单模型的训练。
S106,根据训练样本集进行单模型的训练,以得到多个单模型,并将多个单模型进行模型融合,以生成最终欺诈概率预测模型。
作为一种示例,如图5所示,单模型可以采用逻辑回归,XGBoost,lightgbm等;接着,对逻辑回归,XGBoost,lightgbm等单模型进行融合,结合策略可采用概率算数平均,或使用stacking、bagging、blending等集成方法。
S107,获取用户申请信息,并将用户申请信息输入最终欺诈概率预测模型,以通过最终欺诈概率预测模型输出用户申请信息对应的欺诈概率。
综上所述,根据本发明实施例的汽车金融用户申请欺诈概率预测方法,首先,获取用户的历史申请数据,并对所述历史申请数据进行分组;接着,对分组后的历史申请数据进行数据衍生,以衍生出所述历史申请数据对应的多维特征;然后,对所述多维特征进行过滤式筛选,并对过滤式筛选后的特征进行集成式递归特征消除,以得到最优特征;接着,对所述最优特征进行最优分箱,并对每个分箱进行WOE编码;然后,对WOE编码后的数据进行欠采样和过采样处理,以生成训练样本集;接着,根据所述训练样本集进行单模型的训练,以得到多个单模型,并所多个单模型进行模型融合,以生成最终欺诈概率预测模型;然后,获取用户申请信息,并将所述用户申请信息输入所述最终欺诈概率预测模型,以通过所述最终欺诈概率预测模型输出所述用户申请信息对应的欺诈概率;从而实现根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有汽车金融用户申请欺诈概率预测程序,该汽车金融用户申请欺诈概率预测程序被处理器执行时实现如上述的汽车金融用户申请欺诈概率预测方法。
根据本发明实施例的计算机可读存储介质,通过存储汽车金融用户申请欺诈概率预测程序,以使得处理器在执行该汽车金融用户申请欺诈概率预测程序时,实现如上述的汽车金融用户申请欺诈概率预测方法,从而实现根据用户的申请信息对欺诈概率进行自动计算,有效防止欺诈骗车行为的发生,保障汽车金融公司的财产安全。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种汽车金融用户申请欺诈概率预测方法,其特征在于,包括以下步骤;
获取用户的历史申请数据,并对所述历史申请数据进行分组;
对分组后的历史申请数据进行数据衍生,以衍生出所述历史申请数据对应的多维特征;
对所述多维特征进行过滤式筛选,以得到特征组,并对所述特征组中的所有样本进行欠采样平衡样本,以及进行递归特征消除以得到最优特征;
对所述最优特征进行最优分箱,并对每个分箱进行WOE编码;
对WOE编码后的数据进行欠采样和过采样组合处理,以生成训练样本集;
根据所述训练样本集进行单模型的训练,以得到多个单模型,并将多个单模型进行模型融合,以生成最终欺诈概率预测模型;
获取用户申请信息,并将所述用户申请信息输入所述最终欺诈概率预测模型,以通过所述最终欺诈概率预测模型输出所述用户申请信息对应的欺诈概率。
2.如权利要求1所述的汽车金融用户申请欺诈概率预测方法,其特征在于,对所述多维特征进行过滤式筛选,包括:对多维特征进行皮尔森相关系数筛选,并在皮尔森相关系数筛选完成后进行信息价值筛选,以及在所述信息价值筛选完成后进行PSI值筛选。
6.如权利要求1所述的汽车金融用户申请欺诈概率预测方法,其特征在于,对所述特征组中的所有样本进行欠采样平衡样本,以得到最优特征,包括:
在完成过滤式筛选后,计算过滤式筛选后正样本集中正样本的数量值与负样本集中负样本的数量值之间的比值,并根据所述比值对正样本进行划分,以得到正样本子集,其中,所述正样本子集中正样本的数量值等于负样本集中负样本的数量值;
根据正样本子集和负样本集生成多个样本子集,并根据所述多个样本子集进行递归特征消除,以得到特征排序,以及根据特征排序确定最优特征。
7.如权利要求1所述的汽车金融用户申请欺诈概率预测方法,其特征在于,对WOE编码后的数据进行欠采样和过采样组合处理,以生成训练样本集,包括:
根据WOE编码后数据中正样本的数量值和负样本的数量值计算欠采样比率,以根据所述欠采样比率进行欠采样,以得到中间样本集;
根据SMOTE算法对所述中间样本集进行过采样,以得到训练样本集,其中,所述训练样本集中的正样本的数量值等于负样本的数量值。
8.一种计算机可读存储介质,其特征在于,其上存储有汽车金融用户申请欺诈概率预测程序,该汽车金融用户申请欺诈概率预测程序被处理器执行时实现如权利要求1-7中任一项所述的汽车金融用户申请欺诈概率预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210447578.6A CN114926261A (zh) | 2022-04-26 | 2022-04-26 | 汽车金融用户申请欺诈概率预测方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210447578.6A CN114926261A (zh) | 2022-04-26 | 2022-04-26 | 汽车金融用户申请欺诈概率预测方法及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114926261A true CN114926261A (zh) | 2022-08-19 |
Family
ID=82807647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210447578.6A Pending CN114926261A (zh) | 2022-04-26 | 2022-04-26 | 汽车金融用户申请欺诈概率预测方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926261A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117092525A (zh) * | 2023-10-20 | 2023-11-21 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN113610132A (zh) * | 2021-07-29 | 2021-11-05 | 上海淇玥信息技术有限公司 | 一种用户设备鉴别方法、装置和计算机设备 |
-
2022
- 2022-04-26 CN CN202210447578.6A patent/CN114926261A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN113610132A (zh) * | 2021-07-29 | 2021-11-05 | 上海淇玥信息技术有限公司 | 一种用户设备鉴别方法、装置和计算机设备 |
Non-Patent Citations (2)
Title |
---|
白婧怡: "基于经典评分卡与机器学习的金融风险识别模型及其应用", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》, 15 September 2019 (2019-09-15), pages 1 - 46 * |
马晓君;宋嫣琦;常百舒;袁铭忆;苏衡;: "基于CatBoost算法的P2P违约预测模型应用研究", 统计与信息论坛, no. 07, 10 July 2020 (2020-07-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117092525A (zh) * | 2023-10-20 | 2023-11-21 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
CN117092525B (zh) * | 2023-10-20 | 2024-01-09 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN112559900B (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
JP2006085716A (ja) | 自動化された評価モデルについて予測標準偏差を組み立てるための方法および装置 | |
CN107230108A (zh) | 业务数据的处理方法及装置 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110222733B (zh) | 一种高精度的多阶神经网络分类方法及系统 | |
CN112241494A (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN110503566A (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN111143685A (zh) | 一种推荐系统的构建方法及装置 | |
CN111062806A (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
CN112396428A (zh) | 一种基于用户画像数据的客群分类管理方法及装置 | |
CN114926261A (zh) | 汽车金融用户申请欺诈概率预测方法及介质 | |
CN109255389B (zh) | 一种装备评价方法、装置、设备及可读存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN112508684B (zh) | 一种基于联合卷积神经网络的催收风险评级方法及系统 | |
CN117689209A (zh) | 基于熵权模糊综合的桥梁安全风险评估方法、设备及介质 | |
CN117056761A (zh) | 一种基于x-dbscan算法的客户细分方法 | |
CN111738870A (zh) | 基于特征工程的工程履约保证保险风险识别方法与平台 | |
CN116579861A (zh) | 基于新型特征优化算法的车险诈骗识别方法、装置及设备 | |
CN112232945B (zh) | 一种确定个人客户授信的方法及装置 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
WO1992017853A2 (en) | Direct data base analysis, forecasting and diagnosis method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |