CN116342255A - 互联网消费贷反欺诈风险识别方法及系统 - Google Patents
互联网消费贷反欺诈风险识别方法及系统 Download PDFInfo
- Publication number
- CN116342255A CN116342255A CN202310327561.1A CN202310327561A CN116342255A CN 116342255 A CN116342255 A CN 116342255A CN 202310327561 A CN202310327561 A CN 202310327561A CN 116342255 A CN116342255 A CN 116342255A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- model
- identified
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种互联网消费贷反欺诈风险识别方法及系统,该方法包括:采集大量用户与消费贷业务相关的运营商特有数据及金融数据;通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本;利用所述建模样本建立风险预测模型;获取待识别用户的借贷相关信息;将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分;根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。利用本发明方案,可以更准确地评估互联网消费贷反欺诈风险。
Description
技术领域
本发明涉及风险管理技术领域,具体涉及一种互联网消费贷反欺诈风险识别方法及系统。
背景技术
随着普惠金融的发展,金融机构与互联网平台合作强度不断加深,通过互联网平台面向客户提供消费贷款产品应运而生。在健全多层次金融市场的同时,也使得金融欺诈产业呈现指数级增加。对此,传统监管手段已不足以应对日趋复杂的金融风险。欺诈风险管理已被银行、金融机构和网络电商平台等经济主体视为最重要的任务之一。风险管理过程的欺诈风险识别是经济主体贷款批准决策的关键部分,如何防范和识别欺诈行为成为当前面临的一个具有挑战性的问题。
传统的风险评估方法主要是利用多维度数据通过相关数据进行定性分析。然而,随着金融服务的增长,这种模型已经难以反映风险变量之间的非线关系。虽然基于现代金融理论和新工具的现代方法,如欺诈检测模型、欺诈度量模型等,这些模型通常基于外生参数来确定欺诈风险概率,取得了较大的成就,但由于大多数模型对其正态分布的假设很难真实反应风险的实际分布,一但发生欺诈行为将会对企业造成重大损失,影响风险评估的准确性。因此,随着信息技术的发展,人工智能技术被引入到反欺诈风险评估中,如决策树、XGBoost(eXtreme Gradient Boosting,极度梯度提升树)、随机森林和LightGBM(LightGradient Boosting Machine,轻量级的梯度提升算法)等。并且由于其大规模并行、分步式存储和处理、自组织和自学习能力,以及在处理非线性信息方面的优势,已经成为反欺诈风险管理中有效的估计方法,其中LightGBM具有更快的训练速度、更低的内存消耗、更好的准确率等优势应用十分广泛。
但现有技术难以适配复杂金融场景,特别是针对新兴的互联网消费贷业务适配度不高,泛化能力不强。同时,数据资源不充分,难以观察用户行为,使得风险策略评估效果较差。且就常见XGBoost算法应用而言,其存在预排序过程的空间复杂度高,以及难以应对大数据,导致内存消耗高等缺点。
发明内容
本发明提供一种互联网消费贷风险反欺诈风险识别方法及系统,可以更准确地评估互联网消费贷反欺诈风险。
为此,本发明提供如下技术方案:
一种互联网消费贷反欺诈风险识别方法,所述方法包括:
采集大量用户与消费贷业务相关的运营商特有数据及金融数据;
通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本;
利用所述建模样本建立风险预测模型;
获取待识别用户的借贷相关信息;
将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分;
根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。
可选地,所述金融数据包括以下任意一项或多项:总资产级别、近12个月理财产品购买次数,个贷授信总额度、信用卡持卡最高等级、历史贷款最长逾期天数、还款记录;所述运营商特有数据包括以下任意一项或多项:用户APP使用信息、位置信息、用户网页访问信息、用户关键词搜索信息。
可选地,所述通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本包括:
对所述运营商特有数据及所述金融数据进行探索性分析处理,得到处理后的数据;
对所述处理后的数据进行特征衍生,得到数据特征及衍生特征;
对所述数据特征及衍生特征进行编码,得到编码特征;
从所述数据特征、衍生特征和编码特征中进行特征选择,将选择的特征作为入模变量,生成建模样本。
可选地,对所述运营商特有数据及所述金融数据进行探索性分析处理包括以下任意一种或多种处理:
数据预处理;
对变量的分布进行可视化处理;
数值型特征数据转换处理;
类别特征分析。
可选地,所述对所述处理后的数据进行特征衍生,得到数据特征及衍生特征包括以下任意一项或多项:
按月统计近半年用户登陆借贷APP频率变异系数;
汇总用户近一、三、六个月登录借贷APP的次数;
观察近半年借贷APP使用个数增量;
计算各时段下用户通话频次;
确定用户通话活跃时间分布情况;
确定用户的网络浏览情况、以及所述网络的类型、浏览频次和流量情况。
可选地,所述从所述衍生特征和编码特征中进行特征选择包括:采用以下任意一种方法从所述衍生特征和编码特征中进行特征选择:方差选择法、相关系数法、卡方检验法、递归特征消除法、基于树模型的特征选择方法。
可选地,所述利用所述建模样本建立风险预测模型包括:
利用所述建模样本拟合LightGBM模型,并利用GridSearvhCV网格交叉验证调参方法对所述LightGBM模型进行参数调整,得到最优模型参数;
将最优模型参数的LightGBM模型作为风险预测模型。
可选地,所述待识别用户的借贷相关信息包括:所述待识别用户登录借贷APP的次数、时段、位置信息、网页访问信息、用户关键词搜索信息。
可选地,所述将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分包括:
计算所述待识别用户的每个特征信息的得分;
将所有特征信息的得分相加,并加上基础分,得到所述待识别用户的评分。
一种互联网消费贷反欺诈风险识别系统,所述系统包括:模型构建模块、以及预测模块;
所述模型构建模块包括:
数据采集单元,用于采集大量用户与消费贷业务相关的运营商特有数据及金融数据;
样本生成单元,用于通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本;
模型训练单元,用于利用所述建模样本建立风险预测模型;
所述预测模块,用于获取待识别用户的借贷相关信息,将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分;根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。
本发明提供的互联网消费贷反欺诈风险识别方法及系统,借助于运营商特有的丰富“数据矿产”资源,数据中蕴藏着巨大的用户行为等信息,这些信息对于企业而言都是强有效的信息资源,使得用户画像精细度有所提升。利用这些数据及用户的金融数据,训练基于LightGBM算法的风险预测模型,符合运营商大规模数据的处理场景,相较于其他算法来说具有更强的鲁棒性,在新兴的互联网消费贷反欺诈方面的预测效果也更好。
附图说明
图1是本发明实施例提供的互联网消费贷反欺诈风险识别方法的一种流程图;
图2是本发明实施例中从采集的用户数据中提取特征数据的流程图;
图3是本发明实施例中部分不同特征的关系示意图;
图4是本发明实施例中建立风险预测模型的流程图;
图5是本发明实施例中风险预测模型对应的ROC曲线示意图;
图6是本发明实施例中风险预测模型对应的KS曲线示意图;
图7是本发明实施例提供的互联网消费贷反欺诈风险识别系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
数据是反欺诈体建设的核心和前提。运营商拥有的“数据矿产”资源是任何其他企业所不具备的,运营商通过整合现有数据建立数据集市,利用大数据广泛覆盖率,打造基于数据的反欺诈方案,能够有效提升企业风险管理服务能力。具体来说,对海量数据处理的实时性、技术优势等可以有效地保障反欺诈风险评估的合理性。其次,作为信息的融合者,运营商利用数据优势打造权威指数产品,助力反欺诈策略的精确度,为企业放贷决策提供参考依据。另外,相较于其他行业,运营商的用户群体相对稳定,采集信息较为完整,在整个产业链中的影响力较强,数据中蕴藏着大量的行为信息,特别是行为信息、网域信息等对于企业而言都是强有效的信息资源,针对互联网消费贷服务,运营商可利用汇聚到的移动互联网DPI(Deep Packet Inspection,即深度包检测)数据、宽带联网DPI数据等,分析帮助企业识别多种类型的欺诈行为。
针对互联网消费贷风险反欺诈风险识别问题,可从三个角度来考虑,分别为:使用场景、数据采集、以及模型算法。
从使用场景角度来看,互联消费信贷欺诈行为频繁发生,有效防范和识别互联消费信贷业务场景下的欺诈行为成为经济主体亟待解决的问题。
从数据采集角度来看,运营商“数据矿产”资源优势明显,利用移动互联网DPI数据、宽带互联网DPI数据等进行反欺诈系统建设,数据价值极高。
从模型算法角度来看,相较于传统监管手段老旧,难以适配复杂金融场景,以及常见的XGBoost算法等存在预排序过程的空间复杂度高以及采集数据过大导致的内存消耗高等不足。
基于上述分析,本发明提供一种互联网消费贷风险反欺诈风险识别方法及系统,基于LightGBM算法,集合运营商“数据矿产”资源优势,建立预测模型,对于欺诈行为频发的互联网消费贷场景进行预防监控。
下面首先对LightGBM的原理进行简要说明。
LightGBM模型是XGBoost的升级版本,它使用了GOSS(Gradient-based One-SideSampling,单边梯度采样)算法、EFB(Exclusive Feature Bundling,互斥特征捆绑)算法、基于直方图的排序算法、Leaf-wise树生成算法等优化算法,分别从样本数量、特征数量、分裂点数量三方面解决了问题,提升了模型运行的速度,减小了模型运行所占用的内存,跟XGBoost相比,性能达到了很大的提升。LightGBM还支持类别特征、高效并行、Cache命中率优化。因而LightGBM非常适合处理数据规模较大的场景。
如图1所示,是本发明实施例提供的互联网消费贷风险反欺诈风险识别方法的流程图,包括以下步骤:
步骤101,采集大量用户与消费贷业务相关的运营商特有数据及金融数据。
所述金融数据包括以下任意一项或多项:总资产级别、近12个月理财产品购买次数等资产信息,个贷授信总额度、信用卡持卡最高等级、历史贷款最长逾期天数、还款记录等。
所述运营商特有数据包括以下任意一项或多项:用户APP使用信息、位置信息、用户网页访问信息、用户关键词搜索信息。
上述两类信息数据相互补充结合,使得数据资源更为充分,观察用户行为更为全面,有利于风险策略评估效果提升。
步骤102,通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本。
如图2所示,是本发明实施例中从采集的用户数据中提取特征数据的流程图,提取特征数据的过程如下:
在步骤201,对所述运营商特有数据及所述金融数据进行探索性分析处理,得到处理后的数据。
对采集的数据进行探索性分析处理,通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,从而更好地进行特征工程和建立模型。
对所述运营商特有数据及所述金融数据进行探索性分析处理包括但不限于以下任意一种或多种处理:
(1)数据预处理。特征数据一般都是由类别型和数值型数据组成,查看每一维特征的缺失率、类别个数和异常值。为防止出现过拟合问题,需剔除异常值,并针对缺失特征率进行处理,可按照平均数填充数值型特征,按照众数填充类别型特征。
(2)对变量的分布进行可视化处理,更为直观地观察变量分布,对可视化观察得到的不符合变量进行加工处理。
(3)数值型特征数据转换处理。
数值型特征数据又分为连续型和离散型,对其中一些数值连续型变量(比如贷款金额、贷款利率、分期付款金额等)进行归一化处理,去除不同维度数据的量纲以及量纲单位,使其服从均匀分布,以消除特征间单位和尺度差异的影响。
(4)数值型特征分析。检查数值型变量的分布,对结果中分布不满足正态分布的有效变量进行对数变化。
比如,检查数值型变量是否符合正态分布,一些情况下正态分布可以让模型更快地收敛。
通过大量数据统计可知:大部分数值型变量其原本的分布不是正态分布,实际数据通常有异方差等性质,而对数化可以消除异方差,适应经济学含义,为后续处理提供方便。因此对其进行对数变换,使得数据在一定程度上可以符合正态分布,对后续模型的拟合有较好的效果。
(5)类别特征分析,删除类别倾斜严重的变量,处理异常值。
在步骤202,对所述处理后的数据进行特征衍生,得到数据特征及衍生特征。
所述数据特征是指根据采集的用户数据直接得到的特征,衍生特征是指根据这些数据特征经过统计或一定的计算进一步得到的特征。
对所述处理后的数据进行特征衍生是为了使关键特征在模型的构建中有更强的作用,也就是说,从中找出对风险预测模型起关键作用的特征。
在本发明实施例中,对所述处理后的数据进行特征衍生,得到数据特征及衍生特征可以包括但不限于以下任意一项或多项:
比如,为观察用户的稳定性,可以按月统计近半年用户登陆借贷APP频率变异系数;汇总用户近一、三、六个月登录借贷APP的次数;观察近半年借贷APP使用个数增量,以判断用户是否存在借贷APP使用扩张的情况;计算各时段下用户通话频次;确定用户通话活跃时间分布情况等。
再比如,为分析用户的行为变化,可以确定用户的网络浏览情况、以及所述网络的类型、浏览频次和流量情况等。
在步骤203,对所述数据特征及衍生特征进行编码,得到编码特征。
为了便于后续模型的构建,需要将这些不同类别的特征进行编码映射、归一化处理。对不同类别的特征可以采用不同的编码方式,对此本发明实施例不做限定。
比如,对贷款等级这种类别特征,可使用自映射编码处理。比如,可以将贷款等级分为A-G,按下表给出的映射关系处理。
将字符‘A’映射为‘1’,字符‘B’映射为‘2’,字符‘C’映射为‘3’,字符‘D’映射为‘4’,字符‘E’映射为‘5’,字符‘F’映射为‘6’,字符‘G’映射为‘7’。
对于类型数在两个以上,非高维稀疏且纯分类的特征,可以使用one-hot编码对其进行编码。但由于我们要使用LightGBM模型,而LightGBM是直接支持类别特征的,在LightGBM使用one-hot编码会产生会产生样本切分不平衡问题,如果切分的特征的标签分布非常不均匀,例如80%的标签为0,20%的标签为1,在这样的情况下进行切分增益非常小,从而影响决策树学习,因此在这里不做one-hot处理,直接将类别型编码列名与索引位置传送给LightGBM。
对于高维类别特征,可以使用labelEncode编码进行处理。labelEncode编码可将高维的类别变量映射为不同的数字,从而方便之后的模型训练。例如贷款等级的子等级这个变量。
在步骤204,从所述数据特征、衍生特征和编码特征中进行特征选择,将选择的特征作为入模变量,生成建模样本。
在本发明实施例,可以采用但不限于以下任意一种方法从所述衍生特征和编码特征中进行特征选择:方差选择法、相关系数法、卡方检验法、递归特征消除法、基于树模型的特征选择方法等。
比如可以用计算协方差的方式查看这些特征间的相关性,根据相关性从中选择对风险预测起关键作用的特征数据。
部分不同特征的关系如图3所示,通过图3可以直观地观测到各个变量之间的相关程度,便于对特征进行选择,将其作为特征选择的参考。
继续参照图1,在步骤103,利用所述建模样本建立风险预测模型。
在本发明实施例中,所述风险预测模型可以采用LightGBM(Light GradientBoosting Machine,轻量级的梯度提升算法)模型,利用所述建模样本拟合LightGBM模型,并利用GridSearvhCV网格交叉验证调参方法对所述LightGBM模型进行参数调整,得到最优模型参数;将最优模型参数的LightGBM模型作为风险预测模型。GridSearvhCV网格交叉验证是对模型的指定参数值进行穷举搜索,通过给定不同的参数值的组合,验证选择出一组最优的参数。
所述交叉验证是将样本数据集划分为两部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果。通过交叉验证一方面可以用来评估模型在新的数据集上的预测效果,另一方面也可以在一定程度上减小模型的过拟合。
参照图4,图4是本发明实施例中建立风险预测模型的流程图,包括以下步骤:
在步骤401,首先为了加速模型收敛,选择一个较高的初始学习率,learning_rate=0.1,通过使用CV函数来确定此学习率下的最优的决策树棵数n_estimators。
在步骤402,使用GridSearvhCV网格搜索来对max_depth和num_leaves调参来确定决策树的基本结构。
在步骤403,为了防止训练出来的模型过拟合,使用网格搜索来寻找min_child_samples和min_child_weight的最优参数。
在步骤404,对bagging参数进行搜索,调整subsample、subsample_freq和colsample_bytree参数,找到最优bagging组合方式。
在步骤405,为了避免模型中出现的过拟合问题,对正则化参数reg_alpha和reg_lambda进行调整。
在步骤406,将学习率调整到一个很小的值,learning_rate=0.01,在此学习率下及进行CV交叉验证增大决策树棵数n_estimators,进一步完善模型的训练效果。
在模型训练之中,LightGBM模型会生成特征的重要程度,其主要是根据所使用的特征在所有树中作为划分属性的次数以及使用该特征作为分割带来的总增益来确定。
调参后LightGBM模型的最终参数结果及参数意义如下表所示:
拟合模型之后,进行模型效果评价,输出模型的AUC(Area Under Curve)、KS(Kolmogorov-Smirnov)值。AUC值为0.79,KS值为0.45。
由此可见,本发明实施例建立的风险预测模型具有较好的鲁棒性,可满足消费贷反欺诈评估要求。
图5和图6分别示出了该风险预测模型对应的ROC(Receiver OperatingCharacteristic Curve)曲线和KS曲线。
其中,ROC曲线以FPR(假阳性率)为横轴,以TPR(真阳性率)为纵轴,将同一个模型每个阈值的坐标都在坐标轴上呈现,即得到了ROC曲线。
如图5所示,其中ROC曲线上每个点对应一个阈值,横轴FPR越大,预测坏类中实际好类越多,即越远离横轴的效果越好,纵轴TPR越大,预测好类中实际好类越多,即越靠近纵轴的效果越好。此图中,ROC曲线为凸型,证明该风险预测模型具有较好的好坏区分能力。
AUC被定义为ROC曲线下与坐标轴围成的面积,AUC的值越高,说明此模型效果越好。此模型的AUC值为0.79,说明该风险预测模型的效果很好。
KS值反映的是模型正确区分阳性和阴性样本的能力。取值范围为[0-1](因为TPR和FPR的取值都是[0-1],二者的差值必然也是)。当KS值越大,正确区分阳性和阴性样本的能力越强。KS为假阳性率(FPR)和真阳性率(TPR)的最大差值,即KS=MAX(TRP-FPR)。
如图6所示,图形中的三条线分别为:分数由低到高累积的好用户占总体好用户的比率、分数由低到高累计的坏用户占总体坏用户的比率、以及好用户减去坏用户的比率差值,及KS值。此模型的KS值为0.45,说明该风险预测模型区分好坏样本的能力非常强。
对图6中的阈值说明如下:
模型产生的结果通常是一个概率值不是直接的0/1变量,结果大于此阈值为正例,小于此阈值为反例。此阈值通常为0-1之间。
进一步地,在实际应用中,还可以继续累积各用户与消费贷业务相关的运营商特有数据及金融数据,利用累积的数据对所述风险预测模型参数做进一步优化处理。
继续参照图4,在步骤104,获取待识别用户的借贷相关信息。
需要说明的是,所述借贷相关信息具体包括的信息种类可以根据上述风险预测模型的输入变量来确定,比如,所述待识别用户的借贷相关信息可以包括但不限于:所述待识别用户登录借贷APP的次数、时段、位置信息、网页访问信息、用户关键词搜索信息等。
在步骤105,将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分。
具体地,可以计算所述待识别用户的每个特征信息的得分,然后将所有特征信息的得分相加,并加上基础分得到所述待识别用户的评分。
每个特征信息的具体得分为其各个分箱的得分总和,每个特征每个分箱的得分为特征权重w以及此分箱的证据权重(Woe值)的乘积。分箱是指根据某个特征的具体值,按照一定的规则将其划分为不同的区间,每个区间都称之为一箱。Woei值能够反映出当前特征的第i分箱能反映多少总体的信息。其计算公式为:
则所述待识别用户的评分为:
Score=A+B;
其中,wj表示第j特征的特征权重,Woei为第i分箱的证据权重,A即为基础分,B为特征得分总和,即所有特征所有分箱的得分之和。
在步骤106,根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。
具体地,如果所述用户的评分低于设定阈值,则确定该用户为欺诈用户,即存在互联网消费贷欺诈风险。
所述阈值的确定可以根据上述流程算出每个样本的评分,而后将它们按一定标准分组,根据每个区间好坏用户的占比以及拒绝掉的欺诈用户率来确定阈值,当然也可以采用其它方式或者经验值来确定,对此本发明实施例不做限定。
本发明提供的互联网消费贷反欺诈风险识别方法,借助于运营商特有的丰富“数据矿产”资源,数据中蕴藏着巨大的用户行为等信息,这些信息对于企业而言都是强有效的信息资源,使得用户画像精细度有所提升。利用这些数据及用户的金融数据,训练基于LightGBM算法的风险预测模型,符合运营商大规模数据的处理场景,相较于其他算法来说具有更强的鲁棒性,在新兴的互联网消费贷反欺诈方面的预测效果也更好。
相应地,本发明实施例还提供一种互联网消费贷反欺诈风险识别系统,如图7所示,是该系统的一种结构示意图。
该系统包括以下各模块:模型构建模块701、以及预测模块702。其中:
所述模型构建模块701包括以下各单元:
数据采集单元711,用于采集大量用户与消费贷业务相关的运营商特有数据及金融数据;
样本生成单元712,用于通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本;
模型训练单元713,用于利用所述建模样本建立风险预测模型;
其中,所述预测模块702用于获取待识别用户的借贷相关信息,将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分;根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。
需要说明的是,上述模型构建模块701也可以独立于所述系统,也就是说,可以只将模型构建模块701训练得到的风险预测模型嵌入该系统即可。
上述实施例中各模块及各单元的具体实现方式可以参照前面本发明方法实施例中的描述,在此不再赘述。
本发明提供的互联网消费贷反欺诈风险识别系统,借助于运营商特有的丰富“数据矿产”资源,数据中蕴藏着巨大的用户行为等信息,这些信息对于企业而言都是强有效的信息资源,使得用户画像精细度有所提升。利用这些数据及用户的金融数据,训练基于LightGBM算法的风险预测模型,符合运营商大规模数据的处理场景,相较于其他算法来说具有更强的鲁棒性,在新兴的互联网消费贷反欺诈方面的预测效果也更好。
本发明方案结合运营商数据,利用LightGBM算法训练出的模型,以及其中的关键参数,可以更好地适配新兴互联网消费贷场景,利用数据矿产资源充分且能支撑大数据管理的高效机器学习算法,能够更准确地评估互联网消费贷反欺诈风险,而且本发明方案具有更强的鲁棒性。另外,也可以将本发明方案向盗刷以及群体涉黑等场景移植应用。利用本发明方案,可以帮助企业识别预防欺诈行为,助力金融行业健康发展。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种互联网消费贷反欺诈风险识别方法,其特征在于,所述方法包括:
采集大量用户与消费贷业务相关的运营商特有数据及金融数据;
通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本;
利用所述建模样本建立风险预测模型;
获取待识别用户的借贷相关信息;
将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分;
根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。
2.根据权利要求1所述的方法,其特征在于:
所述金融数据包括以下任意一项或多项:总资产级别、近12个月理财产品购买次数,个贷授信总额度、信用卡持卡最高等级、历史贷款最长逾期天数、还款记录;
所述运营商特有数据包括以下任意一项或多项:用户APP使用信息、位置信息、用户网页访问信息、用户关键词搜索信息。
3.根据权利要求2所述的方法,其特征在于,所述通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本包括:
对所述运营商特有数据及所述金融数据进行探索性分析处理,得到处理后的数据;
对所述处理后的数据进行特征衍生,得到数据特征及衍生特征;
对所述数据特征及衍生特征进行编码,得到编码特征;
从所述数据特征、衍生特征和编码特征中进行特征选择,将选择的特征作为入模变量,生成建模样本。
4.根据权利要求3所述的方法,其特征在于,对所述运营商特有数据及所述金融数据进行探索性分析处理包括以下任意一种或多种处理:
数据预处理;
对变量的分布进行可视化处理;
数值型特征数据转换处理;
类别特征分析。
5.根据权利要求3所述的方法,其特征在于,所述对所述处理后的数据进行特征衍生,得到数据特征及衍生特征包括以下任意一项或多项:
按月统计近半年用户登陆借贷APP频率变异系数;
汇总用户近一、三、六个月登录借贷APP的次数;
观察近半年借贷APP使用个数增量;
计算各时段下用户通话频次;
确定用户通话活跃时间分布情况;
确定用户的网络浏览情况、以及所述网络的类型、浏览频次和流量情况。
6.根据权利要求3所述的方法,其特征在于,所述从所述衍生特征和编码特征中进行特征选择包括:
采用以下任意一种方法从所述衍生特征和编码特征中进行特征选择:方差选择法、相关系数法、卡方检验法、递归特征消除法、基于树模型的特征选择方法。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述利用所述建模样本建立风险预测模型包括:
利用所述建模样本拟合LightGBM模型,并利用GridSearvhCV网格交叉验证调参方法对所述LightGBM模型进行参数调整,得到最优模型参数;
将最优模型参数的LightGBM模型作为风险预测模型。
8.根据权利要求7所述的方法,其特征在于,所述待识别用户的借贷相关信息包括:所述待识别用户登录借贷APP的次数、时段、位置信息、网页访问信息、用户关键词搜索信息。
9.根据权利要求8所述的方法,其特征在于,所述将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分包括:
计算所述待识别用户的每个特征信息的得分;
将所有特征信息的得分相加,并加上基础分,得到所述待识别用户的评分。
10.一种互联网消费贷反欺诈风险识别系统,其特征在于,所述系统包括:模型构建模块、以及预测模块;
所述模型构建模块包括:
数据采集单元,用于采集大量用户与消费贷业务相关的运营商特有数据及金融数据;
样本生成单元,用于通过所述运营商特有数据及所述金融数据提取特征数据,生成建模样本;
模型训练单元,用于利用所述建模样本建立风险预测模型;
所述预测模块,用于获取待识别用户的借贷相关信息,将所述借贷相关信息输入所述风险预测模型,计算所述待识别用户的评分;根据所述评分确定所述待识别用户是否存在骗取消费贷欺诈行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327561.1A CN116342255A (zh) | 2023-03-29 | 2023-03-29 | 互联网消费贷反欺诈风险识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327561.1A CN116342255A (zh) | 2023-03-29 | 2023-03-29 | 互联网消费贷反欺诈风险识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342255A true CN116342255A (zh) | 2023-06-27 |
Family
ID=86883762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310327561.1A Pending CN116342255A (zh) | 2023-03-29 | 2023-03-29 | 互联网消费贷反欺诈风险识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342255A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076906A (zh) * | 2023-08-18 | 2023-11-17 | 云和恩墨(北京)信息技术有限公司 | 分布式智能故障诊断方法和系统、计算机设备、存储介质 |
-
2023
- 2023-03-29 CN CN202310327561.1A patent/CN116342255A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076906A (zh) * | 2023-08-18 | 2023-11-17 | 云和恩墨(北京)信息技术有限公司 | 分布式智能故障诊断方法和系统、计算机设备、存储介质 |
CN117076906B (zh) * | 2023-08-18 | 2024-02-23 | 云和恩墨(北京)信息技术有限公司 | 分布式智能故障诊断方法和系统、计算机设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN107194803A (zh) | 一种p2p网贷借款人信用风险评估的装置 | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
CN111476296A (zh) | 样本生成方法、分类模型训练方法、识别方法及对应装置 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
KR20200075120A (ko) | 기업 부도 예측 시스템 및 이의 동작 방법 | |
CN116402512B (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN111681022A (zh) | 一种网络平台数据资源价值评估方法 | |
CN111951104A (zh) | 一种基于关联图谱的风险传导预警方法 | |
CN109977977B (zh) | 一种识别潜在用户的方法及对应装置 | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及系统 | |
CN113205093A (zh) | 基于XGBoost回归与卷积网络的数据资产分析方法、系统及介质 | |
CN116342255A (zh) | 互联网消费贷反欺诈风险识别方法及系统 | |
CN115018562A (zh) | 用户预流失预测方法、装置及系统 | |
CN114154672A (zh) | 一种用于客户流失预测的数据挖掘方法 | |
CN111738824A (zh) | 一种账务数据处理方式筛选方法、装置及系统 | |
CN110738565A (zh) | 基于数据集合的房产金融人工智能复合风控模型 | |
CN117172381A (zh) | 基于大数据的风险预测方法 | |
CN117372144A (zh) | 应用于小样本场景的风控策略智能化方法及系统 | |
CN111652708A (zh) | 一种应用于房屋抵押贷款产品中的风险评估方法及装置 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
CN116611911A (zh) | 基于支持向量机的信用风险预测方法及装置 | |
CN115330526A (zh) | 一种企业信用评分方法及装置 | |
KR102499182B1 (ko) | 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |