CN116823442A - 信贷业务中欺诈风险的预测方法 - Google Patents
信贷业务中欺诈风险的预测方法 Download PDFInfo
- Publication number
- CN116823442A CN116823442A CN202310782771.XA CN202310782771A CN116823442A CN 116823442 A CN116823442 A CN 116823442A CN 202310782771 A CN202310782771 A CN 202310782771A CN 116823442 A CN116823442 A CN 116823442A
- Authority
- CN
- China
- Prior art keywords
- credit
- data
- risk
- variable
- variables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000007477 logistic regression Methods 0.000 claims abstract description 8
- 238000009960 carding Methods 0.000 claims abstract description 5
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 7
- 230000008451 emotion Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012502 risk assessment Methods 0.000 abstract description 2
- 210000000887 face Anatomy 0.000 description 5
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 241000209504 Poaceae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种信贷业务中欺诈风险的预测方法,包括如下步骤:根据不同的业务场景收集用户相应的节点原始数据;对获得的节点原始数据进行梳理并处理;根据步骤2处理好的节点数据在数据仓库中建立以用户订单号为主键的底表,将节点数据分标签并按订单纬度储存在底表中;基于步骤3底表中的数据,采用逻辑回归算法对底表中的标签变量进行筛选,再根据筛选出来的变量构建用于风险评分的LOGIT模型,对LOGIT模型进行训练和验证,选择精度满足要求的LOGIT模型用于对信贷风险进行评分,根据评分高低人工判断是否存在欺诈风险。本发明能够根据用户的基本信息资料、人脸特征进行对欺诈风险进行预测,给出风险评估结果,从而大大提高识别欺诈的能力,降低贷款风险。
Description
技术领域
本发明属于风险决策的技术领域,具体涉及一种信贷业务中欺诈风险的预测方法。
背景技术
在信贷业务中,一般包括营销获客、贷前授信、贷中动支、贷后催收等业务场景。其中贷前授信和贷中动支是人脸欺诈风险的高发环节,因此需要对该两个环节进行严格风控以降低贷款风险。
欺诈风险目前日益呈现产业链化的特征,围绕着欺诈的实施,形成了专业的技术开发产业,比如虚假资料、伪冒申请、虚假交易、人脸欺诈等;身份包装和虚假身份提供产业,比如破解小区或公司摄像头获取人脸照片等;业务漏洞发现和欺诈方法传授产业,而且从事这些产业的人都具有较高的技术水平,他们会各种试探金融机构的反欺诈规则,然后利用前两种产业提供的技术、资料实施欺诈。因此需要开发能预测上述风险的方法以提高贷款的安全性。
发明内容
本发明的目的在于针对现有技术的不足之处,提供一种信贷业务中欺诈风险的预测方法,该方法能够根据用户的基本信息资料、人脸特征进行对欺诈风险进行预测,给出风险评估结果,从而大大提高识别欺诈的能力,降低贷款风险。
为解决上述技术问题,本发明采用如下技术方案:
一种信贷业务中欺诈风险的预测方法,包括如下步骤:
步骤1、根据不同的业务场景收集用户相应的节点原始数据;
步骤2、对获得的节点原始数据进行梳理并处理;
步骤3、根据步骤2处理好的节点数据在数据仓库中建立以用户订单号为主键的底表,将节点数据分标签并按订单纬度储存在底表中;
步骤4、基于步骤3底表中的数据,采用逻辑回归算法对底表中的标签变量进行筛选,再根据筛选出来的变量构建用于风险评分的LOGIT模型,对LOGIT模型进行训练和验证,选择精度满足要求的LOGIT模型用于对信贷风险进行评分,根据评分高低人工判断是否存在欺诈风险。
进一步地,步骤1中业务场景包括贷前授信、贷中动支,在贷前授信阶段收集用户的基础信息数据和人脸信息数据,在贷中动支阶段采集用户的人脸信息数据。
进一步地,基础信息数据包括性别、年龄、学历、户籍地址城市、现居住地址城市、运营商地址城市。
进一步地,获取的节点原始数据来自用户填写或授权的数据。
进一步地,步骤2中对数据进行梳理和处理的方法包括:
将户籍地址或居住地址分为一线、新一线、二线、三线、四线、五线,根据获取的用户户籍地址或居住地址得到其对应的级别;
将学历进行分级,根据获取的用户学历得到其对应的级别;
将年龄进行分级,根据获取的用户年龄得到其对应级别。
进一步地,步骤2中对人脸特征数据进行数据和处理包括:根据收集到的人脸信息数据采用卷积神经网络提取人脸五官的特征、人脸的相对比例、视觉年龄、视觉性别、情绪特征。
进一步地,步骤3中根据节点数据建立以性别、年龄、学历、户籍地址城市、现居住地址城市、人脸五官的特征、人脸的相对比例、视觉年龄、视觉性别、情绪特征为标签变量的底表,底表数据实时更新。
进一步地,步骤4具体包括如下步骤:
步骤4.1:以LOGIT模型为目标模型,采用逻辑回归算法从底表的多个标签变量中筛选出与LOGIT模型关联紧密的最终有效变量;
步骤4.2:以筛选出的最终有效变量重构LOGIT模型并对其进行训练和验证,选出精度符合要求的LOGIT模型用于对信贷风险进行评分;
步骤4.3:根据步骤4.2选出的LOGIT模型对信贷风险进行评分,贷前环节人工根据评分高低结合申请时间段及频次判断是否存在中介风险,贷中环节人工根据评分高低结合人脸背景和证照信息判断是否真人申请,是否存在翻拍/换脸攻击。
进一步地,步骤4.1具体包括:
步骤4.1.1:遍历底表中所有的标签变量,根据单个变量建立LOGIT模型,以单个变量IV值作为变量是否有效的评估标准,筛选出IV值≥0.5的变量,并将其对应的LOGIT模型AUC值从高到底排序,选择LOGIT模型AUC值最高的变量作为第一轮选择变量;
步骤4.1.2:在第一轮选择变量的基础上,从IV值≥0.5的剩余变量中选择一个添加第二个变量,历遍所有剩余变量,添加令LOGIT模型AUC值最大的变量,将其作为第二轮选择变量;
步骤4.1.3.在第二轮的基础上,添加第三个变量以此类推,直到变量不再使LOGIT模型AUC值增加时,不再添加变量,上述步骤中选择出的变量即为最终有效变量。
进一步地,在对LOGIT模型进行验证时,以LOGIT模型的AUC值和LIFT提升度为评价指标,其中,LOGIT模型的AUC值需大于等于0.6,LOGIT模型的LIFT提升度需大于等于2。
与现有技术相比,本发明的有益效果为:
1、本发明将人脸欺诈识别引入风控信贷领域,为从业者在依靠人脸欺诈风险指标进行决策时是否可靠提供参考标准,考虑到了信贷领域人脸欺诈风险场景多、欺诈手段多样化的特点,提高了识别欺诈的能力;
2、本发明还将用户基础信息也作为评判风险的数据,能够针对不同风控场景下可能发生的人脸欺诈风险收集不同场景下能合法获取的用户基础信息,从用户基础数据出发,避免了数据难获取、数据准确性低、数据维度单一的问题,从多个维度识别欺诈风险,提高了贷款的安全性;
3、在进行风险评判时,使用者只需输入用户的基础信息如性别、年龄、居住地址、户籍地址以及人脸特征信息等,即可自动计算出对应的评分,具备较强的复用性。
附图说明
图1为本发明实施例信贷业务中欺诈风险的预测方法的流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,本发明实施例公开了一种信贷业务中欺诈风险的预测方法,包括如下步骤:
步骤1、根据不同的业务场景收集用户相应的节点原始数据;
在信贷业务中,业务场景包括贷前授信、贷中动支。在贷前授信的过程中,一般由用户填写申请或经过用户授权他们填写,在用户申请过程中,获取用户的基础信息数据、人脸图片或视频等人脸特征信息,在这个阶段存在以批量申请为主的掩人耳目的欺诈行为。其中,基础信息数据包括性别、年龄、学历、户籍地址城市、现居住地址城市、运营商地址城市等信息。在贷中动支阶段有时需要对用户本人进行核实,这时需要采集用户本人的照片或视频,在贷中动支阶段就存在以照片攻击、视频攻击、3D面具攻击为主的欺诈行为。
步骤2、对获得的节点原始数据进行梳理并处理;
在该步骤中,为了简化用户基础信息数据,更方便地根据用户基础信息数据进行评估风险,对获取的基础信息数据进行梳理和分级,具体的分级方式为:
基于最新的国家标准,将户籍地址或居住地址分为一线、新一线、二线、三线、四线、五线等,根据获取的用户户籍地址或居住地址得到其对应的级别;
将学历按大专以下、大专-本科、研究生以以上分别分为一级、二级和三级,根据获取的用户学历得到其对应的级别;
将年龄按16-22、23-35、36-50、50以上分别分为一级、二级、三级、四级,根据获取的用户年龄得到其对应级别。
对人脸特征数据进行数据和处理包括:根据收集到的人脸信息数据采用卷积神经网络提取人脸五官的特征、人脸的相对比例、视觉年龄、视觉性别、情绪特征。其中,人脸五官的特征包括脸部轮廓、眉毛的形状、眼球的颜色、两眼球之间的距离、鼻子和嘴巴形状等。
步骤3、根据步骤2处理好的节点数据在数据仓库中建立以用户订单号为主键的底表,将节点数据进行分类并按订单纬度储存在底表中;
在该步骤中,将基础信息按性别、年龄、学历、户籍地址城市、现居住地址城市为标签变量存储在底表中,将人脸特征信息按人脸五官的特征、人脸的相对比例、视觉年龄、视觉性别、情绪特征为标签变量储存在底表中,底表数据实时更新,保持数据一致性。
步骤4、基于步骤3底表中的数据,采用逻辑回归算法对底表中的标签变量进行筛选,再根据筛选出来的变量构建用于风险评分的LOGIT模型,对LOGIT模型进行训练和验证,选择精度满足要求的LOGIT模型用于对信贷风险进行评分,根据评分高低人工判断是否存在欺诈风险;
在本实施例中,该步骤具体包括如下步骤:
步骤4.1:以LOGIT模型为目标模型,采用逻辑回归算法从底表的多个标签变量中筛选出与LOGIT模型关联紧密的有效变量;其中,采用逻辑回归算法筛选变量的方法为:
遍历底表中所有的标签变量,根据每个单个变量建立一个LOGIT模型,根据单个变量IV值(information value)作为变量是否有效的评估标准,筛选出IV值≥0.5的变量认为其为有效变量,再将每个有效变量对应的LOGIT模型AUC值((Area under the curve))从高到底排序,选择LOGIT模型AUC值最高的变量作为第一轮选择变量;
在第一轮选择变量的基础上,从IV值≥0.5的剩余变量中选择其中一个变量添加作为第二个变量,历遍所有剩余变量,添加令LOGIT模型AUC值最大的变量,将其作为第二轮选择变量;
在第二轮的基础上,添加第三个变量以此类推,直到变量不再使模型AUC增加时,就不再添加变量,上述步骤中选择变量即为最终的有效变量。
步骤4.2:以筛选出的最终的有效变量重构LOGIT模型并对其进行训练和验证,在训练的过程中,以筛选出的最终的有效变量作为输入对LOGIT模型采用梯度下降法进行训练,训练完成后进行验证,选择精度符合要求的LOGIT模型用于对信贷风险进行评分,在对LOGIT模型进行验证时,以LOGIT模型的AUC值和LIFT提升度为评价指标,其中,LOGIT模型的AUC值需大于等于0.6,LOGIT模型的LIFT需大于等于2;
步骤4.3:将采集的用户基础信息和人脸特征信息输入到步骤4.2选出的LOGIT模型对用户信贷风险进行评分,贷前授信环节人工根据评分高低结合申请时间段及频次判断是否存在中介风险,贷中动支环节人工根据评分高低结合人脸背景和证照信息判断是否真人申请,是否存在翻拍/换脸攻击。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (10)
1.一种信贷业务中欺诈风险的预测方法,其特征在于,包括如下步骤:
步骤1、根据不同的业务场景收集用户相应的节点原始数据;
步骤2、对获得的节点原始数据进行梳理并处理;
步骤3、根据步骤2处理好的节点数据在数据仓库中建立以用户订单号为主键的底表,将节点数据分标签并按订单纬度储存在底表中;
步骤4、基于步骤3底表中的数据,采用逻辑回归算法对底表中的标签变量进行筛选,再根据筛选出来的变量构建用于风险评分的LOGIT模型,对LOGIT模型进行训练和验证,选择精度满足要求的LOGIT模型用于对信贷风险进行评分,根据评分高低人工判断是否存在欺诈风险。
2.根据权利要求1所述的信贷业务中欺诈风险的预测方法,其特征在于,步骤1中业务场景包括贷前授信、贷中动支,在贷前授信阶段收集用户的基础信息数据和人脸信息数据,在贷中动支阶段采集用户的人脸信息数据。
3.根据权利要求2所述的信贷业务中欺诈风险的预测方法,其特征在于,基础信息数据包括性别、年龄、学历、户籍地址城市、现居住地址城市、运营商地址城市。
4.根据权利要求1所述的信贷业务中欺诈风险的预测方法,其特征在于,获取的节点原始数据来自用户填写或授权的数据。
5.根据权利要求3所述的信贷业务中欺诈风险的预测方法,其特征在于,步骤2中对数据进行梳理和处理的方法包括:
将户籍地址或居住地址分为一线、新一线、二线、三线、四线、五线,根据获取的用户户籍地址或居住地址得到其对应的级别;
将学历进行分级,根据获取的用户学历得到其对应的级别;
将年龄进行分级,根据获取的用户年龄得到其对应级别。
6.根据权利要求2所述的信贷业务中欺诈风险的预测方法,其特征在于,步骤2中对人脸特征数据进行数据和处理包括:根据收集到的人脸信息数据采用卷积神经网络提取人脸五官的特征、人脸的相对比例、视觉年龄、视觉性别、情绪特征。
7.根据权利要求3所述的信贷业务中欺诈风险的预测方法,其特征在于,步骤3中根据节点数据建立以性别、年龄、学历、户籍地址城市、现居住地址城市、人脸五官的特征、人脸的相对比例、视觉年龄、视觉性别、情绪特征为标签变量的底表,底表数据实时更新。
8.根据权利要求7所述的信贷业务中欺诈风险的预测方法,其特征在于,步骤4具体包括如下步骤:
步骤4.1:以LOGIT模型为目标模型,采用逻辑回归算法从底表的多个标签变量中筛选出与LOGIT模型关联紧密的最终有效变量;
步骤4.2:以筛选出的最终有效变量重构LOGIT模型并对其进行训练和验证,选出精度符合要求的LOGIT模型用于对信贷风险进行评分;
步骤4.3:根据步骤4.2选出的LOGIT模型对信贷风险进行评分,贷前环节人工根据评分高低结合申请时间段及频次判断是否存在中介风险,贷中环节人工根据评分高低结合人脸背景和证照信息判断是否真人申请,是否存在翻拍/换脸攻击。
9.根据权利要求8所述的信贷业务中欺诈风险的预测方法,其特征在于,步骤4.1具体包括:
步骤4.1.1:遍历底表中所有的标签变量,根据单个变量建立LOGIT模型,以单个变量IV值作为变量是否有效的评估标准,筛选出IV值≥0.5的变量,并将其对应的LOGIT模型AUC值从高到底排序,选择LOGIT模型AUC值最高的变量作为第一轮选择变量;
步骤4.1.2:在第一轮选择变量的基础上,从IV值≥0.5的剩余变量中选择一个添加第二个变量,历遍所有剩余变量,添加令LOGIT模型AUC值最大的变量,将其作为第二轮选择变量;
步骤4.1.3.在第二轮的基础上,添加第三个变量以此类推,直到变量不再使LOGIT模型AUC值增加时,不再添加变量,上述步骤中选择出的变量即为最终有效变量。
10.根据权利要求8所述的信贷业务中欺诈风险的预测方法,其特征在于,在对LOGIT模型进行验证时,以LOGIT模型的AUC值和LIFT提升度为评价指标,其中,LOGIT模型的AUC值需大于等于0.6,LOGIT模型的LIFT提升度需大于等于2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310782771.XA CN116823442A (zh) | 2023-06-28 | 2023-06-28 | 信贷业务中欺诈风险的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310782771.XA CN116823442A (zh) | 2023-06-28 | 2023-06-28 | 信贷业务中欺诈风险的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116823442A true CN116823442A (zh) | 2023-09-29 |
Family
ID=88112267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310782771.XA Pending CN116823442A (zh) | 2023-06-28 | 2023-06-28 | 信贷业务中欺诈风险的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116823442A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094184A (zh) * | 2023-10-19 | 2023-11-21 | 上海数字治理研究院有限公司 | 基于内网平台的风险预测模型的建模方法、系统及介质 |
-
2023
- 2023-06-28 CN CN202310782771.XA patent/CN116823442A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094184A (zh) * | 2023-10-19 | 2023-11-21 | 上海数字治理研究院有限公司 | 基于内网平台的风险预测模型的建模方法、系统及介质 |
CN117094184B (zh) * | 2023-10-19 | 2024-01-26 | 上海数字治理研究院有限公司 | 基于内网平台的风险预测模型的建模方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Financial credit risk prediction in internet finance driven by machine learning | |
Buolamwini | Gender shades: intersectional phenotypic and demographic evaluation of face datasets and gender classifiers | |
CN109934197A (zh) | 人脸识别模型的训练方法、装置和计算机可读存储介质 | |
CN110009479A (zh) | 信用评价方法及装置、存储介质、计算机设备 | |
CN109670936A (zh) | 贷款审批处理方法、平台、设备及计算机可读存储介质 | |
CN108304858A (zh) | 对抗样本识别模型生成方法、验证方法及其系统 | |
CN113011973B (zh) | 基于智能合约数据湖的金融交易监管模型的方法及设备 | |
CN108399509A (zh) | 确定业务请求事件的风险概率的方法及装置 | |
CN109657554A (zh) | 一种基于微表情的图像识别方法、装置以及相关设备 | |
CN109165674A (zh) | 一种基于多标签深度卷积网络的证件照分类方法 | |
CN111861240A (zh) | 可疑用户识别方法、装置、设备及可读存储介质 | |
CN106228137A (zh) | 一种基于关键点定位的atm机异常人脸检测方法 | |
CN110084610A (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
TWI752349B (zh) | 風險識別方法及裝置 | |
CN108717663A (zh) | 基于微表情的面签欺诈判断方法、装置、设备及介质 | |
CN105701704A (zh) | 用户可信度社交网络数据的处理方法 | |
CN109859030A (zh) | 基于用户行为的风险评估方法、装置、存储介质和服务器 | |
CN109919006A (zh) | 表情检测方法、装置、电子设备及存储介质 | |
CN116823442A (zh) | 信贷业务中欺诈风险的预测方法 | |
CN107993142A (zh) | 一种金融反欺诈风险控制系统 | |
CN109636565A (zh) | 风险数据的处理方法、装置、设备及计算机可读存储介质 | |
CN112116103A (zh) | 基于联邦学习的个人资质评估方法、装置及系统及存储介质 | |
AU2018293922B2 (en) | Improvements to fitting orthokeratology lenses | |
CN113724061A (zh) | 基于客户分群的消费金融产品信用评分方法及装置 | |
CN110399818A (zh) | 一种风险预测的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |