CN109389494B - 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 - Google Patents
借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 Download PDFInfo
- Publication number
- CN109389494B CN109389494B CN201811249963.XA CN201811249963A CN109389494B CN 109389494 B CN109389494 B CN 109389494B CN 201811249963 A CN201811249963 A CN 201811249963A CN 109389494 B CN109389494 B CN 109389494B
- Authority
- CN
- China
- Prior art keywords
- user
- vector
- information
- transformation
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 148
- 238000012549 training Methods 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 109
- 239000013598 vector Substances 0.000 claims abstract description 523
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 230000009466 transformation Effects 0.000 claims description 192
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 87
- 230000008030 elimination Effects 0.000 claims description 73
- 238000003379 elimination reaction Methods 0.000 claims description 73
- 238000003062 neural network model Methods 0.000 claims description 68
- 230000003993 interaction Effects 0.000 claims description 38
- 238000010276 construction Methods 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 30
- 230000001131 transforming effect Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 9
- 230000002354 daily effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置,其中借贷欺诈检测模型训练方法包括:获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息;基于身份信息构建身份特征向量;以及根据用户银行流水信息,构建流水特征向量;将身份特征向量以及流水特征向量进行拼接,生成用于表征每个样本用户身份以及支出收入情况的目标特征向量;将目标特征向量输入至目标神经网络,获取目标特征向量的欺诈检测结果;根据欺诈检测结果以及对应的欺诈标注信息,对目标神经网络进行训练,得到借贷欺诈检测模型。本申请能够提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
Description
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置。
背景技术
随着互联网金融的快速发展,伴随而来的是互联网欺诈及信贷风险发生率的上升。据统计数据显示,近年来我过消费金融行业资产不良率呈不断上升趋势,中国互联网欺诈风险已在全球排名前三,网络犯罪每年给全球带来高达4450亿美元的经济损失,日益复杂并向不同行业渗透。
互联网金融风险包含信用风险和操作风险,信用风险即客户在发起借款请求时即无意还款。其中信用风险中欺诈类居高,消费金融的坏账损失超过50%来源于欺诈。
为了规避借贷中的欺诈行为,目前借贷平台处理用户的借贷请求的时候基本上都是采取人工审核的方式,审核用户在进行借贷申请的时候为了证明自己的身份信息往往需要提供一些能够反应个人信息的材料,一般包括:学历证明,收入证明,职业信息,地域信息,历史银行流水信息等。
一般来说,借贷平台只会对其认定的具有还款能力并且消费行为正常的借贷者发放贷款,其中银行流水信息是衡量一个用户还款能力的最重要的维度。每个月拥有固定收入以及符合规律的消费行为记录将能够帮助用户高概率的通过借贷平台的审核。基于此类放贷规则,现在很多黑产中介会通过伪造银行流水的方式帮助借贷用户进行隐瞒自身资质以达到贷款目的,此类借款人往往存在逾期甚至失联等高风险。
正是由于在信贷平台对借贷用户进行信用审核的时候基本上都是依靠业务人员的专家经验进行判断,由于银行历史流水信息往往比较繁杂,涉及的信息的体量比较大,单纯由人工审核的话不但效率低下,而且很难综合银行流水数据和用户个人信息得出整体的正确结论。
发明内容
有鉴于此,本申请实施例的目的在于提供一种借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置,能够提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
第一方面,提供一种借贷欺诈检测模型训练方法,包括:
获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息;
针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量;以及
根据所述用户银行流水信息,构建流水特征向量;
将所述身份特征向量以及该样本用户的所述流水特征向量进行拼接,生成用于表征该样本用户身份以及支出收入情况的目标特征向量;
将所述目标特征向量输入至目标神经网络,获取各个所述样本用户的欺诈检测结果;
根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,得到所述借贷欺诈检测模型。
在一种可选实施方式中,所述身份信息包括:多个身份特征下的特征值;
所述针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量,包括:
根据该样本用户在多个身份特征下的特征值,生成该样本用户的身份特征向量。
在一种可选实施方式中,所述根据所述用户银行流水信息,构建流水特征向量,包括:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。
在一种可选实施方式中,所述根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量,包括:
针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量。
在一种可选实施方式中,所述将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量,包括:
对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量。
在一种可选实施方式中,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
在一种可选实施方式中,所述基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量,包括:
按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;
根据各次选择对应的变换数据,构成所述流水数据向量;
其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。
在一种可选实施方式中,所述根据该次选择的多个元素,生成该次选择对应的变换数据,包括:
将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据;
或者,
将该次选择的多个元素的均值作为该次选择对应的变换数据。
在一种可选实施方式中,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,采用下述方式对所述原始流水数据向量进行消除差距变换:
针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述原始流水数据向量中首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
在一种可选实施方式中,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;
并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述变换向量中的首元素的差距消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
在一种可选实施方式中,所述用户银行流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;
所述根据所述用户银行流水信息以及用户银行流水交互信息,构建流水特征向量,包括:
根据所述收入流水信息,生成所述收入流水特征向量;
根据所述支出流水信息,生成所述支出流水特征向量;以及,
根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息,生成流水交互特征向量。
在一种可选实施方式中,所述根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,包括:
根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;
计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。
在一种可选实施方式中,所述根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,包括:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。
在一种可选实施方式中,所述完成对所述目标神经网络模型的本轮训练后,还包括:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型。
第二方面,提供一种借贷欺诈检测方法,该方法包括:
获取待检测用户的身份信息和用户银行流水信息;
基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量;
将所述待检测用户的身份特征向量和待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;
将所述待检测用户的目标特征向量输入中通过第一方面任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。
第三方面,提供一种借贷欺诈检测模型训练装置,包括:
第一获取模块,用于获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息;
特征向量构建模块,用于针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量;以及根据所述用户银行流水信息,构建流水特征向量;
向量拼接模块,用于将所述身份特征向量以及该样本用户的所述流水特征向量进行拼接,生成用于表征每个所述样本用户身份以及支出收入情况的目标特征向量;
训练模块,用于将所述目标特征向量输入至目标神经网络,获取各个所述样本用户的欺诈检测结果;并根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,得到所述借贷欺诈检测模型。在一种可选实施方式中,所述身份信息包括:多个身份特征下的特征值;
所述特征向量构建模块,用于采用下述方式基于所述身份信息,构建身份特征向量:
根据所述样本用户在多个身份特征下的特征值,生成所述样本用户的身份特征向量。
在一种可选实施方式中,所述特征向量构建模块,用于采用下述方式据所述用户银行流水信息,构建流水特征向量:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。
在一种可选实施方式中,所述特征向量构建模块,用于采用下述方式根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量:针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量。
在一种可选实施方式中,所述特征向量构建模块,用于采用下述方式将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量:对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量。
在一种可选实施方式中,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,所述特征向量构建模块,用于采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
在一种可选实施方式中,所述特征向量构建模块,用于采用下述方式基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量:
按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;
根据各次选择对应的变换数据,构成所述流水数据向量;
其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。
在一种可选实施方式中,所述特征向量构建模块,用于采用下述方式根据该次选择的多个元素,生成该次选择对应的变换数据:
将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据;
或者,
将该次选择的多个元素的均值作为该次选择对应的变换数据。
在一种可选实施方式中,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,所述特征向量构建模块,用于采用下述方式对所述原始流水数据向量进行消除差距变换:
针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述原始流水数据向量中首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
在一种可选实施方式中,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,所述特征向量构建模块,用于采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;
并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述变换向量中的首元素的差距消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
在一种可选实施方式中,所述用户银行流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;
所述特征向量构建模块,用于采用下述方式根据所述用户银行流水信息以及用户银行流水交互信息,构建流水特征向量:
根据所述收入流水信息,生成所述收入流水特征向量;
根据所述支出流水信息,生成所述支出流水特征向量;以及,
根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息,生成流水交互特征向量。
在一种可选实施方式中,所述特征向量构建模块,用于采用下述方式根据所述收入流水信息以及所述支出流水信息,生成流水交互信息:
根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;
计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。
在一种可选实施方式中,所述训练模块用于采用下述方式根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。
在一种可选实施方式中,所述训练模块,完成对所述目标神经网络模型的本轮训练后,还用于:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型。
第四方面,提供一种借贷欺诈检测装置,该装置包括:
第二获取模块,用于获取待检测用户的身份信息和用户银行流水信息;
构建模块,用于基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量;
拼接模块,用于将所述待检测用户的身份特征向量和待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;
检测模块,用于将所述待检测用户的目标特征向量输入中通过第一方面任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。
本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一所提供的一种借贷欺诈检测模型训练方法的流程图;
图2示出了本申请实施例所提供的借贷欺诈检测模型训练方法中,根据用户银行流水信息构建流水特征向量的具体方式的流程图;
图3示出了本申请实施例所提供的借贷欺诈检测模型训练方法中,生成时长为预设时长的多个不同时间段的流水数据向量的具体方式的流程图;
图4示出了本申请实施例所提供的借贷欺诈检测模型训练方法中,对目标神经网络进行训练的具体方式的流程图;
图5示出了本申请实施例二所提供的借贷欺诈检测方法的流程图;
图6示出了本申请实施例三所提供的借贷欺诈检测模型训练装置600的示意图;
图7示出了本申请实施例四所提供的借贷欺诈检测装置700的示意图;
图8示出了本申请实施例五所提供的一种计算机设备800的示意图;
图9示出了本申请实施例六所提供的一种计算机设备900的示意图;
图10示出了本申请实施例所提供的使用滑动窗口法对原始流水数据向量进行变换,生成变换向量的示意图;
图11示出了本申请实施例所提供的对变换向量进行消除差距变换,得到流水数据向量的示意图;
图12示出了本申请实施例所提供的对流水数据向量进行加权求和,得到流水特征向量的示意图;
图13示出了本申请实施例所提供的一种借贷欺诈检测过程的具体示例。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前的信贷行业都是通过人工审核发起借贷请求的发起人是否具有较高的可信度,效率低下,且识别的准确率低,且耗费的人力成本较大。基于此,本申请实施例提供一种借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置,能够通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种借贷欺诈检测模型训练方法进行详细介绍。
实施例一
参见图1所示,为本申请实施例一提供的借贷欺诈检测模型训练方法的流程图,所述方法包括步骤S101~S105,其中:
S101:获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息。
在具体实现的时候,样本用户在筛选的时候,是从发起了借贷申请,并且已经向其发放了贷款的用户中进行筛选的。
用户的身份信息是用于表征用户身份的相关信息,其不仅仅是单一的如身份证号码、姓名等身份信息,而是基于一系列的社会属性所构成的用户的身份,例如,该身份信息可以包括:用户学历、职业、所属地域、性别、年龄、家庭关系、在其他平台的信用信息、资产情况等等。
用户银行流水信息可以是样本用户在发起借贷之前的预设时常的时间段内,单一一家银行的流水信息,也可以是用户在多家银行的流水信息。用户银行流水信息包括用户通过银行收入的金额以及通过银行支出的金额。
每个样本用户对应的欺诈标注信息,为样本用户发生借贷行为后,对其是否发生了欺诈行为的结果进行标注的标注信息。
S102:针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量。
在具体实现的时候,在获取样本用户的身份信息时,是获取每个样本在多个预设的身份特征下的特征值。例如用户学历、职业、所属地域、性别、年龄、家庭关系、在其他平台的信用信息、资产情况中一种或者多种都可以作为身份特征,然后获取该身份特征下的特征值。
在基于身份信息构建身份特征向量的时候,由于原始身份信息的数据形式是不规范的,例如用户的学历包括:小学、初中、高中、大专、本科、硕士、博士中任意一种,而这种对于学历的描述是无法直接构成身份特征向量中的元素的,因此要将不规范的数据转化为格式一致的方便与计算机处理的形式。对于数值特征,例如年龄,直接使用其对应的数据表示身份特征向量中的元素;对于类别特征,例如用户学历,则使用热独(one-hot)的编码方式,即每一个类别特征对应一个0、1组成的向量,该维特征取不同值的时候,这个向量对应的位置取1,其他部分则全部置0。
在将身份信息规范化,得到样本用户在多个身份特征下的特征值后,根据样本用户在多个身份特征下的特征值,并根据样本用户在多个身份特征下的特征值,生成样本用户的身份特征向量。
该身份特征向量能够表征对应样本用户的身份。
S103:根据所述用户银行流水信息,构建流水特征向量。
在具体实现的时候,用户了银行流水信息包括:收入流水信息和支出流水信息;其中,收入流水信息为用户的收入金额;支出流水信息为用户的支出金额。为了表征用户的收入和支出情况,本申请实施例构建收入流水特征向量、支出流水特征向量以及流水交互特征向量,通过这三个向量来共同表征用户的收入和支出情况。
具体地,收入流水特征向量是根据收入流水信息生成;收入流水特征向量中的每个元素,是对应样本用户在某天的收入金额总额;支出流水特征向量是根据支出流水信息生成,支出流水特征向量中的每个元素,是对应样本用户在某天的支出金额总额。流水交互特征向量是根据收入流水信息和支出流水信息共同构成。在生成流水交互特征向量的时候,首先根据收入流水信息生成每天的收入总额,并根据支出流水信息生成每天的支出总额,然后计算每天的收入总额和支出总额的差值,并根据该差值构成流水交互信息,然后根据流水交互信息,生成流水交互特征向量;其中流水交互特征向量中的每个元素,是对应样本用户在某天收入总额和支出总额之间的差值。
另外,流水特征向量能够表征用户的支出收入情况。对于正常的用户而言,由于其工作状态、消费习惯等通常具有一定的稳定性,因此其在较长一段时间内的支出和收入情况通常会维持在一个较为稳定的状态。且由于用户的收入通常是周期性的收入,支出也与周期性的收入具有关联性,因此参见图2所示,本申请实施例提供的一种根据用户银行流水信息构建流水特征向量的具体方式,包括如下步骤:
S201:根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量。
S202:将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。
在具体实现的时候,预设时长的数量和每个预设时长的时间长度,可以根据实际的需要进行设定。在针对每个预设时长,为该预设时长生成时长为该预设时长的多个不同时间段的流水数据向量后,将时长为该预设时长的多个不同时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。
此处,所生成的流水特征向量与预设时长一一对应。且不同的预设时长,对应的时间段的数量可以相同,也可以不同。
具体地,流水数据向量包括至少如下两种生成方式:
其一:一般情况下,时长为每个预设时长的多个时间段的流水数据向量中的每个元素,是时长为该预设时长的各个时间段内,用户每天的流水数据。
以流水数据为支出流水数据,生成的流水数据向量为支出流水数据向量为例,假若预设时长为7天,则生成的时长为7天的多个时间段的支出流水特征向量中,包括7个元素,每个元素为样本用户支出的金额总额;7个元素就是样本用户在连续的7天内每天支出的用户的总额。
其二:由于直接将根据用户银行流水信息,构建流水数据向量,数据会存在较大的波动,这个波动会为模型带来一定的不稳定因素。另外,由于不同样本用户的收入不同,支出也有差异,这些差异也往往会带来不同样本数据的差异过大,样本数据的差异过大,可能会造成模型训练的收敛速度过慢等问题。因此为了增强模型的鲁棒性,和/或,为了减小不同样本数据之间的差异,本申请另一实施例还会对由原始数据构成的数据向量进行变换,从而生成流水数据向量。
参见图3所示,可以采用下述方式生成时长为预设时长的多个不同时间段的流水数据向量:
S301:针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量。
此处,则为时长为n天,数量为m个时间长度生成的原始流水数据向量A1~Am分别表示为:
A1=[a11,a12,a13,…,a1n];
A2=[a21,a22,a23,…,a2n];
……
Am=[am1,am2,am3,…,amn]。
其中,每个原始流水数据向量中的每个元素,为对应时间段中每天的用户银行流水信息。如果原始流水数据向量是基于支出流水信息构建的,则原始流水数据向量中的各个元素为对应时间段中每天的支出金额总额;如果原始流水数据向量是基于收入流水信息构建的,则原始流水数据向量中的各个元素为对应时间段中每天的收入金额总额;如果原始流水数据向量是基于流水交互信息构建的,则原始流水数据向量中的各个元素为对应时间段中每天收入总额与支出总额的差值。
S302:将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量。
具体地,在对原始流水数据向量进行变换处理的时候,可以对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量。
(1)针对对原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
此处,基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,是按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;
根据各次选择对应的变换数据,构成所述流水数据向量;
其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。
在根据该次选择的多个元素,生成该次选择对应的变换数据时,可以采用下述两种方式中任意一种:
将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据。其中,每次选择的多个元素的权重可以根据实际的需要进行具体的设定。
将该次选择的多个元素的均值作为该次选择对应的变换数据。此处,可以将该种方法看作是特殊的加权求合,也即选择的多个元素的权重均相同。
例如使用滑动窗口法(图中示例窗口大小为3,步长为1)对原始流水数据向量进行转换,得到的与每个原始流水数据向量对应的流水数据向量,将选择的多个元素的均值作为该次选择对应的变换数据,则变换数据构成的流水数据向量,时长为n天,数量为m个时间长度生成的原始流水数据向量A1~Am分别表示为:
A1=[a11,a12,a13,…,a1n];
A2=[a21,a22,a23,…,a2n];
……
Am=[am1,am2,am3,…,amn]。
将原始流水数据向量A1~Am分别进行增强鲁棒性变换后生成的流水数据向量V1~Vm分别为:
需要说明的是,上述变换仅仅为滑动窗口法进行数据变换的一个示例,还可以采用其它的窗口大小和步长对原始流水数据向量进行变换。
(2)针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,采用下述方式对所述原始流水数据向量进行消除差距变换:
针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述原始流水数据向量中的首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
例如,将选择的多个元素的均值作为该次选择对应的变换数据,则变换数据构成的流水数据向量,时长为n天,数量为m个时间长度生成的原始流水数据向量A1~Am分别表示为:
A1=[a11,a12,a13,…,a1n];
A2=[a21,a22,a23,…,a2n];
……
Am=[am1,am2,am3,…,amn]。
则在对原始流水数据向量A1~Am进行消除差距变换后,所生成的流水数据向量V1~Vm分别为:
……
(3)针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;
并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述变换向量中的首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
例如,将选择的多个元素的均值作为该次选择对应的变换数据,则变换数据构成的流水数据向量,时长为n天,数量为m个时间长度生成的原始流水数据向量A1~Am分别表示为:
A1=[a11,a12,a13,…,a1n];
A2=[a21,a22,a23,…,a2n];
……
Am=[am1,am2,am3,…,amn]。
使用滑动窗口法(图中示例窗口大小为3,步长为1)对原始流水数据向量进行转换,变换过程如图10所示,得到的与每个原始流水数据向量对应的变换向量B1~Bm分别为:
……
然后再对变换向量B1~Bm分别进消除差距变换,变换过程如图10所示,得到的流水数据向量V1~Vm分别为:
……
在生成时长为所述预设时长的多个不同时间段的流水数据向量后,将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量的时候,一般地,时间越靠后的时间段,对应的权重越大。
例如,在将时长为该预设时长的各个时间段的流水数据向量进行加权求和的加权系数βk可以采用下述公式生成:
βk=μe-(k-γ)τ;其中,k表示第k个流水数据向量;μ、τ和γ均为超参数。
基于加权系数βk对时长为预设时长的多个不同时间段的流水数据向量V1~Vm进行加权求和,得到流水特征向量的过程如图11所示。
另外,在本申请另一实施例中,在构建流水特征向量之前,还可以包括:对银行流水数据进行下述处理中至少一项:数据清洗处理、数据增强处理以及特征筛选与标准化处理。
1:数据清洗处理:因为数据在采集和传输的过程中可能出现错误与丢失,故该模型的作用是清除特征分布异常数据和对有缺失值的特征数据进行填充处理。在清除异常数据部分使用的算法是孤立森林(IForest)模型,该模型是由一棵棵随机的决策树组成,每一棵决策树在分裂叶子节点的时候都是从所有特征集合中随机的挑选目标特征并随机的选取目标特征中的阈值进行节点的分类操作。当生成一棵树之后,每一个原始数据样本都会唯一对应树中的一个叶子节点,而往往异常样本所对应的叶子节点的层数更高。在对有缺失值特征数据处理的时候,对于缺失的类别特征,直接填充在样本集中出现次数最多的类别;对于缺失的数值特征,直接填充该维特征在样本集中出现的平均值。
2、数据增强处理:如果经过清洗的数据中的正负样本很不均衡,例如正常用户行为数量远大于欺诈用户的行为数量,不均衡的样本会给模型的训练带来很大的困难。在本阶段采用合成少数类过采样技术(Synthetic Minority Oversampling Technique,Smote)数据增强算法对欺诈用户行为数据进行扩充处理,该算法将所有的欺诈用户映射到特征空间中去,则每个欺诈用户都会对应于该空间中的一个点,每次任意两个欺诈用户对应点连线中的一个点作为新生成的欺诈用户数据点,反复进行上述操作则可以生成任意数量的欺诈用户数据点,最后控制生成的欺诈用户数据量和正常用户数据量达到预设比值,例如控制生成的欺诈用户数据量和正常用户数据量之间的比例在1:3到1:4之间。
3、特征筛选与标准化处理:特征筛选的目的是为了进行特征的降维,把重要程度较低的特征去掉将有利于模型训练速度的提升和模型识别准确率的提高,该模块中采用的降维方式是主成分分析(Principal Component Analysis,PCA),即对原始的特征进行线性转换,将原始的高维特征映射到低维的特征,使转换之后的特征之间的相关度更低,更能反映出目标数据的本质信息。特征标准化的目的是把各个维度的特征数值都映射到一个相同的范围,这样做能够消除不同特征之间的量纲影响,能更加有利于模型的训练,该模块采用的方式是(0,1)标准化,即将所有的特征数据都转化成均值为0方差为1的标准数据。
需要注意的是,上述S102和S103并无执行的先后顺序。
在基于身份信息构建身份特征向量以及根据用户银行流水信息构建流水特征向量后,本申请实施例还包括:
S104:将所述身份特征向量以及该样本用户的所述流水特征向量进行拼接,生成用于表征该样本用户身份以及支出收入情况的目标特征向量。
S105:将所述目标特征向量输入至目标神经网络,获取各个所述样本用户的欺诈检测结果。
在具体实现的时候,目标神经网络包括特征提取网络以及分类器,特征提取网络用于对目标特征向量进行特征提取,将其中能够表征该用户该次借贷申请的行为是否属于欺诈行为的特征提取出来,然后将提取的特征输入至分类器,得到每个样本用户的欺诈检测结果。
可选地,分类器可以为softmax分类器,softmax分类器的神经元激活函数可以为Sigmoid激活函数,如公式所示:
其中,xi表示特征提取网络对目标特征向量进行特征提取的结果。通过上述激活函数公式可以得到一个0到1之间的概率值,通过这个概率值得到欺诈识别结果。例如越接近于1的概率值的欺诈识别结果为欺诈,越接近0的概率值的欺诈识别结果为正常。
S106:根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,得到所述借贷欺诈检测模型。
在具体实现的时候,参见图4所示,所述根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,包括:
S401:将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户。
S402:根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失。
具体实现的时候,根据该目标样本用户在的欺诈检测结果以及欺诈标注信息,获得目标样本用户在本轮的交叉熵损失,并根据该目标样本用户在欺诈识别结果,获得目标样本用户在本轮的交叉熵损失。
交叉熵损失越大,则意味着当前的神经网络模型针对当前样本用户是否为欺诈用户的检测结果越不准确。反之,交叉熵损失越小,则意味着当前的神经网络模型针对当前样本用户是否为欺诈用的检测结果越准确。
S403:根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数。
S404:将所述目标样本用户作为完成训练的样本用户。
S405:检测当前轮是否还存在未完成训练的样本用户;如果是,则跳转至S406;如果否,则跳转至S408。
S406:将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户。
S407:使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户的欺诈检测结果,并重新返回S402。
S408:完成对所述目标神经网络模型的本轮训。
经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。
在完成对目标神经网络模型的本轮训练后,本申请实施例通过下述三种方式获取欺诈识别模型:
方式一:检测本轮是否达到预设轮数;如果是,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为欺诈识别模型。
具体实现的时候,在模型训练时,会预先设置一个训练的预设轮数,如果检测到本轮达到预设轮数,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为欺诈识别模型。
方式二:使用测试集对本轮得到的基础识别模型进行验证;若测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为欺诈识别模型。
方式三:依次将本轮各个样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对目标神经网络模型的训练,并将前一轮训练得到的目标神经网络模型作为欺诈识别模型。
此处,训练的过程是将交叉熵不断减小的过程,但过多的训练次数可能会导致交叉熵不减反升,因此可以选取交叉熵最小的本轮训练得到的模型作为欺诈识别模型。
可选地,例如预设的第二百分比阈值可以为10%、5%、8%等百分比。
本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
实施例二
参见图5所示,本申请实施例二还提供一种借贷欺诈检测方法,该方法包括:
S501:获取待检测用户的身份信息和用户银行流水信息;
S502:基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量;
S503:将所述待检测用户的身份特征向量和待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;
S504:将所述待检测用户的目标特征向量输入中通过上本申请实施例提供的所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。
此处,S501~S503的过程与上述S101~S103类似,在此不再赘述。
本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
基于同一发明构思,本申请实施例中还提供了与借贷欺诈检测模型训练方法对应的贷欺诈检测模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述贷欺诈检测模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例三
参照图6所示,为本申请实施例三提供的一种借贷欺诈检测模型训练装置600的示意图,一种借贷欺诈检测模型训练装置,其特征在于,包括:
第一获取模块61,用于获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息;
特征向量构建模块62,用于针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量;以及根据所述用户银行流水信息,构建流水特征向量;以及根据所述用户银行流水信息,构建流水特征向量;
向量拼接模块63,用于将所述身份特征向量以及该样本用户的所述流水特征向量进行拼接,生成用于表征每个所述样本用户身份以及支出收入情况的目标特征向量;
训练模块64,用于将所述目标特征向量输入至目标神经网络,获取各个所述样本用户的欺诈检测结果;并根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,得到所述借贷欺诈检测模型。
可选地,所述身份信息包括:多个身份特征下的特征值;
所述特征向量构建模块62,用于采用下述方式基于所述身份信息,构建身份特征向量:
根据所述样本用户在多个身份特征下的特征值,生成所述样本用户的身份特征向量。
可选地,所述特征向量构建模块62,用于采用下述方式据所述用户银行流水信息,构建流水特征向量:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。
可选地,所述特征向量构建模块62,用于采用下述方式根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量:针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量。
可选地,所述特征向量构建模块62,用于采用下述方式将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量:对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量。
可选地,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,所述特征向量构建模块62,用于采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
可选地,所述特征向量构建模块62,用于采用下述方式基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量:
按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;
根据各次选择对应的变换数据,构成所述流水数据向量;
其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。
可选地,所述特征向量构建模块62,用于采用下述方式根据该次选择的多个元素,生成该次选择对应的变换数据:
将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据;
或者,
将该次选择的多个元素的均值作为该次选择对应的变换数据。
可选地,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,所述特征向量构建模块62,用于采用下述方式对所述原始流水数据向量进行消除差距变换:
针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述原始流水数据向量中首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
可选地,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,所述特征向量构建模块62,用于采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;
并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述变换向量中的首元素的差距消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
可选地,所述用户银行流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;
所述特征向量构建模块62,用于采用下述方式根据所述用户银行流水信息以及用户银行流水交互信息,构建流水特征向量:
根据所述收入流水信息,生成所述收入流水特征向量;
根据所述支出流水信息,生成所述支出流水特征向量;以及,
根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息,生成流水交互特征向量。
可选地,所述特征向量构建模块62,用于采用下述方式根据所述收入流水信息以及所述支出流水信息,生成流水交互信息:
根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;
计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。
可选地,所述训练模块64,用于采用下述方式根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。
可选地,所述训练模块64,完成对所述目标神经网络模型的本轮训练后,还用于:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型。
本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
基于同一发明构思,本申请实施例中还提供了与借贷欺诈检测方法对应的贷欺诈检测装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述贷欺诈检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例四
参见图7所示,本申请实施例还提供一种借贷欺诈检测装置,该装置包括:
第二获取模块71,用于获取待检测用户的身份信息和用户银行流水信息;
构建模块72,用于基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量;
拼接模块73,用于将所述待检测用户的身份特征向量和待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;
检测模块74,用于将所述待检测用户的目标特征向量输入中通过本申请实施例提供的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。
本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。
实施例五
对应于图1中的借贷欺诈检测模型训练方法,本申请实施例还提供了一种计算机设备800,如图8所示,为本申请实施例提供的计算机设备800结构示意图,包括:
处理器81、存储器82、和总线83;存储器82用于存储执行指令,包括内存821和外部存储器822;这里的内存821也称内存储器,用于暂时存放处理器81中的运算数据,以及与硬盘等外部存储器822交换的数据,处理器81通过内存821与外部存储器822进行数据交换,当所述用户设备80运行时,所述处理器81与所述存储器82之间通过总线83通信,使得所述处理器81在用户态执行本申请实施例提供的借贷欺诈检测模型训练方法。
对应于图1中的借贷欺诈检测模型训练方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器81运行时执行上述借贷欺诈检测模型训练方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述借贷欺诈检测模型训练方法,从而解决单纯由人工审核的话不但效率低下,而且很难综合银行流水数据和用户个人信息得出整体的正确结论的问题,进而达到提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本的效果。
实施例六
对应于图5中的借贷欺诈检测模型训练方法,本申请实施例还提供了一种计算机设备900,如图9所示,为本申请实施例提供的计算机设备900结构示意图,包括:
处理器91、存储器92、和总线93;存储器92用于存储执行指令,包括内存921和外部存储器922;这里的内存921也称内存储器,用于暂时存放处理器91中的运算数据,以及与硬盘等外部存储器922交换的数据,处理器91通过内存921与外部存储器922进行数据交换,当所述用户设备90运行时,所述处理器91与所述存储器92之间通过总线93通信,使得所述处理器91在用户态执行本申请实施例提供的借贷欺诈检测方法。
对应于图5中的借贷欺诈检测方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器91运行时执行上述借贷欺诈检测方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述借贷欺诈检测方法,从而解决单纯由人工审核不但效率低下,而且很难综合银行流水数据和用户个人信息得出整体的正确结论的问题,进而达到提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本的效果。
参见图13所示,本申请实施例为了更好的对借贷欺诈检测的过程加以说明,还提供一种借贷欺诈检测过程的具体示例,在该示例中:
A表示待检测用户的身份特征向量;
B表示预设时长为1周时,构建的收入流水特征向量;
C表示预设时长为1个月时,构建的收入流水特征向量;
D表示预设时长为1周时,构建的支出流水特征向量;
E表示预设时长为1个月时,构建的支出流水特征向量;
F表示预设时长为1周时,构建的流水交互特征向量;
G表示预设时长为1个月时,构建的流水交互特征向量。
A~G进入到拼接模块H进行拼接,形成的目标特征向量输入至借贷欺诈检测模型I,最终获得对待检测用户的欺诈检测结果。
本申请实施例所提供的借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (22)
1.一种借贷欺诈检测模型训练方法,其特征在于,包括:
获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息;
针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量;以及
根据所述用户银行流水信息,构建流水特征向量;
将所述身份特征向量以及该样本用户的所述流水特征向量进行拼接,生成用于表征该样本用户身份以及支出收入情况的目标特征向量;
将所述目标特征向量输入至目标神经网络,获取各个所述样本用户的欺诈检测结果;
根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,得到所述借贷欺诈检测模型;
所述根据所述用户银行流水信息,构建流水特征向量,包括:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量;
所述根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量,包括:
针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量;
所述将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量,包括:
对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量;
针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
2.根据权利要求1所述的方法,其特征在于,所述身份信息包括:多个身份特征下的特征值;
所述针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量,包括:
根据该样本用户在多个身份特征下的特征值,生成该样本用户的身份特征向量。
3.根据权利要求1所述的方法,其特征在于,所述基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量,包括:
按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;
根据各次选择对应的变换数据,构成所述流水数据向量;
其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。
4.根据权利要求3所述的方法,其特征在于,所述根据该次选择的多个元素,生成该次选择对应的变换数据,包括:
将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据;
或者,
将该次选择的多个元素的均值作为该次选择对应的变换数据。
5.根据权利要求1所述的方法,其特征在于,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,采用下述方式对所述原始流水数据向量进行消除差距变换:
针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述原始流水数据向量中首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
6.根据权利要求3-5任意一项所述的方法,其特征在于,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成变换向量;
并针对所述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述变换向量中的首元素的差距消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
7.根据权利要求1所述的方法,其特征在于,所述用户银行流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;
所述根据所述用户银行流水信息,构建流水特征向量,包括:
根据所述收入流水信息,生成所述收入流水特征向量;
根据所述支出流水信息,生成所述支出流水特征向量;以及,
根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息,生成流水交互特征向量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,包括:
根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;
计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。
9.根据权利要求1所述的方法,其特征在于,
所述根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,包括:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。
10.根据权利要求9所述的方法,其特征在于,所述完成对所述目标神经网络模型的本轮训练后,还包括:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络的训练,将最后一轮训练得到的所述目标神经网络作为所述借贷欺诈检测模型;
或者,
使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型。
11.一种借贷欺诈检测方法,其特征在于,该方法包括:
获取待检测用户的身份信息和用户银行流水信息;
基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量;
将所述待检测用户的身份特征向量和待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;
将所述待检测用户的目标特征向量输入中通过权利要求1-10任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果;
所述根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量,包括:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量;
所述根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量,包括:
针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量;
所述将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量,包括:
对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量;
针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
12.一种借贷欺诈检测模型训练装置,其特征在于,包括:
第一获取模块,用于获取多个样本用户的身份信息、用户银行流水信息,以及与每个样本用户对应的欺诈标注信息;
特征向量构建模块,用于针对每个样本用户,基于该样本用户的所述身份信息构建身份特征向量;以及根据所述用户银行流水信息,构建流水特征向量;
向量拼接模块,用于将所述身份特征向量以及该样本用户的所述流水特征向量进行拼接,生成用于表征每个所述样本用户身份以及支出收入情况的目标特征向量;
训练模块,用于将所述目标特征向量输入至目标神经网络,获取各个所述样本用户的欺诈检测结果;并根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练,得到所述借贷欺诈检测模型;
所述特征向量构建模块,用于采用下述方式据所述用户银行流水信息,构建流水特征向量:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量;
所述特征向量构建模块,用于采用下述方式根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量:针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量;
所述特征向量构建模块,用于采用下述方式将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量:对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量;
针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,所述特征向量构建模块,用于采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
13.根据权利要求12所述的装置,其特征在于,所述身份信息包括:多个身份特征下的特征值;
所述特征向量构建模块,用于采用下述方式基于所述身份信息,构建身份特征向量:
根据所述样本用户在多个身份特征下的特征值,生成所述样本用户的身份特征向量。
14.根据权利要求12所述的装置,其特征在于,所述特征向量构建模块,用于采用下述方式基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量:
按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;
根据各次选择对应的变换数据,构成所述流水数据向量;
其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。
15.根据权利要求14所述的装置,其特征在于,所述特征向量构建模块,用于采用下述方式根据该次选择的多个元素,生成该次选择对应的变换数据:
将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据;
或者,
将该次选择的多个元素的均值作为该次选择对应的变换数据。
16.根据权利要求12所述的装置,其特征在于,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,所述特征向量构建模块,用于采用下述方式对所述原始流水数据向量进行消除差距变换:
针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述原始流水数据向量中首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
17.根据权利要求14-16任意一项所述的装置,其特征在于,针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,所述特征向量构建模块,用于采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成变换向量;
并针对所述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;
针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;
使用所述变换向量中的首元素的差距消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述流水数据向量。
18.根据权利要求12所述的装置,其特征在于,所述用户银行流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;
所述特征向量构建模块,用于采用下述方式根据所述用户银行流水信息以及用户银行流水交互信息,构建流水特征向量:
根据所述收入流水信息,生成所述收入流水特征向量;
根据所述支出流水信息,生成所述支出流水特征向量;以及,
根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息,生成流水交互特征向量。
19.根据权利要求18所述的装置,其特征在于,所述特征向量构建模块,用于采用下述方式根据所述收入流水信息以及所述支出流水信息,生成流水交互信息:
根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;
计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。
20.根据权利要求12所述的装置,其特征在于,所述训练模块用于采用下述方式根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络进行训练:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。
21.根据权利要求20所述的装置,其特征在于,所述训练模块,完成对所述目标神经网络模型的本轮训练后,还用于:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型;
或者,
依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述贷欺诈检测模型。
22.一种借贷欺诈检测装置,其特征在于,该装置包括:
第二获取模块,用于获取待检测用户的身份信息和用户银行流水信息;
构建模块,用于基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量;
拼接模块,用于将所述待检测用户的身份特征向量和待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;
检测模块,用于将所述待检测用户的目标特征向量输入中通过权利要求1-10任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果;
所述构建模块,用于采用以下方式根据所述待检测用户的用户银行流水信息,构建待检测用户的流水特征向量:
根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;
将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量;
所述根据至少一个预设时长以及所述用户银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量,包括:
针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;
将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量;
所述将所述原始流水数据向量进行变换处理,生成该时间段的流水数据向量,包括:
对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的流水数据向量;
针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:
基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的流水数据向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811249963.XA CN109389494B (zh) | 2018-10-25 | 2018-10-25 | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811249963.XA CN109389494B (zh) | 2018-10-25 | 2018-10-25 | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389494A CN109389494A (zh) | 2019-02-26 |
CN109389494B true CN109389494B (zh) | 2021-11-05 |
Family
ID=65427103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811249963.XA Active CN109389494B (zh) | 2018-10-25 | 2018-10-25 | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389494B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070431A (zh) * | 2019-03-15 | 2019-07-30 | 平安科技(深圳)有限公司 | 用户反欺诈实现方法、装置、计算机设备及存储介质 |
CN110097450A (zh) * | 2019-03-26 | 2019-08-06 | 中国人民财产保险股份有限公司 | 车贷风险评估方法、装置、设备和存储介质 |
CN110322342B (zh) * | 2019-06-27 | 2022-05-06 | 上海上湖信息技术有限公司 | 借贷风险预测模型的构建方法、系统及借贷风险预测方法 |
CN110399705A (zh) * | 2019-07-03 | 2019-11-01 | 上海上湖信息技术有限公司 | 判断欺诈用户的方法、装置、设备、及存储介质 |
CN111400764B (zh) * | 2020-03-25 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 个人信息保护的风控模型训练方法、风险识别方法及硬件 |
CN113807940B (zh) * | 2020-06-17 | 2024-04-12 | 马上消费金融股份有限公司 | 信息处理和欺诈行为识别方法、装置、设备及存储介质 |
CN112463923B (zh) * | 2020-11-25 | 2023-04-28 | 平安科技(深圳)有限公司 | 用户欺诈行为检测方法、装置、设备及存储介质 |
CN113129021A (zh) * | 2021-05-18 | 2021-07-16 | 中国银行股份有限公司 | 基于区块链的防范信用卡恶意透支的方法及装置 |
CN113469808A (zh) * | 2021-05-21 | 2021-10-01 | 中国工商银行股份有限公司 | 模型结构、模型训练方法、交易处理方法、设备、介质 |
CN116151965B (zh) * | 2023-04-04 | 2023-07-18 | 成都新希望金融信息有限公司 | 一种风险特征提取方法、装置、电子设备及存储介质 |
CN118313798B (zh) * | 2024-06-07 | 2024-08-23 | 辽宁省网联数字科技产业有限公司 | 一种基于人工智能的资信标标准化自动评审方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102769851A (zh) * | 2011-05-06 | 2012-11-07 | 中国移动通信集团广东有限公司 | 一种监控服务提供商业务的方法及系统 |
CN103793484A (zh) * | 2014-01-17 | 2014-05-14 | 五八同城信息技术有限公司 | 分类信息网站中的基于机器学习的欺诈行为识别系统 |
CN104881783A (zh) * | 2015-05-14 | 2015-09-02 | 中国科学院信息工程研究所 | 电子银行账户欺诈行为及风险检测方法与系统 |
CN105787743A (zh) * | 2016-02-26 | 2016-07-20 | 中国银联股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
CN108154430A (zh) * | 2017-12-28 | 2018-06-12 | 上海氪信信息技术有限公司 | 一种基于机器学习和大数据技术的信用评分构建方法 |
CN108629413A (zh) * | 2017-03-15 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 神经网络模型训练、交易行为风险识别方法及装置 |
CN108629593A (zh) * | 2018-04-28 | 2018-10-09 | 招商银行股份有限公司 | 基于深度学习的欺诈交易识别方法、系统及存储介质 |
-
2018
- 2018-10-25 CN CN201811249963.XA patent/CN109389494B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102769851A (zh) * | 2011-05-06 | 2012-11-07 | 中国移动通信集团广东有限公司 | 一种监控服务提供商业务的方法及系统 |
CN103793484A (zh) * | 2014-01-17 | 2014-05-14 | 五八同城信息技术有限公司 | 分类信息网站中的基于机器学习的欺诈行为识别系统 |
CN104881783A (zh) * | 2015-05-14 | 2015-09-02 | 中国科学院信息工程研究所 | 电子银行账户欺诈行为及风险检测方法与系统 |
CN105787743A (zh) * | 2016-02-26 | 2016-07-20 | 中国银联股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
CN108629413A (zh) * | 2017-03-15 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 神经网络模型训练、交易行为风险识别方法及装置 |
CN108154430A (zh) * | 2017-12-28 | 2018-06-12 | 上海氪信信息技术有限公司 | 一种基于机器学习和大数据技术的信用评分构建方法 |
CN108629593A (zh) * | 2018-04-28 | 2018-10-09 | 招商银行股份有限公司 | 基于深度学习的欺诈交易识别方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
《基于交叉验证的基本解法求复杂区域边界值问题》;李燕;《中国优秀硕士学位论文全文数据库 基础科学辑》;20160315;章节3.1-3.2 * |
Also Published As
Publication number | Publication date |
---|---|
CN109389494A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389494B (zh) | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 | |
CN109300029A (zh) | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 | |
CN110188198B (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
Lu et al. | A hybrid regression technique for house prices prediction | |
CN107103171B (zh) | 机器学习模型的建模方法及装置 | |
CN109409896B (zh) | 银行欺诈识别模型训练方法、银行欺诈识别方法和装置 | |
CN108475393A (zh) | 通过合成特征和梯度提升决策树进行预测的系统和方法 | |
CN112926699A (zh) | 异常对象识别方法、装置、设备及存储介质 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110796539A (zh) | 一种征信评估方法及装置 | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN116777591A (zh) | 还款能力预测模型的训练方法、还款能力预测方法及装置 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN116993490B (zh) | 一种基于人工智能的银行场景自动处理方法及系统 | |
CN117787715A (zh) | 基于信息框架生成客户画像的金融风控方法和系统 | |
CN110619564B (zh) | 一种反欺诈特征生成方法和装置 | |
CN116800831A (zh) | 一种业务数据推送方法、装置、存储介质及处理器 | |
CN116128339A (zh) | 客户信用评估方法及装置、存储介质及电子设备 | |
CN113706258B (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN116091200A (zh) | 基于机器学习的场景授信系统、方法、电子设备及介质 | |
CN115293783A (zh) | 风险用户识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |