CN109409896B - 银行欺诈识别模型训练方法、银行欺诈识别方法和装置 - Google Patents

银行欺诈识别模型训练方法、银行欺诈识别方法和装置 Download PDF

Info

Publication number
CN109409896B
CN109409896B CN201811211265.0A CN201811211265A CN109409896B CN 109409896 B CN109409896 B CN 109409896B CN 201811211265 A CN201811211265 A CN 201811211265A CN 109409896 B CN109409896 B CN 109409896B
Authority
CN
China
Prior art keywords
sample user
target
service channel
operation behavior
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811211265.0A
Other languages
English (en)
Other versions
CN109409896A (zh
Inventor
郭豪
孙善萍
康晓中
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN201811211265.0A priority Critical patent/CN109409896B/zh
Publication of CN109409896A publication Critical patent/CN109409896A/zh
Application granted granted Critical
Publication of CN109409896B publication Critical patent/CN109409896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种银行欺诈识别模型训练方法、银行欺诈识别方法和装置,在模型训练的时候,通过获取多个样本用户历史操作信息及是否发生欺诈行为的标注信息,并根据每个样本用户的历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量;将特征向量输入至预先构建的目标神经网络模型中进行迁移学习,获取该样本用户的欺诈识别结果;根据欺诈识别结果以及标注信息对目标神经网络模型进行训练,获取银行欺诈识别模型。本申请能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为具有更高的准确率。

Description

银行欺诈识别模型训练方法、银行欺诈识别方法和装置
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种银行欺诈识别模型训练方法、银行欺诈识别方法和装置。
背景技术
互联网的快速发展以及智能终端的普及,使得人们在通过多种业务渠道的电子银行远程办理查询余额、转账、购物支付、理财等业务时获得了极大的便捷,人们无论在任何时间、任何地点,不需要到银行柜面,只需轻松动一下手指即可通过电子银行进行汇款转账、定活互转、信用卡账单及明细查询、信用卡还款、理财/基金购买、生活缴费等多种金融业务,效率得到了极大的提高。但是电子银行在为用户提供便捷服务的同时,也存在很多的安全隐患。
调查显示,网络犯罪每年给全球带来高达4450亿美元的经济损失,日益复杂并向不同行业渗透。在国内,网络诈骗的黑色产业链规模超过1100亿元,从业人员超过160万人。据中国互联网协会发布的数据显示,63.4%的网民通话记录、网上购物记录等信息遭泄露;78.2%的网民个人身份信息曾被泄露。欺诈者窃取到受害人的信息之后不断的进行暴力破解、账户信息窃取、账户信息盗用、盗转资金等行为,个人信息的泄露,给诈骗分子实现精准诈骗带来了很大的便利,使得诈骗分子可以实现精准诈骗,单个诈骗金额不断攀升,其欺诈行为已从单一个体行为,发展成为一个组织严密、专业分工明确的黑色产业链条,为银行发展网络金融业务带来了严峻挑战。
目前业内的电子银行反欺诈系统防控策略存在对欺诈行为检测的准确率低的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种银行欺诈识别模型训练方法、银行欺诈识别方法和装置,能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
第一方面,本申请实施例提供了一种银行欺诈识别模型训练方法,包括:
获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息;多个所述业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;
针对每个样本用户,根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量;
将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果;
根据每个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取欺诈识别模型。
在一种可选的实施方式中,所述样本用户包括:第一样本用户以及第二样本用户;
获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息,包括:
获取多个第一样本用户中每个第一样本用户在第一历史时间段内使用所述目标业务渠道进行业务操作的历史操作信息,以及每个所述第一样本用户在第二历史时间段基于所述目标业务渠道是否发生欺诈行为的标注信息;以及,
获取多个所述第二样本用户中每个第二样本用户在第一历史时间段内基于其中一个所述辅助业务渠道进行业务操作的历史操作信息,以及每个所述第二样本用户在第二历史时间段在其所使用的所述辅助业务渠道是否发生欺诈行为的标注信息。
在一种可选的实施方式中,所述特征向量包括源域特征向量以及目标域特征向量;多种操作行为包括:多种基础操作行为以及多种业务操作行为;
所述针对每个样本用户,根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量,包括:
针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量;
针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
在一种可选的实施方式中,所述针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量,包括:
针对每个所述第一样本用户,根据该第一样本用户在所述目标业务渠道下的历史操作信息,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量。
在一种可选的实施方式中,所述根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量之前,还包括:
对该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
在一种可选的实施方式中,针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量,包括:
针对每个所述第二样本用户,根据该第二样本用户在其使用的所述辅助业务渠道下的历史操作信息,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
在一种可选的实施方式中,所述根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量之前,还包括:
对该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
在一种可选的实施方式中,所述目标神经网络包括:主融合神经网络、分类器,所述基础操作行为对应的第一辅助融合神经网络,以及所述业务操作行为对应的第二辅助融合神经网络;
所述将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果,包括:
针对该样本用户为第一样本用户的情况,使用所述第一辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种基础操作行为分别对应的源域特征向量进行特征融合,获取该第一样本用户对应的第一源域融合特征向量;
使用所述第二辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种所述业务操作行为分别对应的所述源域特征向量进行特征融合,获取该第一样本用户对应的第二源域融合特征向量;
使用所述主融合神经网络对所述第一源域融合特征向量和所述第二源域融合特征向量进行特征融合,获取该第一样本用户的目标特征向量;
将该第一样本用户的目标特征向量输入至所述分类器,获取该第一样本用户在所述目标业务渠道的欺诈识别结果;
针对该样本用户为第二样本用户的情况,使用第一辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述基础操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第一目标域融合特征向量;
使用所述第二辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述业务操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第二目标域融合特征向量;
使用所述主融合神经网络对所述第一目标域融合特征向量和所述第二目标域融合特征向量进行特征融合,获取该第二样本用户的目标特征向量;
将该第二样本用户的目标特征向量输入至所述分类器,获取该第二样本用户在该辅助业务渠道的欺诈识别结果。
在一种可选的实施方式中,所述根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型,包括:
根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行本轮训练;
将经过多轮训练后的所述目标神经网络模型作为所述银行欺诈识别模型。
在一种可选的实施方式中,所述根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型,包括:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还未完成训练的样本用户中任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户在其所使用的业务渠道的欺诈识别结果,并重新返回根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述银行欺诈识别模型。
在一种可选的实施方式中,所述完成对所述目标神经网络模型的本轮训练后,还包括:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
使用测试集对本轮得到的目标神经网络模型进行验证;若所述测试集中,联合交叉熵损失不大于预设的联合交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
依次将本轮各个所述样本用户的联合交叉熵损失,与前一轮对应样本用户的联合交叉熵损失进行比对;若本轮所述样本用户的联合交叉熵损失大于前一轮对应样本用户的联合交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型。
在一种可选的实施方式中,所述根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数,包括:
针对所述目标样本用户为第一目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第一调整步长调整所述目标神经网络模型的参数;
针对所述目标样本用户为第二目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第二调整步长调整所述目标神经网络模型的参数;
其中所述第一调整步长大于所述第二调整步长。
第二方面,本申请实施例提供了一种银行欺诈识别方法,包括:
当待检测用户基于目标业务渠道发生操作行为时,获取该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息;
根据该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息,确定该待检测用户在所述目标业务渠道下,与所述目标业务渠道下的多种操作行为一一对应的特征向量;
将所述目标业务渠道下的多种操作行为一一对应的特征向量,输入至通过第一方面任意一项所述的银行欺诈识别模型训练方法训练得到的银行欺诈识别模型中,获取所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
在一种可选的实施方式中,还包括:将所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率与预设的欺诈行为概率阈值进行比对;
若所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率大于预设的所述欺诈行为概率阈值,则对用户的当前操作行为执行拦截操作。
第三方面,本申请实施例提供了一种银行欺诈识别模型训练装置,包括:
第一获取模块,用于获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息;多个所述业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;
第一确定模块,用于根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量;
欺诈识别结果获取模块,用于将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果;
训练模块,用于根据每个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型。
在一种可选的实施方式中,所述样本用户包括:第一样本用户以及第二样本用户;
所述第一获取模块,用于采用下述方式获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息:
获取多个第一样本用户中每个第一样本用户在第一历史时间段内使用所述目标业务渠道进行业务操作的历史操作信息,以及每个所述第一样本用户在第二历史时间段基于所述目标业务渠道是否发生欺诈行为的标注信息;以及,
获取多个所述第二样本用户中每个第二样本用户在第一历史时间段内基于其中一个所述辅助业务渠道进行业务操作的历史操作信息,以及每个所述第二样本用户在第二历史时间段在其所使用的所述辅助业务渠道是否发生欺诈行为的标注信息。
在一种可选的实施方式中,所述特征向量包括源域特征向量以及目标域特征向量;多种操作行为包括:多种基础操作行为以及多种业务操作行为;
所述第一确定模块,用于采用下述方式确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为分别对应的特征向量:
针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量;
针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
在一种可选的实施方式中,所述第一确定模块,具体用于采用下述方式构建源域特征向量:
针对每个所述第一样本用户,根据该第一样本用户在所述目标业务渠道下的历史操作信息,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量。
在一种可选的实施方式中,所述第一确定模块,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量之前,还用于:
对该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
在一种可选的实施方式中,所述第一确定模块,具体用于采用下述方式构建目标域特征向量:
针对每个所述第二样本用户,根据该第二样本用户在其使用的所述辅助业务渠道下的历史操作信息,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
在一种可选的实施方式中,所述第一确定模块,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量之前,还用于:
对该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
在一种可选的实施方式中,所述目标神经网络包括:主融合神经网络、分类器,所述基础操作行为对应的第一辅助融合神经网络,以及所述业务操作行为对应的第二辅助融合神经网络;
所述欺诈识别结果获取模块,用于采用下述方式获取该样本用户在其所使用的业务渠道的欺诈识别结果:
针对该样本用户为第一样本用户的情况,使用所述第一辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种基础操作行为分别对应的源域特征向量进行特征融合,获取该第一样本用户对应的第一源域融合特征向量;
使用所述第二辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种所述业务操作行为分别对应的所述源域特征向量进行特征融合,获取该第一样本用户对应的第二源域融合特征向量;
使用所述主融合神经网络对所述第一源域融合特征向量和所述第二源域融合特征向量进行特征融合,获取该第一样本用户的目标特征向量;
将该第一样本用户的目标特征向量输入至所述分类器,获取该第一样本用户在所述目标业务渠道的欺诈识别结果;
针对该样本用户为第二样本用户的情况,使用第一辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述基础操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第一目标域融合特征向量;
使用所述第二辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述业务操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第二目标域融合特征向量;
使用所述主融合神经网络对所述第一目标域融合特征向量和所述第二目标域融合特征向量进行特征融合,获取该第二样本用户的目标特征向量;
将该第二样本用户的目标特征向量输入至所述分类器,获取该第二样本用户在该辅助业务渠道的欺诈识别结果。
在一种可选的实施方式中,所述训练模块,用于采用下述方式根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型:
根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行本轮训练;
将经过多轮训练后的所述目标神经网络模型作为所述银行欺诈识别模型。
在一种可选的实施方式中,所述训练模块,用于采用下述方式根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还未完成训练的样本用户中任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户在其所使用的业务渠道的欺诈识别结果,并重新返回根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述银行欺诈识别模型。
在一种可选的实施方式中,所述训练模块,还用于在完成对所述目标神经网络模型的本轮训练后:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
使用测试集对本轮得到的目标神经网络模型进行验证;若所述测试集中,联合交叉熵损失不大于预设的联合交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
依次将本轮各个所述样本用户的联合交叉熵损失,与前一轮对应样本用户的联合交叉熵损失进行比对;若本轮所述样本用户的联合交叉熵损失大于前一轮对应样本用户的联合交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型。
在一种可选的实施方式中,所述训练模块,用于采用下述方式调整所述目标神经网络模型的参数:
针对所述目标样本用户为第一目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第一调整步长调整所述目标神经网络模型的参数;
针对所述目标样本用户为第二目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第二调整步长调整所述目标神经网络模型的参数;
其中所述第一调整步长大于所述第二调整步长。
第四方面,本申请实施例提供了一种银行欺诈识别装置,包括:
第二获取模块,用于当待检测用户基于目标业务渠道发生操作行为时,获取该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息;
第二确定模块,用于根据该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息,确定该待检测用户在所述目标业务渠道下,与所述目标业务渠道下的多种操作行为一一对应的特征向量;
银行欺诈识别模块,用于将所述目标业务渠道下的多种操作行为一一对应的特征向量,输入至通过第一方面任意一项所述的银行欺诈识别模型训练方法训练得到的银行欺诈识别模型中,获取所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
在一种可选的实施方式中,还包括:检测模块,用于将所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率与预设的欺诈行为概率阈值进行比对;
若所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率大于预设的所述欺诈行为概率阈值,则对用户的当前操作行为执行拦截操作。
第五方面,本申请实施例提供了一种反欺诈系统,包括:
定时器、如第三方面任意一项所述的银行欺诈识别模型训练装置、以及如第四方面任意一项所述的银行欺诈识别装置;
所述定时器、所述银行欺诈识别模型训练装置、以及所述银行欺诈识别装置依次连接;
所述银行欺诈识别模型训练装置,用于获取银行欺诈识别模型;
所述定时器,用于定期触发所述银行欺诈识别模型训练装置进行定时重新获取新的银行欺诈识别模型;
所述银行欺诈识别装置,用于根据所述银行欺诈识别模型训练装置获取的所述银行欺诈识别模型,获取待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
第六方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面任一所述的银行欺诈识别模型训练方法的步骤。
第七方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面任意一项所述的银行欺诈识别模型训练方法的步骤。
第八方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第二方面任一所述的银行欺诈识别方法的步骤。
第九方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第二方面任意一项所述的银行欺诈识别方法的步骤。
本申请实施例提供的一种银行欺诈识别模型训练方法、装置以及银行欺诈识别方法和装置,基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种银行欺诈识别模型训练方法的流程图;
图2示出了本申请实施例所提供的银行欺诈识别模型训练方法中,获取历史操作信息和标注信息的流程图;
图3示出了本申请实施例所提供的银行欺诈识别模型训练方法中,构建源域特征向量的流程图;
图4示出了本申请实施例所提供的银行欺诈识别模型训练方法中,构建目标域特征向量的流程图;
图5示出了本申请实施例所提供的特征融过程的示意图;
图6示出了本申请实施例所提供的银行欺诈识别模型训练方法中,获取第一样本用户的欺诈识别结果的流程图;
图7示出了本申请实施例所提供的银行欺诈识别模型训练方法中,获取第二样本用户的银行欺诈识别模型的流程图;
图8示出了本申请实施例所提供的银行欺诈识别模型训练方法中,获取银行欺诈识别模型的流程图;
图9示出了本申请实施例所提供的银行欺诈识别模型训练方法中,另一个获取银行欺诈识别模型的流程图;
图10示出了本申请实施例所提供的银行欺诈识别方法的流程图;
图11示出了本申请实施例所提供的银行欺诈识别方法中,对得到的欺诈行为的概率进行检测的流程图;
图12示出了本申请实施例所提供的银行欺诈识别模型训练装置的结构示意图;
图13示出了本申请实施例所提供的银行欺诈识别装置的结构示意图;
图14示出了本申请实施例所提供的反欺诈系统的结构示意图;
图15示出了本申请实施例所提供的反欺诈系统的使用原理的示例图;
图16示出了本申请实施例所提供的一种计算机设备的结构示意图;
图17示出了本申请实施例所提供的另一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前业内的电子银行反欺诈系统防控策略一般基于专家规则的方法,简称专家法,结合专家的理论和经验事先设定好风控规则,对借款人多维度的信息进行加权计算,进一步得出借款人是否存在欺诈风险的分数或概率,从而实现对业务活动或交易过程中的风险事件进行筛选、甄别和管理,按照预先设定好的分值处置策略进行干预操作,平台根据经营状况和相关部门的反馈,定期进行指标权重的调整,以此提高规则模型的性能。
专家规则的方法由于是建立在业务专家根据行业经验制定的基础之上,因此具有较强的人为主观性和局限性,同时银行又具有多种渠道的业务场景,比方说:手机银行渠道、网上银行渠道、直销银行渠道等,而每一种银行渠道之下又对应了各种各样复杂的业务操作,每一种业务操作流程又对应了各式各样的业务步骤。单纯的专家经验是很难针对每一个渠道,每一个业务,每一个步骤都设计出合理的规则和阈值,故单纯的专家经验是很难适应这些场景的,纯粹依靠专家规则对欺诈用户的识别有一定挑战,导致目前业内的手机银行反欺诈系统防控策略存在对欺诈行为检测的准确率低的问题。
基于此,本申请提供的一种银行欺诈识别模型训练方法、装置以及银行欺诈识别方法和装置,能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种银行欺诈识别模型训练方法进行详细介绍。通过该银行欺诈模型训练方法得到银行欺诈检测模型,用于对使用电子银行进行操作的行为是否处于欺诈行为进行检测。
参见图1所示,本申请实施例所提供的银行欺诈识别模型训练方法包括S101~S104:
S101:获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在其使用的业务渠道是否发生欺诈行为的标注信息。
其中,多个业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道。
在具体实现的时候,在获取样本用户的历史操作信息时,是以业务渠道为基础进行采集的。
在本申请实施例中判断一个样本用户是否发生欺诈行为的时候,需要根据该样本用户在一段时间内的操作信息进行综合判断,并不能只单纯通过一次操作信息进行判断,而是否发生欺诈行为的结果往往需要在样本用户在操作完成一段时间之后才能获知,例如判断一段时间之后是否出现了受害者。因此需要获取每个样本用户在第一历史时间段内使用某个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在其所使用的业务渠道是否发生欺诈行为的标注信息。
通过本申请实施例提供的银行欺诈识别模型训练方法获得的银行欺诈识别模型,只用于识别使用目标业务渠道进行业务操作的用户的行为是否属于欺诈行为。业务渠道至少包括直销银行、微信银行、快捷支付、手机银行、网络银行等等。其中,任意一个业务渠道都可以作为目标业务渠道,其他的业务渠道为该目标业务渠道的辅助业务渠道,也即,针对一种目标业务渠道,通过该目标业务渠道的历史操作信息以及其他辅助业务渠道的历史操作信息,训练出针对该目标业务渠道的银行欺诈识别模型。
在本申请实施例中,使用目标业务渠道进行操作的样本用户为第一样本用户;使用辅助业务渠道进行操作的样本用户为第二样本用户。其中,第一样本用户和第二样本用户均为多个;第一样本用户和第二样本用户可以全部相同、部分相同,也可以均不相同;使用不同辅助业务渠道进行操作的第二样本用户也全部相同、部分相同,或者均不相同。
参见图2所示,本申请实施例还提供一种获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息的具体方法,该方法包括:
S201:获取多个第一样本用户中每个第一样本用户在第一历史时间段内使用所述目标业务渠道进行业务操作的历史操作信息,以及每个所述第一样本用户在第二历史时间段基于所述目标业务渠道是否发生欺诈行为的标注信息。
S202:获取多个所述第二样本用户中每个第二样本用户在第一历史时间段内基于其使用的所述辅助业务渠道进行业务操作的历史操作信息,以及每个所述第二样本用户在第二历史时间段在其所使用的所述辅助业务渠道是否发生欺诈行为的标注信息。
此处,S201和S202无执行的先后顺序。
通过步骤S101获取了历史操作信息和标注信息后,执行步骤S102,确定每种业务渠道下的多种操作行为分别对应的特征向量。
S102:针对每个样本用户,根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量。
在具体实现的时候,特征向量包括源域特征向量以及目标域特征向量;多种操作行为包括:多种基础操作行为以及多种业务操作行为。
其中,源域特征向量为目标业务渠道对应的第一样本用户的特征向量;目标域特征向量为使用各个辅助业务渠道进行操作的各个第二样本用户的特征向量。
基础操作一般是指用户在使用某个业务渠道进行金融操作的时候,是需要执行的基本行为,例如注册和登录均为基础操作;在任何银行业务渠道的任何业务操作流程都一定会包含这两个操作,这两个操作可以看成是其他操作的基础和前提,因此这两个行为作为基础操作行为;业务操作一般是指用户在使用某个业务渠道进行具体金融操作的行为,如转账、修改转账限额、缴费、取现、输入密码等,业务操作根据不同银行业务渠道中不同用户的请求,可能会有不同的业务逻辑和操作特征,直接反应出了用户操作请求的目的。
上述S102中所指多种操作行为,从种类上讲,包括基础操作行为和业务操作行为;基础操作行为,根据行为的具体内容可以有多种,例如注册和登陆是两种不同的基础操作行为;业务操作行为,也可以根据不同的业务划分为多种业务操作行为,例如转账和缴费是两种不同的业务操作行为。
其中,为每个样本用户确定的多种操作行为分别对应的特征向量,包括:针对基础操作行为的特征向量,以及针对每一种业务操作行为对应的特征向量。
例如,样本用户A在使用网上银行进行了登陆操作、转账操作以及缴费操作,其中,注册登陆操作为基础操作行为,转账操作行为和缴费操作行为均为业务操作行为,因此为该样本用户A所生成分的特征向量包括:对应登陆操作的特征向量、对应转账操作的特征向量以及对应缴费操作的特征向量。
针对使用目标业务渠道和辅助业务渠道进行业务的不同样本用户,可以采用下述方式获得每个样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量:
A:针对第一样本用户,可以采用下述方式获取每个第一样本用户的源域特征向量:
针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量。
具体地,参见图3所示,可以采用下述步骤获取每个第一样本用户在目标业务渠道下的多种操作行为分别对应的特征向量:
S301:针对每个所述第一样本用户,根据该第一样本用户在所述目标业务渠道下的历史操作信息,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值。
S302:根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量。
此处,每种基础操作行为都对应有至少一个预设操作行为特征,且不同的基础操作行为对应的预设操作行为特征可以不同。
例如,当基础操作行为包括:注册行为,与注册行为对应的多个预设操作行为特征包括:设备注册时是否被篡改、1天内设备注册账号的数量、7天内设备注册账号的数量、1天内同一设备注册使用手机号的数量、7天内同一设备注册使用手机号的数量、1天内同一手机号尝试注册的次数、1天内同一个注册手机号使用IP地址的数量、7天内同一个注册手机号使用IP地址的数量、1天内同一个IP地址注册账号的数量、7天内同一个IP地址注册账号的数量。
当基础操作行为包括:登陆行为,与登陆行为对应的多个预设操作行为特征包括:是否在非常用设备登录、是否在非常用IP登录、1天内同一设备登录账号数量、7天内同一设备登录账户数量、1天内同一IP登录账号数量、7天内同一IP登录账号数量、1天内同一IP登录设备数量、7天内同一IP登录设备数量、1天内同一账号登录IP数量、7天内同一账号登录IP数量、1天内同一个账号登录IP数量、7天内同一个账号登录IP数量。
所生成的某种操作行为对应的特征向量中的各个元素的值,即为第一样本用户在目标业务渠道下的该种操作行为对应的至少一个预设操作行为特征下的特征值。
B:针对第二样本用户,可以采用下述方式获取每个第二样本用户的目标域特征向量:
针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
具体地,参见图4所示,可以采用下述步骤获取每个第二样本用户在其所使用的辅助业务渠道下的多种操作行为分别对应的特征向量:
S401:针对每个所述第二样本用户,根据该第二样本用户在其使用的所述辅助业务渠道下的历史操作信息,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
S402:根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
此处,每种业务操作行为也都对应有至少一个预设操作行为特征,且不同的业务操作行为对应的预设操作行为特征也可以不同。
例如,当业务操作行为包括:转账行为,与转账行为对应的多个预设操作行为特征包括:收款账户是否在黑名单、是否在敏感时间转账、账户当前转账金额占6个月全部转账金额的百分比、1小时内同一账户转账次数、单笔转账金额是否大于10万、1天内账户累计转账金额、1天内账户交易密码错误次数、用户向个人账户转账次数。
当业务操作行为包括:缴费行为,与缴费行为对应的多个预设操作行为特征包括:缴费账户是否在黑名单、是否三个月内未登录且在敏感时间段进行缴费、1天内的缴费次数、7天内的缴费次数、1天内同一用户缴费金额、7天内同一用户缴费金额、1天内,用户输入支付密码错误次数。
当业务操作行为包括:修改转账限额行为时,与修改转账限额行为对应的多个预设操作行为特征包括:1天内已经修改转账限额次数、7天内修改转账限额次数、是否敏感时间修改转账限额、1天内修改转账限额的额度、7天内修改转账限额的额度、修改后的额度是否高于修改前的额度、修改后提升额度占修改之前额度的百分比。
此处,需要注意的是,各个业务渠道下的每种基础操作行为和每种业务操作行为分别对应了至少一个预设操作行为特征,对于数值特征则直接使用其对应的数值表示,而对于类别特征则使用热独(one-hot)的编码方式,即每一个预设操作行为特征对应一个0、1组成的向量,该预设操作行为特征取不同值的时候,这个向量对应的位置取1,其他部分则全部置0。例如预设操作行为特征“设备注册时是否被篡改”包括了两类,分别为“被篡改”和“未被篡改”,则该预设操作行为特征“设备注册时是否被篡改”使用两位的热独编码方式,假设“被篡改”为“10”,“未被篡改”则为“01”。
在本申请另一实施例中,在构成源域特征向量和目标域特征向量之前,还可以对第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,和/或,第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:数据清洗处理、数据增强处理以及特征筛选与标准化处理。
(1)数据清洗处理:
在针对每个样本用户,根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量的时候,因为数据在采集和传输的过程中可能出现错误与丢失,因此需要清除特征分布异常数据和对有缺失值的特征数据进行填充处理。在清除异常数据部分使用的算法是孤立森林(IForest)模型,该模型是由一棵棵随机的决策树组成,每一棵决策树在分裂叶子节点的时候都是从所有特征集合中随机的挑选目标特征并随机的选取目标特征中的阈值进行节点的分类操作。当生成一棵树之后,每一个原始数据样本都会唯一对应树中的一个叶子节点,而往往异常样本所对应的叶子节点的层数更高。在对有缺失值特征数据处理的时候,对于缺失的类别特征,直接填充在样本集中出现次数最多的类别;对于缺失的数值特征,直接填充该维特征在样本集中出现的平均值。
(2)数据增强处理;
如果经过清洗的数据中的正负样本很不均衡,例如正常用户行为数量远大于欺诈用户的行为数量,不均衡的样本会给模型的训练带来很大的困难。在本阶段采用合成少数类过采样技术(Synthetic Minority Oversampling Technique,Smote)数据增强算法对欺诈用户行为数据进行扩充处理,该算法将所有的欺诈用户映射到特征空间中去,则每个欺诈用户都会对应于该空间中的一个点,每次任意两个欺诈用户对应点连线中的一个点作为新生成的欺诈用户数据点,反复进行上述操作则可以生成任意数量的欺诈用户数据点,最后控制生成的欺诈用户数据量和正常用户数据量达到预设比值,例如控制生成的欺诈用户数据量和正常用户数据量之间的比例在1:3到1:4之间。
(3)特征筛选与标准化处理。
特征筛选的目的是为了进行特征的降维,把重要程度较低的特征去掉将有利于模型训练速度的提升和模型识别准确率的提高,该模块中采用的降维方式是主成分分析(Principal Component Analysis,PCA),即对原始的特征进行线性转换,将原始的高维特征映射到低维的特征,使转换之后的特征之间的相关度更低,更能反映出目标数据的本质信息。特征标准化的目的是把各个维度的特征数值都映射到一个相同的范围,这样做能够消除不同特征之间的量纲影响,能更加有利于模型的训练,该模块采用的方式是(0,1)标准化,即将所有的特征数据都转化成均值为0方差为1的标准数据。
通过上述步骤得到最终的源域特征向量以及目标域特征向量后,本申请实施例提供的银行欺诈识别模型训练方法还包括下述S103和S104:
S103:将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果。
其中,参见图5所示,目标神经网络包括:主融合神经网络、分类器,所述基础操作行为对应的第一辅助融合神经网络,以及所述业务操作行为对应的第二辅助融合神经网络。
此处,当确定每个样本用户在其所使用的业务渠道下,与其所使用的业务渠道下的多种操作行为分别对应的特征向量后,通过构建多层神经网络来对提取的特征向量进行特征向量的非线性变化,挖掘出特征向量之间复杂的非线性关系,对特征向量进行特征融合,使用融合的特征向量对模型进行训练,能够使得到的模型具有更高的识别效果。
此处,本申请实施例使用分级融合的方法进行特征融合,参见图5所示,即先使用第一辅助融合神经网络对多种基础操作行为分别对应的特征向量进行特征融合,然后使用第二辅助融合神经网络对多种业务操作行为分别对应的特征向量进行特征融合,最后使用主融合神经网络上述两个融合特征进行特征融合。
可选地,神经网络进行特征融合的时候,神经元所使用的激活函数可以为ReLU激活函数、tanh激活函数等,第一辅助融合神经网络和第二辅助融合神经网络的神经元数量可以设为22或其他个数,主融合神经网络的神经元数量可以设为128或其他个数。
具体实现的时候,参见图6所示,本申请实施例基于下述方式获取各个第一样本用户其所使用的目标业务渠道的欺诈识别结果:
S601:针对该样本用户为第一样本用户的情况,使用所述第一辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种基础操作行为分别对应的源域特征向量进行特征融合,获取该第一样本用户对应的第一源域融合特征向量;
S602:使用所述第二辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种所述业务操作行为分别对应的所述源域特征向量进行特征融合,获取该第一样本用户对应的第二源域融合特征向量;
S603:使用所述主融合神经网络对所述第一源域融合特征向量和所述第二源域融合特征向量进行特征融合,获取该第一样本用户的目标特征向量;
S604:将该第一样本用户的目标特征向量输入至所述分类器,获取该第一样本用户在所述目标业务渠道的欺诈识别结果。
参见图7所示,本申请实施例基于下述方式获取各个第二样本用户其所使用的辅助业务渠道的欺诈识别结果:
S701:针对该样本用户为第二样本用户的情况,使用第一辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述基础操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第一目标域融合特征向量;
S702:使用所述第二辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述业务操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第二目标域融合特征向量;
S703:使用所述主融合神经网络对所述第一目标域融合特征向量和所述第二目标域融合特征向量进行特征融合,获取该第二样本用户的目标特征向量;
S704:将该第二样本用户的目标特征向量输入至所述分类器,获取该第二样本用户在该辅助业务渠道的欺诈识别结果。
可选地,分类器可以为softmax分类器,softmax分类器的神经元激活函数可以为Sigmoid激活函数,如公式(1)所示:
公式(1):
Figure GDA0002366687130000291
其中,xi为所述目标特征向量中的第i个元素。通过公式(1)可以得到一个0到1之间的概率值,通过这个概率值得到欺诈识别结果。例如越接近于1的概率值的欺诈识别结果为欺诈,越接近0的概率值的欺诈识别结果为正常。
获取该样本用户在各个业务渠道的欺诈识别结果后,执行步骤S104,获取银行欺诈识别模型。
S104:根据每个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型。
具体实现的时候,参见图8所示,本申请实施例基于下述方式获取银行欺诈识别模型:
S801:根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行本轮训练;
S802:将经过多轮训练后的所述目标神经网络模型作为所述银行欺诈识别模型。
具体实现的时候,参见图9所示,本申请实施例具体基于下述方式获取银行欺诈识别模型:
S901:将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户。
S902:根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失。
具体实现的时候,根据该目标样本用户在目标业务渠道的欺诈识别结果,以及该样本用户在目标业务渠道是否发生欺诈行为的标注信息,获得目标样本用户在本轮的目标业务渠道的交叉熵损失,并根据该目标样本用户在目标业务渠道的欺诈识别结果,获得目标样本用户在本轮的交叉熵损失。
交叉熵损失越大,则意味这当前的神经网络模型针对当前样本用户是否为欺诈用户的检测结果越不准确。反之,交叉熵损失越小,则意味着当前的神经网络模型针对当前样本用户是否为欺诈用的检测结果越准确。
S903:根据目标样本用户在本轮的交叉熵损失,调整目标神经网络模型的参数。
具体实现的时候,通过目标样本用户在本轮的目标业务渠道的交叉熵损失,调整目标神经网络模型的参数,并且同时通过目标样本用户在本轮的至少一个辅助业务渠道的进行预设缩减比例缩减的交叉熵损失,辅助调整目标神经网络模型的参数。例如,预设缩减比例可以为0.2、0.3等。
另外,在基于交叉熵损失调整目标神经网络模型的参时,还可以采用下述方式:
针对所述目标样本用户为第一目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第一调整步长调整所述目标神经网络模型的参数;
针对所述目标样本用户为第二目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第二调整步长调整所述目标神经网络模型的参数;
其中所述第一调整步长大于所述第二调整步长。
这里需要注意的是,在不同轮的训练中的第一调整步长可以相同,也可以不同;在不同轮的训练中第二调整步长可以相同也可以不同。
这样进行调整参数的有益效果是,既能保证目标业务渠道的交叉熵损失对模型参数进行调整的主要影响因素,又能通过辅助业务渠道的交叉熵损失作为辅助影响因素对模型参数调整产生一定的影响。这样训练出来的模型同时受到了多个业务渠道的数据的影响,也即进行了迁移学习。
S904:将目标样本用户作为完成训练的样本用户。
S905:检测当前轮是否还存在未完成训练的样本用户;如果是,则跳转至S906;如果否,则跳转至S908。
S906:将当前轮还未完成训练的样本用户中任意一个样本用户作为新的目标样本用户。
S907:使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户在其所使用的业务渠道的欺诈识别结果,并重新返回S802。
S908:完成对所述目标神经网络模型的本轮训练。
经过对目标神经网络模型的多轮训练,获取银行欺诈识别模型。
在完成对目标神经网络模型的本轮训练后,本申请实施例通过下述三种方式获取银行欺诈识别模型:
方式一:检测本轮是否达到预设轮数;如果是,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为银行欺诈识别模型。
具体实现的时候,在模型训练时,会预先设置一个训练的预设轮数,如果检测到本轮达到预设轮数,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为银行欺诈识别模型。
方式二:使用测试集对本轮得到的目标神经网络模型进行验证;若测试集中,联合交叉熵损失不大于预设的联合交叉熵损失阈值的测试数据的条数,占据测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为银行欺诈识别模型。
其中,联合交叉熵通过公式(2)计算得到:
公式(2):L联合=L1+γ1L2+γ2L3+…+γnLn+1
其中:L联合为联合交叉熵,L1为测试集中的测试样本用户在目标业务渠道的交叉熵损失,L2、L3、…、Ln+1为测试集中的测试样本用户在n个辅助业务渠道的交叉熵损失,γ1、γ2、…、γn为n个辅助业务渠道的交叉熵损失一一对应的预设缩减比例。
可选地,例如预设的第一百分比阈值可以为90%、91%、88%等百分比。
方式三:依次将本轮各个样本用户的联合交叉熵损失,与前一轮对应样本用户的联合交叉熵损失进行比对;若本轮样本用户的联合交叉熵损失大于前一轮对应样本用户的联合交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对目标神经网络模型的训练,并将上一轮训练得到的目标神经网络模型作为银行欺诈识别模型。
此处,训练的过程是将联合交叉熵不断减小的过程,但过多的训练次数可能会导致联合交叉熵不减反升,因此可以选取联合交叉熵最小的本轮训练得到的模型作为银行欺诈识别模型。
可选地,例如预设的第二百分比阈值可以为10%、5%、8%等百分比。
本申请实施例提供的一种银行欺诈识别模型训练方法,在银行欺诈识别模型训练的时候,通过获取多个样本用户在第一历史时间段内基于多个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在各个业务渠道是否发生欺诈行为的标注信息;多个业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;针对每个样本用户,根据该样本用户在第一历史时间段内的历史操作信息,确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为一一对应的特征向量;将该样本用户在每种业务渠道下,与该业务渠道的多种操作行为分别对应的特征向量输入至预先构建的目标神经网络模型中进行迁移学习,获取该样本用户在各个业务渠道的欺诈识别结果;根据各个样本用户在各个业务渠道的欺诈识别结果,以及该样本用户在各个业务渠道是否发生欺诈行为的标注信息,对目标神经网络模型进行训练,获取银行欺诈识别模型。本申请能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
参见图10所示,本申请实施例还提供一种银行欺诈识别方法包括:
S1001:当待检测用户基于目标业务渠道发生操作行为时,获取该待检测用户在第三历史时间段内基于目标业务渠道进行业务操作的操作行为信息。
S1002:根据该待检测用户在第三历史时间段内基于目标业务渠道进行业务操作的操作行为信息,确定该待检测用户在目标业务渠道下,与目标业务渠道下的多种操作行为一一对应的特征向量。
具体实现的时候,参考本申请中步骤S102中的方法,确定该待检测用户在目标业务渠道下,与目标业务渠道下的多种操作行为一一对应的特征向量。
S1003:将目标业务渠道下的多种操作行为一一对应的特征向量,输入至本申请提供的银行欺诈识别模型训练方法训练得到的银行欺诈识别模型中,获取待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
参见图11所示,本申请实施例提供一种银行欺诈识别方法中,通过下述方式对得到的欺诈行为的概率进行检测:
S1101:将待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率与预设的欺诈行为概率阈值进行比对。
此处,欺诈行为的概率越接近于1,表示为欺诈行为的可能性越大;欺诈行为的概率越接近于0,表示为欺诈行为的可能性越小。例如,预设的欺诈行为概率阈值可以设为0.7、0.8等。
S1102:若待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率大于预设的欺诈行为概率阈值,则对用户的当前操作行为执行拦截操作。
本申请实施例提供的一种银行欺诈识别方法,在银行欺诈识别模型训练的时候,通过获取多个样本用户在第一历史时间段内基于多个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在各个业务渠道是否发生欺诈行为的标注信息;多个业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;针对每个样本用户,根据该样本用户在第一历史时间段内的历史操作信息,确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为一一对应的特征向量;将该样本用户在每种业务渠道下,与该业务渠道的多种操作行为分别对应的特征向量输入至预先构建的目标神经网络模型中进行迁移学习,获取该样本用户在各个业务渠道的欺诈识别结果;根据各个样本用户在各个业务渠道的欺诈识别结果,以及该样本用户在各个业务渠道是否发生欺诈行为的标注信息,对目标神经网络模型进行训练,获取银行欺诈识别模型。本申请能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
基于同一发明构思,本申请实施例中还提供了与银行欺诈识别模型训练方法对应的银行欺诈识别模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述银行欺诈识别模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图12所示,本申请实施例所提供的银行欺诈识别模型训练装置,包括:
第一获取模块121,用于获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息;多个所述业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;
第一确定模块122,用于根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量;
欺诈识别结果获取模块123用于将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果;
训练模块124,用于根据每个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型。
可选地,所述样本用户包括:第一样本用户以及第二样本用户;
第一获取模块121,用于采用下述方式获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息:
获取多个第一样本用户中每个第一样本用户在第一历史时间段内使用所述目标业务渠道进行业务操作的历史操作信息,以及每个所述第一样本用户在第二历史时间段基于所述目标业务渠道是否发生欺诈行为的标注信息;以及,
获取多个所述第二样本用户中每个第二样本用户在第一历史时间段内基于其中一个所述辅助业务渠道进行业务操作的历史操作信息,以及每个所述第二样本用户在第二历史时间段在其所使用的所述辅助业务渠道是否发生欺诈行为的标注信息。
可选地,所述特征向量包括源域特征向量以及目标域特征向量;多种操作行为包括:多种基础操作行为以及多种业务操作行为;
第一确定模块122,用于采用下述方式确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为分别对应的特征向量:
针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量;
针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
可选地,第一确定模块122,具体用于采用下述方式构建源域特征向量:
针对每个所述第一样本用户,根据该第一样本用户在所述目标业务渠道下的历史操作信息,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量。
可选地,第一确定模块122,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量之前,还用于:
对该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
可选地,第一确定模块122,具体用于采用下述方式构建目标域特征向量:
针对每个所述第二样本用户,根据该第二样本用户在其使用的所述辅助业务渠道下的历史操作信息,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
可选地,第一确定模块122,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量之前,还用于:
对该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
可选地,目标神经网络包括:主融合神经网络、分类器,以及基础操作行为对应的第一辅助融合神经网络,以及业务操作行为对应的第二辅助融合神经网络;
欺诈识别结果获取模块123,用于采用下述方式获取该样本用户在各个业务渠道的欺诈识别结果:
用于采用下述方式获取该样本用户在其所使用的业务渠道的欺诈识别结果:
针对该样本用户为第一样本用户的情况,使用所述第一辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种基础操作行为分别对应的源域特征向量进行特征融合,获取该第一样本用户对应的第一源域融合特征向量;
使用所述第二辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种所述业务操作行为分别对应的所述源域特征向量进行特征融合,获取该第一样本用户对应的第二源域融合特征向量;
使用所述主融合神经网络对所述第一源域融合特征向量和所述第二源域融合特征向量进行特征融合,获取该第一样本用户的目标特征向量;
将该第一样本用户的目标特征向量输入至所述分类器,获取该第一样本用户在所述目标业务渠道的欺诈识别结果;
针对该样本用户为第二样本用户的情况,使用第一辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述基础操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第一目标域融合特征向量;
使用所述第二辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述业务操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第二目标域融合特征向量;
使用所述主融合神经网络对所述第一目标域融合特征向量和所述第二目标域融合特征向量进行特征融合,获取该第二样本用户的目标特征向量;
将该第二样本用户的目标特征向量输入至所述分类器,获取该第二样本用户在该辅助业务渠道的欺诈识别结果。
可选地,训练模块124,用于采用下述方式根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型:
根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行本轮训练;
将经过多轮训练后的所述目标神经网络模型作为所述银行欺诈识别模型。
可选地,训练模块124,用于采用下述方式根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还未完成训练的样本用户中任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户在其所使用的业务渠道的欺诈识别结果,并重新返回根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述银行欺诈识别模型。
可选地,训练模块124,还用于在完成对目标神经网络模型的本轮训练后:
检测本轮是否达到预设轮数;如果是,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为银行欺诈识别模型;
或者,
使用测试集对本轮得到的目标神经网络模型进行验证;若测试集中,联合交叉熵损失不大于预设的联合交叉熵损失阈值的测试数据的条数,占据测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为银行欺诈识别模型;
或者,
依次将本轮各个样本用户的联合交叉熵损失,与前一轮对应样本用户的联合交叉熵损失进行比对;若本轮样本用户的联合交叉熵损失大于前一轮对应样本用户的联合交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对目标神经网络模型的训练,并将上一轮训练得到的目标神经网络模型作为银行欺诈识别模型。
可选地,所述训练模块121,用于采用下述方式调整所述目标神经网络模型的参数:
针对所述目标样本用户为第一目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第一调整步长调整所述目标神经网络模型的参数;
针对所述目标样本用户为第二目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第二调整步长调整所述目标神经网络模型的参数;
其中所述第一调整步长大于所述第二调整步长。
本申请实施例提供的一种银行欺诈识别模型训练装置,在银行欺诈识别模型训练的时候,通过获取多个样本用户在第一历史时间段内基于多个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在各个业务渠道是否发生欺诈行为的标注信息;多个业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;针对每个样本用户,根据该样本用户在第一历史时间段内的历史操作信息,确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为一一对应的特征向量;将该样本用户在每种业务渠道下,与该业务渠道的多种操作行为分别对应的特征向量输入至预先构建的目标神经网络模型中进行迁移学习,获取该样本用户在各个业务渠道的欺诈识别结果;根据各个样本用户在各个业务渠道的欺诈识别结果,以及该样本用户在各个业务渠道是否发生欺诈行为的标注信息,对目标神经网络模型进行训练,获取银行欺诈识别模型。本申请能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
基于同一发明构思,本申请实施例中还提供了与银行欺诈识别方法对应的银行欺诈识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述银行欺诈识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图13所示,本申请实施例所提供的银行欺诈识别装置,包括:
第二获取模块131,用于当待检测用户基于目标业务渠道发生操作行为时,获取该待检测用户在第三历史时间段内基于目标业务渠道进行业务操作的操作行为信息;
第二确定模块132,用于根据该待检测用户在第三历史时间段内基于目标业务渠道进行业务操作的操作行为信息,确定该待检测用户在目标业务渠道下,与目标业务渠道下的多种操作行为一一对应的特征向量;
银行欺诈识别模块133,用于将目标业务渠道下的多种操作行为一一对应的特征向量,输入至本申请提供的银行欺诈识别模型训练方法训练得到的银行欺诈识别模型中,获取待检测用户在基于目标业务渠道发生的操作行为为欺诈行为的概率。
可选地,本申请实施例所提供的银行欺诈识别装置,还包括:检测模块134;
可选地,检测模块134,用于将待检测用户在基于目标业务渠道发生的操作行为为欺诈行为的概率与预设的欺诈行为概率阈值进行比对;
若待检测用户在基于目标业务渠道发生的操作行为为欺诈行为的概率大于预设的欺诈行为概率阈值,则对用户的当前操作行为执行拦截操作。
本申请实施例提供的一种银行欺诈识别装置,在银行欺诈识别模型训练的时候,通过获取多个样本用户在第一历史时间段内基于多个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在各个业务渠道是否发生欺诈行为的标注信息;多个业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;针对每个样本用户,根据该样本用户在第一历史时间段内的历史操作信息,确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为一一对应的特征向量;将该样本用户在每种业务渠道下,与该业务渠道的多种操作行为分别对应的特征向量输入至预先构建的目标神经网络模型中进行迁移学习,获取该样本用户在各个业务渠道的欺诈识别结果;根据各个样本用户在各个业务渠道的欺诈识别结果,以及该样本用户在各个业务渠道是否发生欺诈行为的标注信息,对目标神经网络模型进行训练,获取银行欺诈识别模型。本申请能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
参见图14所示,本申请实施例还提供了一种反欺诈系统,包括:
定时器141、本申请提供的银行欺诈识别模型训练装置142、以及本申请提供的银行欺诈识别装置143;
定时器141、银行欺诈识别模型训练装置142、以及银行欺诈识别装置143依次连接;
可选地,银行欺诈识别模型训练装置142,用于获取银行欺诈识别模型;
可选地,定时器141,用于定期触发银行欺诈识别模型训练装置进行定时重新获取新的银行欺诈识别模型;
可选地,银行欺诈识别装置143,用于根据银行欺诈识别模型训练装置获取的银行欺诈识别模型,获取待检测用户在基于目标业务渠道发生的操作行为为欺诈行为的概率。
下面,本申请提供一个具体的实施例对本申请提供的反欺诈系统的使用原理进行示例性说明:
参见图15所示,图15展现的是银行多业务渠道反欺诈系统的使用原理示意图,这里以手机银行和网上银行这两个业务渠道为例来说明银行多业务渠道反欺诈系统的使用原理。
从图15中可以清楚地看出多业务渠道反欺诈系统是核心模块,该反欺诈系统分别对接了手机银行业务系统和网上银行业务系统,反欺诈系统通过接受来自手机银行或网上银行的基础操作行为和业务操作行为,对操作行为的风险值进行评估(也即对操作行为的进行银行欺诈识别,获取操作行为是欺诈行为的概率值)。
如果风险评估结果为欺诈操作,则把把风险评估结果反馈给手机银行业务系统或者网上银行业务系统,手机银行业务系统和网上银行业务系统可以利用该反馈结果进行风险的拦截操作,并把这个拦截信息以及手机银行系统或者网上银行内部记录的所有与该用户相关的历史操作信息作为样本数据写入对应的手机银行或者网上银行的数据库中;
如果风险评估结果为正常操作,那么就把用户操作行为通过指示转发给手机银行或者网上银行的业务系统,接下来就是用户在手机银行业务系统或者网上银行业务系统中的一些正常处理流程。
当手机银行数据库和网上银行数据库或其他业务渠道数据库在一段时间之内积累了一定量的训练数据(这部分数据来源包括线上识别、用户反馈、专家标注或者其他渠道黑产数据库)之后,会将这些新的训练数据发送给银行多业务渠道反欺诈系统,由该系统内部的定时器定期启动模型的训练过程,并更新线上的银行欺诈识别模型。
本申请实施例提供的一种反欺诈系统,在银行欺诈识别模型训练的时候,通过获取多个样本用户在第一历史时间段内基于多个业务渠道进行操作的历史操作信息,以及每个样本用户在第二历史时间段在各个业务渠道是否发生欺诈行为的标注信息;多个业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;针对每个样本用户,根据该样本用户在第一历史时间段内的历史操作信息,确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为一一对应的特征向量;将该样本用户在每种业务渠道下,与该业务渠道的多种操作行为分别对应的所述特征向量输入至预先构建的目标神经网络模型中进行迁移学习,获取该样本用户在各个业务渠道的欺诈识别结果;根据各个样本用户在各个业务渠道的欺诈识别结果,以及该样本用户在各个业务渠道是否发生欺诈行为的标注信息,对目标神经网络模型进行训练,获取银行欺诈识别模型。本申请能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中的银行欺诈识别模型训练方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述银行欺诈识别模型训练方法,从而能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
本申请实施例还提供了另一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中的银行欺诈识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述银行欺诈识别方法,从而能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
对应于图1中的银行欺诈识别模型训练方法,本申请实施例还提供了一种计算机设备,如图16所示,该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000执行上述计算机程序时实现上述银行欺诈识别模型训练方法的步骤。
具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述银行欺诈识别模型训练方法,从而能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
对应于图10中的银行欺诈识别方法,本申请实施例还提供了另一种计算机设备,如图17所示,该设备包括存储器3000、处理器4000及存储在该存储器3000上并可在该处理器4000上运行的计算机程序,其中,上述处理器4000执行上述计算机程序时实现上述银行欺诈识别方法的步骤。
具体地,上述存储器3000和处理器4000能够为通用的存储器和处理器,这里不做具体限定,当处理器4000运行存储器3000存储的计算机程序时,能够执行上述银行欺诈识别方法,从而能够基于迁移学习的思想,使得训练得到的银行欺诈识别模型能够学习到多种不同业务渠道用户行为的特征,基于这种银行欺诈识别模型检测用户的操作行为是否属于欺诈行为,具有更高的准确率。
本申请实施例所提供的银行欺诈识别模型训练方法、装置以及银行欺诈识别方法和装置、以及反欺诈系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法、装置和系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (28)

1.一种银行欺诈识别模型训练方法,其特征在于,包括:
获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息;多个所述业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;
针对每个样本用户,根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量;多种操作行为包括:多种基础操作行为以及多种业务操作行为;所述特征向量包括源域特征向量以及目标域特征向量;
将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果;
根据每个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取欺诈识别模型;
所述目标神经网络包括:主融合神经网络、分类器,所述基础操作行为对应的第一辅助融合神经网络,以及所述业务操作行为对应的第二辅助融合神经网络;所述样本用户包括:与所述目标业务渠道对应的第一样本用户、以及与所述辅助业务渠道对应的第二样本用户;
所述将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果,包括:
针对该样本用户为第一样本用户的情况,使用所述第一辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种基础操作行为分别对应的源域特征向量进行特征融合,获取该第一样本用户对应的第一源域融合特征向量;
使用所述第二辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种所述业务操作行为分别对应的所述源域特征向量进行特征融合,获取该第一样本用户对应的第二源域融合特征向量;
使用所述主融合神经网络对所述第一源域融合特征向量和所述第二源域融合特征向量进行特征融合,获取该第一样本用户的目标特征向量;
将该第一样本用户的目标特征向量输入至所述分类器,获取该第一样本用户在所述目标业务渠道的欺诈识别结果;
针对该样本用户为第二样本用户的情况,使用第一辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述基础操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第一目标域融合特征向量;
使用所述第二辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述业务操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第二目标域融合特征向量;
使用所述主融合神经网络对所述第一目标域融合特征向量和所述第二目标域融合特征向量进行特征融合,获取该第二样本用户的目标特征向量;
将该第二样本用户的目标特征向量输入至所述分类器,获取该第二样本用户在该辅助业务渠道的欺诈识别结果;
获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息,包括:
获取多个第一样本用户中每个第一样本用户在第一历史时间段内使用所述目标业务渠道进行业务操作的历史操作信息,以及每个所述第一样本用户在第二历史时间段基于所述目标业务渠道是否发生欺诈行为的标注信息;以及,
获取多个所述第二样本用户中每个第二样本用户在第一历史时间段内基于其使用的所述辅助业务渠道进行业务操作的历史操作信息,以及每个所述第二样本用户在第二历史时间段在其所使用的所述辅助业务渠道是否发生欺诈行为的标注信息。
2.根据权利要求1所述的方法,其特征在于,所述针对每个样本用户,根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量,包括:
针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量;
针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
3.根据权利要求2所述的方法,其特征在于,所述针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量,包括:
针对每个所述第一样本用户,根据该第一样本用户在所述目标业务渠道下的历史操作信息,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量;
所述针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量,包括:
针对每个所述第二样本用户,根据该第二样本用户在其使用的所述辅助业务渠道下的历史操作信息,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型,包括:
根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行本轮训练;
将经过多轮训练后的所述目标神经网络模型作为所述银行欺诈识别模型。
5.根据权利要求4所述的方法,其特征在于,所述根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型,包括:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还未完成训练的样本用户中任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户在其所使用的业务渠道的欺诈识别结果,并重新返回根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述银行欺诈识别模型。
6.根据权利要求3所述的方法,其特征在于,所述根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量之前,还包括:
对该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
7.根据权利要求3所述的方法,其特征在于,所述根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量之前,还包括:
对该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
8.根据权利要求5所述的方法,其特征在于,所述完成对所述目标神经网络模型的本轮训练后,还包括:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
使用测试集对本轮得到的目标神经网络模型进行验证;若所述测试集中,联合交叉熵损失不大于预设的联合交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
依次将本轮各个所述样本用户的联合交叉熵损失,与前一轮对应样本用户的联合交叉熵损失进行比对;若本轮所述样本用户的联合交叉熵损失大于前一轮对应样本用户的联合交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型。
9.根据权利要求5所述的方法,其特征在于,所述根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数,包括:
针对所述目标样本用户为第一目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第一调整步长调整所述目标神经网络模型的参数;
针对所述目标样本用户为第二目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第二调整步长调整所述目标神经网络模型的参数;
其中所述第一调整步长大于所述第二调整步长。
10.一种银行欺诈识别方法,其特征在于,包括:
当待检测用户基于目标业务渠道发生操作行为时,获取该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息;
根据该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息,确定该待检测用户在所述目标业务渠道下,与所述目标业务渠道下的多种操作行为一一对应的特征向量;
将所述目标业务渠道下的多种操作行为一一对应的特征向量,输入至通过权利要求1-9任意一项所述的银行欺诈识别模型训练方法训练得到的银行欺诈识别模型中,获取所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
11.根据权利要求10所述的方法,其特征在于,还包括:将所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率与预设的欺诈行为概率阈值进行比对;
若所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率大于预设的所述欺诈行为概率阈值,则对用户的当前操作行为执行拦截操作。
12.一种银行欺诈识别模型训练装置,其特征在于,该装置包括:
第一获取模块,用于获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息;多个所述业务渠道包括一个目标业务渠道以及至少一个辅助业务渠道;
第一确定模块,用于根据该样本用户在第一历史时间段内的所述历史操作信息,确定该样本用户在其所使用的业务渠道下的多种操作行为分别对应的特征向量;多种操作行为包括:多种基础操作行为以及多种业务操作行为;所述特征向量包括源域特征向量以及目标域特征向量;
欺诈识别结果获取模块,用于将各个样本用户的所述特征向量输入至预先构建的目标神经网络模型中进行从所述目标业务渠道至所述至少一个辅助业务渠道的迁移学习,获取该样本用户在其所使用的业务渠道的欺诈识别结果;
训练模块,用于根据每个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型;
所述目标神经网络包括:主融合神经网络、分类器,所述基础操作行为对应的第一辅助融合神经网络,以及所述业务操作行为对应的第二辅助融合神经网络;所述样本用户包括:第一样本用户以及第二样本用户;
所述欺诈识别结果获取模块,用于采用下述方式获取该样本用户在其所使用的业务渠道的欺诈识别结果:
针对该样本用户为第一样本用户的情况,使用所述第一辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种基础操作行为分别对应的源域特征向量进行特征融合,获取该第一样本用户对应的第一源域融合特征向量;
使用所述第二辅助融合神经网络,对该第一样本用户在所述目标业务渠道下的多种所述业务操作行为分别对应的所述源域特征向量进行特征融合,获取该第一样本用户对应的第二源域融合特征向量;
使用所述主融合神经网络对所述第一源域融合特征向量和所述第二源域融合特征向量进行特征融合,获取该第一样本用户的目标特征向量;
将该第一样本用户的目标特征向量输入至所述分类器,获取该第一样本用户在所述目标业务渠道的欺诈识别结果;
针对该样本用户为第二样本用户的情况,使用第一辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述基础操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第一目标域融合特征向量;
使用所述第二辅助融合神经网络,对该第二样本用户在其使用的所述辅助业务渠道下的多种所述业务操作行为分别对应的所述目标域特征向量进行特征融合,获取该第二样本用户对应的第二目标域融合特征向量;
使用所述主融合神经网络对所述第一目标域融合特征向量和所述第二目标域融合特征向量进行特征融合,获取该第二样本用户的目标特征向量;
将该第二样本用户的目标特征向量输入至所述分类器,获取该第二样本用户在该辅助业务渠道的欺诈识别结果;
所述第一获取模块,用于采用下述方式获取多个样本用户在第一历史时间段内使用多个业务渠道进行操作的历史操作信息,以及每个所述样本用户在第二历史时间段在其所使用的所述业务渠道是否发生欺诈行为的标注信息:
获取多个第一样本用户中每个第一样本用户在第一历史时间段内使用所述目标业务渠道进行业务操作的历史操作信息,以及每个所述第一样本用户在第二历史时间段基于所述目标业务渠道是否发生欺诈行为的标注信息;以及,
获取多个所述第二样本用户中每个第二样本用户在第一历史时间段内基于其中一个所述辅助业务渠道进行业务操作的历史操作信息,以及每个所述第二样本用户在第二历史时间段在其所使用的所述辅助业务渠道是否发生欺诈行为的标注信息。
13.根据权利要求12所述的装置,其特征在于,所述特征向量包括源域特征向量以及目标域特征向量;
所述第一确定模块,用于采用下述方式确定该样本用户在每种业务渠道下,与该业务渠道下的多种操作行为分别对应的特征向量:
针对每个所述第一样本用户,基于该第一样本用户在所述目标业务渠道下的历史操作信息,构建该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量;
针对每个所述第二样本用户,基于该第二样本用户在其使用的辅助业务渠道下的历史操作信息,构建该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
14.根据权利要求13所述的装置,其特征在于,所述第一确定模块,具体用于采用下述方式构建源域特征向量:
针对每个所述第一样本用户,根据该第一样本用户在所述目标业务渠道下的历史操作信息,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量。
15.根据权利要求14所述的装置,其特征在于,所述第一确定模块,确定该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的源域特征向量之前,还用于:
对该第一样本用户在所述目标业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
16.根据权利要求13所述的装置,其特征在于,所述第一确定模块,具体用于采用下述方式构建目标域特征向量:
针对每个所述第二样本用户,根据该第二样本用户在其使用的所述辅助业务渠道下的历史操作信息,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值;
根据该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量。
17.根据权利要求16所述的装置,其特征在于,所述第一确定模块,确定该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的目标域特征向量之前,还用于:
对该第二样本用户在其使用的所述辅助业务渠道下的每种基础操作行为和每种业务操作行为分别对应的至少一个预设操作行为特征下的特征值,进行下述处理中至少一项:
数据清洗处理、数据增强处理以及特征筛选与标准化处理。
18.根据权利要求12所述的装置,其特征在于,所述训练模块,用于采用下述方式根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型:
根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行本轮训练;
将经过多轮训练后的所述目标神经网络模型作为所述银行欺诈识别模型。
19.根据权利要求12所述的装置,其特征在于,所述训练模块,用于采用下述方式根据各个所述样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,对所述目标神经网络模型进行训练,获取银行欺诈识别模型:
将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失;
根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型的参数;
将所述目标样本用户作为完成训练的样本用户,并将当前轮还未完成训练的样本用户中任意一个样本用户作为新的目标样本用户,
使用调整了参数后的所述目标神经网络模型,获取该新的目标样本用户在其所使用的业务渠道的欺诈识别结果,并重新返回根据该目标样本用户在其所使用的业务渠道的欺诈识别结果,以及该样本用户在其所使用的业务渠道是否发生欺诈行为的标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;
直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;
经过对所述目标神经网络模型的多轮训练,获取所述银行欺诈识别模型。
20.根据权利要求19所述的装置,其特征在于,所述训练模块,还用于在完成对所述目标神经网络模型的本轮训练后:
检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
使用测试集对本轮得到的目标神经网络模型进行验证;若所述测试集中,联合交叉熵损失不大于预设的联合交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型;
或者,
依次将本轮各个所述样本用户的联合交叉熵损失,与前一轮对应样本用户的联合交叉熵损失进行比对;若本轮所述样本用户的联合交叉熵损失大于前一轮对应样本用户的联合交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述银行欺诈识别模型。
21.根据权利要求20所述的装置,其特征在于,所述训练模块,用于采用下述方式调整所述目标神经网络模型的参数:
针对所述目标样本用户为第一目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第一调整步长调整所述目标神经网络模型的参数;
针对所述目标样本用户为第二目标样本用户的情况,根据所述目标样本用户在本轮的所述交叉熵损失,以第二调整步长调整所述目标神经网络模型的参数;
其中所述第一调整步长大于所述第二调整步长。
22.一种银行欺诈识别装置,其特征在于,该装置包括:
第二获取模块,用于当待检测用户基于目标业务渠道发生操作行为时,获取该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息;
第二确定模块,用于根据该待检测用户在第三历史时间段内基于所述目标业务渠道进行业务操作的操作行为信息,确定该待检测用户在所述目标业务渠道下,与所述目标业务渠道下的多种操作行为一一对应的特征向量;
银行欺诈识别模块,用于将所述目标业务渠道下的多种操作行为一一对应的特征向量,输入至通过权利要求1-9任意一项所述的银行欺诈识别模型训练方法训练得到的银行欺诈识别模型中,获取所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
23.根据权利要求22所述的装置,其特征在于,还包括:检测模块,用于将所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率与预设的欺诈行为概率阈值进行比对;
若所述待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率大于预设的所述欺诈行为概率阈值,则对用户的当前操作行为执行拦截操作。
24.一种反欺诈系统,其特征在于,该系统包括:定时器、如权利要求12-21任意一项所述的银行欺诈识别模型训练装置、以及如权利要求22-23任意一项所述的银行欺诈识别装置;
所述定时器、所述银行欺诈识别模型训练装置、以及所述银行欺诈识别装置依次连接;
所述银行欺诈识别模型训练装置,用于获取银行欺诈识别模型;
所述定时器,用于定期触发所述银行欺诈识别模型训练装置进行定时重新获取新的银行欺诈识别模型;
所述银行欺诈识别装置,用于根据所述银行欺诈识别模型训练装置获取的所述银行欺诈识别模型,获取待检测用户在基于目标业务渠道发生的操作行为属于欺诈行为的概率。
25.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的银行欺诈识别模型训练方法的步骤。
26.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任意一项所述的银行欺诈识别模型训练方法的步骤。
27.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求10至11任一所述的银行欺诈识别方法的步骤。
28.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求10至11任意一项所述的银行欺诈识别方法的步骤。
CN201811211265.0A 2018-10-17 2018-10-17 银行欺诈识别模型训练方法、银行欺诈识别方法和装置 Active CN109409896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811211265.0A CN109409896B (zh) 2018-10-17 2018-10-17 银行欺诈识别模型训练方法、银行欺诈识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811211265.0A CN109409896B (zh) 2018-10-17 2018-10-17 银行欺诈识别模型训练方法、银行欺诈识别方法和装置

Publications (2)

Publication Number Publication Date
CN109409896A CN109409896A (zh) 2019-03-01
CN109409896B true CN109409896B (zh) 2020-04-10

Family

ID=65467362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811211265.0A Active CN109409896B (zh) 2018-10-17 2018-10-17 银行欺诈识别模型训练方法、银行欺诈识别方法和装置

Country Status (1)

Country Link
CN (1) CN109409896B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084011A (zh) * 2019-05-08 2019-08-02 北京芯盾时代科技有限公司 一种用户操作的验证的方法及装置
CN110335032B (zh) * 2019-05-08 2022-02-22 北京芯盾时代科技有限公司 业务处理方法及装置
CN110166476B (zh) * 2019-05-30 2021-09-17 中国联合网络通信集团有限公司 一种反暴力破解方法及装置
CN110399705A (zh) * 2019-07-03 2019-11-01 上海上湖信息技术有限公司 判断欺诈用户的方法、装置、设备、及存储介质
CN110427971A (zh) * 2019-07-05 2019-11-08 五八有限公司 用户及ip的识别方法、装置、服务器和存储介质
CN112417452B (zh) * 2019-08-23 2022-11-25 上海哔哩哔哩科技有限公司 一种风险控制方法及系统
CN110675252A (zh) * 2019-09-29 2020-01-10 北京市商汤科技开发有限公司 风险评估方法、装置、电子设备及存储介质
CN110909984B (zh) * 2019-10-28 2023-04-07 苏宁金融科技(南京)有限公司 业务数据处理模型训练方法、业务数据处理方法及装置
CN111242193A (zh) * 2020-01-06 2020-06-05 深圳壹账通智能科技有限公司 基于迁移学习的电子商务欺诈检测方法、装置及存储介质
CN111291900A (zh) * 2020-03-05 2020-06-16 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN111741004B (zh) * 2020-06-24 2022-05-27 中国银行股份有限公司 一种网络安全态势感知的方法和相关装置
CN111881106B (zh) * 2020-07-30 2024-03-29 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN112150139B (zh) * 2020-09-30 2023-09-26 中国银行股份有限公司 一种数据分析方法及装置
US11887172B2 (en) 2021-01-29 2024-01-30 Walmart Apollo, Llc Methods and apparatus for electronic detection of fraudulent transactions using machine learning processes
CN113781207B (zh) * 2021-09-15 2022-04-01 杭银消费金融股份有限公司 基于实验设计的风控管理策略确定方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680178B (zh) * 2015-03-06 2017-11-21 西安电子科技大学 基于迁移学习多吸引子细胞自动机的图像分类方法
CN107644340A (zh) * 2016-07-22 2018-01-30 阿里巴巴集团控股有限公司 风险识别方法、客户端设备及风险识别系统
CN108304876B (zh) * 2018-01-31 2021-07-06 国信优易数据股份有限公司 分类模型训练方法、装置及分类方法及装置

Also Published As

Publication number Publication date
CN109409896A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109409896B (zh) 银行欺诈识别模型训练方法、银行欺诈识别方法和装置
CN109345260B (zh) 一种异常操作行为的检测方法
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN106875078B (zh) 交易风险检测方法、装置及设备
CN109410036A (zh) 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN110706090A (zh) 信用欺诈识别方法及装置、电子设备、存储介质
CN106780012A (zh) 一种互联网信贷方法及系统
CN110827138B (zh) 一种推送信息确定方法及装置
CN111325619A (zh) 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN110163242B (zh) 风险识别方法、装置及服务器
Alenzi et al. Fraud detection in credit cards using logistic regression
CN115204901B (zh) 基于多特征融合的信用卡欺诈检测方法、装置及介质
Fashoto et al. Hybrid methods for credit card fraud detection using K-means clustering with hidden Markov model and multilayer perceptron algorithm
HaratiNik et al. FUZZGY: A hybrid model for credit card fraud detection
CN111899100A (zh) 业务控制方法、装置和设备及计算机存储介质
CN112330355A (zh) 消费券交易数据处理方法、装置、设备及存储介质
Lee et al. Detecting online game chargeback fraud based on transaction sequence modeling using recurrent neural network
CN109272398B (zh) 一种操作请求处理系统
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN110362981B (zh) 基于可信设备指纹判断异常行为的方法及系统
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN113327161A (zh) 一种用于信贷业务的智能风控决策系统
CN112116358A (zh) 一种交易欺诈行为的预测方法、装置及电子设备
WO2020174483A1 (en) Prediction of billing disputes
Smiles et al. Data mining based hybrid latent representation induced ensemble model towards fraud prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant