CN111612606A - 一种商户欺诈风险监控系统及数据挖掘方法 - Google Patents

一种商户欺诈风险监控系统及数据挖掘方法 Download PDF

Info

Publication number
CN111612606A
CN111612606A CN202010281225.4A CN202010281225A CN111612606A CN 111612606 A CN111612606 A CN 111612606A CN 202010281225 A CN202010281225 A CN 202010281225A CN 111612606 A CN111612606 A CN 111612606A
Authority
CN
China
Prior art keywords
data
merchant
card
model
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010281225.4A
Other languages
English (en)
Inventor
卢意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of Communications Co Ltd Shanghai Branch
Original Assignee
Bank of Communications Co Ltd Shanghai Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Communications Co Ltd Shanghai Branch filed Critical Bank of Communications Co Ltd Shanghai Branch
Priority to CN202010281225.4A priority Critical patent/CN111612606A/zh
Publication of CN111612606A publication Critical patent/CN111612606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及金融风控技术领域,具体涉及一种商户欺诈风险监控系统及数据挖掘方法,本发明根据金融部门商业目标,确定数据挖掘的目的和目标;根据目的和目标确认数据源,并进行数据收集;对收集的数据进行筛选,为数据挖掘准备数据;对筛选后的数据进行质量检测,对检测后的数据进行数据整合;对检测到的挖掘需要的数据、格式或变量后,进行数据转换;使用不同的方法对转换后的数据进行数据挖掘得到结果数据;本发明通过数据挖掘的手段对大量的信用卡交易数据进行分析,建立信用卡欺诈分析模型,识别出高欺诈风险的信用卡交易,并及时进行预警提示,为风险管理提供基础或将信用卡欺诈评分模型应用到收单业务之中,指导收单的业务操作。

Description

一种商户欺诈风险监控系统及数据挖掘方法
技术领域
本发明涉及金融风控技术领域,具体涉及一种商户欺诈风险监控 系统及数据挖掘方法。
背景技术
随着交行收单交易量大幅度增加,成为仅次于工行的上海第二大 收单行。同时信用卡欺诈活动日益猖獗,商户风险管理的滞后正在成 为信用卡业务拓展和创利的最大障碍之一。为了降低商户风险带来的 损失,提高信用卡商户的整体管理水平,商户风险管理成为私人金融 业务部的重要工作内容。
如上所述,如何改变交行信用卡商户风险管理工作辛苦效率较低 的现状,如何提高商户风险管理的自动化、科学化、实效性水平,以 适应交行信用卡收单业务的高速发展,建设准确、高效、易用的信用 卡商户风险监控管理系统是关键因素之一,因此有必要引入高端IT技 术对收单行业务的信用卡商户欺诈风险进行有效监控和管理。
发明内容
针对现有技术的不足,本发明公开了一种商户欺诈风险监控系统 及数据挖掘方法,以期通过数据挖掘的手段对大量的信用卡交易数据 进行分析,建立信用卡欺诈分析模型,识别出高欺诈风险的信用卡交 易,并及时进行预警提示,对收单行业务的信用卡商户欺诈风险进行 有效监控和管理。
本发明通过以下技术方案予以实现:
第一方面,本发明公开一种商户欺诈风险监控系统的数据挖掘方 法,所述方法包括以下步骤:
S1根据金融部门商业目标,确定数据挖掘的目的和目标;
S2根据S1中确定的目的和目标确认数据源,并进行数据收集;
S3对收集的数据进行筛选,为数据挖掘准备数据;
S4对筛选后的数据进行质量检测,对检测后的数据进行数据整合;
S5对检测到的挖掘需要的数据、格式或变量后,进行数据转换;
S6使用不同的方法对转换后的数据进行数据挖掘得到结果数据;
S7根据信用卡收单业务情况、数据挖掘目标和商业目的来评估和 解释挖掘的结果数据,形成信用卡欺诈信用评分模型;
S8利用信用卡欺诈评分模型既为银行决策层了解整体风险分布情 况,为风险管理提供基础,并将其应用到收单业务之中,指导收单的 业务操作。
更进一步的,确认数据源的时候收集全面的信息,其数据类型为 业务数据、数据库/数据仓库中存储的数据或外部数据,如果银行内部 不能满足构建模型所需的数据,则进行外部收集从专门收集人口统计 数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的 企业购买得到所需要的外部数据。
更进一步的,对信用卡欺诈信用评分模型建设时,其模型数据选 取评分的交易数据、变量提炼的交易数据、商户资料的数据或目标变 量表。
更进一步的,所述外卡清算的数据是POS.LOG中的外卡交易记录 做清算后的数据,清算的方法是返回码为‘00’,交易码为‘OFFL’, ‘PRPU’,‘PURC’的交易,如果返回码为‘AUTO’,‘CANC’,则通过 c_retrnum撤销或冲正相应的交易;
所述评分的交易数据加上POS.LOG中返回码不是‘00’,交易码为 ‘PURC’和‘OFFL’,卡号或终端号在EDCLOG中出现的外卡交易数据, 后者的数据用于统计银行卡,商户和终端号的失败交易的信息;
所述商户资料的数据是评分的交易数据中出现的商户,在外卡商 户资料数据中找出相关的商户信息数据,用到的信息有终端编号、邮 政编码和商户类型;
所述目标变量表为查单记录中出现过的所有假卡、伪卡的卡号, 并把EDCLOG中这些卡号的所有交易当作目标变量。
更进一步的,所述数据转换中,对于每个连续变量,作本身标准 化,商户标准化,和MCC码行业标准化,采用对指标进行正态标准化 (0,.1)来消除量纲的影响,对于离散数据,作数据水平归并和IV值转 换。
更进一步的,所述信用卡欺诈信用评分模型为分类模型,所述信 用卡欺诈信用评分模型用Logistic回归、神经网络和决策树方法分别 建模,然后通过模型结果比较选择最佳模型。
更进一步的,所述Logistic回归Logistic曲线对应logistic模 型,所述Logistic曲线是(0,1)区间的S形曲线,并且在Xi→-∞的 情况下E(Yi)→0,在Xi→+∞时E(Yi)→1;
所述logistic模型用公式
Figure BDA0002446652650000031
表示,这里Yi是第i个响 应变量,对于响应来说该值为1,对于不响应来说该值为0,所述 logistic回归模型的区间在(0,1)范围内;
对于Logistic回归模型的形式为:
Figure BDA0002446652650000032
其中:P是欺诈概率,α代表截距大小,β为回归系数,X代表独 立变量。
更进一步的,所述神经网络是基于神经网络的节点及其权值的架 构的模型,是相互连接的节点的集合,每个节点有输入、输出,并可 以进行处理,其在可见的输入层和输出层之间有隐藏的处理层,每一 层的每一个处理单元和下一层的所有处理单元关联,并用权值表示节 点之间关系的紧密程度,所述神经网络计算匹配函数时每个数据点权 值不断调整,并且通过算法进行调整优化。
更进一步的,所述决策树的算法首先确定出最重要的变量,然后 再确定其次重要的变量,对测试条件自动确定,其树型归纳的决策点 为节点,收集观测数据的末端为叶节点,在每一步,数据都分成两个 或者多个组,并且应该让所有的记录尽可能地划分成不同的组中使得 混杂程度最小化,混杂程度用公式
Figure BDA0002446652650000041
计算,这里pi是类i 的实例的比率;所述决策树的层次由两种方法控制分别是定义最少观 测数据量和规定树允许的最大层次,并通过裁减,提高测试数据和预 测分析的准确性。
第二方面,本发明公开一种商户欺诈风险监控系统,包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的计算机程 序,该所述计算机程序被所述处理器执行时,实现第一方面所述的商 户欺诈风险监控系统的数据挖掘方法。
本发明的有益效果为:
本发明通过数据挖掘的手段对大量的信用卡交易数据进行分析, 建立信用卡欺诈分析模型,识别出高欺诈风险的信用卡交易,并及时 进行预警提示,通过数据挖掘技术构建的信用卡欺诈评分模型既可以 为银行决策层了解整体风险分布情况,为风险管理提供基础或将信用 卡欺诈评分模型应用到收单业务之中,指导收单的业务操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图。
图1是一种商户欺诈风险监控系统的数据挖掘方法的原理步骤图。
图2是对决策树、神经网络、逻辑回归三种分类模型进行比较的 响应率图。
图3是对决策树、神经网络、逻辑回归三种分类模型进行比较的 抓获率图。
图4是对决策树、神经网络、逻辑回归三种分类模型进行比较的 模型提升度比较图。
图5是05年-06年5月份所有外卡交易按卡到期年的限欺诈比率 分析图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护 的范围。
实施例1
本实施例公开如图1所示的一种商户欺诈风险监控系统的数据挖 掘方法,所述方法包括以下步骤:
S1根据金融部门商业目标,确定数据挖掘的目的和目标;
S2根据S1中确定的目的和目标确认数据源,并进行数据收集;
S3对收集的数据进行筛选,为数据挖掘准备数据;
S4对筛选后的数据进行质量检测,对检测后的数据进行数据整合;
S5对检测到的挖掘需要的数据、格式或变量后,进行数据转换;
S6使用不同的方法对转换后的数据进行数据挖掘得到结果数据;
S7根据信用卡收单业务情况、数据挖掘目标和商业目的来评估和 解释挖掘的结果数据,形成信用卡欺诈信用评分模型;
S8利用信用卡欺诈评分模型既为银行决策层了解整体风险分布情 况,为风险管理提供基础,并将其应用到收单业务之中,指导收单的 业务操作。
确认数据源的时候收集全面的信息,其数据类型为业务数据、数 据库/数据仓库中存储的数据或外部数据,如果银行内部不能满足构建 模型所需的数据,则进行外部收集从专门收集人口统计数据、消费者 信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到 所需要的外部数据。
对信用卡欺诈信用评分模型建设时,其模型数据选取评分的交易 数据、变量提炼的交易数据、商户资料的数据或目标变量表。
外卡清算的数据是POS.LOG中的外卡交易记录做清算后的数据, 清算的方法是返回码为‘00’,交易码为‘OFFL’,‘PRPU’,‘PURC’的 交易,如果返回码为‘AUTO’,‘CANC’,则通过c_retrnum撤销或冲正 相应的交易;
评分的交易数据加上POS.LOG中返回码不是‘00’,交易码为‘PURC’ 和‘OFFL’,卡号或终端号在EDCLOG中出现的外卡交易数据,后者的 数据用于统计银行卡,商户和终端号的失败交易的信息;
商户资料的数据是评分的交易数据中出现的商户,在外卡商户资 料数据中找出相关的商户信息数据,用到的信息有终端编号、邮政编 码和商户类型;
目标变量表为查单记录中出现过的所有假卡、伪卡的卡号,并把 EDCLOG中这些卡号的所有交易当作目标变量。
数据转换中,对于每个连续变量,作本身标准化,商户标准化, 和MCC码行业标准化,采用对指标进行正态标准化(0,.1)来消除量纲 的影响,对于离散数据,作数据水平归并和IV值转换。
信用卡欺诈信用评分模型为分类模型,所述信用卡欺诈信用评分 模型用Logistic回归、神经网络和决策树方法分别建模,然后通过模 型结果比较选择最佳模型。
Logistic回归Logistic曲线对应logistic模型,所述Logistic 曲线是(0,1)区间的S形曲线,并且在Xi→-∞的情况下E(Yi)→0, 在Xi→+∞时E(Yi)→1;
所述logistic模型用公式
Figure BDA0002446652650000061
表示,这里Yi是第i个响 应变量,对于响应来说该值为1,对于不响应来说该值为0,所述 logistic回归模型的区间在(0,1)范围内;
对于Logistic回归模型的形式为:
Figure BDA0002446652650000062
其中:P是欺诈概率,α代表截距大小,β为回归系数,X代表独 立变量。
神经网络是基于神经网络的节点及其权值的架构的模型,是相互 连接的节点的集合,每个节点有输入、输出,并可以进行处理,其在 可见的输入层和输出层之间有隐藏的处理层,每一层的每一个处理单 元和下一层的所有处理单元关联,并用权值表示节点之间关系的紧密 程度,所述神经网络计算匹配函数时每个数据点权值不断调整,并且 通过算法进行调整优化。
决策树的算法首先确定出最重要的变量,然后再确定其次重要的 变量,对测试条件自动确定,其树型归纳的决策点为节点,收集观测 数据的末端为叶节点,在每一步,数据都分成两个或者多个组,并且 应该让所有的记录尽可能地划分成不同的组中使得混杂程度最小化, 混杂程度用公式
Figure BDA0002446652650000071
计算,这里pi是类i的实例的比率;所 述决策树的层次由两种方法控制分别是定义最少观测数据量和规定树 允许的最大层次,并通过裁减,提高测试数据和预测分析的准确性。
实施例2
本实施例中,依据吉贝克数据挖掘项目实施经验,严格按照数据 挖掘通用方法论执行,整个数据挖掘过程可以分为以下10个步骤:它 们分别是业务目的确定、数据源识别、数据收集、数据选择、数据质 量审核、数据转换、数据挖掘、结果解释、应用建议和结果应用。
(1)商业目标确定:明确数据挖掘的目的或目标是成功完成任何数 据挖掘项目的关键,例如确定项目的目标是构建信用卡欺诈分析模型。
(2)确认数据源:在给定数据挖掘的商业目标情况下,下一个步骤 是寻找可以解决和回答商业问题的数据。构建欺诈分析模型所需要的 是关于信用卡交易的大量信息,应该尽量收集全面的信息。所需要的 数据可能是业务数据,可能是数据库/数据仓库中存储的数据,也可能 是外部数据。如果没有所需的数据,那么数据收集就是下一个必需的 步骤。
(3)数据收集:如果银行内部不能满足构建模型所需的数据,就需 要从外部收集,主要是从专门收集人口统计数据、消费者信用历史数 据、地理变量、商业特征和人口普查数据的企业购买得到。
(4)数据筛选:在数据挖掘项目中第四个步骤是对收集的数据进行 筛选,为挖掘准备数据。在实际项目中因为计算处理能力和项目期限, 在挖掘项目中想用到所有数据是不可能实现的,因此数据筛选是必不 可少的。数据筛选考虑的因素包括数据样本的大小和质量。
(5)数据质量检测:一旦数据被筛选出来,成功的数据挖掘的下一 步是数据质量检测和数据整合。目的就是提高筛选出来数据的质量。 如果质量太低,就需要重新进行数据筛选。
(6)数据转换:在选择并检测了挖掘需要的数据、格式或变量后, 在许多情况下数据转换非常必要。数据挖掘项目中的特殊转换方法取 决于根据数据挖掘类型和数据挖掘工具。一旦数据转换完成,即可开 始挖掘工作。
(7)数据挖掘:挖掘数据是所有数据挖掘项目最核心的部分。如果 时间或其他相关诸如软件等条件允许的情况下,最好能够尝试多种不 同的挖掘技巧。因为使用越多的数据挖掘技巧,可能就会解决越多的 商业问题。而且使用多种不同的挖掘技巧可以对挖掘结果的质量进行 检测。例如:在构建信用卡欺诈模型时分类可以通过三种方法来实现: 决策树,神经分类和逻辑回归,每一种方法都可能产生出不同的结果。 如果多个不同方法生成的结果都相近或相同,那么挖掘结果是很稳定, 可用度非常高的。如果得到的结果不同,在使用结果制订决策前必须 查证问题的所在。
(8)结果解释:数据挖掘之后应该根据信用卡收单业务情况、数据 挖掘目标和商业目的来评估和解释挖掘的结果。
(9)应用建议:数据挖掘关键问题是如何把分析结果即信用卡欺诈 信用评分模型转化为商业利润。
(10)结果应用:通过数据挖掘技术构建的信用卡欺诈评分模型既 可以为银行决策层了解整体风险分布情况,为风险管理提供基础。当 然最直接的应用就是将信用卡欺诈评分模型应用到收单业务之中,指 导收单的业务操作。
实施例3
本实施例以交行为例,分析数据,交行信用卡收单行风险监控系 统目标是利用先进的数据挖掘技术,对历史交易信息进行深入的分析, 找出其中隐含的知识和规律,发展交易欺诈风险评分模型,识别信用 卡的假卡和伪卡,找出假卡、伪卡产生的交易,并用来预测信用卡交 易为欺诈的概率大小,为制定智能型反欺诈策略提供科学的依据。具 体而言本系统要达到:
对海量的信用卡交易数据进行分析,建立假卡欺诈识别模型,缩 短欺诈发生到识别,处理之间的时间,降低假卡造成的损失;
持续跟踪、探索新的信用卡欺诈模式,快速、灵活部署新的反欺 诈策略。
实现对商户关系的管理,通过管理商户资料以及记录商户跟踪反 馈情况对商户基本情况进行风险管理。
通过统计查询报表,及时反映商户交易及受益方面的统计信息, 通过统计报表及图形直观反映商户交易情况。
商户欺诈的特征主要体现在商户类型及交易的时间和金额两个方 面。
一般说大型、管理较为规范的商户相对比较安全,如高档宾馆(四 星级以上)、大卖场、大型的零售商、百货商场等。而规模较小、成立 时间短、管理不规范商户的欺诈概率比较高,如金银珠宝首饰店、小 酒吧、小夜总会、古玩店、参药店等。
交易时间异常主要是指交易时间与该类型商户的正常营业时间相 比异常,如酒吧一般的营业时间为晚上,若交易发生的时间在白天, 则这笔交易欺诈的可能性就比较大。交易金额的异常主要体现在大额、 整数金额的交易。而对于某些特殊类型的商户,如古玩店、参药店, 这类商户其交易笔数较少,但单笔交易金额较大,则应关注每笔交易。
交易欺诈往往具有以下特征:
a)商户规模:这里商户规模主要体现在商户的企业性质和经营面 积两个方面。一般大型、管理规范的商户相对比较安全,而规模较小、 新开设的商户其欺诈的可能性相比较大;
b)商户有无欺诈动机:一般规模较小、私营、古玩、参药之类的 商户其欺诈动机比较大;
c)营业性质:高消费场所出现欺诈的可能性比较大;
d)交易时间:在非营业时间出现交易则欺诈的可能性比较大;
e)交易金额:交易金额为大额、整数的,欺诈可能性较大;
f)交易商品:体积小,金额大,容易变现的商品欺诈的可能性较 大;
g)交易频率:短时间内频繁交易,且金额较大的欺诈可能性较大;
h)不同国家卡连续交易:短时间内不同国家卡连续交易,且金额 较大的欺诈可能性较大;
有失败记录:某交易失败后有同卡交易,欺诈的可能性较大。
则本实施例分析的信用卡欺诈风险是指:在交通银行上海分行收 单的商户范围内,外卡交易所刷的信用卡为假卡的风险。
界定:
(1)假卡风险特指外卡假卡风险
(2)凡是外卡查单记录中查单原因为“假卡查单”的信用卡在本行 收单商户的所有交易都界定为“假卡交易”。
分析时,交易数据为EDCLOG:外卡交易数据,是做完清算以后的 交易数据。POS.LOG:间联交易数据,包括内卡本代本,本代他,他代 本和外卡所有交易,这里包括失败的交易记录。POSZL.LOG:直联交易 数据(通过银联来清算),包括内卡本代本,本代他的数据,这里的数 据也是清算后的交易数据。
POS.LOG中本代本、本代他区分
Figure BDA0002446652650000101
Figure BDA0002446652650000111
注1:
间联本代本
直联本代本
本代他
他代本
注2:POS.LOG中包含失败的交易。
POS.LOG和POSZL.LOG中交易数据的关系
Figure BDA0002446652650000112
注1:POS.LOG和POSZL.LOG中直联本代本的数据是重复的。
商户资料包括PDTMERCX.dat:特约商户表,包括全国的商户基本 资料。NEW-TERM1-SO:上海地区商户基本资料,有上面文件加工得到。
POSSGTJT30MERTBL:外卡商户表,包含上海地区外卡商户基本资 料。PDTMERCX中我们取出地区号(AREA_NO)为‘3013100’的上海地 区的商户资料。每一家商户有一个15位的商户编号 (AREA_NO+TYPE+SEQ)和一个5位的终端编号,商户编号和终端编号 不是一一对应的,一个终端编号可能对应多个商户编号,原因是一家 商户因为类型变化等原因会调整商户编号,但是终端编号保持不变, 目前交行大集中以后,新系统中两者是一一对应的。
POSSGTJT30MERTBL中是以终端编号可以唯一区分商户的。通过终 端编号可以和PDTMERCX中的商户相互联系起来。
查单资料为外卡查单22.xls:030405年的外卡查单记录。06年假 卡查单记录:06年每月的假卡伪卡查单记录。
实施例4
本实施例研究目前拥有的外卡交易数据(EDCLOG),其是从2005 年1月1日开始的,间联交易数据(POS.LOG)是从2004年10月开始 的,直联交易数据(POSZL.LOG)是从2004年11月开始的。由于交易 数据是实际经营产生的交易信息的纪录,所以每一条交易的各个字段 基本上没有缺省。
各表中各个字段的含义说明如下:
表EDCLOG:
Figure BDA0002446652650000121
表POS和POSZL:
Figure BDA0002446652650000122
Figure BDA0002446652650000131
由于本次建模是正对上海地区的商户,所以我们分析了PDTMERCX 中上海地区的商户资料(地区号为3013100)和上海地区外卡商户资料 (POSSGTJT30MERTBL),由于NEW-TERM1-SO是有PDTMERCX加工得到, 所以不再分析这一数据集。
特约商户表(PDTMERCX)中商户总数为106691家。由于我们关心 的商户是上海分行作为收单行的商户,按照商户地区号(AREA_NO)对 其作统计,得到商户地区号为3013100的商户数量为3488家,占所有 商户的3.27%。字段汇总如下:
Figure BDA0002446652650000132
Figure BDA0002446652650000141
外卡商户资料表(POSSGTJT30MERTBL)中商户总数为2072家。商 户资料分为基本面(包括:名称,地址,联系人等),手工要素(包括:开 通日期,入账币种,扣率等),EDC要素三个方面,每个卡种分别纪录应 还手续费。字段汇总如下:
Figure BDA0002446652650000151
Figure BDA0002446652650000161
一、EDC-VISA的资料
Figure BDA0002446652650000162
Figure BDA0002446652650000171
特约商户资料表是所有上海地区的商户,包括开通内卡和外卡的 商户,每一家商户有一个15位的商户编号(AREA_NO+TYPE+SEQ)和一 个5位的终端编号,商户编号和终端编号不是一一对应的,一个终端 编号可能对应多个商户编号,原因是一家商户因为类型变化等原因会 调整商户编号,但是终端编号保持不变,目前交行大集中以后,新系 统中两者是一一对应的。终端编号是保存在ENG_NAME这个字段中,格 式为‘ZD88890’,后面5位就是终端编号,在所有3488条记录中,有2183条记录有终端编号。
这个表中的记录是上海地区开通外卡的商户资料,总共有2072条 记录。一家商户对应一个5位的终端编号(terminal_no),这一字段 有12条记录是缺失的,其余唯一。特约商户资料表和外卡商户资料表 之间的联系,两个表通过5位的终端编号可以对应起来。
实施例5
本实施例主要进行数据清洗,通过前面的数据分析,对数据的基 本质量有了一个较为清楚的了解。发现在交易数据中存在很多交易金 额小于10元的交易记录,这部分数据为试卡数据,并不代表真实交易, 为异常数据,在分析中不考虑这部分记录。由于原始数据中交易记录 都是真实数据,交易金额等重要字段几乎没有缺失记录,因此不用作 缺失值填充。
原始的数据往往预测效果较差,需要设计新的变量来捕捉欺诈特 征。根据上面的业务分析,可以从原始数据中可以衍生卡交易成功次 数,卡交易失败次数,交易时间,当天卡交易最大金额,最小金额, 平均金额,总金额,卡交易三天成功次数,三天失败次数,三天卡交 易最大金额,最小金额,平均金额,总金额,这些统计量和同商户的 比较以及和同行业商户的比较等等。
本次建模设定的初始变量共18条,如下表所示:
Figure BDA0002446652650000181
Figure BDA0002446652650000191
对于每个连续变量,作本身标准化,商户标准化,和MCC码行业标 准化。标准化是指通过一定的数学变换来消除原始变量量纲的影响。 我们这里采用对指标进行正态标准化(0,.1)来消除量纲的影响。尽管 有的指标在不同行业间具有可比性,但是大多数指标在不同的行业是 没有可比性的。考虑到上述原因,我们采用指标本身标准化、按商户 标准化和按MCC码行业标准化3种处理方法。
对于离散数据,作数据水平归并和IV值转换。IV值(Information Value)。转换最大的好处就是可以把缺失值或0值当成一大类来处理, 而不会影响到其他正常值。我们也可以从information value看出这 个变量和目标变量的相关性。
通过变量转换衍生的变量如下表所示:
Figure BDA0002446652650000192
为了客观地评价模型,需要将建模数据分为训练集和测试集。取 05年交易数据为训练集,06年前5个月交易数据为测试集。训练集观 测数为793593,其中好样本为793061,坏样本为532。测试集观测数 为315728,其中好样本为315502,坏样本为226。
由于原始样本目标变量坏样本浓度为0.07%,要用过采样的技术 提高坏样本的浓度。采样只能在训练集上进行,取全部的坏样本,好 样本取一定的比率。过采样比率取1:200,过采样后共4644个观测, 其中好样本4112,坏样本532。
实施例6
本实施例对信用卡欺诈信用评分模型建设,信用卡欺诈属于分类 模型,分类模型常见的算法有Logistic回归,神经网络,决策树。本 项目用Logistic回归,神经网络,决策树三种方法分别建模,然后通 过模型结果比较选择一个最佳模型。为了客观地评价模型,用2005年 的交易数据建模,06年的交易数据评分。
Logistic曲线对应logistic模型。该曲线是(0,1)区间的S 形曲线,并且在Xi→-∞的情况下E(Yi)→0,在Xi→+∞时E(Yi)→1。该 模型可以用公式
Figure BDA0002446652650000201
表示,这里Yi是第i个响应变量,对于响 应来说该值为1,对于不响应来说该值为0。logistic回归模型的区间 在(0,1)范围内。Logistic回归模型的主要假设在于响应概率服从 logistic分布。
Logistic回归模型的一般形式为:
Figure BDA0002446652650000202
其中:P是欺诈概率,α代表截距大小,β为回归系数,X代表独立 变量。
程序例子为:
Proc logistic data=x outset=beta;
Model target=x1 x2 x3…../selection=stepwise sle=0.05 sls=0.05Link=logit;
Run;
为了检验模型结果和优化模型,需要用测试集来评估模型。
将测试集分为20等份,每一等分的响应率,抓获率,提升度如下 表所示:
Figure BDA0002446652650000211
测试集坏样本总数为226,总交易数为315728,坏样本浓度为 0.07%。从上表可以看出,模型在5分位点抓获到坏样本109个,占总 体坏样本的48.23%,模型提升度为9.65。
采用不同的参数设置和不同变量组合,对模型进行优化,最终得 到的测试结果如下所示:
将测试集分为20等份,每一等分的响应率,抓获率,提升度如下 表所示:
Figure BDA0002446652650000221
测试集坏样本总数为226,总交易数为315728,坏样本浓度为 0.07%。从上表可以看出,模型在5分位点抓获到坏样本118个,占总 体坏样本的52.21%,模型提升度为10.44。
神经网络技术是指基于神经网络的节点及其权值的架构的模型。 神经网络是相互连接的节点的集合,每个节点有输入、输出,并可以 进行处理。在可见的输入层和输出层之间,可能有很多隐藏的处理层。 每一层的每一个处理单元和下一层的所有处理单元关联,并用权值表 示节点之间关系的紧密程度。最流行的算法是误差逆传播算法(BP)。
BP是一种通用的监督学习算法,由三个步骤构成。首先将一个数 值型的输入模式输入网络的输入层。将目标输出也作为训练数据的一 部分。最后关联权值根据梯度下降的误差最小化方法来调整,这样神 经网络可以从“经验”中学习。
神经网络方法比树型归纳更加健壮,原因在于在计算匹配函数时 每个数据点权值是不断调整的,并且通过算法调整优化了该方法。
神经网络技术的一个不足是他们一般只接收数值型数据的输入, 因此类别变量必须用one-of-N技术记录。该模型也存在过度匹配的问 题,此外,有些神经网络模型无法收敛。它们无法收敛到分析人员可 以接受的稳定预测标准。再次,有些分析人员认为神经网络是一种黑 箱方式的建模方法,很难了解其中建模的过程。
在SAS的数据挖掘工具EM中,神经网络主要是指前馈神经网络。 神经网络节点结构设计中,主要有多层感知器神经网络和RBF神经网 络。神经网络由输入层,隐含层,输出层构成。网络的复杂程度由隐 含层决定。训练技术有Conjugate Gradient,DoubleDogleg,Trust Region,Levenberg_Marguardt,Newton_Raphson,Quasi_newton, StandardBackprop,Rprop,Quickprop,Incremental backprop等方 法。其中较为常用的是Levenberg_Marquardt,Quasi_newton Techniques和Conjugate Gradient Techniques。Levenberg_Marquardt 训练速度较快,但需要内存较大,适合于小型网络。Quasi-Newtontechniques训练代数较Levenberg_Marquardt多,适合于中型网络, Conjugate GradientTechniques,需要内存较少,训练代数较多,适 合于大型网络。
在该项目中,用多层感知器和RBF神经网络进行比较,发现多层 感知器较优。在多层感知器神经网络中,训练技术设置为 Levenerg_Marguardt,隐含层神经元设为1层,神经元个数设为1个, 2个,3个,4个,5个,6个分别进行尝试,然后由评分效果决定最佳 模型。经过多次尝试,最终选用隐含层一个神经元的网络效果较好。
神经网络最后的模型参数如下所示:
Figure BDA0002446652650000241
为了检验模型结果和优化模型,需要用测试集来评估模型。将测 试集分为20等份,每一等分的响应率,抓获率,提升度如下表所示:
Figure BDA0002446652650000242
Figure BDA0002446652650000251
测试集坏样本总数为226,总交易数为315728,坏样本浓度为 0.07%。从上表可以看出,模型在5分位点抓获到坏样本120个,占总 体坏样本的53.10%,模型提升度为10.62。
树型归纳技术以决策树的形式构建预测模型。算法首先确定出最重 要的变量,也就是对分类影响最大的变量。然后再确定其次重要的变 量。测试条件自动确定,树型归纳的决策点称为节点,收集观测数据 的末端则称为叶节点。
在每一步,数据都分成两个或者多个组。并且应该让所有的记录尽可 能地划分成不同的组中使得混杂程度最小化。混杂程度可以用公式
Figure BDA0002446652650000252
计算,这里pi是类i的实例的比率。
从处理时间的角度而言,树型归纳是非常高效率的。并且树型归 纳还提供了一个非常直观地分析结果的方法。树的层次可以由两种方 法控制。一种方法是定义最少观测数据量,例如规定每一个叶结点只 包含训练数据的10%。另外一种方法是规定树允许的最大层次。而裁减 则是另外一种控制树的层次的重要方法。决策树可以被训练到和训练 数据中的真实值完全一致,但从实际预测的角度而言,这并不是最好 的,所以需要裁减。通过裁减,可以提高测试数据和预测分析的准确 性。裁减减小了树的尺寸,从而使树更具有可读性,也更利于理解和 解释。基本的裁减方法是最小描述长度方法。
树型归纳也有不少的缺点。其中一个就是有些分类器只支持特定 数据类型。例如,有些分类器不支持连续型变量,需要事先将连续型 变量转换成离散型变量。另外的一个不足是决策树只能解决可以将解 空间分解成连续小矩形的那些问题。第三点不足是树型归纳不是最优 的。算法确定了一种分解方式后,在出现新的数据时不再进行修改, 而这一点大多数的神经网络都能支持。并且,决策树还有碎片的问题。 为了使碎片最少,可以裁减或调整一些低层的节点以便有效缩减树的 规模。第四个和最后一个不足是数型归纳方法容易发生过度匹配 (over-fit)的问题,该模型可能会对训练数据非常有效,但是对新数据的预测则表现不佳。
决策树实在SAS的数据挖掘工具EM中,决策树有三种分叉标准:
(1).Chi_square test
(2).Entropy reduction
(3).Gini reduction
为了检验模型结果和优化模型,需要用测试集来评估模型。将测试 集分为20等份,每一等分的响应率,抓获率,提升度如下表所示:
Figure BDA0002446652650000261
Figure BDA0002446652650000271
测试集坏样本总数为226,总交易数为315728,坏样本浓度为 0.07%。从上表可以看出,模型在5分位点抓获到坏样本69个,占总 体坏样本的30.53%,模型提升度为6.11。
实施例7
本实施例在交行信用卡欺诈项目中,主要采用了逻辑回归、神经 网络、决策树三种建模方法。为了比较三个模型的优越性,需要用同 样的数据集同时用这三种方法建模,然后用ASSESSMENT节点对这三种 方法进行比较。下面对决策树、神经网络、逻辑回归三种分类模型进 行比较,比较结果如下图所示:
图2是响应率图,它是指每十分位数抓到的有欺诈行为的交易数 比上该十分位数上所有交易数目。从该图可看出logistic回归和神经 网络效果明显好于决策树,logistic回归和神经网络结果十分接近。
图3是抓获率图,它是指每十分位数抓到的有欺诈行为的交易比 上所有有欺诈行为的交易数比率,从该图可看出logistic回归和神经 网络效果明显好于决策树,logistic回归和神经网络结果十分接近。
图4是模型提升度比较图,它代表每十分位数上建模与不建模提 高抓获能力的倍数。通过上面的比较,logistic回归和神经网络的效 果明显优于决策树,logistic回归和神经网络十分接近。
通过前面的尝试,发现logistic回归模型和神经网络在本项目中 效果明显好于决策树,logistic回归和神经网络结果十分接近。由于 logistic回归的可解释性更好最终选用Logistic回归模型为最终建 模方法。通过不断调优,最终得到的模型结果如下表所示:
Figure BDA0002446652650000272
Figure BDA0002446652650000281
将测试集分为20等份,每一等分的响应率,抓获率,提升度如下 表所示:
Figure BDA0002446652650000282
测试集的坏样本总数为226,总交易数为315728,坏样本浓度为 0.07%。从上表可以看出,模型在5分位点抓获到坏样本118个,占总 体坏样本的52.21%,模型提升度为10.44,在10分位点抓获到坏样本 145,占坏样本的64.16%,模型提升度为6.42。
实施例8
本实施例本部分将对模型选取的指标进行详细的解释,并在此基 础上,将本数据挖掘模型与系统的经验规则进行对比。
本次数据挖掘最终进行模型的指标共8个,其中5个为离散变量 的IV值,另外三个为连续变量,如下表所示:
Figure BDA0002446652650000291
下表是卡组织这一离散变量的分段及每段的IV取值情况:
Figure BDA0002446652650000292
从这一指标的IV值来看,当某张卡所属的卡组织为Visa, Master时,这张卡的欺诈的概率就会提高,而所属于Amer,JCB或Jin 这些卡组织,则欺诈的概率大大降低。这一结论也是符合外卡交易的 实际情况的,通过对05-06年5月发生假卡欺诈的外卡交易分析,发 现假卡交易均集中在Visa,Master这两个卡组织上。下表是对05-06 年发生的假卡交易按卡组织进行统计的情况。
Figure BDA0002446652650000293
商户的行业分类采用交行上海分行的行业分类方法,共分为11类, 具体的分类方法及各组的IV取值情况如下表所示:
Figure BDA0002446652650000301
结合各行业的IV取值及这一指标的系数分析,超市类商户(MCC码 为5411)发生假卡欺诈的概率最高,其次为家电类(MCC码为5722) 商户,而发生假卡欺诈概率最低的两个行业为旅店、酒店、饭馆、宾 馆(Mcc码为7011)和餐馆(MCC码为5812)。这一结论比较符合实际 的外卡交易情况,下表是对05年-06年5月的外卡欺诈交易按商户行 业进行统计的情况。可以发现,超市发生的假卡欺诈交易最多,而家 电类的假卡交易占其全部交易数的比率最高。
Figure BDA0002446652650000302
Figure BDA0002446652650000311
下表是三天内交易次数的分段及各组IV取值情况。
Figure BDA0002446652650000312
若某张卡3天的交易次数在3至6次之间,则这张卡发生欺诈交 易的概率较高,而3天内只交易一次的卡,其欺诈的概率最低。从05 年-06年5月份外卡交易情况的分析也可以发现这一规律。下表是对 05年-06年5月份所有外卡交易的三天内交易次数的统计情况。
Figure BDA0002446652650000313
下表是某张卡当天交易失败次数的分段及各组的Iv取值情况:
Figure BDA0002446652650000314
Figure BDA0002446652650000321
结合IV取值分析,发现当某张卡当天失败交易次数为1-3次时, 这张卡为伪卡的概率最高。下表对05年-06年5月份外卡交易按当天 失败交易次数的统计情况。
Figure BDA0002446652650000322
下表是卡到期年限这一指标的分段及IV取值情况:
Figure BDA0002446652650000323
结合各分段的Iv取值情况分析,发现当年到期的卡其伪卡欺诈的概 率最高,而1-5年内到期的卡其伪卡欺诈的概率最低。下表是对05 年-06年5月份所有外卡交易按卡到期年限分类汇总的情况。如图5 所示。
Figure BDA0002446652650000324
本模型指标共有三个指标为连续变量,分别为同卡号三天交易总 金额(sum3d_ms)、同卡号三天交易金额最大值(max36_ms)以及同卡号 当天交易总金额(sum_mccs)。结合这三个指标的权重可以发现,若某 张卡在一天及三天内在所有商户的交易总金额越高,其欺诈的概率越 高,在这种情况下,若这张卡的三天内单笔交易金额最大值较高时, 则这张卡的欺诈概率会略微降低。
商户欺诈风险监控系统通过经验规则和外卡欺诈模型对每天的信 用卡交易进行监控,识别出风险较大的交易,以便及早采取相应措施, 将欺诈风险防范于未然。经验规则是交行信用卡风险管理人员多年风 险控制的经验总结,而外卡欺诈模型则是数据挖掘人员在业务分析的 基础上,结合经验规则建立起来的。下表是本外卡欺诈模型的初始变 量与经验规则对照情况列表,底色为绿色的为最终进入模型的变量。
Figure BDA0002446652650000332
Figure BDA0002446652650000341
从上表中可以看出,外卡欺诈模型在选取变量时共考虑了6条经 验规则,剩下3条没考虑的均为针对商户的经验规则。此外初始变量 的选取还结合了一些业务经验,如商户类型、商户所在地区、交易时 间等变量。最终进入模型的变量共8条,其中有4个变量包含了5条 经验规则信息,可以说外卡欺诈模型包含了经验规则中的知识,但并 不局限于经验规则,因此所涵盖的信息量更大。
分析上表中的经验规则,可以发现经验规则是从交易金额和交易 次数两方面考虑进行风险控制的。下面从交易金额和交易笔数这两方 面比较经验规则和外卡欺诈模型。
(1)交易金额
商户欺诈风险监控系统每天将符合用户设定条件的交易信息均列 示出来,以供风险控制人员做进一步的风险判断。一般情况下,用户 设定的交易金额方面的参数均为某整百或整千位数。事实上,随着信 用卡犯罪人员欺诈手法的提高,很少欺诈交易的交易金额为整百、整 千位数。通过对05年-06年5月份外卡假卡欺诈交易的交易金额进行 分析,发现绝大多数的假卡交易其交易金额并不是整千位数,如下表 所示:
Figure BDA0002446652650000342
Figure BDA0002446652650000351
【注】:上表中‘1’表示交易金额能被1000整除,0表示交易金 额不能被1000整除。
如用户将规则3——同一交易日,同卡号交易超金额——的参数设 置为5000元,则系统会将所有同卡号单笔交易金额超过5000元的交 易列示出来,而并不考虑交易金额在4500-4999之间的所有交易。而 外卡欺诈模型利用多条指标对某条交易进行综合评分,并不单单考虑 交易金额这一因素,这样若交易金额在4500-4999之间,并且其他几 个指标的评分也很低,则系统同样会给出风险提示。反之,只有交易 金额超过5000元,但其他几个指标的评分都很高,则系统并不会给出 提示。因此,可以说外卡欺诈模型弥补了经验规则在交易金额参数设 置这一方面上的缺陷。
(2)交易笔数
交易笔数这方面经验规则其设计的出发点是若某张卡\某商户在 一天或三天内交易次数过多的话,则发生假卡欺诈或商户欺诈的可能 性较大,系统即会给出提示,提醒风控人员关注。通过分析05年-06 年5月假卡欺诈交易发现,并不是某张卡刷卡次数越多其发生欺诈的 概率就越大的,事实上当刷卡次数超过一定数值,其欺诈的可能性反 而在降低。下表是对同张卡在同一商户一天内刷卡次数(规则4)的统 计情况,可以发现刷卡次数小于6次时,假卡欺诈交易占比随着刷卡 次数的增加而逐步提高,同一交易日同商户刷卡次数超过6次的基本 上没有出现假卡交易。
Figure BDA0002446652650000352
Figure BDA0002446652650000361
若用户将规则4的参数设定为3,则系统会将当天同一商户刷卡次 数超过3次的所有交易均会给出风险提示,这与实际的外卡欺诈模式 有不符之处。而数据挖掘模型通过对离散变量分组计算IV值,将这一 情况反映在模型中。
实施例9
本实施例将本发明的方法具体应用,对于外卡欺诈模型作为商户 欺诈风险监控系统的一个重要的组成部分,同经验规则模型一样,每 天会对风险较高的外卡交易给出提示。提示的方式以卡为单位,每天 列示出一百张左右的交易卡列表,列表按模型评分从低到高排列,排 在最前面的表明模型评分最低,这张卡为伪卡的概率最高。用户可以 通过查看这张卡三天内在所有商户的交易记录,给出最终的风险判断。
日终系统会根据当天外卡交易信息并结合三天内该卡的交易信 息,按照欺诈概率的高低,列示100张欺诈可能性最高的信用卡。同 时附加提供的信息包括
Figure BDA0002446652650000362
Figure BDA0002446652650000371
风险管理人员可以进一步点击查看详细的交易信息,内容包括:
卡种 当天失败交易次数 当天交易次数 三天交易次数 三天交易总金额 三天交易金额最大值
外卡欺诈模型是在充分理解信用卡收单业务的基础上建立起来 的,利用测试数据对模型进行检验,达到了很好的预测效果。信用卡 风险控制人员可以将模型的结果作为评判某条交易风险程度的一个参 考。在评判系统根据经验规则列出的某条交易的风险程度时,风控人 员可以参考外卡欺诈模型对这条交易的评分,以便做出合理的决策。 若某条交易即符合设定的经验规则,又在外卡欺诈模型给出的交易列 表中出现,则这条交易为欺诈交易的概率非常高,需要风控人员进行 重点关注。
数据挖掘模型并非开发后就一成不变,随着时间的推移,外界 环境可能发生了变化,欺诈的手法、模式也可能发生了变化,这些都 会导致模型的适用性降低,因此,模型上线以后要持续的跟踪,根据 模型的反馈结果对模型进行调整,这是一个不断反复的过程。
此外,数据挖掘模型的建立并非取代传统的经验规则,而是二者 会为补充,挖掘模型对大多数的欺诈行为能够发挥期速度快、效果好 的优点;经验规则能够针对个性化的商户欺诈弥补模型的不足。对于 挖掘模型和经验规则的组合应用,可以用下图表示,按照欺诈模型和 经验规则是否有风险提示,把结果划分为四个区域,四个区域分别是 正常交易、个别关注、关注和高欺诈可能性交易。
综上,本发明通过数据挖掘的手段对大量的信用卡交易数据进行 分析,建立信用卡欺诈分析模型,识别出高欺诈风险的信用卡交易, 并及时进行预警提示,通过数据挖掘技术构建的信用卡欺诈评分模型 既可以为银行决策层了解整体风险分布情况,为风险管理提供基础或 将信用卡欺诈评分模型应用到收单业务之中,指导收单的业务操作。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不 使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述方法包括以下步骤:
S1根据金融部门商业目标,确定数据挖掘的目的和目标;
S2根据S1中确定的目的和目标确认数据源,并进行数据收集;
S3对收集的数据进行筛选,为数据挖掘准备数据;
S4对筛选后的数据进行质量检测,对检测后的数据进行数据整合;
S5对检测到的挖掘需要的数据、格式或变量后,进行数据转换;
S6使用不同的方法对转换后的数据进行数据挖掘得到结果数据;
S7根据信用卡收单业务情况、数据挖掘目标和商业目的来评估和解释挖掘的结果数据,形成信用卡欺诈信用评分模型;
S8利用信用卡欺诈评分模型既为银行决策层了解整体风险分布情况,为风险管理提供基础,并将其应用到收单业务之中,指导收单的业务操作。
2.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,确认数据源的时候收集全面的信息,其数据类型为业务数据、数据库/数据仓库中存储的数据或外部数据,如果银行内部不能满足构建模型所需的数据,则进行外部收集从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到所需要的外部数据。
3.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,对信用卡欺诈信用评分模型建设时,其模型数据选取评分的交易数据、变量提炼的交易数据、商户资料的数据或目标变量表。
4.根据权利要求3所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述外卡清算的数据是POS.LOG中的外卡交易记录做清算后的数据,清算的方法是返回码为‘00’,交易码为‘OFFL’,‘PRPU’,‘PURC’的交易,如果返回码为‘AUTO’,‘CANC’,则通过c_retrnum撤销或冲正相应的交易;
所述评分的交易数据加上POS.LOG中返回码不是‘00’,交易码为‘PURC’和‘OFFL’,卡号或终端号在EDCLOG中出现的外卡交易数据,后者的数据用于统计银行卡,商户和终端号的失败交易的信息;
所述商户资料的数据是评分的交易数据中出现的商户,在外卡商户资料数据中找出相关的商户信息数据,用到的信息有终端编号、邮政编码和商户类型;
所述目标变量表为查单记录中出现过的所有假卡、伪卡的卡号,并把EDCLOG中这些卡号的所有交易当作目标变量。
5.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述数据转换中,对于每个连续变量,作本身标准化,商户标准化,和MCC码行业标准化,采用对指标进行正态标准化(0,.1)来消除量纲的影响,对于离散数据,作数据水平归并和IV值转换。
6.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述信用卡欺诈信用评分模型为分类模型,所述信用卡欺诈信用评分模型用Logistic回归、神经网络和决策树方法分别建模,然后通过模型结果比较选择最佳模型。
7.根据权利要求6所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述Logistic回归Logistic曲线对应logistic模型,所述Logistic曲线是(0,1)区间的S形曲线,并且在Xi→-∞的情况下E(Yi)→0,在Xi→+∞时E(Yi)→1;
所述logistic模型用公式
Figure FDA0002446652640000021
表示,这里Yi是第i个响应变量,对于响应来说该值为1,对于不响应来说该值为0,所述logistic回归模型的区间在(0,1)范围内;
对于Logistic回归模型的形式为:
Figure FDA0002446652640000022
其中:P是欺诈概率,α代表截距大小,β为回归系数,X代表独立变量。
8.根据权利要求6所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述神经网络是基于神经网络的节点及其权值的架构的模型,是相互连接的节点的集合,每个节点有输入、输出,并可以进行处理,其在可见的输入层和输出层之间有隐藏的处理层,每一层的每一个处理单元和下一层的所有处理单元关联,并用权值表示节点之间关系的紧密程度,所述神经网络计算匹配函数时每个数据点权值不断调整,并且通过算法进行调整优化。
9.根据权利要求6所述的商户欺诈风险监控系统的数据挖掘方法,其特征在于,所述决策树的算法首先确定出最重要的变量,然后再确定其次重要的变量,对测试条件自动确定,其树型归纳的决策点为节点,收集观测数据的末端为叶节点,在每一步,数据都分成两个或者多个组,并且应该让所有的记录尽可能地划分成不同的组中使得混杂程度最小化,混杂程度用公式
Figure FDA0002446652640000031
计算,这里pi是类i的实例的比率;所述决策树的层次由两种方法控制分别是定义最少观测数据量和规定树允许的最大层次,并通过裁减,提高测试数据和预测分析的准确性。
10.一种商户欺诈风险监控系统,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现如权利要求1至9中任一项所述的商户欺诈风险监控系统的数据挖掘方法。
CN202010281225.4A 2020-04-11 2020-04-11 一种商户欺诈风险监控系统及数据挖掘方法 Pending CN111612606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010281225.4A CN111612606A (zh) 2020-04-11 2020-04-11 一种商户欺诈风险监控系统及数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281225.4A CN111612606A (zh) 2020-04-11 2020-04-11 一种商户欺诈风险监控系统及数据挖掘方法

Publications (1)

Publication Number Publication Date
CN111612606A true CN111612606A (zh) 2020-09-01

Family

ID=72203713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281225.4A Pending CN111612606A (zh) 2020-04-11 2020-04-11 一种商户欺诈风险监控系统及数据挖掘方法

Country Status (1)

Country Link
CN (1) CN111612606A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200488A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 针对业务对象的风险识别模型训练方法及装置
CN112581271A (zh) * 2020-12-21 2021-03-30 上海浦东发展银行股份有限公司 一种商户交易风险监测方法、装置、设备及存储介质
CN112926992A (zh) * 2021-04-08 2021-06-08 交通银行股份有限公司北京市分行 收单业务的风险控制方法及装置
CN113344576A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种业务欺诈监测方法及系统
CN114693188A (zh) * 2022-05-31 2022-07-01 四川骏逸富顿科技有限公司 一种药品零售行业风险监管方法、系统和设备
CN115660689A (zh) * 2022-11-03 2023-01-31 淮阴工学院 一种基于区块链金融诈骗的用户行为监测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679777A (zh) * 2013-12-02 2015-06-03 中国银联股份有限公司 一种用于检测欺诈交易的方法及系统
CN105590261A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 商户风险估算方法及系统
US20170140461A1 (en) * 2014-03-05 2017-05-18 Marc Abramowitz System and method for generating a dynamic credit risk rating for a debt security
WO2018084867A1 (en) * 2016-11-07 2018-05-11 Equifax Inc. Optimizing automated modeling algorithms for risk assessment and generation of explanatory data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679777A (zh) * 2013-12-02 2015-06-03 中国银联股份有限公司 一种用于检测欺诈交易的方法及系统
US20170140461A1 (en) * 2014-03-05 2017-05-18 Marc Abramowitz System and method for generating a dynamic credit risk rating for a debt security
CN105590261A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 商户风险估算方法及系统
WO2018084867A1 (en) * 2016-11-07 2018-05-11 Equifax Inc. Optimizing automated modeling algorithms for risk assessment and generation of explanatory data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙权 等: ""基于数据挖掘的商户风险评分方法和系统"", 《软件产业与工程》 *
鲁志军 等: ""数据挖掘在交易欺诈侦测中的应用"", 《软件产业与工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200488A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 针对业务对象的风险识别模型训练方法及装置
CN112200488B (zh) * 2020-10-28 2023-07-25 支付宝(杭州)信息技术有限公司 针对业务对象的风险识别模型训练方法及装置
CN112581271A (zh) * 2020-12-21 2021-03-30 上海浦东发展银行股份有限公司 一种商户交易风险监测方法、装置、设备及存储介质
CN112581271B (zh) * 2020-12-21 2022-11-15 上海浦东发展银行股份有限公司 一种商户交易风险监测方法、装置、设备及存储介质
CN112926992A (zh) * 2021-04-08 2021-06-08 交通银行股份有限公司北京市分行 收单业务的风险控制方法及装置
CN113344576A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种业务欺诈监测方法及系统
CN114693188A (zh) * 2022-05-31 2022-07-01 四川骏逸富顿科技有限公司 一种药品零售行业风险监管方法、系统和设备
CN115660689A (zh) * 2022-11-03 2023-01-31 淮阴工学院 一种基于区块链金融诈骗的用户行为监测方法及装置

Similar Documents

Publication Publication Date Title
CN111612606A (zh) 一种商户欺诈风险监控系统及数据挖掘方法
Cho et al. A hybrid approach based on the combination of variable selection using decision trees and case-based reasoning using the Mahalanobis distance: For bankruptcy prediction
Lin et al. Detecting the financial statement fraud: The analysis of the differences between data mining techniques and experts’ judgments
Geng et al. Prediction of financial distress: An empirical study of listed Chinese companies using data mining
US7296734B2 (en) Systems and methods for scoring bank customers direct deposit account transaction activity to match financial behavior to specific acquisition, performance and risk events defined by the bank using a decision tree and stochastic process
US8032448B2 (en) Detecting and measuring risk with predictive models using content mining
Chen Classifying credit ratings for Asian banks using integrating feature selection and the CPDA-based rough sets approach
WO2011152087A1 (ja) 経済活動指標提示システム
CN111191921A (zh) 一种小微企业经营状况风控分析系统
Zurada et al. Comparison of the performance of several data mining methods for bad debt recovery in the healthcare industry
CN109102386A (zh) 基于大数据的风险控制方法及装置
Chakraborty et al. Prediction of corporate financial health by artificial neural network
Bach et al. Selection of variables for credit risk data mining models: preliminary research
Ha Behavioral assessment of recoverable credit of retailer’s customers
Wagdi et al. The integration of big data and artificial neural networks for enhancing credit risk scoring in emerging markets: Evidence from Egypt
Al-Qerem et al. Default prediction model: the significant role of data engineering in the quality of outcomes.
Zhai et al. Big data analysis of accounting forecasting based on machine learning
Wang et al. Stock return prediction based on Bagging-decision tree
Shah Developing financial distress prediction models using cutting edge recursive partitioning techniques: a study of Australian mining performance
Normah et al. Comparison of Classification C4. 5 Algorithms and Naïve Bayes Classifier in Determining Merchant Acceptance on Sponsorship Program
Hoechstoetter et al. Recovery rate modelling of non-performing consumer credit using data mining algorithms
Mahesh et al. Impact of COVID-19 Towards Top Listed Companies and Capital Markets with Reference to NSE
Budd Modelling credit card usage for individual card-holders
PORTUGAL SYSTEM FOR FRAUD DETECTION: CUSTOMER SEGMENTATION AND PREDICTIVE ANALYSIS
Dlamini et al. Department of Computer Science, University of Pretoria, Pretoria 0028, South Africa u12309355@ tuks. co. za,{lmarshall, abiodun. modupe}@ cs. up. ac. za

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901