CN111612606A

CN111612606A - 一种商户欺诈风险监控系统及数据挖掘方法

Info

Publication number: CN111612606A
Application number: CN202010281225.4A
Authority: CN
Inventors: 卢意
Original assignee: Bank of Communications Co Ltd Shanghai Branch
Current assignee: Bank of Communications Co Ltd Shanghai Branch
Priority date: 2020-04-11
Filing date: 2020-04-11
Publication date: 2020-09-01

Abstract

本发明涉及金融风控技术领域，具体涉及一种商户欺诈风险监控系统及数据挖掘方法，本发明根据金融部门商业目标，确定数据挖掘的目的和目标；根据目的和目标确认数据源，并进行数据收集；对收集的数据进行筛选，为数据挖掘准备数据；对筛选后的数据进行质量检测，对检测后的数据进行数据整合；对检测到的挖掘需要的数据、格式或变量后，进行数据转换；使用不同的方法对转换后的数据进行数据挖掘得到结果数据；本发明通过数据挖掘的手段对大量的信用卡交易数据进行分析，建立信用卡欺诈分析模型，识别出高欺诈风险的信用卡交易，并及时进行预警提示，为风险管理提供基础或将信用卡欺诈评分模型应用到收单业务之中，指导收单的业务操作。

Description

一种商户欺诈风险监控系统及数据挖掘方法

技术领域

本发明涉及金融风控技术领域，具体涉及一种商户欺诈风险监控系统及数据挖掘方法。

背景技术

随着交行收单交易量大幅度增加，成为仅次于工行的上海第二大收单行。同时信用卡欺诈活动日益猖獗，商户风险管理的滞后正在成为信用卡业务拓展和创利的最大障碍之一。为了降低商户风险带来的损失，提高信用卡商户的整体管理水平，商户风险管理成为私人金融业务部的重要工作内容。

如上所述，如何改变交行信用卡商户风险管理工作辛苦效率较低的现状，如何提高商户风险管理的自动化、科学化、实效性水平，以适应交行信用卡收单业务的高速发展，建设准确、高效、易用的信用卡商户风险监控管理系统是关键因素之一，因此有必要引入高端IT技术对收单行业务的信用卡商户欺诈风险进行有效监控和管理。

发明内容

针对现有技术的不足，本发明公开了一种商户欺诈风险监控系统及数据挖掘方法，以期通过数据挖掘的手段对大量的信用卡交易数据进行分析，建立信用卡欺诈分析模型，识别出高欺诈风险的信用卡交易，并及时进行预警提示，对收单行业务的信用卡商户欺诈风险进行有效监控和管理。

本发明通过以下技术方案予以实现：

第一方面，本发明公开一种商户欺诈风险监控系统的数据挖掘方法，所述方法包括以下步骤：

S1根据金融部门商业目标，确定数据挖掘的目的和目标；

S2根据S1中确定的目的和目标确认数据源，并进行数据收集；

S3对收集的数据进行筛选，为数据挖掘准备数据；

S4对筛选后的数据进行质量检测，对检测后的数据进行数据整合；

S5对检测到的挖掘需要的数据、格式或变量后，进行数据转换；

S6使用不同的方法对转换后的数据进行数据挖掘得到结果数据；

S7根据信用卡收单业务情况、数据挖掘目标和商业目的来评估和解释挖掘的结果数据，形成信用卡欺诈信用评分模型；

S8利用信用卡欺诈评分模型既为银行决策层了解整体风险分布情况，为风险管理提供基础，并将其应用到收单业务之中，指导收单的业务操作。

更进一步的，确认数据源的时候收集全面的信息，其数据类型为业务数据、数据库/数据仓库中存储的数据或外部数据，如果银行内部不能满足构建模型所需的数据，则进行外部收集从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到所需要的外部数据。

更进一步的，对信用卡欺诈信用评分模型建设时，其模型数据选取评分的交易数据、变量提炼的交易数据、商户资料的数据或目标变量表。

更进一步的，所述外卡清算的数据是POS.LOG中的外卡交易记录做清算后的数据，清算的方法是返回码为‘00’，交易码为‘OFFL’， ‘PRPU’，‘PURC’的交易，如果返回码为‘AUTO’，‘CANC’，则通过 c_retrnum撤销或冲正相应的交易；

所述评分的交易数据加上POS.LOG中返回码不是‘00’，交易码为 ‘PURC’和‘OFFL’，卡号或终端号在EDCLOG中出现的外卡交易数据，后者的数据用于统计银行卡，商户和终端号的失败交易的信息；

所述商户资料的数据是评分的交易数据中出现的商户，在外卡商户资料数据中找出相关的商户信息数据，用到的信息有终端编号、邮政编码和商户类型；

所述目标变量表为查单记录中出现过的所有假卡、伪卡的卡号，并把EDCLOG中这些卡号的所有交易当作目标变量。

更进一步的，所述数据转换中，对于每个连续变量，作本身标准化，商户标准化，和MCC码行业标准化，采用对指标进行正态标准化 (0,.1)来消除量纲的影响，对于离散数据，作数据水平归并和IV值转换。

更进一步的，所述信用卡欺诈信用评分模型为分类模型，所述信用卡欺诈信用评分模型用Logistic回归、神经网络和决策树方法分别建模，然后通过模型结果比较选择最佳模型。

更进一步的，所述Logistic回归Logistic曲线对应logistic模型，所述Logistic曲线是(0，1)区间的S形曲线，并且在X_i→-∞的情况下E(Y_i)→0，在X_i→+∞时E(Y_i)→1；

所述logistic模型用公式

表示，这里Y_i是第i个响应变量，对于响应来说该值为1，对于不响应来说该值为0，所述 logistic回归模型的区间在(0,1)范围内；

对于Logistic回归模型的形式为：

其中：P是欺诈概率，α代表截距大小，β为回归系数，X代表独立变量。

更进一步的，所述神经网络是基于神经网络的节点及其权值的架构的模型，是相互连接的节点的集合，每个节点有输入、输出，并可以进行处理，其在可见的输入层和输出层之间有隐藏的处理层，每一层的每一个处理单元和下一层的所有处理单元关联，并用权值表示节点之间关系的紧密程度，所述神经网络计算匹配函数时每个数据点权值不断调整，并且通过算法进行调整优化。

更进一步的，所述决策树的算法首先确定出最重要的变量，然后再确定其次重要的变量，对测试条件自动确定，其树型归纳的决策点为节点，收集观测数据的末端为叶节点，在每一步，数据都分成两个或者多个组，并且应该让所有的记录尽可能地划分成不同的组中使得混杂程度最小化，混杂程度用公式

计算，这里p_i是类i 的实例的比率；所述决策树的层次由两种方法控制分别是定义最少观测数据量和规定树允许的最大层次，并通过裁减，提高测试数据和预测分析的准确性。

第二方面，本发明公开一种商户欺诈风险监控系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现第一方面所述的商户欺诈风险监控系统的数据挖掘方法。

本发明的有益效果为：

本发明通过数据挖掘的手段对大量的信用卡交易数据进行分析，建立信用卡欺诈分析模型，识别出高欺诈风险的信用卡交易，并及时进行预警提示，通过数据挖掘技术构建的信用卡欺诈评分模型既可以为银行决策层了解整体风险分布情况，为风险管理提供基础或将信用卡欺诈评分模型应用到收单业务之中，指导收单的业务操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种商户欺诈风险监控系统的数据挖掘方法的原理步骤图。

图2是对决策树、神经网络、逻辑回归三种分类模型进行比较的响应率图。

图3是对决策树、神经网络、逻辑回归三种分类模型进行比较的抓获率图。

图4是对决策树、神经网络、逻辑回归三种分类模型进行比较的模型提升度比较图。

图5是05年－06年5月份所有外卡交易按卡到期年的限欺诈比率分析图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开如图1所示的一种商户欺诈风险监控系统的数据挖掘方法，所述方法包括以下步骤：

S1根据金融部门商业目标，确定数据挖掘的目的和目标；

S2根据S1中确定的目的和目标确认数据源，并进行数据收集；

S3对收集的数据进行筛选，为数据挖掘准备数据；

确认数据源的时候收集全面的信息，其数据类型为业务数据、数据库/数据仓库中存储的数据或外部数据，如果银行内部不能满足构建模型所需的数据，则进行外部收集从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到所需要的外部数据。

对信用卡欺诈信用评分模型建设时，其模型数据选取评分的交易数据、变量提炼的交易数据、商户资料的数据或目标变量表。

外卡清算的数据是POS.LOG中的外卡交易记录做清算后的数据，清算的方法是返回码为‘00’，交易码为‘OFFL’，‘PRPU’，‘PURC’的交易，如果返回码为‘AUTO’，‘CANC’，则通过c_retrnum撤销或冲正相应的交易；

评分的交易数据加上POS.LOG中返回码不是‘00’，交易码为‘PURC’ 和‘OFFL’，卡号或终端号在EDCLOG中出现的外卡交易数据，后者的数据用于统计银行卡，商户和终端号的失败交易的信息；

商户资料的数据是评分的交易数据中出现的商户，在外卡商户资料数据中找出相关的商户信息数据，用到的信息有终端编号、邮政编码和商户类型；

目标变量表为查单记录中出现过的所有假卡、伪卡的卡号，并把 EDCLOG中这些卡号的所有交易当作目标变量。

数据转换中，对于每个连续变量，作本身标准化，商户标准化，和MCC码行业标准化，采用对指标进行正态标准化(0,.1)来消除量纲的影响，对于离散数据，作数据水平归并和IV值转换。

信用卡欺诈信用评分模型为分类模型，所述信用卡欺诈信用评分模型用Logistic回归、神经网络和决策树方法分别建模，然后通过模型结果比较选择最佳模型。

Logistic回归Logistic曲线对应logistic模型，所述Logistic 曲线是(0，1)区间的S形曲线，并且在X_i→-∞的情况下E(Y_i)→0，在X_i→+∞时E(Y_i)→1；

所述logistic模型用公式

对于Logistic回归模型的形式为：

神经网络是基于神经网络的节点及其权值的架构的模型，是相互连接的节点的集合，每个节点有输入、输出，并可以进行处理，其在可见的输入层和输出层之间有隐藏的处理层，每一层的每一个处理单元和下一层的所有处理单元关联，并用权值表示节点之间关系的紧密程度，所述神经网络计算匹配函数时每个数据点权值不断调整，并且通过算法进行调整优化。

决策树的算法首先确定出最重要的变量，然后再确定其次重要的变量，对测试条件自动确定，其树型归纳的决策点为节点，收集观测数据的末端为叶节点，在每一步，数据都分成两个或者多个组，并且应该让所有的记录尽可能地划分成不同的组中使得混杂程度最小化，混杂程度用公式

计算，这里p_i是类i的实例的比率；所述决策树的层次由两种方法控制分别是定义最少观测数据量和规定树允许的最大层次，并通过裁减，提高测试数据和预测分析的准确性。

实施例2

本实施例中，依据吉贝克数据挖掘项目实施经验，严格按照数据挖掘通用方法论执行，整个数据挖掘过程可以分为以下10个步骤：它们分别是业务目的确定、数据源识别、数据收集、数据选择、数据质量审核、数据转换、数据挖掘、结果解释、应用建议和结果应用。

(1)商业目标确定：明确数据挖掘的目的或目标是成功完成任何数据挖掘项目的关键，例如确定项目的目标是构建信用卡欺诈分析模型。

(2)确认数据源：在给定数据挖掘的商业目标情况下，下一个步骤是寻找可以解决和回答商业问题的数据。构建欺诈分析模型所需要的是关于信用卡交易的大量信息，应该尽量收集全面的信息。所需要的数据可能是业务数据，可能是数据库/数据仓库中存储的数据，也可能是外部数据。如果没有所需的数据，那么数据收集就是下一个必需的步骤。

(3)数据收集：如果银行内部不能满足构建模型所需的数据，就需要从外部收集，主要是从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到。

(4)数据筛选：在数据挖掘项目中第四个步骤是对收集的数据进行筛选，为挖掘准备数据。在实际项目中因为计算处理能力和项目期限，在挖掘项目中想用到所有数据是不可能实现的，因此数据筛选是必不可少的。数据筛选考虑的因素包括数据样本的大小和质量。

(5)数据质量检测：一旦数据被筛选出来，成功的数据挖掘的下一步是数据质量检测和数据整合。目的就是提高筛选出来数据的质量。如果质量太低，就需要重新进行数据筛选。

(6)数据转换：在选择并检测了挖掘需要的数据、格式或变量后，在许多情况下数据转换非常必要。数据挖掘项目中的特殊转换方法取决于根据数据挖掘类型和数据挖掘工具。一旦数据转换完成，即可开始挖掘工作。

(7)数据挖掘：挖掘数据是所有数据挖掘项目最核心的部分。如果时间或其他相关诸如软件等条件允许的情况下，最好能够尝试多种不同的挖掘技巧。因为使用越多的数据挖掘技巧，可能就会解决越多的商业问题。而且使用多种不同的挖掘技巧可以对挖掘结果的质量进行检测。例如：在构建信用卡欺诈模型时分类可以通过三种方法来实现：决策树,神经分类和逻辑回归，每一种方法都可能产生出不同的结果。如果多个不同方法生成的结果都相近或相同，那么挖掘结果是很稳定，可用度非常高的。如果得到的结果不同，在使用结果制订决策前必须查证问题的所在。

(8)结果解释：数据挖掘之后应该根据信用卡收单业务情况、数据挖掘目标和商业目的来评估和解释挖掘的结果。

(9)应用建议：数据挖掘关键问题是如何把分析结果即信用卡欺诈信用评分模型转化为商业利润。

(10)结果应用：通过数据挖掘技术构建的信用卡欺诈评分模型既可以为银行决策层了解整体风险分布情况，为风险管理提供基础。当然最直接的应用就是将信用卡欺诈评分模型应用到收单业务之中，指导收单的业务操作。

实施例3

本实施例以交行为例，分析数据，交行信用卡收单行风险监控系统目标是利用先进的数据挖掘技术，对历史交易信息进行深入的分析，找出其中隐含的知识和规律，发展交易欺诈风险评分模型，识别信用卡的假卡和伪卡，找出假卡、伪卡产生的交易，并用来预测信用卡交易为欺诈的概率大小，为制定智能型反欺诈策略提供科学的依据。具体而言本系统要达到：

对海量的信用卡交易数据进行分析，建立假卡欺诈识别模型，缩短欺诈发生到识别，处理之间的时间，降低假卡造成的损失；

持续跟踪、探索新的信用卡欺诈模式，快速、灵活部署新的反欺诈策略。

实现对商户关系的管理，通过管理商户资料以及记录商户跟踪反馈情况对商户基本情况进行风险管理。

通过统计查询报表，及时反映商户交易及受益方面的统计信息，通过统计报表及图形直观反映商户交易情况。

商户欺诈的特征主要体现在商户类型及交易的时间和金额两个方面。

一般说大型、管理较为规范的商户相对比较安全，如高档宾馆(四星级以上)、大卖场、大型的零售商、百货商场等。而规模较小、成立时间短、管理不规范商户的欺诈概率比较高，如金银珠宝首饰店、小酒吧、小夜总会、古玩店、参药店等。

交易时间异常主要是指交易时间与该类型商户的正常营业时间相比异常，如酒吧一般的营业时间为晚上，若交易发生的时间在白天，则这笔交易欺诈的可能性就比较大。交易金额的异常主要体现在大额、整数金额的交易。而对于某些特殊类型的商户，如古玩店、参药店，这类商户其交易笔数较少，但单笔交易金额较大，则应关注每笔交易。

交易欺诈往往具有以下特征：

a)商户规模：这里商户规模主要体现在商户的企业性质和经营面积两个方面。一般大型、管理规范的商户相对比较安全，而规模较小、新开设的商户其欺诈的可能性相比较大；

b)商户有无欺诈动机：一般规模较小、私营、古玩、参药之类的商户其欺诈动机比较大；

c)营业性质：高消费场所出现欺诈的可能性比较大；

d)交易时间：在非营业时间出现交易则欺诈的可能性比较大；

e)交易金额：交易金额为大额、整数的，欺诈可能性较大；

f)交易商品：体积小，金额大，容易变现的商品欺诈的可能性较大；

g)交易频率：短时间内频繁交易，且金额较大的欺诈可能性较大；

h)不同国家卡连续交易：短时间内不同国家卡连续交易，且金额较大的欺诈可能性较大；

有失败记录：某交易失败后有同卡交易，欺诈的可能性较大。

则本实施例分析的信用卡欺诈风险是指：在交通银行上海分行收单的商户范围内，外卡交易所刷的信用卡为假卡的风险。

界定：

(1)假卡风险特指外卡假卡风险

(2)凡是外卡查单记录中查单原因为“假卡查单”的信用卡在本行收单商户的所有交易都界定为“假卡交易”。

分析时，交易数据为EDCLOG：外卡交易数据，是做完清算以后的交易数据。POS.LOG：间联交易数据，包括内卡本代本，本代他，他代本和外卡所有交易，这里包括失败的交易记录。POSZL.LOG：直联交易数据(通过银联来清算)，包括内卡本代本，本代他的数据，这里的数据也是清算后的交易数据。

POS.LOG中本代本、本代他区分

注1：

√	间联本代本
		√	直联本代本
√	本代他
		√	他代本

注2：POS.LOG中包含失败的交易。

POS.LOG和POSZL.LOG中交易数据的关系

注1：POS.LOG和POSZL.LOG中直联本代本的数据是重复的。

商户资料包括PDTMERCX.dat：特约商户表，包括全国的商户基本资料。NEW-TERM1-SO：上海地区商户基本资料，有上面文件加工得到。

POSSGTJT30MERTBL：外卡商户表，包含上海地区外卡商户基本资料。PDTMERCX中我们取出地区号(AREA_NO)为‘3013100’的上海地区的商户资料。每一家商户有一个15位的商户编号 (AREA_NO+TYPE+SEQ)和一个5位的终端编号，商户编号和终端编号不是一一对应的，一个终端编号可能对应多个商户编号，原因是一家商户因为类型变化等原因会调整商户编号，但是终端编号保持不变，目前交行大集中以后，新系统中两者是一一对应的。

POSSGTJT30MERTBL中是以终端编号可以唯一区分商户的。通过终端编号可以和PDTMERCX中的商户相互联系起来。

查单资料为外卡查单22.xls：030405年的外卡查单记录。06年假卡查单记录：06年每月的假卡伪卡查单记录。

实施例4

本实施例研究目前拥有的外卡交易数据(EDCLOG)，其是从2005 年1月1日开始的，间联交易数据(POS.LOG)是从2004年10月开始的，直联交易数据(POSZL.LOG)是从2004年11月开始的。由于交易数据是实际经营产生的交易信息的纪录，所以每一条交易的各个字段基本上没有缺省。

各表中各个字段的含义说明如下：

表EDCLOG：

表POS和POSZL:

由于本次建模是正对上海地区的商户，所以我们分析了PDTMERCX 中上海地区的商户资料(地区号为3013100)和上海地区外卡商户资料 (POSSGTJT30MERTBL)，由于NEW-TERM1-SO是有PDTMERCX加工得到，所以不再分析这一数据集。

特约商户表(PDTMERCX)中商户总数为106691家。由于我们关心的商户是上海分行作为收单行的商户，按照商户地区号(AREA_NO)对其作统计，得到商户地区号为3013100的商户数量为3488家，占所有商户的3.27％。字段汇总如下：

外卡商户资料表(POSSGTJT30MERTBL)中商户总数为2072家。商户资料分为基本面(包括：名称,地址,联系人等)，手工要素(包括：开通日期,入账币种,扣率等)，EDC要素三个方面，每个卡种分别纪录应还手续费。字段汇总如下：

一、EDC-VISA的资料

特约商户资料表是所有上海地区的商户，包括开通内卡和外卡的商户，每一家商户有一个15位的商户编号(AREA_NO+TYPE+SEQ)和一个5位的终端编号，商户编号和终端编号不是一一对应的，一个终端编号可能对应多个商户编号，原因是一家商户因为类型变化等原因会调整商户编号，但是终端编号保持不变，目前交行大集中以后，新系统中两者是一一对应的。终端编号是保存在ENG_NAME这个字段中，格式为‘ZD88890’，后面5位就是终端编号，在所有3488条记录中，有2183条记录有终端编号。

这个表中的记录是上海地区开通外卡的商户资料，总共有2072条记录。一家商户对应一个5位的终端编号(terminal_no)，这一字段有12条记录是缺失的，其余唯一。特约商户资料表和外卡商户资料表之间的联系，两个表通过5位的终端编号可以对应起来。

实施例5

本实施例主要进行数据清洗，通过前面的数据分析，对数据的基本质量有了一个较为清楚的了解。发现在交易数据中存在很多交易金额小于10元的交易记录，这部分数据为试卡数据，并不代表真实交易，为异常数据，在分析中不考虑这部分记录。由于原始数据中交易记录都是真实数据，交易金额等重要字段几乎没有缺失记录，因此不用作缺失值填充。

原始的数据往往预测效果较差，需要设计新的变量来捕捉欺诈特征。根据上面的业务分析，可以从原始数据中可以衍生卡交易成功次数，卡交易失败次数，交易时间，当天卡交易最大金额，最小金额，平均金额，总金额，卡交易三天成功次数，三天失败次数，三天卡交易最大金额，最小金额，平均金额，总金额，这些统计量和同商户的比较以及和同行业商户的比较等等。

本次建模设定的初始变量共18条，如下表所示：

对于每个连续变量，作本身标准化，商户标准化，和MCC码行业标准化。标准化是指通过一定的数学变换来消除原始变量量纲的影响。我们这里采用对指标进行正态标准化(0,.1)来消除量纲的影响。尽管有的指标在不同行业间具有可比性，但是大多数指标在不同的行业是没有可比性的。考虑到上述原因，我们采用指标本身标准化、按商户标准化和按MCC码行业标准化3种处理方法。

对于离散数据，作数据水平归并和IV值转换。IV值(Information Value)。转换最大的好处就是可以把缺失值或0值当成一大类来处理，而不会影响到其他正常值。我们也可以从information value看出这个变量和目标变量的相关性。

通过变量转换衍生的变量如下表所示：

为了客观地评价模型，需要将建模数据分为训练集和测试集。取 05年交易数据为训练集，06年前5个月交易数据为测试集。训练集观测数为793593，其中好样本为793061，坏样本为532。测试集观测数为315728，其中好样本为315502，坏样本为226。

由于原始样本目标变量坏样本浓度为0.07％,要用过采样的技术提高坏样本的浓度。采样只能在训练集上进行，取全部的坏样本，好样本取一定的比率。过采样比率取1：200，过采样后共4644个观测，其中好样本4112，坏样本532。

实施例6

本实施例对信用卡欺诈信用评分模型建设，信用卡欺诈属于分类模型，分类模型常见的算法有Logistic回归，神经网络，决策树。本项目用Logistic回归，神经网络，决策树三种方法分别建模，然后通过模型结果比较选择一个最佳模型。为了客观地评价模型，用2005年的交易数据建模，06年的交易数据评分。

Logistic曲线对应logistic模型。该曲线是(0，1)区间的S 形曲线，并且在X_i→-∞的情况下E(Y_i)→0，在X_i→+∞时E(Y_i)→1。该模型可以用公式

表示，这里Y_i是第i个响应变量，对于响应来说该值为1，对于不响应来说该值为0。logistic回归模型的区间在(0,1)范围内。Logistic回归模型的主要假设在于响应概率服从 logistic分布。

Logistic回归模型的一般形式为：

程序例子为:

Proc logistic data＝x outset＝beta；

Model target＝x1 x2 x3…../selection＝stepwise sle＝0.05 sls＝0.05Link＝logit；

Run；

为了检验模型结果和优化模型，需要用测试集来评估模型。

将测试集分为20等份，每一等分的响应率，抓获率，提升度如下表所示：

测试集坏样本总数为226，总交易数为315728，坏样本浓度为 0.07％。从上表可以看出，模型在5分位点抓获到坏样本109个，占总体坏样本的48.23％,模型提升度为9.65。

采用不同的参数设置和不同变量组合，对模型进行优化，最终得到的测试结果如下所示：

测试集坏样本总数为226，总交易数为315728，坏样本浓度为 0.07％。从上表可以看出，模型在5分位点抓获到坏样本118个，占总体坏样本的52.21％,模型提升度为10.44。

神经网络技术是指基于神经网络的节点及其权值的架构的模型。神经网络是相互连接的节点的集合，每个节点有输入、输出，并可以进行处理。在可见的输入层和输出层之间，可能有很多隐藏的处理层。每一层的每一个处理单元和下一层的所有处理单元关联，并用权值表示节点之间关系的紧密程度。最流行的算法是误差逆传播算法(BP)。

BP是一种通用的监督学习算法，由三个步骤构成。首先将一个数值型的输入模式输入网络的输入层。将目标输出也作为训练数据的一部分。最后关联权值根据梯度下降的误差最小化方法来调整，这样神经网络可以从“经验”中学习。

神经网络方法比树型归纳更加健壮，原因在于在计算匹配函数时每个数据点权值是不断调整的，并且通过算法调整优化了该方法。

神经网络技术的一个不足是他们一般只接收数值型数据的输入，因此类别变量必须用one-of-N技术记录。该模型也存在过度匹配的问题，此外，有些神经网络模型无法收敛。它们无法收敛到分析人员可以接受的稳定预测标准。再次，有些分析人员认为神经网络是一种黑箱方式的建模方法，很难了解其中建模的过程。

在SAS的数据挖掘工具EM中，神经网络主要是指前馈神经网络。神经网络节点结构设计中，主要有多层感知器神经网络和RBF神经网络。神经网络由输入层，隐含层，输出层构成。网络的复杂程度由隐含层决定。训练技术有Conjugate Gradient,DoubleDogleg,Trust Region,Levenberg_Marguardt,Newton_Raphson,Quasi_newton, StandardBackprop,Rprop,Quickprop,Incremental backprop等方法。其中较为常用的是Levenberg_Marquardt,Quasi_newton Techniques和Conjugate Gradient Techniques。Levenberg_Marquardt 训练速度较快，但需要内存较大，适合于小型网络。Quasi-Newtontechniques训练代数较Levenberg_Marquardt多，适合于中型网络， Conjugate GradientTechniques，需要内存较少，训练代数较多，适合于大型网络。

在该项目中，用多层感知器和RBF神经网络进行比较，发现多层感知器较优。在多层感知器神经网络中，训练技术设置为 Levenerg_Marguardt,隐含层神经元设为1层，神经元个数设为1个， 2个，3个，4个，5个，6个分别进行尝试，然后由评分效果决定最佳模型。经过多次尝试，最终选用隐含层一个神经元的网络效果较好。

神经网络最后的模型参数如下所示：

为了检验模型结果和优化模型，需要用测试集来评估模型。将测试集分为20等份，每一等分的响应率，抓获率，提升度如下表所示：

测试集坏样本总数为226，总交易数为315728，坏样本浓度为 0.07％。从上表可以看出，模型在5分位点抓获到坏样本120个，占总体坏样本的53.10％,模型提升度为10.62。

树型归纳技术以决策树的形式构建预测模型。算法首先确定出最重要的变量，也就是对分类影响最大的变量。然后再确定其次重要的变量。测试条件自动确定，树型归纳的决策点称为节点，收集观测数据的末端则称为叶节点。

在每一步，数据都分成两个或者多个组。并且应该让所有的记录尽可能地划分成不同的组中使得混杂程度最小化。混杂程度可以用公式

计算，这里p_i是类i的实例的比率。

从处理时间的角度而言，树型归纳是非常高效率的。并且树型归纳还提供了一个非常直观地分析结果的方法。树的层次可以由两种方法控制。一种方法是定义最少观测数据量，例如规定每一个叶结点只包含训练数据的10％。另外一种方法是规定树允许的最大层次。而裁减则是另外一种控制树的层次的重要方法。决策树可以被训练到和训练数据中的真实值完全一致，但从实际预测的角度而言，这并不是最好的，所以需要裁减。通过裁减，可以提高测试数据和预测分析的准确性。裁减减小了树的尺寸，从而使树更具有可读性，也更利于理解和解释。基本的裁减方法是最小描述长度方法。

树型归纳也有不少的缺点。其中一个就是有些分类器只支持特定数据类型。例如，有些分类器不支持连续型变量，需要事先将连续型变量转换成离散型变量。另外的一个不足是决策树只能解决可以将解空间分解成连续小矩形的那些问题。第三点不足是树型归纳不是最优的。算法确定了一种分解方式后，在出现新的数据时不再进行修改，而这一点大多数的神经网络都能支持。并且，决策树还有碎片的问题。为了使碎片最少，可以裁减或调整一些低层的节点以便有效缩减树的规模。第四个和最后一个不足是数型归纳方法容易发生过度匹配 (over-fit)的问题，该模型可能会对训练数据非常有效，但是对新数据的预测则表现不佳。

决策树实在SAS的数据挖掘工具EM中，决策树有三种分叉标准：

(1).Chi_square test

(2).Entropy reduction

(3).Gini reduction

测试集坏样本总数为226，总交易数为315728，坏样本浓度为 0.07％。从上表可以看出，模型在5分位点抓获到坏样本69个，占总体坏样本的30.53％,模型提升度为6.11。

实施例7

本实施例在交行信用卡欺诈项目中，主要采用了逻辑回归、神经网络、决策树三种建模方法。为了比较三个模型的优越性，需要用同样的数据集同时用这三种方法建模，然后用ASSESSMENT节点对这三种方法进行比较。下面对决策树、神经网络、逻辑回归三种分类模型进行比较，比较结果如下图所示：

图2是响应率图，它是指每十分位数抓到的有欺诈行为的交易数比上该十分位数上所有交易数目。从该图可看出logistic回归和神经网络效果明显好于决策树,logistic回归和神经网络结果十分接近。

图3是抓获率图，它是指每十分位数抓到的有欺诈行为的交易比上所有有欺诈行为的交易数比率，从该图可看出logistic回归和神经网络效果明显好于决策树,logistic回归和神经网络结果十分接近。

图4是模型提升度比较图，它代表每十分位数上建模与不建模提高抓获能力的倍数。通过上面的比较，logistic回归和神经网络的效果明显优于决策树，logistic回归和神经网络十分接近。

通过前面的尝试，发现logistic回归模型和神经网络在本项目中效果明显好于决策树，logistic回归和神经网络结果十分接近。由于 logistic回归的可解释性更好最终选用Logistic回归模型为最终建模方法。通过不断调优，最终得到的模型结果如下表所示：

测试集的坏样本总数为226，总交易数为315728，坏样本浓度为 0.07％。从上表可以看出，模型在5分位点抓获到坏样本118个，占总体坏样本的52.21％,模型提升度为10.44，在10分位点抓获到坏样本 145，占坏样本的64.16％，模型提升度为6.42。

实施例8

本实施例本部分将对模型选取的指标进行详细的解释，并在此基础上，将本数据挖掘模型与系统的经验规则进行对比。

本次数据挖掘最终进行模型的指标共8个，其中5个为离散变量的IV值，另外三个为连续变量，如下表所示：

下表是卡组织这一离散变量的分段及每段的IV取值情况：

从这一指标的IV值来看，当某张卡所属的卡组织为Visa, Master时，这张卡的欺诈的概率就会提高，而所属于Amer,JCB或Jin 这些卡组织，则欺诈的概率大大降低。这一结论也是符合外卡交易的实际情况的，通过对05－06年5月发生假卡欺诈的外卡交易分析，发现假卡交易均集中在Visa,Master这两个卡组织上。下表是对05－06 年发生的假卡交易按卡组织进行统计的情况。

商户的行业分类采用交行上海分行的行业分类方法，共分为11类，具体的分类方法及各组的IV取值情况如下表所示：

结合各行业的IV取值及这一指标的系数分析，超市类商户(MCC码为5411)发生假卡欺诈的概率最高，其次为家电类(MCC码为5722) 商户，而发生假卡欺诈概率最低的两个行业为旅店、酒店、饭馆、宾馆(Mcc码为7011)和餐馆(MCC码为5812)。这一结论比较符合实际的外卡交易情况，下表是对05年－06年5月的外卡欺诈交易按商户行业进行统计的情况。可以发现，超市发生的假卡欺诈交易最多，而家电类的假卡交易占其全部交易数的比率最高。

下表是三天内交易次数的分段及各组IV取值情况。

若某张卡3天的交易次数在3至6次之间，则这张卡发生欺诈交易的概率较高，而3天内只交易一次的卡，其欺诈的概率最低。从05 年－06年5月份外卡交易情况的分析也可以发现这一规律。下表是对 05年－06年5月份所有外卡交易的三天内交易次数的统计情况。

下表是某张卡当天交易失败次数的分段及各组的Iv取值情况：

结合IV取值分析，发现当某张卡当天失败交易次数为1－3次时，这张卡为伪卡的概率最高。下表对05年－06年5月份外卡交易按当天失败交易次数的统计情况。

下表是卡到期年限这一指标的分段及IV取值情况：

结合各分段的Iv取值情况分析，发现当年到期的卡其伪卡欺诈的概率最高，而1－5年内到期的卡其伪卡欺诈的概率最低。下表是对05 年－06年5月份所有外卡交易按卡到期年限分类汇总的情况。如图5 所示。

本模型指标共有三个指标为连续变量，分别为同卡号三天交易总金额(sum3d_ms)、同卡号三天交易金额最大值(max36_ms)以及同卡号当天交易总金额(sum_mccs)。结合这三个指标的权重可以发现，若某张卡在一天及三天内在所有商户的交易总金额越高，其欺诈的概率越高，在这种情况下，若这张卡的三天内单笔交易金额最大值较高时，则这张卡的欺诈概率会略微降低。

商户欺诈风险监控系统通过经验规则和外卡欺诈模型对每天的信用卡交易进行监控，识别出风险较大的交易，以便及早采取相应措施，将欺诈风险防范于未然。经验规则是交行信用卡风险管理人员多年风险控制的经验总结，而外卡欺诈模型则是数据挖掘人员在业务分析的基础上，结合经验规则建立起来的。下表是本外卡欺诈模型的初始变量与经验规则对照情况列表，底色为绿色的为最终进入模型的变量。

从上表中可以看出，外卡欺诈模型在选取变量时共考虑了6条经验规则，剩下3条没考虑的均为针对商户的经验规则。此外初始变量的选取还结合了一些业务经验，如商户类型、商户所在地区、交易时间等变量。最终进入模型的变量共8条，其中有4个变量包含了5条经验规则信息，可以说外卡欺诈模型包含了经验规则中的知识，但并不局限于经验规则，因此所涵盖的信息量更大。

分析上表中的经验规则，可以发现经验规则是从交易金额和交易次数两方面考虑进行风险控制的。下面从交易金额和交易笔数这两方面比较经验规则和外卡欺诈模型。

(1)交易金额

商户欺诈风险监控系统每天将符合用户设定条件的交易信息均列示出来，以供风险控制人员做进一步的风险判断。一般情况下，用户设定的交易金额方面的参数均为某整百或整千位数。事实上，随着信用卡犯罪人员欺诈手法的提高，很少欺诈交易的交易金额为整百、整千位数。通过对05年－06年5月份外卡假卡欺诈交易的交易金额进行分析，发现绝大多数的假卡交易其交易金额并不是整千位数，如下表所示：

【注】：上表中‘1’表示交易金额能被1000整除，0表示交易金额不能被1000整除。

如用户将规则3——同一交易日，同卡号交易超金额——的参数设置为5000元，则系统会将所有同卡号单笔交易金额超过5000元的交易列示出来，而并不考虑交易金额在4500－4999之间的所有交易。而外卡欺诈模型利用多条指标对某条交易进行综合评分，并不单单考虑交易金额这一因素，这样若交易金额在4500－4999之间，并且其他几个指标的评分也很低，则系统同样会给出风险提示。反之，只有交易金额超过5000元，但其他几个指标的评分都很高，则系统并不会给出提示。因此，可以说外卡欺诈模型弥补了经验规则在交易金额参数设置这一方面上的缺陷。

(2)交易笔数

交易笔数这方面经验规则其设计的出发点是若某张卡\某商户在一天或三天内交易次数过多的话，则发生假卡欺诈或商户欺诈的可能性较大，系统即会给出提示，提醒风控人员关注。通过分析05年－06 年5月假卡欺诈交易发现，并不是某张卡刷卡次数越多其发生欺诈的概率就越大的，事实上当刷卡次数超过一定数值，其欺诈的可能性反而在降低。下表是对同张卡在同一商户一天内刷卡次数(规则4)的统计情况，可以发现刷卡次数小于6次时，假卡欺诈交易占比随着刷卡次数的增加而逐步提高，同一交易日同商户刷卡次数超过6次的基本上没有出现假卡交易。

若用户将规则4的参数设定为3，则系统会将当天同一商户刷卡次数超过3次的所有交易均会给出风险提示，这与实际的外卡欺诈模式有不符之处。而数据挖掘模型通过对离散变量分组计算IV值，将这一情况反映在模型中。

实施例9

本实施例将本发明的方法具体应用，对于外卡欺诈模型作为商户欺诈风险监控系统的一个重要的组成部分，同经验规则模型一样，每天会对风险较高的外卡交易给出提示。提示的方式以卡为单位，每天列示出一百张左右的交易卡列表，列表按模型评分从低到高排列，排在最前面的表明模型评分最低，这张卡为伪卡的概率最高。用户可以通过查看这张卡三天内在所有商户的交易记录，给出最终的风险判断。

日终系统会根据当天外卡交易信息并结合三天内该卡的交易信息，按照欺诈概率的高低，列示100张欺诈可能性最高的信用卡。同时附加提供的信息包括

风险管理人员可以进一步点击查看详细的交易信息，内容包括：

卡种

当天失败交易次数

当天交易次数

三天交易次数

三天交易总金额

三天交易金额最大值

外卡欺诈模型是在充分理解信用卡收单业务的基础上建立起来的，利用测试数据对模型进行检验，达到了很好的预测效果。信用卡风险控制人员可以将模型的结果作为评判某条交易风险程度的一个参考。在评判系统根据经验规则列出的某条交易的风险程度时，风控人员可以参考外卡欺诈模型对这条交易的评分，以便做出合理的决策。若某条交易即符合设定的经验规则，又在外卡欺诈模型给出的交易列表中出现，则这条交易为欺诈交易的概率非常高，需要风控人员进行重点关注。

数据挖掘模型并非开发后就一成不变，随着时间的推移，外界环境可能发生了变化，欺诈的手法、模式也可能发生了变化，这些都会导致模型的适用性降低，因此，模型上线以后要持续的跟踪，根据模型的反馈结果对模型进行调整，这是一个不断反复的过程。

此外，数据挖掘模型的建立并非取代传统的经验规则，而是二者会为补充，挖掘模型对大多数的欺诈行为能够发挥期速度快、效果好的优点；经验规则能够针对个性化的商户欺诈弥补模型的不足。对于挖掘模型和经验规则的组合应用，可以用下图表示，按照欺诈模型和经验规则是否有风险提示，把结果划分为四个区域，四个区域分别是正常交易、个别关注、关注和高欺诈可能性交易。

综上，本发明通过数据挖掘的手段对大量的信用卡交易数据进行分析，建立信用卡欺诈分析模型，识别出高欺诈风险的信用卡交易，并及时进行预警提示，通过数据挖掘技术构建的信用卡欺诈评分模型既可以为银行决策层了解整体风险分布情况，为风险管理提供基础或将信用卡欺诈评分模型应用到收单业务之中，指导收单的业务操作。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述方法包括以下步骤：

S1根据金融部门商业目标，确定数据挖掘的目的和目标；

S2根据S1中确定的目的和目标确认数据源，并进行数据收集；

S3对收集的数据进行筛选，为数据挖掘准备数据；

2.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，确认数据源的时候收集全面的信息，其数据类型为业务数据、数据库/数据仓库中存储的数据或外部数据，如果银行内部不能满足构建模型所需的数据，则进行外部收集从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到所需要的外部数据。

3.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，对信用卡欺诈信用评分模型建设时，其模型数据选取评分的交易数据、变量提炼的交易数据、商户资料的数据或目标变量表。

4.根据权利要求3所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述外卡清算的数据是POS.LOG中的外卡交易记录做清算后的数据，清算的方法是返回码为‘00’，交易码为‘OFFL’，‘PRPU’，‘PURC’的交易，如果返回码为‘AUTO’，‘CANC’，则通过c_retrnum撤销或冲正相应的交易；

所述评分的交易数据加上POS.LOG中返回码不是‘00’，交易码为‘PURC’和‘OFFL’，卡号或终端号在EDCLOG中出现的外卡交易数据，后者的数据用于统计银行卡，商户和终端号的失败交易的信息；

5.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述数据转换中，对于每个连续变量，作本身标准化，商户标准化，和MCC码行业标准化，采用对指标进行正态标准化(0,.1)来消除量纲的影响，对于离散数据，作数据水平归并和IV值转换。

6.根据权利要求1所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述信用卡欺诈信用评分模型为分类模型，所述信用卡欺诈信用评分模型用Logistic回归、神经网络和决策树方法分别建模，然后通过模型结果比较选择最佳模型。

7.根据权利要求6所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述Logistic回归Logistic曲线对应logistic模型，所述Logistic曲线是(0，1)区间的S形曲线，并且在X_i→-∞的情况下E(Y_i)→0，在X_i→+∞时E(Y_i)→1；

所述logistic模型用公式

表示，这里Y_i是第i个响应变量，对于响应来说该值为1，对于不响应来说该值为0，所述logistic回归模型的区间在(0,1)范围内；

对于Logistic回归模型的形式为：

8.根据权利要求6所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述神经网络是基于神经网络的节点及其权值的架构的模型，是相互连接的节点的集合，每个节点有输入、输出，并可以进行处理，其在可见的输入层和输出层之间有隐藏的处理层，每一层的每一个处理单元和下一层的所有处理单元关联，并用权值表示节点之间关系的紧密程度，所述神经网络计算匹配函数时每个数据点权值不断调整，并且通过算法进行调整优化。

9.根据权利要求6所述的商户欺诈风险监控系统的数据挖掘方法，其特征在于，所述决策树的算法首先确定出最重要的变量，然后再确定其次重要的变量，对测试条件自动确定，其树型归纳的决策点为节点，收集观测数据的末端为叶节点，在每一步，数据都分成两个或者多个组，并且应该让所有的记录尽可能地划分成不同的组中使得混杂程度最小化，混杂程度用公式

10.一种商户欺诈风险监控系统，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现如权利要求1至9中任一项所述的商户欺诈风险监控系统的数据挖掘方法。