CN104679777B - 一种用于检测欺诈交易的方法及系统 - Google Patents
一种用于检测欺诈交易的方法及系统 Download PDFInfo
- Publication number
- CN104679777B CN104679777B CN201310631388.0A CN201310631388A CN104679777B CN 104679777 B CN104679777 B CN 104679777B CN 201310631388 A CN201310631388 A CN 201310631388A CN 104679777 B CN104679777 B CN 104679777B
- Authority
- CN
- China
- Prior art keywords
- transaction
- decision tree
- fraudulent
- normal
- transaction record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000003066 decision tree Methods 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 239000000725 suspension Substances 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 108010014172 Factor V Proteins 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 3
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种用于检测交易欺诈的方法,所述方法包括:获取历史欺诈交易记录以及历史正常交易记录;基于所述欺诈交易记录和所述正常交易记录两者提取特征因子;从所述欺诈交易记录和所述正常交易记录生成训练样本集合;用所述训练样本集合构建决策树,其中以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所述特征因子来构建所述决策树的其他节点;从所述决策树的所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则;以及根据所述欺诈规则对交易数据进行欺诈检测。另一方面,本发明还提供了一种用于执行上述方法的系统。
Description
技术领域
本发明一般地涉及交易安全技术领域,并且具体地涉及一种用于检测欺诈交易的方法及系统。
背景技术
在人们的日常生活中,每天都会发生各种各样的商业交易,包括用户与物品/服务的销售商之间的交易等等。这些交易以各种各样的方式进行,但一般都涉及通过现金/货币、银行卡、汇票/支票的价值交换。所有这些交易都可能存在有人从其中进行欺诈获利的风险。
以传统的银行卡交易风险管理系统为例,通常采用规则引擎等方法来进行银行卡交易的欺诈侦测工作。在规则引擎方法中,需要构建规则库,以储存用于判断交易是否为欺诈的业务规则。当一条交易提交给规则引擎时,规则引擎将该交易与加载在引擎中事先设定的业务规则进行比较以判断该条交易是否属于欺诈交易。
然而,在现有技术中,业务规则通常需要由经验丰富的业务人员对每个欺诈交易进行规律总结来得到,一条欺诈规则往往就需要花费业务人员大量的时间,况且仅靠人工并不能有效地总结出所有的欺诈规律。因此,完全依靠业务人员寻找欺诈规则具有很大的局限性,效率非常低。
通过在交易进行初期就对欺诈行为进行辨别和制止可以有力地避免产生不可挽回的损失,而目前尚未有高效可靠的欺诈交易检测方法及系统。
发明内容
鉴于上述情况,本发明旨在提供一种易于实现并且准确有效的欺诈交易检测方法及系统。
具体地,本发明提供了一种用于检测欺诈交易的方法,所述方法包括:获取历史欺诈交易记录以及历史正常交易记录;基于所述欺诈交易记录和所述正常交易记录两者提取特征因子;从所述欺诈交易记录和所述正常交易记录生成训练样本集合;用所述训练样本集合构建决策树,其中以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所述特征因子来构建所述决策树的其他节点;从所述决策树的所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则;以及根据所述欺诈规则对交易数据进行欺诈检测。
根据本发明的一些实施例,用训练样本数据构建决策树包括以下步骤:a)在所述训练样本集合中计算每个特征因子相对于所述目标因子的信息增益;b)将信息增益最大的特征因子确定为所述决策树的根节点;c)判断根节点的特征因子所划分的每个子样本集合是否满足预先设定的决策树中止条件;d)在尚未满足所述中止条件的每个子样本集合中分别计算每个剩余特征因子相对于所述目标因子的信息增益;e)对于尚未满足所述中止条件的每个子样本集合将剩余特征因子中信息增益最大的特征因子确定为所述根节点的子节点;f)将每个子节点作为所述根节点重复上述步骤c)-e)。
根据本发明的一些实施例,如权利要求2所述的方法,其特征在于,在相应的样本集合中每个特征因子Vi相对于目标因子的信息增益GainVi=目标因子在该样本集合中的信息熵HY-特征因子Vi在该样本集合中的信息熵HVi,其中HY=-pTlog2pT-pFlog2pF,pT及pF分别表示正常交易及欺诈交易在所述相应的样本集合中出现的概率;并且其中S为所述相应的样本集合中的样本总数,为在该样本集合中所有特征因子Vi取值为Xj的样本数,为特征因子的每个取值Xj在该样本集合中的信息熵,其中 及分别表示正常交易及欺诈交易在所述相应的样本集合中特征因子Vi取值为Xj的子集中出现的概率。
根据本发明的一些实施例,所述预先设定的决策树中止条件包括:i)在子节点下没有剩余的特征因子;ii)在子节点下有剩余特征因子时,确定正常交易及欺诈交易在所述子样本集合中出现的概率并且在两者中的较小值小于预定阈值的情况下停止决策树在该子样本集合中的生长;并且构建决策树还包括在满足中止生长条件i)或ii)的位置将所述概率中的较大值对应的交易类别确定为叶节点。
根据本发明的一些实施例,所述决策树被构造为其中的每次分支均是对训练样本集合的二元划分。
根据本发明的一些实施例,确定特征因子包括:分别提取欺诈交易记录和正常交易记录中的字段;从两者的非共有字段中进行筛选出可以被用作所述特征因子的特征变量;以及将所述特征变量中的每一个的一个或多个取值设定为特征因子。
根据本发明的一些实施例,所述交易为通过银行卡进行的交易,并且所述特征变量至少包括:交易日、交易星期值、交易时间、收单机构标识码、发卡机构标识码、交易类型、商户类型、交易币种、交易渠道、银行卡性质。
根据本发明的一些实施例,生成训练样本集合包括对所述欺诈交易记录和所述正常交易记录进行预处理,其中所述预处理包括从所述欺诈交易记录和所述正常交易记录中剔除不包括与所有所述特征变量相关联的完整信息的记录。
根据本发明的一些实施例,生成训练样本集合包括对所述欺诈交易记录和所述正常交易记录进行预处理,其中所述预处理包括对于连续取值的特征变量,将所述欺诈交易记录和所述正常交易记录中包含的该特征变量的取值离散化。
根据本发明的一些实施例,提取欺诈规则包括合并所述路径上与同一特征变量相关联的特征因子。
根据本发明的一些实施例,从所述欺诈交易记录和所述正常交易记录生成训练样本集合包括从所述欺诈交易记录和所述正常交易记录的总量中随机抽取预定预定百分比的样本作为训练样本集合,而将剩余部分确定为测试样本集合,并且在从所生成的决策树提取欺诈规则之前用所述测试样本集合对该决策树进行剪枝处理。
在本发明的另一方面,还提供了一种用于检测欺诈交易的系统,所述系统包括:数据获取装置,被配置用于获取历史欺诈交易记录以及历史正常交易记录;特征提取装置,被配置用于基于所述欺诈交易记录和所述正常交易记录两者提取特征因子;训练样本生成装置,被配置用于从所述欺诈交易记录和所述正常交易记录生成训练样本集合;决策树生成装置,被配置用于用所述训练样本集合构建决策树,其中以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所述特征因子来构建所述决策树的其他节点;规则提取装置,被配置用于从所述决策树的所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则;以及欺诈检测装置,被配置用于根据所述欺诈规则对交易数据进行欺诈检测。
本发明提出了一种基于决策树的银行卡交易欺诈检测方案,该方案克服了传统的银行卡交易风险管理系统中欺诈规则完全依靠人工获取的弊端,大大提高了提取欺诈规则的效率及规则的准确性。
附图说明
本发明的前述和其他目标、特征和优点根据下面对本发明的实施例的更具体的说明将是显而易见的,这些实施例在附图中被示意。
图1示意性地示出了根据本发明的一个实施例的、用于检测欺诈交易的方法的流程图。
图2示意性地示出了根据本发明的一个实施例的、用于构建决策树的方法的流程图。
图3是根据本发明的方法所构建的决策树的示例。
图4示意性地示出了根据本发明的一个实施例的、用于检测欺诈交易的系统的结构框图。
具体实施方式
以下结合附图和具体实施方式进一步详细说明本发明。需要说明的是,附图中的各结构只是示意性说明,用以使本领域普通技术人员最佳地理解本发明的原理,其不一定按比例绘制。
图1示意性地示出了根据本发明的一个实施例的、用于检测欺诈交易的方法的流程图。根据本发明的实施例所提供的用于检测欺诈交易的方法通过对历史欺诈交易数据进行训练建模生成决策树模型,其中决策树模型的每条路径对应了包括欺诈规则在内的一系列业务规则。通过这种方式可以从海量数据中提取欺诈规则,大大提高规则的提取效率,克服了传统银行卡交易欺诈侦测工作中依赖于人工提取规则的弊端。
在图1的实施例中,首先在步骤S101处获取历史欺诈交易记录以及历史正常交易记录。优选地,历史欺诈交易记录可以包括所有已知的欺诈交易的记录,而同时获取大体上相同样本容量的正常交易记录。在大多数情况下,已有的正常交易记录的数据量将非常巨大,不适合全部使用。相反地,可以采用预定的一段时间内的正常交易记录。
在一些银行卡交易系统中,可能会统一地构建历史交易表,其中既包括正常交易,也包括欺诈交易。另外地,还可能会单独地构建欺诈交易表,包括所有经确认已出现的欺诈交易。在这种情况下,可以从欺诈交易表中获取所有的历史欺诈交易。同时,从历史交易表中提取例如一年范围内的交易记录,并且从其中剔除欺诈交易记录以获取正常交易记录样本。
接着在步骤S102处,基于所获取的欺诈交易记录和正常交易记录两者来提取特征因子。根据本发明的一个优选实施例,可以首先分别对所有获取的欺诈交易记录和正常交易记录进行解析,提取出与交易相关的各个字段。进而,排除欺诈交易记录和正常交易记录所共有的信息字段,并且在剩余的、两者的非共有字段中进行筛选,以确定可以被用作特征因子的特征变量。欺诈交易记录与正常交易记录共有的字段可以是包含两种交易所共有的信息的字段,其一般不能被用于对正常交易和欺诈交易进行区分。欺诈交易记录与正常交易记录之间非共有的字段是可以被用于对正常交易和欺诈交易进行区分的字段,例如由于字段取值的不同而被用作判断欺诈交易的依据。所述筛选可以是通过人工来进行,也可以通过特定算法来执行。
在通过银行卡进行交易的情况下,所述可以被用作特征因子的特征变量至少可以包括:交易日、交易星期值、交易时间、收单机构标识码、发卡机构标识码、交易类型、商户类型、交易币种、交易渠道、银行卡性质。
进一步地,每个特征变量本身可以作为特征因子被用于构建决策树,其中特征变量的每个取值可以被用于构建决策树的各个分支。以交易星期值的特征变量为例,其取值可以是1-7的整数。在这种情况下,用于构建决策树的训练样本集合按交易星期值至少可以被分为7类,也就是七个分支,每一分支代表一个星期值取值。
在本发明的优选实施例中,为检测欺诈交易所构建的决策树可以是二元决策树,也就是决策树中的每次分支均是对训练样本集合的二元划分。在这种情况下,如果特征变量有多个取值,则可以从一个特征变量设定多个特征因子,其中每个特征因子对应于特征变量的一个取值。在构建决策树时,每个特征因子以该取值为界线对样本集合进行二元划分。同样以交易星期值为例,第一特征因子可以是特征变量取值为1,样本集合可以被分为交易星期值大于等于1和交易星期值小于1的两个类别。类似地,第二特征因子可以是特征变量取值为3,样本集合可以被进一步分为交易星期值大于等于3和交易星期值小于3的两个类别。以这种方式,在决策树中的一条路径上可能多次出现对应同一特征变量的多个特征因子,但是能够避免所构建的树形结构过于庞大并且分类过细。
在提取特征因子之后,可以从所获取欺诈交易记录和所述正常交易记录生成训练样本集合,如步骤S103所示。训练样本集合大体上可以包括如前所述的所有历史欺诈交易记录以及数量大体与其相当的历史正常交易记录。在本发明的优选实施例中,生成训练样本集合可以包括对所获取的欺诈交易记录和正常交易记录进行预处理,其中预处理可以包括从所获取的欺诈交易记录和正常交易记录中剔除不完整的交易记录。不完整的交易记录可以例如是没有包括与用于确定特征因子的所有特征变量相关联的完整信息的记录。
替换地或者另外地,预处理还可以包括对于欺诈交易记录和正常交易记录中连续取值的字段,也就是被确定为用于生成特征因子的特征变量进行离散化处理。以交易时间为例,其通常实时地记录交易发生的时间,因此可以有非常大范围的取值。对于银行卡交易,在以交易时间为特征变量构建决策树时,可以例如按半个小时的粒度对其取值进行转换,例如将落入12点到12点半之间的交易时间值均转换为1,12点半到13点之间的交易时间值均转换为2,诸如此类。对于诸如交易金额、交易代码等特征变量,也可以相似地进行处理。
根据本发明的一些实施例,经过预处理的欺诈交易记录和正常交易记录的总和可被用作训练样本集合以为检测欺诈交易构建决策树。根据本发明的另一些实施例,可以从经过预处理的欺诈交易记录和正常交易记录的总量中随机抽取预定预定百分比的样本作为训练样本集合,而将剩余部分确定为测试样本集合,其中测试样本集合可以被用来对所生成的决策树模型进行校正。
在确定训练样本集合之后,可以用该样本集合来构建决策树,如步骤S104所示。一般地,对于为检测欺诈交易所构建的决策树,可以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所提取的特征因子来构建决策树的其他节点,例如根节点、子节点等。
图2示意性地示出了根据本发明的一个实施例的、用于构建决策树的方法的流程图。
在步骤S201处,在所生成的训练样本集合中计算每个特征因子相对于目标因子的信息增益。
在步骤S202处,将信息增益最大的特征因子确定为决策树的根节点。
在步骤S203处,判断根节点的特征因子所划分的每个子样本集合是否满足预先设定的决策树中止条件。在本发明的一些实施例中,对于已经满足中止条件的子样本集合,可以根据该中止条件来确定该子样本集合的目标分类,即是属于正常交易还是属于欺诈交易。
在本发明的一些实施例中,决策树中止条件可以包括:i)在子节点下没有剩余的特征因子;ii)在子节点下有剩余特征因子时,确定正常交易及欺诈交易在所述子样本集合中出现的概率并且在两者中的较小值小于预定阈值的情况下停止决策树在该子样本集合中的生长。相应地,可以在满足中止生长条件i)或ii)的位置将所述概率中的较大值对应的交易类别确定为叶节点。
图3是根据本发明的一个实施例所构建的决策树的示例,该示例针对为银行卡欺诈交易检测构建决策树的情况并且采用上述决策树终止条件。
在该决策树中,欺诈交易类别被标记为F,正常交易类别被标记为T。如图3所示,银行卡性质被确定为根节点,也就是说其相对于目标因子的信息增益最大。或者说对目标因子影响最大。银行卡性质的取值可以是预先为所有可能的银行卡性质分配一个对应值并且在需要的情况下对其进行离散化的结果。例如,0表示其他种类的卡,1表示预付费卡,2表示借贷合一卡,3表示准贷记卡,4表示贷记卡,5表示借记卡。以银行卡性质取值为1的特征因子将训练样本集合划分为两个子样本集合,其中第一子样本集合包含所有银行卡性质取值小于或等于1的交易记录数据,第二子样本集合包含所有银行卡性质取值大于1的交易记录数据。在第一子样本集合中,样本总数为355,其中欺诈交易数量为354,正常交易数量为1,显然正常交易出现的概率远小于欺诈交易在该集合中出现的概率,并且小于预先设定的阈值0.3。因此,决策树中止条件被满足,不再进行生长。相应地,在该位置上生成叶节点,将该子样本集合分类为欺诈交易。
在步骤S204处,在尚未满足中止条件的每个子样本集合中分别计算每个剩余特征因子相对于所述目标因子的信息增益。
在步骤S205处,对于尚未满足所述中止条件的每个子样本集合将剩余特征因子中信息增益最大的特征因子确定为所述根节点的子节点。在图3的示例中,交易金额被确定为根节点的一个子节点。
在确定子节点之后,将每个子节点作为所述根节点重复步骤S203-S205,直到在每个路径下都不再有剩余的特征因子。以图3最右边下方的节点“收单机构”为例,在其之后没有更多的剩余特征因子,因此可以例如在其所划分的子样本集合中确定正常交易及欺诈交易出现的概率并且将出现概率较大的类别确定为叶节点。在这个示例中,对于收单机构取值小于或等于3的子样本集合,欺诈交易数为3,正常交易数为0,因此将该叶节点确定为是欺诈交易;对于收单机构取值大于3的子样本集合,样本总数为10,其中正常交易数为8,欺诈交易数为2,因此将该叶节点确定为是正常交易。
根据本发明的一个实施例,在所生成的总的训练样本集合以及在根据特征因子所划分的子样本集合中计算特征因子相对于目标因子的信息增益的方法可以大致相同。具体地,在相应的样本集合中,每个特征因子Vi相对于目标因子的信息增益在该样本集合中的信息熵HY-特征因子Vi在该样本集合中的信息熵
其中,HY=-pTlog2pT-pFlog2pF,pT及pF分别表示正常交易及欺诈交易在所述相应的样本集合中出现的概率。特征因子Vi在该样本集合中的信息熵HVi可以是特征因子Vi的每个取值在该样本集合中的信息熵的加权,即S为所述相应的样本集合中的样本总数,为在该样本集合中所有特征因子Vi取值为Xj的样本数,为特征因子Vi的每个取值Xj在该样本集合中的信息熵。
其中, 及分别表示正常交易及欺诈交易在所述相应的样本集合中特征因子取值为Xj的子集中出现的概率。
在本发明的优选实施例中,还可以在决策树生成之后用测试样本集合对该决策树进行剪枝处理。如前所述,可以从经过预处理的欺诈交易记录和正常交易记录的总量中随机抽取预定预定百分比的样本作为训练样本集合,而将剩余部分确定为测试样本集合。在这种情况下,可以取三分之二的数据作为训练样本,而将剩余的三分之一作为测试样本对决策树进行剪枝处理,防止模型的过拟合,进而失去泛化能力。
在决策树生成之后,可以从其所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则,如步骤S105所示。进而,在步骤S106处根据所提取的欺诈规则对交易数据进行欺诈检测。如上所述,在本发明的一些实施例中,为构建二元决策树,构成子节点的多个特征因子可以对应于同一个特征变量,如图3所示。因此,提取欺诈规则可以包括合并所述路径上与同一特征变量相关联的特征因子。
以银行卡交易为例,可以将通过决策树形成的欺诈规则放入常规的规则引擎,由此对银行卡交易产生的数据进行检测,形成欺诈侦测结果集。为了进一步确认欺诈规则的准确性,也可以人工对欺诈侦测结果进行确认,并且将经确认的欺诈交易加入欺诈交易表。优选地,可以每隔一段时间重新构建决策树模型,以形成更新的欺诈规则,保证决策树模型对新的银行卡交易欺诈侦测的有效性。
图4示意性地示出了根据本发明的一个实施例的、用于检测欺诈交易的系统400的结构框图。
如图4所示,该系统400可以包括:数据获取装置401,其被配置用于获取历史欺诈交易记录以及历史正常交易记录。
特征提取装置402,其被配置用于基于所述欺诈交易记录和所述正常交易记录两者提取特征因子。
训练样本生成装置403,其被配置用于从所述欺诈交易记录和所述正常交易记录生成训练样本集合。
决策树生成装置404,其被配置用于用所述训练样本集合构建决策树,其中以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所述特征因子来构建所述决策树的其他节点。
规则提取装置405,其被配置用于从所述决策树的所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则。
欺诈检测装置406,其被配置用于根据所述欺诈规则对交易数据进行欺诈检测。
根据本发明的各个实施例所提供的用于检测欺诈交易的系统能够对应地被用于实现根据本发明的各个实施例所提供的用于检测欺诈交易的方法。本领域的技术人员应理解的是,所述系统可以按任意方式来划分其装置组成,只要其作为整体能够执行本发明的实施例所提供的方法。进一步地,本领域的技术人员还应理解,所述系统能够作为单独的部件被实现,也能够被并入已有的交易处理系统中。
通过本发明的各种实施例所提供的用于检测欺诈交易的方案解决方案,可以从海量数据中提取欺诈规则,大大提高规则的提取效率,克服了传统银行卡交易欺诈侦测工作中依赖于人工提取规则的弊端。另外,在提高规则提取效率的同时,也能够提取人工不易发现的欺诈规则。在样本足够充分的情况下,根据本发明的实施例所提取的欺诈规则的准确率也远远高于人工提取的规则。
本发明的一些实施方式可以用软件、硬件或者任何软件和/或硬件的组合来实现。本发明的实施例可以包括单元和/或子单元,所述单元和/或子单元可以是相互分开的或者全部或部分地组合在一起的、并且可以使用特定的、多目的的或通用的处理器或者控制器、或者现有技术中已知的设备实现。本发明的一些实施方式可以包括用于数据暂时或长期存储或者为了便于特定实施方式的操作的缓冲器、寄存器、堆栈、存储单元和/或存储器单元。
应当说明的是,以上具体实施方式仅用以说明本发明的技术方案而非对其进行限制。尽管参照上述具体实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或对部分技术特征进行等同替换而不脱离本发明的实质,其均涵盖在本发明请求保护的范围中。
Claims (11)
1.一种用于检测交易欺诈的方法,其特征在于,所述方法包括:
获取历史欺诈交易记录以及历史正常交易记录;
基于所述欺诈交易记录和所述正常交易记录两者提取特征因子;
从所述欺诈交易记录和所述正常交易记录生成训练样本集合;
用所述训练样本集合构建决策树,其中以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所述特征因子来构建所述决策树的其他节点;
从所述决策树的所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则;以及
根据所述欺诈规则对交易数据进行欺诈检测,
其中所述决策树被构造为其中的每次分支均是对训练样本集合的二元划分。
2.如权利要求1所述的方法,其特征在于,用训练样本数据构建决策树包括以下步骤:
a)在所述训练样本集合中计算每个特征因子相对于所述目标因子的信息增益;
b)将信息增益最大的特征因子确定为所述决策树的根节点;
c)判断根节点的特征因子所划分的每个子样本集合是否满足预先设定的决策树中止条件;
d)在尚未满足所述中止条件的每个子样本集合中分别计算每个剩余特征因子相对于所述目标因子的信息增益;
e)对于尚未满足所述中止条件的每个子样本集合将剩余特征因子中信息增益最大的特征因子确定为所述根节点的子节点;
f)将每个子节点作为所述根节点重复上述步骤c)-e)。
3.如权利要求2所述的方法,其特征在于,在相应的样本集合中每个特征因子Vi相对于目标因子的信息增益
其中HY=-pTlog2pT-pFlog2pF,pT及pF分别表示正常交易及欺诈交易在所述相应的样本集合中出现的概率;并且
其中S为所述相应的样本集合中的样本总数,为在该样本集合中所有特征因子Vi取值为Xj的样本数,为特征因子Vi的每个取值Xj在该样本集合中的信息熵,其中
及分别表示正常交易及欺诈交易在所述相应的样本集合中特征因子取值为Xj的子集中出现的概率。
4.如权利要求2所述的方法,其特征在于,所述预先设定的决策树中止条件包括:
i)在子节点下没有剩余的特征因子;
ii)在子节点下有剩余特征因子时,确定正常交易及欺诈交易在所述子样本集合中出现的概率并且在两者中的较小值小于预定阈值的情况下停止决策树在该子样本集合中的生长;并且
构建决策树还包括在满足中止生长条件i)或ii)的位置将所述概率中的较大值对应的交易类别确定为叶节点。
5.如权利要求1所述的方法,其特征在于,确定特征因子包括:
分别提取欺诈交易记录和正常交易记录中的字段;
从两者的非共有字段中进行筛选出可以被用作所述特征因子的特征变量;以及
将所述特征变量中的每一个的一个或多个取值设定为特征因子。
6.如权利要求5所述的方法,其特征在于,所述交易为通过银行卡进行的交易,并且所述特征变量至少包括:交易日、交易星期值、交易时间、收单机构标识码、发卡机构标识码、交易类型、商户类型、交易币种、交易渠道、银行卡性质。
7.如权利要求5所述的方法,其特征在于,生成训练样本集合包括对所述欺诈交易记录和所述正常交易记录进行预处理,其中所述预处理包括从所述欺诈交易记录和所述正常交易记录中剔除不包括与所有所述特征变量相关联的完整信息的记录。
8.如权利要求5所述的方法,其特征在于,生成训练样本集合包括对所述欺诈交易记录和所述正常交易记录进行预处理,其中所述预处理包括对于连续取值的特征变量,将所述欺诈交易记录和所述正常交易记录中包含的该特征变量的取值离散化。
9.如权利要求5所述的方法,其特征在于,提取欺诈规则包括合并所述路径上与同一特征变量相关联的特征因子。
10.如权利要求1所述的方法,其特征在于,从所述欺诈交易记录和所述正常交易记录生成训练样本集合包括从所述欺诈交易记录和所述正常交易记录的总量中随机抽取预定百分比的样本作为训练样本集合,而将剩余部分确定为测试样本集合,并且
在从所生成的决策树提取欺诈规则之前用所述测试样本集合对该决策树进行剪枝处理。
11.一种用于检测交易欺诈的系统,其特征在于,所述系统包括:
数据获取装置,被配置用于获取历史欺诈交易记录以及历史正常交易记录;
特征提取装置,被配置用于基于所述欺诈交易记录和所述正常交易记录两者提取特征因子;
训练样本生成装置,被配置用于从所述欺诈交易记录和所述正常交易记录生成训练样本集合;
决策树生成装置,被配置用于用所述训练样本集合构建决策树,其中以正常交易和欺诈交易两个类别为目标因子来构建叶节点并且依据所述特征因子来构建所述决策树的其他节点;
规则提取装置,被配置用于从所述决策树的所有从根节点到指示欺诈交易的叶节点的路径提取欺诈规则;以及
欺诈检测装置,被配置用于根据所述欺诈规则对交易数据进行欺诈检测,
其中所述决策树被构造为其中的每次分支均是对训练样本集合的二元划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310631388.0A CN104679777B (zh) | 2013-12-02 | 2013-12-02 | 一种用于检测欺诈交易的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310631388.0A CN104679777B (zh) | 2013-12-02 | 2013-12-02 | 一种用于检测欺诈交易的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104679777A CN104679777A (zh) | 2015-06-03 |
CN104679777B true CN104679777B (zh) | 2018-05-18 |
Family
ID=53314834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310631388.0A Active CN104679777B (zh) | 2013-12-02 | 2013-12-02 | 一种用于检测欺诈交易的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104679777B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184574B (zh) * | 2015-06-30 | 2018-09-07 | 电子科技大学 | 一种套用商户类别码欺诈行为的检测方法 |
US20170011437A1 (en) * | 2015-07-08 | 2017-01-12 | United Parcel Service Of America, Inc. | Systems, methods, and computer program products for detecting billing anomalies |
US20170116604A1 (en) * | 2015-10-21 | 2017-04-27 | Mastercard International Incorporated | Systems and Methods for Identifying Payment Accounts to Segments |
CN107103171B (zh) * | 2016-02-19 | 2020-09-25 | 阿里巴巴集团控股有限公司 | 机器学习模型的建模方法及装置 |
CN107169768B (zh) * | 2016-03-07 | 2021-07-27 | 阿里巴巴集团控股有限公司 | 异常交易数据的获取方法和装置 |
CN107203774A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 对数据的归属类别进行预测的方法及装置 |
CN106897931A (zh) * | 2016-06-12 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种异常交易数据的识别方法及装置 |
CN105933334B (zh) * | 2016-06-20 | 2019-06-18 | 联动优势科技有限公司 | 一种欺诈申请的判定和信息搜集方法及装置 |
RU2635275C1 (ru) * | 2016-07-29 | 2017-11-09 | Акционерное общество "Лаборатория Касперского" | Система и способ выявления подозрительной активности пользователя при взаимодействии пользователя с различными банковскими сервисами |
CN106875078B (zh) * | 2016-08-03 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 交易风险检测方法、装置及设备 |
CN106548343B (zh) * | 2016-10-21 | 2020-11-10 | 中国银联股份有限公司 | 一种非法交易检测方法及装置 |
CN106682067B (zh) * | 2016-11-08 | 2018-05-01 | 浙江邦盛科技有限公司 | 一种基于交易数据的机器学习反欺诈监测系统 |
CN106713288A (zh) * | 2016-12-08 | 2017-05-24 | 同盾科技有限公司 | 一种欺诈风险识别、防范方法和系统 |
JP6941255B2 (ja) * | 2016-12-13 | 2021-09-29 | Line株式会社 | 支払い方法および支払いシステム |
CN108616551A (zh) * | 2016-12-13 | 2018-10-02 | 上海海万信息科技股份有限公司 | 投资者交易行为数据挖掘与反洗钱上报系统 |
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
CN107679859B (zh) * | 2017-07-18 | 2020-08-25 | 中国银联股份有限公司 | 一种基于迁移深度学习的风险识别方法以及系统 |
CN107679862B (zh) * | 2017-09-08 | 2021-08-27 | 中国银联股份有限公司 | 一种欺诈交易模型的特征值确定方法及装置 |
CN107644366B (zh) * | 2017-09-28 | 2021-06-18 | 携程旅游信息技术(上海)有限公司 | 订单欺诈识别方法、系统、存储介质和电子设备 |
CN110009167A (zh) * | 2018-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 交易风险策略推荐方法、装置、服务器及存储介质 |
CN110298663B (zh) * | 2018-03-22 | 2023-04-28 | 中国银联股份有限公司 | 基于序列宽深学习的欺诈交易检测方法 |
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN110309840B (zh) | 2018-03-27 | 2023-08-11 | 创新先进技术有限公司 | 风险交易识别方法、装置、服务器及存储介质 |
CN109034194B (zh) * | 2018-06-20 | 2022-03-04 | 东华大学 | 基于特征分化的交易欺诈行为深度检测方法 |
CN109308615B (zh) * | 2018-08-02 | 2020-12-29 | 同济大学 | 基于统计序列特征的实时欺诈交易检测方法、系统、存储介质及电子终端 |
CN112418274B (zh) * | 2018-09-21 | 2024-09-17 | 创新先进技术有限公司 | 决策树生成方法和装置 |
CN109657696B (zh) * | 2018-11-05 | 2023-06-30 | 创新先进技术有限公司 | 多任务监督学习模型训练、预测方法和装置 |
CN111343127B (zh) * | 2018-12-18 | 2021-03-16 | 北京数安鑫云信息技术有限公司 | 一种提升爬虫识别召回率的方法、装置、介质及设备 |
CN109767269B (zh) * | 2019-01-15 | 2022-02-22 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN109740693B (zh) * | 2019-01-18 | 2021-05-18 | 北京细推科技有限公司 | 数据识别方法和装置 |
CN110738559A (zh) * | 2019-09-17 | 2020-01-31 | 平安银行股份有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN110827036A (zh) * | 2019-11-07 | 2020-02-21 | 深圳乐信软件技术有限公司 | 一种欺诈交易的检测方法、装置、设备及存储介质 |
CN111275447B (zh) * | 2020-01-17 | 2023-08-29 | 同济大学 | 基于自动化特征工程的在线网络支付欺诈检测系统 |
CN111401906A (zh) * | 2020-03-05 | 2020-07-10 | 中国工商银行股份有限公司 | 转账风险检测方法及系统 |
CN111612606A (zh) * | 2020-04-11 | 2020-09-01 | 交通银行股份有限公司上海市分行 | 一种商户欺诈风险监控系统及数据挖掘方法 |
US20230196367A1 (en) * | 2020-05-13 | 2023-06-22 | Paypal, Inc. | Using Machine Learning to Mitigate Electronic Attacks |
CN112330332B (zh) * | 2021-01-05 | 2021-05-07 | 南京智闪萤科技有限公司 | 识别关于节点任务的欺诈风险的方法、计算设备和介质 |
CN116012123B (zh) * | 2023-03-27 | 2023-07-04 | 湖南三湘银行股份有限公司 | 一种基于Rete算法的风控规则引擎方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493913A (zh) * | 2008-01-23 | 2009-07-29 | 阿里巴巴集团控股有限公司 | 一种评估网上用户信用的方法及系统 |
CN102890803A (zh) * | 2011-07-21 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 电子商品异常交易过程的确定方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110016052A1 (en) * | 2009-07-16 | 2011-01-20 | Scragg Ernest M | Event Tracking and Velocity Fraud Rules for Financial Transactions |
-
2013
- 2013-12-02 CN CN201310631388.0A patent/CN104679777B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493913A (zh) * | 2008-01-23 | 2009-07-29 | 阿里巴巴集团控股有限公司 | 一种评估网上用户信用的方法及系统 |
CN102890803A (zh) * | 2011-07-21 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 电子商品异常交易过程的确定方法及其装置 |
Non-Patent Citations (1)
Title |
---|
基于决策树ID3算法的改进研究;李华;《万方学位论文》;20130627;第46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104679777A (zh) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679777B (zh) | 一种用于检测欺诈交易的方法及系统 | |
CN108960833B (zh) | 一种基于异构金融特征的异常交易识别方法,设备及存储介质 | |
CN109389494B (zh) | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 | |
CN109300029A (zh) | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 | |
CN105095238A (zh) | 用于检测欺诈交易的决策树生成方法 | |
CN103678659A (zh) | 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统 | |
CN110895758B (zh) | 存在作弊交易的信用卡账户的筛选方法、装置及系统 | |
AU2018101523A4 (en) | A personal credit scoring model based on machine learning method | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN110796539A (zh) | 一种征信评估方法及装置 | |
CN111709844A (zh) | 一种保险洗钱人员检测方法、装置和计算机可读存储介质 | |
CN107679862B (zh) | 一种欺诈交易模型的特征值确定方法及装置 | |
CN110991650A (zh) | 训练养卡识别模型、识别养卡行为的方法及装置 | |
CN117036009B (zh) | 一种保理业务的全周期管理方法及系统 | |
CN112966728A (zh) | 一种交易监测的方法及装置 | |
CN112365352A (zh) | 一种基于图神经网络的反套现方法及装置 | |
CN113706258B (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
CN115965468A (zh) | 基于交易数据的异常行为检测方法、装置、设备及介质 | |
CN112001425B (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
Anjum et al. | Cheat Detection for Credit Cards Using Artificial Intelligence | |
CN110738570A (zh) | 基于多通道异质数据的信息型操纵自动识别方法 | |
CN111539650A (zh) | 国际争议案件抗辩方法及其装置 | |
CN109726239A (zh) | 一种对取证数据进行分析的方法、装置及可读存储介质 | |
Wang et al. | Using Data Mining Techniques to Detect Customer Default Payment | |
CN115345736B (zh) | 一种金融交易异常行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |