CN110226179A

CN110226179A - 通过神经网络整合情境信息来自动检测支付交易流中的欺诈

Info

Publication number: CN110226179A
Application number: CN201780084871.8A
Authority: CN
Inventors: 马蒂厄·加尔舍里; 奥利维耶·卡埃朗; 里云·埃盖尔东; 米夏埃尔·格拉尼泽; 康斯坦丁·齐格勒; 斯特凡·茨维克鲍尔
Original assignee: World Line Co
Current assignee: World Line Co
Priority date: 2017-01-30
Filing date: 2017-12-22
Publication date: 2019-09-10
Also published as: EP3574462A1; WO2018138423A1; FR3062504A1

Abstract

本发明涉及一种用于检测支付交易的集合中的欺诈交易的方法，包括：将交易提交给在训练集上训练的分类系统，并且为所述集合中的每个新交易提供是欺诈交易的概率，其中，每个交易都与情境信息相关联，并且其中，分类系统是神经网络。

Description

通过神经网络整合情境信息来自动检测支付交易流中的欺诈

技术领域

本发明涉及一种用于检测银行交易(transaction，业务、事务)的数据流中的异常的机制。其特别适用于检测欺诈交易。

背景技术

银行交易中的欺诈现象日益严重，特别是由于经由电信网络进行支付交易的普遍化。

当支付服务器授权支付交易时，可以发起两种机制：授权之前和/或之后。

在第一种情况下，这需要实时检测欺诈。在第二种情况下，这需要近实时地检测欺诈。第一种情况提供了能够在欺诈交易发生之前阻止欺诈交易的优点，但是它受到处理时间的严格约束，因为该处理时间延迟了支付交易的最终确定并因此延迟了用户的体验。第二种情况允许更多时间，因此能够发起更复杂和更有针对性的处理操作。

通常，通过基于规则数据库的技术考虑该问题。

已经基于各种分类机制提供了解决方案。然而，现有技术中指出检测支付系统中的欺诈交易提出了特定的挑战。因此，传统的分类技术不能直接应用并且效率低下。

首先，欺诈的后果非常重要并且非常敏感。此外，由于与银行账户信息以及卡和其他支付工具有关的数据是保密的，因此在设置检测欺诈的工具上公开可用的信息非常少。因此，比较现有技术的解决方案不容易实现。

发明内容

本发明的目的是提供一种至少部分地克服上述缺点的解决方案。

更具体地，本发明旨在提供一种用于使用情境(contextual，上下文、背景)信息自动检测交易集内的欺诈交易的解决方案，换言之，该欺诈交易不包含在经受处理的交易中。

为此目的，本发明提供了一种用于检测支付交易集内的欺诈交易的方法，该方法包括使交易经历运行于应用集上的分类系统，并且对于所述集中的每个新交易，提供该交易为欺诈交易的概率，其中，情境信息与每个交易相关联，并且其中，分类系统是神经网络。

通常，该应用集可以形成与交易集的不相交集，在该交易集上随后在利用运行于应用集上的分类器的阶段期间执行归一化或预测。

根据优选实施方式，本发明包括以下特征中的一个或多个特征，这些特征可以单独使用或彼此部分组合使用或彼此完全组合使用：

-所述分类系统借助于图形嵌入使用所述情境信息；

-所述情境信息包括与和交易相关联的国家有关的数据；

-所述情境信息包括与假日有关的数据；

-所述分类系统基于Word2Vec算法。

本发明的另一主题涉及一种设备，该设备包括用于实现方法诸如前面描述的方法的装置。

通过阅读以下通过示例并参考附图给出的本发明优选实施方式的描述，本发明的其它特点和优点将变得明显。

附图说明

图1示意性地示出了根据本发明的一个实施方式获得的实验结果。

具体实施方式

欺诈数量仅占银行交易量的非常小的百分比：据认为，平均欺诈率大约为0.5％。因此，检测欺诈对应于检测异常的问题，其由两个群体(正常情况/异常情况)之间的不平衡分布表征。“机器学习”类型的学习机制很难处理这种类型的问题。

根据本发明的一个实施方式，通过消除可能先验地被认为是合法的情况来修改要考虑的一组交易。因此，可以增加两个群体之间的平衡。该机制允许增强神经网络的性能特征。

支付交易欺诈(通过银行卡)的另一具体特点在于问题的复杂性质：欺诈交易难以与合法交易区分开来，并且来自分类方法的类之间可能存在重叠。另外，欺诈者可以实践各种欺诈场景，导致各种不同的状况，因此难以通过依赖典型欺诈案例的“签名”来检测欺诈交易。

问题在于从一组支付交易中识别欺诈交易。

根据本发明，使用“机器学习”类型的技术发起分类系统以便生成两个类：包括合法交易的一个类和包括欺诈交易的一个类。

通常，这种类型的机制基于学习阶段并且基于预测阶段，该预测阶段包括学习阶段所基于的应用集的概括。

根据本发明，对交易的类的预测考虑了与交易相关联的各种属性，其包括情境信息。考虑该情境信息是相对于现有技术的新颖想法。

这可以例如包括交易的日期(包括时间)、其地理位置、日历事件(学校假日、国家法定假日等)。

属性还可以更常规地包含信用卡(或其他支付工具)的所有者等。

使用情境信息允许以增强的精度将欺诈交易与合法交易区分开。

对于任何分类机制，首先从学习阶段期间的应用集开始构造分类器。然后，在预测阶段使用该分类器以对新交易进行分类。

各种类型的分类器都是可能的，但是由于使用情境信息，后者可以基于每个交易的更大量的数据，因此增强了用于形成两个明确定义的类的辨别模型的确定的可能性。

因此，本发明基于将情境信息注入分类机制。

更具体地，根据本发明的一个实施方式，该情境信息被注入神经网络。

可以考虑两种信息源以便解释本发明的机制：

-表示内部应用的数据的关系数据库D；

-表示情境信息的语义图G＝{V，E}。

此外，假设在D中存在属性j，对于该属性，可以用G的向量子集来识别值集Aj＝{dj:d∈D}。

这种语义图允许构建情境信息。

语义图或网络或者知识图是由实体诸如节点和链路组成的定向多关系图。

在本发明的框架中，将这些图整合到神经网络中是通过“图形嵌入”来执行的，换言之，是通过语义网络的节点的向量表示来执行的，该向量表示允许特别是捕获节点的语义特性。

这些嵌入用于初始化神经网络的嵌入层。在学习阶段期间，这些嵌入层基于所述情境信息进行适配。

例如，可以在外部图诸如DBpedia图中找到属性诸如“国家”或“年份”。

DBpedia是用于自动探索和提取来源于维基百科的数据的大学和社区项目。其原理是以数据的形式提供结构化版本，该数据被标准化为每个百科全书文件的百科全书内容的语义网的格式。

因此可以利用现有模型构建情境信息。

在不失一般性的情况下，还可以假设j＝1并且用V*中的向量识别用于第一属性的值。对于v∈V*，D的每个元组采用形式d＝(v，d2，...，dk)。

然后，注入语义情境信息的问题是特点的组合：对于所有v∈V*，找到维度n>0并且向量表示u＝vec(v)∈R n。

换言之，v“捕获”v的语义，从而允许在D*＝{(d，d2，...，dk)：d∈D}上改进“机器学习”分类器的机制。

嵌入是与概念相关联的n维向量。

这些向量继承了概念的某些语义特性，使得特别相似的概念与附近的向量相关联。这些接近性可以通过类似的余弦容易地表达。

嵌入形成搜索域在语言的自动处理领域中是公知的，以便表示语料库中的单词的语义。

例如，“单词嵌入”或“词汇嵌入”是一种用于自动学习的方法，该自动学习的方法来自侧重于学习单词的表示的“深度学习”。该技术允许字典的单词由向量表示，以便促进它们的语义和句法分析。因此，每个单词将由实数向量表示，并且相比于出现在不同情境中的其他单词，出现在类似情境中的单词将具有更接近的向量。这种新的表示允许尺寸空间显著减小(因为不再存储整个字典而仅存储连续的向量空间)。

最著名的算法可能是Word2Vec算法。维基百科页面专门介绍了该算法：

https://en.wikipedia.org/wiki/Word2vec

Word2Vec是一种非监督学习算法组，其允许从文本文档开始创建单词嵌入。为了驱动其嵌入，Word2Vec使用神经网络，其中双层采用原始文档，没有标签作为输入。神经网络的架构模型可以基于“连续词袋”(CBOW)模型，或者基于“skip-gram”架构。

在第一种情况(CBOW)下，对模型的输入可以是wi-2、wi-1、wi+1、wi+2，换言之，在当前单词wi之前和之后的单词。网络的输出是wi为正确单词的概率。该任务可以被描述为对被赋予其情境的单词的预测。

在第二种情况(skip-gram)下，模型以相反的方式操作：网络的输入是单词wi，并且Word2Vec预测该单词周围的情境：wi-2、wi-1、wi+1、wi+2。

与用于处理自然语言的其他神经网络相比，Word2Vec非常快并且可以使用并行学习技术进一步加速。因此，使用配备英特尔i7四核处理器的个人计算机驱动维基百科的语料库可能耗费约90分钟，该处理器以4x3.4GHz运行，内存为16GB。

Word2Vec算法的一个重要特性是它在向量空间中将相似单词的向量组合在一起。如果在足够的学习集上进行学习，则Word2Vec在根据先前的事件预测单词的含义中产生良好的结果。

为了获得保留语义的嵌入，使用了被开发用于限制实体中的模糊性的嵌入算法。这样的算法可以是以下文章中描述的算法：

Zwicklbauer,S.,Seifert,C.,Granitzer,M.:Doser-A knowledge-base-agnostic framework for entity disambiguation using semantic embeddings.In:Sack,H.,Blomqvist,E.,d’Aquin,M.,Ghidini,C.,Ponzetto,S.P.,Lange,C.(eds.)theSemantic Web.Latest Advances and New Domains-13th International Conference,ESWC 2016,Heraklion,Crete,Greece,May 29-June 2,2016,Proceedings.Lecture Notesin Computer Science,vol.9678,pp.182–198.Springer(2016),http://dx.doi.org/10.1007/978-3-319-34129-3_12

根据基于该算法的一种实现，Word2Vec获得用于每个单词的预测该单词的序列的向量表示。

由于给定的RDF图不包含这种类型的序列，因此通过执行从节点开始的随机游走来创建节点vk∈V的序列，该节点也以随机方式进行选择。认为RDF图是非定向图G＝(V，E)，其中节点V是知识库的资源，链路E是知识库的特性，并且

是知识库内的三重RDF。

可以在该图G内执行随机游走。当游走遇到节点x∈V时，该节点x的标识符被添加到输出结果。

节点x的节点succ(x)被随机选择并且在相邻节点之间均匀地共享，换言之，其中均匀概率等于1/EdgesOf(x)，其中“EdgesOf(x)”是返回节点x的链路的数量的函数，换言之，是向量vk中的链路的数量。

还可以引入随机变量Xx，其确定跳转到给定节点的概率，如果进行随机跳转的话。

通过使来自节点x的链路IEF的相应反向频率IEF(x)归一化来计算从第一节点到第二节点x的跳转的概率。根据发明人进行的实验研究，参数α＝0.1用于进行随机跳转，但0.05至0.25之间的值的范围似乎适合于提供良好的Word2Vec模型。

另外，参数θ指示图中随机游走的数量。例如，可以使用θ＝5*|E|，其在DBpedia的示例中提供了约5000万随机游走。该参数的较高值好像不会改进实体的嵌入，但会增加学习阶段所需的时间。

根据本发明的一个实施方式，用于创建RDF知识库的语料库的方法可以是根据以下算法：

使用携带语义内容的情境信息的这种原理可以应用于通过除神经网络之外的学习进行分类的机制。

因此可能提及遗传算法、贝叶斯网络、隐马尔可夫模型等。

图1中的曲线说明了来自本发明的实现的一个实验结果。

它提供使精度(纵坐标轴)和“召回”的比率(横坐标轴)——换言之，正确分类的欺诈交易的比率——关联的全局得分。

这些曲线示出了与神经网络的嵌入层的各种配置对应的4种状况：

附图标记1-“无外部数据”：不考虑情境信息

附图标记2-“tx-假日”：考虑与假日有关的情境信息；

附图标记3-“国家_嵌入”：考虑与国家有关的情境信息

附图标记4-“tx_假日+国家_嵌入”：考虑与假日和国家有关的情境信息。

因此，注意到，由于使用了情境信息，特别是通过使用国家，结果确实更好。

还可以看出，组合使用几种类型的情境信息是棘手的问题。在某些情况下，似乎一些组合甚至冒着劣化分类器的一般性能的危险。国家和公开已知假日(国家法定假日、学校假日等)的语义向量表示的组合似乎在实验上表现出良好的结果，特别是在“召回”率的低值上，针对该低值，可以取得高精度。因此，这意味着根据本发明的该实施方式的分类器对于最可能是欺诈的交易获得了良好的结果，这在实践中表示最常见的状况。

不言而喻，本发明不限于所描述和描绘的示例和实施方式，而是能够是本领域的技术人员可得到的许多变体。

Claims

1.一种用于检测支付交易的集合内的欺诈交易的方法，包括：使所述交易经历运行于应用集上的分类系统，并且对于所述集合中的每个新交易，提供该新交易为欺诈交易的概率，其特征在于，情境信息与每个交易相关联，并且其中，所述分类系统是神经网络。

2.根据前一权利要求所述的方法，其中，所述分类系统借助于嵌入图使用所述情境信息。

3.根据前述权利要求中的一项所述的方法，其中，所述情境信息包括与和所述交易相关联的国家有关的数据。

4.根据前述权利要求中的一项所述的方法，其中，所述情境信息包括与假日有关的数据。

5.根据前述权利要求中的一项所述的方法，其中，所述分类系统基于Word2Vec算法。

6.一种设备，所述设备包括用于实施根据前述权利要求中的一项所述的方法的装置。