CN110998608A

CN110998608A - 用于各种计算机应用程序的机器学习系统

Info

Publication number: CN110998608A
Application number: CN201880053753.5A
Authority: CN
Inventors: O·凯伦; L·赫格尔顿; P-E·波尔蒂埃; M·格兰尼泽; K·齐格勒; J·尤尔戈夫斯基
Original assignee: Worldline SA
Current assignee: Worldline SA
Priority date: 2017-07-18
Filing date: 2018-07-13
Publication date: 2020-04-10
Anticipated expiration: 2038-07-13
Also published as: EP3655893A1; WO2019016106A1; US20200257964A1; FR3069357B1; US11763137B2; CN110998608B; FR3069357A1

Abstract

一种用于各种计算机应用程序的机器学习系统，使文本挖掘能够检测由应用程序执行的认证、操作或交易中的缺陷或异常，该系统包括：形成预处理系统的硬件和软件布置；形成神经网络以引起聚合的富集数据处理模型的硬件和软件布置，用于将聚合的富集数据注入神经网络中的硬件和软件布置，基于在神经网络的输出处获得的结果来验证操作或交易的硬件和软件布置。

Description

用于各种计算机应用程序的机器学习系统

技术领域

本发明涉及在认证期间，特别是在认证、操作或交易期间的欺诈检测系统的领域。

背景技术

由于电子交易量的不断增长，各种参与者不断寻找在认证、操作或交易期间检测欺诈的新方法。

由于我们今天看到的大量数据，传统的人类观察不能满足建立具有恶意行为的数量、多样性和动态性质的对欺诈的准确检测的基本要求。

使用基于数据的现代方法和独立学习方法的系统已开始用于检测计算机应用程序中的缺陷，诸如，例如认证欺诈，特别是与信用卡使用有关的认证欺诈。

为此，这些系统通常使用神经网络，神经网络的统计学习基于决策树森林(随机森林分类器)，该决策树森林分析非顺序数据的采样。

然而，使用通过决策树学习可能生成非常复杂的决策树，这严重泛化了训练集并引起接受将不会被检测到的欺诈性标识。

因此，需要一种系统，该系统使得能够识别未被神经网络检测到的异常，该神经网络的统计学习基于决策树森林(随机森林分类器)。

发明内容

因此，本发明的目的是提出一种用于在识别期间检测欺诈的系统，通过提出一种用于各种计算机应用程序的机器学习系统，使得可以克服现有技术的缺点中的至少一些，该计算机应用程序使文本挖掘能够检测由应用程序执行的认证、操作或交易中的缺陷或异常，该系统包括：

形成预处理系统的硬件和软件布置；

形成神经网络以引起聚合的富集数据处理模型的硬件和软件布置，

用于将聚合的富集数据注入神经网络的硬件和软件布置，

基于在神经网络的输出处获得的结果来验证操作或交易的硬件和软件布置。

有利地，驱动处理模型的神经网络是：

长短期记忆(LSTM)类型的递归神经网络；

用于决策树类型的统计学习的神经网络；或者

两者的组合。

有利地，考虑到两次认证、操作或交易之间经过的时间，LSTM类型的递归神经网络包括至少两个递归层和定位在最后一个递归层之上的逻辑回归分类器。

有利地，用于验证认证、操作或交易的硬件和软件布置用杰卡德索引(JaccardIndex)矩阵进行参数化，以便测量LSTM类型的第一神经网络的输出数据与源自用于决策树类型的统计学习的第二神经网络的硬件和软件布置的那些输出数据之间的相似度，并验证两个神经网络中的一个的结果。

有利地，其用于计算机应用程序，允许在用于认证对象及其持有者的区域秘密信息中包含的电子存储对象的认证操作中从欺诈检测中进行风险预测。

有利地，形成驱动LSTM类型模型的递归神经网络的硬件和软件布置使用GPU。

有利地，形成预处理系统的硬件和软件布置包括：

至少一个第一数据库，其包含与所述计算机应用程序有关的原始数据的至少一组顺序模式，

形成至少一个第二数据库的硬件和软件布置，该第二数据库包含至少一组外部数据，

用于通过外部数据富集原始数据的硬件和软件布置，

用于聚合富集数据的硬件和软件布置。

有利地，预处理系统使用多线程。

附图说明

通过参考附图阅读以下描述，本发明的其他特性、细节和优点将变得显而易见，附图示出：

图1示出了通过为每个时间步骤创建模型副本来及时展开的递归神经网络的示意图。

图2示出了测试集中的全天平均的精确度-召回曲线(附图示出了LSTM对LONG序列的结果)。

图3示出了在所有测试日的AUCPR的演变。水平虚线指示每条曲线的平均AUCPR(附图示出了LSTM对LONG序列的结果)。

图4示出了两个模型的多组正确阳性的成对比较，这些模型使用杰卡德索引测量并在热图中用颜色编码。

图5示出了LSTM模型的驱动架构。

图6示出了组合LSTM模型和随机森林模型的元分类器。

图7示出了根据本发明的欺诈检测框架。

具体实施方式

以下描述集中于系统的信用卡欺诈检测应用，但是可以应用于由信息系统或网络运行的各种应用程序所执行的认证、操作或交易中的其他欺诈、缺陷或异常。

根据我们的观点，欺诈性认证、操作或交易可被理解为客户的购买行为中的异常，或被理解为真实认证、操作或交易类别中的一组逸出值，它们本身形成欺诈交易的对立类别。无论哪种方式，由于两个原因，在特征空间中，欺诈都非常容易与真实认证、操作或交易混合在一起。第一，来自数百万客户的真实购买行动自然涵盖了广泛的可变性。并且第二，欺诈者运用各种难以理解但合理的策略来执行跨越不同时间段的若干客户帐户的欺诈动作——但最终，这些动作将同样只会在数据集中呈现出为单独的认证、操作或交易。相同的购买行动可以同时反映在一些客户的情况下完全合法的行为或在其他客户的情况下明显的异常。

为了支持在难以区分的认证、操作或交易之间更好的区分，我们确认了两种方法，它们使我们能够总结客户的交易历史并在单个交易的分类期间使用该总结。第一种方法是信用卡欺诈检测领域中公认的实践，并且它基于手动特征工程设计。利用第二种方法，我们专注于通过利用递归神经网络对认证、操作或交易之间的转换动态进行建模，来恢复客户的认证、操作或交易历史的顺序结构。

长短期记忆网络(LSTM)是递归神经网络(RNN)的特殊变体。80年代开发了递归神经网络[Williams和Hinton，1986，Werbos，1988，Elman，1990]以用于对时间数列进行建模。RNN的结构类似于标准多层感知的结构，区别在于其允许与离散时间步相关联的隐藏单元之间的连接。时间步按输入序列索引各个元素。通过跨时间步的连接，模型可以保留有关过去输入的信息，从而使其能够发现事件之间的时间相关性，这些事件在输入序列中可能彼此相距很远。这是正确学习时间数列的关键属性，在该时间数列中，一个事件的发生可能取决于在时间上更早的若干其他事件的存在。

等式1给出了具有在时间步t的输入x_t和状态s_t的通用神经网络。

s_t＝Wσ(s_f-1)+Ux_f+b (1)

模型的参数θ＝{W,U,b}由递归权重矩阵W、输入权重矩阵U和偏差b给出。初始状态s₀是零向量，并且σ是一些非线性的逐元激活函数，在我们的情况下为tanh。成本ε衡量网络在一些给定任务上的性能，并且通常由在所有时间步的成本组成ε＝∑_1≤k≤tε_k·。此复合成本将适用于例如文本标记任务，其中为每个输入单词分配了标记。在我们的情况下，我们仅预测序列中最后一次认证、操作或交易的标记。

利用逻辑回归输出模型对类别欺诈和非欺诈给定状态s_t的分布进行建模。我们将认证、操作或交易的真实标记y_t∈{0，1}解释为x_t属于0类或1类的概率，并通过交叉熵误差定义为

来测量模型的预测概率

引起的成本。

通过利用基于梯度的优化方法最小化成本ε_t来学习模型参数θ。可以用来计算所需梯度的一种方法是时间反向传播(Backpropagation Through Time，BPTT)。BPTT的工作方式是及时展开递归网络，以将其表示为深的多层网络，其中隐藏层的数量与时间步相同(参见图1)。然后，将众所周知的反向传播算法[Williams和Hinton，1986]应用于展开的网络。

虽然原则上，递归网络是简单而强大的模型，但实际上，难以利用梯度下降来正确训练。在该模型如此笨拙的众多原因中，有两个主要问题被提出：消失和爆炸梯度问题[Bengio等人，1994]。

利用潜在状态之间的递归连接，参数θ不仅通过最后一个状态而且还通过所有先前状态来影响误差。同样，误差通过所有状态s而取决于W。当我们计算ε_tw.r.t.θ的梯度时，这种依赖性成为问题：

雅可比矩阵

包含状态s_k和状态s_t之间的所有逐分量的交互。其可以理解为将误差从状态t传输回状态k的手段。其是连续状态之间所有成对交互的乘积：

该乘积是为什么利用基于梯度的优化方法来学习长期依赖性如此困难的实际原因。t和k之间的依赖性越长，乘到

中的因子

就越多，从而导致梯度范数随t-k呈指数增加或减少。每个因子

都涉及递归权重矩阵和导数σ′(s_i-1)两者。[Pascanu等人，2013]表明，对于长期分量消失，递归权重矩阵的最大特征值小于1就足够了，对于梯度的爆炸来说，其必须大于1。

存在若干解决方案以减轻这些问题。在权重足够小的初始化下，对递归权重矩阵使用L1或L2罚分可以确保最大特征值永远不会超过1。另一个建议是基于这样的假设：如果模型从一开始就表现出与目标所要求的相同种的渐近行为，则梯度爆炸的可能性就较小[Doya，1993]。然而，在这种特定情况下初始化模型并非易事。梯度剪切是另一种非常实用的方法，其涉及在超过固定阈值时剪切梯度的逐个元素的分量[Mikolov等人，2011]。最后，[Hochreiter和Schmidhuber，1997]提出了用于避免消失梯度问题的解决方案，该方法是在

中消除对递归权重矩阵的直接依赖性[Bayer，2015]。这种经过修改的网络结构称为长短期记忆网络(LSTM)，并且其构成了许多现实世界任务(诸如语音识别、手写识别和统计机器翻译)的目前工艺水平。

作为利用LSTM对认证、操作或交易序列进行建模的替代方法，我们采用了传统的特征工程设计。

特征聚合：从认证、操作或交易序列中提取信息的一种方法是沿序列聚合某些变量的值。为了构建此类特征聚合，我们遵循[Bahnsen等人，2016]最近提出的过程。可以将这种简单而强大的过程视为信用卡欺诈检测中特征工程设计的目前工艺水平。它们根据一些预定义的规则为每个认证、操作或交易添加新特征。通过将聚合函数应用于先前交易的子集来计算新特征的值。目的是根据持卡人的认证、操作或交易历史创建活动记录，该活动记录量化当前认证、操作或交易与先前认证、操作或交易的符合程度。

设

为单个持卡人的认证、操作或交易的时间排序序列，其中t按其序列索引各个认证、操作或交易。我们用上标表示特定变量在认证、操作或交易中的值：例如

是在认证、操作或交易x_t中花费的金额。基于单个认证、操作或交易x_k，我们根据一些分类变量A和B选择从过去直到最大时间范围t_h的认证、操作或交易的子集：

集S_k包含x_k之前的先前t_h小时的所有认证、操作或交易，其中分类变量A和B具有与x_k中相同的值。分类变量A和B以及时间范围t_h可以看作是对子集施加的约束。例如，如果我们定义A：＝国家，B：＝MCC并且t_h＝24，则子集S_k包含过去24小时内在同一国家和同一商户类别中发布的所有认证、操作或交易作为认证、操作或交易x_k。

现在，我们可以在S_k上定义聚合函数。定义此类函数有很多可能性，并且即使它们全部可能同等有效，我们也将自己限于作者提出的两个函数：花费总额和交易数量。

对(sumS_k，countS_k)对应于A、B和t_h给出的单个约束。为了涵盖来自认证、操作或交易历史的更广泛的统计信息，我们在24小时的时间范围内针对类别变量国家、商人类别和卡输入模式的所有组合计算此类对。最后，我们将所有这些对附加到认证、操作或交易x_k的特征向量。

时间增量：序列学习器检测连续交易序列中的模式。我们认为这些模式类似于持卡人的一些形式的潜在购买行为。如果是这样，则行为模式应与实际采取购买行动的具体时间点保持不变。为了支持跨非常不同时间段的输入序列上的时间标准化，我们以分钟为单位提取两次连续的认证、操作或交易之间的时间，并将其显式地添加为附加特征：

如同在任何统计建模任务中一样，我们只能通过作为有限的逐点观察集给出的代理来观察真实世界中的真实现象。

在信用卡欺诈检测中，真正的兴趣现象是持卡人的真实购买行为，或者同样地，欺诈者的恶意行为。我们的假设是，这个对象(我们将其宽泛地表述为行为)受某些潜在但始终如一的特质控制。利用其状态变量，LSTM原则上能够从观察序列中识别出这些特质。

在现实世界中，社会惯例、官方法规或普通物理学对观察的潜在变异性并从而对控制它们的特质的复杂性施加了约束。例如，营业时间严格限制了客户能够在何时何地购买其商品或服务。地理距离和旅行形式限制了连续交易的可能性。我们可以期望我们在我们的数据集中看到的所有面对面的认证、操作或交易在某种程度上都尊重这些现实世界约束。相反，根据时间和地点，电子商务认证、操作或交易或更确切地说是其对应的在线购买广泛地不受约束。从一个认证、操作或交易到下一个认证、操作或交易，几乎没有任何属性不能真正地以任意方式更改。

我们假设在面对面交易中存在现实世界的约束会导致具有较小变化的行为模式更明显。在这种情况下，序列学习器应该受益于更一致的序列结构。

基于先前的统计分析和关于现实世界购买行为的考虑，我们决定分别研究序列学习器对电子商务和面对面认证、操作或交易的检测准确性的影响。我们将结果与非序列学习器(随机森林分类器)进行对比。

基于从2015年3月至5月记录的带标记的信用卡认证、操作或交易数据集，我们以以下方式创建数据集：我们按照持卡人ID对所有认证、操作或交易进行分组，并对每个持卡人的认证、操作或交易按时间进行挑选。结果，我们获得了每个持卡人的认证、操作或交易的时间排序序列。在该工作的其余部分中，我们将此序列表示为持卡人的帐户，并将所有帐户的整个集合表示为序列数据集。我们进一步将序列数据集分为两个互斥的集合：一个序列数据集仅包含电子商务认证、操作或交易(ECOM)，并且另一个仅包含销售点认证、操作或交易(F2F)。

表1：数据集大小和欺诈率。

帐户采样：欺诈检测问题的典型特殊性是少数类(欺诈交易)和多数类(真实交易)之间的高度失衡。欺诈性认证、操作或交易的总体比例通常约为0.5％或更少。在F2F数据集中，与ECOM数据集相比，欺诈的发生频率降低了一个数量级，这进一步加剧了检测问题。来自文献[Bhattacharyya等人，2011]的研究和先前的实验表明，在训练集上进行某种形式的多数类欠采样改善了学习。但是，与将认证、操作或交易视为独立训练示例的基于交易的数据集相比，我们无法将此种欠采样策略直接应用于序列数据集。因此，我们在帐户级别采用了欠采样。在这方面，如果帐户包含至少一个欺诈性认证、操作或交易，则认为该帐户已被盗用，并且如果其仅包含真实交易，则认为该帐户是真实的。我们采用了基于单个帐户的采样过程来构建训练集。在概率p_g＝0.9的情况下，我们从一组真实帐户中随机选择帐户，并且在概率为1-p_g的情况下，我们从一组被盗用帐户中选择帐户。重复此过程10⁶次，以创建具有一百万个帐户的训练集。交易级别的实际欺诈率仍然小于1：10，但是我们发现这种简单的方法在实践中效果很好。有关数据集大小和时间段的详细信息参见表1。

延迟的地面实况：我们的测试期从训练期之后开始超过一个星期。做出此决定的原因有两个：在生产系统中，仅在人类调查人员检查了交易之后，才能使用认证、操作或交易的标记。因此，准确的地面实况的可用性始终会延迟大约一个星期。第二个原因是，在紧随训练期的最近认证、操作或交易上，分类通常更准确。但是，此准确性将过于乐观地评估分类器在生产系统中的性能，因为在实践中，我们尚无法获得真实标记。

数据集对齐：随机森林和LSTM均经训练以预测单个交易的标记。但是，我们需要在实验中考虑一个差异。利用LSTM，我们只能在看到认证、操作或交易之前的若干认证、操作或交易之后才能预测该认证、操作或交易的标记，而利用随机森林，我们不需要任何先前的交易。为了改善结果的可比性，我们通过移除所有未经过至少w＝9个先前交易的认证、操作或交易来解决此差异。现在可以在相同的交易集中对RF和LSTM进行训练、验证和测试。为了研究输入序列的长度对LSTM预测的影响，我们仅保留4个(短)或所有9个先前的认证、操作或交易(长)作为输入。

由于在信用卡认证、操作或交易期间收集的数据必须符合国际财务报告标准，因此在整个文献中，原始特征集非常相似。因此，我们移除了所有特定于商业的特征，并且仅保留了其他研究[Bhattacharyya等人，2011；Bahnsen等人，2016；Carneiro等人，2017]中常用的特征。为了评估其他特征对分类准确性的影响，我们定义了三个特征集。

我们的第一个特征集(BASE)包含在移除特定于商业的变量之后的所有原始特征。由于欺诈通常不是孤立地出现，而是作为可能跨越若干小时或若干天的整个欺诈序列的要素，因此我们从特征集中移除了持卡人ID。否则，分类器可以简单地记住帐户被盗的持卡人的ID，并且仅在这一小得多的交易集中做出决定。然而，实际上，我们希望知道是否存在欺诈性认证、操作或交易，并且然后使帐户被盗。第二个特征集(TDELTA)包含BASE集中的所有特征加上时间增量特征，如3.2节所述。第三特征集(AGG)包含TDELTA集中的所有特征加上如上所述的14个聚合特征。我们基于类别变量term-mcc、term-country和card-entry-mode的所有组合，在认证、操作或交易的金额和数量方面，聚合了先前24小时内的认证、操作或交易。特征的概述参见表2。

表2：我们的数据集中的特征的列表。标记有(*)的特征是由若干较低级特征组成的复合特征。

比率缩放变量：我们对比率缩放变量(诸如，认证、操作或交易金额或信用额度)应用了高斯归一化，以将变量集中在μ＝0上，其中标准偏差σ＝1。该归一化对随机森林分类器的学习没有影响，但它加速了神经网络中基于梯度的优化的收敛。

类别变量：在随机森林分类器的情况下，类别变量可以照原样使用。我们仅将每个值映射为整数。在神经网络的情况下，我们希望避免具有非常高的一维热编码特征向量。因此，我们采用了标记编码机制，该机制在自然语言处理和神经网络领域非常流行(Collobert等人[2011]，Socher等人[2013]，Tang等人[2014])，并且适用于字以外的任意其他类别变量[Guo和Berkhahn，2016]。对于具有其一组值C的类别变量，我们为每个值分配了随机的d维权重向量v，该向量是从多元均匀分布得出的。

v～u([-0.05,0.05]^d)，其中d＝[log₂|C|]

特征值及其对应的向量(特征值的向量嵌入)存储在字典(dictionary)中。为了对类别变量的特定值进行编码，我们在字典中查找特征的值并检索其向量。嵌入向量是模型参数的一部分，并且可以在参数估计期间共同调整。

时间特征：我们认为时间特征是若干个类别变量的组合。对于时间特征的每个时间分辨率，即年、月、工作日、日、小时、分钟和秒，我们以与上述相同的方式定义了类别变量。

长短期记忆网络具有两个递归层，以及在最后一层的顶部上堆叠的逻辑回归分类器。逻辑回归分类器可以经由误差反向传播与LSTM状态转换模型一起训练。我们对LSTM节点应用了遗弃(dropout)[Srivastava等人，2014]来规范化参数，并通过利用ADAM算法最小化预测的类分布和真实类分布之间的交叉熵来训练整个模型。我们的实施方式基于深度学习库Keras。

由于我们正在研究基于LSTM的序列学习方法相对于静态学习器的潜在好处，因此我们不得不从静态学习器类中选择一个实例。在这里，我们选择与随机森林进行比较。在先前的实验中，我们观察到随机森林是该任务上的强大基线，这也解释了其对于欺诈检测的广泛使用[Carneiro等人，2017；Bahnsen等人，2016；Ngai等人，2011]。我们使用了来自SciKit-Learn的随机森林实施方式。

网格搜索：随机森林和LSTM都必须使用超参数进行参数化。我们根据由所有超参数的子集跨越的粗网格搜索了可能的超参数配置的空间(参见表3)。然后，我们在验证集上选择具有最大AUCPR_0.2的配置。

表3：在网格搜索期间考虑的超参数。

两个标准指导选择合适的性能指标：针对不平衡类的稳健性和对特定于商业的利益的关注。

AUCPR：我们采用了精确度-召回(PR)曲线并且尤其是该曲线下的面积以量化检测准确度。PR曲线上的每个点对应于特定召回级别下的分类器的精确度。因此，完整的曲线提供了分类器的准确性完全画面，并且即使在不平衡的设置下它也是稳健的。该曲线上的积分得出性能的单值总结并且我们将其表示为AUCPR。

AUCPR@0.2：从商业角度来看，低召回和高精确度优于高召回和低精确度。因此，通常的选择是在排名结果列表中的前K个元素上测量精确度。在K处的这种精确度对应于PR曲线上的单个点，并且由于K的不同选择而易于产生可变性。为了反映商业兴趣并避免可变性问题，我们建议在计算到一定的召回水平(在我们的实验中为0.2)的PR曲线上使用积分。AUCPR@0.2的最大值为0.2。

杰卡德索引：为了探索两种方法之间的特质差异，我们使用杰卡德索引来测量两个分类器在其检测到的欺诈方面的相似程度。给定两个结果集(真阳性)A和B，杰卡德索引定义为，

决定阈值设置为s.t.，它对应于0.2的召回。

节省：节省是信用卡欺诈检测领域中经常使用的另一指标。它根据平凡的接受者/拒绝者来测量某种算法的货币收益，并且它基于预定义的成本矩阵。在单个认证、操作或交易上对二进制分类器进行的测试可以具有通过两个预测(p＝0或p＝1)和两个真实判断(y＝0或y＝1)定义四个可能的结果。对于这些结果中的每个，可以根据真实标记y将由接受p的调查过程引起的货币成本关联为决策。表4示显示了成本矩阵。

表4：成本矩阵

各个条目由处理成本C_p、背后计费(charge back)C_cb和与交易相关的成本g(·)组成。g表示在进行调查过程时由于欺诈发生而造成的金钱损失。它定义为：

其中，

是在认证、操作或交易x_i之后的T小时内发生的一组欺诈性认证、操作或交易：

由于商业法规，我们无法提供有关C_p、C_cb和T的特定值的细节。然而，我们要明确指出，在特定的商业情境之外，没有理由报告关于货币节省的统计模型的分类性能。该措施完全取决于成本矩阵。我们之所以包括此指标，仅仅是因为我们发现它在相关工作中被普遍使用。相反，AUCPR应该是不同分类方法之间进行比较的选择指标。它是客观的，并且因此允许更一般的结论，这些结论也在特定的商业情境之外有效。

我们为特征集、数据集和序列长度的每种组合训练了模型，并然后在支持的测试集上测试了其分类性能。在随机森林的情况下，输入序列的长度对模型没有影响，因为仅使用了来自输入序列的最后一次认证、操作或交易。我们分别在24个测试日中的每个对经训练的模型进行了评估，并报告了它们相对于上面定义的指标的平均性能。

表5和表6示出了“面对面”和“电子商务”数据集的结果的总结。第一观察结果是ECOM上的整体检测准确性比F2F上要高得多，这可以用ECOM中较高的欺诈率来解释。第二，较长的输入序列似乎对F2F和ECOM的检测准确性都没有影响。第三，考虑先前利用LSTM进行的认证、操作或交易显著改善F2F上的欺诈检测。但是，这种改善在ECOM上是无法观察到，相反，来自静态学习和序列学习方法的结果令人惊讶地相似。

表5：跨所有测试日的平均AUC。序列长度(短、长)和特征集(BASE、TDELTA、AGG)。

表6：跨所有测试日的平均AUC。序列长度(短、长)和特征集(BASE、TDELTA、AGG)。

另一观察结果证实了特征聚合改善欺诈检测的发现。它们对ECOM比对F2F的影响明显得多。在序列模型不起作用的情况下，特征聚合有帮助的观察表明，这两种形式的情境表示不相关，并且方法是互补的。无论信息LSTM状态在认证、操作或交易历史中跟踪的是什么信息，它都与我们通过聚合手动添加的信息不同。

显然，就AUCPR而言，LSTM改善了对面对面认证、操作或交易的欺诈检测。我们好奇这种改善来自何处。图2显示了所有模型变量的精确度-召回曲线。在图2a中，我们可以看到RF模型的PR曲线在低召回水平下具有高精确度峰值，但随着召回增加而迅速衰减。相比之下，LSTM模型对于低召回水平具有略低的精确度，但随着召回增加，仍保持较高的精确度。然而，有一个有趣的例外：一旦我们添加聚合特征，随机森林的PR曲线会显著增加，达到与LSTM模型相当的性能。对于LSTM，我们根本无法观察到如此明显的收益。在电子商务认证、操作或交易方面(参见图2b)，在所有特征集上，随机森林和LSTM的PR曲线几乎相同。RF和LSTM以相同裕度受益于聚合特征。

在表5和表6中，我们报告了所有测试日的平均统计数据。当我们绘制各个测试日的RF和LSTM的AUCPR时，我们可以在图3中看到，来自两个分类器的预测在各日间都表现出巨大的变化。然而，由于曲线是相关的，因此我们可以推断出，在一些天，检测问题比在其他天更为困难。例如，两个分类器关于时间段9.05.-10.05.和25.05.-26.05.中的AUCPR具有最小值。通过手动检查，我们试图将来自这些天的认证、操作或交易与日历事件或公共事件联系起来，但是对于性能不佳，我们找不到令人满意的解释。

在此分析中，我们仔细研究了利用RF和LSTM检测到的欺诈。从所有经训练的模型集中，我们选择了一对模型并比较了它们的预测。再次选择决策阈值，使其对应于召回水平0.2。分数高于阈值的所有预测均被视为阳性预测，并且所有其他预测均被视为阴性预测。通过固定召回，我们确保了在一对模型的结果集中具有相等数量的真阳性。然而，我们对RF的真阳性是否与LSTM的真阳性实际相等感兴趣。我们用杰卡德索引测量了一对模型的真阳性集的重叠。图4将所有成对比较显示为热图。

在两个热图上，我们观察到四个完全不同的区域。对应于模型内比较的两个区域和对应于模型间比较⁴的两个区域。杰卡德索引表明，RF和LSTM在它们检测到的欺诈中都是一致的。在随机森林比较中，此属性稍微更明显。然而，中心和有趣的观察结果是以下事实，RF和LSTM倾向于检测不同的欺诈。在F2F上，RF模型的平均真阳性率为50.8％，并且LSTM模型的平均真阳性率为37.8％。在两个模型类别之间，我们观察到的平均一致率仅为25.2％。这与ECOM相似，其中平均模型内一致率分别为47.5％(RF)和50.8％(LSTM)，并且平均模型间一致率仅为35.0％。

该一般观察有一个例外。经训练的具有聚合特征的模型趋向于检测到一组常见的独特欺诈，而没有聚合特征的随机森林和LSTM都不会检测到这组欺诈。此属性在ECOM上比在F2F上更为明显。

在我们的实验期间，我们发现将长短期记忆网络应用于此种结构化数据并不像人们想象的那样简单。因此，我们想分享一些对从业者有用的意见。

模型正则化：当我们要处理以预测未来事件的一些属性为目标的时间过程时，历史数据点的集合无法真正满足人们对代表性验证集的要求。训练集结束后第一天的预测准确性要好于未来几天后的预测准确性，这表明条件分布的时间依赖性。当我们选择训练期后的前几天作为验证集时，该集的结果将建议对该模型进行少量正则化。但是，这种选择会对未来几天的性能具有相反的影响。准确和高度可信的今天数据的模型可能在几天之内会严重错误，而今天缺乏可信的模型仍然会在几天内有效。对于诸如随机森林之类的整体分类器而言，这并不是什么大问题，但是对于神经网络来说却是这样。巧妙的解决方法是在网络结构上使用遗弃。它从完整的结构中采样较小的网络，对其进行独立训练，最后对这些较小的网络的假设进行平均。基于该平均假设的预测跨时间更加稳定。

在线学习：随机梯度下降以及为训练神经网络而开发的许多变体(ADAM、RMSprop、Adagrad)，即使从小的训练示例集上估计的不精确误差中，也能够迭代更新模型。此属性很好地满足了商业的要求，以保持其检测模型跟进传入的认证、操作或交易数据流。

关于LSTM训练的评论：由于其递归结构，即使LSTM层只有很少的节点时，LSTM也容易过拟合。因此，建议从一个很小的结构开始，并谨慎地增加大小，只要有理由期望进一步的泛化性能即可。我们注意到，与l₁惩罚相比，l₂惩罚引起平滑得多的收敛和始终更好的优化。在我们的实验中，ADAM优化器的效果比普通SGD好得多，因为它可以随时随地估计正确的学习率时间表。

组合方法：定性地，即使在添加聚合特征之后，随机森林和LSTM之间仍然存在一个差异。对于面对面交易，LSTM检测到的欺诈集与随机森林不同。与各个家庭内的欺诈集相比更加不同。我们推测，这种差异可以通过存在更多不同的继任模式来解释，这些继任模式受现实世界中的约束条件所指导和构架。因此，在F2F场景中，将序列学习器与静态学习器和聚合特征组合可能会进一步改善检测准确性。

跟随应用程序的类型，或者操作者想要检测的认证、操作或交易中的欺诈、缺陷或异常的类型，系统可以仅使用长短期记忆(LSTM)类型的递归神经网络，或用于决策树类型的统计学习的神经网络，或两者的组合(请参见图6)。

在阅读本申请时将容易理解，如附图中大体描述和图示的，本发明的特征可以以多种不同的配置来布置和设计。因此，本发明的描述和附图并非旨在限制本发明的范围，而仅表示选定的实施例。

本领域技术人员将理解，给定实施例的技术特性实际上可以与另一实施例的特征相组合，除非明确提及相反的情况或者显然这些特性是不兼容的。此外，除非明确提及相反的情况，否则一个实施例中描述的技术特性可以与该模式的其他特征隔离。

对于本领域的技术人员应该显而易见的是，在不背离所寻求的保护所定义的范围的情况下，本发明允许许多其他特定形式的实施例。图示和本发明不应限于以上给出的细节。

Claims

1.一种用于各种计算机应用程序的机器学习系统，其使得文本挖掘能够检测由所述应用程序执行的认证、交易或操作中的缺陷或异常，所述系统包括：

形成预处理系统的硬件和软件布置；

单独或与用于决策树类型的统计学习的算法组合形成长期和短期记忆即LSTM类型的递归神经网络并且产生来自所述预处理系统的聚合的富集数据的处理模型的硬件和软件布置；

用于将来自所述预处理系统的聚合的富集数据注入到所述神经网络中的硬件和软件布置，

基于在所述神经网络的输出处获得的结果来验证所述认证、操作或交易的硬件和软件布置；

其特征在于，所述LSTM类型的所述递归神经网络包括至少两个递归层和定位在最后一个递归层之上的逻辑回归分类器，所述逻辑回归分类器在其实现期间考虑了两次认证、操作或交易之间经过的时间。

2.根据前述权利要求所述的系统，其中用于验证所述认证、操作或交易的所述硬件和软件布置用杰卡德索引矩阵进行参数化，以便测量所述LSTM类型的第一神经网络的所述输出数据与源自用于所述决策树类型的统计学习的第二神经网络的硬件和软件布置的那些输出数据之间的相似度，并验证两个神经网络中的一个的结果。

3.根据前述权利要求中的一项所述的系统，其中所述系统用于计算机应用程序，允许在用于认证电子存储对象及其持有者的区域秘密信息中包含的所述对象的认证操作中从欺诈检测中进行风险预测。

4.根据前述权利要求中的一项所述的系统，其中形成驱动LSTM类型模型的递归神经网络的所述硬件和软件布置使用GPU。

5.根据前述权利要求中的一项所述的系统，其中形成预处理系统的所述硬件和软件布置包括：

形成至少一个第二数据库的硬件和软件布置，所述第二数据库包含至少一组外部数据，

用于通过所述外部数据富集所述原始数据的硬件和软件布置，

用于聚合所述富集数据的硬件和软件布置。

6.根据前述权利要求中的一项所述的系统，其中所述预处理系统使用多线程。