CN115769233A

CN115769233A - 用于异常检测的残差神经网络

Info

Publication number: CN115769233A
Application number: CN202180037462.9A
Authority: CN
Inventors: 庄中方; M·叶; 张维; J·埃布拉希米
Original assignee: Visa International Service Association
Current assignee: Visa International Service Association
Priority date: 2020-07-01
Filing date: 2021-06-22
Publication date: 2023-03-07
Also published as: EP4176392A1; WO2022005797A1; US20230252557A1; EP4176392A4

Abstract

系统、方法和计算机程序产品训练残差神经网络，所述残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接以用于异常检测。所述至少一个跳过连接进行以下直接连接中的至少一项：(i)将所述第一全连接层的输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的第一其他层以及(ii)将所述第一递归神经网络层的输出直接连接到所述残差神经网络中第二递归神经网络层下游的第二其他层。

Description

用于异常检测的残差神经网络

相关申请的交叉引用

本申请要求2020年7月1日提交的美国临时专利申请号63/046,904的优先权，该申请的公开内容全文据此以引用方式并入。

背景技术

1.技术领域

本公开涉及残差神经网络，并且在一些非限制性实施方案或方面中，涉及用于异常检测的残差神经网络。

2.技术考虑

神经网络已被广泛应用于学术界和工业界。例如，神经网络已经用于范围从推荐餐馆到检测网络入侵的应用。通过堆叠相对简单的网络的层并调整其中的权重，深度学习模型能够学习以记住来自训练数据集的模式并在未来任务中利用该记忆。例如，在用于欺诈检测的深度学习模型中，该模型可以从训练中记住常规交易以及欺诈交易的模式。当模型正在处理真实的欺诈交易时，这种记忆在生产中是有用的。

然而，当训练神经网络模型时可能遇到梯度消失问题。可以基于反向传播梯度和调整整个或部分神经网络内的参数来训练神经网络。反向传播过程建立在微积分的链式法则上。当梯度接近零时，神经网络不再能够计算梯度和神经网络内部的新参数。

梯度消失问题的解决方案是建立层内或层间残差连接，其中一些连接被“旁路”或“跳过”以允许梯度对网络的其他部分具有更强的影响。这种具有残差连接的神经网络的设计被称为残差神经网络或ResNet。

残差神经网络广泛用于图像识别任务。这些残差神经网络堆叠许多相对容易训练且不关心顺序的卷积神经网络(CNN)来处理表示为数值数据的图像。然而，用于图像检测的这些残差神经网络不适用于使用分类数据和/或包括比异常交易相对更大量的正常交易的应用。例如，在欺诈检测问题中，大多数交易可以是正常交易或非欺诈交易，而少数交易可以是被神经网络视为噪声并且可能不通过神经网络表示的欺诈交易。因此，在本领域中需要改进用于异常检测的残差神经网络。

发明内容

因此，提供了用于训练、提供和/或使用用于异常检测的残差神经网络的改进的系统、装置、产品、设备和/或方法。

根据一些非限制性实施方案或方面，提供了一种计算机实现的方法，该计算机实现的方法包括：用至少一个处理器获得训练数据；以及用至少一个处理器训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，该至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

根据一些非限制性实施方案或方面，提供了一种系统，该系统包括：一个或多个处理器，该一个或多个处理器被编程和/或配置为：获得训练数据；并且训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，该至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

根据一些非限制性实施方案或方面，提供了一种计算机程序产品，该计算机程序产品包括至少一个非瞬态计算机可读介质，该非瞬态计算机可读介质包括程序指令，该程序指令在由至少一个处理器执行时致使至少一个处理器：获得训练数据；并且训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，该至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

在以下编号条款中阐述另外的实施方案或方面。

条款1：一种计算机实现的方法，该计算机实现的方法包括：用至少一个处理器获得训练数据；以及用至少一个处理器训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，其中至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，其中残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

条款2：如条款1所述的计算机实现的方法，其中训练数据包括分类数据、数值数据和嵌入数据，其中残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层，并且其中训练残差神经网络包括：用分类输入层处理分类数据以产生分类特征；用数值输入层处理数值数据以产生数值特征；用嵌入输入层处理嵌入数据以产生嵌入特征；用级联层处理分类特征、数值特征和嵌入特征以产生级联特征向量；以及用第一全连接层处理级联特征向量。

条款3：如条款1或2所述的计算机实现的方法，其中残差神经网络还包括残差神经网络中第一递归神经网络层下游的丢弃层，并且其中训练残差神经网络包括：用丢弃层处理第一递归神经网络层的输出。

条款4：如条款1至3中任一项所述的计算机实现的方法，其中残差神经网络还包括另一个全连接层作为残差神经网络中每个其他层下游的输出层，并且其中训练残差神经网络包括：用输出层处理残差神经网络中紧邻输出层上游的倒数第二层的输出以产生输出数据，其中输出数据包括预测标签，其中预测标签包括训练数据与一个或多个预先确定分类相关联的概率，并且其中残差神经网络的损失函数取决于预测标签和与训练数据相关联的实际标签。

条款5：如条款1至4中任一项所述的计算机实现的方法，其中至少一个跳过连接包括(i)第一跳过连接，该第一跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层，以及(ii)第二跳过连接，该第二跳过连接将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其中第一其他层包括第二递归神经网络层，其中第二其他层包括第二全连接层，其中第一先前层包括在第一递归神经网络层与第二递归神经网络层之间的第一丢弃层，其中第二先前层包括在第二递归神经网络层与第二全连接层之间的第二丢弃层，并且其中训练残差神经网络还包括：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理经由第一跳过连接接收的第一丢弃层的输出和第一全连接层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由第二跳过连接接收的第二丢弃层的输出和第一递归神经网络层的输出，其中残差神经网络基于第二全连接层的输出产生输出数据。

条款6：如条款1至5中任一项所述的计算机实现的方法，其中至少一个跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层，其中第一其他层包括第二全连接层，其中残差神经网络还包括在第一递归神经网络层与第二递归神经网络层之间的第一丢弃层，其中第一先前层包括在第二递归神经网络层与第二全连接层之间的第二丢弃层，并且其中训练残差神经网络还包括：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理第一丢弃层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由至少一个跳过连接接收的第二丢弃层的输出和第一全连接层的输出，其中残差神经网络基于第二全连接层的输出产生输出数据。

条款7：如条款1至6中任一项所述的计算机实现的方法，其中至少一个跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层，其中第一其他层包括第二递归神经网络，其中第一先前层包括第一丢弃层，其中残差神经网络还包括第二递归神经网络下游的第二全连接层以及第二递归神经网络与第二全连接层之间的第二丢弃层，并且其中训练残差神经网络还包括：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理经由至少一个跳过连接接收的第一丢弃层的输出和第一全连接层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理第二丢弃层的输出，其中残差神经网络基于第二全连接层的输出产生输出数据。

条款8：如条款1至7中任一项所述的计算机实现的方法，其中至少一个跳过连接将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其中第二其他层包括第二全连接层，其中残差神经网络还包括在第一递归神经网络与第二递归神经网络之间的第一丢弃层，其中第二先前层包括第二丢弃层，并且其中训练残差神经网络还包括：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理第一丢弃层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由至少一个跳过连接接收的第二丢弃层的输出和第一递归神经网络层的输出，其中残差神经网络基于第二全连接层的输出产生输出数据。

条款9：如条款1至8中任一项所述的计算机实现的方法，其中至少一个跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层，其中第一其他层包括第二全连接层，其中残差神经网络还包括在第一递归神经网络层与第二全连接层之间的第一丢弃层，其中第一递归神经网络层是残差神经网络中仅有的递归神经网络，并且其中训练残差神经网络还包括：用第一丢弃层处理第一递归神经网络层的输出；以及用第二全连接层处理经由至少一个跳过连接接收的第一丢弃层的输出和第一全连接层的输出；其中残差神经网络基于第二全连接层的输出产生输出数据。

条款10：如条款1至9中任一项所述的计算机实现的方法，还包括：用至少一个处理器提供经训练的残差神经网络；用至少一个处理器获得输入数据；以及用至少一个处理器使用经训练的残差神经网络来处理输入数据以生成输出数据。

条款11：如条款1至10中任一项所述的计算机实现的方法，其中输入数据包括对商家与由发行方发行的账户的账户持有人之间的交易进行授权的请求，并且其中输出数据包括对交易是否是欺诈交易的预测。

条款12：一种计算系统，该计算系统包括：一个或多个处理器，该一个或多个处理器被编程和/或配置为：获得训练数据；并且训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，其中至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，其中残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

条款13：如条款12所述的计算系统，其中训练数据包括分类数据、数值数据和嵌入数据，其中残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层，并且其中一个或多个处理器被进一步编程和/或配置为通过以下方式训练残差神经网络：用分类输入层处理分类数据以产生分类特征；用数值输入层处理数值数据以产生数值特征；用嵌入输入层处理嵌入数据以产生嵌入特征；用级联层处理分类特征、数值特征和嵌入特征以产生级联特征向量；以及用第一全连接层处理级联特征向量。

条款14：如条款12或13所述的计算系统，其中残差神经网络还包括残差神经网络中第一递归神经网络层下游的丢弃层，并且其中一个或多个处理器被进一步编程和/或配置为通过以下方式训练残差神经网络：用丢弃层处理第一递归神经网络层的输出。

条款15：如条款12至14中任一项所述的计算系统，其中残差神经网络还包括另一个全连接层作为残差神经网络中每个其他层下游的输出层，并且其中一个或多个处理器被进一步编程和/或配置为通过以下方式训练残差神经网络：用输出层处理残差神经网络中紧邻输出层上游的倒数第二层的输出以产生输出数据，其中输出数据包括预测标签，其中预测标签包括训练数据与一个或多个预先确定分类相关联的概率，并且其中残差神经网络的损失函数取决于预测标签和与训练数据相关联的实际标签。

条款16：如条款12至15中任一项所述的计算系统，其中至少一个跳过连接包括(i)第一跳过连接，该第一跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层，以及(ii)第二跳过连接，该第二跳过连接将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其中第一其他层包括第二递归神经网络层，其中第二其他层包括第二全连接层，其中第一先前层包括在第一递归神经网络层与第二递归神经网络层之间的第一丢弃层，其中第二先前层包括在第二递归神经网络层与第二全连接层之间的第二丢弃层，并且其中一个或多个处理器被进一步编程和/或配置为通过以下方式训练残差神经网络：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理经由第一跳过连接接收的第一丢弃层的输出和第一全连接层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由第二跳过连接接收的第二丢弃层的输出和第一递归神经网络层的输出，其中残差神经网络基于第二全连接层的输出产生输出数据。

条款17：一种计算机程序产品，该计算机程序产品包括至少一个非瞬态计算机可读介质，该非瞬态计算机可读介质包括程序指令，该程序指令在由至少一个处理器执行时致使至少一个处理器：获得训练数据；并且训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，其中至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，其中残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

条款18：如条款17所述的计算机程序产品，其中训练数据包括分类数据、数值数据和嵌入数据，其中残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层，并且其中指令进一步使至少一个处理器通过以下方式训练残差神经网络：用分类输入层处理分类数据以产生分类特征；用数值输入层处理数值数据以产生数值特征；用嵌入输入层处理嵌入数据以产生嵌入特征；用级联层处理分类特征、数值特征和嵌入特征以产生级联特征向量；以及用第一全连接层处理级联特征向量。

条款19：如条款17或18所述的计算机程序产品，其中残差神经网络还包括残差神经网络中第一递归神经网络层下游的丢弃层，并且其中指令进一步使至少一个处理器通过以下方式训练残差神经网络：用丢弃层处理第一递归神经网络层的输出。

条款20：如条款17至19中任一项所述的计算机程序产品，其中残差神经网络还包括另一个全连接层作为残差神经网络中每个其他层下游的输出层，并且其中指令进一步使至少一个处理器通过以下方式训练残差神经网络：用输出层处理残差神经网络中紧邻输出层上游的倒数第二层的输出以产生输出数据，其中输出数据包括预测标签，其中预测标签包括训练数据与一个或多个预先确定分类相关联的概率，并且其中残差神经网络的损失函数取决于预测标签和与训练数据相关联的实际标签。

在参考附图考虑以下描述和所附权利要求书时，本公开的这些和其他特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见，所有附图形成本说明书的部分，其中相似附图标号在各图中标示对应部分。然而，应明确地理解，各图式仅用于说明和描述目的，并非旨在作为对限制的定义。除非上下文另外明确规定，否则在本说明书和权利要求书中所用时，单数形式“一”及“所述”包括多个指示物。

附图说明

下文参考示意性附图中示出的示范性实施方案更详细地解释额外优势和细节，附图中：

图1是其中可实施本文所描述的系统、装置、产品、设备和/或方法的环境的非限制性实施方案或方面的图；

图2是图1的一个或多个装置和/或一个或多个系统的组件的非限制性实施方案或方面的图；

图3是用于训练、提供和/或使用用于异常检测的残差神经网络的过程的非限制性实施方案或方面的流程图；

图4是用于异常检测的残差神经网络的非限制性实施方案或方面的图；

图5是用于异常检测的残差神经网络的非限制性实施方案或方面的图；

图6是用于异常检测的残差神经网络的非限制性实施方案或方面的图；

图7是用于异常检测的残差神经网络的非限制性实施方案或方面的图；并且

图8是用于异常检测的残差神经网络的非限制性实施方案或方面的图。

具体实施方式

应理解，除了明确指定为相反的情况之外，本公开可采用各种替代变化和步骤顺序。还应当理解，附图中所示的以及在以下说明书中描述的特定装置和过程仅仅是示例性和非限制性实施方案或方面。因此，与本文公开的实施方案或方面有关的特定尺寸和其他物理特性不应被视为限制。

本文所使用的方面、组件、元件、结构、动作、步骤、功能、指令等都不应当被理解为关键的或必要的，除非明确地如此描述。并且，如本文所用，冠词“一(a)”和“一(an)”旨在包括一个或多个项目，并且可以与“一个或多个”和“至少一个”互换使用。此外，如本文所用，术语“组”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关项目与不相关项目的组合等)，并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下，使用术语“一个”或类似语言。并且，如本文所用，术语“具有”等希望是开放式术语。另外，除非另外明确陈述，否则短语“基于”希望意味着“至少部分地基于”。

如本文所用，术语“通信”可以指数据(例如，信息、信号、消息、指令、命令等)的接收、接纳、发送、传送、提供等。一个单元(例如，装置、系统、装置或系统的组件、它们的组合等)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元发送信息。这可以指代在本质上有线和/或无线的直接或间接连接(例如，直接通信连接、间接通信连接等)。另外，尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由，但这两个单元也可以彼此通信。例如，即使第一单元被动地接收信息且不会主动地将信息发送到第二单元，第一单元也可以与第二单元通信。作为另一实例，如果至少一个中间单元处理从第一单元接收到的信息且将处理后的信息传送到第二单元，则第一单元可以与第二单元通信。

显然，本文所描述的系统和/或方法可以不同形式的硬件、软件或硬件和软件的组合实施。用于实施这些系统和/或方法的实际专用控制硬件或软件代码并不限制实施方式。因此，本文在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为，应当理解，软件和硬件可以设计成基于本文的描述来实施系统和/或方法。

本文中结合阈值描述一些非限制性实施方案或方面。如本文所用，满足阈值可以指大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等的值。

如本文所用，术语“交易服务提供商”可指向商家或其他实体接收交易授权请求且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如，交易服务提供商可包括例如

之类的支付网络，或处理交易的任何其他实体。术语“交易处理系统”可以指由交易服务提供商或代表交易服务提供商操作的一个或多个计算装置，例如执行一个或多个软件应用程序的交易处理服务器。交易处理系统可包括一个或多个处理器，并且在一些非限制性实施方案中可由交易服务提供商或代表交易服务提供商操作。

如本文所用，术语“账户标识符”可包括一个或多个主账号(PAN)、令牌或与顾客账户相关联的其他标识符。术语“令牌”可指用作诸如PAN等原始账户标识符的替代或替换标识符的标识符。账户标识符可以是文字数字的，或是字符和/或符号的任何组合。令牌可与一个或多个数据结构(例如，一个或多个数据库等)中的PAN或其他原始账户标识符相关联，使得令牌可用于进行交易而无需直接使用原始账户标识符。在一些实例中，诸如PAN的原始账户标识符可与用于不同个人或目的的多个令牌相关联。

如本文所用，术语“发行方机构”、“便携式金融装置发行方”、“发行方”或“发行方银行”可以指一个或多个实体，该一个或多个实体向用户(例如，客户、消费者、组织等)提供一个或多个账户以进行交易(例如，支付交易)，诸如发起信用卡支付交易和/或借记卡支付交易。例如，发行方机构可向用户提供诸如PAN的账户标识符，该账户标识符唯一地标识与该用户相关联的一个或多个账户。账户标识符可以在诸如实体金融工具(例如，支付卡)等便携式金融装置上体现，和/或可以是电子的并且用于电子支付。在一些非限制性实施方案或方面中，发行方机构可以与唯一地标识发行方机构的银行标识号码(BIN)相关联。如本文所用，“发行方机构系统”可以指由发行方机构或代表发行方机构操作的一个或多个计算机系统，诸如执行一个或多个软件应用程序的服务器计算机。例如，发行方机构系统可以包括用于授权支付交易的一个或多个授权服务器。

如本文所用，术语“商家”可以指基于交易(例如，支付交易)向用户(例如，客户)提供商品和/或服务或者对商品和/或服务的访问的个人或实体。如本文所用，术语“商家”或“商家系统”还可指由商家或代表商家操作的一个或多个计算机系统、计算装置和/或软件应用程序，例如执行一个或多个软件应用程序的服务器计算机。如本文所用，“销售点(POS)系统”可指由商家用来与用户进行支付交易的一个或多个计算机和/或外围装置，包括一个或多个读卡器、近场通信(NFC)接收器、射频标识(RFID)接收器和/或其他非接触收发器或接收器、基于接触的接收器、支付终端、计算机、服务器、输入装置和/或可用于发起支付交易的其他类似装置。POS系统可以是商家系统的一部分。商家系统还可包括用于通过商家网页或软件应用程序来促进在线基于互联网的交易的商家插件。商家插件可包括在商家服务器上运行或由第三方托管以用于促进此些在线交易的软件。

如本文所用，术语“移动装置”可以指被配置为与一个或多个网络通信的一个或多个便携式电子装置。作为实例，移动装置可以包括蜂窝电话(例如，智能电话或标准蜂窝电话)、便携式计算机(例如，平板计算机、膝上型计算机等)、可穿戴装置(例如，手表、眼镜、镜片、衣服等)、个人数字助理(PDA)和/或其他类似装置。如本文所用，术语“客户端装置”和“用户装置”是指被配置为与一个或多个服务器或远程装置和/或系统通信的任何电子装置。客户端装置或用户装置可以包括移动装置、支持网络的设备(例如，支持网络的电视、冰箱、恒温器等)、计算机、POS系统和/或能够与网络通信的任何其他装置或系统。

如本文所用，术语“计算装置”可以指被配置成处理数据的一个或多个电子装置。在一些实例中，计算装置可以包括接收、处理和输出数据的必要组件，例如处理器、显示器、存储器、输入装置、网络接口等。计算装置可以是移动装置。例如，移动装置可包括蜂窝电话(例如，智能电话或标准蜂窝电话)、便携式计算机、可穿戴装置(例如，手表、眼镜、镜片、服装等)、PDA和/或其他类似装置。计算装置还可以是台式计算机或其他形式的非移动计算机。

如本文所用，术语“电子钱包”和“电子钱包应用程序”是指被配置为发起和/或进行支付交易的一个或多个电子装置和/或软件应用程序。例如，电子钱包可以包括执行电子钱包应用程序的移动装置，并且还可以包括用于维护交易数据并将交易数据提供给移动装置的服务器侧软件和/或数据库。“电子钱包提供商”可包括为客户提供和/或维护电子钱包的实体，诸如

和/或其他类似的电子支付系统。在一些非限制性实例中，发行方银行可以是电子钱包提供商。

如本文所用，术语“支付装置”可以是指便携式金融装置、电子支付装置、支付卡(例如，信用卡或借记卡)、礼品卡、智能卡、智能介质、工资卡、医疗保健卡、腕带、含有账户信息的机器可读介质、钥匙链装置或吊坠、RFID应答器、零售商折扣或会员卡、蜂窝式电话、电子钱包移动应用程序、PDA、寻呼机、安全卡、计算机、访问卡、无线终端、应答器等。在一些非限制性实施方案或方面中，支付装置可包括用以存储信息(例如，账户标识符、账户持有人姓名等)的易失性或非易失性存储器。

如本文所用，术语“服务器”和/或“处理器”可以指或包括由例如互联网等网络环境中的多方操作或促进所述多方的通信和处理的一个或多个计算装置，但应了解，可通过一个或多个公共或专用网络环境促进通信，并且可能有各种其他布置。另外，在网络环境中直接或间接通信的多个计算装置(例如，服务器、POS装置、移动装置等)可构成“系统”。如本文所用，对“服务器”或“处理器”的提及可指陈述为实施先前步骤或功能的先前所述服务器和/或处理器、不同的服务器和/或处理器，和/或服务器和/或处理器的组合。例如，如在说明书和权利要求书中所使用，陈述为实施第一步骤或功能的第一服务器和/或第一处理器可指代陈述为实施第二步骤或功能的相同或不同服务器和/或处理器。

如本文所用，术语“收单方”可以指由交易服务提供商许可和/或由交易服务提供商批准以使用交易服务提供商的便携式金融装置发起交易的实体。收单方还可以指由收单方或代表收单方操作的一个或多个计算机系统，诸如执行一个或多个软件应用程序的服务器计算机(例如，“收单方服务器”)。“收单方”可以是商家银行，或者在一些情况下，商家系统可以是收单方。所述交易可以包括原始信用交易(OCT)和账户资金交易(AFT)。交易服务提供商可以授权收单方签署服务提供商的商家以使用交易服务提供商的便携式金融装置发起交易。收单方可以与支付服务商签约，以使服务商能够赞助商家。收单方可以根据交易服务提供商的规章监视支付服务商的合规性。收单方可以对支付服务商进行尽职调查，并确保在签署受赞助商家之前进行适当的尽职调查。收单方可以对他们运营或赞助的所有交易服务提供商程序承担责任。收单方可以对其支付服务商以及其或其支付服务商赞助的商家的行为负责。

如本文所用，术语“支付网关”可以指实体和/或由这种实体或代表这种实体操作的支付处理系统，所述实体(例如，商家服务提供商、支付服务提供商、支付服务商、与收单方签约的支付服务商、支付集合商等)将支付服务(例如，交易服务提供商支付服务、支付处理服务等)提供给一个或多个商家。支付服务可以与由交易服务提供商管理的便携式金融装置的使用相关联。如本文所用，术语“支付网关系统”可以指由支付网关或代表支付网关操作的一个或多个计算机系统、计算机装置、服务器、服务器群组等。

如本文所用，术语“应用程序编程接口”(API)可以指允许不同系统或(硬件和/或软件)系统组件之间的通信的计算机代码。例如，API可包括可由其他系统或其他(硬件和/或软件)系统组件使用和/或访问的功能调用、功能、子例程、通信协议、字段等。

如本文所用，术语“用户界面”或“图形用户界面”是指生成的显示，例如用户可以直接或间接(例如，通过键盘、鼠标、触摸屏等)与其交互的一个或多个图形用户界面(GUI)。

提供了用于训练、提供和/或使用用于异常检测的残差神经网络的改进的系统、装置、产品、设备和/或方法。本公开的非限制性实施方案或方面涉及这样的系统、方法和计算机程序产品：该系统、方法和计算机程序产品获得训练数据；训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，至少一个跳过连接进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，其中残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生或生成输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。以这种方式，本公开的非限制性实施方案或方面规定训练、提供和/或使用用于异常检测的残差神经网络，该残差神经网络使用旁路或跳过连接来旁路或跳过至少一个递归神经网络层，以通过从分类数据集中捕获信息来增加预测少数异常交易(例如，欺诈交易等)的概率，否则该信息可能由于少数异常交易被视为噪声而丢失。该信息可能由于少数异常交易被视为噪声而丢失。

现在参考图1，图1是其中可实施本文所描述的装置、系统、方法和/或产品的示例环境100的图。如图1中所示，环境100包括交易处理网络101、用户装置112和/或通信网络114，交易处理网络可包括商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108、发行方系统110。交易处理网络101、商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108、发行方系统110和/或用户装置112可通过有线连接、无线连接或有线连接和无线连接的组合互连(例如，建立连接以进行通信等)。

商家系统102可包括一个或多个装置，该一个或多个装置能够通过通信网络114从支付网关系统104、收单方系统106、交易服务提供商系统108、发行方系统110和/或用户装置112接收信息和/或数据，和/或通过通信网络114将信息和/或数据传送到支付网关系统104、收单方系统106、交易服务提供商系统108、发行方系统110和/或用户装置112。商家系统102可包括能够通过与用户装置112的通信连接(例如，NFC通信连接、RFID通信连接、

通信连接等)从用户装置112接收信息和/或数据和/或通过所述通信连接将信息和/或数据传送到用户装置112的装置。例如，商家系统102可包括计算装置，例如服务器、服务器群组、客户端装置、客户端装置群组和/或其他类似装置。在一些非限制性实施方案或方面中，商家系统102可以与本文所描述的商家相关联。在一些非限制性实施方案或方面中，商家系统102可以包括能够供商家用以与用户进行支付交易的一个或多个装置，诸如计算机、计算机系统和/或外围装置。例如，商家系统102可包括POS装置和/或POS系统。

支付网关系统104可包括一个或多个装置，该一个或多个装置能够通过通信网络114从商家系统102、收单方系统106、交易服务提供商系统108、发行方系统110和/或用户装置112接收信息和/或数据，和/或通过通信网络114将信息和/或数据传送到商家系统102、收单方系统106、交易服务提供商系统108、发行方系统110和/或用户装置112。例如，支付网关系统104可包括计算装置，诸如服务器、服务器群组和/或其他类似装置。在一些非限制性实施方案或方面中，支付网关系统104与本文所描述的支付网关相关联。

收单方系统106可包括一个或多个装置，该一个或多个装置能够通过通信网络114从商家系统102、支付网关系统104、交易服务提供商系统108、发行方系统110和/或用户装置112接收信息和/或数据，和/或通过通信网络114将信息和/或数据传送到商家系统102、支付网关系统104、交易服务提供商系统108、发行方系统110和/或用户装置112。例如，收单方系统106可包括计算装置，诸如服务器、服务器群组和/或其他类似装置。在一些非限制性实施方案或方面中，收单方系统106可与本文所描述的收单方相关联。

交易服务提供商系统108可包括一个或多个装置，该一个或多个装置能够通过通信网络114从商家系统102、支付网关系统104、收单方系统106、发行方系统110和/或用户装置112接收信息和/或数据，和/或通过通信网络114将信息和/或数据传送到商家系统102、支付网关系统104、收单方系统106、发行方系统110和/或用户装置112。例如，交易服务提供商系统108可包括计算装置，诸如服务器(例如，交易处理服务器等)、服务器群组和/或其他类似装置。在一些非限制性实施方案或方面中，交易服务提供商系统108可与本文所描述的交易服务提供商相关联。在一些非限制性实施方案或方面中，交易服务提供商系统108可包括和/或访问一个或多个内部和/或外部数据库，包括交易数据。

发行方系统110可包括一个或多个装置，该一个或多个装置能够通过通信网络114从商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108和/或用户装置112接收信息和/或数据，和/或通过通信网络114将信息和/或数据传送到商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108和/或用户装置112。例如，发行方系统110可包括计算装置，诸如服务器、服务器群组和/或其他类似装置。在一些非限制性实施方案或方面中，发行方系统110可与本文所描述的发行方机构相关联。例如，发行方系统110可与发行支付账户或工具(例如，信用账户、借记账户、信用卡、借记卡等)给用户(例如，与用户装置112相关联的用户等)的发行方机构相关联。

在一些非限制性实施方案或方面中，交易处理网络101包括通信路径中用于处理交易的多个系统。例如，交易处理网络101可包括通信路径(例如，通信路径、通信信道、通信网络等)中的商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108和/或发行方系统110)以用于处理电子支付交易。例如，交易处理网络101可经由商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108和/或发行方系统110之间的通信路径来处理(例如，发起、进行、授权等)电子支付交易。

用户装置112可包括一个或多个装置，该一个或多个装置能够通过通信网络114从商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108和/或发行方系统110接收信息和/或数据，和/或通过通信网络114将信息和/或数据传送到商家系统102、支付网关系统104、收单方系统106、交易服务提供商系统108和/或发行方系统110。例如，用户装置112可包括客户端装置等。在一些非限制性实施方案或方面中，用户装置112能够通过短程无线通信连接(例如，NFC通信连接、RFID通信连接、

通信连接等)(例如，从商家系统102等)接收信息，和/或通过短程无线通信连接传送信息(例如，到商家系统102)。在一些非限制性实施方案或方面中，用户装置112可以包括与用户装置112相关联的应用程序，诸如存储在用户装置112上的应用程序、在用户装置112上存储和/或执行的移动应用程序(例如，移动装置应用程序、移动装置的本机应用程序、移动装置的移动云应用程序、电子钱包应用程序、对等转移支付应用程序等)。

通信网络114可包括一个或多个有线和/或无线网络。例如，通信网络114可包括蜂窝网络(例如长期演进(LTE)网络、第三代(3G)网络、第四代(4G)网络、码分多址接入(CDMA)网络等)、公用陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如公共交换电话网络(PSTN)、专用网络、特设网络、内联网、互联网、基于光纤的网络、云计算网络等，和/或这些或其他类型的网络的组合。

提供图1所示的装置和系统的数目和布置作为实例。可存在额外装置和/或系统、更少装置和/或系统、不同装置和/或系统，和/或以与图1所示的那些不同的方式布置的装置和/或系统。此外，可在单个装置和/或系统内实施图1所示的两个或更多个装置和/或系统，或图1所示的单个装置和/或系统可实施为多个分布式装置和/或系统。另外或替代地，环境100的一组装置和/或系统(例如，一个或多个装置或系统)可执行被描述为由环境100的另一组装置和/或系统执行的一个或多个功能。

现在参考图2，图2是装置200的示例组件的图。装置200可对应于商家系统102的一个或多个装置、支付网关系统104的一个或多个装置、收单方系统106的一个或多个装置、交易服务提供商系统108的一个或多个装置、发行方系统110的一个或多个装置，和/或用户装置112(例如，用户装置112的系统的一个或多个装置等)。在一些非限制性实施方案或方面中，商家系统102的一个或多个装置、支付网关系统104的一个或多个装置、收单方系统106的一个或多个装置、交易服务提供商系统108的一个或多个装置、发行方系统110的一个或多个装置和/或用户装置112(例如，用户装置112的系统的一个或多个装置等)可包括至少一个装置200和/或装置200的至少一个组件。如图2所示，装置200可包括总线202、处理器204、存储器206、存储组件208、输入组件210、输出组件212和通信接口214。

总线202可包括准许装置200的组件之间的通信的组件。在一些非限制性实施方案或方面中，处理器204可以硬件、软件，或硬件和软件的组合实现。例如，处理器204可包括处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)和/或可以被编程为执行功能的任何处理组件(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器206可包括随机存取存储器(RAM)、只读存储器(ROM)，和/或存储供处理器204使用的信息和/或指令的另一类型的动态或静态存储装置(例如，闪存存储器、磁存储器、光学存储器等)。

存储组件208可存储与装置200的操作和使用相关联的信息和/或软件。例如，存储组件208可以包括硬盘(例如，磁盘、光盘、磁光盘、固态磁盘等)、压缩光盘(CD)、数字多功能光盘(DVD)、软盘、盒带、磁带和/或另一类型的计算机可读介质，以及对应的驱动器。

输入组件210可以包括准许装置200例如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风等)接收信息的组件。另外或替代地，输入组件210可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速度计、陀螺仪、致动器等)。输出组件212可以包括提供来自装置200的输出信息的组件(例如，显示器、扬声器、一个或多个发光二极管(LED)等)。

通信接口214可以包括收发器式组件(例如，收发器、独立的接收器和发送器等)，该收发器式组件使装置200能够例如经由有线连接、无线连接，或有线连接和无线连接的组合与其他装置通信。通信接口214可以准许装置200接收来自另一装置的信息和/或向另一装置提供信息。例如，通信接口214可包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、

接口、蜂窝网络接口等。

装置200可以执行本文描述的一个或多个过程。装置200可以基于处理器204执行由例如存储器206和/或存储组件208的计算机可读介质存储的软件指令来执行这些过程。计算机可读介质(例如，非瞬态计算机可读介质)在本文中定义为非瞬态存储器装置。存储器装置包括位于单个物理存储装置内的存储器空间或跨多个物理存储装置扩展的存储器空间。

软件指令可以经由通信接口214从另一计算机可读介质或从另一装置读取到存储器206和/或存储组件208中。当执行时，存储在存储器206和/或存储组件208中的软件指令可以使处理器204执行本文中所描述的一个或多个过程。另外或替代地，硬接线电路系统可替代或结合软件指令使用以执行本文中所描述的一个或多个过程。因此，本文所描述的实施方案或方面不限于硬件电路和软件的任何特定组合。

存储器206和/或存储组件208可包括数据存储装置或一个或多个数据结构(例如，数据库等)。装置200能够从存储器206和/或存储组件208中的数据存储装置或一个或多个数据结构接收信息、将信息存储在所述数据存储装置或一个或多个数据结构中、向所述数据存储装置或一个或多个数据结构传送信息或搜索其中存储的信息。

提供图2中示出的组件的数目和布置作为实例。在一些非限制性实施方案或方面中，装置200可包括额外组件、更少组件、不同组件或以与图2中所示的那些不同的方式布置的组件。另外或替代地，装置200的一组组件(例如，一个或多个组件)可执行被描述为由装置200的另一组组件执行的一个或多个功能。

现在参考图3，图3是用于训练、提供和/或使用用于异常检测的残差神经网络的过程300的非限制性实施方案或方面的流程图。在一些非限制性实施方案或方面中，过程300中的一个或多个步骤可(例如，完全、部分地等)由交易服务提供商系统108(例如，交易服务提供商系统108的一个或多个装置)执行。在一些非限制性实施方案或方面中，过程300的一个或多个步骤可(例如，完全地、部分地等)由独立于或包括交易服务提供商系统108的另一装置或装置群组执行，该另一装置或装置群组诸如商家系统102(例如，商家系统102的一个或多个装置)、支付网关系统104(例如，支付网关系统104的一个或多个装置)、收单方系统106(例如，收单方系统106的一个或多个装置)、发行方系统110(例如，发行方系统110的一个或多个装置)和/或用户装置112(例如，用户装置112的系统的一个或多个装置)。

如图3所示，在步骤302处，过程300包括获得训练数据。例如，交易服务提供商系统108获得训练数据。作为实例，交易服务提供商系统108从一个或多个数据库和/或商家系统102、支付网关系统104、收单方系统106、发行方系统110和/或用户装置112获得(例如，接收、检索等)训练数据。

在一些非限制性实施方案或方面中，训练数据包括以下中的至少一项：分类数据、数值数据、嵌入数据或它们的任何组合。分类数据可包括有限的并且任选地固定数量的可能值，其中每个个体或其他观察单位基于某种定性特性被分配到特定组或标称类别。例如，分类数据可包括商家类别代码(MCC)。数值数据可包括数值。例如，数值数据可包括交易金额。嵌入数据可包括表示某些特征的浮点数向量。例如，嵌入数据可以表示商家名称。

在一些非限制性实施方案或方面中，训练数据、分类数据、数值数据和/或嵌入数据可包括交易数据。在一些非限制性实施方案或方面中，交易数据可以包括与交易相关联的参数，诸如账户标识符(例如，PAN等)、交易金额、交易日期和时间、与交易相关联的产品和/或服务的类型、货币兑换率、货币类型、商家类型、商家名称、商家位置、商家类别组(MCG)、MCC等。在这样的实例中，MCG可包括商家类别代码落入其中的一般类别，诸如旅行、住宿、餐饮和娱乐、车辆费用、办公服务和商品、现金预付、其他等。在这样的实例中，MCC是在ISO 18245中列出的用于零售金融服务的四位数字，用于根据它提供的商品或服务的类型对商业进行分类。在一些非限制性实施方案或方面中，交易数据可以包括与账户之间的支付交易或转账相关联的参数，诸如转账金额、受让人账户的账户标识符、转让人账户的账户标识符和/或与受让人、转让人和/或支付交易或转账相关联的其他交易数据。

在一些非限制性实施方案或方面中，训练数据、分类数据、数值数据和/或嵌入数据可包括用户web浏览数据。在一些非限制性实施方案或方面中，用户web浏览数据可包括与用户在网站上的点击流相关联的参数。作为实例，用户web浏览数据可包括cookies以及由诸如Google Analytics等的跟踪器收集的信息和数据，它们表示用户与网站的电子交互。

在一些非限制性实施方案或方面中，训练数据包括一个或多个标签(例如，一个或多个实际标签、一个或多个地面真值标签等)。例如，训练数据可包括与一个或多个交易和一个或多个交易的一个或多个标签相关联的分类数据、数值数据和/或嵌入数据。例如，一个或多个交易的一个或多个标签可包括指示与标签相关联的交易是异常的异常标签(例如，指示与标签相关联的交易是欺诈交易的欺诈标签等)和/或指示与标签相关联的交易是正常交易的正常标签(例如，指示与标签相关联的交易是非欺诈交易的非欺诈标签等)。

如图3所示，在步骤304处，过程300包括训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接。例如，交易服务提供商系统108训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接。作为实例，交易服务提供商系统108用训练数据训练残差神经网络，该残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接。关于过程300的步骤304的非限制性实施方案或方面的另外细节在下文关于图4至图8提供。

图4至图8是用于异常检测的残差神经网络的非限制性实施方案或方面的图。如图4至图8所示，至少一个跳过连接可进行以下直接连接中的至少一项：(i)将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层以及(ii)将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层。例如，交易服务提供商系统108可通过以下方式训练残差神经网络：用第一全连接层处理训练数据，用第一递归神经网络层处理第一全连接层的输出，以及以下中的至少一项：(i)用第一其他层处理第一全连接层的经由至少一个跳过连接接收的输出和在残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出，以及(ii)用第二其他层处理第一递归神经网络层的经由至少一个跳过连接接收的输出和在残差神经网络中第一递归神经网络层与第二其他层之间的第二先前层的输出，其中残差神经网络基于(i)第一其他层的输出和(ii)第二其他层的输出中的至少一者产生或生成输出数据；以及使用取决于输出数据的残差神经网络的损失函数来修改残差神经网络的一个或多个参数。

注意，在没有至少一个跳过连接的情况下，用于修改残差神经网络的参数的反向传播梯度流过图4至图8所示的中心线，并且如果通过那些中心线连接流回，则反向传播梯度在每层处变得更小并且可能消失。然而，利用至少一个跳过连接，反向传播梯度也可以通过至少一个跳过连接流到接近初始输入(例如，来自残差神经网络的输出)的残差神经网络的层，使得反向传播梯度不太可能消失。在一些非限制性实施方案或方面中，如果经由中心路径反向传播的梯度未能满足阈值(例如，与残差神经网络的特定层相关联的阈值等)，则残差神经网络的损失函数可以仅将至少一个跳过连接用于反向传播梯度。例如，至少一个跳过连接可以是有条件的连接。

在一些非限制性实施方案或方面中，递归神经网络层可包括门控递归单元(GRU)、长短期记忆(LSTM)或它们的任何组合。

在一些非限制性实施方案或方面中，残差神经网络还包括在残差神经网络中第一递归神经网络层下游的丢弃层。例如，交易服务提供商系统108可通过用丢弃层处理第一递归神经网络层的输出来训练残差神经网络。作为实例，丢弃层可丢弃残差神经网络中的单元或连接(例如，隐藏单元或连接、可见单元或连接等)。在这样的实例中，丢弃层可具有层的输出被丢弃20％-50％的概率(或者相反，层的输出被保留50％-80％的概率)。

在一些非限制性实施方案或方面中，在第一其他层中处理这些输出之前，第一其他层可使用加法、逐位乘法或另一种组合技术来组合第一全连接层的经由至少一个跳过连接接收的输出和残差神经网络中第一全连接层与第一其他层之间的第一先前层的输出。在一些非限制性实施方案或方面中，在第二其他层中处理这些输出之前，第二其他层可使用加法、逐位乘法或另一种组合技术来组合第一递归神经网络层的经由至少一个跳过连接接收的输出和第一递归神经网络层与第二其他层之间的第二先前层的输出。

在一些非限制性实施方案或方面中，第一其他层(例如，作为第一其他层的输入，作为第一其他层的输出等)具有与第一全连接层(例如，第一全连接层的输入、第一全连接层的输出等)相同的维数。在一些非限制性实施方案或方面中，第二其他层(例如，第二其他层的输入、第二其他层的输出等)具有与第一递归神经网络层(例如，作为第一递归神经网络层的输入，作为第一递归神经网络层的输出等)相同的维数。

现在参考图4，在一些非限制性实施方案或方面中，残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层。例如，交易服务提供商系统108可通过以下方式来训练残差神经网络：用分类输入层处理分类数据以产生或生成分类特征(例如，分类特征向量等)；用数值输入层处理数值数据以产生或生成数值特征(例如，数值特征向量等)；用嵌入输入层处理嵌入数据以产生或生成嵌入特征(例如，嵌入特征向量等)；用级联层处理分类特征、数值特征和嵌入特征以产生或生成级联特征向量；以及用第一全连接层处理级联特征向量。例如，分类输入层、数值输入层和/或嵌入输入层可以分别从分类数据、数值数据和/或嵌入数据中归一化和/或提取特征以产生或生成数据的归一化和/或嵌入表示，并且级联层可以将三种不同类型的特征组合成单个级联特征向量以用于输入到第一全连接层。虽然主要参考图4描述了分类层、数值输入层、嵌入层和级联层，但是非限制性实施方案或方面不限于此，并且根据其他非限制性实施方案或方面的残差神经网络(诸如图5至图8所示的残差神经网络等)可包括分类层、数值输入层、嵌入层和/或级联层。

仍然参考图4，在一些非限制性实施方案或方面中，残差神经网络还包括另一个全连接层作为残差神经网络中每个其他层下游的输出层。例如，交易服务提供商系统108可通过用输出层处理残差神经网络中紧邻输出层上游的倒数第二层的输出来训练残差神经网络以产生或生成输出数据。在这样的实例中，输出数据可包括预测标签。例如，预测标签可包括训练数据与一个或多个预先确定分类相关联的概率。在这样的实例中，输出层的维数可以基于要预测的期望类别的数量。作为实例，残差神经网络的损失函数可取决于预测标签和与训练数据相关联的实际标签。在这样的实例中，交易服务提供商系统108可使用残差神经网络的取决于预测标签和实际标签的损失函数来修改残差神经网络的一个或多个参数。

虽然主要参考图4描述了输出层，但是非限制性实施方案或方面不限于此，并且根据其他非限制性实施方案或方面的残差神经网络(诸如图5至图8所示的残差神经网络等)可包括输出层。然而，非限制性实施方案或方面不限于此，并且在一些非限制性实施方案或方面中，残差神经网络(诸如图4至图8所示的残差神经网络)可以不包括输出层。例如，根据非限制性实施方案或方面的移除了输出层的残差神经网络可用于基于与输入到残差神经网络的用户相关联的交易数据来构建用户简档。

如图4中进一步所示，在一些非限制性实施方案或方面中，至少一个跳过连接包括(i)第一跳过连接，该第一跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层，以及(ii)第二跳过连接，该第二跳过连接将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层。例如，如图4所示，第一其他层可包括第二递归神经网络层，第二其他层可包括第二全连接层，第一先前层可包括在第一递归神经网络层与第二递归神经网络层之间的第一丢弃层，并且/或者第二先前层可包括在第二递归神经网络层与第二全连接层之间的第二丢弃层。在这样的实例中，交易服务提供商系统108可通过以下方式来训练残差神经网络：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理经由第一跳过连接接收的第一丢弃层的输出和第一全连接层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由第二跳过连接接收的第二丢弃层的输出和第一递归神经网络层的输出。作为实例，残差神经网络可基于第二全连接层的输出来产生或生成输出数据。

现在参考图5，在一些非限制性实施方案或方面中，至少一个跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层。例如，如图5所示，第一其他层可包括第二全连接层，残差神经网络还可包括在第一递归神经网络层与第二递归神经网络层之间的第一丢弃层，并且/或者第一先前层可包括在第二递归神经网络层与第二全连接层之间的第二丢弃层。在这样的实例中，交易服务提供商系统108可通过以下方式来训练残差神经网络：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理第一丢弃层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由至少一个跳过连接接收的第二丢弃层的输出和第一全连接层的输出。作为实例，残差神经网络可基于第二全连接层的输出来产生或生成输出数据。在这样的实例中，交易服务提供商系统108可使用残差神经网络的取决于输出数据的损失函数来修改残差神经网络的一个或多个参数。

现在参考图6，在一些非限制性实施方案或方面中，至少一个跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层。例如，如图6所示，第一其他层可包括第二递归神经网络，第一先前层可包括第一丢弃层，并且/或者残差神经网络还可包括第二递归神经网络下游的第二全连接层以及第二递归神经网络与第二全连接层之间的第二丢弃层。在这样的实例中，交易服务提供商系统108可通过以下方式来训练残差神经网络：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理经由至少一个跳过连接接收的第一丢弃层的输出和第一全连接层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理第二丢弃层的输出。作为实例，残差神经网络可基于第二全连接层的输出来产生或生成输出数据。在这样的实例中，交易服务提供商系统108可使用残差神经网络的取决于输出数据的损失函数来修改残差神经网络的一个或多个参数。

现在参考图7，在一些非限制性实施方案或方面中，至少一个跳过连接将第一递归神经网络层的输出直接连接到残差神经网络中第二递归神经网络层下游的第二其他层。例如，如图7所示，第二其他层可包括第二全连接层，残差神经网络还可包括在第一递归神经网络与第二递归神经网络之间的第一丢弃层，并且/或者第二先前层可包括第二丢弃层。在这样的实例中，交易服务提供商系统108可通过以下方式来训练残差神经网络：用第一丢弃层处理第一递归神经网络层的输出；用第二递归神经网络层处理第一丢弃层的输出；用第二丢弃层处理第二递归神经网络层的输出；以及用第二全连接层处理经由至少一个跳过连接接收的第二丢弃层的输出和第一递归神经网络层的输出。作为实例，残差神经网络基于第二全连接层的输出来产生或生成输出数据。在这样的实例中，交易服务提供商系统108可使用残差神经网络的取决于输出数据的损失函数来修改残差神经网络的一个或多个参数。

现在参考图8，在一些非限制性实施方案或方面中，至少一个跳过连接将第一全连接层的输出直接连接到残差神经网络中第一递归神经网络层下游的第一其他层。例如，如图8所示，第一其他层可包括第二全连接层，残差神经网络还可包括在第一递归神经网络层与第二全连接层之间的第一丢弃层，并且/或者第一递归神经网络层可以是残差神经网络中仅有的递归神经网络(例如，残差神经网络可包括单个递归神经网络层等)。在这样的实例中，交易服务提供商系统108可通过以下方式来训练残差神经网络：用第一丢弃层处理第一递归神经网络层的输出；以及用第二全连接层处理经由至少一个跳过连接接收的第一丢弃层的输出和第一全连接层的输出。作为实例，残差神经网络可基于第二全连接层的输出来产生或生成输出数据。在这样的实例中，交易服务提供商系统108可使用残差神经网络的取决于输出数据的损失函数来修改残差神经网络的一个或多个参数。

如图3所示，在步骤306处，过程300包括提供经训练的残差神经网络。例如，交易服务提供商系统108提供经训练的残差神经网络。作为实例，交易服务提供商系统108提供包括一个或多个参数的经训练的残差神经网络，该一个或多个参数已经基于残差神经网络的取决于输出数据的损失函数而被修改。在一些非限制性实施方案或方面中，交易服务提供商系统108在交易服务提供商系统108处和/或向商家系统102、支付网关系统104、收单方系统106、发行方系统110和/或用户装置112提供经训练的残差神经网络。

如图3所示，在步骤308处，过程300包括获得输入数据。例如，交易服务提供商系统108获得输入数据。作为实例，交易服务提供系统从一个或多个数据库和/或商家系统102、支付网关系统104、收单方系统106、发行方系统110和/或用户装置112获得(例如，接收、检索等)输入数据。

如图3所示，在步骤310处，过程300包括使用经训练的残差神经网络处理输入数据以生成输出数据。例如，交易服务提供商系统108使用经训练的残差神经网络来处理输入数据以生成输出数据。

在一些非限制性实施方案或方面中，输入数据包括与交易相关联的交易数据，并且输出数据包括交易是否是欺诈交易的预测。例如，输入数据可包括对商家与由发行方发行的账户的账户持有人之间的交易进行授权的请求(例如，交易数据、与交易相关联的参数等)，并且输出数据可包括对交易是否是欺诈交易(或正常的非欺诈交易)的预测。尽管支付交易在本文中主要被描述为商家和账户之间的支付交易，但是非限制性实施方案或方面不限于此，并且支付交易可以包括账户之间的支付交易或转账(例如，对等支付交易或转账、对等贷款等)或任何其他与支付相关的交易。此外，虽然交易在本文中主要被描述为支付交易，但是非限制性实施方案或方面不限于此，并且交易可以包括获得训练数据和/或输入数据的任何类型的活动或事件。

在一些非限制性实施方案或方面中，输入数据包括与账户持有人的一个或多个交易相关联的交易数据，并且输出数据包括与账户持有人相关联的账户或用户简档。

在一些非限制性实施方案或方面中，输入数据包括与web浏览会话或活动相关联的用户web浏览数据，并且输出数据可包括对web浏览会话或活动是否是机器人业务(或正常人web浏览)的预测。人类行为可能不同于软件机器人行为。例如，与访问网站的人类用户相关联的用户web浏览数据(例如，与用户在网站上的点击流相关联的参数等)可能不同于与访问网站的软件机器人相关联的用户web浏览数据(例如，与软件机器人在网站上的点击流相关联的参数等)。作为实例，试图在网站上预订旅馆的人可以检查与特定日期、特定位置等相关联的可用旅馆预订。相比之下，软件机器人可尝试浏览所有可用数据，例如，连续地检查价格，和/或尝试确定网站背后的内容和/或找到攻击网站的方式。以这种方式，可能存在被访问的数据类型的差异，访问数据的频率的差异，和/或访问数据的时间的差异。因此，根据非限制性实施方案或方面的经训练的残差神经网络可用于处理包括与web浏览会话或活动相关联的用户web浏览数据的输入数据，以生成包括对web浏览会话或活动是否为异常或欺诈软件机器人业务的预测的输出数据。在这样的实例中，响应于确定web浏览会话或活动是异常或欺诈软件机器人业务，交易服务提供商系统108可以警告网络管理员和/或自动阻止与软件机器人相关联的web业务(例如，阻止与跟软件机器人相关联的IP地址相关联的web业务等)。

尽管已出于说明和描述的目的详细描述了实施方案或方面，但应当理解，这种细节仅用于所述目的，并且所述实施方案或方面不限于所公开的实施方案或方面，而是相反，旨在涵盖在所附权利要求书的精神和范围内的修改和等效布置。例如，应当理解，本公开预期，尽可能地，任何实施方案或方面的一个或多个特征可以与任何其他实施方案或方面的一个或多个特征组合。实际上，这些特征中的任一个可以未在权利要求书中具体地叙述和/或在说明书中公开的方式组合。尽管下文列出的每项从属权利要求可能直接取决于仅一项权利要求，但可能的实施方式的公开内容包括与权利要求集中的每项其他权利要求相组合的每项从属权利要求。

Claims

1.一种计算机实现的方法，包括：

用至少一个处理器获得训练数据；以及

用至少一个处理器训练残差神经网络，所述残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，其中所述至少一个跳过连接进行以下直接连接中的至少一项：(i)将所述第一全连接层的输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的第一其他层以及(ii)将所述第一递归神经网络层的输出直接连接到所述残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：

用所述第一全连接层处理所述训练数据；

用所述第一递归神经网络层处理所述第一全连接层的所述输出；

以下中的至少一项：(i)用所述第一其他层处理所述第一全连接层的经由所述至少一个跳过连接接收的所述输出和在所述残差神经网络中所述第一全连接层与所述第一其他层之间的第一先前层的输出，以及(ii)用所述第二其他层处理所述第一递归神经网络层的经由所述至少一个跳过连接接收的所述输出和在所述残差神经网络中所述第一递归神经网络层与所述第二其他层之间的第二先前层的输出，其中所述残差神经网络基于(i)所述第一其他层的输出和(ii)所述第二其他层的输出中的至少一者产生输出数据；以及

使用取决于所述输出数据的所述残差神经网络的损失函数来修改所述残差神经网络的一个或多个参数。

2.根据权利要求1所述的计算机实现的方法，其中所述训练数据包括分类数据、数值数据和嵌入数据，其中所述残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层，并且其中训练所述残差神经网络包括：

用所述分类输入层处理所述分类数据以产生分类特征；

用所述数值输入层处理所述数值数据以产生数值特征；

用所述嵌入输入层处理所述嵌入数据以产生嵌入特征；

用所述级联层处理所述分类特征、所述数值特征和所述嵌入特征以产生级联特征向量；以及

用所述第一全连接层处理所述级联特征向量。

3.根据权利要求1所述的计算机实现的方法，其中所述残差神经网络还包括所述残差神经网络中所述第一递归神经网络层下游的丢弃层，并且其中训练所述残差神经网络包括：

用所述丢弃层处理所述第一递归神经网络层的所述输出。

4.根据权利要求1所述的计算机实现的方法，其中所述残差神经网络还包括另一个全连接层作为所述残差神经网络中每个其他层下游的输出层，并且其中训练所述残差神经网络包括：

用所述输出层处理所述残差神经网络中紧邻所述输出层上游的倒数第二层的输出以产生所述输出数据，其中所述输出数据包括预测标签，其中所述预测标签包括所述训练数据与一个或多个预先确定分类相关联的概率，并且其中所述残差神经网络的所述损失函数取决于所述预测标签和与所述训练数据相关联的实际标签。

5.根据权利要求1所述的计算机实现的方法，其中所述至少一个跳过连接包括(i)第一跳过连接，所述第一跳过连接将所述第一全连接层的所述输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的所述第一其他层，以及(ii)第二跳过连接，所述第二跳过连接将所述第一递归神经网络层的所述输出直接连接到所述残差神经网络中所述第二递归神经网络层下游的所述第二其他层，其中所述第一其他层包括所述第二递归神经网络层，其中所述第二其他层包括第二全连接层，其中所述第一先前层包括在所述第一递归神经网络层与所述第二递归神经网络层之间的第一丢弃层，其中所述第二先前层包括在所述第二递归神经网络层与所述第二全连接层之间的第二丢弃层，并且其中训练所述残差神经网络还包括：

用所述第一丢弃层处理所述第一递归神经网络层的所述输出；

用所述第二递归神经网络层处理经由所述第一跳过连接接收的所述第一丢弃层的输出和所述第一全连接层的所述输出；

用所述第二丢弃层处理所述第二递归神经网络层的输出；以及

用所述第二全连接层处理经由所述第二跳过连接接收的所述第二丢弃层的输出和所述第一递归神经网络层的所述输出，其中所述残差神经网络基于所述第二全连接层的输出产生所述输出数据。

6.根据权利要求1所述的计算机实现的方法，其中所述至少一个跳过连接将所述第一全连接层的所述输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的所述第一其他层，其中所述第一其他层包括第二全连接层，其中所述残差神经网络还包括在所述第一递归神经网络层与所述第二递归神经网络层之间的第一丢弃层，其中所述第一先前层包括在所述第二递归神经网络层与所述第二全连接层之间的第二丢弃层，并且其中训练所述残差神经网络还包括：

用所述第二递归神经网络层处理所述第一丢弃层的输出；

用所述第二全连接层处理经由所述至少一个跳过连接接收的所述第二丢弃层的输出和所述第一全连接层的所述输出，其中所述残差神经网络基于所述第二全连接层的输出产生所述输出数据。

7.根据权利要求1所述的计算机实现的方法，其中所述至少一个跳过连接将所述第一全连接层的所述输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的所述第一其他层，其中所述第一其他层包括所述第二递归神经网络，其中所述第一先前层包括第一丢弃层，其中所述残差神经网络还包括所述第二递归神经网络下游的第二全连接层以及所述第二递归神经网络与所述第二全连接层之间的第二丢弃层，并且其中训练所述残差神经网络还包括：

用所述第二递归神经网络层处理经由所述至少一个跳过连接接收的所述第一丢弃层的输出和所述第一全连接层的所述输出；

用所述第二全连接层处理所述第二丢弃层的输出，其中所述残差神经网络基于所述第二全连接层的输出产生所述输出数据。

8.根据权利要求1所述的计算机实现的方法，其中所述至少一个跳过连接将所述第一递归神经网络层的所述输出直接连接到所述残差神经网络中所述第二递归神经网络层下游的所述第二其他层，其中所述第二其他层包括第二全连接层，其中所述残差神经网络还包括在所述第一递归神经网络与所述第二递归神经网络之间的第一丢弃层，其中所述第二先前层包括第二丢弃层，并且其中训练所述残差神经网络还包括：

用所述第二递归神经网络层处理所述第一丢弃层的输出；

用所述第二全连接层处理经由所述至少一个跳过连接接收的所述第二丢弃层的输出和所述第一递归神经网络层的所述输出，其中所述残差神经网络基于所述第二全连接层的输出产生所述输出数据。

9.根据权利要求1所述的计算机实现的方法，其中所述至少一个跳过连接将所述第一全连接层的所述输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的所述第一其他层，其中所述第一其他层包括第二全连接层，其中所述残差神经网络还包括在所述第一递归神经网络层与所述第二全连接层之间的第一丢弃层，其中第一递归神经网络层是所述残差神经网络中仅有的递归神经网络，并且其中训练所述残差神经网络还包括：

用所述第一丢弃层处理所述第一递归神经网络层的所述输出；以及

用所述第二全连接层处理经由所述至少一个跳过连接接收的所述第一丢弃层的输出和所述第一全连接层的所述输出，其中所述残差神经网络基于所述第二全连接层的输出产生所述输出数据。

10.根据权利要求1所述的计算机实现的方法，还包括：

用至少一个处理器提供所训练的残差神经网络；

用至少一个处理器获得输入数据；以及

用至少一个处理器使用所训练的残差神经网络来处理所述输入数据以生成输出数据。

11.根据权利要求9所述的计算机实现的方法，其中所述输入数据包括对商家与由发行方发行的账户的账户持有人之间的交易进行授权的请求，并且其中所述输出数据包括对所述交易是否是欺诈交易的预测。

12.一种计算系统，包括：

一个或多个处理器，所述一个或多个处理器被编程和/或配置为：

获得训练数据；并且

训练残差神经网络，所述残差神经网络包括第一全连接层、第一递归神经网络层和至少一个跳过连接，其中所述至少一个跳过连接进行以下直接连接中的至少一项：(i)将所述第一全连接层的输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的第一其他层以及(ii)将所述第一递归神经网络层的输出直接连接到所述残差神经网络中第二递归神经网络层下游的第二其他层，其方式是：

用所述第一全连接层处理所述训练数据；

13.根据权利要求12所述的计算系统，其中所述训练数据包括分类数据、数值数据和嵌入数据，其中所述残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层，并且其中所述一个或多个处理器被进一步编程和/或配置为通过以下方式训练所述残差神经网络：

用所述分类输入层处理所述分类数据以产生分类特征；

用所述数值输入层处理所述数值数据以产生数值特征；

用所述嵌入输入层处理所述嵌入数据以产生嵌入特征；

用所述第一全连接层处理所述级联特征向量。

14.根据权利要求12所述的计算系统，其中所述残差神经网络还包括所述残差神经网络中所述第一递归神经网络层下游的丢弃层，并且其中所述一个或多个处理器被进一步编程和/或配置为通过以下方式训练所述残差神经网络：

用所述丢弃层处理所述第一递归神经网络层的所述输出。

15.根据权利要求12所述的计算系统，其中所述残差神经网络还包括另一个全连接层作为所述残差神经网络中每个其他层下游的输出层，并且其中所述一个或多个处理器被进一步编程和/或配置为通过以下方式训练所述残差神经网络：

16.根据权利要求12所述的计算系统，其中所述至少一个跳过连接包括(i)第一跳过连接，所述第一跳过连接将所述第一全连接层的所述输出直接连接到所述残差神经网络中所述第一递归神经网络层下游的所述第一其他层，以及(ii)第二跳过连接，所述第二跳过连接将所述第一递归神经网络层的所述输出直接连接到所述残差神经网络中所述第二递归神经网络层下游的所述第二其他层，其中所述第一其他层包括所述第二递归神经网络层，其中所述第二其他层包括第二全连接层，其中所述第一先前层包括在所述第一递归神经网络层与所述第二递归神经网络层之间的第一丢弃层，其中所述第二先前层包括在所述第二递归神经网络层与所述第二全连接层之间的第二丢弃层，并且其中所述一个或多个处理器被进一步编程和/或配置为通过以下方式训练所述残差神经网络：

17.一种计算机程序产品，包括至少一个非瞬态计算机可读介质，所述至少一个非瞬态计算机可读介质包括程序指令，所述程序指令在由至少一个处理器执行时使所述至少一个处理器：

获得训练数据；并且

用所述第一全连接层处理所述训练数据；

18.根据权利要求17所述的计算机程序产品，其中所述训练数据包括分类数据、数值数据和嵌入数据，其中所述残差神经网络还包括分类输入层、数值输入层、嵌入输入层和级联层，并且其中所述指令进一步使所述至少一个处理器通过以下方式训练所述残差神经网络：

用所述分类输入层处理所述分类数据以产生分类特征；

用所述数值输入层处理所述数值数据以产生数值特征；

用所述嵌入输入层处理所述嵌入数据以产生嵌入特征；

用所述第一全连接层处理所述级联特征向量。

19.根据权利要求17所述的计算机程序产品，其中所述残差神经网络还包括所述残差神经网络中所述第一递归神经网络层下游的丢弃层，并且其中所述指令进一步使所述至少一个处理器通过以下方式训练所述残差神经网络：

用所述丢弃层处理所述第一递归神经网络层的所述输出。

20.根据权利要求17所述的计算机程序产品，其中所述残差神经网络还包括另一个全连接层作为所述残差神经网络中每个其他层下游的输出层，并且其中所述指令进一步使所述至少一个处理器通过以下方式训练所述残差神经网络：