CN111325624B

CN111325624B - 网络交易的实时防控系统及方法

Info

Publication number: CN111325624B
Application number: CN202010086878.7A
Authority: CN
Inventors: 管楚
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: AlipayCom Co ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2022-04-26
Anticipated expiration: 2040-02-11
Also published as: CN111325624A

Abstract

本申请公开了一种网络交易的实时防控系统及方法。该系统包括：Wide&Deep模块，用于对输入的特征进行记忆和泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征记忆得分和特征泛化得分；行动模块，使用神经网络实现，输入为命中的拦截策略的特征嵌入式表达，输出为行动得分；交易得分计算模块，用于根据所述Wide&Deep模块输出的特征记忆得分和特征泛化得分和所述行动模块输出的行动得分计算交易得分；Q值计算模块，用于根据对交易的反馈和所述交易得分计算Q值。

Description

网络交易的实时防控系统及方法

技术领域

本说明书涉及以计算机技术手段解决网络交易安全性问题的技术领域。

背景技术

相比离线的识别模型，实时的防控策略需要在多种业务场景中对可疑的交易事件进行拦截，通过账户限权或交易验证的方式限制犯罪资金在网络支付体系内的使用，对犯罪资金的交易链路进行拦截或取证，从而逐步减少网络交易的洗钱风险。

现有技术中，使用深度神经网络(DNN)进行有监督学习的技术可以应用于网络交易的实时防控，例如可以用DNN对交易事件的特征进行学习和分析，输出表示交易可疑度的评分，根据该评分的大小确定是否触发拦截策略。该方案主要是利用了深度学习的技术，其问题在于只能根据预先设定好的样本集进行训练，无法根据用户的反馈对拦截方式进行优化。

发明内容

本说明书提供了一种网络交易的实时防控系统及方法，可以根据用户的反馈对拦截方式进行优化。

本申请公开了一种网络交易的实时防控系统，包括：

Wide&Deep模块，用于对输入的特征进行记忆和泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征记忆得分和特征泛化得分；

行动模块，使用神经网络实现，输入为命中的拦截策略的特征嵌入式表达，输出为行动得分；

交易得分计算模块，用于根据所述Wide&Deep模块输出的特征记忆得分和特征泛化得分和所述行动模块输出的行动得分计算交易得分；

Q值计算模块，用于根据对交易的反馈和所述交易得分计算Q值。

在一个优选例中，所述Wide&Deep模块进一步包括：

Wide模块，用于对输入的特征进行记忆，输入为所述交易事件的离散特征嵌入式表达和连续特征，输出为所述特征记忆得分；

Deep模块，用于对输入的特征进行泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为所述特征泛化得分。

在一个优选例中，所述Wide模块使用广义线性模型实现；所述Deep模块使用全连接网络实现。

在一个优选例中，所述Q值计算模块通过以下方式计算Q值：

如果所述交易得分大于阈值，且对该交易的反馈为黑样本，则Q值为第一Q值；

如果所述交易得分大于所述阈值，且对该交易的反馈为白样本，则Q值为第二Q值；

如果所述交易得分小于所述阈值，且对该交易的反馈为黑样本，则Q值为第三Q值；

如果所述交易得分小于所述阈值，且对该交易的反馈为白样本，则Q值为第四Q值；

其中，所述第一Q值>所述第四Q值>所述第三Q值>所述第二Q值。

在一个优选例中，所述命中的拦截策略的特征包括命中的拦截策略的名称和拦截类型。

在一个优选例中，所述交易得分计算模块将所述特征记忆得分、所述特征泛化得分、所述行动得分的和作为所述交易得分。

在一个优选例中，还包括：

第一自编码器，用于对输入的交易事件的离散特征进行嵌入式学习，将所得的离散特征嵌入式表达输出给所述Wide&Deep模块；

第二自编码器，用于对输入的命中的拦截策略的特征进行嵌入式学习，将所得的嵌入式表达输出给所述行动模块。

在一个优选例中，所述交易事件的特征包括以下之一或其任意组合：

交易属性、交叉特征、用户特征、统计特征、上下文特征。

在一个优选例中，所述交易事件的特征还包括基于交易属性、交叉特征、用户特征、统计特征和上下文特征的深度神经网络自编码学习的特征组合。

在一个优选例中，该方法交替运行以下两步骤，直到满足停止条件：

固定所述Wide&Deep模块的参数，通过最大化Q值，训练所述行动模块的参数；

固定所述行动模块的参数，通过拟合交易得分和标签，训练所述Wide&Deep模块的参数。

本申请还公开了一种网络交易的实时防控方法包括：

将交易事件的离散特征嵌入式表达和连续特征输入用于对输入的特征进行记忆和泛化的Wide&Deep模块，得到输出的特征记忆得分和特征泛化得分；

将命中的拦截策略的特征嵌入式表达输入使用神经网络实现的行动模块，得到输出的行动得分；

根据所述特征记忆得分、所述特征泛化得分和所述行动得分计算交易得分，并根据该交易得分触发拦截策略；

根据对交易的反馈和所述交易得分计算Q值。

在一个优选例中，所述Wide&Deep模块包括：

以广义线性模型实现的Wide模块，用于对输入的特征进行记忆，输入为所述交易事件的离散特征嵌入式表达和连续特征，输出为所述特征记忆得分；

以全连接网络实现的Deep模块，用于对输入的特征进行泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为所述特征泛化得分。

在一个优选例中，所述根据对交易的反馈和所述交易得分计算Q值，进一步包括：

其中，所述第一Q值>所述第四Q值>所述第三Q值>所述第二Q值。

在一个优选例中，所述根据所述特征记忆得分、所述特征泛化得分和所述行动得分计算交易得分，进一步包括：

将所述特征记忆得分、所述特征泛化得分和所述行动得分相加的和作为所述交易得分。

在一个优选例中，所述交易事件的离散特征嵌入式表达是通过对输入的交易事件的离散特征进行嵌入式学习得到的；

所述命中的拦截策略的特征嵌入式表达是通过对输入的命中的拦截策略的特征进行嵌入式学习得到的。

交易属性、交叉特征、用户特征、统计特征、上下文特征。

本说明书实施方式中，使用了深度学习和强化学习两种模型结合的方式，其中深度学习的相关模块主要将特征进行记忆和泛化，强化学习的相关模块主要观察拦截时的用户反馈，从而一方面能够高准确率的识别可疑交易，即通过深度学习的模块给出合理的可疑得分，另一方面由于不同策略的拦截方式不同，结合用户的反馈情况，可以进一步优化策略的拦截方式。

本说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话，会使得说明书过于冗长。为了避免这个问题，本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本说明书第一实施方式的网络交易的实时防控系统结构示意图；

图2是一种自编码器的结构示意图；

图3是根据本说明书第三实施方式的网络交易的实时防控方法流程示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

部分概念的说明：

智能体(agent):可以感知外界环境的状态(state)和反馈的奖励(reward)并进行学习和决策。

环境(environment):是指智能体外部的所有事物，并受智能体动作的影响而改变其状态，并反馈给智能体相应的奖励

状态s：是对环境的描述，可以是离散的或连续的，其状态空间为S

行动a：是对智能体行为的描述，可以是离散的或连续的，其行动空间为A

策略：是智能体根据环境状态s来决定下一步的动作

DNN：深度神经网络(Deep Neural Networks)

Embedding：嵌入式学习，将离散变量转为连续向量表示的一种方式，得到的结果被称为嵌入式表达。

Wide&Deep：一种机器学习模型。2016年，Google的一篇论文(Cheng,Heng-Tze,etal."Wide&deep learning for recommender systems."Proceedings of the 1stworkshop on deep learning for recommender systems.ACM,2016.)提出了Wide&Deep模型，将线性模型与DNN很好的结合起来，在提高模型泛化能力的同时，兼顾模型的记忆性。广义线性模型能够很好地解决记忆(Memorization)的问题，但是在泛化(Generalization)方面表现不足。基于Embedding的DNN模型在Generalization表现优异，但在数据分布较为长尾的情况下，对于长尾数据的处理能力较弱，容易造成过度泛化。两者的结合就构成的Wide&Deep模型。模型能够从历史数据中学习到高频共现的特征组合的能力，这是模型的Memorization。

本说明书的技术方案涉及以技术手段解决网络交易的安全性问题。与传统的现金交易、银行转账等传统支付方式相比，网络支付在效率和便捷性等方面都具有明显的优势。同时，如何在网络支付中有效保障用户的资金安全，也是支付机构需要重点关注的问题。用户资金安全的问题，理论上可以通过人工稽核的方式解决。但是网络支付场景具有业务量大、高并发等特点，这使得传统的人工稽核难以适应网络支付场景的需求。以“支付宝”为例，目前已有约9亿活跃用户，每天需要处理大量的金融业务，而且很可能出现多笔业务同时并发的情况。人工稽核的方式不仅需要投入大量的人力资源，而且难以在短时间内对用户的支付请求做出响应。中国人民银行制订的《非金融机构支付服务管理办法》第32条也规定了：支付机构应当具备必要的技术手段，确保支付指令的完整性、一致性和不可抵赖性，支付业务处理的及时性、准确性和支付业务的安全性；具备灾难恢复处理能力和应急处理能力，确保支付业务的连续性。可见，网络支付场景中的风险管理，除了要设计合理的风控规则或制度之外，还需要进一步考虑如何通过技术手段在保证及时性、准确性的同时，解决用户资金的安全性问题。

下面将结合附图对本说明书的实施方式作进一步地详细描述。

本说明书的第一实施方式涉及一种网络交易的实时防控系统，其结构如图1所示，包括：

Wide&Deep模块，用于对输入的特征进行记忆和泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征记忆得分和特征泛化得分。该Wide&Deep模块进一步包括Wide模块和Deep模块，其中Wide模块用于对输入的特征进行记忆，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征记忆得分；Deep模块用于对输入的特征进行泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征泛化得分。Wide模块可以使用广义线性模型(例如线性回归模型LR)实现。Deep模块可以使用全连接网络(例如DNN)实现。从功能上说，Wide模块也可以被称为特征记忆模块，Deep模块也可以被称为特征泛化模块。

行动模块(Action模块)，使用神经网络实现，输入为命中的拦截策略的特征嵌入式表达，输出为行动得分。可选地，在一个实施例中，拦截策略可以是手机验证码验证、密码验证、人脸识别验证、交易失败等。可选地，在一个实施例中，命中的拦截策略的特征包括命中的拦截策略的名称和拦截类型。

交易得分计算模块，用于根据Wide&Deep模块输出的特征记忆得分和特征泛化得分和行动模块输出的行动得分计算交易得分。可选地，在一个实施例中，交易得分计算模块将特征记忆得分、特征泛化得分和行动得分相加所得的和作为交易得分。

Q值计算模块，用于根据对交易的反馈和交易得分计算Q值。对交易的反馈包括用户投诉、用户来电等各种事后可以确认该交易属于白样本还是黑样本的反馈方式。

第一自编码器，用于对输入的交易事件的离散特征进行嵌入式学习，将所得的离散特征嵌入式表达输出给Wide&Deep模块。如果已经拥有交易事件的离散特征嵌入式，那么第一自编码器可以省略。

第二自编码器，用于对输入的命中的拦截策略的特征进行嵌入式学习，将所得的嵌入式表达输出给行动模块。如果已经拥有命中的拦截策略的嵌入式表达，那么第二自编码器可以省略。

这个系统最终输出有两个得分，分别是交易得分和Q值。其中，交易得分是交易维度，表示交易的可疑程度；Q值为用户维度，表示当前状态的得分，也可以理解为用户的满意程度。

交易事件的特征可以是各式各样的，在一个实施例中，包括交易事件的特征以下之一或其任意组合：

1)交易属性(交易时间、交易类型等)

2)交叉特征(主对象在当前渠道上的交易频率)

3)用户特征(主对象、次对象是否为灰名单、年龄、性别)

4)统计特征(当前交易渠道的总体交易占比)

5)上下文特征(当前交易链路上被其他策略命中的次数)

6)基于以上特征的DNN特征(多层DNN自编码学习的特征组合)

上述特征一部分是离散值，称为离散特征，另一部分是连续值，被称为连续特征。

为了解决离散特征的稀疏性问题，同时在模型中兼顾不同类型之间的相关性，本实施方式在提取了各个类型的特征之后，又采取了基于自编码的DNN模型对上述的离散特征做了多层特征抽象。自编码器是一个尽可能复现初始特征的深度学习算法，通常被用来学习原始数据，从而得到更好的特征表示，主要由3层网络结构组成：输入层、隐藏层和输出层，其中中间层即为新的数据表示层，具体结构如图2所示。在实际运用中，自编码器主要用于离散特征的embedding操作，离散特征主要包括交易样本的属性(交易渠道、操作地等)和交易命中的拦截策略。

可选地，在一个实施例中，Q值计算模块通过以下方式计算Q值：如果交易得分大于阈值，且对该交易的反馈为黑样本，则Q值为第一Q值。如果交易得分大于阈值，且对该交易的反馈为白样本，则Q值为第二Q值。如果交易得分小于阈值，且对该交易的反馈为黑样本，则Q值为第三Q值。如果交易得分小于阈值，且对该交易的反馈为白样本，则Q值为第四Q值。其中，第一Q值>第四Q值>第三Q值>第二Q值。一个例子如下表所示：

	交易得分>0.5	交易得分＜＝0.5
			实际标签为黑样本	1	-0.1
实际标签为白样本	-0.8	0

表中的数值就是Q值，这些数值的大小可以根据具体的应用场景调整，表中的阈值是0.5，其大小也可以根据需要设置。

行动模块和Q值计算模块构成了强化学习机制，结合用户的反馈给出下一步决策。强化学习的机制主要由reward function(回报函数)来控制，即learning agent(学习智能体)在决定一步后得到较好的结果，那么系统给予一个正向回报，反之给予一个负向回报。因此，只需要找到最佳的回报路径即可。这部分可以通过一个五元组来表示：(状态、动作、转移概率、阻尼系数、回报函数)，形式化的表示为(S,A,P,γ,R)。具体来说，在当前s状态下的值函数(即回报函数)为：

V(s)＝R(s_0)+γ(E[R(s_1)+γR(s_2)+γ^2R(s_3)+…])

其中，R(s_i)表示s_i状态下的值函数，随着状态逐层转移变化，其作用会逐层减少，因此用阻尼系数γ来表示(也可以看做是衰减系数)。s_0表示当前状态，s_1表示s_0的上一个状态，s_2表示s_1的上一个状态，以此类推。E是期望值，V代表整条路径的回报值，R代表每一个动作的回报值。

由于在一定的时间段内，交易链路有多笔交易构成，因此每笔交易的值函数都与上一笔的值函数有关。举例来说，如果上一笔交易的拦截策略为“手机验证码”，那么下一步拦截策略可以更近一步采用“交易失败”的方式。配合用户的反馈(如投诉、来电等方式)，这种数据符合当前的多轮校验场景，使用强化学习可以决策每笔交易需要使用的方案(是否拦截和具体的拦截方式)，最终结合这笔交易是否为黑产交易以及具体的交易金额，给出最终的reward(回报)，从而拟合出不同交易链路的拦截策略。

本实施方式使用了深度学习和强化学习两种模型结合的方式，其中深度学习的相关模块主要将特征进行记忆和泛化，强化学习的相关模块主要观察拦截时的用户反馈，从而一方面能够高准确率的识别可疑交易，即通过深度学习的模块给出合理的可疑得分，另一方面由于不同策略的拦截方式不同，结合用户的反馈情况，可以进一步优化策略的拦截方式。相比传统的有监督学习，本实施方式结合了用户的反馈情况迭代优化了模型；相比传统的强化学习，本实施方式不仅结合了用户反馈，对策略拦截进行了优化，同时还使用了交易本身的特征进一步提高了识别的准确率。

本说明书的第二实施方式涉及一种网络交易的实时防控系统的训练方法，用于对第一实施方式所述的网络交易的实时防控系统进行训练，该方法交替运行以下两步骤，直到满足停止条件：

固定Wide&Deep模块的参数，通过最大化Q值，训练行动模块的参数。

固定行动模块的参数，通过拟合交易得分和标签，训练Wide&Deep模块的参数。

本说明书的第三实施方式涉及一种网络交易的实时防控系统的训练方法，其流程如图3所示，该方法包括：

在步骤302中，将交易事件的离散特征嵌入式表达和连续特征输入Wide&Deep模块(用于对输入的特征进行记忆和泛化)，得到输出的特征记忆得分和特征泛化得分。其中，Wide&Deep模块包括使用广义线性模型(例如线性回归模型LR)实现的Wide模块，用于对输入的特征进行记忆，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征记忆得分。Wide&Deep模块还包括全连接网络实现的Deep模块(例如DNN)，用于对输入的特征进行泛化，输入为交易事件的离散特征嵌入式表达和连续特征，输出为特征泛化得分。交易事件的离散特征嵌入式表达是通过对输入的交易事件的离散特征进行嵌入式学习得到的。

在步骤304中，将命中的拦截策略的特征嵌入式表达输入使用神经网络实现的行动模块，得到输出的行动得分。命中的拦截策略的特征嵌入式表达是通过对输入的命中的拦截策略的特征进行嵌入式学习得到的。可选地，在一个实施例中，拦截策略可以是手机验证码验证、密码验证、人脸识别验证、交易失败等。可选地，在一个实施例中，命中的拦截策略的特征包括命中的拦截策略的名称和拦截类型。

在步骤306中，根据特征记忆得分、特征泛化得分和行动得分计算交易得分，并根据该交易得分触发拦截策略。可选地，在一个实施例中，交易得分计算模块将特征记忆得分、特征泛化得分和行动得分相加所得的和作为交易得分。

在步骤308中，根据对交易的反馈和交易得分计算Q值。

上述步骤302和304可以是并行的。

步骤308中，可以通过以下方式计算Q值：如果交易得分大于阈值，且对该交易的反馈为黑样本，则Q值为第一Q值。如果交易得分大于阈值，且对该交易的反馈为白样本，则Q值为第二Q值。如果交易得分小于阈值，且对该交易的反馈为黑样本，则Q值为第三Q值。如果交易得分小于阈值，且对该交易的反馈为白样本，则Q值为第四Q值。其中，第一Q值>第四Q值>第三Q值>第二Q值。

1)交易属性(交易时间、交易类型等)

2)交叉特征(主对象在当前渠道上的交易频率)

3)用户特征(主对象、次对象是否为灰名单、年龄、性别)

4)统计特征(当前交易渠道的总体交易占比)

5)上下文特征(当前交易链路上被其他策略命中的次数)

6)基于以上特征的DNN特征(多层DNN自编码学习的特征组合)

第一实施方式是与本实施方式相对应的系统实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是，本领域技术人员应当理解，上述网络交易的实时防控系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本说明书实施例上述网络交易的实时防控系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本说明书实施例不限制于任何特定的硬件和软件结合。

处理器可以是中央处理单元(Central Processing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称“DSP”)、专用集成电路(Application Specific Integrated Circuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。在一个实施例中，该网络交易的实时防控系统还包括总线和通信接口。处理器、存储器和通信接口都通过总线相互连接。通信接口可以是无线通信接口也可以是有线通信接口，用于使得处理器能够与其他的装置通信。

相应地，本说明书实施方式还提供一种计算机可读存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于，相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描述的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种网络交易的实时防控系统，包括：

Q值计算模块，用于根据对交易的反馈和所述交易得分计算Q值，其中，所述对交易的反馈是指事后可以确认该交易属于白样本还是黑样本的反馈方式。

2.如权利要求1所述的网络交易的实时防控系统，其中，所述Wide&Deep模块进一步包括：

3.如权利要求2所述的网络交易的实时防控系统，其中，所述Wide模块使用广义线性模型实现；所述Deep模块使用全连接网络实现。

4.如权利要求1所述的网络交易的实时防控系统，其中，所述Q值计算模块通过以下方式计算Q值：

其中，所述第一Q值>所述第四Q值>所述第三Q值>所述第二Q值。

5.如权利要求1所述的网络交易的实时防控系统，其中，所述命中的拦截策略的特征包括命中的拦截策略的名称和拦截类型。

6.如权利要求1所述的网络交易的实时防控系统，其中，所述交易得分计算模块将所述特征记忆得分、所述特征泛化得分、所述行动得分的和作为所述交易得分。

7.如权利要求1所述的网络交易的实时防控系统，其中，还包括：

8.如权利要求1-7中任意一项所述的网络交易的实时防控系统，其中，所述交易事件的特征包括以下之一或其任意组合：

交易属性、交叉特征、用户特征、统计特征、上下文特征；其中，

所述交叉特征是指主对象在当前渠道上的交易频率，所述统计特征是指当前交易渠道的总体交易占比，所述上下文特征是指当前交易链路上被其他策略命中的次数。

9.如权利要求8所述的网络交易的实时防控系统，其中，所述交易事件的特征还包括基于交易属性、交叉特征、用户特征、统计特征和上下文特征的深度神经网络自编码学习的特征组合。

10.一种网络交易的实时防控系统的训练方法，用于对所述权利要求1-9中任意一项所述的网络交易的实时防控系统进行训练，该方法交替运行以下两步骤，直到满足停止条件：

11.一种网络交易的实时防控方法，包括：

根据对交易的反馈和所述交易得分计算Q值，其中，所述对交易的反馈是指事后可以确认该交易属于白样本还是黑样本的反馈方式。

12.如权利要求11所述的网络交易的实时防控方法，其中，所述Wide&Deep模块包括：

13.如权利要求11所述的网络交易的实时防控方法，其中，所述根据对交易的反馈和所述交易得分计算Q值，进一步包括：

其中，所述第一Q值>所述第四Q值>所述第三Q值>所述第二Q值。

14.如权利要求11所述的网络交易的实时防控方法，其中，所述命中的拦截策略的特征包括命中的拦截策略的名称和拦截类型。

15.如权利要求11所述的网络交易的实时防控方法，其中，所述根据所述特征记忆得分、所述特征泛化得分和所述行动得分计算交易得分，进一步包括：

16.如权利要求11所述的网络交易的实时防控方法，其中，所述交易事件的离散特征嵌入式表达是通过对输入的交易事件的离散特征进行嵌入式学习得到的；

17.如权利要求11-16中任意一项所述的网络交易的实时防控方法，其中，所述交易事件的特征包括以下之一或其任意组合：

18.如权利要求17所述的网络交易的实时防控方法，其中，所述交易事件的特征还包括基于交易属性、交叉特征、用户特征、统计特征和上下文特征的深度神经网络自编码学习的特征组合。