CN111126622A

CN111126622A - 一种数据异常检测方法与装置

Info

Publication number: CN111126622A
Application number: CN201911317683.2A
Authority: CN
Inventors: 臧大卫
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: WO2021120775A1; CN111126622B

Abstract

本发明实施例涉及数据处理技术领域，尤其涉及一种数据异常检测方法与装置，用以提高数据检测的准确性和精确度。本发明实施例包括：获取待测对象的检测样本数据；根据检测样本数据，确定待测对象对应于第一机器学习模型的第一检测特征值，以及对应于规则算法的第二检测特征值，规则算法中包含至少一个判断逻辑；将第一机器学习模型对应的第一检测特征值输入已训练的机器学习模型，得到待测对象的第一输出向量，并且将规则算法对应的第二检测特征值输入规则算法中，得到待测对象的第二输出向量；将第一输出向量和第二输出向量输入已训练的第二机器学习模型，确定待测对象的输出风险指数；根据输出风险指数，确定待测对象的异常判定结果。

Description

一种数据异常检测方法与装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据异常检测方法与装置。

背景技术

互联网和互联网金融的快速发展给风控系统带来了前所未有的挑战，欺诈交易的形式、方式越发多种多样，隐蔽性高，难以挖掘，传统的规则引擎风控方法越发乏力。近年深度学习的快速发展为解决这一问题提供了另一种思路，开发深度引擎，通过深度学习构建模型挖掘隐含信息，辨别欺诈交易，已有不错的成果。

制定规则检测异常数据，在部分场景仍有不可取代的优势。但目前进行异常数据检测多为单独使用深度学习算法，准确性和精确度有待进一步提高。

发明内容

本申请提供一种数据异常检测方法与装置，用以提高数据检测的准确性和精确度。

本发明实施例提供的一种数据异常检测方法，包括：

获取待测对象的检测样本数据；

根据所述检测样本数据，确定所述待测对象对应于第一机器学习模型的第一检测特征值，以及对应于规则算法的第二检测特征值，所述规则算法中包含至少一个判断逻辑；

将所述第一机器学习模型对应的第一检测特征值输入已训练的机器学习模型，得到所述待测对象的第一输出向量，并且将所述规则算法对应的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量；

将所述第一输出向量和第二输出向量输入已训练的第二机器学习模型，确定所述待测对象的输出风险指数；

根据所述输出风险指数，确定所述待测对象的异常判定结果。

一种可选的实施例中，所述第二输出向量包含至少一个输出标识；所述将所述待测对象的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量，包括：

确定判定结果与输出标识的对应关系；

针对所述规则算法中的每一个判断逻辑，利用对应的第二检测特征值，根据所述判断逻辑进行判定，得到对应的判定结果，并根据所述判定结果确定对应的输出标识；

按照预定顺序将所有输出标识组成所述第二输出向量。

一种可选的实施例中，所述第一机器学习模型为神经网络模型，所述第二机器学习模型为逻辑回归模型。

一种可选的实施例中，所述神经网络模型利用以下方式进行训练：

获取历史时间段内的训练样本数据；

根据所述训练样本数据，选择训练对象对应于所述神经网络模型的第一训练特征，并确定第一训练特征对应的第一训练特征值；

将所述第一训练特征值输入初始神经网络模型，并根据得到的机器风险指数及所述训练对象的异常判定结果计算损失函数，当所述损失函数小于预设阈值时，确定对应的第一参数为所述神经网络模型对应的第一参数，得到已训练的神经网络模型；

所述逻辑回归模型利用以下方式进行训练：

从所述已训练的神经网络模型中获取训练对象的第一输出向量；

根据所述训练样本数据，选择训练对象对应于所述规则算法的第二训练特征，并确定第二训练特征对应的第二训练特征值；

将第二训练特征值输入所述规则算法中，得到所述训练对象的第二输出向量；

将所述第一输出向量和所述第二输出向量输入初始逻辑回归模型，并根据得到的输出风险指数及所述训练对象的异常判定结果计算损失函数，当所述损失函数小于预设阈值时，确定对应的第二参数为所述逻辑回归模型对应的第二参数，得到已训练的逻辑回归模型。

一种可选的实施例中，所述神经网络模型和所述逻辑回归模型利用以下方式进行训练：

获取历史时间段内的训练样本数据；

将所述第一训练特征值输入初始神经网络模型，得到所述训练对象的第一输出向量；

将所述第一输出向量和所述第二输出向量输入初始逻辑回归模型，并根据得到的输出风险指数及所述训练对象的异常判定结果计算损失函数，当所述损失函数小于预设阈值时，确定对应的第一参数为所述神经网络模型对应的第一参数，得到已训练的神经网络模型，并确定对应的第二参数为所述逻辑回归模型对应的第二参数，得到已训练的逻辑回归模型。

一种可选的实施例中，所述第一机器学习模型包括多个不同的机器学习子模型。

一种可选的实施例中，还包括：

获取规则算法中的所有判断逻辑；

从所述第二机器学习模型中获取每个判断逻辑对应的权重参数；

针对每个判断逻辑，根据所述判断逻辑与其它判断逻辑之间的关系，以及判断逻辑对应的权重参数，确定所述判断逻辑的合理性。

一种数据异常检测装置，包括：

获取单元，用于获取待测对象的检测样本数据；

处理单元，用于根据所述检测样本数据，确定所述待测对象对应于第一机器学习模型的第一检测特征值，以及对应于规则算法的第二检测特征值，所述规则算法中包含至少一个判断逻辑；

计算单元，用于将所述第一机器学习模型对应的第一检测特征值输入已训练的机器学习模型，得到所述待测对象的第一输出向量，并且将所述规则算法对应的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量；

输出单元，用于将所述第一输出向量和第二输出向量输入已训练的第二机器学习模型，确定所述待测对象的输出风险指数；

判定单元，用于根据所述输出风险指数，确定所述待测对象的异常判定结果。

一种可选的实施例中，所述第二输出向量包含至少一个输出标识；所述计算单元，具体用于：

确定判定结果与输出标识的对应关系；

按照预定顺序将所有输出标识组成所述第二输出向量。

一种可选的实施例中，还包括训练单元，用于利用以下方式训练所述神经网络模型：

获取历史时间段内的训练样本数据；

所述训练单元，还用于利用以下方式训练所述逻辑回归模型：

一种可选的实施例中，所述训练单元，还用于利用以下方式训练所述神经网络模型和所述逻辑回归模型：

获取历史时间段内的训练样本数据；

一种可选的实施例中，还包括分析单元，用于：

获取规则算法中的所有判断逻辑；

本发明实施例还提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上所述的方法。

本发明实施例中，针对待测对象的异常检测，风控系统根据检测样本数据确定待测对象对应于第一机器学习模型的第一检测特征值，以及对应于规则算法的第二检测特征值，这里的规则算法中包含至少一个判断逻辑。将第一机器学习模型对应的第一检测特征值输入已训练的机器学习模型，得到待测对象的第一输出向量。另一方面，将规则算法对应的第二检测特征值输入规则算法中，得到待测对象的第二输出向量。将第一输出向量和第二输出向量输入已训练的第二机器学习模型，确定待测对象的输出风险指数，并根据所述输出风险指数，确定所述待测对象的异常判定结果。本发明实施例中，将机器学习算法与规则算法紧密相连，将第一机器学习模型的输出结果与规则算法的输出结果输入至第二机器学习模型中，利用第二机器学习模型有效结合了第一机器学习模型与规则算法的输出，准确性和精确率均高于单独利用机器学习模型，召回率指标也优于一般的机器学习模型系统。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据异常检测系统架构图；

图2为本发明实施例提供的一种数据异常检测方法的流程示意图；

图3为本发明实施例提供的一种规则树示意图；

图4为本发明实施例提供的一种需要优化的规则算法的规则树示意图；

图5为本发明具体实施例提供的一种数据风险异常检测方法的流程示意图；

图6为本发明实施例提供的一种数据异常检测装置的结构示意图；

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请一个实施例提供的数据异常检测系统架构图，包括5个子系统，分别是交易采集组件、历史特征计算组件、规则子引擎、深度子引擎和输出模块。其中交易采集组件通过MySQL proxy或者Kafka队列采集待测对象的检测样本数据，经过初步条件过滤，通过关键字段比对过滤掉低风险对象和不需要风控的渠道，然后通过TCPsocket通信发送至历史特征计算组件、规则子引擎和深度子引擎。

历史特征计算组件将根据待测对象的信息更新上下文和统计量，上下文信息存储了用户的上次特定行为的信息；统计量信息包含了如卡号、商户、手机号等等多个维度的统计量信息。

规则子引擎从历史特征计算组件获取规则计算所需的所有特征，遍历所有规则树，并将所有规则树中判断逻辑的计算结果按照中序遍历的顺序记录下来，发送给输出模块。

深度子引擎载入已训练的神经网络模型，按需向历史特征计算模块发送所需特征；将特征进行交互计算、One-Hot编码，得到神经网络模型的输入；输入神经网络模型进行前向传播算法，将输出发送至输出模块。

输出模块载入已训练的逻辑回归模型，将规则子引擎和深度子引擎的输出进行拼接，输入逻辑回归模型进行回归计算，得到0-1之间的风险指数；若风险指数大于预先设定的风险阈值，则判定该笔交易为风险交易，存入风险交易表。

需要注意的是，上文提及的应用场景仅是为了便于理解本申请的精神和原理而示出，本申请实施例在此方面不受任何限制。相反，本申请实施例可以应用于适用的任何场景。

下面对本申请实施例中涉及的部分概念进行介绍。

热独编码：One-Hot Encoding，是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。本发明实施例中用于将检测样本数据转为当前特征值后输入机器学习模型。

TCP：传输控制协议(Transmission Control Protocol)，一种面向连接的、可靠的、基于字节流的传输层通信协议。

为了监控系统数据，并提高异常检测的准确性，本发明实施例提供了一种数据异常检测方法，如图2所示，本发明实施例提供的数据异常检测方法包括以下步骤：

步骤201、获取待测对象的检测样本数据。

其中，检测样本数据包括待测对象的历史检测样本数据和当前检测样本数据。待测对象可以为一笔交易、或者一位用户、或者一个银行账户等。

本发明实施例中的当前检测样本数据和历史检测样本数据可以为用户的交易序列。通过将用户当前的交易序列输入数据异常检测系统，来预测当前交易的风险情况。

历史检测样本数据为历史时间段内待测对象的检测样本。历史时间段为待测对象对应的当前时间点之前的时间段，例如，当前时间点为2019年6月3日上午10点，历史时间段为2018年6月3日上午10点至2019年6月3日上午10点。具体实施过程中，历史时间段的时间长度可以根据需要和精确度进行选择，其中，历史时间段的时长越长，则检测准确度越高，但所需计算量越大；历史时间段的时长越段短，则检测所需计算量越小，但准确性较低。

步骤202、根据所述检测样本数据，确定所述待测对象对应于第一机器学习模型的第一检测特征值，以及对应于规则算法的第二检测特征值，所述规则算法中包含至少一个判断逻辑。

具体实施过程中，第一机器学习模型可以按照需求选择，可以为神经网络模型、PCA(principal components analysis，主成分分析)模型等。较佳的，本发明实施例中利用神经网络模型作为第一机器学习模型。

步骤203、将所述第一机器学习模型对应的第一检测特征值输入已训练的机器学习模型，得到所述待测对象的第一输出向量，并且将所述规则算法对应的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量。

针对神经网络模型，需要根据检测样本数据，确定历史特征对应的历史特征值，以及确定即时特征对应的当前特征值。具体的，对于一个具体的待测对象，将其历史特征值和即时特征值按需组合，进行One-Hot Encoding，再输入神经网络模型。

规则算法，则针对规则算法中的一个或多个判断逻辑，根据检测样本数据计算出对应的第二检测特征值，再将第二检测特征值依据判断逻辑进行评判。

步骤204、将所述第一输出向量和第二输出向量输入已训练的第二机器学习模型，确定所述待测对象的输出风险指数。

其中，第二机器学习模型也可以按需选择，可以为逻辑回归模型、神经网络模型等。较佳的，本发明实施例中利用逻辑回归模型作为第二机器学习模型。

步骤205、根据所述输出风险指数，确定所述待测对象的异常判定结果。

其中，若风险指数大于风险阈值，则表明风险较大，即待测对象出现了异常。此时，可以通过邮件、公司内部流程单据等方式通知到对应人员。另一方面，若风险指数小于或等于风险阈值，则表明待测对象正常。

对于传统的规则算法只有两种可能的输出结果，即输出结果为有风险，或者为无风险，即输出仅有0和1，无法量化规则算法的置信度。因此，本发明实施例在利用规则算法的同时引入机器学习算法，将两者融合在一起，紧密相连。为了适应于机器学习算法的输入和输出，需要对规则算法的输出进行转化和变形。本发明实施例中从规则算法中计算得出第二输出向量，第二输出向量包含至少一个输出标识。上述步骤203，将所述待测对象的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量，包括：

确定判定结果与输出标识的对应关系；

按照预定顺序将所有输出标识组成所述第二输出向量。

具体来说，本发明实施例中利用输出标识将判定结果数字化。由于规则算法中的判定结果一般存在有风险和无风险两种可能，因此，利用1和0将判定结果数字化，一般来说，若判定结果为有风险，则对应的输出标识为1；若判定结果为无风险，则对应的输出标识为0。另一方面，为了增加准确性，以及为了便于后续对规则算法进行优化，本发明实施例中并不是将规则算法的总的判断结果作为规则算法的规则输出结果，而是根据规则算法中每一个判断逻辑，确定一个规则输出结果，将所有规则输出结果结合，作为第二输出向量。

举例来说，规则算法中包含两条规则：“A+B>8”和“C|(D>(E-F))”。对应传统的规则算法来说，只要满足其中任一条规则，即判断该笔交易为风险交易。因此，传统的规则算法只会输出一个结果，1或者0。

本发明实施例中，规则算法按照预定顺序遍历规则中的所有判断逻辑，这个预定顺序可以为中序、前序、后序等。针对每一个判断逻辑生成一个判定结果，再根据判定结果与输出标识的对应关系，确定对应的输出标识。

任以上述规则“A+B>8”和“C|(D>(E-F))”为例进行说明。图3为上述规则的规则树示意图。如图3所示，每一个规则对应个一个规则树。其中，第一个规则树包含一个判断逻辑，第二个规则树包含三个判断逻辑，因此，该规则算法对应的第二输出向量d包含4个输出标识，记为[s₁,s₂,s₃,s₄]。图3中从左至右，第一个判断逻辑为判断A+B>8是否成立，对应两个判定结果，即成立或者不成立，若成立，则对应的输出标识s₁为1；若不成立，则输出标识s₁为0。第二个判断逻辑为待测对象的第二检测特征值中是否包含C，若是，则对应的输出标识s₂为1；若否，则对应的输出标识s₂为0。第三个判断逻辑为C|(D>(E-F))是否成立，若是，则对应的输出标识s₃为1；若否，则对应的输出标识s₃为0。第四个判断逻辑为D>(E-F)是否成立，若是，则对应的输出标识s₄为1；若否，则对应的输出标识s₄为0。将所有判定逻辑遍历后，得到最终的第二输出向量，第二输出向量中每一个元素均为1或者0。

本发明实施例中不仅对规则算法进行了适应性的改进，对于第一机器学习算法也根据第二机器学习算法输入的需求，进行了适应性改进。下面以第一机器学习算法为神经网络模型为例进行说明。

传统的神经网络模型输出的结果为风险指数，该风险指数y_t可以通过以下公式进行计算：

y_t＝σW_d(W_cReLU(W_bReLU(W_a·x+b_a)+b_b)+b_c)+b_d)……公式1

其中，x为待测对象对应于神经网络模型的第一检测特征值，b_a至b_d为对应于神经网络模型的偏置向量，W_a至W_d为神经网络模型的权值矩阵；σ为sigmoid函数，为一个定值；ReLU为激活函数。

本发明实施例中，为了满足第二机器学习算法的输入为向量的需求，只获取公式1中的j维输出向量，即第一输出向量c满足以下公式：

c＝σ(W_cReLU(W_bReLU(W_a·x+b_a)+b_b)+b_c)……公式2

其中，c为神经网络模型对应的第二输出向量。

对比公式1与公式2可以看出，公式1得出的是一个值，即风险指数，而公式2得出的是向量，即第二输出向量c。

本发明实施例中，将第一机器学习模型的输出以及规则算法的输出，作为第二机器学习模型的输入。通过第二机器学习模型将第一机器学习模型和规则算法结合，从而使机器学习模型和规则算法产生有效互补。下面以第二机器学习模型为逻辑回归模型为例进行介绍。

具体实施过程中，逻辑回归模型将神经网络模型的输出与规则算法的输出进行回归，得到对待测对象的风险的最终预测。一种可选的实施例中，逻辑回归模型利用以下公式计算输出风险指数：

y＝σ(W₀[c,d]+b₀)……公式3

其中，y为逻辑回归模型计算得出的输出风险指数；b₀为对应于逻辑回归模型的偏置向量；c为神经网络模型的第一输出向量；d为规则算法的第二输出向量；W₀为对应于逻辑回归模型的权重矩阵，其中包括i个权重值，权重值的个数等于第一输出向量中元素的个数与第二输出向量中元素个数之和。

上述公式3中，权重矩阵W₀中的每个权重参数，对应于一个逻辑回归模型的每个输入的权重。对于规则算法对应的第二输出向量而言，其中每一个输出标识s对应于一个权重参数w，权重参数w越高，表明该输出标识对应的判断逻辑的重要性越高，依据该判断逻辑进行风险判断的准确性越高。反之，若w越低或为负，则说明该判断逻辑效果较差，需要规则进行调整。

进一步地，本发明实施例中的第一机器学习模型可以包括多个不同的机器学习子模型，从而进一步增加了风险判断的准确性，且适合的场景更广，精确度更高。

由上述分析可知，逻辑回归模型中，对应于规则算法的权重参数，可以作为调整规则算法中判断逻辑的依据。进一步地，本发明实施例还包括：

获取规则算法中的所有判断逻辑；

具体实施过程中，逻辑回归模型中存储有计算过的每个规则算法对应的权重参数。需要对规则算法进行合理性评价或者进行优化时，用户通过前端用户界面，如客户端或者浏览器，发送分析请求，该分析请求中包含一个或者多个规则组成的规则集合。系统的规则辅助分析主控收到请求后解析规则集合，确定规则集合中的所有判断逻辑，确定每一个判断逻辑在逻辑回归模型中的权重参数。然后依据判断逻辑与其它判断逻辑之间的关系，以及判断逻辑对应的权重参数，确定判断逻辑的合理性。

图4示出了本发明实施例中需要优化的规则算法的规则树。规则辅助分析主控收到请求后解析规则集，加载规则树在逻辑回归模型中的权重参数；以每一个判断逻辑为元数据，进行规则树内分析，分析可优化的判断逻辑。如图4所示，该规则算法包含两个规则数，其中一个规则树包含一个或多个判断逻辑。以判断逻辑节点为元数据，进行规则树内分析，如图4中左侧的规则树，若w₁≤w₂，则建议将w₁对应节点剪枝，只保留右侧分支。又例如，还可以进行规则树间对比分析，分析相似结构节点的权重，如图4中两个规则树，w₄和w₈对应节点属于相似结构，如果w₄≤w₈，则建议采用w₈对应结构。

规则辅助分析主控还将当前批次元数据发送至历史规则分析模块。历史规则分析模块将从历史规则库中搜索与当前批次元数据相似的结构。对于一个批次的相似的历史元数据，首先选取一个或一组完全相同的历史元数据，以其为基准将该批次历史元数据的权重与当前批次元数据权重进行转换，使两者具有可对比性。然后分析当前批次元数据的可替换性。若对于某一个元数据，在历史规则库中有权重更大的相似结构，则建议替换该结构。将当前批次分析结果和历史批次分析结果发送至建议生成模块，生成可视化结果和描述性建议，返回前端界面。

进一步地，由于本发明实施例中包含了至少两个机器学习模型，针对这两个机器学习模型的训练过程，可以将一个或多个第一机器学习模型分别单独训练，最后将所有的输出向量以及规则算法的输出合在一起，用于训练第二机器学习模型。也可以将所有第一机器学习模型和第二机器学习模型合在一起，共同进行训练。下面以神经网络模型和逻辑归回模型为例进行介绍。

对于分开训练，神经网络模型利用以下方式进行训练：

获取历史时间段内的训练样本数据；

根据训练样本数据，选择训练对象对应于神经网络模型的第一训练特征，并确定第一训练特征对应的第一训练特征值；

将第一训练特征值输入初始神经网络模型，并根据得到的机器风险指数及训练对象的异常判定结果计算损失函数，当损失函数小于预设阈值时，确定对应的第一参数为神经网络模型对应的第一参数，得到已训练的神经网络模型。

逻辑回归模型利用以下方式进行训练：

从已训练的神经网络模型中获取训练对象的第一输出向量；

根据训练样本数据，选择训练对象对应于规则算法的第二训练特征，并确定第二训练特征对应的第二训练特征值；

将第二训练特征值输入规则算法中，得到训练对象的第二输出向量；

将第一输出向量和第二输出向量输入初始逻辑回归模型，并根据得到的输出风险指数及训练对象的异常判定结果计算损失函数，当损失函数小于预设阈值时，确定对应的第二参数为逻辑回归模型对应的第二参数，得到已训练的逻辑回归模型。

对于共同训练，神经网络模型和逻辑回归模型利用以下方式进行训练：

获取历史时间段内的训练样本数据；

将第一训练特征值输入初始神经网络模型，得到训练对象的第一输出向量；

将第一输出向量和第二输出向量输入初始逻辑回归模型，并根据得到的输出风险指数及训练对象的异常判定结果计算损失函数，当损失函数小于预设阈值时，确定对应的第一参数为神经网络模型对应的第一参数，得到已训练的神经网络模型，并确定对应的第二参数为逻辑回归模型对应的第二参数，得到已训练的逻辑回归模型。

为了更清楚地理解本发明，以具体实施例对上述流程进行详细描述。具体实施例第一机器学习模型为神经网络模型，第二机器学习模型为逻辑回归模型。图5示出了具体实施例中数据风险异常检测方法的流程示意图。如图5所示，数据风险异常检测方法的核心为双引擎模型，包括规则子引擎、深度子引擎、输出模块、规则辅助分析模块四部分，其中：

规则子引擎包含一组规则集，对于待测交易，遍历规则集中的所有规则，评估该笔交易的风险。如图5所示的两条规则，“A+B>8”和“C|(D>(E-F))”，引擎中序遍历规则树，将所有的判断逻辑节点的计算结果按序记录，作为规则子引擎的输出d＝[s₁,s₂,s₃,s₄]。

深度子引擎使用已训练的神经网络模型对待测交易的风险进行评估。对于待测交易，将历史特征和即时特征按需组合，进行One-Hot Encoding，再输入神经网络模型，输出向量c。

输出模块利用已训练的逻辑回归模型将规则子引擎和深度子引擎的输出进行回归，得到对该笔交易风险的最终预测。

此外，规则辅助分析模块接收前端指令对多条规则进行对比，辅助规则制定。分析单条规则内部多个判断逻辑节点的权重、分析多条规则间判断逻辑节点的权重、分析历史规则库中相似规则权重，生成可视化结果，给出对现有规则的改进建议。

本发明实施例还提供了一种数据异常检测装置，如图6所示，包括：

获取单元601，用于获取待测对象的检测样本数据；

处理单元602，用于根据所述检测样本数据，确定所述待测对象对应于第一机器学习模型的第一检测特征值，以及对应于规则算法的第二检测特征值，所述规则算法中包含至少一个判断逻辑；

计算单元603，用于将所述第一机器学习模型对应的第一检测特征值输入已训练的机器学习模型，得到所述待测对象的第一输出向量，并且将所述规则算法对应的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量；

输出单元604，用于将所述第一输出向量和第二输出向量输入已训练的第二机器学习模型，确定所述待测对象的输出风险指数；

判定单元605，用于根据所述输出风险指数，确定所述待测对象的异常判定结果。

确定判定结果与输出标识的对应关系；

按照预定顺序将所有输出标识组成所述第二输出向量。

一种可选的实施例中，还包括训练单元606，用于利用以下方式训练所述神经网络模型：

获取历史时间段内的训练样本数据；

一种可选的实施例中，所述训练单元606，还用于利用以下方式训练所述神经网络模型和所述逻辑回归模型：

获取历史时间段内的训练样本数据；

一种可选的实施例中，还包括分析单元607，用于：

获取规则算法中的所有判断逻辑；

基于相同的原理，本发明还提供一种电子设备，如图7所示，包括：

包括处理器701、存储器702、收发机703、总线接口704，其中处理器701、存储器702与收发机703之间通过总线接口704连接；

所述处理器701，用于读取所述存储器702中的程序，执行下列方法：

获取待测对象的检测样本数据；

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种数据异常检测方法，其特征在于，包括：

获取待测对象的检测样本数据；

2.如权利要求1所述的方法，其特征在于，所述第二输出向量包含至少一个输出标识；所述将所述待测对象的第二检测特征值输入所述规则算法中，得到所述待测对象的第二输出向量，包括：

确定判定结果与输出标识的对应关系；

按照预定顺序将所有输出标识组成所述第二输出向量。

3.如权利要求1所述的方法，其特征在于，所述第一机器学习模型为神经网络模型，所述第二机器学习模型为逻辑回归模型。

4.如权利要求3所述的方法，其特征在于，所述神经网络模型利用以下方式进行训练：

获取历史时间段内的训练样本数据；

所述逻辑回归模型利用以下方式进行训练：

5.如权利要求3所述的方法，其特征在于，所述神经网络模型和所述逻辑回归模型利用以下方式进行训练：

获取历史时间段内的训练样本数据；

6.如权利要求1所述的方法，其特征在于，所述第一机器学习模型包括多个不同的机器学习子模型。

7.如权利要求1至6任一项所述的方法，其特征在于，还包括：

获取规则算法中的所有判断逻辑；

8.一种数据异常检测装置，其特征在于，包括：

获取单元，用于获取待测对象的检测样本数据；

9.如权利要求8所述的装置，其特征在于，所述第二输出向量包含至少一个输出标识；所述计算单元，具体用于：

确定判定结果与输出标识的对应关系；

按照预定顺序将所有输出标识组成所述第二输出向量。

10.如权利要求8所述的装置，其特征在于，所述第一机器学习模型为神经网络模型，所述第二机器学习模型为逻辑回归模型。

11.如权利要求10所述的装置，其特征在于，还包括训练单元，用于利用以下方式训练所述神经网络模型：

获取历史时间段内的训练样本数据；

12.如权利要求10所述的装置，其特征在于，所述训练单元，还用于利用以下方式训练所述神经网络模型和所述逻辑回归模型：

获取历史时间段内的训练样本数据；

13.如权利要求8所述的装置，其特征在于，所述第一机器学习模型包括多个不同的机器学习子模型。

14.如权利要求8至13任一项所述的装置，其特征在于，还包括分析单元，用于：

获取规则算法中的所有判断逻辑；

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一所述的方法。

16.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1～7任一所述的方法。