CN111581253A

CN111581253A - 基于反欺诈模型的实时检测方法及系统

Info

Publication number: CN111581253A
Application number: CN202010369271.XA
Authority: CN
Inventors: 金家芳; 李宁; 李萌; 卜书迪; 匡文豪
Original assignee: Vision Credit Financial Technology Co ltd
Current assignee: Vision Credit Financial Technology Co ltd
Priority date: 2020-05-04
Filing date: 2020-05-04
Publication date: 2020-08-25

Abstract

本发明公开了一种基于反欺诈模型的实时检测方法及系统，其中方法包括如下步骤：包括如下步骤：S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤；S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤；S3用于根据所述用户评价结果对用户进行反欺诈检测并输出检测结果的步骤。这样，本发明所提供的一种基于反欺诈模型的实时检测方法及系统，以实现低延迟，多维度高并发的大数据实时反欺诈方法及系统，基于事件时间进行计算保证高并发计算的准确性，基于分布式架构保证对大规模数据高并发以及高可用的要求，通过时间窗口的控制来保证低延迟的要求。

Description

基于反欺诈模型的实时检测方法及系统

技术领域

本发明涉及计算机软件技术领域，尤其涉及基于反欺诈模型的实时检测方法及系统。

背景技术

随着生活环境及消费环境的日益改善，随之而来的是借贷中出现欺诈事件，金融科技公司通常借助用户个人的手机，征信数据来综合评估用户的信用和还款能力。这个过程中，某些中介机构会搜集大量的手机号并进行“养号”工作，即在一年周期里让这些号形成正常的消费、通讯记录，目的是将这些号“培养”得非常健康，然后卖给有欺诈意向的用户。现有技术中，在金融业务系统中很难预防或甄别可能的欺诈行为，在大数据场景中，数据分析与处理的时间长，不能对大规模数据做到实时计算，不利于用户在出现欺诈行为时能够及时中止交易，容易造成不必要的损失。

发明内容

本发明的目的是提供一种基于反欺诈模型的实时检测方法及系统。

本发明提供了一种基于反欺诈模型的实时检测方法，包括如下步骤：S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤；S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤；S3用于根据所述用户评价结果对用户进行反欺诈检测并输出检测结果的步骤。

所述S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤：S11用于通过数据生成器将上游数据进行组装为键值对结构并推送至缓存器进行存储的步骤；S12用于通过缓存器对存储的数据进行分片处理，并建立对应数据的偏移量的步骤；S13用于将缓存器中的数据以偏移量为顺序，以键值为分区逻辑，发布至数据队列中的步骤；S14用于通过数据队列对数据接口进行订阅连接的步骤。所述S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤包括：S21用于通过驱动指令操作对系统进行启动的步骤；S22用于将反欺诈模型进行加载的步骤；S23用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的步骤；S24用于通过工作指令操作负责节点状态和运行执行程序的步骤；S25用于通过执行指令操作对数据分别进行收集和计算任务的步骤。所述S22用于将反欺诈模型进行加载的步骤包括：S221用于通过协调指令操作检测分布式集群各个节点的系统状态的步骤；S222用于根据加载好的反欺诈模型将计算任务分解为若干个计算阶段任务的步骤。所述S23用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的步骤包括：S231用于将每个计算阶段的任务通过不同的执行指令操作并行执行的步骤；S232用于将每个计算阶段进行串联执行并进行资源分配和作业调度的步骤。所述S25用于通过执行指令操作对数据分别进行收集和计算任务的步骤包括：S251用于通过工作指令操作开启一执行指令操作，从消息中间件中以预设的时间窗口为单位读取数据，并写入数据缓存区的步骤；S252用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的步骤。所述S252用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的步骤包括：S2521用于当一个计算阶段完成时，返回成功信号给工作指令操作，工作指令操作返回成功信号至协调指令操作的步骤；S2522用于当协调指令操作收到一个计算阶段所有任务的成功信号时，给各个工作指令操作分发下一计算阶段的任务，当所有计算阶段全部完成后返回成功信号给工作指令操作的步骤；S2523用于当工作指令操作收到所有数据处理器的成功信号后，清除该批次在数据缓存区的缓存，否则一直保留直至数据总量达到设定的阈值，则开始将缓存区的数据写入磁盘的步骤。

本发明提供了一种基于反欺诈模型的实时检测系统，包括：用于对用户信息数据进行多维数据汇总并生成多维数据队列的模块；用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的模块；用于根据所述用户评价结果对用户进行反欺诈检测并输出检测结果的模块。

所述用于对用户信息数据进行多维数据汇总并生成多维数据队列的模块：用于通过数据生成器将上游数据进行组装为键值对结构并推送至缓存器进行存储的子模块；用于通过缓存器对存储的数据进行分片处理，并建立对应数据的偏移量的子模块；用于将缓存器中的数据以偏移量为顺序，以键值为分区逻辑，发布至数据队列中的子模块；用于通过数据队列对数据接口进行订阅连接的子模块。

所述用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的模块包括：用于通过驱动指令操作对系统进行启动的子模块；用于将反欺诈模型进行加载的子模块；用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的子模块；用于通过工作指令操作负责节点状态和运行执行程序的子模块；用于通过执行指令操作对数据分别进行收集和计算任务的子模块。所述用于将反欺诈模型进行加载的子模块包括：用于通过协调指令操作检测分布式集群各个节点的系统状态的单元；用于根据加载好的反欺诈模型将计算任务分解为若干个计算阶段任务的单元。所述用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的子模块包括：用于将每个计算阶段的任务通过不同的执行指令操作并行执行的单元；用于将每个计算阶段进行串联执行并进行资源分配和作业调度的单元。所述用于通过执行指令操作对数据分别进行收集和计算任务的子模块包括：用于通过工作指令操作开启一执行指令操作，从消息中间件中以预设的时间窗口为单位读取数据，并写入数据缓存区的单元；用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的单元。所述用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的单元包括：用于当一个计算阶段完成时，返回成功信号给工作指令操作，工作指令操作返回成功信号至协调指令操作的子单元；用于当协调指令操作收到一个计算阶段所有任务的成功信号时，给各个工作指令操作分发下一计算阶段的任务，当所有计算阶段全部完成后返回成功信号给工作指令操作的子单元；用于当工作指令操作收到所有数据处理器的成功信号后，清除该批次在数据缓存区的缓存，否则一直保留直至数据总量达到设定的阈值，则开始将缓存区的数据写入磁盘的子单元。

本发明所提供的一种基于反欺诈模型的实时检测方法及系统，以实现低延迟，多维度高并发的大数据实时反欺诈方法及系统，基于事件时间进行计算保证高并发计算的准确性，基于分布式架构保证对大规模数据高并发以及高可用的要求，通过时间窗口的控制来保证低延迟的要求。

本发明产生的有益效果：一是低延时，由于在大数据场景中，数据分析与处理对低延时的需求越来越高，越是大量数据需要计算，所需时间越长。二是超大规模实时计算，大数据场景中，需要对大规模数据做到实时计算，因此对超大规模数据的实时计算需求越来越高，确保用户在出现欺诈行为时能够及时中止交易。三是多维度、高并发。随着同一业务场景下用户规模的扩增，用户产生的数据也形成爆发性增长。在金融场景下，亟需一套完整系统可以实现按照数据各个维度分析得出风险评估报告，根据用户特性挖掘用户潜在需求等；系统获取用户产生数据最简单有效的方法就是流水式数据，单个数据包里包含了发生时间点的各个维度的所有信息量，这种场景的特性之一就是数据高并发，因此该方法和系统在进行数据分析时具有高并发性。

附图说明

图1为本发明实施例一所提供的基于反欺诈模型的实时检测方法的步骤示意图；

图2为本发明实施例一所述S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤示意图；

图3为本发明实施例一所述S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本实施例提供一种基于反欺诈模型的实时检测方法，包括如下步骤：

S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤；

S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤；

S3用于根据所述用户评价结果对用户进行反欺诈检测并输出检测结果的步骤。

本领域技术人员可以理解，多维数据是将数据存放在一个n维数组中，包括：一个或多个源数据和一个或多个参考数据，所述源数据包括所述数据处理系统所要处理的数据元素，所述参考数据包括所述数据处理系统在所述源数据集中的数据元素的处理中所参考的参考值。所述参考数据集包括与同所述数据处理系统相关的业务实体相关联的数据，并且所述源数据集包括与所述业务实体的客户相关联的数据。所述用户信息数据包括用户个人信息、征信数据等。

本发明提供了一种基于反欺诈模型的实时检测方法，以实现低延迟，多维度高并发的大数据实时反欺诈方法，基于事件时间进行计算保证高并发计算的准确性，基于分布式架构保证对大规模数据高并发以及高可用的要求，通过时间窗口的控制来保证低延迟的要求。本发明共分为两个子系统，分别为多维数据队列系统和数据流式计算系统，其中多维数据队列系统负责多维度数据的汇集和发布订阅管理，数据流式计算系统通过订阅多维数据队列系统实现反欺诈模型的计算工作。

如图2所示，所述S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤：

S11用于通过数据生成器将上游数据进行组装为键值对结构并推送至缓存器进行存储的步骤；

S12用于通过缓存器对存储的数据进行分片处理，并建立对应数据的偏移量的步骤；

S13用于将缓存器中的数据以偏移量为顺序，以键值为分区逻辑，发布至数据队列中的步骤；

S14用于通过数据队列对数据接口进行订阅连接的步骤。

本领域技术人员可以理解，上游数据可以是被输入到数据处理系统中的数据、输入数据、参考数据或者可以是已经历数据处理系统的处理的数据以及中间数据等。python语言中通过对字典类型实现映射。由于字典元素“键值对”中键是值的索引，因此，可以直接利用键值对关系索引元素。字典是存储可变数量键值对的数据结构，键和值可以是任意数据类型，通过键索引值，并可以通过键修改值。分片是数据库设计中的一个概念，正如其名称所暗示的那样，分片涉及从较大的部分创建较小的部分。在数据库环境中，分片会导致在分类帐中创建较小的分区。因此，这些分区称为分片。在分片中，分区是水平完成而不是垂直分割。分片可能包含所有其他分片中的数据；但是，这些分区旨在包含只能通过它访问的数据，这意味着每个分片中的数据对于它是唯一的。要访问数据并使用它，必须对包含所述数据的特定分片进行排队。在数据库体系结构中使用分片，因为它可以提高数据库或搜索引擎的性能。设计工具执行此操作是因为它减少了分类帐的索引大小。因此，分类帐可以更快地提供搜索结果。此外，由于不同的分片可以存储在不同的服务器上，因此该工具适用于需要单独存储大型数据集的大型企业。在计算机语言中的偏移量定义为：把存储单元的实际地址与其所在段的段地址之间的距离称为段内偏移，也称为“有效地址或偏移量”。

数据生成器用于将上游数据进行组装为键值对结构，推送到缓存器中。数据缓存器用于存储数据生成器发过来的数据。缓存器采用的是分布式架构，以此提高数据的吞吐量和增强扩展性。缓存器会对存储的数据进行分片，并建立存储多副本机制，确保数据的可靠性。缓存器每收到数据生成器推送过来的数据都会建立对应数据的偏移量。数据队列是将数据缓存器中的数据以偏移量为顺序，以键值为分区逻辑，发布到数据队列中，并以分片为单位散落在多台物理机磁盘上，以保证数据的可靠性。订阅接口是从数据队列中订阅数据的接口，由于数据间的偏移量是连续存储，订阅时可以顺序读取。每次订阅时可存储当前订阅的偏移量，以便下次订阅时可以从上一次订阅后保存偏移量的下一条数据开始。

如图3所示，所述S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤包括：

S21用于通过驱动指令操作对系统进行启动的步骤；

S22用于将反欺诈模型进行加载的步骤；

S23用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的步骤；

S24用于通过工作指令操作负责节点状态和运行执行程序的步骤；

S25用于通过执行指令操作对数据分别进行收集和计算任务的步骤。

本领域技术人员可以理解，驱动指令操作用于系统的入口以及反欺诈模型的加载；协调驱动指令操作用于反欺诈模型的计算任务的调度以及资源分配；工作驱动指令操作用于负责节点状态和运行执行程序；执行驱动指令操作共分为两类，数据收集指令操作和数据计算指令操作，其中数据收集指令操作订阅多维数据队列系统，并将数据缓存；由数据计算指令操作执行反欺诈模型的计算任务。

进一步，所述S22用于将反欺诈模型进行加载的步骤包括：

S221用于通过协调指令操作检测分布式集群各个节点的系统状态的步骤；

S222用于根据加载好的反欺诈模型将计算任务分解为若干个计算阶段任务的步骤。

进一步，所述S23用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的步骤包括：

S231用于将每个计算阶段的任务通过不同的执行指令操作并行执行的步骤；

S232用于将每个计算阶段进行串联执行并进行资源分配和作业调度的步骤。

进一步，所述S25用于通过执行指令操作对数据分别进行收集和计算任务的步骤包括：

S251用于通过工作指令操作开启一执行指令操作，从消息中间件中以预设的时间窗口为单位读取数据，并写入数据缓存区的步骤；

S252用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的步骤。

进一步，所述S252用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的步骤包括：

S2521用于当一个计算阶段完成时，返回成功信号给工作指令操作，工作指令操作返回成功信号至协调指令操作的步骤；

S2522用于当协调指令操作收到一个计算阶段所有任务的成功信号时，给各个工作指令操作分发下一计算阶段的任务，当所有计算阶段全部完成后返回成功信号给工作指令操作的步骤；

S2523用于当工作指令操作收到所有数据处理器的成功信号后，清除该批次在数据缓存区的缓存，否则一直保留直至数据总量达到设定的阈值，则开始将缓存区的数据写入磁盘的步骤。

本领域技术人员可以理解，数据流式计算系统的启动流程如下：系统随主节点上的驱动单元的启动而启动，随即开启协调单元，协调单元实时检测分布式集群各个节点的系统状态，并且根据加载好的反欺诈模型将计算任务分解为若干个计算阶段的任务，其中每个计算阶段的任务由不同的执行单元并行执行，每个计算阶段串行执行，而后据此进行资源分配和作业调度，在各健康节点开启工作单元，工作单元与协调单元定时向执行单元发送计算节点状态，有其中之一的工作单元开启一个执行单元作为数据收集单元从消息中间件中以预设的时间窗口为单位读取数据，写入数据缓存区，同时开启若干个执行单元作为数据计算单元从数据缓存区中读取数据，并进行计算，当一个计算阶段完成时，返回成功信号给工作单元，工作单元随即返回成功信号给协调单元，当协调单元收到一个计算阶段所有任务的成功信号时开始给各个工作单元分发下一计算阶段的任务，当所有计算阶段全部完成后返回成功信号给工作单元，工作单元收到所有数据处理器的成功信号后清除该批次在数据缓存区的缓存，否则一直保留直到数据总量达到设定的阈值，开始将缓存区的数据写入磁盘。

实施例二

本实施例提供一种基于反欺诈模型的实时检测系统，包括：

用于对用户信息数据进行多维数据汇总并生成多维数据队列的模块；

用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的模块；

用于根据所述用户评价结果对用户进行反欺诈检测并输出检测结果的模块。

本发明提供了一种基于反欺诈模型的实时检测系统，以实现低延迟，多维度高并发的大数据实时反欺诈方法，基于事件时间进行计算保证高并发计算的准确性，基于分布式架构保证对大规模数据高并发以及高可用的要求，通过时间窗口的控制来保证低延迟的要求。本发明共分为两个子系统，分别为多维数据队列系统和数据流式计算系统，其中多维数据队列系统负责多维度数据的汇集和发布订阅管理，数据流式计算系统通过订阅多维数据队列系统实现反欺诈模型的计算工作。

进一步，所述用于对用户信息数据进行多维数据汇总并生成多维数据队列的模块：

用于通过数据生成器将上游数据进行组装为键值对结构并推送至缓存器进行存储的子模块；

用于通过缓存器对存储的数据进行分片处理，并建立对应数据的偏移量的子模块；

用于将缓存器中的数据以偏移量为顺序，以键值为分区逻辑，发布至数据队列中的子模块；

用于通过数据队列对数据接口进行订阅连接的子模块。

进一步，所述用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的模块包括：

用于通过驱动指令操作对系统进行启动的子模块；

用于将反欺诈模型进行加载的子模块；

用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的子模块；

用于通过工作指令操作负责节点状态和运行执行程序的子模块；

用于通过执行指令操作对数据分别进行收集和计算任务的子模块。

进一步，所述用于将反欺诈模型进行加载的子模块包括：

用于通过协调指令操作检测分布式集群各个节点的系统状态的单元；

用于根据加载好的反欺诈模型将计算任务分解为若干个计算阶段任务的单元。

进一步，所述用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的子模块包括：

用于将每个计算阶段的任务通过不同的执行指令操作并行执行的单元；

用于将每个计算阶段进行串联执行并进行资源分配和作业调度的单元。

进一步，所述用于通过执行指令操作对数据分别进行收集和计算任务的子模块包括：

用于通过工作指令操作开启一执行指令操作，从消息中间件中以预设的时间窗口为单位读取数据，并写入数据缓存区的单元；

用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的单元。

进一步，所述用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的单元包括：

用于当一个计算阶段完成时，返回成功信号给工作指令操作，工作指令操作返回成功信号至协调指令操作的子单元；

用于当协调指令操作收到一个计算阶段所有任务的成功信号时，给各个工作指令操作分发下一计算阶段的任务，当所有计算阶段全部完成后返回成功信号给工作指令操作的子单元；

用于当工作指令操作收到所有数据处理器的成功信号后，清除该批次在数据缓存区的缓存，否则一直保留直至数据总量达到设定的阈值，则开始将缓存区的数据写入磁盘的子单元。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于反欺诈模型的实时检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于反欺诈模型的实时检测方法，其特征在于，所述S1用于对用户信息数据进行多维数据汇总并生成多维数据队列的步骤：

S14用于通过数据队列对数据接口进行订阅连接的步骤。

3.如权利要求2所述的基于反欺诈模型的实时检测方法，其特征在于，所述S2用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的步骤包括：

S21用于通过驱动指令操作对系统进行启动的步骤；

S22用于将反欺诈模型进行加载的步骤；

4.如权利要求3所述的基于反欺诈模型的实时检测方法，其特征在于，所述S22用于将反欺诈模型进行加载的步骤包括：

5.如权利要求4所述的基于反欺诈模型的实时检测方法，其特征在于，所述S23用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的步骤包括：

6.如权利要求5所述的基于反欺诈模型的实时检测方法，其特征在于，所述S25用于通过执行指令操作对数据分别进行收集和计算任务的步骤包括：

7.如权利要求6所述的基于反欺诈模型的实时检测方法，其特征在于，所述S252用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的步骤包括：

8.一种基于反欺诈模型的实时检测系统，其特征在于，包括：

9.如权利要求8所述的基于反欺诈模型的实时检测系统，其特征在于，所述用于对用户信息数据进行多维数据汇总并生成多维数据队列的模块：

用于通过数据队列对数据接口进行订阅连接的子模块。

10.如权利要求9所述的基于反欺诈模型的实时检测系统，其特征在于，所述用于通过多维数据队列进行反欺诈模型计算并生成用户评价结果的模块包括：

用于通过驱动指令操作对系统进行启动的子模块；

用于将反欺诈模型进行加载的子模块；

11.如权利要求10所述的基于反欺诈模型的实时检测系统，其特征在于，所述用于将反欺诈模型进行加载的子模块包括：

12.如权利要求11所述的基于反欺诈模型的实时检测系统，其特征在于，所述用于通过协调指令操作对反欺诈模型的计算任务进行调度及资源分配的子模块包括：

13.如权利要求12所述的基于反欺诈模型的实时检测系统，其特征在于，所述用于通过执行指令操作对数据分别进行收集和计算任务的子模块包括：

14.如权利要求13所述的基于反欺诈模型的实时检测系统，其特征在于，所述用于开启多个执行指令操作，从数据缓存区中读取数据，并进行数据计算的单元包括：