CN110009486A

CN110009486A - 一种欺诈检测的方法、系统、设备及计算机可读存储介质

Info

Publication number: CN110009486A
Application number: CN201910280616.1A
Authority: CN
Inventors: 林颜双; 魏志强
Original assignee: LIANLIANYINTONG ELECTRONIC PAYMENT CO Ltd
Current assignee: LIANLIANYINTONG ELECTRONIC PAYMENT CO Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-07-12
Anticipated expiration: 2039-04-09
Also published as: CN110009486B

Abstract

本申请公开了一种欺诈检测的方法，包括：确定共享设备网络中各节点的不同类型的邻居节点集合；利用word2vec模型对各邻居节点集合进行训练，得到各节点的预设维度词向量集合；利用预设维度词向量集合确定各节点的嵌入向量，并利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型。本申请通过对共享设备网络中的各邻居节点集合进行训练以确定各节点的嵌入向量，然后利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型，在对待检测信息进行检测时提高了欺诈检测的正确率。本申请同时还提供了一种欺诈检测的系统、设备及计算机可读存储介质，具有上述有益效果。

Description

一种欺诈检测的方法、系统、设备及计算机可读存储介质

技术领域

本申请涉及欺诈检测领域，特别涉及一种欺诈检测的方法、系统、设备及计算机可读存储介质。

背景技术

随着互联网金融的快速发展，伴随而来的是互联网欺诈及信贷风险发生率的上升。据统计数据显示，近年来我国消费金融行业资产不良率呈不断上升趋势，中国互联网欺诈风险已在全球排名前三，网络犯罪每年给全球带来高达4450亿美元的经济损失，日益复杂并向不同行业渗透。

互联网金融风险包含信用风险和操作风险，信用风险即客户在发起借款请求时即无意还款。其中信用风险中欺诈类居高，消费金融的坏账损失超过50％来源于欺诈。

为了规避借贷中的欺诈行为，需要对用户个人信息进行欺诈检测，然而现有的欺诈检测模型正确率较低，在欺诈检测任务中表现不佳，不能准确的检测出用户是否存在欺诈行为。

因此，如何提高欺诈检测模型的正确率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种欺诈检测的方法、系统、设备及计算机可读存储介质，用于提高欺诈检测模型的正确率。

为解决上述技术问题，本申请提供一种欺诈检测的方法，该方法包括：

根据输入的用户关联信息建立共享设备网络，并确定所述共享设备网络中各所述节点的不同类型的邻居节点集合；其中，所述共享设备网络包括每一个节点的特征向量；

利用word2vec模型对各所述邻居节点集合进行训练，得到各所述节点的预设维度词向量集合；

利用所述预设维度词向量集合确定各所述节点的嵌入向量，并利用Lightgbm模型对各所述嵌入向量及各所述节点的特征向量进行训练，得到第一欺诈检测模型；

利用所述第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果。

可选的，在利用所述第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果之后，还包括：

计算各所述邻居节点集合的特征向量的平均值；

根据各所述平均值确定各所述节点的特征更新值；

利用LSTM模型对各所述节点的特征更新值进行训练，得到第二欺诈检测模型；

利用所述第二欺诈检测模型对所述待检测数据进行欺诈检测，得到第二欺诈检测结果；

根据所述第一欺诈检测结果及所述第二欺诈检测结果确定所述待检测数据的最终检测结果。

可选的，所述根据输入的用户关联信息建立共享设备网络，并确定所述共享设备网络中各所述节点的不同类型的邻居节点集合，包括：

将所述用户关联信息进行网络化处理，构建共享设备网络G＝{E，V，F}；

利用广度优先算法计算各所述节点的不同类型的邻居节点集合

其中，E为不同类型边的集合，V为图中各所述节点的集合，F为各所述节点对应的特征向量，N_i为第i种邻居节点集合，为邻居节点集合中的第k个类型的邻居节点。

可选的，所述利用word2vec模型对各所述邻居节点集合进行训练，得到各所述节点的预设维度词向量集合，包括：

接收输入的词向量维度d；

利用所述word2vec模型根据所述邻居节点集合计算对应的d维词嵌入向量集合

其中，为邻居节点j对应的d维词嵌入向量，k为所述邻居节点的总数。

可选的，利用所述预设维度词向量集合确定各所述节点的嵌入向量，并利用Lightgbm模型对各所述嵌入向量及各所述节点的特征向量，得到第一欺诈检测模型，包括：

根据公式计算所述第i种类型的邻居节点集合的嵌入向量；

将所述嵌入向量与各所述节点的特征向量进行拼接，得到各所述节点最终特征向量

将所述最终特征向量X输入所述Lightgbm模型进行训练，得到所述第一欺诈检测模型；

其中，F_i为第i种类型的特征向量，r为邻居节点的类型总数。

本申请还提供一种欺诈检测的系统，该系统包括：

网络建立模块，用于根据输入的用户关联信息建立共享设备网络，并确定所述共享设备网络中各所述节点的不同类型的邻居节点集合；其中，所述共享设备网络包括每一个节点的特征向量；

集合训练模块，用于利用word2vec模型对各所述邻居节点集合进行训练，得到各所述节点的预设维度词向量集合；

第一模型确定模块，用于利用所述预设维度词向量集合确定各所述节点的嵌入向量，并利用Lightgbm模型对各所述嵌入向量及各所述节点的特征向量进行训练，得到第一欺诈检测模型；

第一欺诈检测模块，用于利用所述第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果。

可选的，该系统还包括：

计算模块，用于计算各所述邻居节点集合的特征向量的平均值；

特征更新值确定模块，用于根据各所述平均值确定各所述节点的特征更新值；

第二模型确定模块，用于利用LSTM模型对各所述节点的特征更新值进行训练，得到第二欺诈检测模型；

第二欺诈检测模块，用于利用所述第二欺诈检测模型对所述待检测数据进行欺诈检测，得到第二欺诈检测结果；

最终检测模块，用于根据所述第一欺诈检测结果及所述第二欺诈检测结果确定所述待检测数据的最终检测结果。

可选的，所述网络建立模块包括：

构建子模块，用于将所述用户关联信息进行网络化处理，构建共享设备网络G＝{E，V，F}；

第一计算子模块，用于利用广度优先算法计算各所述节点的不同类型的邻居节点集合

本申请还提供一种欺诈检测设备，该欺诈检测设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述欺诈检测的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述欺诈检测的方法的步骤。

本申请所提供欺诈检测的方法，包括：根据输入的用户关联信息建立共享设备网络，并确定共享设备网络中各节点的不同类型的邻居节点集合；利用word2vec模型对各邻居节点集合进行训练，得到各节点的预设维度词向量集合；利用预设维度词向量集合确定各节点的嵌入向量，并利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型；利用第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果。

本申请所提供的技术方案，通过建立共享设备网络，并对共享设备网络中的各邻居节点集合进行训练以确定各节点的嵌入向量，然后利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型，使得得到的第一欺诈检测模型整合了共享设备网络中蕴含的用户特征信息，进而在对待检测信息进行检测时提高了欺诈检测的正确率。本申请同时还提供了一种欺诈检测的系统、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种欺诈检测的方法的流程图；

图2为本申请实施例所提供的另一种欺诈检测的方法的流程图；

图3为本申请实施例所提供的一种欺诈检测的系统的结构图；

图4为本申请实施例所提供的另一种欺诈检测的系统的结构图；

图5为本申请实施例所提供的一种欺诈检测设备的结构图。

具体实施方式

本申请的核心是提供一种欺诈检测的方法、系统、设备及计算机可读存储介质，用于提高欺诈检测模型的正确率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种欺诈检测的方法的流程图。

其具体包括如下步骤：

S101：根据输入的用户关联信息建立共享设备网络，并确定共享设备网络中各节点的不同类型的邻居节点集合；

这里提到的不同类型的邻居节点集合，其具体可以包括共享手机、共享电脑等共享设备的不同类型；

这里提到的用户关联信息包括共享IMEI、共用设备等，该共享设备网络包括每一个节点的特征向量；

在如今的大数据时代，我们不仅可以从数据中提取到用户的各类相关特征，并且能够提取用户之间的某些关联特征，如用户之间共用同一设备，用户设备之间具有相同的IMEI号。诸如此类的关系特征，使得我们能够以一种信息网络的形式建构用户之间的关系，进而得到共享设备网络。通过共享设备网络，使得我们不仅在利用用户基本特征的基础上，能够从网络中获得关于用户更加丰富的信息，如用户在共享设备网络中对应节点的度、用户的邻居节点等，对每个用户的邻居节点，本申请通过利用异构信息网络中图嵌入的方法，将用户的邻居节点映射成一个特定的向量，进而令得到的第一欺诈检测模型中融合共享设备网络中的用户信息，以提高欺诈检测模型的准确度。

可选的，这里提到的根据输入的用户关联信息建立共享设备网络，并确定共享设备网络中各节点的不同类型的邻居节点集合，其具体可以包括如下步骤：

将用户关联信息进行网络化处理，构建共享设备网络G＝{E，V，F}；

利用广度优先算法计算各节点的不同类型的邻居节点集合

其中，E为不同类型边的集合，V为图中各节点的集合，F为各节点对应的特征向量，N_i为第i种邻居节点集合，为邻居节点集合中的第k个类型的邻居节点；

这里提到的利用广度优先算法的优点在于，广度优先算法更能够保持节点的局部关系，能够使学习到的词嵌入向量质量更好。

S102：利用word2vec模型对各邻居节点集合进行训练，得到各节点的预设维度词向量集合；

这里提到的word2vec模型是用来产生词向量的相关模型，word2vec模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系；

word2vec可以根据给定的语料库，通过优化后的训练模型快速有效地将一个词语表达成向量形式，使得当前节点的不同类型的邻居节点集合能够以嵌入向量的形式添加进欺诈检测模型中，使得得到的第一欺诈检测模型中融合有共享设备网络中的用户信息。

可选的，这里提到的利用word2vec模型对各邻居节点集合进行训练，得到各节点的预设维度词向量集合，其具体可以为：

接收输入的词向量维度d；

利用word2vec模型根据邻居节点集合计算对应的d维词嵌入向量集合

其中，为邻居节点j对应的d维词嵌入向量，k为邻居节点的总数。

S103：利用预设维度词向量集合确定各节点的嵌入向量，并利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型；

现有技术中仅仅利用Lightgbm模型对各节点的特征向量进行训练，得到的欺诈检测模型准确率较低，故本申请利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，以提高准确率；

可选的，步骤S103具体可以通过如下步骤进行实现：

根据公式计算第i种类型的邻居节点集合的嵌入向量；

将嵌入向量与各节点的特征向量进行拼接，得到各节点最终特征向量

将最终特征向量X输入Lightgbm模型进行训练，得到第一欺诈检测模型；

S104：利用第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果。

优选的，在得到第一欺诈检测结果之后，还可以输出相应的提示信息，以便用户及时获取到该第一欺诈检测结果。

基于上述技术方案，本申请所提供的一种欺诈检测的方法，通过建立共享设备网络，并对共享设备网络中的各邻居节点集合进行训练以确定各节点的嵌入向量，然后利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型，使得得到的第一欺诈检测模型整合了共享设备网络中蕴含的用户特征信息，进而在对待检测信息进行检测时提高了欺诈检测的正确率。

基于上述实施例，为进一步提高欺诈检测任务的准确率，在步骤S104之后，还可以包括如图2所示的步骤，下面结合图2进行说明。

请参考图2，图2为本申请实施例所提供的另一种欺诈检测的方法的流程图。

其具体包括以下步骤：

S201：计算各邻居节点集合的特征向量的平均值；

以第i种邻居节点集合为例，根据其特征向量可得平均值为如此，由r种关系即可得到r个平均值。

S202：根据各平均值确定各节点的特征更新值；

在得到每个节点的r类邻居节点的平均特征之后，将其组成一个(r+1)×n大小的矩阵，并将该矩阵作为节点i的特征。

S203：利用LSTM模型对各节点的特征更新值进行训练，得到第二欺诈检测模型；

S204：利用第二欺诈检测模型对待检测数据进行欺诈检测，得到第二欺诈检测结果；

S205：根据第一欺诈检测结果及第二欺诈检测结果确定待检测数据的最终检测结果。

例如，可以取第一欺诈检测结果与第二欺诈检测结果的平均值作为该待检测数据的最终检测结果，也可以根据预设的权重计算第一欺诈检测结果与第二欺诈检测结果的加权平均值，并将该加权平均值作为该待检测数据的最终检测结果，本申请对此不作具体限定。

本申请实施例通过利用LSTM模型对各节点的特征更新值进行训练，得到第二欺诈检测模型，再根据得到的第二欺诈检测结果与第一欺诈检测结果确定待检测数据的最终检测结果，使得得到的最终检测结果更为准确。

请参考图3，图3为本申请实施例所提供的一种欺诈检测的系统的结构图。

该系统可以包括：

网络建立模块100，用于根据输入的用户关联信息建立共享设备网络，并确定共享设备网络中各节点的不同类型的邻居节点集合；其中，共享设备网络包括每一个节点的特征向量；

集合训练模块200，用于利用word2vec模型对各邻居节点集合进行训练，得到各节点的预设维度词向量集合；

第一模型确定模块300，用于利用预设维度词向量集合确定各节点的嵌入向量，并利用Lightgbm模型对各嵌入向量及各节点的特征向量进行训练，得到第一欺诈检测模型；

第一欺诈检测模块400，用于利用第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果。

请参考图4，图4为本申请实施例所提供的另一种欺诈检测的系统的结构图。

该系统还可以包括：

计算模块，用于计算各邻居节点集合的特征向量的平均值；

特征更新值确定模块，用于根据各平均值确定各节点的特征更新值；

第二模型确定模块，用于利用LSTM模型对各节点的特征更新值进行训练，得到第二欺诈检测模型；

第二欺诈检测模块，用于利用第二欺诈检测模型对待检测数据进行欺诈检测，得到第二欺诈检测结果；

最终检测模块，用于根据第一欺诈检测结果及第二欺诈检测结果确定待检测数据的最终检测结果。

该网络建立模块100具体可以包括：

构建子模块，用于将用户关联信息进行网络化处理，构建共享设备网络G＝{E，V，F}；

第一计算子模块，用于利用广度优先算法计算各节点的不同类型的邻居节点集合

其中，E为不同类型边的集合，V为图中各节点的集合，F为各节点对应的特征向量，N_i为第i种邻居节点集合，为邻居节点集合中的第k个类型的邻居节点。

该集合训练模块200具体可以包括：

接收子模块，用于接收输入的词向量维度d；

训练子模块，用于利用word2vec模型根据邻居节点集合计算对应的d维词嵌入向量集合

该第一模型确定模块300具体可以包括：

第二计算子模块，用于根据公式计算第i种类型的邻居节点集合的嵌入向量；

拼接子模块，用于将嵌入向量与各节点的特征向量进行拼接，得到各节点最终特征向量

输入子模块，用于将最终特征向量X输入Lightgbm模型进行训练，得到第一欺诈检测模型；

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图5，图5为本申请实施例所提供的一种欺诈检测设备的结构图。

该欺诈检测设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在欺诈检测设备600上执行存储介质630中的一系列指令操作。

欺诈检测设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图2所描述的欺诈检测的方法中的步骤由欺诈检测设备基于该图5所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种欺诈检测的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种欺诈检测的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在利用所述第一欺诈检测模型对输入的待检测数据进行欺诈检测，得到第一欺诈检测结果之后，还包括：

计算各所述邻居节点集合的特征向量的平均值；

根据各所述平均值确定各所述节点的特征更新值；

3.根据权利要求1或2所述的方法，其特征在于，所述根据输入的用户关联信息建立共享设备网络，并确定所述共享设备网络中各所述节点的不同类型的邻居节点集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述利用word2vec模型对各所述邻居节点集合进行训练，得到各所述节点的预设维度词向量集合，包括：

接收输入的词向量维度d；

5.根据权利要求4所述的方法，其特征在于，利用所述预设维度词向量集合确定各所述节点的嵌入向量，并利用Lightgbm模型对各所述嵌入向量及各所述节点的特征向量，得到第一欺诈检测模型，包括：

根据公式计算所述第i种类型的邻居节点集合的嵌入向量；

6.一种欺诈检测的系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，还包括：

8.根据权利要求6或7所述的系统，其特征在于，所述网络建立模块包括：

9.一种欺诈检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述欺诈检测的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述欺诈检测的方法的步骤。