CN111127062B

CN111127062B - 一种基于空间搜索算法的群体欺诈识别方法及装置

Info

Publication number: CN111127062B
Application number: CN201811294968.4A
Authority: CN
Inventors: 陈雪; 彭文新
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2023-08-18
Anticipated expiration: 2038-11-01
Also published as: CN111127062A

Abstract

本发明实施例公开了一种基于空间搜索算法的群体欺诈识别方法及装置，方法包括：提取欺诈号码与非欺诈号码参与营销活动时的位置信息，根据位置信息建立二维平面，并将二维平面划分为若干个网格；根据DPC算法确定若干个网格中的中心网格，以中心网格为搜索起点进行搜索，计算中心网格的相邻网格的特征相似性，并根据空间搜索算法进行聚类，得到聚类结果；根据所述聚类结果确定待处理号码是否为群体欺诈号码。通过地理位置将用户投射到二维平面中，划分网格，快速搜索与高欺诈概率网格相似度较高的网格，发现群体欺诈号码，直接从群体行为特征计算欺诈风险，能高效并且准确识别出欺诈用户群体，发现重大的欺诈群体风险，帮助企业有效识别欺诈行为。

Description

一种基于空间搜索算法的群体欺诈识别方法及装置

技术领域

本发明实施例涉及通信技术领域，具体涉及一种基于空间搜索算法的群体欺诈识别方法及装置。

背景技术

随着互联网发展与资本不断投入，电子商务、互联网金融、新媒体、共享经济等相关领域公司为拉新和激活用户活跃增加用户价值，针对新老用户推出各种营销活动，包括：免费体验、优惠折扣甚至返现等。一般营销活动仅允许单个用户(号码)获得有限次数的活动参与资格，为了获得更多活动参与资格，有专门的团伙有组织有计划地进行批量参与。

专业化的欺诈团队通过掌握大量号码进行账户注册，批量参与营销活动，制造虚假交易，集中每个号码获得的优惠，积少成多，获取经济利益。如某互联网外卖平台推出新用户注册优惠减免15元的活动，某欺诈团伙大量注册新账户，与商家勾结，进行虚假交易，套取和变现每个账户下的15元优惠。群体欺诈行为挤兑真正的用户，影响用户体验，同时为企业带来重大损失，影响企业健康发展。目前对于欺诈用户的识别方案一般为：一、针对单个用户提取相关行为指标，二、数据预处理和数据探索，找出对欺诈行为有影响作用的聪明变量，三，利用数据挖掘方法(如决策树、逻辑回归、朴素贝叶斯算法等)进行建模与制定业务规则，对用户进行判别分类得到欺诈名单。

现有技术的欺诈用户识别方法存在以下缺点：一方面，专业欺诈为团伙行为，针对单个用户的识别难以发现群体欺诈行为，用户与用户之间相互独立，没有建立群体欺诈的概念；另一方面，基于业务特征的模型与规则，忽略欺诈用户在地理位置上的直接联系，影响预测的准确性与覆盖度，无法发现重大的欺诈群体风险，帮助企业有效识别欺诈行为。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种基于空间搜索算法的群体欺诈识别方法及装置。

第一方面，本发明实施例提出一种基于空间搜索算法的群体欺诈识别方法，包括：

提取欺诈号码与非欺诈号码参与营销活动时的位置信息，根据所述位置信息建立二维平面，并将所述二维平面划分为若干个网格；

根据密度聚类DPC算法确定所述若干个网格中的中心网格，以所述中心网格为搜索起点进行搜索，计算所述中心网格的相邻网格的特征相似性，并根据空间搜索算法进行聚类，得到聚类结果；

根据所述聚类结果确定待处理号码是否为群体欺诈号码。

可选地，所述根据密度聚类DPC算法确定所述若干个网格中的中心网格，具体包括：

统计每个网格中欺诈号码的数量，将所述数量作为当前网格的网格密度值；

计算每个网格距离最近的且网格密度值比当前网格的网格密度值高的邻网格的距离值；

根据每个网格的密度值和距离值生成二维决策图表，选择所述二维决策图表中密度值高于预设密度值且与邻网格的距离值大于距离预设值的目标网格，将获得的所有目标网格作为中心网格。

可选地，所述以所述中心网格为搜索起点进行搜索，具体包括：

以所述中心网格为起点，搜索附近最近的8个相邻网格，计算所述中心网格与各相邻网格的加权相似性；

选取加权相似性大于阈值的目标相邻网格与所述中心网格进行连接；

将所述目标相邻网格作为中心网格继续进行搜索，当网格拓展区域不再产生连接时停止搜索。

可选地，所述根据所述聚类结果确定待处理号码是否为群体欺诈号码，具体包括：

当第一新号码的位置信息落入所述聚类结果中的非高风险欺诈群体区域，则确定所述第一新号码为非群体欺诈号码；

当第二新号码的位置信息落入所述聚类结果中的高风险欺诈群体区域，则计算所述第二新号码与落入的网格的相似性，若所述相似性大于等于相似性阈值，则确定所述第二新号码为群体欺诈号码。

第二方面，本发明实施例还提出一种基于空间搜索算法的群体欺诈识别装置，包括：

网格划分模块，用于提取欺诈号码与非欺诈号码参与营销活动时的位置信息，根据所述位置信息建立二维平面，并将所述二维平面划分为若干个网格；

空间搜索模块，用于根据密度聚类DPC算法确定所述若干个网格中的中心网格，以所述中心网格为搜索起点进行搜索，计算所述中心网格的相邻网格的特征相似性，并根据空间搜索算法进行聚类，得到聚类结果；

欺诈识别模块，用于根据所述聚类结果确定待处理号码是否为群体欺诈号码。

可选地，所述空间搜索模块具体用于：

可选地，所述欺诈识别模块具体用于：

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过用户的地理位置将用户投射到二维平面中，划分网格，快速搜索与高欺诈概率网格相似度较高的网格，发现群体欺诈号码，直接从群体行为特征计算欺诈风险，能高效并且准确识别出欺诈用户群体，发现重大的欺诈群体风险，帮助企业有效识别欺诈行为。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种基于空间搜索算法的群体欺诈识别方法的流程示意图；

图2为本发明另一实施例提供的一种基于空间搜索算法的群体欺诈识别方法的流程示意图；

图3为本发明一实施例提供的基于DPC算法生成的二维决策图表示意图；

图4为本发明一实施例提供的搜索中心网格的过程示意图；

图5为本发明一实施例提供的欺诈群体识别装置的协作流程示意图；

图6为本发明一实施例提供的一种基于空间搜索算法的群体欺诈识别装置的结构示意图；

图7为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种基于空间搜索算法的群体欺诈识别方法的流程示意图，包括：

S101、提取欺诈号码与非欺诈号码参与营销活动时的位置信息，根据所述位置信息建立二维平面，并将所述二维平面划分为若干个网格。

具体来说，首先获取某次互联网营销活动中经审核发现的所有欺诈号码作为正样本，抽样非欺诈号码作为负样本，记录所有号码参与活动时所在基站位置的经纬度，同时提取号码的其他维度特征，如基础信息、通话情况、流量使用行为、终端信息等特征。然后根据经纬度构建二维平面，以赤道与本初子午线的交点作为原点，纬度为横轴，经度为纵轴，设定东经为正，西经为负；北纬为正，南纬为负。在以经纬度组成的二维平面中，号码的坐标为号码的纬度与经度，参见图2。从原点出发，以1km为单位对平面中的横纵轴进行划分，得到各个1km×1km的网格，这样号码便落入到网格单元中，在同一个网格单元中的所有号码可看作一个整体。

S102、根据密度聚类DPC算法确定所述若干个网格中的中心网格，以所述中心网格为搜索起点进行搜索，计算所述中心网格的相邻网格的特征相似性，并根据空间搜索算法进行聚类，得到聚类结果。

具体地，根据用户的地理位置将用户投射到二维平面并划分网格后，快速搜索与高欺诈概率网格相似性较高的网格，发现不同欺诈群体。空间搜索算法在聚类过程中考虑了用户地理位置的重要特征，并且直接从群体行为特征计算欺诈风险，能高效并且准确识别出欺诈用户群体。

S103、根据所述聚类结果确定待处理号码是否为群体欺诈号码。

具体地，首先提取欺诈号码与非欺诈号码参与营销活动时位置经纬度，根据经纬度建立一个二维平面，并对这个二维平面划分为一个个网格；然后根据DPC算法找到中心网格，以中心网格作为搜索起点，计算相邻网格特征相似性，进行不断聚类合并直到停止；最后基于空间搜索算法的聚类结果确定待处理号码是否为群体欺诈号码。

本实施例通过用户的地理位置将用户投射到二维平面中，划分网格，快速搜索与高欺诈概率网格相似度较高的网格，发现群体欺诈号码，直接从群体行为特征计算欺诈风险，能高效并且准确识别出欺诈用户群体，发现重大的欺诈群体风险，帮助企业有效识别欺诈行为。

进一步地，在上述方法实施例的基础上，S102中所述根据密度聚类DPC算法确定所述若干个网格中的中心网格，具体包括：

S1021、统计每个网格中欺诈号码的数量，将所述数量作为当前网格的网格密度值。

S1022、计算每个网格距离最近的且网格密度值比当前网格的网格密度值高的邻网格的距离值。

S1023、根据每个网格的密度值和距离值生成二维决策图表，选择所述二维决策图表中密度值高于预设密度值且与邻网格的距离值大于距离预设值的目标网格，将获得的所有目标网格作为中心网格。

具体地，欺诈号码聚集越多的位置，代表处于该位置的号码具有极高欺诈风险。以欺诈号码数量较多的网格作为中心网格，向其附近搜索相似的网格寻找出有可能欺诈的群体。为找到准确的中心网格搜索起点，以网格中的欺诈号码数量作为网格密度值，利用DPC算法思想找出高密度的网格。DPC算法能快速搜索和发现样本密度峰值，自动发现数据集样本的中心,实现任意形状样本的高效聚类。其基本原理是：确定局部密度高于相邻点密度且距离其他局部密度较高点相对较远的点作为类簇中心，然后连接低密度点到相近的高密度点，直到连接到类簇中心。

根据DPC自动确定类簇中心的原理，寻找中心网格的具体步骤如下：

第一步，统计每个网格中欺诈号码的数量，定义该数量作为网格密度值d；

第二步，计算每个网格距离最近的更高网格密度值的距离值r；

第三步，由每个网格的密度值r与距离值d生成二维决策图表，如图3所示，出现在图表右上角的网格代表较高的密度且离其他更高密度的网格较远，则这些网格为中心网格。

进一步地，在上述方法实施例的基础上，S102中所述以所述中心网格为搜索起点进行搜索，具体包括：

S1024、以所述中心网格为起点，搜索附近最近的8个相邻网格，计算所述中心网格与各相邻网格的加权相似性；

S1025、选取加权相似性大于阈值的目标相邻网格与所述中心网格进行连接；

S1026、将所述目标相邻网格作为中心网格继续进行搜索，当网格拓展区域不再产生连接时停止搜索。

具体地，从地理位置上看，中心网格的号码密度值较高，与其相近相似的网格存在较高的欺诈风险。以中心网格作为起点，搜索附近的相近且相似网格，并不断地进行合并搜索。

搜索中心网格过程如图4所示，具体步骤包括：

(1)以中心网格为起点，搜索附近最近的8个网格，即中心网格的相邻网格。每个相邻网格离中心网格的距离均相同，设定相近性指标sim，用以衡量相邻网格与中心网格的加权相似性。指标的计算公式为：

Sim(c,i)＝w₁×d_i+w₂×s_c,i 公式1

其中，w₁、w₂为权重值，d_i为第i个网格经数据标准化后的密度值，s_c,i为中心网格与第i个相邻网格的相似性。

欺诈号码除了在地理空间中的相近性外，在其他行为也表现较为相似，利用该特点建立中心网格与相邻网格的相似性计算公式。计算过程如下：

第一步：对网格所有的行为特征与密度值进行标准化，为减少计算复杂度，可将行为特征进行降维后再输入到网格中。对数据进行标准化计算公式为：

其中U_kj(k＝1,2,3,…,m)为原始数据中第j个指标的第k个记录，m为总用户人数，V_kj为标准化后的数据，取值范围在[0,1]之间。

第二步：统计第i个网格中所有号码标准化后各特征的均值avg_i、最大值max_i、最小值min_i与标准差σ_i；设每个网格的均含有j个特征，则对于每个网格有4×j个子特征数量。

第三步：计算中心网格与相邻网格的余弦距离：

给定w₁、w₂权重值，可计算出中心网格与相邻网格的加权相似性Sim(c,i)。

(2)设定加权相似性阈值T，选取加权相似性大于阈值T的相邻网格与中心网格进行连接。

(3)拓展相邻网格继续进行搜索，中心网格与其连接的相邻网格为中心网格区域，重复(1)(2)连接网格。

(4)当网格拓展区域不再产生连接时则停止搜索。最后连接而成得到的不同网格群体区域即代表不同的欺诈群体。

需要说明的是，为提高后续号码判定效率，需剔除风险较低的网格区域，不被连接的区域则代表该区域的欺诈风险较低，可将这些网格群体剔除。

进一步地，在上述方法实施例的基础上，S103具体包括：

S1031、当第一新号码的位置信息落入所述聚类结果中的非高风险欺诈群体区域，则确定所述第一新号码为非群体欺诈号码。

S1032、当第二新号码的位置信息落入所述聚类结果中的高风险欺诈群体区域，则计算所述第二新号码与落入的网格的相似性，若所述相似性大于等于相似性阈值，则确定所述第二新号码为群体欺诈号码。

具体地，设最后相互不连通的网格群体有n个，则有n个高风险欺诈群体区域。在模型实际应用中，新号码根据地理位置信息进入该二维平面，记新号码为h。当号码落入到非高风险欺诈群体区域，则号码判定为非欺诈号码；当号码落入到高风险欺诈群体区域，则使用公式4计算号码与落入网格的相似性s。

设号码h所在的高风险欺诈网格群体各特征均值为avg’_i，共有j个特征，则号码h与所在网格的相似度为：

设定相似性阈值为t，判定号码h是否为欺诈群体的规则为：

具体地，在群体欺诈识别过程中，通过欺诈群体识别装置的号码抽取模块、数据提取模块、欺诈群体识别计算模块和输出欺诈用户群体号码模块进行识别，参见图5，具体识别过程为：首先需要抽取用户号码作为待识别对象；其次，数据抽取模块提取号码的历史活动数据中欺诈群体识别模型计算需要的特征变量信息和参加营销活动时的地理位置；然后，欺诈群体识别计算模块利用基于空间搜索的欺诈群体识别算法预测是否是欺诈群体用户；最后输出欺诈用户号码以及其所在欺诈群体编码。

其中，号码抽取模块用于用户参与活动的手机号码作为待识别对象；数据提取抽取模块用于提取手机号码参与活动时的基站位置与号码历史行为数据中模型所需变量信息；欺诈群体识别模块是通过号码的地理空间位置信息与号码行为特征基于空间搜索的欺诈群体识别模型的计算；欺诈群体识别结果输出模块用于输出被预测为欺诈号码及其所在欺诈群体信息。

对比于传统的欺诈用户识别方式，本实施例所能带来的效益对比如下表1所示。

表1效益对比表

本实施例基于用户地理位置与历史行为特征数据，通过空间搜索算法的群体欺诈识别模型，能够快速有效地识别欺诈用户群体。相比于传统的欺诈识别方法，有以下优点：从群体性欺诈行为特点出发，改变单一用户判别原则，提高欺诈行为识别效率与准确性，有效帮助企业抵御专业性群体欺诈行为风险；同时考虑了地理位置信息重要性，构建二维平面网格图，建立欺诈号码间、欺诈号码群体间的地理与行为上的联系。

图6示出了本实施例提供的一种基于空间搜索算法的群体欺诈识别装置的结构示意图，所述装置包括：网格划分模块601、空间搜索模块602和欺诈识别模块603，其中：

所述网格划分模块601用于提取欺诈号码与非欺诈号码参与营销活动时的位置信息，根据所述位置信息建立二维平面，并将所述二维平面划分为若干个网格；

所述空间搜索模块602用于根据密度聚类DPC算法确定所述若干个网格中的中心网格，以所述中心网格为搜索起点进行搜索，计算所述中心网格的相邻网格的特征相似性，并根据空间搜索算法进行聚类，得到聚类结果；

所述欺诈识别模块603用于根据所述聚类结果确定待处理号码是否为群体欺诈号码。

具体地，所述网格划分模块601提取欺诈号码与非欺诈号码参与营销活动时的位置信息，根据所述位置信息建立二维平面，并将所述二维平面划分为若干个网格；所述空间搜索模块602根据密度聚类DPC算法确定所述若干个网格中的中心网格，以所述中心网格为搜索起点进行搜索，计算所述中心网格的相邻网格的特征相似性，并根据空间搜索算法进行聚类，得到聚类结果；所述欺诈识别模块603根据所述聚类结果确定待处理号码是否为群体欺诈号码。

进一步地，在上述装置实施例的基础上，所述空间搜索模块602具体用于：

进一步地，在上述装置实施例的基础上，所述欺诈识别模块603具体用于：

本实施例所述的基于空间搜索算法的群体欺诈识别装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图7，所述电子设备，包括：处理器(processor)701、存储器(memory)702和总线703；

其中，

所述处理器701和存储器702通过所述总线703完成相互间的通信；

所述处理器701用于调用所述存储器702中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于空间搜索算法的群体欺诈识别方法，其特征在于，包括：

根据所述聚类结果确定待处理号码是否为群体欺诈号码；

所述以所述中心网格为搜索起点进行搜索，具体包括：

将所述目标相邻网格作为中心网格继续进行搜索，当网格拓展区域不再产生连接时停止搜索；

所述加权相似性的计算公式为：Sim(c,i)=w₁×d_i+ w₂×s_c,i；

其中，w₁、w₂为权重值，d_i为第i个网格经数据标准化后的密度值，s_c,i为中心网格与第i个相邻网格的相似性；

所述中心网格与第i个相邻网格的相似性计算过程为：

对网格所有的行为特征与密度值进行标准化，对数据进行标准化计算公式为：；

其中，U_kj(k=1,2,3,…,m)为原始数据中第j个指标的第k个记录，m为总用户人数，V_kj为标准化后的数据；

统计第i个网格中所有号码标准化后各特征的均值、最大值、最小值与标准差，得到第i个网格中每个行为特征对应的四个子特征；

根据所述中心网格与第i个相邻网格的子特征计算所述中心网格与第i个相邻网格之间的余弦距离作为所述中心网格与第i个相邻网格的相似性。

2.根据权利要求1所述的方法，其特征在于，所述根据密度聚类DPC算法确定所述若干个网格中的中心网格，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述聚类结果确定待处理号码是否为群体欺诈号码，具体包括：

4.一种基于空间搜索算法的群体欺诈识别装置，其特征在于，包括：

欺诈识别模块，用于根据所述聚类结果确定待处理号码是否为群体欺诈号码；

所述空间搜索模块具体用于：

所述加权相似性的计算公式为：Sim(c,i)=w₁×d_i+ w₂×s_c,i；

所述中心网格与第i个相邻网格的相似性计算过程为：

5.根据权利要求4所述的装置，其特征在于，所述空间搜索模块具体用于：

6.根据权利要求4所述的装置，其特征在于，所述欺诈识别模块具体用于：

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至3任一所述的方法。