CN105930430A

CN105930430A - 一种基于非累积属性的实时欺诈检测方法及装置

Info

Publication number: CN105930430A
Application number: CN201610245288.8A
Authority: CN
Inventors: 牛琨; 高志鹏; 万能; 焦海珍; 邓楠洁; 赵旸; 贾冠楠; 陈成
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2016-09-07
Anticipated expiration: 2036-04-19
Also published as: CN105930430B

Abstract

本发明提供了一种基于非累积属性的实时欺诈检测方法及装置，用于电信信息安全技术领域。本发明装置包括属性设计模块、用户分箱模块、用户离散化模块、评分计算模块以及欺诈判决模块；属性设计模块中选择非累积的属性表征用户的通话习惯，用户分箱模块采用等深分箱，获取被检测用户在每个属性上的离散化结果，评分计算模块计算用户间的曼哈顿距离的最小值，欺诈判决模块根据阈值判断是否发生欺诈。本发明方法用非累积的属性刻画用户的行为特征，根据其通话习惯的相似性进行欺诈识别，采用等深分箱避免高值用户对正态分布偏度的影响，使用曼哈顿距离进行评分计算。本发明计算复杂度低，实现了海量数据实时运算，可在欺诈早期进行识别告警。

Description

一种基于非累积属性的实时欺诈检测方法及装置

技术领域

本发明涉及电信信息安全技术领域，特别涉及一种基于非累积属性的实时欺诈检测方法及装置。

背景技术

随着经济发展和社会进步，经济欺诈行为愈演愈烈，造成了涉及多个行业的众多组织或个人的重大损失。相应地，从理论研究到业务实践，欺诈行为的监控与识别引起越来越多的关注。在电信行业，由于国际业务结算周期较长，极少量后付费用户产生了一些欺诈行为，如复制USIM卡盗打、拨打高结算方向套取国际结算费、非法轮询拨测等，电信运营商迫切需要一种能实时检测出通信网络上欺诈行为的软件工具，其技术核心就是实时欺诈检测方法。该类方法能在用户实施欺诈行为的初期及时反应，自动地向网络管理员告警以便网络管理员处理，如切断用户网络接入能力、暂时冻结其USIM卡功能等，有效挽回高额损失。

但是，欺诈用户的有效识别是一个关键的技术难题，现有的方法主要有规则集、孤立点检测及分类预测三大类。

基于规则集的筛选方法即根据历史数据中的欺诈用户特点定义一系列规则的组合，当某个待检测用户满足规则时，系统主动告警供管理员进行处理。例如，单手机号卡月度累计话费超过10万元，则判定为欺诈用户。

孤立点检测技术则是利用数据挖掘中的智能模型，找出总体中的特殊用户样本，系统再将这些特殊用户提交给管理员。例如，采用基于密度的孤立点检测算法DBOM算法，数据集中的每个对象的异常程度用局部异常因子LOF来衡量，即将与数据集中P％的实例距离大于L的实例判定为孤立点，其中P和L为参数。

分类预测采用数据挖掘中的分类技术，通过建立决策树等分类器模型对新样本进行分类判决。例如，按照决策树的IF-THEN规则，将通话次数大于1000次且月累计话费大于1万元的用户判定为欺诈用户。

对于基于规则集的筛选方法，所有规则来自于业务经验，参数不容易设置，条件苛刻则漏报率高，条件松懈则误报率高；此外，该类方法没有自我学习的能力，当新的欺诈行为模式产生时，由于规则集不能覆盖，会出现明显的漏报情况。

对于孤立点检测技术，虽然可以有效识别出总体中的特殊样本，但特殊样本并非一定是欺诈用户，误报率较高；另外，孤立点检测算法需要实时计算用户之间的距离，计算复杂度高导致计算量巨大，系统容量有限，无法满足电信行业海量数据的实际应用要求。

对于数据挖掘中的分类模型，当分类器完成训练后，模型应用的对象是整个周期的累积数据；但是，欺诈行为往往集中在短时间如数小时内，等累计数据达到分类器IF-THEN规则所需要的条件，欺诈行为往往已经实施完成，有效性不高。

综上，现有的三种主要方法均存在着一些局限性，对于流数据形式的实时欺诈检测应用场景表现出了明显的不适应问题。

发明内容

为了解决流数据环境下的实时欺诈检测问题，本发明提出了一种以基于非累积属性的智能评分算法为核心的实时欺诈检测方法及装置。本发明方法通过学习欺诈用户的消费行为特征，与普通用户的行为特征进行对比，从而有效识别用户的欺诈行为，提高了欺诈检测的科学性和实用性。

本发明提供的基于非累积属性的实时欺诈检测方法，实现步骤如下：

步骤1，导入原始数据，原始数据包括被检测用户集和已知欺诈用户集，被检测用户和欺诈用户的数据结构完全一致，根据唯一的用户编号以及欺诈标识属性加以区分；

步骤2，确定所要分析的业务目标；

步骤3，设计属性，选择非累积的属性表征用户的通话习惯，从行为特征的角度上对被检测用户和欺诈用户进行相似性比较；

步骤4，数据预处理，将原始数据中逻辑错误的数据删除；

步骤5，采用分箱进行离散化，将用户行为转化为特征向量；所述的分箱为等深分箱，对所有属性，将被检测用户按升序排列后得出分箱临界值；对所有被检测用户和欺诈用户，都根据分箱临界值，映射得到用户在每一属性上的分箱号，分箱号即组成用户的特征向量；

步骤6，计算被检测用户的特征向量与所有欺诈用户的特征向量之间曼哈顿距离的最小值，作为被检测用户的欺诈评分；

步骤7，当被检测用户的欺诈评分低于设定的最小门限时，则认为该用户存在较高的欺诈可能性，触发告警；否则不进行告警。

本发明提供的基于非累积属性的实时欺诈检测装置，包括属性设计模块、用户分箱模块、用户离散化模块、评分计算模块以及欺诈判决模块。属性设计模块，用于选择非累积的属性表征用户的通话习惯，从行为特征的角度对被检测用户与欺诈用户进行相似性比较。用户分箱模块，采用等深分箱，将被检测用户在每一属性下，按属性值升序排列后得出分箱临界值。用户离散化模块，根据分箱临界值，将所有被检测用户和欺诈用户在每一属性上映射到相应的分箱内，最后由多个属性的分箱号组成用户的特征向量。评分计算模块，用于计算被检测用户的特征向量与所有欺诈用户的特征向量之间曼哈顿距离的最小值，作为被检测用户的欺诈评分。欺诈判决模块，用于判断被检测用户的欺诈评分是否低于设定的最小门限，若是则认为该用户存在较高的欺诈可能性，触发告警；否则不进行告警。

本发明的实时欺诈检测方法及装置，相对现有技术，其优点与积极效果在于：

(1)本发明主要优点为选择非累积的属性参与运算，很快即可捕捉用户的通话习惯，从行为特征角度分析被检测用户与欺诈用户的相似性。传统方法往往从累积型的使用量角度分析，模型精准度不高，误报次数多，对欺诈行为也不够敏感。

(2)本发明用等深分箱代替传统等宽分箱对用户进行离散化，避免了数据在低值区域用户的集中性导致分布不均衡的情况，具有更合理的区分度。

(3)现有规则集、孤立点检测及分类预测这三类主要的欺诈检测方法中，与本发明最接近的现有技术为分类预测技术。与该技术相比，本发明因计算复杂度低，可实现海量数据实时运算，可在欺诈早期进行识别告警。而分类模型需要形成了一系列的IF-THEN规则，计算量远远高于本发明。

附图说明

图1是本发明的基于非累积属性的实时欺诈检测方法的整体流程示意图；

图2是进行分箱的流程示意图；

图3是进行离散化的流程示意图；

图4是评分计算流程示意图；

图5是进行欺诈评分判决的示意图；

图6是本发明的基于非累积属性的实时欺诈检测装置的组成框图。

具体实施方式

以下通过结合附图，对本发明的优选实施方式进行描述，在这里描述的优选实施方式并不是限制性的说明，本领域技术人员可以根据本发明的原理，对本发明做出各种修改、改进而不会脱离随附权利要求所限定保护范围。

本发明针对实时欺诈检测应用场景，尤其适合以流数据为输入形式的情况，提供了一种基于非累积属性的实时欺诈检测方法及装置。本发明的实时欺诈检测方法/装置，是将被检测用户在非累积型属性上的概率分布特征与欺诈用户在对应属性上的概率分布特征对比，如果特征相似程度较高，则提出告警。本发明的创新点在于：第一，用非累积的属性刻画用户的行为特征，根据其通话习惯的相似性进行欺诈识别；第二，采用等深分箱而非传统的等宽分箱，有效避免了低值区域用户集中对正态分布偏度的影响；第三，使用曼哈顿距离而非常用的欧氏距离，提升了计算效率的同时降低了属性间的关联性对评分造成的系统性风险。另外，本发明所实现系统开发、部署所需要的软、硬件平台无特殊限制和需求。

本发明的基于非累积属性的实时欺诈检测方法，如图1所示，包括步骤1～步骤7。

步骤1，导入原始数据。将被检测用户及欺诈用户的原始数据文件导入。

导入的原始数据包括被检测用户集和已知欺诈用户集，已知欺诈用户是标识为欺诈的用户。被检测用户和已知欺诈用户的数据结构完全一致，根据唯一的用户编号以及欺诈标识属性加以区分。

本发明实施例中针对通讯业务，因此导入的是用户通信业务详单。由于详单构成的流数据是实时欺诈识别的自然形态，因此，原始数据导入为详单形式，包括欺诈用户的特征也通过其具体详单来表示。

步骤2，业务设定，用于确定所要分析调用的业务目标，不同业务涉及的属性一般具有差异。

业务目标的设定为接下来的属性设计步骤提供基础。

步骤3，属性设计，选择非累积的属性，并设计各属性的计算逻辑。

属性设计是基于具体的业务目标来选择属性的过程，另外还包括设计衍生属性、设计计算逻辑等任务。所选择的属性为非累积的属性，例如平均单次通话时长、平均单次通话间隔等，以反应用户的通话习惯，根据被检测用户与欺诈用户在行为特征上的相似性进行判别。对于累计型的总通话次数、总通话时长、通话总费用等属性，在本方法中不作为评分的输入。

通过分类汇总操作，可以利用详单数据形成一些动态变化的基础属性，如累计时长，累计次数等，再通过基础属性衍生出其他属性，如平均时长为累计时长与累计次数之商。在此基础上，选择非累积的属性参与下一步运算，即可反映用户通话行为特征习惯的属性，例如平均单次通话时长，通话时长波动等。

步骤4，数据预处理，目的是删除错误的数据，比如通话时长为负的详单，得到清洁的数据，以正确地进行分类汇总。

数据预处理是指对原数据进行操作以更方便地参与运算，包括对数据的抽取转换、过滤和清洗等。此过程主要通过关系型数据库或基于映射-规约(Map-Reduce)框架的大数据平台实现。

步骤5，离散化，设置分箱临界值，将用户行为表示为特征向量。

分箱是经典的离散化手段之一。一般的离散化任务都采用等宽分箱方法，即将极差均匀等分，每个分箱的值域宽度相等，假设数据集的极差为L，则其K分箱的临界值为而本方法采用等深分箱，即将实例数均匀等分的方法，每个分箱实例数相等，设数据集有N个实例，则记录顺序为的实例的值作为K分箱临界值。由于实际数据普遍存在正态分布左偏的问题，等深分箱有效地避免了由于数据的集中所带来的分布不均衡问题，具有较高的区分度。

本发明进行等深分箱，即每个分箱的被检测用户数相同。如图2所示，设有N个被检测用户，每个用户有M个属性，计算K分箱临界值序列a，有其中N、M和K均为正整数。对每一个属性，按属性值将所有被检测用户升序排列，取序列a对应位置上的值作为分箱的临界值。每个属性单独离散化，在离散化过程中各个属性无关；同时，分箱和用户数有一定的关系。用户数越大，则分箱参数K需要越大，否则区分度降低，模型不敏感；但是也不能过大，分的太细会造成过拟合。每个属性都有K+1个分箱临界值，M个属性共有M×(K+1)个分箱临界值，形成一个临界值矩阵。此处仅被检测用户参与分箱门限的计算，已知欺诈用户不参与。

本步骤中，将被检测用户和欺诈用户使用同一标准进行离散化，如图3所示，将被检测用户和欺诈用户都进行离散化。对于每个用户，获取用户在每个属性上的分箱号。离散化后，每个被检测用户和欺诈用户都具有一个长度为M的特征向量。

步骤6，评分，计算被检测用户的特征向量与所有欺诈用户特征向量之间曼哈顿距离的最小值，即可用来衡量被检测用户与欺诈用户之间的最相似程度，从而进行欺诈识别。

在分箱将原始属性值离散化以后，计算任意被检测用户与所有欺诈用户之间的曼哈顿距离，并求出其最小值作为该用户的欺诈评分。相对于传统的欧氏距离，曼哈顿距离不仅降低了属性间相关性带来的影响，而且仅进行分箱号的整数加减运算，大大减小了计算复杂度。

图4示意性示出了本发明评分计算流程。经过离散化过程，被检测用户和欺诈用户均可用一组长为M的特征向量进行表示，则用户评分定义为与所有欺诈用户特征向量之间曼哈顿距离的最小值。对于任意一组被检测用户与欺诈用户，计算两者在每个属性上的分箱号差值，作为距离，再将每个属性上的距离值累加得到两个用户之间的曼哈顿距离。

对于任意两个被检测用户u＝{u₁,u₂,…,u_M}和欺诈用户v＝{v₁,v₂,…,v_M}，其曼哈顿距离d(u,v)计算公式为：

d(u,v)＝|v₁-u₁|+|v₂-u₂|+…+|v_M-u_M| (1)

为方便比较，所有评分要进行标准化处理，本发明实施例中将评分范围映射在0～100分内，也可采用其他分制。标准化的公式为公式中，max、min分别表示所有评分值中的最大值和最小值，p表示原始评分值，p′表示标准化后的评分值。

步骤7，判决，若用户评分低于门限，则告警。

当欺诈评分低于判决门限，则认定该用户存在较高的欺诈可能性，触发系统告警；否则按照详单到达情况继续更新评分值。其中，判决门限是重要的参数，可以通过实际结果来调整优化。

图5示意性示出了本发明的判决流程。用户的欺诈评分随着话单的不断增加实时变化但并非单调增加。当某个被检测用户的实时评分低于判决门限T，则表示该用户与某个欺诈用户过于相似，判定为欺诈用户，告警处理。系统管理员采用人工或自动的方式进行确认。所有判决都需要进行记录，为下一周期调整优化模型提供输入。

相应地，本发明提供了一种基于非累积属性的实时欺诈检测装置，主要包括属性设计模块、用户离散化模块、评分计算模块以及欺诈判决模块，如图6所示。此外，还可包括数据导入和预处理模块、业务设定模块、记录模块等。

数据导入和预处理模块用于导入被检测用户和已知欺诈用户的原始数据，并对原始数据进行清理，将其中错误的数据删除，以方便进一步的统计计算。

业务设定模块用于选定所要分析的业务目标。

属性设计模块，用于选择非累积的属性表征用户的通话习惯，从行为特征的角度上对被检测用户和欺诈用户进行相似性比较。

用户分箱模块，采用等深分箱，将被检测用户在每一属性下，按属性值升序排列后计算分箱临界值。对N个被检测用户进行K分箱时，计算K分箱临界值标号序列a，假设每个用户有M个属性，对每一个属性，按属性值将所有被检测用户升序排列，取序列a对应位置上标号的值作为分箱的临界值。每个属性都有K+1个分箱临界值，M个属性共有M×(K+1)个分箱临界值，形成一个临界值矩阵，其中N、M和K均为正整数。

用户离散化模块，根据分箱临界值，将所有被检测用户和欺诈用户在每一属性上映射到相应的分箱内，将最后由分箱号组成用户的特征向量，完成属性的离散化过程。

评分计算模块，计算被检测用户的特征向量与所有欺诈用户的特征向量曼哈顿距离的最小值，作为被检测用户的欺诈概率评分，以减小属性相关性，简化运算。评分计算模块计算两个用户的特征向量之间的曼哈顿距离时，将两个用户的特征向量中对应属性上的分箱号相减，求绝对值再求和，如公式(1)所示，从而获得两个用户的曼哈顿距离。

欺诈判决模块，用于判断被检测用户的欺诈评分是否低于设定的最小门限。当某个被检测用户的欺诈评分低于最小门限T时，系统告警；否则不进行告警。告警处理包括确认和驳回，确认为欺诈用户的，需要从普通用户数据集中移除，添加到欺诈用户数据集中；驳回则告警无效，解除警报。

在进行实时欺诈检测过程时，需要以流数据形式顺序不断输入话单，本发明的实时欺诈检测装置将对用户进行实时评分并根据详单到达情况不断更新分数和判决状态，因此还设置了记录模块。在计算过程中产生的所有判定都需要通过记录模块记录，便于下一周期模型的及时调整优化。

本发明提出的基于非累积属性的实时欺诈检测方法及装置，具有三个主要特点：第一，选择非累积的属性参与计算，根据被检测用户与欺诈用户在通话习惯上的相似性进行预测识别，与被检测对象所处通话生命周期的位置无关；第二，采用等深分箱进行离散化，具有较高的区分度，避免了实际应用数据低值区域集中度高对计算相似性过程产生的影响；第三，计算复杂度低，可以实现话单的动态实时计算，在欺诈行为的早期识别并告警，更有效地减小损失。

通过以上描述可以知道，本发明的实时欺诈检测装置并不限于完全按照以上描述的所有模块来实现，本发明的实时欺诈检测方法也不限于由以上描述的所有步骤来实现。而应当理解，有些模块/步骤是为了更有效、精确的得到本发明的更有益的效果而采用的优选实施方式。

Claims

1.一种基于非累积属性的实时欺诈检测方法，其特征在于，实现步骤如下：

步骤1，导入原始数据，原始数据包括被检测客户集和已知欺诈用户集，被检测客户和欺诈用户的数据结构完全一致，根据唯一的用户编号以及欺诈标识属性加以区分；

步骤2，确定所要分析的业务目标；

步骤3，设计属性，选择非累积的属性，以反映用户通话行为特征；

步骤4，数据预处理，将原始数据中逻辑错误的数据删除；

步骤5，采用分箱进行离散化，将用户行为表示为特征向量；所述的分箱为等深分箱，将被检测客户在每一属性下，按属性值升序排列后计算分箱临界值；对被检测用户和欺诈用户，都根据分箱临界值，映射得到用户在每一属性上的分箱号，分箱号组成用户的特征向量；

步骤6，计算被检测用户特征向量与所有欺诈用户特征向量的曼哈顿距离的最小值，作为被检测用户的欺诈评分；

2.根据权利要求1所述的基于非累积属性的实时欺诈检测方法，其特征在于，所述的步骤5中，设有N个被检测用户，每个被检测用户有M个属性，分箱数目为K，N、M和K均为正整数；计算自然数[0,N]的K分箱临界值集合a，对每一个属性，按属性值将所有被检测用户升序排列，取集合a对应位置上的值作为分箱的临界值；每个属性单独离散化，每个属性有K+1个分箱临界值，M个属性共有M×(K+1)个分箱临界值，形成一个临界值矩阵。

3.根据权利要求1或2所述的基于非累积属性的实时欺诈检测方法，其特征在于，所述的步骤6中，设两个用户的特征向量表示为u＝{u₁,u₂,…,u_M}和v＝{v₁,v₂,…,v_M}，u和v的曼哈顿距离d(u,v)的计算公式为：

d(u,v)＝|v₁-u₁|+|v₂-u₂|+…+|v_M-u_M|

其中，u₁,u₂,…,u_M为用户u在M个属性上的分箱号；v₁,v₂,…,v_M为用户v在M个属性上的分箱号。

4.一种基于非累积属性的实时欺诈检测装置，其特征在于，包括属性设计模块、用户分箱模块、用户离散化模块、评分计算模块以及欺诈判决模块；

属性设计模块，用于选择非累积的属性表征用户的通话习惯，从行为特征的角度上对被检用户和欺诈用户进行相似性比较；

用户分箱模块，采用等深分箱，将被检测用户在每一属性下，按属性值升序排列后计算分箱临界值；

用户离散化模块，根据分箱临界值，将所有被检测用户和欺诈用户在每一属性上映射到相应的分箱内，最后由分箱号组成用户的特征向量；

评分计算模块，用于计算被检测用户特征向量与所有欺诈用户特征向量的曼哈顿距离的最小值，作为被检测用户的欺诈评分；

欺诈判决模块，用于判断被检测用户的欺诈评分是否低于设定的最小门限，若是则认为该用户存在较高的欺诈可能性，触发告警；否则不进行告警。

5.根据权利要求4所述的一种基于非累积属性的实时欺诈检测装置，其特征在于，所述的用户分箱模块，对N个被检测用户进行K分箱的方法是：设每个用户有M个属性，计算自然数[0,N]的K分箱边界值集合a，N、M和K均为正整数；对每一个属性，按属性值将所有被检测用户升序排列，取集合a对应位置上的值作为分箱的临界值；每个属性都有K+1个分箱临界值，M个属性共有M×(K+1)个分箱临界值，形成一个临界值矩阵。

6.根据权利要求4或5所述一种基于非累积属性的实时欺诈检测装置，其特征在于，所述的评分计算模块，计算两个用户特征向量的曼哈顿距离的方法是：

设两个用户的特征向量表示为u＝{u₁,u₂,…,u_M}和v＝{v₁,v₂,…,v_M}，u和v的曼哈顿距离d(u,v)的计算公式为：

d(u,v)＝|v₁-u₁|+|v₂-u₂|+…+|v_M-u_M|