CN110211014A

CN110211014A - 一种运营商反欺诈检测方法

Info

Publication number: CN110211014A
Application number: CN201910471856.XA
Authority: CN
Inventors: 魏国富; 陈一根; 刘胜; 梁淑云; 殷钱安
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-06

Abstract

本发明公开了一种运营商反欺诈检测方法，包含以下步骤：A、处理通话数据；B、建立人工智能算法模型；对数据进行分析，定位诈骗用户位置；C、可疑诈骗用户反向溯源、追踪分析，本发明的有益效果是：1)提取运营商中条件属性和决策属性检测出欺诈用户，对欺诈用户进行反向溯源跟踪，有效提高用户的信任度和人身财产安全。2)利用诈骗团伙位置分布算法对可疑的诈骗用户进行近似识别和位置分布定位。3)利用粗糙集理论从运营商通话数据中检测出可疑用户：分割数据集，用粗糙集提取规则，然后找出具有规则的可疑欺诈用户。

Description

一种运营商反欺诈检测方法

技术领域

本发明涉及一种检测方法，具体是一种运营商反欺诈检测方法。

背景技术

诈骗在现代社会中非常流行，并且存在各种形式欺诈，例如信用卡欺诈，网络交易欺诈和保险欺诈等。电信运营商也是遭受着同样的问题，曾经损失数十亿美金，电信运营商采用的反诈骗方法通常是分析用户使用呼叫详细记录数据(CDR)，最常用的方法是使用反欺诈检测规则进行数据分类。

1、基于一种基于规则的欺诈检测方法，根据包括本地呼叫每周平均次数，平均呼叫持续时间等数据特征对CDR数据进行划分，并建立概率模型来描述用户动作，模型参数通过最大似然估计进行估计，还给出了用于识别正常用户和异常用户的每个数据组的阀值。设计了规则、异常用户的特征值高于阈值，普通用户低于阈值。对于异常用户，检测系统向管理者发出警告信号，以便于进一步监控以防止更大的危害。

2、基于人工神经网络的反欺诈检测方法，该方法利用电信运营商中的用户(CDR)数据建立训练子集，并从原始训练样本集中随机选择样本，实际上是样本的空间划分。每个子集用于训练ANN分类器，多分类器被适当的用于组合在一起构成强分类器，组合的强分类器的错误分类概率小于单个ANN分类器，并且该方法获得了良好的反欺诈检测结果，实验中使用4个不同的训练子集来训练4个分类器，预测的结果是4个ANN输出的平均值比单个ANN分类器效果更好。

基于一种基于规则的欺诈检测方法，根据包括本地呼叫每周平均次数，平均呼叫持续时间等数据特征对CDR数据进行划分，并建立概率模型来描述用户动作，模型参数通过最大似然估计进行估计，还给出了用于识别正常用户和异常用户的每个数据组的阈值，异常用户的特征值高于阈值，普通用户低于阈值，这种方法在设计上就以阈值进行划分，忽略了数据集中属性的相互关联性，简单使用本地呼叫每周次数和平均呼叫持续时间数据特征来进行进行概率阈值划分欺诈用户存在极大的误报率和容错率。

基于人工神经网络的反欺诈检测方法，该方法利用电信运营商中的用户(CDR)数据建立训练子集，并从原始训练样本集中随机选择样本，实际上是样本的空间划分。每个子集用于训练ANN分类器，多分类器被适当的用于组合在一起构成强分类器，虽然这种方法组合的强分类器的错误分类概率小于单个ANN分类器，但是涉及的神经网络参数过多，同时也无法观察中间结果，学习过程比较长，还有可能陷入局部最优化。

上述方法通过各种数据方法和模型研究了电信业的反欺诈检测问题，这些方法在一定程度上取得了良好的效果。但现在有的欺诈检测方法，仍有很多问题需要解决，未来欺诈的类型和形式未知。现在所有的欺诈检测方法，对使用可用数据来模拟欺诈行为的欺诈检测，然后用模型来预测潜在的欺诈行为。本发明为了解决现有技术存在的误报率、高复杂度，提出了一种基于粗糙集的运营商反欺诈检测方法，可以有效的降低在检测过程中的误报率、容错率以及降低计算复杂度。

发明内容

本发明的目的在于提供一种运营商反欺诈检测方法，以解决所述背景技术中提出的问题。

为实现所述目的，本发明提供如下技术方案：

一种运营商反欺诈检测方法，包含以下步骤：

A、处理通话数据；

B、建立人工智能算法模型；对数据进行分析，定位诈骗用户位置；

C、可疑诈骗用户反向溯源、追踪分析。

作为本发明再进一步的方案：所述步骤A具体是：从正常CDR数据库中选择正常CDR数据的N个样本和来自异常CDR数据库的异常CDR数据的N个样本；设计的特征属性有：1)大型欠费记录；2)月消费率与平均每月消费量；3)每月消费增长率；4)呼叫时间与平均时间的比率；5)每月呼叫时间的增长率。

作为本发明再进一步的方案：决策属性表示为DM，DM＝0表示CDR数据正常，DM＝1表示疑似遗产的CDR数据。

作为本发明再进一步的方案：设置三个级别的阈值，每个属性值都分布在三个级别范围中。

作为本发明再进一步的方案：所述步骤B具体是：用阈值离散CDR数据，合并重复记录并重构决策矩阵；从数据库和预处理中随机选择10000个异常和10000个正常CDR，这里三个级别表示为0,1和2；删除重复记录并构建CDR决策表。

作为本发明再进一步的方案：所述步骤C具体是：人工智能的粗糙集算法模型检测到的诈骗用户号码、特殊号码等数据，构建失信欺诈用户库，包含欺诈用户的位置分布、号码、机构名称、响一声次数，利用莱温斯坦距离算法计算出失信用户中的位置分布与当前可疑位置分布之间的相似程度，从而识别出欺诈用户团伙的位置分布，从而进行反向溯源，然后利用短信、闪信等方式告知受害者，最后对受害者进行回访。

与现有技术相比，本发明的有益效果是：1)提取运营商中条件属性和决策属性检测出欺诈用户，对欺诈用户进行反向溯源跟踪，有效提高用户的信任度和人身财产安全。2)利用诈骗团伙位置分布算法对可疑的诈骗用户进行近似识别和位置分布定位。3)利用粗糙集理论从运营商通话数据中检测出可疑用户：分割数据集，用粗糙集提取规则，然后找出具有规则的可疑欺诈用户。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1，一种运营商反欺诈检测方法，包含以下步骤：

A、处理通话数据：

从正常CDR数据库中选择正常CDR数据的N个样本和来自异常CDR数据库的异常CDR数据的N个样本；设计的特征属性有：1)大型欠费记录；2)月消费率与平均每月消费量； 3)每月消费增长率；4)呼叫时间与平均时间的比率；5)每月呼叫时间的增长率。这个5 个属性分别用a，b，c,d,e来表示。

·决策属性表示为DM，DM＝0表示CDR数据正常，DM＝1表示疑似遗产的CDR数据。

设置三个级别的阈值，即每个属性值都分布在三个级别范围中。

B、第一步：用阈值离散CDR数据，合并重复记录并重构决策矩阵；

从数据库和预处理中随机选择10,000个异常和10,000个正常CDR，这里三个级别表示为0,1和2；删除重复记录并构建CDR决策表，如表1所示。

决策表中属性含义与上述的相同，ID表示CDR记录，表示为x_i；

表1 CDR决策表:

ID	a	b	c	d	e	DM
							x<sub>1</sub>	1	1	2	2	2	1
x<sub>2</sub>	2	2	2	2	2	1
							x<sub>3</sub>	0	1	1	2	1	0
x<sub>4</sub>	1	0	0	0	1	0
							x<sub>5</sub>	2	0	0	0	0	0
x<sub>6</sub>	0	2	2	1	1	0
							x<sub>7</sub>	1	1	2	2	1	1
x<sub>8</sub>	1	2	2	1	0	1

第二步：通过公式构造判别矩阵如下：

第三步：根据粗糙集理论构造判定函数，写出判别函数 f_A(D)＝(a∨c∨e)∧(b∨c∨d∨e)∧(a∨b∨c∨d∨e)∧(a∨b∨d∨e)∧

(a∨b∨c∨e)∧(a∨b∨c∨d∨e)∧(b∨c∨d∨e)∧(a∨d∨d∨e)∧

(a∨c)∧(a∨b∨c∨d∨e)∧

(b∨c∨d)∧(b∨c∨d)∧

(a∨b∨c∨d∨e)∧(a∨b∨c∨d)∧

(a∨b∨d)∧(a∨e) 第四步：简化判别矩阵和获得简化项目，获得结果如下：

f_A(D)＝ae∨ac∨abd∨bcd；

第五步：通过简化的项目和决策表提取决策规则，根据决策表1导出决策结果：

IF a＝1and b＝1and d＝2，then SF

IF a＝2and b＝2and d＝2，then SF

TF a＝1and b＝2and d＝1，then SF

IF a＝0and b＝1and d＝1，then SF

这里sF表示疑似欺诈记录，其他检测规则也可以以相同的方式获得。

在检测规则的应用中，具有少量属性的规则应优先用于快速扫描记录找出可疑记录，然后应用具有更多属性的规则进一步检测，如果记录符合欺诈记录，则给出进一步报警和验证。

C、可疑诈骗用户反向溯源、追踪分析。人工智能的粗糙集算法模型检测到的诈骗用户号码、特殊号码等数据，构建失信欺诈用户库，包含欺诈用户的位置分布、号码、机构名称、响一声次数，利用莱温斯坦距离算法计算出失信用户中的位置分布与当前可疑位置分布之间的相似程度，从而识别出欺诈用户团伙的位置分布，从而进行反向溯源，然后利用短信、闪信等方式告知受害者，最后对受害者进行回访。

实施例2，在实施例1的基础上，距离算法描述:

1)经纬度转换为弧度

三角函数中使用弧度值进行计算，还需要将经纬度转换为弧度。转换公式为N*PI/180，如将点A的纬度值39.5427转换为弧度39.5427*PI/180(PI为圆周率)。A/B两点的经/纬度转为弧度后分别用λA、λB。

2)计算边a和边b的弦度

利用纬度差，我们可得到边a的弧度Δa；利用经度差，我们可得到边b的弧度Δb(计算时注意取绝对值)。

3)计算边两点间的正弦值和余弦值

计算出以上一系列变量后，计算出半正矢值a，其计算公式为

4)计算边正切值

c＝2*atan2(√a,√(1-a))

5)实际距离

d＝R*c(R表示地球半径)。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种运营商反欺诈检测方法，其特征在于：包含以下步骤：

A、处理通话数据；

C、可疑诈骗用户反向溯源、追踪分析。

2.根据权利要求1所述的一种运营商反欺诈检测方法，其特征在于，所述步骤A具体是：从正常CDR数据库中选择正常CDR数据的N个样本和来自异常CDR数据库的异常CDR数据的N个样本；设计的特征属性有：1）大型欠费记录；2）月消费率与平均每月消费量；3）每月消费增长率；4）呼叫时间与平均时间的比率；5）每月呼叫时间的增长率。

3.根据权利要求2所述的一种运营商反欺诈检测方法，其特征在于，决策属性表示为DM，DM=0表示CDR数据正常，DM=1表示疑似遗产的CDR数据。

4.根据权利要求3所述的一种运营商反欺诈检测方法，其特征在于，设置三个级别的阈值，每个属性值都分布在三个级别范围中。

5.根据权利要求1所述的一种运营商反欺诈检测方法，其特征在于，所述步骤B具体是：用阈值离散CDR数据，合并重复记录并重构决策矩阵；从数据库和预处理中随机选择10000个异常和10000个正常CDR，这里三个级别表示为0,1和2；删除重复记录并构建CDR决策表。

6.根据权利要求1所述的一种运营商反欺诈检测方法，其特征在于，所述步骤C具体是：人工智能的粗糙集算法模型检测到的诈骗用户号码、特殊号码等数据，构建失信欺诈用户库，包含欺诈用户的位置分布、号码、机构名称、响一声次数，利用莱温斯坦距离算法计算出失信用户中的位置分布与当前可疑位置分布之间的相似程度，从而识别出欺诈用户团伙的位置分布，从而进行反向溯源，然后利用短信、闪信等方式告知受害者，最后对受害者进行回访。