CN110113757A

CN110113757A - 欺诈用户识别方法及系统

Info

Publication number: CN110113757A
Application number: CN201910376647.7A
Authority: CN
Inventors: 赵慧; 王晓霞; 魏进武
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-09

Abstract

本发明提供一种欺诈用户识别方法及系统，该方法包括：从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户；基于所述含有欺诈标签用户的数据建立训练样本集；基于所述训练样本集计算出均值向量；计算所述欺诈标签的种类数，将所述种类数作为用户群数；将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算，以在所述迭代运算满足终止条件停止后，得到所述全量用户所在的簇；由所述全量用户所在的簇，确定所述无欺诈标签用户所在的簇。通过本发明，提高了欺诈用户识别的可靠性以及准确性。

Description

欺诈用户识别方法及系统

技术领域

本发明涉及通信技术领域，具体地，涉及一种欺诈用户识别方法及系统。

背景技术

由于运营商计费规则存在漏洞，有些消费者借此实现无限流量上网，而此群体呈现扩大趋势，所需要支付的成本远远低于最低价的4G套餐，甚至出现免费的状况。

现有技术中一般通过均值聚类算法对客户使用手机流量的情况进行群体细分，了解他们不同的手机消费习惯，识别免流量欺诈用户。但是，由于现有的用户使用手机流量的数据是带有部分标签的，并且现有的均值算法是一种无监督的算法，其具有以下缺陷：1、无法充分使得带标签的数据发挥最大价值；2、簇数的选择没有科学指导，只能随机尝试；3、现有随机选取的簇数个均值向量对最终结果影响很大，准确率难以保证。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种欺诈用户识别方法及系统。

为实现本发明的目的而提供一种欺诈用户识别方法，所述方法包括：

从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户；

基于所述含有欺诈标签用户的数据建立训练样本集；

基于所述训练样本集计算出均值向量；

计算所述欺诈标签的种类数，将所述种类数作为用户群数；

将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算，以在所述迭代运算满足终止条件停止后，得到所述全量用户所在的簇；

由所述全量用户所在的簇，确定所述无欺诈标签用户所在的簇。

优选地，在所述从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户的步骤之前，还包括：

获取全量用户的数据，对所述全量用户的数据进行清洗以及预处理。

优选地，所述对所述全量用户的数据进行清洗包括：

将所述全量用户的数据进行可视化处理；

基于所述可视化处理结果删除数据缺失超过设定值的用户；

基于数据缺失比例二次筛选所述全量用户的数据。

优选地，所述对所述全量用户的数据进行预处理包括：

对所述全量用户的数据中的连续数据进行中心化和标准化的处理；

对所述全量用户的数据中的离散型数据进行独热编码；

对所述全量用户的数据中的缺失的连续数据使用中位数填充；

对所述全量用户的数据中的缺失的离散型数据使用众数填充。

优选地，所述终止条件包括以下任意一种：

每个簇的均值向量均不再变化；

没有数据被重新分配给不同的簇；

簇的误差平方和局部最小。

优选地，所述全量用户的数据包括：

国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。

一种欺诈用户识别系统，包括：

分析模块，用于从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户，基于所述含有欺诈标签用户的数据建立训练样本集；

计算模块，用于基于所述训练样本集计算出均值向量，计算所述欺诈标签的种类数，将所述种类数作为用户群数；

划分模块，用于将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算，以在所述迭代运算满足终止条件停止后，得到所述全量用户所在的簇；

查询判定模块，用于由所述全量用户所在的簇，确定所述无欺诈标签用户所在的簇。

优选地，还包括：获取模块、清洗模块以及预处理模块；

所述获取模块用于获取全量用户的数据，

所述清洗模块用于对所述全量用户的数据进行清洗；

所述预处理模块用于对所述全量用户的数据预处理。

优选地，所述预处理模块按以下方式进行的预处理：

对所述全量用户的数据中的离散型数据进行独热编码；

优选地，所述全量用户的数据包括：

本发明具有以下有益效果：

本发明提供的欺诈用户识别方法及系统，从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户；基于含有欺诈标签用户的数据建立训练样本集；基于训练样本集计算出均值向量；计算欺诈标签的种类数，将种类数作为用户群数；将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算，以在迭代运算满足终止条件停止后，得到全量用户所在的簇；由全量用户所在的簇，确定无欺诈标签用户所在的簇。本发明中，采用含欺诈标签的用户的数据计算均值向量，以及采用欺诈标签的种类数作为用户群数进行均值聚类算法模型运算，把均值聚类算法无监督的变为了一种半监督算法，即可提前锁定用户群数，省去获得用户群数的过程，还可以减少随机性均值向量对运算结果的影响，提高欺诈用户识别的可靠性以及准确性，并且节省了欺诈识别的时间。

附图说明

图1为本发明实施例提供的欺诈用户识别方法的一种流程图；

图2为本发明实施例提供的欺诈用户识别方法的另一种流程图；

图3为本发明实施例提供的欺诈用户识别系统的一种结构示意图；

图4为本发明实施例提供的欺诈用户识别系统的另一种结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图来对本发明提供的欺诈用户识别方法及系统进行详细描述。

实施例一

如图1所示为本发明实施例提供的欺诈用户识别方法的一种流程图，本实施例中欺诈用户识别方法包括以下步骤：

步骤101：从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户。

具体地，全量用户为带欺诈标签与无欺诈标签用户，而全量用户的数据包括矢量数据、离散量数据以及连续量数据，并且各种数据的单位也可能不同。

比如有10个用户的流量数据，每个用户使用国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、出账金额这四个方面的数据，另外部分用户有欺诈1或者非欺诈0或者不知是否欺诈的标签3，即欺诈标签的种类数为3。

(张三，10.1，2.2，4.5，9.8，1)

(李四，8.8，null，null，null，0)

(王五，null，3.2，4.8，10，3)

(赵六，null，3.2，4.8，10，NULL)

…

最后希望得到赵六的NULL标签。

步骤102：基于含有欺诈标签用户的数据建立训练样本集。

具体地，用户欺诈标签这个要素是一小部分全量用户才有的，大部分全量用户都没有这个标签，本实施例对这部分没欺诈标签的用户进行群体细分，了解他们不同的手机消费习惯，识别免流量欺诈用户。

步骤103：基于训练样本集计算出均值向量。

步骤104：计算欺诈标签的种类数，将种类数作为用户群数。具体地，用户群数也即标签数K。

步骤105：将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算，以在迭代运算满足终止条件停止后，得到全量用户所在的簇。

具体地，均值聚类算法模型在满足终止条件(比如，当前所有均值向量不再更新)算法结束，输出簇的划分C＝{C1，C2，…，CN}。将类似赵六无标签数据，输入均值聚类算法模型，得到其欺诈标签。

具体地，终止条件包括(A)～(C)中任意一种：

(A)每个簇的均值向量均不再变化。

(B)没有数据被重新分配给不同的簇。

(C)簇的误差平方和局部最小。

具体地，全量用户的数据包括：

步骤106：由全量用户所在的簇，确定无欺诈标签用户所在的簇。

根据上述步骤得出的关于每位用户所在的簇，即得到了所有用户的关于所在群的划分，进一步得到用户是否是欺诈用户的标签，结合上面使用的用户的流量等几大类用户的行为特征，具体分析结果，结合业务，及时灵活得得出对于流量欺诈用户的反欺诈措施。

本发明实施例提供的欺诈用户识别方法，采用含欺诈标签的用户的数据计算均值向量，以及采用欺诈标签的种类数作为用户群数进行均值聚类算法模型运算，把均值聚类算法无监督的变为了一种半监督算法，即可提前锁定用户群数，省去获得用户群数的过程，还可以减少随机性均值向量对运算结果的影响，提高欺诈用户识别的可靠性以及准确性，并且节省了欺诈识别的时间。

实施例二

如图2所示为本发明实施例提供的欺诈用户识别方法的另一种流程图，本实施例中欺诈用户识别方法包括以下步骤：

步骤201：获取全量用户的数据，对全量用户的数据进行清洗以及预处理。

需要说明的是，对全量用户的数据进行预处理可以是对清洗后的全量用户的数据进行预处理也可以是对全量用户的数据进行预处理后再进行清洗。

具体地，可以从数据库获取全量用户的数据，根据数据库的原始数据基于全量用户筛选出需要进行欺诈预测的用户。

具体地，对全量用户的数据进行清洗包括(1)～(3)：

(1)将全量用户的数据进行可视化处理。具体地，由于数据采集的时候因为机器或者人为等各种原因导致数据有各种不确定的确实状况，因此采用可视化的方法对数据进行缺失值的可视化。基于可视化结果初步删除部分缺失极为严重的用户，防止让模型产生严重的偏差。

(2)基于可视化处理结果删除数据缺失超过设定值的用户。

具体地，设定值可以由数据处理需求确定，比如，设定值大于等于3，李四的全量用户的数据为(8.8，null，null，null，0)有三个数据缺失，因此直接删除李四的全量用户的数据。

(3)基于数据缺失比例二次筛选全量用户的数据。

二次筛选包括两次筛选，第一次是从所有字段选出和问题有关的字段，第二次是在有关的字段中筛选出缺失不严重的字段。

具体地，对全量用户的数据进行预处理包括(I)～(IV)：

(I)对全量用户的数据中的连续数据进行中心化和标准化的处理。

本实施例中，由于全量用户的数据中单位不同，需要进行中心化和标准化处理，从而使数据的单位进行统一。

(II)对全量用户的数据中的离散型数据进行独热编码。

比如，男女需要进行独热编码变成(1，0)(0，1)。

(III)对全量用户的数据中的缺失的连续数据使用中位数填充。

(IV)对全量用户的数据中的缺失的离散型数据使用众数填充。

(张三，10.1，2.2，4.5，9.8，1)

(李四，8.8，null，null，null，0)

(王五，null，3.2，4.8，10，3)

(赵六，null，3.2，4.8，10，NULL)

…

由于李四缺失字段太多，对于李四的所有可以直接，王五的第一个null可以进行填充，对于欺诈标签编码：欺诈(1，0)非欺诈(0，1)未知(1，1)。

步骤202：从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户。

步骤203：基于含有欺诈标签用户的数据建立训练样本集。

步骤204：基于训练样本集计算出均值向量。

步骤205：计算欺诈标签的种类数，将种类数作为用户群数。

步骤206：将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算，以在迭代运算满足终止条件停止后，得到全量用户所在的簇。

步骤207：由全量用户所在的簇，确定无欺诈标签用户所在的簇。

本发明实施例提供的欺诈用户识别方法，从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户之前，获取全量用户的数据，并对全量用户的数据进行清洗以及预处理；通过本实施例，可以使全量用户的数据的准确性比较高，将准确性较高的全量用户的数据带入到均值聚类算法模型进行迭代运算的结果可靠性更高。

实施例三

针对上述欺诈用户识别方法，本发明还提供了一种欺诈用户识别系统，如图3所示为本发明实施例提供的欺诈用户识别系统的一种结构示意图，本实施例的欺诈用户识别系统包括：分析模块、计算模块、划分模块以及查询判定模块。

分析模块，用于从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户，基于含有欺诈标签用户的数据建立训练样本集。

计算模块，用于基于训练样本集计算出均值向量，计算欺诈标签的种类数，将种类数作为用户群数。

划分模块，用于将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算，以在迭代运算满足终止条件停止后，得到全量用户所在的簇。

查询判定模块，用于由全量用户所在的簇，确定无欺诈标签用户所在的簇。

具体地，终止条件包括(A)～(C)中任意一种：

(A)每个簇的均值向量均不再变化。

(B)没有数据被重新分配给不同的簇。

(C)簇的误差平方和局部最小。

具体地，全量用户的数据包括：

本发明实施例提供的欺诈用户识别系统，分析模块得到训练样本集，计算模块基于训练样本集计算出均值向量，并计算欺诈标签的种类数，将种类数作为用户群数；划分模块将全量用户的数据、用户群数、均值向量带入均值聚类算法迷行进行迭代运算。采用含欺诈标签的用户的数据计算均值向量，以及采用欺诈标签的种类数作为用户群数进行均值聚类算法模型运算，把均值聚类算法无监督的变为了一种半监督算法，即可提前锁定用户群数，省去获得用户群数的过程，还可以减少随机性均值向量对运算结果的影响，提高运算结果的可靠性以及节省了运算时间，进一步，提高了欺诈用户识别的可靠性以及准确性，并且节省了欺诈识别的时间。

实施例四

如图4所示为本发明实施例提供的欺诈用户识别系统的一种结构示意图，相对于图3所示的实施例，本实施例的欺诈用户识别系统还包括：获取模块、清洗模块以及预处理模块。

获取模块用于获取全量用户的数据。

清洗模块用于对全量用户的数据进行清洗。

预处理模块用于对全量用户的数据预处理。

需要说明的是，本实施例中，预处理模块对清洗模块进行清洗后的全量用户的数据进行预处理；在本发明另一个实施例中，预处理模块可以对全量用户的数据进行预处理后，再由清洗模块对预处理后的全量用户的数据进行清洗。

具体地，预处理模块按照以下方式对全量用户的数据进行预处理：

(II)对全量用户的数据中的离散型数据进行独热编码。

(IV)对全量用户的数据中的缺失的离散型数据使用众数填充。

具体地，清洗模块按照以下方式对全量用户的数据进行清洗：

(1)将全量用户的数据进行可视化处理。

(2)基于可视化处理结果删除数据缺失超过设定值的用户。

(3)基于数据缺失比例二次筛选全量用户的数据。

本发明实施例提供的欺诈用户识别系统，获取模块获取全量用户的数据，清洗模块对全量用户的数据进行清洗，预处理模块对全量用户的数据进行预处理。本实施例可以使全量用户的数据的准确性比较高，将准确性较高的全量用户的数据带入到均值聚类算法模型进行迭代运算的结果可靠性更高。

针对本发明实施例提供的欺诈用户识别系统及方法主要计算步骤举例如下：

例如，全量用户的数据D＝{x1，x2，…，xm}中带有标签的数据的少量标记样本为S＝{S1，S2，…，Sk}(S是属于D，并且某个Sj非空隶属于第j簇的样本集合)和标签的类别数K(其中K为欺诈标签的种类数)；从S中随机选取K个样本作为初始均值向量{u1，u2，…，uk}，进入迭代运算步骤：

1.依据{u1，u2，…，uk}得到初始化的簇C1，C2，…，Ck。

2.对于j＝1，2，3，…，m，计算xi与各均值向量ui的距离：distance(xj，ui)。

3.将xj划入到距离最小的ui所在的簇Ci，直至所有全量用户的数据一轮划分结束。

4.对于i＝1，2，…，k做以下运算：

对于每个簇Ci，计算新的均值向量ui_new。

如果ui和ui_new不相同，那么ui_new变成新的ui；

如果ui和ui_new相同，那么ui依旧是之前的ui。

当前迭代运算满足终止条件(比如所有均值向量不再更新)，算法结束

输出：簇的划分C＝{C1，C2，…，CN}

5.将无欺诈标签的全量用户的数据输入模型，得出新样本所在的簇。

本发明实施例中，对于Sj，用其均值向量作为第j簇的初始均值向量，在后续的迭代过程中，保持Sj中的样本属于第j簇的隶属关系保持不变。

本发明实施例中，采用欺诈标签的种类数作为用户群数免去了大量循环的时间开销，免去原算法不断尝试K的过程开销，且更加精准。

综上，本发明是一种改进的均值聚类算法，把算法从无监督的性质，利用标签的数据特征把算法改进为一种半监督算法，既可以提前锁定簇数K，即用户群数，省去循环选择K的时间开销以及判断哪个K才是最合适的伤脑问题，另外可以解决随机性均值向量影响最终结果的问题，使得结果可靠可解释，同时充分利用了数据的特点，将数据价值发挥到最大。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种欺诈用户识别方法，其特征在于，所述方法包括：

基于所述含有欺诈标签用户的数据建立训练样本集；

基于所述训练样本集计算出均值向量；

计算所述欺诈标签的种类数，将所述种类数作为用户群数；

2.根据权利要求1所述的欺诈用户识别方法，其特征在于，在所述从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户的步骤之前，还包括：

3.根据权利要求2所述的欺诈用户识别方法，其特征在于，所述对所述全量用户的数据进行清洗包括：

将所述全量用户的数据进行可视化处理；

基于所述可视化处理结果删除数据缺失超过设定值的用户；

基于数据缺失比例二次筛选所述全量用户的数据。

4.根据权利要求2所述的欺诈用户识别方法，其特征在于，所述对所述全量用户的数据进行预处理包括：

对所述全量用户的数据中的离散型数据进行独热编码；

5.根据权利要求1-4任一项所述的欺诈用户识别方法，其特征在于，所述终止条件包括以下任意一种：

每个簇的均值向量均不再变化；

没有数据被重新分配给不同的簇；

簇的误差平方和局部最小。

6.根据权利要求5所述的欺诈用户识别方法，其特征在于，所述全量用户的数据包括：

7.一种欺诈用户识别系统，其特征在于，包括：

8.根据权利要求7所述的欺诈用户识别系统，其特征在于，还包括：获取模块，清洗模块以及预处理模块；

所述获取模块用于获取全量用户的数据；

所述清洗模块用于对所述全量用户的数据进行清洗；

所述预处理模块用于对所述全量用户的数据预处理。

9.根据权利要求8所述的欺诈用户识别系统，其特征在于，所述预处理模块按以下方式进行的预处理：

对所述全量用户的数据中的离散型数据进行独热编码；

10.根据权利要求7-9任一项所述的欺诈用户识别系统，其特征在于，所述全量用户的数据包括：