CN110113757A - 欺诈用户识别方法及系统 - Google Patents
欺诈用户识别方法及系统 Download PDFInfo
- Publication number
- CN110113757A CN110113757A CN201910376647.7A CN201910376647A CN110113757A CN 110113757 A CN110113757 A CN 110113757A CN 201910376647 A CN201910376647 A CN 201910376647A CN 110113757 A CN110113757 A CN 110113757A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- full dose
- fraud
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000004140 cleaning Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012800 visualization Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 241000894007 species Species 0.000 description 19
- 230000008569 process Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000209202 Bromus secalinus Species 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/40—Security arrangements using identity modules
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种欺诈用户识别方法及系统,该方法包括:从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;基于所述含有欺诈标签用户的数据建立训练样本集;基于所述训练样本集计算出均值向量;计算所述欺诈标签的种类数,将所述种类数作为用户群数;将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。通过本发明,提高了欺诈用户识别的可靠性以及准确性。
Description
技术领域
本发明涉及通信技术领域,具体地,涉及一种欺诈用户识别方法及系统。
背景技术
由于运营商计费规则存在漏洞,有些消费者借此实现无限流量上网,而此群体呈现扩大趋势,所需要支付的成本远远低于最低价的4G套餐,甚至出现免费的状况。
现有技术中一般通过均值聚类算法对客户使用手机流量的情况进行群体细分,了解他们不同的手机消费习惯,识别免流量欺诈用户。但是,由于现有的用户使用手机流量的数据是带有部分标签的,并且现有的均值算法是一种无监督的算法,其具有以下缺陷:1、无法充分使得带标签的数据发挥最大价值;2、簇数的选择没有科学指导,只能随机尝试;3、现有随机选取的簇数个均值向量对最终结果影响很大,准确率难以保证。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种欺诈用户识别方法及系统。
为实现本发明的目的而提供一种欺诈用户识别方法,所述方法包括:
从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;
基于所述含有欺诈标签用户的数据建立训练样本集;
基于所述训练样本集计算出均值向量;
计算所述欺诈标签的种类数,将所述种类数作为用户群数;
将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
优选地,在所述从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户的步骤之前,还包括:
获取全量用户的数据,对所述全量用户的数据进行清洗以及预处理。
优选地,所述对所述全量用户的数据进行清洗包括:
将所述全量用户的数据进行可视化处理;
基于所述可视化处理结果删除数据缺失超过设定值的用户;
基于数据缺失比例二次筛选所述全量用户的数据。
优选地,所述对所述全量用户的数据进行预处理包括:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
优选地,所述终止条件包括以下任意一种:
每个簇的均值向量均不再变化;
没有数据被重新分配给不同的簇;
簇的误差平方和局部最小。
优选地,所述全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
一种欺诈用户识别系统,包括:
分析模块,用于从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户,基于所述含有欺诈标签用户的数据建立训练样本集;
计算模块,用于基于所述训练样本集计算出均值向量,计算所述欺诈标签的种类数,将所述种类数作为用户群数;
划分模块,用于将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
查询判定模块,用于由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
优选地,还包括:获取模块、清洗模块以及预处理模块;
所述获取模块用于获取全量用户的数据,
所述清洗模块用于对所述全量用户的数据进行清洗;
所述预处理模块用于对所述全量用户的数据预处理。
优选地,所述预处理模块按以下方式进行的预处理:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
优选地,所述全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
本发明具有以下有益效果:
本发明提供的欺诈用户识别方法及系统,从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;基于含有欺诈标签用户的数据建立训练样本集;基于训练样本集计算出均值向量;计算欺诈标签的种类数,将种类数作为用户群数;将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算,以在迭代运算满足终止条件停止后,得到全量用户所在的簇;由全量用户所在的簇,确定无欺诈标签用户所在的簇。本发明中,采用含欺诈标签的用户的数据计算均值向量,以及采用欺诈标签的种类数作为用户群数进行均值聚类算法模型运算,把均值聚类算法无监督的变为了一种半监督算法,即可提前锁定用户群数,省去获得用户群数的过程,还可以减少随机性均值向量对运算结果的影响,提高欺诈用户识别的可靠性以及准确性,并且节省了欺诈识别的时间。
附图说明
图1为本发明实施例提供的欺诈用户识别方法的一种流程图;
图2为本发明实施例提供的欺诈用户识别方法的另一种流程图;
图3为本发明实施例提供的欺诈用户识别系统的一种结构示意图;
图4为本发明实施例提供的欺诈用户识别系统的另一种结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图来对本发明提供的欺诈用户识别方法及系统进行详细描述。
实施例一
如图1所示为本发明实施例提供的欺诈用户识别方法的一种流程图,本实施例中欺诈用户识别方法包括以下步骤:
步骤101:从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户。
具体地,全量用户为带欺诈标签与无欺诈标签用户,而全量用户的数据包括矢量数据、离散量数据以及连续量数据,并且各种数据的单位也可能不同。
比如有10个用户的流量数据,每个用户使用国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、出账金额这四个方面的数据,另外部分用户有欺诈1或者非欺诈0或者不知是否欺诈的标签3,即欺诈标签的种类数为3。
(张三,10.1,2.2,4.5,9.8,1)
(李四,8.8,null,null,null,0)
(王五,null,3.2,4.8,10,3)
(赵六,null,3.2,4.8,10,NULL)
…
最后希望得到赵六的NULL标签。
步骤102:基于含有欺诈标签用户的数据建立训练样本集。
具体地,用户欺诈标签这个要素是一小部分全量用户才有的,大部分全量用户都没有这个标签,本实施例对这部分没欺诈标签的用户进行群体细分,了解他们不同的手机消费习惯,识别免流量欺诈用户。
步骤103:基于训练样本集计算出均值向量。
步骤104:计算欺诈标签的种类数,将种类数作为用户群数。具体地,用户群数也即标签数K。
步骤105:将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算,以在迭代运算满足终止条件停止后,得到全量用户所在的簇。
具体地,均值聚类算法模型在满足终止条件(比如,当前所有均值向量不再更新)算法结束,输出簇的划分C={C1,C2,…,CN}。将类似赵六无标签数据,输入均值聚类算法模型,得到其欺诈标签。
具体地,终止条件包括(A)~(C)中任意一种:
(A)每个簇的均值向量均不再变化。
(B)没有数据被重新分配给不同的簇。
(C)簇的误差平方和局部最小。
具体地,全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
步骤106:由全量用户所在的簇,确定无欺诈标签用户所在的簇。
根据上述步骤得出的关于每位用户所在的簇,即得到了所有用户的关于所在群的划分,进一步得到用户是否是欺诈用户的标签,结合上面使用的用户的流量等几大类用户的行为特征,具体分析结果,结合业务,及时灵活得得出对于流量欺诈用户的反欺诈措施。
本发明实施例提供的欺诈用户识别方法,采用含欺诈标签的用户的数据计算均值向量,以及采用欺诈标签的种类数作为用户群数进行均值聚类算法模型运算,把均值聚类算法无监督的变为了一种半监督算法,即可提前锁定用户群数,省去获得用户群数的过程,还可以减少随机性均值向量对运算结果的影响,提高欺诈用户识别的可靠性以及准确性,并且节省了欺诈识别的时间。
实施例二
如图2所示为本发明实施例提供的欺诈用户识别方法的另一种流程图,本实施例中欺诈用户识别方法包括以下步骤:
步骤201:获取全量用户的数据,对全量用户的数据进行清洗以及预处理。
需要说明的是,对全量用户的数据进行预处理可以是对清洗后的全量用户的数据进行预处理也可以是对全量用户的数据进行预处理后再进行清洗。
具体地,可以从数据库获取全量用户的数据,根据数据库的原始数据基于全量用户筛选出需要进行欺诈预测的用户。
具体地,对全量用户的数据进行清洗包括(1)~(3):
(1)将全量用户的数据进行可视化处理。具体地,由于数据采集的时候因为机器或者人为等各种原因导致数据有各种不确定的确实状况,因此采用可视化的方法对数据进行缺失值的可视化。基于可视化结果初步删除部分缺失极为严重的用户,防止让模型产生严重的偏差。
(2)基于可视化处理结果删除数据缺失超过设定值的用户。
具体地,设定值可以由数据处理需求确定,比如,设定值大于等于3,李四的全量用户的数据为(8.8,null,null,null,0)有三个数据缺失,因此直接删除李四的全量用户的数据。
(3)基于数据缺失比例二次筛选全量用户的数据。
二次筛选包括两次筛选,第一次是从所有字段选出和问题有关的字段,第二次是在有关的字段中筛选出缺失不严重的字段。
具体地,对全量用户的数据进行预处理包括(I)~(IV):
(I)对全量用户的数据中的连续数据进行中心化和标准化的处理。
本实施例中,由于全量用户的数据中单位不同,需要进行中心化和标准化处理,从而使数据的单位进行统一。
(II)对全量用户的数据中的离散型数据进行独热编码。
比如,男女需要进行独热编码变成(1,0)(0,1)。
(III)对全量用户的数据中的缺失的连续数据使用中位数填充。
(IV)对全量用户的数据中的缺失的离散型数据使用众数填充。
比如有10个用户的流量数据,每个用户使用国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、出账金额这四个方面的数据,另外部分用户有欺诈1或者非欺诈0或者不知是否欺诈的标签3,即欺诈标签的种类数为3。
(张三,10.1,2.2,4.5,9.8,1)
(李四,8.8,null,null,null,0)
(王五,null,3.2,4.8,10,3)
(赵六,null,3.2,4.8,10,NULL)
…
由于李四缺失字段太多,对于李四的所有可以直接,王五的第一个null可以进行填充,对于欺诈标签编码:欺诈(1,0)非欺诈(0,1)未知(1,1)。
步骤202:从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户。
步骤203:基于含有欺诈标签用户的数据建立训练样本集。
步骤204:基于训练样本集计算出均值向量。
步骤205:计算欺诈标签的种类数,将种类数作为用户群数。
步骤206:将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算,以在迭代运算满足终止条件停止后,得到全量用户所在的簇。
步骤207:由全量用户所在的簇,确定无欺诈标签用户所在的簇。
本发明实施例提供的欺诈用户识别方法,从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户之前,获取全量用户的数据,并对全量用户的数据进行清洗以及预处理;通过本实施例,可以使全量用户的数据的准确性比较高,将准确性较高的全量用户的数据带入到均值聚类算法模型进行迭代运算的结果可靠性更高。
实施例三
针对上述欺诈用户识别方法,本发明还提供了一种欺诈用户识别系统,如图3所示为本发明实施例提供的欺诈用户识别系统的一种结构示意图,本实施例的欺诈用户识别系统包括:分析模块、计算模块、划分模块以及查询判定模块。
分析模块,用于从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户,基于含有欺诈标签用户的数据建立训练样本集。
计算模块,用于基于训练样本集计算出均值向量,计算欺诈标签的种类数,将种类数作为用户群数。
划分模块,用于将全量用户的数据、用户群数以及均值向量带入均值聚类算法模型进行迭代运算,以在迭代运算满足终止条件停止后,得到全量用户所在的簇。
查询判定模块,用于由全量用户所在的簇,确定无欺诈标签用户所在的簇。
具体地,终止条件包括(A)~(C)中任意一种:
(A)每个簇的均值向量均不再变化。
(B)没有数据被重新分配给不同的簇。
(C)簇的误差平方和局部最小。
具体地,全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
本发明实施例提供的欺诈用户识别系统,分析模块得到训练样本集,计算模块基于训练样本集计算出均值向量,并计算欺诈标签的种类数,将种类数作为用户群数;划分模块将全量用户的数据、用户群数、均值向量带入均值聚类算法迷行进行迭代运算。采用含欺诈标签的用户的数据计算均值向量,以及采用欺诈标签的种类数作为用户群数进行均值聚类算法模型运算,把均值聚类算法无监督的变为了一种半监督算法,即可提前锁定用户群数,省去获得用户群数的过程,还可以减少随机性均值向量对运算结果的影响,提高运算结果的可靠性以及节省了运算时间,进一步,提高了欺诈用户识别的可靠性以及准确性,并且节省了欺诈识别的时间。
实施例四
如图4所示为本发明实施例提供的欺诈用户识别系统的一种结构示意图,相对于图3所示的实施例,本实施例的欺诈用户识别系统还包括:获取模块、清洗模块以及预处理模块。
获取模块用于获取全量用户的数据。
清洗模块用于对全量用户的数据进行清洗。
预处理模块用于对全量用户的数据预处理。
需要说明的是,本实施例中,预处理模块对清洗模块进行清洗后的全量用户的数据进行预处理;在本发明另一个实施例中,预处理模块可以对全量用户的数据进行预处理后,再由清洗模块对预处理后的全量用户的数据进行清洗。
具体地,预处理模块按照以下方式对全量用户的数据进行预处理:
(I)对全量用户的数据中的连续数据进行中心化和标准化的处理。
(II)对全量用户的数据中的离散型数据进行独热编码。
(III)对全量用户的数据中的缺失的连续数据使用中位数填充。
(IV)对全量用户的数据中的缺失的离散型数据使用众数填充。
具体地,清洗模块按照以下方式对全量用户的数据进行清洗:
(1)将全量用户的数据进行可视化处理。
(2)基于可视化处理结果删除数据缺失超过设定值的用户。
(3)基于数据缺失比例二次筛选全量用户的数据。
本发明实施例提供的欺诈用户识别系统,获取模块获取全量用户的数据,清洗模块对全量用户的数据进行清洗,预处理模块对全量用户的数据进行预处理。本实施例可以使全量用户的数据的准确性比较高,将准确性较高的全量用户的数据带入到均值聚类算法模型进行迭代运算的结果可靠性更高。
针对本发明实施例提供的欺诈用户识别系统及方法主要计算步骤举例如下:
例如,全量用户的数据D={x1,x2,…,xm}中带有标签的数据的少量标记样本为S={S1,S2,…,Sk}(S是属于D,并且某个Sj非空隶属于第j簇的样本集合)和标签的类别数K(其中K为欺诈标签的种类数);从S中随机选取K个样本作为初始均值向量{u1,u2,…,uk},进入迭代运算步骤:
1.依据{u1,u2,…,uk}得到初始化的簇C1,C2,…,Ck。
2.对于j=1,2,3,…,m,计算xi与各均值向量ui的距离:distance(xj,ui)。
3.将xj划入到距离最小的ui所在的簇Ci,直至所有全量用户的数据一轮划分结束。
4.对于i=1,2,…,k做以下运算:
对于每个簇Ci,计算新的均值向量ui_new。
如果ui和ui_new不相同,那么ui_new变成新的ui;
如果ui和ui_new相同,那么ui依旧是之前的ui。
当前迭代运算满足终止条件(比如所有均值向量不再更新),算法结束
输出:簇的划分C={C1,C2,…,CN}
5.将无欺诈标签的全量用户的数据输入模型,得出新样本所在的簇。
本发明实施例中,对于Sj,用其均值向量作为第j簇的初始均值向量,在后续的迭代过程中,保持Sj中的样本属于第j簇的隶属关系保持不变。
本发明实施例中,采用欺诈标签的种类数作为用户群数免去了大量循环的时间开销,免去原算法不断尝试K的过程开销,且更加精准。
综上,本发明是一种改进的均值聚类算法,把算法从无监督的性质,利用标签的数据特征把算法改进为一种半监督算法,既可以提前锁定簇数K,即用户群数,省去循环选择K的时间开销以及判断哪个K才是最合适的伤脑问题,另外可以解决随机性均值向量影响最终结果的问题,使得结果可靠可解释,同时充分利用了数据的特点,将数据价值发挥到最大。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种欺诈用户识别方法,其特征在于,所述方法包括:
从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;
基于所述含有欺诈标签用户的数据建立训练样本集;
基于所述训练样本集计算出均值向量;
计算所述欺诈标签的种类数,将所述种类数作为用户群数;
将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
2.根据权利要求1所述的欺诈用户识别方法,其特征在于,在所述从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户的步骤之前,还包括:
获取全量用户的数据,对所述全量用户的数据进行清洗以及预处理。
3.根据权利要求2所述的欺诈用户识别方法,其特征在于,所述对所述全量用户的数据进行清洗包括:
将所述全量用户的数据进行可视化处理;
基于所述可视化处理结果删除数据缺失超过设定值的用户;
基于数据缺失比例二次筛选所述全量用户的数据。
4.根据权利要求2所述的欺诈用户识别方法,其特征在于,所述对所述全量用户的数据进行预处理包括:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
5.根据权利要求1-4任一项所述的欺诈用户识别方法,其特征在于,所述终止条件包括以下任意一种:
每个簇的均值向量均不再变化;
没有数据被重新分配给不同的簇;
簇的误差平方和局部最小。
6.根据权利要求5所述的欺诈用户识别方法,其特征在于,所述全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
7.一种欺诈用户识别系统,其特征在于,包括:
分析模块,用于从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户,基于所述含有欺诈标签用户的数据建立训练样本集;
计算模块,用于基于所述训练样本集计算出均值向量,计算所述欺诈标签的种类数,将所述种类数作为用户群数;
划分模块,用于将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
查询判定模块,用于由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
8.根据权利要求7所述的欺诈用户识别系统,其特征在于,还包括:获取模块,清洗模块以及预处理模块;
所述获取模块用于获取全量用户的数据;
所述清洗模块用于对所述全量用户的数据进行清洗;
所述预处理模块用于对所述全量用户的数据预处理。
9.根据权利要求8所述的欺诈用户识别系统,其特征在于,所述预处理模块按以下方式进行的预处理:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
10.根据权利要求7-9任一项所述的欺诈用户识别系统,其特征在于,所述全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910376647.7A CN110113757A (zh) | 2019-05-07 | 2019-05-07 | 欺诈用户识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910376647.7A CN110113757A (zh) | 2019-05-07 | 2019-05-07 | 欺诈用户识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110113757A true CN110113757A (zh) | 2019-08-09 |
Family
ID=67488464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910376647.7A Pending CN110113757A (zh) | 2019-05-07 | 2019-05-07 | 欺诈用户识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110113757A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852893A (zh) * | 2019-10-12 | 2020-02-28 | 中国平安财产保险股份有限公司 | 基于海量数据的风险识别方法、系统、设备及存储介质 |
CN112291424A (zh) * | 2020-10-29 | 2021-01-29 | 上海观安信息技术股份有限公司 | 一种诈骗号码识别方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105827593A (zh) * | 2016-03-08 | 2016-08-03 | 中国联合网络通信集团有限公司 | 一种免流量欺诈用户的识别方法和识别系统 |
CN109034194A (zh) * | 2018-06-20 | 2018-12-18 | 东华大学 | 基于特征分化的交易欺诈行为深度检测方法 |
CN109598331A (zh) * | 2018-12-04 | 2019-04-09 | 北京芯盾时代科技有限公司 | 一种欺诈识别模型训练方法、欺诈识别方法及装置 |
-
2019
- 2019-05-07 CN CN201910376647.7A patent/CN110113757A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105827593A (zh) * | 2016-03-08 | 2016-08-03 | 中国联合网络通信集团有限公司 | 一种免流量欺诈用户的识别方法和识别系统 |
CN109034194A (zh) * | 2018-06-20 | 2018-12-18 | 东华大学 | 基于特征分化的交易欺诈行为深度检测方法 |
CN109598331A (zh) * | 2018-12-04 | 2019-04-09 | 北京芯盾时代科技有限公司 | 一种欺诈识别模型训练方法、欺诈识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
尚靖博等: "基于清晰有理数均值的新匹配聚类算法", 《吉林大学学报(理学版)》 * |
赵曼等: "基于标签传递的异常检测算法研究", 《数据采集与处理》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852893A (zh) * | 2019-10-12 | 2020-02-28 | 中国平安财产保险股份有限公司 | 基于海量数据的风险识别方法、系统、设备及存储介质 |
CN112291424A (zh) * | 2020-10-29 | 2021-01-29 | 上海观安信息技术股份有限公司 | 一种诈骗号码识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ezawa et al. | Constructing Bayesian networks to predict uncollectible telecommunications accounts | |
WO2022257459A1 (zh) | 用户行为异常分析方法、装置、设备及存储介质 | |
CN111291900A (zh) | 训练风险识别模型的方法及装置 | |
CN107770263A (zh) | 一种基于边缘计算的物联网终端安全接入方法及系统 | |
CN107066616A (zh) | 用于账号处理的方法、装置及电子设备 | |
CN107563757A (zh) | 数据风险控制的方法及装置 | |
CN108090508A (zh) | 一种分类训练方法、装置及存储介质 | |
CN109831392A (zh) | 半监督网络流量分类方法 | |
CN106780121A (zh) | 一种基于用电负荷模式分析的用电异常识别方法 | |
CN106384273A (zh) | 恶意刷单检测系统及方法 | |
CN107146089A (zh) | 一种刷单识别方法及装置,电子设备 | |
CN110189134A (zh) | 基于疑似欺诈交易参照序位的网络支付反欺诈系统架构设计方法 | |
CN110113757A (zh) | 欺诈用户识别方法及系统 | |
CN104182474A (zh) | 一种预流失用户的识别方法 | |
CN110490392A (zh) | 网点配钞方法及装置 | |
CN109767312A (zh) | 一种信用评估模型训练、评估方法与装置 | |
CN108830645A (zh) | 一种访客流失预测方法及系统 | |
CN109842858A (zh) | 一种业务异常订购检测方法及装置 | |
CN109472453A (zh) | 基于全局最优模糊核聚类模型的电力用户信用评价方法 | |
Wong et al. | A decision support tool for apparel coordination through integrating the knowledge-based attribute evaluation expert system and the T–S fuzzy neural network | |
Choudhari et al. | Predictive to prescriptive analysis for customer churn in telecom industry using hybrid data mining techniques | |
CN104217088B (zh) | 运营商移动业务资源的优化方法与系统 | |
CN109308564A (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN103279944A (zh) | 一种基于生物地理优化的图像分割方法 | |
CN110288465A (zh) | 对象确定方法及装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |
|
RJ01 | Rejection of invention patent application after publication |