CN110751231A

CN110751231A - 一种基于无监督算法的养卡号码检测方法及系统

Info

Publication number: CN110751231A
Application number: CN201911044758.4A
Authority: CN
Inventors: 梁淑云; 刘胜; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-04
Anticipated expiration: 2039-10-30
Also published as: CN110751231B

Abstract

本发明实施例提供了一种基于无监督算法的养卡号码检测方法及系统，方法包括：1)、采集运营商电渠登录日志数据；2)、从登录日志数据中获取用户的登录行为特征，并将用户登录行为特征作为第一特征集合，将对应于用户登录行为特征的高维统计特征作为第二特征集合；3)、利用孤立森林算法识别出第一特征集合对应的各个异常群体；并使用聚类算法对第二特征集合中的特征进行聚类，得到若干个聚类，并根据登录行为特征的稳定性获取异常聚类；4)、根据异常群体所对应的号码中被聚类到异常聚类中的数量与，异常群体所对应的号码的比例，确定异常群体对应的号码是否属于养卡号码。应用本发明实施例，可以提高养卡号码识别的准确率。

Description

一种基于无监督算法的养卡号码检测方法及系统

技术领域

本发明涉及一种养卡识别方法及系统，具体涉及一种基于无监督算法的养卡号码检测方法及系统。

背景技术

随着互联网经济的快速发展，各种网络灰色产业也越来越多的浮现出来，其中，以羊毛党、刷分党等最为显著，这些人通过掌握的大量账号进行网络操作牟取非法利益。上述网络灰色产业的基础就是需要进行养卡操作，养卡是指某些人为了牟取不正当利益，利用某些漏洞或不正当手段获取大量已激活电话卡，这些卡虽然每月会正常缴纳使用费，但实际并没有人真正使用。如代理商可能为了获取运营商提供的酬金，批量激活电话卡制造虚假发展量。对于游走在灰色地带的羊毛党乃至进行诈骗的犯罪分子来说，拥有不同“身份”是其开始“职业生涯”的第一步，这也就意味着提供恶意注册、养卡的黑产从业者其实是互联网黑产或某些犯罪行为的源头，因此提高对养卡号码的识别技术，能够降低企业损失，有利于预防和阻止各类违法犯罪活动，同时维护了运营商的企业形象。

现有技术中通常采用半人工计算机处理的方式识别养卡号码，具体是：首先根据经验人工自定义养卡识别规则如用户的活跃情况等；然后根据自定义的识别规则，判断哪些号码属于养卡号码。

但是，发明人发现，现有的养卡号码识别方法需要根据样本数据及业务经验人工总结养卡号码识别规则及阈值，缺乏自适应能力，需依靠人不断总结新的识别规则及阈值，以防止规则被绕过。因此，现有技术中存在养卡号码识别准确率不高的技术问题。

发明内容

本发明所要解决的技术问题在于如何提供一种基于无监督算法的养卡号码检测方法及系统以提高养卡号码识别准确率。

本发明通过以下技术手段实现解决上述技术问题的：

本发明实施例提供了一种基于无监督算法的养卡号码检测方法，所述方法包括：

1)、采集运营商电渠登录日志数据；

2)、从登录日志数据中获取用户的登录行为特征，并将所述用户登录行为特征作为第一特征集合，将对应于所述用户登录行为特征的高维统计特征作为第二特征集合；

3)、利用孤立森林算法识别出第一特征集合对应的各个异常群体；并使用聚类算法对第二特征集合中的特征进行聚类，得到若干个聚类，并根据登录行为特征的稳定性获取异常聚类；

4)、根据异常群体所对应的号码中被聚类到异常聚类中的数量与，所述异常群体所对应的号码的比例，确定所述异常群体对应的号码是否属于养卡号码。

应用本发明实施例，根据登录日志中获取的用户的登录行为特征，先根据登录行为特征进行群体划分；然后根据登录行为特征的高维统计特征进行聚类，然后使用群体划分结果与聚类结果相互验证，提高了养卡号码识别的准确率。

可选的，所述第一特征集合，包括：

用户登录次数、用户登录IP数、用户登录IMEI数、用户登录失败占比、用户短时间间隔登录占比。

可选的，所述第二特征集合，包括：

用户登录次数、登录IP变动率、登录IMEI变动率、登录时间间隔变异系数。

可选的，所述根据登录行为特征的稳定性获取异常聚类，包括：

将聚类中包含的高维统计特征变化率低于第一预设阈值的聚类作为异常聚类，其中，高维统计特征变化率，包括：登录时间间隔。

可选的，所述步骤4)，包括：

获取异常群体中登录行为特征对应的号码的第一数量；

获取第一数量个号码中被聚类到异常聚类中的第二数量，且第二数量小于等于第一数量；

获取第二数量与第一数量的比值，并判断所述比值是否小于第二预设阈值；

若否，将所述异常群体中登录行为特征对应的所有号码作为养卡号码。

本发明实施例还提供了一种基于无监督算法的养卡号码检测系统，所述装置包括：

采集模块，用于采集运营商电渠登录日志数据；

获取模块，用于从登录日志数据中获取用户的登录行为特征，并将所述用户登录行为特征作为第一特征集合，将对应于所述用户登录行为特征的高维统计特征作为第二特征集合；

识别模块，用于利用孤立森林算法识别出第一特征集合对应的各个异常群体；并使用聚类算法对第二特征集合中的特征进行聚类，得到若干个聚类，并根据登录行为特征的稳定性获取异常聚类；

确定模块，用于根据异常群体所对应的号码中被聚类到异常聚类中的数量与，所述异常群体所对应的号码的比例，确定所述异常群体对应的号码是否属于养卡号码。

可选的，所述第一特征集合，包括：

可选的，所述第二特征集合，包括：

可选的，所述识别模块，用于：

可选的，所述确定模块，用于：

获取异常群体中登录行为特征对应的号码的第一数量；

本发明的优点在于：

附图说明

图1为本发明实施例提供的一种基于无监督算法的养卡号码检测方法的流程示意图；

图2为本发明实施例提供的一种基于无监督算法的养卡号码检测系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

S101：采集运营商电渠登录日志数据。

采集运营商电渠登录日志数据，包括但不限于用户名phonenumber(电话号码)、登录时间logindate，登录结果loginresult，登录IP，登录设备的IMEI(InternationalMobile Equipment Identity，国际移动设备识别码)等，其中，对于运营商电渠系统，用户名一般是指手机号码，本发明实施例中用户名、用户均指代用户的手机号码。所述IMEI为手机序列号、手机“串号”，用于在移动电话网络中识别每一部独立的手机等移动通信设备，相当于移动电话的身份证。

S102：从登录日志数据中获取用户的登录行为特征，并将所述用户登录行为特征作为第一特征集合，将对应于所述用户登录行为特征的高维统计特征作为第二特征集合。

所述第一特征集合，包括：用户登录次数、用户登录IP数、用户登录IMEI数、用户登录失败占比、用户短时间间隔登录占比，其中，用户登录失败占比为用户登录失败次数/用户登录次数的比值；用户短时间间隔登录占比特征构建过程如下：根据用户登录时刻以升序方式排序，计算每个用户当前登录时刻与上一次登录时刻的时间间隔，如果该时间间隔小于预设阈值3分钟，则算一次短时间间隔登录，进而统计出用户的短时间间隔登录次数，然后根据该次数与用户的所有登录次数的比值计算用户短时间间隔登录占比。

另外，所述第二特征集合，包括：用户登录次数、登录IP变动率、登录IMEI变动率、登录时间间隔变异系数中的一种或组合，其中，登录IP变动率特征构建过程如下：统计用户使用的IP剔重后计算所使用的不同IP的数量，然后将用户使用不同IP数/用户登录次数的比值作为登录IP变动率；登录时间间隔变异系数特征构建过程如下：根据用户登录时间以升序方式排序，计算每个用户当前登录时间与上一次登录时间的时间间隔，计算每个用户统计时间段内每次时间间隔的均值Mean以及标准差Std，根据变异系数计算公式

从而得到每个用户的登录时间间隔变异系数特征。

S103：利用孤立森林算法识别出第一特征集合对应的各个异常群体；并使用聚类算法对第二特征集合中的特征进行聚类，得到若干个聚类，并根据登录行为特征的稳定性获取异常聚类。

具体得，可以将聚类中包含的高维统计特征变化率低于第一预设阈值的聚类作为异常聚类，其中，高维统计特征变化率，包括：登录时间间隔。第一预设阈值可以为用户预先设置的一个值，可以通过多次单一因素变量试验确定出比较好的效果对应的第一预设阈值。

示例性的，对于第一特征集合，孤立森林算法属于无参数和无监督的算法，即不需要假设数据模型也不需要有label的训练模型，能够快速处理大规模的数据。在模型构建过程中，借助于二叉树，孤立森林用一个随机超平面来切割数据空间，切一次后可以生成两个子空间即左右孩子，之后再继续用随机一个超平面来切割每个子空间，循环下去，直到每个子空间没法再切为止。直观上来讲，可以发现那些密度很高的簇需要被切很多次才会停止切割，但那些密度很低的点就会很容易很早的停到一个子空间了，最后通过计算叶子节点到根节点之间的路径长度得到每个点的异常分值，那么对于行为一致的点会被切分到一个子空间，它们到根节点的路径也是相同的即异常分值相同。将第一特征集合featuerset1作为输入，通过孤立森林算法计算每条记录的异常分值，对于异常分值在0.5以上，分值相同的用户作为一个个群体(此处剔除群体内用户数小于20的群体)，同时给每个群体标注相应的序列号如群体1、群体2...群体N作为孤立森林模型的输出结果，其具体过程如下：

假设训练数据集中有M条数据，构建一颗iTree时，从M条数据中均匀抽样出n个样本，作为这颗树的训练样本即X＝{x1，...，xn}。在这些样本中，随机选一个特征，并在这个特征的值的分布范围内(介于最小值与最大值之间)随机选一个值，对样本X进行二叉划分，将样本中小于该值的划分到节点的左边，不小于该值的划分到节点的右边。这样得到了左、右两边的数据集，然后再在左右两边的数据集上重复上面的过程，直到两边都不能再继续切分下去为止。一般停止切分的条件有两个，一个是子数据集不能再切分即只包含一个样本，另一个是数据高度达到log2(n)。把所有iTree构建完成后。

然后将第一特征集合中的特征从根节点穿过中间的节点，到达叶子节点，所经过的路径长度记为h(x)。然后，利用公式，计算该特征的异常分值，其中，n为给定样本数，E(h(x))为n个样本中的样本x在其所在所有孤立树中的路径长度的期望值；c(n)为iTree的平均路径长度，且

H(n-1)＝ln(n-1)+0.5772156649为调和数。

示例性的，对于第二特征集合，K-means算法是一种较为典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。将特征集featureset2作为输入，通过K-means算法将每个用户分到不同的簇中。根据聚类算法类内间距较小，类间间距较大的评价标准，最终将用户聚成5类，模型效果最优。

所述K-means算法具体流程如下：1)首先确定一个K值即想把数据集聚成几类；

2)对每一类随机确定一个初始化的质心记为u_j；

3)逐个计算样本x_i到各个质心u_j的距离：d_ij＝||x_i-u_j||²，从而将x_i标记最小的d_ij所对应的簇λ_i，从而形成k个数据集C1，C2，...，Ck；

4)对于j＝1，2，...，k对数据集C1，C2...，Ck中所有样本点重新计算新的质心

5)如果有的簇的新的质心与之前的质心发生了变化，则重复步骤3)、4)，直到所有质心不再发生改变。如果所有的k个质心都没有发生变化，则结束即输出簇划分C＝{C1，C2...，Ck}。

通常情况下k的确定或者根据先验知识或者依据聚类方法的评价标准如轮廓系数、Calinski-Harabasz准则等进行确定。

本发明实施例中，通过Calinski-Harabasz准则中的公式，

进行计算，其中，

SSB簇间方差，

μ为所有样本的点的中心点，μ_i为第i个簇的中心点；k为聚类后簇的数量；N为预设的值；SSW为类内方差，

∑为求和函数；||x-μ_i||²为2阶范数；(N-k)/(k-1)为复杂度；C_i为i个簇。

在实际应用中，VRC_K值越大，聚类效果越好。通过假设k＝2，3，...，10计算VRC_K值，其中k＝5时，VRC_K值最大，从而选择K-means模型中k为5。

表1为本发明实施例中利用K-means算法得到聚类结果汇总表，如表1所示：

表1

类	登录次数	登录IP变动率	登录IMEI变动率	登录时间间隔变异系数	用户数
						0	7.683323	0.495624	0.149399	0.921279	109969
1	9.498386	0.916457	0.995312	0.481254	28185
						2	11.08179	0.145586	0.125659	1.249903	254142
3	25.37145	0.773846	0.08803	1.056492	81610
						4	7.920947	0.311217	0.143015	1.069379	201803

如表1所示，根据每类的类中心，结合业务，对于模型输出结果从业务上可解释为：

类0中用户登录次数较少，登录IP、IMEI变化率不大，同时登录时间间隔波动较大，属于正常群体；

类1中用户登录IP、IMEI变化率较大，同时登录时间间隔较稳定，属于疑似养卡群体；

类2中用户登录IP、IMEI变化率较小，同时登录时间间隔波动较大，属于正常群体；

类3中用户登录次数颇多，IP变化率较大、IMEI变化率较小，同时登录时间间隔波动较大，属于正常群体；

类4中用户登录IP、IMEI变化率不大，同时登录时间间隔波动较大，属于正常群体；更通俗些解释下特征，对于正常用户，IMEI是基本固定的，IP虽然是动态分配的，但短时间内也是相对稳定的，同时每个用户登录系统也存在一定的随机性即登录时间间隔波动较大，所以类0、类2、类3、类4属于正常群体，类3中IP变化率较大，可能是因为IP动态分配以及登录次数过多造成，而类1中用户IP、IMEI变化率较大，同时登录时间间隔较稳定，更像是养卡用户，因为养卡者一般通过设备如猫池或者某些技术手段保证每个用户的IP、IMEI不同来伪装成正常用户，同时防止通过一个号码的发现导致其它号码被发现。

S104：根据异常群体所对应的号码中被聚类到异常聚类中的数量与，所述异常群体所对应的号码的比例，确定所述异常群体对应的号码是否属于养卡号码。

具体的，可以获取异常群体中登录行为特征对应的号码的第一数量；获取第一数量个号码中被聚类到异常聚类中的第二数量，且第二数量小于等于第一数量；获取第二数量与第一数量的比值，并判断所述比值是否小于第二预设阈值；若否，将所述异常群体中登录行为特征对应的所有号码作为养卡号码。

关联S103中孤立森林模型的输出结果聚类模型的输出结果即类1疑似养卡的用户，针对孤立森林模型输出结果中群体1、群体2…群体N中的每一个群体，以群体1为例，群体1中有第一数量个，如100个号码。

如果群体1中的号码有第二数量个，如40个被聚类到类1中，则第二数量与第一数量的比值为0.4，在预设阈值为0.3的情况下，可以将这40个号码所属的群体1中的100号码都作为最终养卡号码。

不管是孤立森林模型还是K-means模型，准确率都不可能达到100％。一般情况下使用孤立森林算法仅用于检测异常，即异常分值越大用户越异常，本方案中考虑到孤立森林算法是树、节点、路径的思想计算用户异常分值，那么行为特征一致的用户具有相同或相似的分值，利用该思路实现不同于一般基于距离、夹角、密度等的用户相似性比较。孤立森林模型本身属于异常检测模型，对于正常用户来说，养卡号码属于异常，K-means本身属于聚类模型，两种模型的融合，更能体现异常群体检测这一目的，同时也能够细化K-means聚类的用户，即分成不同渠道的养卡群体。所以融合两种模型的结果，能够提高最终输出结果的准确率。

另外，本发明实施例基于运营商电渠登录日志数据，构建关于用户行为的特征工程，利用无监督异常检测算法识别出养卡号码，这种方法准确率高，误报率低，无需人工总结规则及标签数据。

最后，还可以根据获得的用户号码的激活时间、账单金额、月固定费、余额、使用情况等数据，采用相似性分析算法两两判断用户号码的相关数据是否具有相似性；然后采用分类算法将相关数据相似的用户号码组成一用户号码群；计算用户号码数量超过预设阈值的用户号码群的特征指标信息，包括：所述用户号码群中用户号码的养卡相关数据的平均状况信息和内部差异信息，根据计算的特征指标信息，判断用户号码群是否为养卡用户号码群。随着运营商清查养卡号码力度的增加以及某些基础技术的成熟化(如猫池等)，仅仅依靠号码使用情况如沉默、费用等特征的相似性识别养卡号码已稍显落后，从而直接影响到后面分类算法的应用结果的准确率。

大多数时候数据容易获得，而标签数据很难获得，与现有技术相比，本发明两种算法均属于无监督算法，不需要标签数据，可实施性较强。本发明实施例实现了融合树、距离两种模型识别养卡号码，该方法具有较高的准确率，较强的业务解释能力及可实施性。而且，使用孤立森林算法计算用户的相似度，不同于基于距离、夹角、密度等的用户相似性算法，该方法不受数值量纲的影响，相对来说效率较高；再者，使用聚类算法对用户进行分类，增加了模型的业务解释能力；最后通过融合孤立森林算法及聚类算法结果，最终输出结果准确率较高。

实施2

与本发明图1所示实施例相对应，本发明实施例还提供了一种基于无监督算法的养卡号码检测系统。

图2为本发明实施例提供的一种基于无监督算法的养卡号码检测系统的结构示意图，如图2所示，所述装置包括：

采集模块201，用于采集运营商电渠登录日志数据；

获取模块202，用于从登录日志数据中获取用户的登录行为特征，并将所述用户登录行为特征作为第一特征集合，将对应于所述用户登录行为特征的高维统计特征作为第二特征集合；

识别模块203，用于利用孤立森林算法识别出第一特征集合对应的各个异常群体；并使用聚类算法对第二特征集合中的特征进行聚类，得到若干个聚类，并根据登录行为特征的稳定性获取异常聚类；

确定模块204，用于根据异常群体所对应的号码中被聚类到异常聚类中的数量与，所述异常群体所对应的号码的比例，确定所述异常群体对应的号码是否属于养卡号码。

在本发明实施例的一种具体实施方式中，所述第一特征集合，包括：

用户登录次数、用户登录IP数、用户登录IMEI数、用户登录失败占比、用户短时间间隔登录占比中的一种或组合。

在本发明实施例的一种具体实施方式中，所述第二特征集合，包括：

用户登录次数、登录IP变动率、登录IMEI变动率、登录时间间隔变异系数中的一种或组合。

在本发明实施例的一种具体实施方式中，所述识别模块，用于：

在本发明实施例的一种具体实施方式中，所述确定模块，用于：

获取异常群体中登录行为特征对应的号码的第一数量；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于无监督算法的养卡号码检测方法，其特征在于，所述方法包括：

1)、采集运营商电渠登录日志数据；

2.根据权利要求1所述的一种基于无监督算法的养卡号码检测方法，其特征在于，所述第一特征集合，包括：

3.根据权利要求1所述的一种基于无监督算法的养卡号码检测方法，其特征在于，所述第二特征集合，包括：

4.根据权利要求1所述的一种基于无监督算法的养卡号码检测方法，其特征在于，所述根据登录行为特征的稳定性获取异常聚类，包括：

5.根据权利要求1所述的一种基于无监督算法的养卡号码检测方法，其特征在于，所述步骤4)，包括：

获取异常群体中登录行为特征对应的号码的第一数量；

6.一种基于无监督算法的养卡号码检测系统，其特征在于，所述装置包括：

采集模块，用于采集运营商电渠登录日志数据；

7.根据权利要求6所述的一种基于无监督算法的养卡号码检测系统，其特征在于，所述第一特征集合，包括：

8.根据权利要求6所述的一种基于无监督算法的养卡号码检测系统，其特征在于，所述第二特征集合，包括：

9.根据权利要求6所述的一种基于无监督算法的养卡号码检测系统，其特征在于，所述识别模块，用于：

10.根据权利要求6所述的一种基于无监督算法的养卡号码检测方法，其特征在于，所述确定模块，用于：

获取异常群体中登录行为特征对应的号码的第一数量；