一种漫游诈骗号码的识别方法
技术领域
本发明涉及一种漫游诈骗号码的识别方法,属于信息技术领域。
背景技术
移动通信技术方便了人们的生活和工作,为社会经济的发展做出了不可磨灭的贡献。然有明之处必有暗,近年来诈骗电话这类恶意行为屡禁不止,且不法分子为了避免被发现,不断变化诈骗手法。
根据调查,漫游到诈骗高发区实施诈骗的群体行为在近年公安打击案件中频频显现,但针对这种基于漫游行为的诈骗电话目前还未发现有较好的处置方案。因此,如何能基于漫游到诈骗高发地进行诈骗的行为特征,从现有话单中精确识别漫游诈骗号码,已成为移动运营商们为了打击诈骗电话而普遍关注的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种漫游诈骗号码的识别方法,能基于漫游到诈骗高发地进行诈骗的行为特征,从现有话单中精确识别漫游诈骗号码。
为了达到上述目的,本发明提供了一种漫游诈骗号码的识别方法,包括有:
步骤一、从数据库中获取所有待识别漫游号码的类型为主叫的话单,并按照待识别漫游号码的开卡渠道和开卡时间,将话单划分成多个开卡渠道-开卡时间组,其中,具有相同开卡渠道和开卡时间的待识别漫游号码的话单属于同一个开卡渠道-开卡时间组,然后根据每个开卡渠道-开卡时间组中所有待识别漫游号码的通信指标,分类确定疑似诈骗的开卡渠道-开卡时间组和非疑似诈骗的开卡渠道-开卡时间组,并据此计算所有待识别漫游号码的诈骗标识值,将所有待识别漫游号码的诈骗标识值构成一个诈骗标识集;
步骤二、选取多个特征属性构成特征属性集,选取的特征属性包括有:开卡渠道、开卡时间、天漫游占比、天主叫呼叫占比、漫游地区号是否属于GWD、是否属于疑似诈骗的开卡渠道-开卡时间组、天呼叫频次,构成的特征属性集是:C={c1、c2、c3、c4、c5、c6、c7},其中,c1为开卡渠道,c2为开卡时间,c3为天漫游占比,c4为天主叫呼叫占比,c5为漫游地区号是否属于GWD,c6为是否属于疑似诈骗的开卡渠道-开卡时间组,c7为天呼叫频次;
步骤三、根据待识别漫游号码的特征属性值,对所有待识别漫游号码进行M次诈骗号码的判定分类,将每次进行判定分类后获得的所有待识别漫游号码的诈骗特征分类判定值构成一个诈骗特征分类判定集,从而获得M个诈骗特征分类判定集;
步骤四、根据所获得的诈骗标识集和M个诈骗特征分类判定集,计算所有待识别漫游号码的诈骗判定值,以从所有待识别漫游号码中识别出其中的诈骗号码。
与现有技术相比,本发明的有益效果是:本发明首先通过漫游用户的渠道信息与用户计费话单,对漫游号码按开卡渠道-开卡时间分组,并根据漫游号码的通信指标,分类确定疑似诈骗的开卡渠道-开卡时间组和非疑似诈骗的开卡渠道-开卡时间组,据此计算每个漫游号码的诈骗标识值,生成漫游号码的诈骗标识集,然后构建特征属性集,有放回的进行M次随机选取K个特征属性对漫游号码进行分类判定,并根据M次判定结果获得漫游号码的诈骗判定集,最后根据诈骗标识集和诈骗判定集,从漫游号码中识别出其中的诈骗号码,从而能针对漫游到诈骗高发地进行诈骗的行为特征,对漫游诈骗号码进行精准识别。
附图说明
图1是本发明一种漫游诈骗号码的识别方法的流程图。
图2是图1步骤一的具体操作流程图。
图3是根据K个特征属性值获得每个待识别漫游号码的诈骗特征分类判定值的具体操作流程图。
图4是图1步骤四的具体操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种漫游诈骗号码的识别方法,包括有:
步骤一、从数据库中获取所有待识别漫游号码的类型为主叫的话单,并按照待识别漫游号码的开卡渠道和开卡时间,将话单划分成多个开卡渠道-开卡时间组,其中,具有相同开卡渠道和开卡时间的待识别漫游号码的话单属于同一个开卡渠道-开卡时间组,然后根据每个开卡渠道-开卡时间组中所有待识别漫游号码的通信指标,分类确定疑似诈骗的开卡渠道-开卡时间组和非疑似诈骗的开卡渠道-开卡时间组,并据此计算所有待识别漫游号码的诈骗标识值,将所有待识别漫游号码的诈骗标识值构成一个诈骗标识集;
步骤二、选取多个特征属性构成特征属性集;
步骤三、根据待识别漫游号码的特征属性值,对所有待识别漫游号码进行M次诈骗号码的判定分类,M的值可以根据实际业务需要而设定,将每次进行判定分类后获得的所有待识别漫游号码的诈骗特征分类判定值构成一个诈骗特征分类判定集,从而获得M个诈骗特征分类判定集;
步骤四、根据所获得的诈骗标识集和M个诈骗特征分类判定集,计算所有待识别漫游号码的诈骗判定值,以从所有待识别漫游号码中识别出其中的诈骗号码。
步骤一中,基于漫游诈骗号码所具有的特征,每个开卡渠道-开卡时间组中所有待识别漫游号码的通信指标可以包括有:天主叫占比、天漫游占比,其中,天主叫占比的计算公式可以如下:
call_rate(x)是号码x的天主叫占比,call_num(x)是号码x作为主叫时的周期通话频次,called_num(x)是号码x作为被叫时的周期通话频次,天漫游占比的计算公式可以如下:
其中roam_rate(x)是号码x的天漫游占比,roam_num(x)是号码x作为主叫时的周期漫游通话频次。
如图2所示,步骤一可以进一步包括有:
步骤11、根据每个待识别漫游号码的天主叫占比、天漫游占比和漫游地区号vregion,计算每个待识别漫游号码的疑似漫游诈骗值:
其中,ISrz(x)是号码x的疑似漫游诈骗值,vregion(x)是号码x的漫游地区号,GWD是漫游高发地区号集,例如:[2018年漫游诈骗案例号码的对应漫游地集合]∪[工信部下发的其他高发漫游地集合],call_rate(x)是号码x的天主叫占比,roam_rate(x)是号码x的天漫游占比,ω是权重系数,可以根据实际业务需要而设置,CP、RP分别是天主叫占比、天漫游占比的阈值,可以根据实际业务需要而设置,
表示一种运算符,含义如下:
步骤12、计算每个待识别漫游号码的疑似漫游诈骗标识值:
其中,
是号码x的疑似漫游诈骗标识值,δ是疑似漫游诈骗程度阈值,可以根据实际业务需要而设置;
步骤13、计算每个开卡渠道-开卡时间组的疑似问题渠道标识值:
其中,IScz(X)是开卡渠道-开卡时间组X的疑似问题渠道标识值,
是开卡渠道-开卡时间组X中的所有待识别漫游号码的疑似漫游诈骗标识值之和,
是开卡渠道-开卡时间组X中的号码x的疑似漫游诈骗标识值,CZP是渠道疑似问题号码个数值阈值,可以根据实际业务需要而设置;
步骤14、判断每个开卡渠道-开卡时间组的疑似问题渠道标识值是否为1?如果是,则表示该开卡渠道-开卡时间组是疑似诈骗的问题渠道,计算该开卡渠道-开卡时间组中的每个待识别漫游号码的诈骗标识值:
CN是天呼叫频次阈值,可以根据实际业务需要而设置;如果否,则表示该开卡渠道-开卡时间组是非疑似诈骗的问题渠道,计算该开卡渠道-开卡时间组中的每个待识别漫游号码的诈骗标识值:
其中,CP'是非问题渠道的天主叫占比阈值,CN'是非问题渠道的天呼叫频次阈值,可以根据实际业务需要而设置。
根据大量试验证明,当上述阈值设置如下时,本发明可以取得最优的技术效果:CP=0.8、RP=0.99、CZP=3、δ=0.99、CN=10、CP'=0.85、CN'=30。
步骤二中,选取的特征属性可以包括有:开卡渠道、开卡时间、天漫游占比、天主叫呼叫占比、漫游地区号是否属于GWD、是否属于疑似诈骗的开卡渠道-开卡时间组、天呼叫频次,构成的特征属性集可以是:C={c1、c2、c3、c4、c5、c6、c7},其中,c1为开卡渠道,c2为开卡时间,c3为天漫游占比,c4为天主叫呼叫占比,c5为漫游地区号是否属于GWD,c6为是否属于疑似诈骗的开卡渠道-开卡时间组,c7为天呼叫频次。
步骤三中,每个待识别漫游号码的特征属性值可以如下设置:将c1开卡渠道泛化为整数,每个不同的开卡渠道一一对应自增1整数,即{1,2,3,...};将c2开卡时间也泛化为一一对应的自增1整数,即{1,2,3,...};当c3天漫游占比大于或等于RP时,将c3设置为1,反之设置为0;当c4天主叫呼叫占比大于或等于CP时,将c4设置为1,反之设置为0;当c5漫游地区号属于GWD时,将c5设置为1,反之设置为0;当c6属于疑似诈骗的开卡渠道-开卡时间组时,将c6设置为1,反之设置为0;当c7天呼叫频次大于或等于CN时,将c7设置为1,反之设置为0。
步骤三中,对所有待识别漫游号码进行一次诈骗号码的判定分类,还可以进一步包括有:
从特征属性集中随机选取K个特征属性,计算所有待识别漫游号码的这K个特征属性值,并根据这K个特征属性值将每个待识别漫游号码进行诈骗号码的判定分类,获得每个待识别漫游号码的诈骗特征分类判定值,将所有待识别漫游号码的诈骗特征分类判定值构成一个诈骗特征分类判定集,K是一个小于特征属性集的特征属性总数的正整数,其值可以随机初始化获得。其中,如图3所示,根据K个特征属性值获得每个待识别漫游号码的诈骗特征分类判定值,还可以进一步包括有:
步骤31、判断所选取的K个特征属性中是否存在有开卡渠道或开卡时间?如果是,则根据开卡渠道或开卡时间,将所有待识别漫游号码划分成多个开卡渠道或开卡时间组,即具有相同开卡渠道或开卡时间的待识别漫游号码属于同一个开卡渠道或开卡时间组,然后继续下一步;如果否,则继续步骤33;
步骤32、逐一判断每个开卡渠道或开卡时间组中的每个待识别漫游号码的所有其他特征属性值是否是1,如果是,则该待识别漫游号码的诈骗特征分类判定值为1;如果否,则该待识别漫游号码的诈骗特征分类判定值为0,当判断完所有待识别漫游号码后,本流程结束;
步骤33、逐一判断每个待识别漫游号码的所有特征属性值是否是1,如果是,则该待识别漫游号码的诈骗特征分类判定值为1;如果否,则该待识别漫游号码的诈骗特征分类判定值为0。
如图4所示,步骤四还可以进一步包括有:
步骤41、比较每个待识别漫游号码在诈骗标识集中的诈骗标识值、和在每个诈骗特征分类判定集中的诈骗特征分类判定值是否相同,构建诈骗标识集和每个诈骗特征分类判定集的混淆矩阵:
其中,Z
j是诈骗标识集和第j个诈骗特征分类判定集的混淆矩阵,TP
j是诈骗标识值为1、在第j个诈骗特征分类判定集中的诈骗特征分类判定值也为1的待识别漫游号码总数,FN
j是诈骗标识值为1、但在第j个诈骗特征属性分类判定集中的诈骗特征分类判定值为0的待识别漫游号码总数,FP
j是诈骗标识值为0、但在第j个诈骗特征分类判定集中的诈骗特征分类判定值为1的待识别漫游号码总数,TN
j是诈骗标识值为0、在第j个诈骗特征分类判定集中的诈骗特征分类判定值也为0的待识别漫游号码总数;
步骤42、根据混淆矩阵,计算每个诈骗特征分类判定集的负例精确度和正例精确度:
其中,
是第j个诈骗特征分类判定集的负例精确度,
是第j个诈骗特征分类判定集的正例精确度;
步骤43、根据待识别漫游号码在每个诈骗特征分类判定集中的诈骗特征分类判定值、每个诈骗特征分类判定集的负例精确度和正例精确度,计算每个待识别漫游号码的诈骗判定值:
其中,p
i是第i个待识别漫游号码的诈骗判定值,
是第j个诈骗特征分类判定集中的第i个待识别漫游号码的诈骗特征分类判定值,由于
的值非1即0,
然后判断每个待识别漫游号码的诈骗判定值是否大于0,如果是,则将该待识别漫游号码的诈骗判定值更新为1;如果否,则将该待识别漫游号码的诈骗判定值更新为0;
步骤44、将所有待识别漫游号码的诈骗判定值构成一个诈骗判定集,比较每个待识别漫游号码在诈骗标识集中的诈骗标识值和在诈骗判定集中的诈骗判定值是否相同,构建诈骗标识集和诈骗判定集的混淆矩阵:
其中,TP是诈骗标识值为1、诈骗判定值也为1的待识别漫游号码总数,FN是诈骗标识值为1、但诈骗判定值为0的待识别漫游号码总数,FP是诈骗标识值为0、但诈骗判定值为1的待识别漫游号码总数,TN是诈骗标识值为0、诈骗判定值也为0的待识别漫游号码总数;
步骤45、计算诈骗判定集的负例精确度:Pre1=TN/(FN+TN),其中,Pre1是诈骗判定集的负例精确度;
步骤46、判断诈骗判定集的负例精确度是否大于或等于一个预先设置的阈值?如果是,则继续下一步;如果否,则对K重新随机初始化取值,然后转向步骤三;
步骤47、将诈骗判定集中诈骗判定值为1的待识别漫游号码作为疑似诈骗号码输出。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。