一种诈骗群体的识别方法
技术领域
本发明涉及一种诈骗群体的识别方法,属于信息技术领域。
背景技术
随着国家对通信信息诈骗技术防范工作不断深入,传统的电话诈骗得到了一定程度的遏制,但是犯罪团伙正在用复杂多变的手法开展新型诈骗。新型诈骗一般以团伙作案为基础,通常利用号码篡改,伪装等方式,针对特定个体展开有套路、有剧本的精准诈骗活动,这类欺诈活动通常会造成重大损失,具有极高的社会危害性。
因此,如何以群体为单位,全面且准确的识别由诈骗行为接近的诈骗号码所构成的诈骗群体,从而有效防范电话诈骗?已成为技术人员急需解决的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种诈骗群体的识别方法,能基于通话和短信话单,全面且准确的识别由诈骗行为接近的诈骗号码所构成的诈骗群体,从而有效防范电话诈骗。
为了达到上述目的,本发明提供了一种诈骗群体的识别方法,包括有:
步骤一、提取每对疑似诈骗号码和受害人号码之间的通话和短信话单,分别构建通话特征向量和短信特征向量,将所有疑似诈骗号码和受害人号码的通话特征向量和短信特征向量输入诈骗行为特征提取模型,从而获得每对疑似诈骗号码和受害人号码的诈骗特征指纹;
步骤二、根据每对疑似诈骗号码和受害人号码的诈骗特征指纹,识别每两个疑似诈骗号码之间的区别度,并将相互之间区别度低的疑似诈骗号码构成一个诈骗群体。
与现有技术相比,本发明的有益效果是:本发明提取每对疑似诈骗号码与受害人号码的通话与短信的融合特征向量,并通过诈骗行为特征提取模型,获取每对疑似诈骗号码和受害人号码的诈骗特征指纹,可以获得诈骗号码在进行诈骗时的行为特征,并为诈骗团伙的识别提供基础,然后通过识别每两个疑似诈骗号码之间的区别度,发现诈骗行为接近的诈骗群体成员组,进而识别出诈骗团伙。
附图说明
图1是本发明一种诈骗群体的识别方法的流程图。
图2是将所有疑似诈骗号码和受害人号码的通话特征向量和短信特征向量输入诈骗行为特征提取模型,诈骗行为特征提取模型的具体计算过程图。
图3是图1步骤2的具体操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种诈骗群体的识别方法,包括有:
步骤一、提取每对疑似诈骗号码和受害人号码之间的通话和短信话单,分别构建通话特征向量和短信特征向量,将所有疑似诈骗号码和受害人号码的通话特征向量和短信特征向量输入诈骗行为特征提取模型,从而获得每对疑似诈骗号码和受害人号码的诈骗特征指纹;其中,诈骗特征指纹用于标识每对疑似诈骗号码和受害人号码之间的诈骗行为程度;
步骤二、根据每对疑似诈骗号码和受害人号码的诈骗特征指纹,识别每两个疑似诈骗号码之间的区别度,并将相互之间区别度低的疑似诈骗号码构成一个诈骗群体。
步骤一中,构建通话特征向量的通话特征指标可以包括但不限于:呼叫频次、号码数、离散度、忙时率、通话间隔平均值、呼叫间隔平均值、通话时长平均值、振铃时长平均值、未接通振铃时长平均值、接通率、被叫释放率,构建短信特征向量的短信特征指标可以包括但不限于:短信收发次数、平均短信收发间隔、短信联系人离散度、平均短信长度、短信包含URL占比、短信关键词。
如图2所示,将所有疑似诈骗号码和受害人号码的通话特征向量和短信特征向量输入诈骗行为特征提取模型,诈骗行为特征提取模型的具体计算过程可以如下:
步骤11、将每对疑似诈骗号码和受害人号码的通话特征向量和短信特征向量组合成一个话单融和特征向量;可以通过拼接的方式,将通话特征向量和短信特征向量拼成一个话单融和特征向量;
步骤12、对每个话单融和特征向量进行归一化处理;
步骤13、采用聚类算法,基于各个话单融和特征向量之间的密度,将所有话单融和特征向量所对应的所有疑似诈骗号码和受害人号码分成多个诈骗簇,所述聚类算法可以采用dbscan算法;
步骤14、计算每个诈骗簇的诈骗行为程度值:其中,zd(c)是第c个诈骗簇的诈骗行为程度值,numc是第c个诈骗簇中的疑似诈骗号码和受害人号码对的总数,danger_rate(q)、victim_rate(q)分别是第c个诈骗簇中的第q对疑似诈骗号码的危险程度、和受害人号码的受害程度;
其中,danger_rate(q)、或victim_rate(q)的计算过程可以进一步包括有:按正常号码与诈骗号码的一定比例(例如7:3),提取通话和短信话单,然后计算通话特征与短信特征,采用GBDT算法构造回归树模型,从而计算得到每个疑似诈骗号码的危险程度、或受害人号码的受害程度;
步骤15、将所有诈骗簇按照其诈骗行为程度值从小到大的顺序进行排序,并按照逐一增1的顺序,设定每个诈骗簇的诈骗特征指纹,即排在第1位的诈骗簇的诈骗特征指纹是1,排在第2位的诈骗簇的诈骗特征指纹是2,如此类推;
步骤16、将每对疑似诈骗号码和受害人号码的诈骗特征指纹设为其所属诈骗簇的诈骗特征指纹。
可以从数据库中提取已确认的诈骗号码和受害人号码对应的通话特征向量和短信特征向量,对诈骗行为特征提取模型进行训练。
如图3所示,步骤二可以进一步包括有:
步骤21、将每个疑似诈骗号码的标志位设为0;
步骤22、提取一个标志位是0的疑似诈骗号码;
步骤23、构建一个新的诈骗群体成员组,并将所提取疑似诈骗号码加入到新建的诈骗群体成员组中;
步骤24、构建所提取疑似诈骗号码和每个其他疑似诈骗号码的2*n维的特征指纹矩阵:TZj,其中,TZj是所提取疑似诈骗号码和第j个其他疑似诈骗号码的特征指纹矩阵,n是所有受害人号码总数,TZj中的第1(或2)行第b列元素tzj 1b(或tzj 2b)是所提取疑似诈骗号码(或第j个其他疑似诈骗号码)和第b个受害人号码之间的诈骗特征指纹,若疑似诈骗号码和受害人号码之间无通信行为,则其值为0;
步骤25、根据所提取疑似诈骗号码、每个其他疑似诈骗号码和相同受害人号码的诈骗特征指纹,计算所提取疑似诈骗号码和每个其他疑似诈骗号码的区别度,并将区别度小于或等于阈值ε的其他疑似诈骗号码加入到步骤23中新建的诈骗群体成员组中;ε的值可以根据实际业务需要而设定,例如将ε初始化为2;
步骤26、将所提取疑似诈骗号码的标志位设为1;
步骤27、判断是否还存在有标志位是0的疑似诈骗号码?如果是,则转向步骤22;如果否,则继续下一步;
步骤28、计算所有诈骗群体成员组中的每个疑似诈骗号码的出现数,当疑似诈骗号码的出现数是2时,将其所属的两个诈骗群体成员组合并成一个诈骗群体成员组,当疑似诈骗号码的出现数大于2时,将其所属的所有诈骗群体成员组删除,并将该疑似诈骗号码的标志位”
设为0,更新ε=ε-0.2,ε是更新后的阈值,然后转向步骤27。
步骤25中,对于第j个其他疑似诈骗号码,可以进一步包括有:
步骤251、计算所提取疑似诈骗号码和第j个其他疑似诈骗号码的乘积向量:CTj,其中,CTj中的第z个元素ctz j=tzj 1z×tzj 2z,tzj 1z或tzj 2z分别是所提取疑似诈骗号码和第j个其他疑似诈骗号码的特征指纹矩阵TZj中的第1(或2)行第z列元素;
步骤252、计算所提取疑似诈骗号码和第j个其他疑似诈骗号码的乘积向量中非0的元素总数N0Sum(CTj);
步骤253、计算所提取疑似诈骗号码和第j个其他疑似诈骗号码的特征指纹矩阵TZj中的第1行向量中非0的元素总数N0Sum(TZj 1);
步骤254、判断是否且第j个其他疑似诈骗号码的标志位不是1?如果是,则继续下一步;如果否,则继续计算所提取疑似诈骗号码和其他疑似诈骗号码的区别度,本流程结束;
步骤255、计算所提取疑似诈骗号码和第j个其他疑似诈骗号码的区别度:其中,GN是所提取疑似诈骗号码和第j个其他疑似诈骗号码的相同受害人号码数,uz、ujz分别是所提取疑似诈骗号码、第j个其他疑似诈骗号码和第z个相同受害人号码的诈骗特征指纹;
步骤256、判断distancej是否小于或等于ε?如果是,则将第j个其他疑似诈骗号码加入到步骤23中新建的诈骗群体成员组中;如果否,则继续计算所提取疑似诈骗号码和其他疑似诈骗号码的区别度,本流程结束。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。