CN106385693B

CN106385693B - 针对虚拟号段的电信诈骗判断方法

Info

Publication number: CN106385693B
Application number: CN201610840634.7A
Authority: CN
Inventors: 靖小虎; 何施慧; 刘默蕾; 李镇洋
Original assignee: Changsha Chuangke Software Co Ltd
Current assignee: Changsha Chuangke Software Co Ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2020-02-07
Anticipated expiration: 2036-09-22
Also published as: CN106385693A

Abstract

本发明公开了一种针对虚拟号段的电信诈骗判断方法，包括获取警方电信诈骗案情数据和运营商通信数据；进行数据匹配，得到初始训练集；采用随机过采样方法得到正负类均衡样本；训练正负类均衡样本得到预测模型；将用户的虚拟号段呼入号码通信特征带入预测模型并得到判断结果。本发明通过已有的通信数据和公安局案情数据产生基本训练样本，并以该基本训练样本为基础，采用Adaboost模型对样本进行训练，从而得到最终的电信诈骗判定模型，并依据该判定模型对电话进行判定，因此本发明方法能够针对虚拟号段，快速准确判别该号码是否是电信诈骗，判别准确度高，而且算法计算快速简便，适用性好。

Description

针对虚拟号段的电信诈骗判断方法

技术领域

本发明具体涉及一种针对虚拟号段的电信诈骗判断方法。

背景技术

随着国家经济的发展和人们生活水平的提高，我国的电信事业发展十分迅速。截至到2015年底，我国电话用户数已经达到15.37亿户，而其中移动电话用户已达13.06亿户，4G用户达到3.86225亿户，中国已成为全球用户最多的通讯大国。

但是，在电信产业迅猛发展的同时，利用现代通讯技术和结算方式的便利进行的各种犯罪活动也日益猖獗起来。目前，电话的诈骗手段越来越多，很多让人防不胜防；此外，由于目前通信技术的成熟和各类电信软件的应用，我国已经出现了大量利用虚拟号段进行电信诈骗的案件。据统计，在居民通话中普通通话和诈骗通话的比例约为6000000:1，而虚拟号段的不均衡度约为50000:1。因此，在虚拟号段发生电信诈骗的可能性远远大于普通通话中发生电信诈骗的概率。

目前针对电话诈骗目前主要是通过媒体、社会宣传对诈骗活动进行披露，使人们提高警惕来达到防范作用，这种方式过度依赖人们的主观判断，因此，目前的电信诈骗，特别是虚拟号段的电信诈骗，其并不是特别容易进行分辨，这种诈骗方式仍有可能危害到人们的生活和工作。

发明内容

本发明的目的在于提供一种针对虚拟号段、能够快速准确判别该号码是否是电信诈骗的针对虚拟号段的电信诈骗判断方法。

本发明提供的这种针对虚拟号段的电信诈骗判断方法，包括如下步骤：

S1.获取警方电信诈骗案情数据和运营商通信数据；

S2.对步骤S1获取的数据进行匹配，得到初始训练集；

S3.对步骤S2得到的初始训练集，采用随机过采样方法得到正负类均衡样本；

S4.采用Adaboost模型对步骤S3得到的正负类均衡样本进行训练，得到预测模型；

S5.对用户的实时通话进行监测：若用户的呼入号码为虚拟号段，则将该呼入号码的通信特征带入步骤S4得到的预测模型，模型的输出结果即为该呼入号码为诈骗通话的判断结果。

步骤S1所述的警方电信诈骗案情数据包括报案时间和诈骗号码；所述的运营商通信数据为居民日常通信的标准信息，包括主叫号码、被叫号码、通话时间和通话时长。

步骤S2所述的对数据进行匹配，具体为采用如下步骤进行数据匹配：

A.调取过去若干天内运营商通信数据中的主叫号码和被叫号码；

B.将步骤A调取的号码与诈骗号码进行比对，标记出诈骗通话，并将剩余的通话标记为普通通话，从而得到初始训练集。

步骤S3所述的采用随机过采样方法得到正负类均衡样本，具体包括如下步骤：

对于训练集T_N＝{X,Y}，X∈R^q，Y∈{0,1}，N为训练集样本个数，q为模型输入的自变量个数，q为模型输入的自变量个数；

a.从训练集中随机抽取等量的普通类样本和诈骗类样本：

根据二项分布b(n,p)，随机生成N个取值为{0,1}的二元向量{x₁,...,x_n}，其中

p为自定义的0～1之间的值；同时定义

N₀+N₁＝1；其中N₀即为所有x_i＝0的个数，N₁为所有x_i＝1的个数；

从T_N中分别随机抽取N₀个普通类样本

和N₁个诈骗类样本并记

得到随机抽取的均衡样本T_s＝{X_s,Y_s}；

b.根据核函数K_H(·,x)生成最终的均衡样本X_b：

取核函数K_H为均值为x_i的正态分布；已知q为模型输入的自变量个数，N为样本数，sd_i(i＝1,…,q)为X_s中每一列的标准差；定义限制参数

则尺度矩阵为：

则均衡样本X_b为

X_b＝X_s+M_U·H

式中M_U为随机矩阵，其中每个元素的产生服从均值为0、方差为1的正态分布N(0,1)；同时令Y_b＝Y_s，则得到模型输入的最终均衡样本T_b＝{X_b,Y_b}。

步骤S4所述的采用Adaboost模型对得到的正负类均衡样本进行训练，得到预测模型，具体包括如下步骤：

1)对于均衡样本T_b＝{X_b,Y_b}，样本数量为N，自变量个数为q，初始化数据集的权值分布：

其中w_1,i为第m此迭代中第i个样本的权重，则向量D_m即为第m次迭代之初所有样本的权值；

2)以决策树模型为基本分类器，进行M次迭代，M为自然数，具体包括：

ⅰ.使用具有权值分布D_m的训练数据集，训练决策树模型，得到基本分类器G_m(x)：

G_m(x):X→{0,1}

即对每一个

ⅱ.计算G_m(x)在训练数据集上的分类误差率：

ⅲ.计算G_m(x)的系数：

ⅳ.更新训练数据集的权值分布：

D_m+1＝(w_m+1,1,...,w_m+1,N)

式中Z_m是规范化因子，其目的在于将样本权重的大小控制在(0,1)之间：

3)构建基本分类器的线性组合：

4)得到最终的分类器G(x)：

式中sign()为符号函数，即若f(x)为正，则sign()函数取值为1；若f(x)为负，则sign()函数取值为0。

所述的M的取值为3000～10000。

步骤S5所述的模型的输出结果即为该呼入号码为诈骗通话的判断结果，具体为若模型的输出结果为1，则判定该呼入号码为诈骗通话；若模型的输出结果为0，则判定为呼入号码为非诈骗电话。

本发明提供的这种针对虚拟号段的电信诈骗判断方法，通过已有的通信数据和公安局案情数据产生基本训练样本，并以该基本训练样本为基础，采用Adaboost模型对样本进行训练，从而得到最终的电信诈骗判定模型，并依据该判定模型对电话进行判定，因此本发明方法能够针对虚拟号段，快速准确判别该号码是否是电信诈骗，判别准确度高，而且算法计算快速简便，适用性好。

附图说明

图1为本发明的方法流程图。

具体实施方式

如图1所示为本发明的方法流程图；以下结合一个实施例对本发明方法进行进一步说明：

S1.获取警方电信诈骗案情数据和运营商通信数据；

所述的警方电信诈骗案情数据包括报案时间和诈骗号码；所述的运营商通信数据为居民日常通信的标准信息，包括主叫号码、被叫号码、通话时间和通话时长；

选择2016年某月十天作为训练样本时间段，提取运营商通话数据和警方电信诈骗案请数据。S2.对步骤S1获取的数据进行匹配，得到初始训练集；主要包括如下步骤：

B.将步骤A调取的号码与诈骗号码进行比对，标记出诈骗通话，并将剩余的通话标记为普通通话，从而得到初始训练集；

对运营商通信数据中的主叫号码、被叫号码与诈骗案情号码进行匹配，标记出诈骗通话，其余则标记为普通通话，得到模型的初始训练集。此次试验中虚拟号段通话量为约240w，其中诈骗通话约为80个，不均衡度为30000:1；自变量个数q＝12，因变量Y＝{0，1}，“0”表示普通通话，“1”表示诈骗通话；

S3.对步骤S2得到的初始训练集，采用随机过采样方法得到正负类均衡样本；具体包括如下步骤：

a.从训练集中随机抽取等量的普通类样本和诈骗类样本：

根据二项分布b(n,p)，随机生成240万个取值为{0,1}的二元向量{x₁,...,x_n}，其中

p为自定义的0～1之间的值；同时定义

从T_N中分别随机抽取N₀个普通类样本

和N₁个诈骗类样本

并记

得到随机抽取的均衡样本T_s＝{X_s,Y_s}；

b.根据核函数K_H(·,x)生成最终的均衡样本X_b：

取核函数K_H为均值为x_i的正态分布；已知q为模型输入的自变量个数12，N为样本数240万，sd_i(i＝1,…,12)为X_s中每一列的标准差；定义限制参数

则尺度矩阵为：

则均衡样本X_b为

X_b＝X_s+M_U·H

式中M_U为随机矩阵，其中每个元素的产生服从均值为0、方差为1的正态分布N(0,1)；同时令Y_b＝Y_s，则得到模型输入的最终均衡样本T_b＝{X_b,Y_b}

S4.采用Adaboost模型对步骤S3得到的正负类均衡样本进行训练，得到预测模型；具体包括如下步骤：

2)以决策树模型为基本分类器，进行M次迭代，M为自然数，根据经验及公开的论文研究，M取值为3000～10000之间模型即可收敛；具体包括：

G_m(x):X→{0,1}

即对每一个

ⅱ.计算G_m(x)在训练数据集上的分类误差率：

ⅲ.计算G_m(x)的系数：

ⅳ.更新训练数据集的权值分布：

D_m+1＝(w_m+1,1,...,w_m+1,N)

3)构建基本分类器的线性组合：

4)得到最终的分类器G(x)：

式中sign()为符号函数，即若f(x)为正，则sign()函数取值为1；若f(x)为负，则sign()函数取值为0；

S5.对用户的实时通话进行监测：若用户的呼入号码为虚拟号段，则将该呼入号码的通信特征带入步骤S4得到的预测模型，模型的输出结果即为该呼入号码为诈骗通话的判断结果，具体为若模型的输出结果为1，则判定该呼入号码为诈骗通话；若模型的输出结果为0，则判定为呼入号码为非诈骗电话。

Claims

1.一种针对虚拟号段的电信诈骗判断方法，包括如下步骤：

S1.获取警方电信诈骗案情数据和运营商通信数据；

S2.对步骤S1获取的数据进行匹配，得到初始训练集；

对于训练集T_N＝{X,Y}，X∈R^q，Y∈{0,1}，N为训练集样本个数，q为模型输入的自变量个数；

a.从训练集中随机抽取等量的普通类样本和诈骗类样本：

p为自定义的0～1之间的值；同时定义

N₀+N₁＝N；其中N₀即为所有x_i＝0的个数，N₁为所有x_i＝1的个数；

从T_N中分别随机抽取N₀个普通类样本

和N₁个诈骗类样本

并记得到随机抽取的均衡样本T_s＝{X_s,Y_s}；

b.根据核函数K_H(·,x)生成最终的均衡样本X_b：

取核函数K_H为均值为x_i的正态分布；已知q为模型输入的自变量个数，N为样本数，sd_i为X_s中每一列的标准差，i＝1,…,q；定义限制参数则尺度矩阵为：

则均衡样本X_b为

X_b＝X_s+M_U·H

式中M_U为随机矩阵，其中每个元素的产生服从均值为0、方差为1的正态分布N(0,1)；同时令Y_b＝Y_s，则得到模型输入的最终均衡样本T_b＝{X_b,Y_b}；

2.根据权利要求1所述的针对虚拟号段的电信诈骗判断方法，其特征在于步骤S1所述的警方电信诈骗案情数据包括报案时间和诈骗号码；所述的运营商通信数据为居民日常通信的标准信息，包括主叫号码、被叫号码、通话时间和通话时长。

3.根据权利要求1所述的针对虚拟号段的电信诈骗判断方法，其特征在于步骤S2所述的对数据进行匹配，具体为采用如下步骤进行数据匹配：

4.根据权利要求1～3之一所述的针对虚拟号段的电信诈骗判断方法，其特征在于步骤S4所述的采用Adaboost模型对得到的正负类均衡样本进行训练，得到预测模型，具体包括如下步骤：

G_m(x):X→{0,1}

即对每一个x_i∈X_b,

ⅱ.计算G_m(x)在训练数据集上的分类误差率：

ⅲ.计算G_m(x)的系数：

ⅳ.更新训练数据集的权值分布：

D_m+1＝(w_m+1,1,...,w_m+1,N)

3)构建基本分类器的线性组合：

4)得到最终的分类器G(x)：

5.根据权利要求4所述的针对虚拟号段的电信诈骗判断方法，其特征在于所述的M的取值为3000～10000。

6.根据权利要求1～3之一所述的针对虚拟号段的电信诈骗判断方法，其特征在于步骤S5所述的模型的输出结果即为该呼入号码为诈骗通话的判断结果，具体为若模型的输出结果为1，则判定该呼入号码为诈骗通话；若模型的输出结果为0，则判定为呼入号码为非诈骗电话。