CN109168168B

CN109168168B - 一种检测国际盗打的方法

Info

Publication number: CN109168168B
Application number: CN201810742291.XA
Authority: CN
Inventors: 丁正; 顾晓东; 周红敏; 董伟; 卜小冲; 刘鑫
Original assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Current assignee: Shanghai Xinfang Software Co ltd; Shanghai Cintel Intelligent System Co ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2021-11-30
Anticipated expiration: 2038-07-09
Also published as: CN109168168A

Abstract

本发明公开了一种检测国际盗打的方法，其特征在于，包括以下步骤：S1：读取数据：从informix数据库中提取出国际去话中的原始CDR话单数据；S2：特征工程：对上述原始CDR话单数据做初步筛选并获得通话行为特征；S3：模型检测：采用孤立森林算法和自定义算法分别检测判断基于通话行为特征的号码是否存在盗打行为；S4：加权求和判断：将孤立森林和自定义算法的结果加权求和，每一个号码加权后对应一个阈值，大于等于阈值为异常号码，小于阈值为正常号码。本发明的有益效果：该异常电话检测方法能够有效降低国际套结算的发生率及人工审核的工作量，从而最大限度的避免用户的经济损失，降低国际套结算发案率，为电话用户提供可信赖的通话服务。

Description

一种检测国际盗打的方法

技术领域

本发明涉及信息技术领域，具体来说涉及一种检测国际盗打的方法。

背景技术

随着通信技术的发展，越来越多的不法分子借助软件与硬件通过通信技术盗用用户通信号码打往国外收费平台，以至于很多电话用户会产生非正常的高额的国际通话费用，不仅给用户带来了经济损失，还扰乱了正常社会秩序。

电话用户希望有一个安全的通话环境，减少和杜绝国际盗打的发生；国家安全部门、公安等政府部门、电信运营商等也希望能够通过技术途径打击套结算行为，给公众一个安全可信的通话环境。

发明内容

针对相关技术中的问题，本发明提出一种检测国际盗打的方法，降低国际盗打的案发率，提高电话用户的通话服务质量。

为了实现上述技术目的，本发明的技术方案是这样的：

一种检测国际盗打的方法，包括以下步骤：

S1：读取数据：从informix数据库中提取出国际去话中的原始CDR话单数据；

S2：特征工程：对上述原始CDR话单数据做初步筛选并获得通话行为特征；

S3：模型检测：采用孤立森林算法和自定义算法分别检测判断基于通话行为特征的号码是否存在盗打行为；

S4：加权求和判断：将孤立森林和自定义算法的结果加权求和，每一个号码加权后对应一个阈值，大于等于阈值为异常号码，小于阈值为正常号码。

进一步的，步骤S1中所述CDR话单数据包括：接入码、省编号、地市区号、运营商编号、局点编号、主叫号码、原被叫号码、被叫号码、呼叫开始时间、被叫应答时间、被叫按键时间、呼叫结束时间、被叫应答到按键的时间、用户在通话中的按键值、通话时长、主叫区号、原被叫所属区号、被叫号码区号、呼叫类型、拦截类型、中继号、源信令点编码、目的信令点编码、名单类型、灰名单稽核状态、号码类型、录音结果、录音状态、录音文件名、录音存放路径、录音开始时间、录音结束时间、号码隐藏类型、SCP 主机名、主叫发起地、真实被叫号码、通话费用。

进一步的，步骤S2中所述初步筛选是指对原始CDR话单数据中产生的0通话时长数据进行过滤。

进一步的，步骤S2中所述通话行为特征是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征，获得通话行为特征具体包括：主叫号码及被叫号码的拨打次数、通话时长、通话时间间隔及通话费率的分析。

进一步的，步骤S3中所述采用孤立森林算法检测具体包括如下：构建一棵隔离树时，从训练数据中随机选择Ψ个点样本，作为这个隔离数据的训练样本；随机指定一个维度，在当前这个维度的所有值范围内随机选一个切割点，对样本进行二叉划分，将样本中小于指定维度的数据样本划分到节点的左边，大于等于该指定维度的数据样本划分到节点的右边；重复上述切割过程，不断构造新的节点，直到数据本身不可再分或树的高度达到限定高度；

构建多棵隔离树，生成孤立森林，用来评测数据：对于一个训练数据，令其遍历每一棵隔离树，然后计算这个训练数据最终落在每棵树第几层（训练数据在树的高度），可以得出训练数据在每棵隔离树的高度平均值，如果落在一个节点中含多个训练数据，可以进行修正；得到高度平均值后与设定的阈值进行比较，低于此阈值的训练数据即为异常数据，对树的高度做归一化，并得出一个0到1的数值，即越短的高度越接近1，异常的可能性越高。

进一步的，步骤S3中所述自定义算法的具体步骤包括：S31：定义特征集合及异常号码集合；

S32：提取特征数量的百分比；

S33：构建子模型的数量；

S34：采用欧式距离、曼哈顿距离计算公式计算子模型到中心点的距离；

S35：计算各个子模型中包含的异常号码的数量，并将测试中异常号码的数量返回到各个模型的权重数组；

S36：测评集成模型运算结果。

进一步的，步骤S4中所述加权求和判断具体用到计算公式：

其中，p为孤立森林和自定义算法结果的组合，

为模型对应的权重，和

为孤立森林或自定义算法的检测结果；

为模型的精准率，

为模型的召回率。

本发明的有益效果：将自定义算法与孤立森林算法相结合发挥更好的效果，准确检测异常号码；该异常电话检测方法能够有效降低国际套结算的发生率及人工审核的工作量，从而最大限度的避免用户的经济损失，降低国际套结算发案率，为电话用户提供可信赖的通话服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述一种检测国际盗打的方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种检测国际盗打的方法，包括以下步骤：

S3：模型检测：采用孤立森林算法和自定义算法综合检测判断基于通话行为特征的号码是否存在盗打行为；

步骤S1中所述CDR话单数据包括：接入码、省编号、地市区号、运营商编号、局点编号、主叫号码、原被叫号码、被叫号码、呼叫开始时间、被叫应答时间、被叫按键时间、呼叫结束时间、被叫应答到按键的时间、用户在通话中的按键值、通话时长、主叫区号、原被叫所属区号、被叫号码区号、呼叫类型、拦截类型、中继号、源信令点编码、目的信令点编码、名单类型、灰名单稽核状态、号码类型、录音结果、录音状态、录音文件名、录音存放路径、录音开始时间、录音结束时间、号码隐藏类型、SCP 主机名、主叫发起地、真实被叫号码、通话费用。

步骤S2中所述初步筛选是指对原始CDR话单数据中产生的0通话时长数据进行过滤。国际通话与国内通话相比，遇到网络波动的概率很大，因此，会产生较多0通话时长。由于0时长通话时非通话双方主观意志产生的行为数据且模型是基于主观同行行为特征来检测是否存在盗打行为的，对于个人通信行为数据，需要剔除由于网络波动等系统故障产生的0通话时长数据。

步骤S2中所述通话行为特征是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征，获得通话行为特征具体包括：主叫号码及被叫号码的拨打次数、通话时长、通话时间间隔及通话费率的分析。

步骤S3中所述采用孤立森林算法检测具体包括：构建一棵隔离树时，从训练数据中随机选择Ψ个点样本，作为这个隔离数据的训练样本；随机指定一个维度，在当前这个维度的所有值范围内随机选一个切割点，对样本进行二叉划分，将样本中小于指定维度的数据样本划分到节点的左边，大于等于该指定维度的数据样本划分到节点的右边；重复上述切割过程，不断构造新的节点，直到数据本身不可再分或树的高度达到限定高度；

构建多个隔离树，训练结束，用生成的孤立森林来评测数据：对于一个训练数据，令其遍历每一棵隔离树，然后计算这个训练数据最终落在每个树第几层（训练数据在树的高度），可以得出训练数据在每棵隔离树的高度平均值，如果落在一个节点中含多个训练数据，可以进行修正；得到高度平均值后与设定的阈值进行比较，低于此阈值的训练数据即为异常数据，对树的高度做归一化，并得出一个0到1的数值，即越短的高度越接近1（异常的可能性越高）。

步骤S3中所述自定义算法的具体步骤包括：S31：定义特征集合及异常号码集合；

S32：提取特征数量的百分比；

S33：构建子模型的数量；

S36：测评集成模型运算结果。

步骤S4中所述加权求和判断具体用到计算公式：

其中，p为孤立森林和自定义算法结果的组合，

为模型对应的权重，和

为孤立森林或自定义算法的检测结果；

为模型的精准率，

为模型的召回率；精准率

=TP/(TP+TN)，其中TP表示预测为正实际为正；

=TP/(TP+FP)，TP表示预测为正实际为正，FP表示预测为负实际为正。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检测国际盗打的方法，其特征在于，包括以下步骤：

S3：模型检测：采用孤立森林算法和自定义算法分别检测判断基于通话行为特征的号码是否存在盗打行为，采用所述自定义算法检测时步骤为：首先定义特征集合及异常号码集合、提取特征数量的百分比，然后构建子模型的数量，并采用欧式距离、曼哈顿距离计算公式计算子模型到中心点的距离，进行计算各个子模型中包含的异常号码的数量，并将测试中异常号码的数量返回到各个模型的权重数组，最后测评集成模型运算结果；

S4：加权求和判断：针对每个号码，将孤立森林算法和自定义算法的检测结果加权求和后与该号码对应的阈值进行比较，若大于等于阈值，则该号码为异常号码，若小于阈值，则该号码为正常号码。

2.根据权利要求1所述的一种检测国际盗打的方法，其特征在于，步骤S1中所述CDR话单数据包括：接入码、省编号、地市区号、运营商编号、局点编号、主叫号码、原被叫号码、被叫号码、呼叫开始时间、被叫应答时间、被叫按键时间、呼叫结束时间、被叫应答到按键的时间、用户在通话中的按键值、通话时长、主叫区号、原被叫所属区号、被叫号码区号、呼叫类型、拦截类型、中继号、源信令点编码、目的信令点编码、名单类型、灰名单稽核状态、号码类型、录音结果、录音状态、录音文件名、录音存放路径、录音开始时间、录音结束时间、号码隐藏类型、SCP主机名、主叫发起地、真实被叫号码和通话费用。

3.根据权利要求2所述的一种检测国际盗打的方法，其特征在于，步骤S2中所述初步筛选是指对原始CDR话单数据中产生的0通话时长数据进行过滤；所述通话行为特征是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征，获得通话行为特征具体包括：主叫号码及被叫号码的拨打次数、通话时长、通话时间间隔及通话费率的分析。

4.根据权利要求1所述的一种检测国际盗打的方法，其特征在于，步骤S3中所述采用孤立森林算法检测具体包括如下：构建一棵隔离树时，从训练数据中随机选择Ψ个点样本，作为这棵隔离树的训练样本；随机指定一个维度，在当前这个维度的所有值范围内随机选一个切割点，对样本进行二叉划分，将样本中小于指定维度的数据样本划分到节点的左边，大于等于该指定维度的数据样本划分到节点的右边；重复左边和右边划分的过程，不断构造新的节点，直到数据本身不可再分或树的高度达到限定高度；

构建多棵隔离树，生成孤立森林，用来评测数据：对于一个训练数据，令其遍历每一棵隔离树，然后计算这个训练数据最终落在每棵树第几层，可以得出训练数据在每棵隔离树的高度平均值，如果落在一个节点中含多个训练数据，可以进行修正；得到高度平均值后与设定的阈值进行比较，低于此阈值的训练数据即为异常数据，对树的高度做归一化，并得出一个0到1的数值，即越短的高度越接近1，异常的可能性越高。