CN109168168B - 一种检测国际盗打的方法 - Google Patents
一种检测国际盗打的方法 Download PDFInfo
- Publication number
- CN109168168B CN109168168B CN201810742291.XA CN201810742291A CN109168168B CN 109168168 B CN109168168 B CN 109168168B CN 201810742291 A CN201810742291 A CN 201810742291A CN 109168168 B CN109168168 B CN 109168168B
- Authority
- CN
- China
- Prior art keywords
- call
- data
- international
- called
- detecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种检测国际盗打的方法,其特征在于,包括以下步骤:S1:读取数据:从informix数据库中提取出国际去话中的原始CDR话单数据;S2:特征工程:对上述原始CDR话单数据做初步筛选并获得通话行为特征;S3:模型检测:采用孤立森林算法和自定义算法分别检测判断基于通话行为特征的号码是否存在盗打行为;S4:加权求和判断:将孤立森林和自定义算法的结果加权求和,每一个号码加权后对应一个阈值,大于等于阈值为异常号码,小于阈值为正常号码。本发明的有益效果:该异常电话检测方法能够有效降低国际套结算的发生率及人工审核的工作量,从而最大限度的避免用户的经济损失,降低国际套结算发案率,为电话用户提供可信赖的通话服务。
Description
技术领域
本发明涉及信息技术领域,具体来说涉及一种检测国际盗打的方法。
背景技术
随着通信技术的发展,越来越多的不法分子借助软件与硬件通过通信技术盗用用户通信号码打往国外收费平台,以至于很多电话用户会产生非正常的高额的国际通话费用,不仅给用户带来了经济损失,还扰乱了正常社会秩序。
电话用户希望有一个安全的通话环境,减少和杜绝国际盗打的发生;国家安全部门、公安等政府部门、电信运营商等也希望能够通过技术途径打击套结算行为,给公众一个安全可信的通话环境。
发明内容
针对相关技术中的问题,本发明提出一种检测国际盗打的方法,降低国际盗打的案发率,提高电话用户的通话服务质量。
为了实现上述技术目的,本发明的技术方案是这样的:
一种检测国际盗打的方法,包括以下步骤:
S1:读取数据:从informix数据库中提取出国际去话中的原始CDR话单数据;
S2:特征工程:对上述原始CDR话单数据做初步筛选并获得通话行为特征;
S3:模型检测:采用孤立森林算法和自定义算法分别检测判断基于通话行为特征的号码是否存在盗打行为;
S4:加权求和判断:将孤立森林和自定义算法的结果加权求和,每一个号码加权后对应一个阈值,大于等于阈值为异常号码,小于阈值为正常号码。
进一步的,步骤S1中所述CDR话单数据包括:接入码、省编号、地市区号、运营商编号、局点编号、主叫号码、原被叫号码、被叫号码、呼叫开始时间、被叫应答时间、被叫按键时间、呼叫结束时间、被叫应答到按键的时间、用户在通话中的按键值、通话时长、主叫区号、原被叫所属区号、被叫号码区号、呼叫类型、拦截类型、中继号、源信令点编码、目的信令点编码、名单类型、灰名单稽核状态、号码类型、录音结果、录音状态、录音文件名、录音存放路径、录音开始时间、录音结束时间、号码隐藏类型、SCP 主机名、主叫发起地、真实被叫号码、通话费用。
进一步的,步骤S2中所述初步筛选是指对原始CDR话单数据中产生的0通话时长数据进行过滤。
进一步的,步骤S2中所述通话行为特征是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征,获得通话行为特征具体包括:主叫号码及被叫号码的拨打次数、通话时长、通话时间间隔及通话费率的分析。
进一步的,步骤S3中所述采用孤立森林算法检测具体包括如下:构建一棵隔离树时,从训练数据中随机选择Ψ个点样本,作为这个隔离数据的训练样本;随机指定一个维度,在当前这个维度的所有值范围内随机选一个切割点,对样本进行二叉划分,将样本中小于指定维度的数据样本划分到节点的左边,大于等于该指定维度的数据样本划分到节点的右边;重复上述切割过程,不断构造新的节点,直到数据本身不可再分或树的高度达到限定高度;
构建多棵隔离树,生成孤立森林,用来评测数据:对于一个训练数据,令其遍历每一棵隔离树,然后计算这个训练数据最终落在每棵树第几层(训练数据在树的高度),可以得出训练数据在每棵隔离树的高度平均值,如果落在一个节点中含多个训练数据,可以进行修正;得到高度平均值后与设定的阈值进行比较,低于此阈值的训练数据即为异常数据,对树的高度做归一化,并得出一个0到1的数值,即越短的高度越接近1,异常的可能性越高。
进一步的,步骤S3中所述自定义算法的具体步骤包括:S31:定义特征集合及异常号码集合;
S32:提取特征数量的百分比;
S33:构建子模型的数量;
S34:采用欧式距离、曼哈顿距离计算公式计算子模型到中心点的距离;
S35:计算各个子模型中包含的异常号码的数量,并将测试中异常号码的数量返回到各个模型的权重数组;
S36:测评集成模型运算结果。
进一步的,步骤S4中所述加权求和判断具体用到计算公式:
本发明的有益效果:将自定义算法与孤立森林算法相结合发挥更好的效果,准确检测异常号码;该异常电话检测方法能够有效降低国际套结算的发生率及人工审核的工作量,从而最大限度的避免用户的经济损失,降低国际套结算发案率,为电话用户提供可信赖的通话服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述一种检测国际盗打的方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种检测国际盗打的方法,包括以下步骤:
S1:读取数据:从informix数据库中提取出国际去话中的原始CDR话单数据;
S2:特征工程:对上述原始CDR话单数据做初步筛选并获得通话行为特征;
S3:模型检测:采用孤立森林算法和自定义算法综合检测判断基于通话行为特征的号码是否存在盗打行为;
S4:加权求和判断:将孤立森林和自定义算法的结果加权求和,每一个号码加权后对应一个阈值,大于等于阈值为异常号码,小于阈值为正常号码。
步骤S1中所述CDR话单数据包括:接入码、省编号、地市区号、运营商编号、局点编号、主叫号码、原被叫号码、被叫号码、呼叫开始时间、被叫应答时间、被叫按键时间、呼叫结束时间、被叫应答到按键的时间、用户在通话中的按键值、通话时长、主叫区号、原被叫所属区号、被叫号码区号、呼叫类型、拦截类型、中继号、源信令点编码、目的信令点编码、名单类型、灰名单稽核状态、号码类型、录音结果、录音状态、录音文件名、录音存放路径、录音开始时间、录音结束时间、号码隐藏类型、SCP 主机名、主叫发起地、真实被叫号码、通话费用。
步骤S2中所述初步筛选是指对原始CDR话单数据中产生的0通话时长数据进行过滤。国际通话与国内通话相比,遇到网络波动的概率很大,因此,会产生较多0通话时长。由于0时长通话时非通话双方主观意志产生的行为数据且模型是基于主观同行行为特征来检测是否存在盗打行为的,对于个人通信行为数据,需要剔除由于网络波动等系统故障产生的0通话时长数据。
步骤S2中所述通话行为特征是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征,获得通话行为特征具体包括:主叫号码及被叫号码的拨打次数、通话时长、通话时间间隔及通话费率的分析。
步骤S3中所述采用孤立森林算法检测具体包括:构建一棵隔离树时,从训练数据中随机选择Ψ个点样本,作为这个隔离数据的训练样本;随机指定一个维度,在当前这个维度的所有值范围内随机选一个切割点,对样本进行二叉划分,将样本中小于指定维度的数据样本划分到节点的左边,大于等于该指定维度的数据样本划分到节点的右边;重复上述切割过程,不断构造新的节点,直到数据本身不可再分或树的高度达到限定高度;
构建多个隔离树,训练结束,用生成的孤立森林来评测数据:对于一个训练数据,令其遍历每一棵隔离树,然后计算这个训练数据最终落在每个树第几层(训练数据在树的高度),可以得出训练数据在每棵隔离树的高度平均值,如果落在一个节点中含多个训练数据,可以进行修正;得到高度平均值后与设定的阈值进行比较,低于此阈值的训练数据即为异常数据,对树的高度做归一化,并得出一个0到1的数值,即越短的高度越接近1(异常的可能性越高)。
步骤S3中所述自定义算法的具体步骤包括:S31:定义特征集合及异常号码集合;
S32:提取特征数量的百分比;
S33:构建子模型的数量;
S34:采用欧式距离、曼哈顿距离计算公式计算子模型到中心点的距离;
S35:计算各个子模型中包含的异常号码的数量,并将测试中异常号码的数量返回到各个模型的权重数组;
S36:测评集成模型运算结果。
步骤S4中所述加权求和判断具体用到计算公式:
其中,p为孤立森林和自定义算法结果的组合,为模型对应的权重,和为孤立森林或自定义算法的检测结果;为模型的精准率,为模型的召回率;精准率=TP/(TP+TN),其中TP表示预测为正实际为正;=TP/(TP+FP),TP表示预测为正实际为正,FP表示预测为负实际为正。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种检测国际盗打的方法,其特征在于,包括以下步骤:
S1:读取数据:从informix数据库中提取出国际去话中的原始CDR话单数据;
S2:特征工程:对上述原始CDR话单数据做初步筛选并获得通话行为特征;
S3:模型检测:采用孤立森林算法和自定义算法分别检测判断基于通话行为特征的号码是否存在盗打行为,采用所述自定义算法检测时步骤为:首先定义特征集合及异常号码集合、提取特征数量的百分比,然后构建子模型的数量,并采用欧式距离、曼哈顿距离计算公式计算子模型到中心点的距离,进行计算各个子模型中包含的异常号码的数量,并将测试中异常号码的数量返回到各个模型的权重数组,最后测评集成模型运算结果;
S4:加权求和判断:针对每个号码,将孤立森林算法和自定义算法的检测结果加权求和后与该号码对应的阈值进行比较,若大于等于阈值,则该号码为异常号码,若小于阈值,则该号码为正常号码。
2.根据权利要求1所述的一种检测国际盗打的方法,其特征在于,步骤S1中所述CDR话单数据包括:接入码、省编号、地市区号、运营商编号、局点编号、主叫号码、原被叫号码、被叫号码、呼叫开始时间、被叫应答时间、被叫按键时间、呼叫结束时间、被叫应答到按键的时间、用户在通话中的按键值、通话时长、主叫区号、原被叫所属区号、被叫号码区号、呼叫类型、拦截类型、中继号、源信令点编码、目的信令点编码、名单类型、灰名单稽核状态、号码类型、录音结果、录音状态、录音文件名、录音存放路径、录音开始时间、录音结束时间、号码隐藏类型、SCP主机名、主叫发起地、真实被叫号码和通话费用。
3.根据权利要求2所述的一种检测国际盗打的方法,其特征在于,步骤S2中所述初步筛选是指对原始CDR话单数据中产生的0通话时长数据进行过滤;所述通话行为特征是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征,获得通话行为特征具体包括:主叫号码及被叫号码的拨打次数、通话时长、通话时间间隔及通话费率的分析。
4.根据权利要求1所述的一种检测国际盗打的方法,其特征在于,步骤S3中所述采用孤立森林算法检测具体包括如下:构建一棵隔离树时,从训练数据中随机选择Ψ个点样本,作为这棵隔离树的训练样本;随机指定一个维度,在当前这个维度的所有值范围内随机选一个切割点,对样本进行二叉划分,将样本中小于指定维度的数据样本划分到节点的左边,大于等于该指定维度的数据样本划分到节点的右边;重复左边和右边划分的过程,不断构造新的节点,直到数据本身不可再分或树的高度达到限定高度;
构建多棵隔离树,生成孤立森林,用来评测数据:对于一个训练数据,令其遍历每一棵隔离树,然后计算这个训练数据最终落在每棵树第几层,可以得出训练数据在每棵隔离树的高度平均值,如果落在一个节点中含多个训练数据,可以进行修正;得到高度平均值后与设定的阈值进行比较,低于此阈值的训练数据即为异常数据,对树的高度做归一化,并得出一个0到1的数值,即越短的高度越接近1,异常的可能性越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742291.XA CN109168168B (zh) | 2018-07-09 | 2018-07-09 | 一种检测国际盗打的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742291.XA CN109168168B (zh) | 2018-07-09 | 2018-07-09 | 一种检测国际盗打的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109168168A CN109168168A (zh) | 2019-01-08 |
CN109168168B true CN109168168B (zh) | 2021-11-30 |
Family
ID=64897458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810742291.XA Active CN109168168B (zh) | 2018-07-09 | 2018-07-09 | 一种检测国际盗打的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109168168B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019688B (zh) * | 2019-05-31 | 2021-12-31 | 中国电信股份有限公司 | 检测盗打固定电话的方法及装置 |
CN112243067B (zh) * | 2019-07-16 | 2021-09-10 | 中国移动通信集团浙江有限公司 | 一种防套拨方法、系统、服务器和存储介质 |
CN111160647B (zh) * | 2019-12-30 | 2023-08-22 | 第四范式(北京)技术有限公司 | 一种洗钱行为预测方法及装置 |
CN111918226B (zh) * | 2020-07-23 | 2022-01-07 | 广州市申迪计算机系统有限公司 | 基于实时信令的国际高结算盗打行为的分析方法及装置 |
CN112738806B (zh) * | 2020-12-21 | 2023-05-09 | 福建新大陆软件工程有限公司 | 一种国际盗打实时检测方法 |
CN114338916B (zh) * | 2022-03-11 | 2022-06-24 | 北京华油服务有限公司 | 一种盗打告警方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1835608A (zh) * | 2006-04-25 | 2006-09-20 | 沈阳昂立信息技术有限公司 | 短信二级网关及业务平台 |
CN102256255A (zh) * | 2011-04-18 | 2011-11-23 | 北京神州数码思特奇信息技术股份有限公司 | 一种基于时间和地理位置冲突的反并卡侦测方法 |
CN104602239A (zh) * | 2013-11-01 | 2015-05-06 | 中国移动通信集团四川有限公司 | 一种移动通信复制卡确定方法及系统 |
CN106202306A (zh) * | 2016-07-01 | 2016-12-07 | 大连博采科技有限公司 | 一种信息资源分类方法及系统 |
CN107133265A (zh) * | 2017-03-31 | 2017-09-05 | 咪咕动漫有限公司 | 一种识别行为异常用户的方法及装置 |
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN107968730A (zh) * | 2016-10-19 | 2018-04-27 | 中国电信股份有限公司 | 监测物联网卡被盗用的方法和系统 |
CN108154029A (zh) * | 2017-10-25 | 2018-06-12 | 上海观安信息技术股份有限公司 | 入侵检测方法、电子设备和计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9412024B2 (en) * | 2013-09-13 | 2016-08-09 | Interra Systems, Inc. | Visual descriptors based video quality assessment using outlier model |
CN108156131B (zh) * | 2017-10-27 | 2020-08-04 | 上海观安信息技术股份有限公司 | Webshell检测方法、电子设备和计算机存储介质 |
-
2018
- 2018-07-09 CN CN201810742291.XA patent/CN109168168B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1835608A (zh) * | 2006-04-25 | 2006-09-20 | 沈阳昂立信息技术有限公司 | 短信二级网关及业务平台 |
CN102256255A (zh) * | 2011-04-18 | 2011-11-23 | 北京神州数码思特奇信息技术股份有限公司 | 一种基于时间和地理位置冲突的反并卡侦测方法 |
CN104602239A (zh) * | 2013-11-01 | 2015-05-06 | 中国移动通信集团四川有限公司 | 一种移动通信复制卡确定方法及系统 |
CN106202306A (zh) * | 2016-07-01 | 2016-12-07 | 大连博采科技有限公司 | 一种信息资源分类方法及系统 |
CN107968730A (zh) * | 2016-10-19 | 2018-04-27 | 中国电信股份有限公司 | 监测物联网卡被盗用的方法和系统 |
CN107133265A (zh) * | 2017-03-31 | 2017-09-05 | 咪咕动漫有限公司 | 一种识别行为异常用户的方法及装置 |
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN108154029A (zh) * | 2017-10-25 | 2018-06-12 | 上海观安信息技术股份有限公司 | 入侵检测方法、电子设备和计算机存储介质 |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
Non-Patent Citations (1)
Title |
---|
基于瀑布型混合技术的异常检测算法;王茹雪等;《吉林大学学报(信息科学版)》;20170930;摘要,第1-4部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN109168168A (zh) | 2019-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109168168B (zh) | 一种检测国际盗打的方法 | |
Becker et al. | Fraud detection in telecommunications: History and lessons learned | |
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
CN106791220B (zh) | 防止电话诈骗的方法及系统 | |
CN106686264B (zh) | 一种诈骗电话筛选分析方法及系统 | |
CN108243049B (zh) | 电信欺诈识别方法及装置 | |
CN108133061A (zh) | 一种诈骗群体识别系统 | |
CN111917574B (zh) | 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截系统 | |
Arafat et al. | Detection of wangiri telecommunication fraud using ensemble learning | |
CA3057037A1 (en) | Systems and methods for anomaly or fraud detection | |
CN111131627B (zh) | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 | |
CN102546272B (zh) | 信息泄露检测方法、装置及系统 | |
CN114169438A (zh) | 一种电信网络诈骗识别方法、装置、设备及存储介质 | |
CN112351429B (zh) | 基于深度学习的有害信息检测方法及系统 | |
US20230344932A1 (en) | Systems and methods for use in detecting anomalous call behavior | |
Qayyum et al. | Fraudulent call detection for mobile networks | |
CN111930808B (zh) | 一种利用键值匹配模型提高黑名单准确率的方法及系统 | |
CN112153220B (zh) | 一种基于社交评价动态更新的通信行为识别方法 | |
Panigrahi et al. | Use of dempster-shafer theory and Bayesian inferencing for fraud detection in mobile communication networks | |
Wiens et al. | A new unsupervised user profiling approach for detecting toll fraud in VoIP networks | |
CN116170537A (zh) | 一种信息处理方法、设备及存储介质 | |
CN114205462A (zh) | 一种诈骗电话识别方法、装置、系统及计算机存储介质 | |
Gopal et al. | A rule-based approach for anomaly detection in subscriber usage pattern | |
US11758040B2 (en) | Systems and methods for use in blocking of robocall and scam call phone numbers | |
EP4203448A1 (en) | Systems and methods for use in blocking of robocall and scam call phone numbers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |