CN111918226A - 基于实时信令的国际高结算盗打行为的分析方法及装置 - Google Patents
基于实时信令的国际高结算盗打行为的分析方法及装置 Download PDFInfo
- Publication number
- CN111918226A CN111918226A CN202010717544.5A CN202010717544A CN111918226A CN 111918226 A CN111918226 A CN 111918226A CN 202010717544 A CN202010717544 A CN 202010717544A CN 111918226 A CN111918226 A CN 111918226A
- Authority
- CN
- China
- Prior art keywords
- call
- international
- calling
- cdr
- calling number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/24—Accounting or billing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M15/00—Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
- H04M15/41—Billing record details, i.e. parameters, identifiers, structure of call data record [CDR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M15/00—Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
- H04M15/47—Fraud detection or prevention means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于实时信令的国际高结算盗打行为的分析方法及装置,所述方法包括如下步骤:步骤S1,利用kafka集群实时获取国际去话中的CDR话单数据;步骤S2,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;步骤S3,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征;步骤S4,将步骤S3获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断,输出预测结果。
Description
技术领域
本发明涉及通信技术领域,特别是涉及一种基于实时信令的国际高结算盗 打行为的分析方法及装置。
背景技术
伴随信息通信技术的快速发展,某些不法分子竟利用科技手段盗打国际长 途电话,其结果不仅给个人或国内运营商企业造成不必要的损失,同时也扰乱 了正常的通信秩序。电话用户希望有一个安全的通话环境,减少和杜绝国际盗 打的发生,某些部门、电信运营商等也希望通过技术途径打击盗打行为,给公 众一个安全可信的通话环境。
申请号为201810742291.X的中国专利申请公开了一种检测国际盗打的方 法,其提出了基于主叫号码按天频率分析的孤立森林分析方法,从informix数 据库中提取出国际去话中的原始CDR话单数据,是以天为基本单位基于国际去 话CDR数据记录来构造号码的国际去话通信行为特征。
但是,该专利申请基于数据库查询原始CDR话单,效率较低,分析周期 较长,按天进行分析,仅考虑主叫号码的模型分析,对于号段内轮流更换主叫 行为无法发现,对于分散主叫集中某一两个被叫号码盗打情况无法发现。
发明内容
为克服上述现有技术存在的不足,本发明之一目的在于提供一种基于实时 信令的国际高结算盗打行为的分析方法及装置,其通过Kafka消息中间件和 SparkStreaming流式处理技术以实现国际高结算行为的大数据实时分析,快速识 别盗打行为,以便实现有效自动拦截和封堵,降低损失。
本发明之另一目的在于提供一种基于实时信令的国际高结算盗打行为的 分析方法及装置,通过使用随机森林机器学习算法,构建大数据模型识别,可 有效提高国家高结算盗打行为的识别准确率,降低封堵的投诉率。
为达上述及其它目的,本发明提出一种基于实时信令的国际高结算盗打行 为的分析方法,包括如下步骤:
步骤S1,利用kafka集群实时获取国际去话中的CDR话单数据;
步骤S2,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;
步骤S3,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步 骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为 特征;
步骤S4,将步骤S3获得的国际去话通信行为特征向量输入基于随机森林 算法构建并训练好的相应的模型进行行为判断,输出预测结果。
优选地,于步骤S1之前,还包括如下步骤:
步骤S0,基于随机森林算法,构建主叫号码模型、主叫号段模型以及被叫 号码模型,利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征 向量集训练各模型。
优选地,步骤S0进一步包括:
步骤S001,利用kafka集群获取国际去话中的CDR话单数据。
步骤S002,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;
步骤S003,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于 步骤S002的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信 行为特征,得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向 量集;
步骤S004,对于每个所要构建的模型,分别利用步骤S003得到的主叫号 码特征向量集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采 样集;
步骤S005,为最终训练集中的每个采样集建立完全分裂的决策树;
步骤S006,根据得到的每一个决策树的结果采用多数投票法来计算新数据 的预测值。
优选地,于步骤S004中,在包括n个样本的主叫号码特征向量集或主叫 号段特征向量集或被叫号码特征向量集中,采用有放回的抽样方式选择m个样 本,构成1个采样集,抽样重复T次,得到T个包含m个样本的采样集,作为 每个所要构建的模型的最终训练集。
优选地,于步骤S005中,利用CART分类树算法为每个采样集建立一个 完全分裂、没有经过剪枝的决策树,并利用每个采样集分别对其训练,最终得 到多棵CART决策。
优选地,步骤S002与步骤S002进一步包括:
对不同来源、不同协议的CDR话单数据进行归一化处理;
根据高结算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹 配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过滤。
优选地,所述归一化处理后的CDR话单数据包括主叫号码、被叫号码、 源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时 间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家 码。
优选地,于步骤S3中,基于Spark Streaming技术对CDR话单数据进行流 式处理,按15分钟粒度对1小时的CDR话单数据进行切片分析,构造每15分 钟切片的国际去话通信行为特征的特征向量。
优选地,所构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号 段呼叫特征以及被叫号码呼叫特征。
为达到上述目的,本发明还提供一种基于实时信令的国际高结算盗打行为 的分析装置,包括:
CDR话单数据获取单元,用于利用kafka集群实时获取国际去话中的CDR 话单数据;
ETL处理单元,用于对获得的不同来源、不同协议的CDR话单数据进行 ETL处理;
通信行为特征构造单元,用于以1小时和主叫号码、主叫号段以及被叫号 码为基本单位,基于所述ETL处理单元的经ETL处理后的国际去话CDR话单 数据构造号码的国际去话通信行为特征;
预测分析单元,用于将所述通信行为特征构造单元获得的国际去话通信行 为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断, 输出预测结果。
与现有技术相比,本发明有如下有益效果:
1、本发明使用随机森林算法,基于CART决策树和投票算法对国际高结 算盗打行为的分析和识别属于首次使用,实践中比对发现比孤立森林分析方法 准确性较高。
2、本发明中考虑到各种国际盗打的场景,同时构建主叫号码,主叫号段, 被叫号码的模型,能有效覆盖多种国际盗打场景。
3、本发明中的模型预测使用15分钟切片滚动分析方法,极大提高预测和 处置效率,将国际盗打行为在开始阶段即可进行识别和处置,有效降低损失。
附图说明
图1为本发明一种基于实时信令的国际高结算盗打行为的分析方法的步骤 流程图;
图2为本发明具体实施例中基于实时信令的国际高结算盗打行为的分析过 程示意图;
图3为本发明具体实施例中模型构建示意图;
图4为本发明一种基于实时信令的国际高结算盗打行为的分析装置的系统 架构图;
图5为本发明实施例一种基于实时信令的国际高结算盗打行为的分析流程 图;
图6为本发明实施例中基于Spark Streaming技术的流式处理示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术 人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明 亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基 于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于实时信令的国际高结算盗打行为的分析方法的步骤 流程图,图2为本发明具体实施例中基于实时信令的国际高结算盗打行为的分 析过程示意图。如图1及图2所示,本发明一种基于实时信令的国际高结算盗 打行为的分析方法,包括如下步骤:
步骤S1,利用kafka集群实时获取国际去话中的CDR(Call Detail Record, 呼叫详细记录)话单数据。
Kafka是由Apache软件基金会开发的一个开源流处理平台,是一种高吞吐 量的分布式发布订阅消息系统。本发明分析的数据来源于运营省际长途和国际 长途的海量信令CDR详单,通过KAFKA消息中间件技术实现国际呼叫记录的 实时对接读取。
步骤S2,对获得的不同来源、不同协议的CDR话单数据进行ETL处理。 ETL,即为Extract-Transform-Load,指将数据从来源端经过抽取(extract)、转 换(transform)、加载(load)至目的端的过程。
具体地,步骤S2进一步包括:
步骤S200,对不同来源、不同协议的CDR话单数据进行归一化处理。
在本发明具体实施例中,归一化处理后的CDR话单数据包括主叫号码、 被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、 呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、 被叫国家码。
在本发明中,涉及的信令协议包括SIP和ISUP协议,对于不同来源、不 同协议,步骤S1获得的CDR话单数据包含的内容略有不同。具体地,对于ISUP 协议,其国际呼叫CDR话单数据字段为如下表1所示:
表1
字段名 | 含义 |
begin_time | 开始时间 |
state | 合成状态 |
stat_flag | 是否进行统计 |
end_time | 结束时间 |
host_id | host_id |
file_idx | file_idx |
offset | offset |
_province_ | 省编号 |
_city_ | 市编号 |
time_out | 超时时间 |
cdr_id | CDR标识 |
event0 | 事件序列 |
event1 | event1 |
event2 | event2 |
event3 | event3 |
resp_delay | 响应时延(ms) |
all_delay | 过程时长(s) |
opc | 源地址 |
dpc | 目的地址 |
cic | 电路识别码 |
pcm | 时隙编码 |
calling | 主叫 |
called | 被叫 |
called_org | 原被叫 |
call_result | 呼叫结果 |
call_cause | 释放原因 |
alert_delay | 振铃时延(ms) |
call_setup_delay | setup消息时延 |
answer_delay | 应答时延(s) |
call_len | 通话时长(s) |
abnormal | 异常呼叫统计 |
jtl_count | 接通系数 |
src_ip | 源ip |
dst_ip | 目的ip |
is_ho | 切换呼叫 |
对于SIP协议,其国际呼叫CDR话单数据字段为如下表2所示:
表2
对上述两种来源的CDR话单数据进行归一化处理后的CDR话单数据的数 据字段如下表3所示:
表3
步骤S201,根据被叫国家码对归一化处理后的CDR话单数据进行匹配过 滤,剔除非高结算国家的呼叫详单,比如美国、英国等不纳入高结算分析。并 根据系统白名单及特服号码对主叫号码进行匹配过滤,从而提升数据质量,降 低实际分析数据量,提升系统分析效率。
在本发明具体实施例中,预先通过配置表方式对高结算国家码及资费进行 动态配置,然后利用该配置表根据根据高结算国家码和被叫国家码对归一化处 理后的国际呼叫CDR话单数据进行过滤,即过滤非高结算国家的呼叫详单,比 如美国,英国,加拿大等一般不纳入高结算分析,例如本发明实施例中高结算 国家码及资费如下表4所示:
表4
英文国家 | 中文国家 | 国家码 | 直拨资费标准(元/分钟) |
PUERTO RICO1 | 波多黎各 | 1939 | 0.99 |
ALASKA | 美国阿拉斯加州 | 1907 | 0.99 |
GUAM | 关岛(美) | 1671 | 0.99 |
BRUNEI | 文莱 | 673 | 0.99 |
BERMUDA IS. | 百慕大群岛(英) | 1441 | 0.99 |
即不属于上述高结算国家的国际呼叫CDR话单数据即予以剔除。
步骤S3,以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基于 步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行 为特征。
在本发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫 特征、主叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具 体包括:
主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码被呼 时长秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接通率, 平均通话时长,历史累计呼叫次数,历史累计通话总时长,历史单次最高通话 时长;
主叫号段呼叫特征具体包括:主叫号段、各被叫号码被呼次数、各被叫号 码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、 历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长;
被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼次数、各被叫号 码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、 历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。
在本发明具体实施例中,假设步骤S2的经ETL处理后的国际去话CDR 话单数据如下表5所示:
表5
则构建该次行为的主叫号码呼叫特征如下表6:
表6
构建该次行为的主叫号段呼叫特征如下表7:
表7
构建该次行为的被叫号码呼叫特征如下表8:
表8
优选地,于步骤S3中,基于Spark Streaming技术对CDR话单数据进行流 式处理,按15分钟粒度对1小时的CDR话单数据进行切片分析,构造每15分 钟切片的国际去话通信行为特征的特征向量。
步骤S4,将步骤S3获得的国际去话通信行为特征向量输入基于随机森林 算法构建并训练好的相应的模型进行行为判断,输出预测结果。
在本发明具体实施例中,基于随机森林算法构建并训练好的模型包括主叫 号码模型、主叫号段模型以及被叫号码模型,在本发明具体实施例中,按15分 钟粒度对1小时的CDR话单数据进行切片分析,构造每15分钟切片的国际去 话通信行为特征的特征向量,每各15分钟进行一次预测,每次预测汇总当前时 间前4个15分钟切片内容(因为每15分钟的预测是需要分析的是1个小时的 呼叫行为特征,因此需要先汇总4个15分钟的数据,构建出1个小时的呼叫特 征后进行预测),将得到的国际去话通信行为特征向量输入相应的模型进行行为 判断(例如对于主叫号码呼叫特征则输入主叫号码模型进行预测,如果是主叫号段呼叫特征,则输入主叫号段模型进行预测),输出的预测结果包括主叫号码, 分析开始时间,分析截止时间,呼叫次数,来源省份,高结算国家及次数(国 家A|33,国家B|35),高结算国家及呼叫时长秒(国家A|330,国家B|350),预估 损失金额。
优选地,于步骤S1之前,还包括如下步骤:
步骤S0,基于随机森林算法,构建主叫号码模型、主叫号段模型以及被叫 号码模型,利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征 向量集训练各模型。
具体地,步骤S0进一步包括:
步骤S001,利用kafka集群获取国际去话中的CDR话单数据。
步骤S002,对获得的不同来源、不同协议的CDR话单数据进行ETL处理。
具体地,步骤S002进一步包括:
步骤S002-1,对不同来源、不同协议的CDR话单数据进行归一化处理。
在本发明中,涉及的信令协议包括SIP和ISUP协议,对于不同来源、不 同协议,步骤S1获得的CDR话单数据包含的内容略有不同,因此需要对不同 来源、不同协议的CDR话单数据进行归一化处理。在本发明具体实施例中,归 一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信 令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号 码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。
步骤S002-2,根据高结算国家码和被叫国家码对归一化处理后的CDR话 单数据进行匹配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过滤, 从而提升数据质量,降低实际分析数据量,提升系统分析效率。
步骤S003,以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基 于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信 行为特征,得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向 量集。
在本发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫 特征、主叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具 体包括:主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码 被呼时长秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接 通率,单次最高通话时长,平均通话时长,历史累计呼叫次数,历史累计通话 总时长,历史单次最高通话时长;主叫号段呼叫特征具体包括:主叫号段、各 被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次 数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史 单次最高通话时长;被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼 次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、 平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话 时长。
步骤S004,对于每个所要构建的模型,分别利用步骤S003得到的主叫号 码特征向量集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采 样集。具体地,在包括n个样本的主叫号码特征向量集中,采用有放回的抽样 方式选择m个样本,构成1个采样集,其中n>m。以上抽样重复T次,得到T个 包含m个样本的采样集,作为最终的训练集(采样集1,采样集2,……,采样集 T),如图3所示。同理,主叫号段特征向量集,被叫号码特征向量集也分别处 理,得到每个模型对应的最终训练集。
步骤S005,为最终训练集中的每个采样集建立完全分裂的决策树(即弱学 习器)。具体地,于步骤S005中,利用CART分类树算法为每个采样集建立一 个完全分裂、没有经过剪枝的决策树,并利用每个采样集分别对其训练,最终 得到多棵CART决策树。
于步骤S005中,具体的训练流程为:
循环,对i=1,...,T
对训练样本集进行抽样,得到抽样后的训练样本集
用抽样得到的样本集训练一个模型hi(x)
结束循环
输出模型组合h1(x),...,hT(x)
其中hi(x)为采样集i经过CART算法训练后的模型hi(x)。
这里需说明的是,在本发明中,主叫号码模型,主叫号段模型,被叫号码 模型是并行的处理流程,只是特征构建的维度不一样而已,处理过程是并行的 三个模型。
步骤S006,预测最终结果(强学习器):根据得到的每一个决策树的结果 采用多数投票法来计算最终结果的预测值。在上述步骤S005输出的模型组合 h1(x),...,hT(x)中,采用相对多数投票法的方法,票数大的获胜。
图4为本发明一种基于实时信令的国际高结算盗打行为的分析装置的系统 架构图。如图4所示,本发明一种基于实时信令的国际高结算盗打行为的分析 装置,包括:
CDR话单数据获取单元401,用于利用kafka集群实时获取国际去话中的 CDR(CallDetail Record,呼叫详细记录)话单数据。
ETL处理单元402,用于对获得的不同来源、不同协议的CDR话单数据进 行ETL处理。ETL,即为Extract-Transform-Load,指将数据从来源端经过抽取 (extract)、转换(transform)、加载(load)至目的端的过程。
具体地,ETL处理单元402进一步包括:
归一化处理模块,用于对不同来源、不同协议的CDR话单数据进行归一 化处理。
在本发明中,涉及的信令协议包括SIP和ISUP协议,对于不同来源、不 同协议,CDR话单数据获取单元401获得的CDR话单数据包含的内容略有不同, 因此,需要对不同来源、不同协议的CDR话单数据进行归一化处理。在本发明 具体实施例中,归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信 令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、 通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。
过滤模块,用于根据高结算国家码和被叫国家码对归一化处理后的CDR 话单数据进行匹配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过 滤,从而提升数据质量,降低实际分析数据量,提升系统分析效率。
在本发明具体实施例中,过滤模块通过预先配置表方式对高结算国家码及 资费进行动态配置,然后利用该配置表根据根据高结算国家码和被叫国家码对 归一化处理后的国际呼叫CDR话单数据进行过滤。
通信行为特征构造单元403,用于以1小时和主叫号码、主叫号段以及被 叫号码为基本单位,基于ETL处理单元402的经ETL处理后的国际去话CDR 话单数据构造号码的国际去话通信行为特征。
在本发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫 特征、主叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具 体包括:主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码 被呼时长秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接 通率,单次最高通话时长,平均通话时长,历史累计呼叫次数,历史累计通话 总时长,历史单次最高通话时长;主叫号段呼叫特征具体包括:主叫号段、各 被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次 数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史 单次最高通话时长;被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼 次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、 平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话 时长。
优选地,于通信行为特征构造单元403中,基于Spark Streaming技术对 CDR话单数据进行流式处理,按15分钟粒度对1小时的CDR话单数据进行切 片分析,构造每15分钟切片的国际去话通信行为特征的特征向量。
预测分析单元404,用于将通信行为特征构造单元403获得的国际去话通 信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判 断,输出预测结果。
在本发明具体实施例中,基于随机森林算法构建并训练好的模型包括主叫 号码模型、主叫号段模型以及被叫号码模型,在本发明具体实施例中,按15分 钟粒度对1小时的CDR话单数据进行切片分析,构造每15分钟切片的国际去 话通信行为特征的特征向量,每各15分钟进行一次预测,每次预测汇总当前时 间前4个15分钟切片内容,将得到的国际去话通信行为特征向量输入相应的模 型进行行为判断,输出的预测结果包括主叫号码,分析开始时间,分析截止时 间,呼叫次数,来源省份,高结算国家及次数(国家A|33,国家B|35),高结算 国家及呼叫时长秒(国家A|330,国家B|350),预估损失金额。
优选地,本发明一种基于实时信令的国际高结算盗打行为的分析装置,还 包括:
模型构建及训练单元,用于基于随机森林算法,构建主叫号码模型、主叫 号段模型以及被叫号码模型,利用主叫号码特征向量集、主叫号段特征向量集 以及被叫号码特征向量集训练各模型。
所述模型构建及训练单元具体用于:
利用kafka集群获取国际去话中的CDR话单数据。
对获得的不同来源、不同协议的CDR话单数据进行ETL处理,这里的ETL 处理包括对不同来源、不同协议的CDR话单数据进行归一化处理以及根据高结 算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹配过滤,并根据 系统白名单及特服号码对主叫号码进行匹配过滤
以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步骤S2 的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征, 得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向量集。在本 发明具体实施例中,构建的国际去话通信行为特征包括主叫号码呼叫特征、主 叫号段呼叫特征以及被叫号码呼叫特征,其中,主叫号码呼叫特征具体包括: 主叫号码,各被叫号码被呼次数(号码A|22#号码B|33),各被叫号码被呼时长 秒(号码A|220#号码B|330),拨打次数、通话时长,未拨通次数,接通率,单次最高通话时长,平均通话时长,历史累计呼叫次数,历史累计通话总时长, 历史单次最高通话时长;主叫号段呼叫特征具体包括:主叫号段、各被叫号码 被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通 率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高 通话时长;被叫号码呼叫特征具体包括:被叫号码、各被叫号码被呼次数、各 被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话 时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。
对于每个所要构建的模型,分别利用步骤S003得到的主叫号码特征向量 集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采样集。具体 地,在包括n个样本的主叫号码特征向量集中,采用有放回的抽样方式选择m 个样本,构成1个采样集,其中n>m。以上抽样重复T次,得到T个包含m个样 本的采样集,作为最终的训练集(采样集1,采样集2,……,采样集T)。。
为每个数据集建立完全分裂的决策树(即弱学习器)。具体地,利用CART 分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树,并利用 每个采样集分别对其训练,最终得到多棵CART决策树。具体的训练流程为:
循环,对i=1,...,T
对训练样本集进行抽样,得到抽样后的训练样本集
用抽样得到的样本集训练一个模型hi(x)
结束循环
输出模型组合h1(x),...,hT(x)
预测最终结果(强学习器):根据得到的每一个决策树的结果采用多数投 票法来计算新数据的预测值。在上述步骤S005输出的模型组合h1(x),...,hT(x)中, 采用相对多数投票法的方法,票数大的获胜。
实施例
图5为本发明实施例一种基于实时信令的国际高结算盗打行为的分析流程 图。在本实施例中,基于Spark Streaming技术实现流式处理。Spark Streaming 是一个粗粒度的框架,也就是只能对一批数据指定处理方法,核心是采用微批 次架构,从kafka集群中接收实时信令CDR数据,通过Spark Streaming流式处 理并实时分析后,输入相应的模型进行识别,最终投票预测结果为属于高结算 类型的,进行拦截/派单,投票预测结果为非高结算的,不做拦截,具体的基于 Spark Streaming技术的流式处理如图6所示。
在本实施例中,系统实时对接国际呼叫CDR数据,并按15分钟粒度进行 切片分析,系统每各15分钟进行一次预测,每次预测汇总当前时间前4个15 分钟切片内容,并输入相应模型进行行为判断,输出的预测结果包括主叫号码, 分析开始时间,分析截止时间,呼叫次数,来源省份,高结算国家及次数(国 家A|33,国家B|35),高结算国家及呼叫时长秒(国家A|330,国家B|350),预估 损失金额。
综上所述,本发明一种基于实时信令的国际高结算盗打行为的分析方法及 装置通过通过Kafka消息中间件和SparkStreaming流式处理技术实现国际高结算 行为的大数据实时分析,快速识别盗打行为,以便实现有效自动拦截和封堵, 降低损失,并通过使用随机森林机器学习算法,通过构建大数据模型识别,有 效提高国家高结算盗打行为的识别准确率,降低封堵的投诉率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。 任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行 修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于实时信令的国际高结算盗打行为的分析方法,包括如下步骤:
步骤S1,利用kafka集群实时获取国际去话中的CDR话单数据;
步骤S2,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;
步骤S3,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征;
步骤S4,将步骤S3获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断,输出预测结果。
2.如权利要求1所述的一种基于实时信令的国际高结算盗打行为的分析方法,其特征在于,于步骤S1之前,还包括如下步骤:
步骤S0,基于随机森林算法,构建主叫号码模型、主叫号段模型以及被叫号码模型,利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征向量集训练各模型。
3.如权利要求2所述的一种基于实时信令的国际高结算盗打行为的分析方法,其特征在于,步骤S0进一步包括:
步骤S001,利用kafka集群获取国际去话中的CDR话单数据。
步骤S002,对获得的不同来源、不同协议的CDR话单数据进行ETL处理;
步骤S003,以小时和主叫号码、主叫号段以及被叫号码为基本单位,基于步骤S002的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征,得到主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向量集;
步骤S004,对于每个所要构建的模型,分别利用步骤S003得到的主叫号码特征向量集,主叫号段特征向量集,被叫号码特征向量集,分别构建T个采样集;
步骤S005,为最终训练集中的每个采样集建立完全分裂的决策树;
步骤S006,根据得到的每一个决策树的结果采用多数投票法来计算新数据的预测值。
4.如权利要求3所述的一种基于实时信令的国际高结算盗打行为的分析方法:于步骤S004中,在包括n个样本的主叫号码特征向量集或主叫号段特征向量集或被叫号码特征向量集中,采用有放回的抽样方式选择m个样本,构成1个采样集,抽样重复T次,得到T个包含m个样本的采样集,作为每个所要构建的模型的最终训练集。
5.如权利要求4所述的一种基于实时信令的国际高结算盗打行为的分析方法:于步骤S005中,利用CART分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树,并利用每个采样集分别对其训练,最终得到多棵CART决策。
6.如权利要求1所述的一种基于实时信令的国际高结算盗打行为的分析方法,步骤S002与步骤S002进一步包括:
对不同来源、不同协议的CDR话单数据进行归一化处理;
根据高结算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹配过滤,并根据系统白名单及特服号码对主叫号码进行匹配过滤。
7.如权利要求6所述的一种基于实时信令的国际高结算盗打行为的分析方法:所述归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。
8.如权利要求1所述的一种基于实时信令的国际高结算盗打行为的分析方法:于步骤S3中,基于Spark Streaming技术对CDR话单数据进行流式处理,按15分钟粒度对1小时的CDR话单数据进行切片分析,构造每15分钟切片的国际去话通信行为特征的特征向量。
9.如权利要求8所述的一种基于实时信令的国际高结算盗打行为的分析方法:所构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号段呼叫特征以及被叫号码呼叫特征。
10.一种基于实时信令的国际高结算盗打行为的分析装置,包括:
CDR话单数据获取单元,用于利用kafka集群实时获取国际去话中的CDR话单数据;
ETL处理单元,用于对获得的不同来源、不同协议的CDR话单数据进行ETL处理;
通信行为特征构造单元,用于以1小时和主叫号码、主叫号段以及被叫号码为基本单位,基于所述ETL处理单元的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征;
预测分析单元,用于将所述通信行为特征构造单元获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断,输出预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010717544.5A CN111918226B (zh) | 2020-07-23 | 2020-07-23 | 基于实时信令的国际高结算盗打行为的分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010717544.5A CN111918226B (zh) | 2020-07-23 | 2020-07-23 | 基于实时信令的国际高结算盗打行为的分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111918226A true CN111918226A (zh) | 2020-11-10 |
CN111918226B CN111918226B (zh) | 2022-01-07 |
Family
ID=73281342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010717544.5A Active CN111918226B (zh) | 2020-07-23 | 2020-07-23 | 基于实时信令的国际高结算盗打行为的分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111918226B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112738806A (zh) * | 2020-12-21 | 2021-04-30 | 福建新大陆软件工程有限公司 | 一种国际盗打实时检测方法 |
CN114338916A (zh) * | 2022-03-11 | 2022-04-12 | 北京华油服务有限公司 | 一种盗打告警方法及系统 |
CN117354418A (zh) * | 2023-09-28 | 2024-01-05 | 中移互联网有限公司 | 一种呼叫行为监测方法、装置及存储介质 |
EP4440040A1 (en) * | 2023-03-31 | 2024-10-02 | Infobip Ltd. | Systems and methods for artificial network traffic detection |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103167091A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 恶意群呼电话反制装置和方法 |
CN106255116A (zh) * | 2016-08-24 | 2016-12-21 | 王瀚辰 | 一种骚扰号码的识别方法 |
US9729727B1 (en) * | 2016-11-18 | 2017-08-08 | Ibasis, Inc. | Fraud detection on a communication network |
CN107220261A (zh) * | 2016-03-22 | 2017-09-29 | 中国移动通信集团山西有限公司 | 一种基于分布式数据的实时挖掘方法及装置 |
CN108964957A (zh) * | 2017-05-24 | 2018-12-07 | 中兴通讯股份有限公司 | 一种数据通信业务质量监控的方法及大数据系统 |
CN109168168A (zh) * | 2018-07-09 | 2019-01-08 | 上海欣方智能系统有限公司 | 一种检测国际盗打的方法 |
-
2020
- 2020-07-23 CN CN202010717544.5A patent/CN111918226B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103167091A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 恶意群呼电话反制装置和方法 |
CN107220261A (zh) * | 2016-03-22 | 2017-09-29 | 中国移动通信集团山西有限公司 | 一种基于分布式数据的实时挖掘方法及装置 |
CN106255116A (zh) * | 2016-08-24 | 2016-12-21 | 王瀚辰 | 一种骚扰号码的识别方法 |
US9729727B1 (en) * | 2016-11-18 | 2017-08-08 | Ibasis, Inc. | Fraud detection on a communication network |
CN108964957A (zh) * | 2017-05-24 | 2018-12-07 | 中兴通讯股份有限公司 | 一种数据通信业务质量监控的方法及大数据系统 |
CN109168168A (zh) * | 2018-07-09 | 2019-01-08 | 上海欣方智能系统有限公司 | 一种检测国际盗打的方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112738806A (zh) * | 2020-12-21 | 2021-04-30 | 福建新大陆软件工程有限公司 | 一种国际盗打实时检测方法 |
CN112738806B (zh) * | 2020-12-21 | 2023-05-09 | 福建新大陆软件工程有限公司 | 一种国际盗打实时检测方法 |
CN114338916A (zh) * | 2022-03-11 | 2022-04-12 | 北京华油服务有限公司 | 一种盗打告警方法及系统 |
EP4440040A1 (en) * | 2023-03-31 | 2024-10-02 | Infobip Ltd. | Systems and methods for artificial network traffic detection |
WO2024199685A1 (en) * | 2023-03-31 | 2024-10-03 | Infobip Ltd. | Systems and methods for artificial network traffic detection |
CN117354418A (zh) * | 2023-09-28 | 2024-01-05 | 中移互联网有限公司 | 一种呼叫行为监测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111918226B (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111918226B (zh) | 基于实时信令的国际高结算盗打行为的分析方法及装置 | |
CN106550155B (zh) | 对可疑号码进行诈骗样本甄别归类及拦截的方法及系统 | |
CN107331385A (zh) | 一种骚扰电话的识别与拦截方法 | |
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
CN108156331A (zh) | 一种智能自动拨号外呼系统及方法 | |
CN104936182B (zh) | 一种智能管控诈骗电话的方法和系统 | |
CN111222025B (zh) | 一种基于卷积神经网络的诈骗号码识别方法及系统 | |
CN107819747B (zh) | 一种基于通信事件序列的电信诈骗关联分析系统和方法 | |
CN108133061A (zh) | 一种诈骗群体识别系统 | |
CN101686444B (zh) | 垃圾短信发送号码实时检测系统及方法 | |
CN114169438A (zh) | 一种电信网络诈骗识别方法、装置、设备及存储介质 | |
CN101350957A (zh) | 屏蔽垃圾短信的方法和设备 | |
CN109168168B (zh) | 一种检测国际盗打的方法 | |
CN113794805A (zh) | 一种goip诈骗电话的检测方法、检测系统 | |
US20080126098A1 (en) | Value added service network, ivr server and method for analyzing flow track in real time | |
CN106936997B (zh) | 一种基于社交关系图谱的垃圾语音识别方法和系统 | |
CN111147669A (zh) | 一种全量实时自动服务质检系统和方法 | |
CN109145050B (zh) | 一种计算设备 | |
CN104735272A (zh) | 一种骚扰电话的拦截方法及系统 | |
CN104410973A (zh) | 一种播放录音的诈骗电话识别方法和系统 | |
CN108156334A (zh) | 一种基于互联网获得诈骗场景的控制系统 | |
CN112511696A (zh) | 呼叫中心ai引擎不良内容鉴别系统及方法 | |
CN114338617A (zh) | 基于视频呼叫的音视频审核方法、非法号码识别方法 | |
CN103024206A (zh) | 一种基于电信网防范疑似电话诈骗的实现方法 | |
Alsadi et al. | Study to use NEO4J to analysis and detection SIM-BOX fraud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |