CN111918226A

CN111918226A - 基于实时信令的国际高结算盗打行为的分析方法及装置

Info

Publication number: CN111918226A
Application number: CN202010717544.5A
Authority: CN
Inventors: 林坚宏
Original assignee: Guangzhou Sendi Computer System Co ltd
Current assignee: Guangzhou Sendi Computer System Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-10
Anticipated expiration: 2040-07-23
Also published as: CN111918226B

Abstract

本发明公开了一种基于实时信令的国际高结算盗打行为的分析方法及装置，所述方法包括如下步骤：步骤S1，利用kafka集群实时获取国际去话中的CDR话单数据；步骤S2，对获得的不同来源、不同协议的CDR话单数据进行ETL处理；步骤S3，以小时和主叫号码、主叫号段以及被叫号码为基本单位，基于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征；步骤S4，将步骤S3获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断，输出预测结果。

Description

基于实时信令的国际高结算盗打行为的分析方法及装置

技术领域

本发明涉及通信技术领域，特别是涉及一种基于实时信令的国际高结算盗打行为的分析方法及装置。

背景技术

伴随信息通信技术的快速发展，某些不法分子竟利用科技手段盗打国际长途电话，其结果不仅给个人或国内运营商企业造成不必要的损失，同时也扰乱了正常的通信秩序。电话用户希望有一个安全的通话环境，减少和杜绝国际盗打的发生，某些部门、电信运营商等也希望通过技术途径打击盗打行为，给公众一个安全可信的通话环境。

申请号为201810742291.X的中国专利申请公开了一种检测国际盗打的方法，其提出了基于主叫号码按天频率分析的孤立森林分析方法，从informix数据库中提取出国际去话中的原始CDR话单数据，是以天为基本单位基于国际去话CDR数据记录来构造号码的国际去话通信行为特征。

但是，该专利申请基于数据库查询原始CDR话单，效率较低，分析周期较长，按天进行分析，仅考虑主叫号码的模型分析，对于号段内轮流更换主叫行为无法发现，对于分散主叫集中某一两个被叫号码盗打情况无法发现。

发明内容

为克服上述现有技术存在的不足，本发明之一目的在于提供一种基于实时信令的国际高结算盗打行为的分析方法及装置，其通过Kafka消息中间件和 SparkStreaming流式处理技术以实现国际高结算行为的大数据实时分析，快速识别盗打行为，以便实现有效自动拦截和封堵，降低损失。

本发明之另一目的在于提供一种基于实时信令的国际高结算盗打行为的分析方法及装置，通过使用随机森林机器学习算法，构建大数据模型识别，可有效提高国家高结算盗打行为的识别准确率，降低封堵的投诉率。

为达上述及其它目的，本发明提出一种基于实时信令的国际高结算盗打行为的分析方法，包括如下步骤：

步骤S1，利用kafka集群实时获取国际去话中的CDR话单数据；

步骤S2，对获得的不同来源、不同协议的CDR话单数据进行ETL处理；

步骤S3，以小时和主叫号码、主叫号段以及被叫号码为基本单位，基于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征；

步骤S4，将步骤S3获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断，输出预测结果。

优选地，于步骤S1之前，还包括如下步骤：

步骤S0，基于随机森林算法，构建主叫号码模型、主叫号段模型以及被叫号码模型，利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征向量集训练各模型。

优选地，步骤S0进一步包括：

步骤S001，利用kafka集群获取国际去话中的CDR话单数据。

步骤S002，对获得的不同来源、不同协议的CDR话单数据进行ETL处理；

步骤S003，以小时和主叫号码、主叫号段以及被叫号码为基本单位，基于步骤S002的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征，得到主叫号码特征向量集，主叫号段特征向量集，被叫号码特征向量集；

步骤S004，对于每个所要构建的模型，分别利用步骤S003得到的主叫号码特征向量集，主叫号段特征向量集，被叫号码特征向量集，分别构建T个采样集；

步骤S005，为最终训练集中的每个采样集建立完全分裂的决策树；

步骤S006，根据得到的每一个决策树的结果采用多数投票法来计算新数据的预测值。

优选地，于步骤S004中，在包括n个样本的主叫号码特征向量集或主叫号段特征向量集或被叫号码特征向量集中，采用有放回的抽样方式选择m个样本，构成1个采样集，抽样重复T次，得到T个包含m个样本的采样集，作为每个所要构建的模型的最终训练集。

优选地，于步骤S005中，利用CART分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树，并利用每个采样集分别对其训练，最终得到多棵CART决策。

优选地，步骤S002与步骤S002进一步包括：

对不同来源、不同协议的CDR话单数据进行归一化处理；

根据高结算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹配过滤，并根据系统白名单及特服号码对主叫号码进行匹配过滤。

优选地，所述归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

优选地，于步骤S3中，基于Spark Streaming技术对CDR话单数据进行流式处理，按15分钟粒度对1小时的CDR话单数据进行切片分析，构造每15分钟切片的国际去话通信行为特征的特征向量。

优选地，所构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号段呼叫特征以及被叫号码呼叫特征。

为达到上述目的，本发明还提供一种基于实时信令的国际高结算盗打行为的分析装置，包括：

CDR话单数据获取单元，用于利用kafka集群实时获取国际去话中的CDR 话单数据；

ETL处理单元，用于对获得的不同来源、不同协议的CDR话单数据进行 ETL处理；

通信行为特征构造单元，用于以1小时和主叫号码、主叫号段以及被叫号码为基本单位，基于所述ETL处理单元的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征；

预测分析单元，用于将所述通信行为特征构造单元获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断，输出预测结果。

与现有技术相比，本发明有如下有益效果：

1、本发明使用随机森林算法，基于CART决策树和投票算法对国际高结算盗打行为的分析和识别属于首次使用，实践中比对发现比孤立森林分析方法准确性较高。

2、本发明中考虑到各种国际盗打的场景，同时构建主叫号码，主叫号段，被叫号码的模型，能有效覆盖多种国际盗打场景。

3、本发明中的模型预测使用15分钟切片滚动分析方法，极大提高预测和处置效率，将国际盗打行为在开始阶段即可进行识别和处置，有效降低损失。

附图说明

图1为本发明一种基于实时信令的国际高结算盗打行为的分析方法的步骤流程图；

图2为本发明具体实施例中基于实时信令的国际高结算盗打行为的分析过程示意图；

图3为本发明具体实施例中模型构建示意图；

图4为本发明一种基于实时信令的国际高结算盗打行为的分析装置的系统架构图；

图5为本发明实施例一种基于实时信令的国际高结算盗打行为的分析流程图；

图6为本发明实施例中基于Spark Streaming技术的流式处理示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于实时信令的国际高结算盗打行为的分析方法的步骤流程图，图2为本发明具体实施例中基于实时信令的国际高结算盗打行为的分析过程示意图。如图1及图2所示，本发明一种基于实时信令的国际高结算盗打行为的分析方法，包括如下步骤：

步骤S1，利用kafka集群实时获取国际去话中的CDR(Call Detail Record，呼叫详细记录)话单数据。

Kafka是由Apache软件基金会开发的一个开源流处理平台，是一种高吞吐量的分布式发布订阅消息系统。本发明分析的数据来源于运营省际长途和国际长途的海量信令CDR详单，通过KAFKA消息中间件技术实现国际呼叫记录的实时对接读取。

步骤S2，对获得的不同来源、不同协议的CDR话单数据进行ETL处理。 ETL，即为Extract-Transform-Load，指将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

具体地，步骤S2进一步包括：

步骤S200，对不同来源、不同协议的CDR话单数据进行归一化处理。

在本发明具体实施例中，归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

在本发明中，涉及的信令协议包括SIP和ISUP协议，对于不同来源、不同协议，步骤S1获得的CDR话单数据包含的内容略有不同。具体地，对于ISUP 协议，其国际呼叫CDR话单数据字段为如下表1所示：

表1

字段名	含义
		begin_time	开始时间
state	合成状态
		stat_flag	是否进行统计
end_time	结束时间
		host_id	host_id
file_idx	file_idx
		offset	offset
_province_	省编号
		_city_	市编号
time_out	超时时间
		cdr_id	CDR标识
event0	事件序列
		event1	event1
event2	event2
		event3	event3
resp_delay	响应时延(ms)
		all_delay	过程时长(s)
opc	源地址
		dpc	目的地址
cic	电路识别码
		pcm	时隙编码
calling	主叫
		called	被叫
called_org	原被叫
		call_result	呼叫结果
call_cause	释放原因
		alert_delay	振铃时延(ms)
call_setup_delay	setup消息时延
		answer_delay	应答时延(s)
call_len	通话时长(s)
		abnormal	异常呼叫统计
jtl_count	接通系数
		src_ip	源ip
dst_ip	目的ip
		is_ho	切换呼叫

对于SIP协议，其国际呼叫CDR话单数据字段为如下表2所示：

表2

对上述两种来源的CDR话单数据进行归一化处理后的CDR话单数据的数据字段如下表3所示：

表3

步骤S201，根据被叫国家码对归一化处理后的CDR话单数据进行匹配过滤，剔除非高结算国家的呼叫详单，比如美国、英国等不纳入高结算分析。并根据系统白名单及特服号码对主叫号码进行匹配过滤，从而提升数据质量，降低实际分析数据量，提升系统分析效率。

在本发明具体实施例中，预先通过配置表方式对高结算国家码及资费进行动态配置，然后利用该配置表根据根据高结算国家码和被叫国家码对归一化处理后的国际呼叫CDR话单数据进行过滤，即过滤非高结算国家的呼叫详单，比如美国，英国，加拿大等一般不纳入高结算分析，例如本发明实施例中高结算国家码及资费如下表4所示：

表4

英文国家	中文国家	国家码	直拨资费标准(元/分钟)
				PUERTO RICO1	波多黎各	1939	0.99
ALASKA	美国阿拉斯加州	1907	0.99
				GUAM	关岛(美)	1671	0.99
BRUNEI	文莱	673	0.99
				BERMUDA IS.	百慕大群岛(英)	1441	0.99

即不属于上述高结算国家的国际呼叫CDR话单数据即予以剔除。

步骤S3，以1小时和主叫号码、主叫号段以及被叫号码为基本单位，基于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征。

在本发明具体实施例中，构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号段呼叫特征以及被叫号码呼叫特征，其中，主叫号码呼叫特征具体包括：

主叫号码，各被叫号码被呼次数(号码A|22#号码B|33)，各被叫号码被呼时长秒(号码A|220#号码B|330)，拨打次数、通话时长，未拨通次数，接通率，平均通话时长，历史累计呼叫次数，历史累计通话总时长，历史单次最高通话时长；

主叫号段呼叫特征具体包括：主叫号段、各被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长；

被叫号码呼叫特征具体包括：被叫号码、各被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。

在本发明具体实施例中，假设步骤S2的经ETL处理后的国际去话CDR 话单数据如下表5所示：

表5

则构建该次行为的主叫号码呼叫特征如下表6：

表6

构建该次行为的主叫号段呼叫特征如下表7：

表7

构建该次行为的被叫号码呼叫特征如下表8：

表8

在本发明具体实施例中，基于随机森林算法构建并训练好的模型包括主叫号码模型、主叫号段模型以及被叫号码模型，在本发明具体实施例中，按15分钟粒度对1小时的CDR话单数据进行切片分析，构造每15分钟切片的国际去话通信行为特征的特征向量，每各15分钟进行一次预测，每次预测汇总当前时间前4个15分钟切片内容(因为每15分钟的预测是需要分析的是1个小时的呼叫行为特征，因此需要先汇总4个15分钟的数据，构建出1个小时的呼叫特征后进行预测)，将得到的国际去话通信行为特征向量输入相应的模型进行行为判断(例如对于主叫号码呼叫特征则输入主叫号码模型进行预测，如果是主叫号段呼叫特征，则输入主叫号段模型进行预测)，输出的预测结果包括主叫号码，分析开始时间，分析截止时间，呼叫次数，来源省份，高结算国家及次数(国家A|33,国家B|35)，高结算国家及呼叫时长秒(国家A|330,国家B|350)，预估损失金额。

优选地，于步骤S1之前，还包括如下步骤：

具体地，步骤S0进一步包括：

步骤S001，利用kafka集群获取国际去话中的CDR话单数据。

步骤S002，对获得的不同来源、不同协议的CDR话单数据进行ETL处理。

具体地，步骤S002进一步包括：

步骤S002-1，对不同来源、不同协议的CDR话单数据进行归一化处理。

在本发明中，涉及的信令协议包括SIP和ISUP协议，对于不同来源、不同协议，步骤S1获得的CDR话单数据包含的内容略有不同，因此需要对不同来源、不同协议的CDR话单数据进行归一化处理。在本发明具体实施例中，归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

步骤S002-2，根据高结算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹配过滤，并根据系统白名单及特服号码对主叫号码进行匹配过滤，从而提升数据质量，降低实际分析数据量，提升系统分析效率。

步骤S003，以1小时和主叫号码、主叫号段以及被叫号码为基本单位，基于步骤S2的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征，得到主叫号码特征向量集，主叫号段特征向量集，被叫号码特征向量集。

在本发明具体实施例中，构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号段呼叫特征以及被叫号码呼叫特征，其中，主叫号码呼叫特征具体包括：主叫号码，各被叫号码被呼次数(号码A|22#号码B|33)，各被叫号码被呼时长秒(号码A|220#号码B|330),拨打次数、通话时长，未拨通次数，接通率，单次最高通话时长，平均通话时长，历史累计呼叫次数，历史累计通话总时长，历史单次最高通话时长；主叫号段呼叫特征具体包括：主叫号段、各被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长；被叫号码呼叫特征具体包括：被叫号码、各被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。

步骤S004，对于每个所要构建的模型，分别利用步骤S003得到的主叫号码特征向量集，主叫号段特征向量集，被叫号码特征向量集，分别构建T个采样集。具体地，在包括n个样本的主叫号码特征向量集中，采用有放回的抽样方式选择m个样本，构成1个采样集,其中n>m。以上抽样重复T次，得到T个包含m个样本的采样集，作为最终的训练集(采样集1,采样集2,……，采样集 T)，如图3所示。同理，主叫号段特征向量集，被叫号码特征向量集也分别处理，得到每个模型对应的最终训练集。

步骤S005，为最终训练集中的每个采样集建立完全分裂的决策树(即弱学习器)。具体地，于步骤S005中，利用CART分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树，并利用每个采样集分别对其训练，最终得到多棵CART决策树。

于步骤S005中，具体的训练流程为：

循环，对i＝1,...,T

对训练样本集进行抽样，得到抽样后的训练样本集

用抽样得到的样本集训练一个模型hi(x)

结束循环

输出模型组合h1(x),...,hT(x)

其中hi(x)为采样集i经过CART算法训练后的模型hi(x)。

这里需说明的是，在本发明中，主叫号码模型，主叫号段模型，被叫号码模型是并行的处理流程，只是特征构建的维度不一样而已，处理过程是并行的三个模型。

步骤S006，预测最终结果(强学习器)：根据得到的每一个决策树的结果采用多数投票法来计算最终结果的预测值。在上述步骤S005输出的模型组合 h1(x),...,hT(x)中，采用相对多数投票法的方法，票数大的获胜。

图4为本发明一种基于实时信令的国际高结算盗打行为的分析装置的系统架构图。如图4所示，本发明一种基于实时信令的国际高结算盗打行为的分析装置，包括：

CDR话单数据获取单元401，用于利用kafka集群实时获取国际去话中的 CDR(CallDetail Record，呼叫详细记录)话单数据。

ETL处理单元402，用于对获得的不同来源、不同协议的CDR话单数据进行ETL处理。ETL，即为Extract-Transform-Load，指将数据从来源端经过抽取 (extract)、转换(transform)、加载(load)至目的端的过程。

具体地，ETL处理单元402进一步包括：

归一化处理模块，用于对不同来源、不同协议的CDR话单数据进行归一化处理。

在本发明中，涉及的信令协议包括SIP和ISUP协议，对于不同来源、不同协议，CDR话单数据获取单元401获得的CDR话单数据包含的内容略有不同，因此，需要对不同来源、不同协议的CDR话单数据进行归一化处理。在本发明具体实施例中，归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

过滤模块，用于根据高结算国家码和被叫国家码对归一化处理后的CDR 话单数据进行匹配过滤，并根据系统白名单及特服号码对主叫号码进行匹配过滤，从而提升数据质量，降低实际分析数据量，提升系统分析效率。

在本发明具体实施例中，过滤模块通过预先配置表方式对高结算国家码及资费进行动态配置，然后利用该配置表根据根据高结算国家码和被叫国家码对归一化处理后的国际呼叫CDR话单数据进行过滤。

通信行为特征构造单元403，用于以1小时和主叫号码、主叫号段以及被叫号码为基本单位，基于ETL处理单元402的经ETL处理后的国际去话CDR 话单数据构造号码的国际去话通信行为特征。

优选地，于通信行为特征构造单元403中，基于Spark Streaming技术对 CDR话单数据进行流式处理，按15分钟粒度对1小时的CDR话单数据进行切片分析，构造每15分钟切片的国际去话通信行为特征的特征向量。

预测分析单元404，用于将通信行为特征构造单元403获得的国际去话通信行为特征向量输入基于随机森林算法构建并训练好的相应的模型进行行为判断，输出预测结果。

在本发明具体实施例中，基于随机森林算法构建并训练好的模型包括主叫号码模型、主叫号段模型以及被叫号码模型，在本发明具体实施例中，按15分钟粒度对1小时的CDR话单数据进行切片分析，构造每15分钟切片的国际去话通信行为特征的特征向量，每各15分钟进行一次预测，每次预测汇总当前时间前4个15分钟切片内容，将得到的国际去话通信行为特征向量输入相应的模型进行行为判断，输出的预测结果包括主叫号码，分析开始时间，分析截止时间，呼叫次数，来源省份，高结算国家及次数(国家A|33,国家B|35)，高结算国家及呼叫时长秒(国家A|330,国家B|350)，预估损失金额。

优选地，本发明一种基于实时信令的国际高结算盗打行为的分析装置，还包括：

模型构建及训练单元，用于基于随机森林算法，构建主叫号码模型、主叫号段模型以及被叫号码模型，利用主叫号码特征向量集、主叫号段特征向量集以及被叫号码特征向量集训练各模型。

所述模型构建及训练单元具体用于：

利用kafka集群获取国际去话中的CDR话单数据。

对获得的不同来源、不同协议的CDR话单数据进行ETL处理，这里的ETL 处理包括对不同来源、不同协议的CDR话单数据进行归一化处理以及根据高结算国家码和被叫国家码对归一化处理后的CDR话单数据进行匹配过滤，并根据系统白名单及特服号码对主叫号码进行匹配过滤

以1小时和主叫号码、主叫号段以及被叫号码为基本单位，基于步骤S2 的经ETL处理后的国际去话CDR话单数据构造号码的国际去话通信行为特征，得到主叫号码特征向量集，主叫号段特征向量集，被叫号码特征向量集。在本发明具体实施例中，构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号段呼叫特征以及被叫号码呼叫特征，其中，主叫号码呼叫特征具体包括：主叫号码，各被叫号码被呼次数(号码A|22#号码B|33)，各被叫号码被呼时长秒(号码A|220#号码B|330),拨打次数、通话时长，未拨通次数，接通率，单次最高通话时长，平均通话时长，历史累计呼叫次数，历史累计通话总时长，历史单次最高通话时长；主叫号段呼叫特征具体包括：主叫号段、各被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长；被叫号码呼叫特征具体包括：被叫号码、各被叫号码被呼次数、各被叫号码被呼时长秒、拨打次数、通话时长、未拨通次数、接通率、平均通话时长、历史累计呼叫次数、历史累计通话总时长、历史单次最高通话时长。

对于每个所要构建的模型，分别利用步骤S003得到的主叫号码特征向量集，主叫号段特征向量集，被叫号码特征向量集，分别构建T个采样集。具体地，在包括n个样本的主叫号码特征向量集中，采用有放回的抽样方式选择m 个样本，构成1个采样集,其中n>m。以上抽样重复T次，得到T个包含m个样本的采样集，作为最终的训练集(采样集1,采样集2,……，采样集T)。。

为每个数据集建立完全分裂的决策树(即弱学习器)。具体地，利用CART 分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树，并利用每个采样集分别对其训练，最终得到多棵CART决策树。具体的训练流程为：

循环，对i＝1,...,T

对训练样本集进行抽样，得到抽样后的训练样本集

用抽样得到的样本集训练一个模型hi(x)

结束循环

输出模型组合h1(x),...,hT(x)

预测最终结果(强学习器)：根据得到的每一个决策树的结果采用多数投票法来计算新数据的预测值。在上述步骤S005输出的模型组合h1(x),...,hT(x)中，采用相对多数投票法的方法，票数大的获胜。

实施例

图5为本发明实施例一种基于实时信令的国际高结算盗打行为的分析流程图。在本实施例中，基于Spark Streaming技术实现流式处理。Spark Streaming 是一个粗粒度的框架，也就是只能对一批数据指定处理方法，核心是采用微批次架构，从kafka集群中接收实时信令CDR数据，通过Spark Streaming流式处理并实时分析后，输入相应的模型进行识别，最终投票预测结果为属于高结算类型的，进行拦截/派单，投票预测结果为非高结算的，不做拦截，具体的基于 Spark Streaming技术的流式处理如图6所示。

在本实施例中，系统实时对接国际呼叫CDR数据，并按15分钟粒度进行切片分析，系统每各15分钟进行一次预测，每次预测汇总当前时间前4个15 分钟切片内容，并输入相应模型进行行为判断，输出的预测结果包括主叫号码，分析开始时间，分析截止时间，呼叫次数，来源省份，高结算国家及次数(国家A|33,国家B|35)，高结算国家及呼叫时长秒(国家A|330,国家B|350)，预估损失金额。

综上所述，本发明一种基于实时信令的国际高结算盗打行为的分析方法及装置通过通过Kafka消息中间件和SparkStreaming流式处理技术实现国际高结算行为的大数据实时分析，快速识别盗打行为，以便实现有效自动拦截和封堵，降低损失，并通过使用随机森林机器学习算法，通过构建大数据模型识别，有效提高国家高结算盗打行为的识别准确率，降低封堵的投诉率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于实时信令的国际高结算盗打行为的分析方法，包括如下步骤：

步骤S1，利用kafka集群实时获取国际去话中的CDR话单数据；

2.如权利要求1所述的一种基于实时信令的国际高结算盗打行为的分析方法，其特征在于，于步骤S1之前，还包括如下步骤：

3.如权利要求2所述的一种基于实时信令的国际高结算盗打行为的分析方法，其特征在于，步骤S0进一步包括：

步骤S001，利用kafka集群获取国际去话中的CDR话单数据。

4.如权利要求3所述的一种基于实时信令的国际高结算盗打行为的分析方法：于步骤S004中，在包括n个样本的主叫号码特征向量集或主叫号段特征向量集或被叫号码特征向量集中，采用有放回的抽样方式选择m个样本，构成1个采样集，抽样重复T次，得到T个包含m个样本的采样集，作为每个所要构建的模型的最终训练集。

5.如权利要求4所述的一种基于实时信令的国际高结算盗打行为的分析方法：于步骤S005中，利用CART分类树算法为每个采样集建立一个完全分裂、没有经过剪枝的决策树，并利用每个采样集分别对其训练，最终得到多棵CART决策。

6.如权利要求1所述的一种基于实时信令的国际高结算盗打行为的分析方法，步骤S002与步骤S002进一步包括：

对不同来源、不同协议的CDR话单数据进行归一化处理；

7.如权利要求6所述的一种基于实时信令的国际高结算盗打行为的分析方法：所述归一化处理后的CDR话单数据包括主叫号码、被叫号码、源信令点编码、目的信令点编码、呼叫开始时间、被叫应答时间、呼叫结束时间、通话时长、主叫号码类型、主叫号码所属省份、呼叫发起省份、被叫国家码。

8.如权利要求1所述的一种基于实时信令的国际高结算盗打行为的分析方法：于步骤S3中，基于Spark Streaming技术对CDR话单数据进行流式处理，按15分钟粒度对1小时的CDR话单数据进行切片分析，构造每15分钟切片的国际去话通信行为特征的特征向量。

9.如权利要求8所述的一种基于实时信令的国际高结算盗打行为的分析方法：所构建的国际去话通信行为特征包括主叫号码呼叫特征、主叫号段呼叫特征以及被叫号码呼叫特征。

10.一种基于实时信令的国际高结算盗打行为的分析装置，包括：

CDR话单数据获取单元，用于利用kafka集群实时获取国际去话中的CDR话单数据；

ETL处理单元，用于对获得的不同来源、不同协议的CDR话单数据进行ETL处理；