CN109756632B - 一种基于多维时间序列的诈骗电话分析方法 - Google Patents

一种基于多维时间序列的诈骗电话分析方法 Download PDF

Info

Publication number
CN109756632B
CN109756632B CN201811554685.9A CN201811554685A CN109756632B CN 109756632 B CN109756632 B CN 109756632B CN 201811554685 A CN201811554685 A CN 201811554685A CN 109756632 B CN109756632 B CN 109756632B
Authority
CN
China
Prior art keywords
time period
call
fraud
time sequence
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811554685.9A
Other languages
English (en)
Other versions
CN109756632A (zh
Inventor
张震
孟许歌
缪亚男
马欢
庞韶敏
李波波
于芳名
金红
杨满智
刘长永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Eversec Beijing Technology Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Eversec Beijing Technology Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN201811554685.9A priority Critical patent/CN109756632B/zh
Publication of CN109756632A publication Critical patent/CN109756632A/zh
Application granted granted Critical
Publication of CN109756632B publication Critical patent/CN109756632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Meter Arrangements (AREA)

Abstract

本发明公开了一种基于多维时间序列的诈骗电话分析方法,该方法包括:将每个号码的所有通话作为一个整体,每间隔时间段选取与诈骗呼叫相关性较大的行为特征,计算每个号码在该间隔时间段内的特征统计量,并设定是否为诈骗呼叫的标签;将每个号码在设定的间隔时间段的多个行为特征按时间顺序排列,整合形成在一个完整时间段内的一个多维时间序列数据集,多个号码形成多个多维时间序列数据集;将带标签的多个多维时间序列数据集,代入LSTM网络模型训练;根据某号码在该一个完整时间段的模型训练,预测该号码在该完整时间段的下一个间隔时间段时的通话呼叫是否为诈骗呼叫。通过本发明的方法,能够从众多的话单数据中分析预判是否为诈骗呼叫。

Description

一种基于多维时间序列的诈骗电话分析方法
技术领域
本发明属于人工智能及大数据技术领域,具体涉及一种基于多维时间序列的诈骗电话分析方法。
背景技术
近年来利用电话进行的诈骗方式呈爆发趋势,受骗面广,金额巨大,通信诈骗成为巨大的用户痛点。
目前的诈骗电话具有多样性、隐蔽性、高对抗性等特点,甚至通过高科技手段进行改号,仿冒他人或组织机构的号码进行诈骗。这些诈骗电话和一般正常电话的通话行为极其相似,隐藏在海量话单之中,很难将其区分,而且很多诈骗电话前期是正常通话,具有很大的迷惑性,诈骗者诈骗手段多种多样、千变万化,让人防不胜防,这也严重影响了通话秩序也威胁到整个电信网的安全,损害了电信用户的利益以及电信网的信誉。
因此,如何从众多的话单数据中分析预判是否为诈骗呼叫,便成为了目前亟待解决的技术问题。
发明内容
本发明的目的是提供一种基于多维时间序列的诈骗电话分析方法,以有效的发现隐蔽的诈骗电话号码。
本发明采用的技术方案如下:
一种基于多维时间序列的诈骗电话分析方法,所述方法包括:
一.行为特征计算
全国每天能够产生几十亿条CDR话单数据,每个号码可以产生多个话单。首先把每个号码的所有通话作为一个整体,每个整体以每个小时的通话行为为研究对象。其次从业务角度出发,选取和诈骗呼叫相关性较大的特征。如:主叫通话次数、通话总时长、通话间隔等。行为特征统计量详细见表1。最后计算每个号码每个小时的特征统计量;并赋予人工审核其在该时间段是否为诈骗呼叫的标签。
二.多维时间序列整合
将每个号码每小时的多个行为特征统计量按时间顺序排列整合形成一个多维时间序列数据集;多个号码整合形成多个多维时间序列数据集。
三.多维时间序列建模
利用前两步得到的带标签的多维时间序列数据,代入LSTM网络进行模型训练。
四.多维时间序列预测
将一个号码连续24小时(可根据实际情况进行调整)的CDR话单经过特征计算以及数据整合形成多维时间序列数据,将该序列输入3中的模型,便可输出该号码第25小时的通话呼叫是否诈骗呼叫。
与现有技术相比,本发明所公开的一种基于多维时间序列的诈骗电话分析方法,基于CDR话单的多维时间序列数据进行建模分析,将号码一段时间的通话行为全部统计并纳入模型之中,使模型可以充分的学习诈骗电话的长期行为特征,可以有效的发现一些隐蔽的诈骗电话,甚至可以根据号码的前期时间序列数据预测其未来进行诈骗的风险,对诈骗风险较高的号码,提前交相关单位处理,将诈骗扼杀在萌芽之中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的基于多维时间序列的诈骗电话分析方法的流程示意图。
图2为本发明实施例所述的递归神经网络结构的原始图。
图3是本发明实施例所述的LSTM建模的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
本发明是基于带诈骗标记的CDR话单数据,根据其号码特征及行为特征,衍生出多维变量,进而在时间维度上对数据进行计算,最终形成带标签的多维时间序列数据,将带标签的多维时间序列数据带入长短期记忆网络(LSTM)进行训练,建立长短期记忆神经网络模型。将一个号码连续24个小时的多维统计特征代入该模型即可得出该号码的在第25小时的是否为诈骗呼叫。
参照图1所示,本发明实施例所公开的一种基于多维时间序列的诈骗电话分析方法,包括如下步骤:
第一步、CDR话单的行为特征的统计计算。
全国每天能够产生几十亿条CDR话单数据,每个号码可以产生多个话单。首先把每个号码的所有通话作为一个整体,每个整体以一个间隔时间段进行统计,为了方便统计,优选以每间隔一个小时的通话行为为研究对象,每一个小时统计一次,然后24小时进行一次汇总,形成一个整体的时间段,当然一个完整的时间段可以根据实际情况进行调整,比如设置为两天或者一周等。然后从业务角度出发,选取和诈骗呼叫相关性较大的行为特征,进行统计。本实施例中选取的行为特征包括:通话频次特征,如主叫次数、主叫通话未接通次数,比例特征,如通话记录中主叫比例、通话未接通率,通话离散度特征,如通话被叫号码数、通话离散度、被叫号码万号段是否相同,按时间分布的特征,如工作时段通话频次特征,通话时长特征,如通话平均时长、通话最大时长、从通话结束到下一次通话开始时间小于s秒连续发生n次以上程度,连续通话特征,如最早通话时间、最晚通话时间,通话时间间隔特征,如通话平均时间间隔,以及通话交互特征,如主叫通话记录中被叫首次出现比例。
行为特征统计量详细见下表1。最后计算每个号码每个小时的特征统计量;并赋予人工审核其在该时间段是否为诈骗呼叫的标签。前期为人工审核确定标签,通过模型训练后,后期则可由电脑进行预判。
Figure BDA0001911541440000041
表1多维行为特征统计表
第二步、多维时间序列的整合。
将每个号码在设定的间隔时间段(比如每一个小时)的多个行为特征的统计量按时间顺序排列,整合形成在一个完整时间段内(比如24小时)的一个多维时间序列数据集,多个号码形成多个多维时间序列数据集。
将每个号码在一个完整的时间段内分成多个间隔时间段,按照时间顺序,分别依次提取各时间段的各行为特征,并贴上该间隔时间段的标签,形成该一个电话号码的一个多维时间序列数据集。如号码1统计了t1、t2....t24,t1时间段的多个特征分别记录为x(1,1)、x(1,2)....t2时间段的多个特征分别记录为x(2,1)、x(2,2)…,t1时间段贴上的标签为l1、t2时间段贴上的标签为l2,以此类推,tn时间段贴上的标签为ln。多个号码形成多个多维时间序列数据集。如下表2所示。
Figure BDA0001911541440000051
表2多维时间序列整合
时间序列数据是数据库中一类非常重要的数据,它反映了属性值在时间顺序上的特征,时间序列问题作为数据分析中的一类重要问题,表现在现实世界中大量数据具有时间上的关联性,利用时间序列进行分析,可以得到数据中蕴含的与时间相关的有用信息。
第三步、多维时间序列建模。
电话诈骗具有隐蔽性、多面性和高对抗性,想要准确找出诈骗电话首先要研究其长期行为特征,发现不同特征在时间维度上的关联性,多维时间序列数据刚好具有这样的特性。
LSTM神经网络模型可以很好的处理多维度的时间序列数据,原理如下:
LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
递归神经网络在隐藏层加入了循环过程,使网络具有记忆功能,图2展示了网络隐藏层的展开过程:
LSTM神经网络对递归神经网络的改进:通过遗忘门(forget gate)、输入门(inputgate)、细胞状态(cell state)更新、输出门(output gate)来控制网络记忆功能的时间,避免递归神经网络梯度消失的问题。
第一步是用来决定什么信息可以通过“cell state”。这个决定由“forget gate”层通过sigmoid函数来控制,它会根据上一时刻的输出ht-1和当前输入xt来产生一个0到1的ft值,来决定是否让上一时刻学到的信息Ct-1通过或部分通过。计算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)。
第二步是“input gate”通过一个tanh层用来生成新的候选值
Figure BDA0001911541440000061
它作为当前层产生的候选值可能会添加到cell state中。计算公式如下:
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0001911541440000062
在第三步中,产生我们需要更新的新信息。这一步包含两部分,第一个是一个“forget gate”层通过sigmoid来决定哪些值用来更新,第二个是“input gate”通过一个tanh层用来生成新的候选值
Figure BDA0001911541440000063
它作为当前层产生的候选值可能会添加到cell state中。我们会把这两部分产生的值结合来进行更新。计算公式如下:
Figure BDA0001911541440000064
第四步,决定模型的输出,首先是“output gate”通过sigmoid层来得到一个初始输出,然后使用tanh将Ct值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出。计算公式如下:
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
参照图3所示,x1,x2,x3,…,x24分别对应t1,t2,t3,…,t24时刻时间点的特征向量,即为网络的输入,即设定每次输入序列长度为24小时,以滑动窗口形式不断输入,y24对应l25时刻的标签值,表示该时间点的输出。其中(h1、h2、h3、…)代表网络的隐藏层,Whh表示网络t-1时刻的隐藏层到t时刻的隐藏层所乘的系数矩阵;Wxh代表t时刻输入层(x1,x2,x3,…,x24)到t时刻隐藏层所乘的系数矩阵;Why表示t时刻网络的隐藏层到t时刻的输出层y24所乘的系数矩阵,这三个系数矩阵都是由模型训练自动得到的。得到系数矩阵之后,输入连续24小时的一个预测数据就可以得到预测结果y24,及下一时刻的标签(是否为诈骗呼叫)。
第四步、多维时间序列预测
根据某号码在该一个完整时间段的模型训练,预测该号码在该完整时间段的下一个间隔时间段时的通话呼叫是否为诈骗呼叫。比如,将一个号码连续24小时的CDR话单经过特征计算形成一条多维时间序列数据,将该序列输入模型,便可输出该号码下1小时的呼叫是否诈骗呼叫。当然,本发明设定的时间序列长度为24小时,根据需要可以进行调整。
本发明基于带标签的CDR话单数据,根据其号码特征及行为特征,衍生出多维变量,进而在时间维度上对数据进行特征计算及整合,最终形成带标签的多维时间序列数据,将带标签的多维时间序列数据代入长短期记忆网络(LSTM)进行训练,建立长短期记忆神经网络模型。基于该模型可对电话的某一时间段的诈骗呼叫进行预测。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于多维时间序列的诈骗电话分析方法,其特征在于,所述方法包括:
将每个号码的所有通话作为一个整体,每间隔时间段选取与诈骗呼叫相关的行为特征,计算每个号码在该间隔时间段内的特征统计量,并赋予人工审核其在该间隔时间段是否为诈骗呼叫的标签;其中,所述的特征统计量包括:通话频次特征、比例特征、通话离散度特征、按时间分布的特征、通话时长特征、连续通话特征、通话时间间隔特征及通话交互特征;
将每个号码在设定的间隔时间段的多个行为特征的统计量按时间顺序排列,整合形成在一个完整时间段内的一个多维时间序列数据集,多个号码形成多个多维时间序列数据集;具体包括:
将每个号码在一个完整的时间段内分成多个间隔时间段,按照时间顺序,分别依次提取各时间段的各行为特征,并贴上该间隔时间段的标签,形成一个电话号码的一个多维时间序列数据集,多个号码形成多个多维时间序列数据集;
将带标签的多个多维时间序列数据集,代入LSTM网络进行模型训练;
根据某号码在该一个完整时间段的模型训练,预测该号码在该完整时间段的下一个间隔时间段时的通话呼叫是否为诈骗呼叫。
2.根据权利要求1所述的诈骗电话分析方法,其特征在于,在LSTM网络中,网络的输入为用户号码在该一个完整时间段内的多个间隔时间段的特征向量,以滑动窗口形式不断输入至隐藏层,最终得到该完整时间段的最后一个时刻的预测数据。
3.根据权利要求1所述的诈骗电话分析方法,其特征在于,该间隔时间段以小时为单位,完整时间段以24小时为单位。
4.根据权利要求1所述的诈骗电话分析方法,其特征在于,对某间隔时间段没有通话记录的所有特征值记为0。
CN201811554685.9A 2018-12-19 2018-12-19 一种基于多维时间序列的诈骗电话分析方法 Active CN109756632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811554685.9A CN109756632B (zh) 2018-12-19 2018-12-19 一种基于多维时间序列的诈骗电话分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811554685.9A CN109756632B (zh) 2018-12-19 2018-12-19 一种基于多维时间序列的诈骗电话分析方法

Publications (2)

Publication Number Publication Date
CN109756632A CN109756632A (zh) 2019-05-14
CN109756632B true CN109756632B (zh) 2021-08-17

Family

ID=66403802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811554685.9A Active CN109756632B (zh) 2018-12-19 2018-12-19 一种基于多维时间序列的诈骗电话分析方法

Country Status (1)

Country Link
CN (1) CN109756632B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756632B (zh) * 2018-12-19 2021-08-17 国家计算机网络与信息安全管理中心 一种基于多维时间序列的诈骗电话分析方法
CN110210653B (zh) * 2019-05-15 2021-11-16 中国移动通信集团内蒙古有限公司 电信诈骗演变分析预测方法、装置、设备及介质
CN110177179B (zh) * 2019-05-16 2020-12-29 国家计算机网络与信息安全管理中心 一种基于图嵌入的诈骗号码识别方法
CN110493477B (zh) * 2019-09-12 2021-03-05 中国联合网络通信集团有限公司 诈骗号码识别方法、装置、设备及存储介质
CN112307464A (zh) * 2020-10-30 2021-02-02 维沃移动通信有限公司 诈骗识别方法、装置及电子设备
CN112330442A (zh) * 2020-11-17 2021-02-05 深圳市欢太科技有限公司 基于超长行为序列的建模方法及装置、终端、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764460A (zh) * 2018-05-16 2018-11-06 华中科技大学 一种基于时间卷积和lstm的时间序列预测方法
CN109756632A (zh) * 2018-12-19 2019-05-14 国家计算机网络与信息安全管理中心 一种基于多维时间序列的诈骗电话分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及系统
CN114584660A (zh) * 2016-06-13 2022-06-03 谷歌有限责任公司 向人类操作员的升级
CN107872772B (zh) * 2017-12-19 2021-02-26 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN109002917A (zh) * 2018-07-13 2018-12-14 山东省农业信息中心 基于lstm神经网络的粮食总产量多维时间序列预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764460A (zh) * 2018-05-16 2018-11-06 华中科技大学 一种基于时间卷积和lstm的时间序列预测方法
CN109756632A (zh) * 2018-12-19 2019-05-14 国家计算机网络与信息安全管理中心 一种基于多维时间序列的诈骗电话分析方法

Also Published As

Publication number Publication date
CN109756632A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109756632B (zh) 一种基于多维时间序列的诈骗电话分析方法
CN109587350B (zh) 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法
Xing et al. Employing latent dirichlet allocation for fraud detection in telecommunications
CN110401780B (zh) 一种识别诈骗电话的方法及装置
CN109360097A (zh) 基于深度学习的股票预测方法、装置、设备及存储介质
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及系统
CN109583565A (zh) 基于注意力模型长短时记忆网络的洪水预测方法
CN108124065A (zh) 一种对垃圾电话内容进行识别与处置的方法
CN112395331B (zh) 信用卡客户的用户画像方法、装置、设备及介质
CN109815631A (zh) 一种游戏数据的处理方法和装置
CN113961712B (zh) 一种基于知识图谱的诈骗电话分析方法
CN109274836B (zh) 一种大规模数据流中电信欺诈风险识别方法
CN113706187A (zh) 一种基于时空图卷积的电信用户流失行为预测方法及系统
CN109978575B (zh) 一种挖掘用户流量经营场景的方法及装置
CN111985719A (zh) 一种基于改进的长短期记忆网络的电力负荷预测方法
CN115018562A (zh) 用户预流失预测方法、装置及系统
CN114154672A (zh) 一种用于客户流失预测的数据挖掘方法
CN114022202B (zh) 基于深度学习的用户流失预测方法及系统
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN109145932A (zh) 用户性别预测方法、装置及设备
CN112200375A (zh) 预测模型生成方法、预测模型生成装置和计算机可读介质
CN104598987A (zh) 一种利用社交网络中的学习与网络效应来预测移动用户离网倾向和概率的方法
Fasanghari et al. Customer churn prediction using local linear model tree for iranian telecommunication companies
CN110880987A (zh) 一种基于时间特征的分组域网络容量预测方法及系统
CN116128596A (zh) 基于脑皮质算法和电信掌厅点击流的实时推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant