CN109905282A

CN109905282A - 基于lstm的诈骗电话预测方法及预测系统

Info

Publication number: CN109905282A
Application number: CN201910281123.XA
Authority: CN
Inventors: 王中华; 夏光升; 刘志会; 李新
Original assignee: Tianjin Rui Digital Security System Ltd By Share Ltd; National Computer Network and Information Security Management Center
Current assignee: Tianjin Rui Digital Security System Ltd By Share Ltd; National Computer Network and Information Security Management Center
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-06-18

Abstract

本发明涉及通讯信息安全技术领域，尤其涉及一种基于LSTM的诈骗电话预测方法及预测系统。该方法包括以下步骤：采集被叫地的原始电话数据；将原始电话数据转换为时序电话数据；对时序电话数据进行标准化处理，得到训练数据、测试数据和验证数据；根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型。本发明根据被叫地的原始电话数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型，该电话预测模型能够自动分析预测出主叫电话是否为有害电话，具有成本低、识别准确率高的优点。

Description

基于LSTM的诈骗电话预测方法及预测系统

技术领域

本发明涉及电信技术领域，尤其涉及一种基于LSTM的诈骗电话预测方法及预测系统。

背景技术

近年来随着金融、通信业的快速发展，虚假信息诈骗犯罪迅速在我国发展蔓延。借助于手机、固定电话等通信工具和现代的网银技术实施的非接触式的电信诈骗犯罪可以说是迅速地发展蔓延，给人民群众造成了很大的损失。目前电信诈骗犯罪的手段如作案者冒充相关国家政府机关人员，例如电信局、公安局等单位工作人员，给受害者拨打电话，在通话中以受害人电话欠费、被他人盗用身份涉嫌经济犯罪，以没收受害人所有银行存款等进行恫吓威胁，骗取受害人像其汇转资金。

现有技术中的诈骗电话识别方法，大都将智能终端与云服务器相结合，通过云服务器统计智能终端将某一电话号码的标记为诈骗电话的次数，当所得统计次数达到预设的限值时，认定该电话号码为诈骗电话，然后即对接到该电话号码呼叫的用户进行提醒，防止用户上当受骗。上述识别方法的实现，依赖于用户对电话号码的标记情况，只有对某一电话号码的标记次数达到预设的限值时，才会将该电话号码认定为诈骗电话，而这一过程往往需要经历较长的时间，导致诈骗电话的识别工作效率低下，滞后性比较严重。

LSTM(Long Short-Term Memory长短期记忆网络)，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

目前电信网缺乏管理预见性的一种手段，不利于突发性的事件的处理，不能为业务开展提供指导。

因此，急需一种基于LSTM的诈骗电话预测方法及预测系统。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于LSTM的诈骗电话预测方法及预测系统。

本发明的一个方面，提供了一种基于LSTM的诈骗电话预测方法，包括以下步骤：

采集被叫地的原始电话数据；

将原始电话数据转换为时序电话数据；

对时序电话数据进行标准化处理，得到训练数据、测试数据和验证数据；

根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型。

进一步地，根据训练数据对构建的LSTM模型进行训练的步骤之前包括以下步骤：利用机器学习工具Tensorflow构建LSTM模型。

进一步地，被叫地的原始电话数据至少包括被叫地的呼叫量数据、检出量数据、应答量数据和拦截量数据。

进一步地，根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型的步骤具体包括以下步骤：

根据训练数据对构建的LSTM模型进行训练，得到初始电话预测模型；

根据测试数据对初始电话预测模型进行训练，得到测试电话预测模型；

根据验证数据对测试电话预测模型进行训练，得到最终预测有害电话的电话预测模型。

进一步地，对时序电话数据进行标准化处理的步骤中根据公式x*＝(x-μ)/σ对时序电话数据进行标准化处理，其中，x*为标准化处理后的时序电话数据，x为时序电话数据，μ为时序电话数据的均值，σ为时序电话数据的标准差。

本发明的第二个方面，提供了一种实现如上述中所述方法的基于LSTM的诈骗电话预测系统，包括：

原始电话数据采集模块，用于采集被叫地的原始电话数据；

时序电话数据转换模块，用于将原始电话数据转换为时序电话数据；

标准化处理模块，用于对时序电话数据进行标准化处理，得到训练数据、测试数据和验证数据；

电话预测模型计算模块，用于根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型。

进一步地，还包括LSTM模型构建模块，用于利用机器学习工具Tensorflow构建LSTM模型，并发送至电话预测模型计算模块。

进一步地，电话预测模型计算模块包括：

LSTM模型训练单元，用于根据训练数据对构建的LSTM模型进行训练，得到初始电话预测模型；

测试单元，用于根据测试数据对初始电话预测模型进行训练，得到测试电话预测模型；

验证单元，用于根据验证数据对测试电话预测模型进行训练，得到最终预测有害电话的电话预测模型。

进一步地，电话预测模型计算模块根据公式x*＝(x-μ)/σ对时序电话数据进行标准化处理，其中，x*为标准化处理后的时序电话数据，x为标准化处理前的时序电话数据，μ为时序电话数据的均值，σ为时序电话数据的标准差。

本发明提供的基于LSTM的诈骗电话预测方法及预测系统，与现有技术相比具有以下进步：

本发明根据被叫地的原始电话数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型，该电话预测模型能够自动分析预测出主叫电话是否为有害电话，具有成本低、识别准确率高的优点。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中基于LSTM的诈骗电话预测方法的步骤图；

图2为本发明实施例中步骤S5具体实施时的步骤图；

图3为本发明实施例中基于LSTM的诈骗电话预测系统的器件连接框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明实施例提供了一种基于LSTM的诈骗电话预测方法及预测系统。

如图1，本实施例的一种基于LSTM的诈骗电话预测方法，包括以下步骤：

S1、采集被叫地的原始电话数据；

S2、将原始电话数据转换为时序电话数据；

S3、对时序电话数据进行标准化处理，得到训练数据、测试数据和验证数据；

S5、根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型。

具体实施时，根据训练数据对构建的LSTM模型进行训练的步骤之前包括以下步骤S4、利用机器学习工具Tensorflow(Tensorflow是一个开源软件库，用于各种感知和语言理解任务的机器学习,是开源机器学习框架)构建LSTM模型。构建好LSTM模型后，便于后续根据该模型训练得到预测有害电话的电话预测模型。

具体实施时，被叫地的原始电话数据至少包括被叫地的呼叫量数据、检出量数据、应答量数据和拦截量数据。具体实施时，也可以包括其他类型的数据。

如图2，具体实施时，步骤S5根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型的步骤具体实施时包括以下步骤：

S51、根据训练数据对构建的LSTM模型进行训练，得到初始电话预测模型；

S52、根据测试数据对初始电话预测模型进行训练，得到测试电话预测模型；

S53、根据验证数据对测试电话预测模型进行训练，得到最终预测有害电话的电话预测模型。

具体实施时，步骤S5对时序电话数据进行标准化处理的步骤中根据公式x*＝(x-μ)/σ对时序电话数据进行标准化处理，其中，x*为标准化处理后的时序电话数据，x为时序电话数据，μ为时序电话数据的均值，σ为时序电话数据的标准差。具体实现的编程代码为：

import numpy as np

df＝pd.read_csv(trainFilePath,encoding＝’gbk’)

data＝np.array(df[fieldName])

normalize_data＝(data-np.mean(data))/np.std(data)

步骤S5对时序电话数据进行标准化处理的步骤中，对时序电话数据依次进行缩放、归一化和标准化处理。

具体实施时，步骤S2将原始电话数据转换为时序电话数据中，判断原始电话数据对应的各个原始电话数据指标(如呼叫量数或者检出量数据或者应答量数据或者拦截量数据)属于预设的时期数类型范围或时点数类型范围；

若有原始电话数据指标属于预设的时期数类型范围，则将该原始电话数据中该原始电话数据指标对应的原始电话数据转化为时期数类型的时序数据；

若有原始电话数据属于预设的时点数类型范围，则将该原始电话数据中该原始电话数据指标对应的原始电话数据转化为时点数类型的时序数据；

将转化的时期数类型的时序数据和时点数类型的时序数据存储至预设时序数据库中，便于后续划分和使用。

如图3，本实施例的一种实现如上述实施例所述方法的基于LSTM的诈骗电话预测系统，包括：

原始电话数据采集模块，用于采集被叫地的原始电话数据发送至时序电话数据转换模块；

时序电话数据转换模块，用于将原始电话数据转换为时序电话数据，并发送至标准化处理模块；

标准化处理模块，用于对时序电话数据进行标准化处理，得到训练数据、测试数据和验证数据，并发送至电话预测模型计算模块；

具体实施时，还包括LSTM模型构建模块，用于利用机器学习工具Tensorflow构建LSTM模型，并发送至电话预测模型计算模块。

具体实施时，被叫地的原始电话数据至少包括被叫地的呼叫量数据、检出量数据、应答量数据和拦截量数据。

具体实施时，电话预测模型计算模块包括：

LSTM模型训练单元，用于接收LSTM模型构建模块发送的LSTM模型、标准化处理模块发送的训练数据，并根据训练数据对构建的LSTM模型进行训练，得到初始电话预测模型发送至测试单元；

测试单元，用于接收标准化处理模块发送的测试数据、LSTM模型训练单元发送的初始电话预测模型，并根据测试数据对初始电话预测模型进行训练，得到测试电话预测模型；

验证单元，用于接收标准化处理模块发送的验证数据、测试单元发送的测试电话预测模型，并根据验证数据对测试电话预测模型进行训练，得到最终预测有害电话的电话预测模型。

具体实施时，电话预测模型计算模块根据公式x*＝(x-μ)/σ对时序电话数据进行标准化处理，其中，x*为标准化处理后的时序电话数据，x为标准化处理前的时序电话数据，μ为时序电话数据的均值，σ为时序电话数据的标准差。

本发明在具体实施时，以省份或地区以往电信网统计数据作为元数据，对元数据进行归一化和标准化处理，并划分处理后的数据。利用Tensorflow构建长短期记忆网络，对划分后的数据进行训练建模、模型测试、模型验证，利用模型对省份或地区一个时间节点或时间范围进行数据预测(时间节点包括：某小时、某天、某一周、某月、某年；统计数据包括拦截量、呼叫量、应答量等)。提供预测定制化，展现预测结果，满足个性化预测需求，定时对模型维护升级调优，不断的从新样本中学习达到增量学习的目的。

针对有害呼叫手段不断变化的特点，本发明采用大数据分析、系统自学习、自回溯验证、实时验证、趋势预测等技术，以现有电信网时间序列统计数据为基础进行下一节点或时间段上的数据预测，实现系统自动化分析预测。本发明最终得到的电话预测模型可通过系统模型自学习和趋势预测技术，有效发现集中电话骚扰情况，通过自动验证不断完善系统模型，实现系统自动化。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于LSTM的诈骗电话预测方法，其特征在于，包括以下步骤：

采集被叫地的原始电话数据；

将原始电话数据转换为时序电话数据；

2.根据权利要求1所述的基于LSTM的诈骗电话预测方法，其特征在于，根据训练数据对构建的LSTM模型进行训练的步骤之前包括以下步骤：利用机器学习工具Tensorflow构建LSTM模型。

3.根据权利要求2所述的基于LSTM的诈骗电话预测方法，其特征在于，被叫地的原始电话数据至少包括被叫地的呼叫量数据、检出量数据、应答量数据和拦截量数据。

4.根据权利要求3所述的基于LSTM的诈骗电话预测方法，其特征在于，根据训练数据对构建的LSTM模型进行训练，得到预测有害电话的电话预测模型的步骤具体包括以下步骤：

5.根据权利要求4所述的基于LSTM的诈骗电话预测方法，其特征在于，对时序电话数据进行标准化处理的步骤中根据公式x*＝(x-μ)/σ对时序电话数据进行标准化处理，其中，x*为标准化处理后的时序电话数据，x为时序电话数据，μ为时序电话数据的均值，σ为时序电话数据的标准差。

6.一种实现如权利要求1所述方法的基于LSTM的诈骗电话预测系统，其特征在于，包括：

原始电话数据采集模块，用于采集被叫地的原始电话数据；

7.根据权利要求6所述的基于LSTM的诈骗电话预测系统，其特征在于，还包括LSTM模型构建模块，用于利用机器学习工具Tensorflow构建LSTM模型，并发送至电话预测模型计算模块。

8.根据权利要求7所述的基于LSTM的诈骗电话预测系统，其特征在于，被叫地的原始电话数据至少包括被叫地的呼叫量数据、检出量数据、应答量数据和拦截量数据。

9.根据权利要求8所述的基于LSTM的诈骗电话预测系统，其特征在于，电话预测模型计算模块包括：

10.根据权利要求9所述的基于LSTM的诈骗电话预测系统，其特征在于，电话预测模型计算模块根据公式x*＝(x-μ)/σ对时序电话数据进行标准化处理，其中，x*为标准化处理后的时序电话数据，x为标准化处理前的时序电话数据，μ为时序电话数据的均值，σ为时序电话数据的标准差。