CN113645356A

CN113645356A - 一种基于网内开卡行为分析的诈骗电话识别方法及系统

Info

Publication number: CN113645356A
Application number: CN202010343481.1A
Authority: CN
Inventors: 张震; 刘发强; 孙旭东; 刘志会; 曹勇; 高欢
Original assignee: Tianjin Guorui Digital Safety System Co ltd; National Computer Network and Information Security Management Center
Current assignee: Tianjin Guorui Digital Safety System Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-11-12

Abstract

本发明提出一种基于网内开卡行为分析的诈骗电话识别方法，包括：收集诈骗电话和普通电话的开卡行为数据，并提取诈骗电话和普通电话的特征向量；使用诈骗电话和普通电话的特征向量进行诈骗电话模型训练，生成诈骗电话判断模型；接收新电话的开卡行为数据，并提取新电话的特征向量；使用诈骗电话判断模型对新电话的特征向量进行分析，对新电话进行判断。本发明针对诈骗电话手段不断变化，采用大数据分析历史诈骗电话和普通电话的相关数据，使用“GBDT‑LSTM‑RF”的深度学习模型架构，构建诈骗电话判断模型，通过自学习技术学习到网内开卡时序特征，并将多类特征进行融合，从而可以发现诈骗电话；本发明还可以自更新，可以有效发现新型诈骗电话。

Description

一种基于网内开卡行为分析的诈骗电话识别方法及系统

技术领域

本发明属于深度学习技术领域，特别涉及一种基于网内开卡行为分析的诈骗电话识别方法及系统。

背景技术

随着通讯信息诈骗的技术防范工作不断深入，传统模式的电话诈骗已经得到了一定程度的遏制，但是受各种因素的影响，通讯网络新型违法犯罪活动仍然快速发展蔓延，形势严峻，危害突出。

卖(贩)卡团伙通过各种渠道搜集身份证，非法开通多张电话卡，之后转卖给通讯诈骗团伙用于通讯诈骗。通讯诈骗团伙用号码篡改、伪装等方式，通过通讯网络、社交软件等多渠道对目标群体实施诈骗，呈现出动态、稀疏、跨渠道融合的诈骗态势，给通讯反诈骗工作带来巨大的挑战。

目前，通讯诈骗电话的发现主要依靠呼叫行为和文本内容分析技术，都属于事后分析，针对上游卖(贩)卡团伙网内开卡时序行为分析挖掘能力不足，不能有效的从源头发现并遏制诈骗行为。

发明内容

针对上述问题，本发明提出一种基于网内开卡行为分析的诈骗电话识别方法包括：

收集诈骗电话和普通电话的开卡行为数据，并提取诈骗电话和普通电话的特征向量；

使用所述诈骗电话和普通电话的特征向量进行诈骗电话模型训练，生成诈骗电话判断模型；

接收新电话的开卡行为数据，并提取新电话的特征向量；

使用诈骗电话判断模型对所述新电话的特征向量进行分析，对新电话进行判断。

进一步地，所述开卡行为包括：

网内开卡行为、开卡静默行为、静默后充值消费行为和呼叫行为。

进一步地，所述使用所述诈骗电话和普通电话的特征向量进行诈骗电话模型训练，生成诈骗电话判断模型，包括：

建立GBDT-LSTM-RF模型；

使用所述诈骗电话和普通电话的特征向量在所述模型中训练；

生成诈骗电话判断模型。

进一步地，使用所述诈骗电话和普通电话的特征向量在所述模型中训练，包括：

诈骗电话和普通电话的特征向量作为GBDT-LSTM-RF模型的输入量，诈骗电话和普通电话判别结果作为输出量。

进一步地，所述方法还包括：自动更新诈骗电话判断模型；

所述自动更新诈骗电话判断模型包括：

周期性收集新的诈骗电话和新的普通电话的开卡行为数据，并提取新的诈骗电话和新的普通电话的新的特征向量；

使用所述新的特征向量进行诈骗电话模型训练，重新生成新的诈骗电话判断模型。

本发明还设计一种基于网内开卡行为分析的诈骗电话识别系统，包括：

数据查询管理模块，用于收集诈骗电话和普通电话的开卡行为数据，并提取诈骗电话和普通电话的特征向量；

模型自学习模块，用于使用所述诈骗电话和普通电话的特征向量进行诈骗电话模型训练，生成诈骗电话判断模型；

实时检测模块，用于接收新电话的开卡行为数据，并提取新电话的特征向量；使用诈骗电话判断模型对所述新电话的特征向量进行分析，对新电话进行判断。

进一步地，所述开卡行为包括：

进一步地，所述模型自学习模块包括：

建立组件，用于建立GBDT-LSTM-RF模型；

训练组件，用于使用所述诈骗电话和普通电话的特征向量在所述模型中训练；

生成组件，用于生成诈骗电话判断模型。

进一步地，所述系统还包括：

模型自更新模块，

所述模型自更新模块用于周期性收集新的诈骗电话和新的普通电话的开卡行为数据，并提取新的诈骗电话和新的普通电话的新的特征向量；使用所述特征向量进行诈骗电话模型训练，重新生成新的诈骗电话判断模型。

本发明针对诈骗电话手段不断变化，采用大数据分析历史诈骗电话和普通电话的相关数据，使用“GBDT-LSTM-RF”的深度学习模型架构，构建诈骗电话判断模型，通过自学习技术学习到网内开卡时序特征，并将多类特征进行融合，从而可以发现诈骗电话；本发明还可以自更新，可以有效发现新型诈骗电话。本发明解决了无法在事前对诈骗团伙实施电话诈骗进行有效发现的问题；可极大增强对上游卖(贩)卡团伙网内开卡行为分析的挖掘能力，从而有效的从源头发现并遏制诈骗分子。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的基于网内开卡行为分析的诈骗电话识别方法流程示意图；

图2示出了根据本发明实施例的基于网内开卡行为分析的诈骗电话识别系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于网内开卡行为分析的诈骗电话识别方法，所述方法可以采用但不限于以下流程。示例性的，如图1所示，所述方法包括：

接收新电话的开卡行为数据，并提取新电话的特征向量；

具体的，收集诈骗电话和普通电话的开卡行为数据，并提取诈骗电话和普通电话的特征向量；所述开卡行为包括：网内开卡行为、开卡静默行为、静默后充值消费行为和呼叫行为。

示例性的，事先收集大量诈骗电话和普通电话，并收集诈骗电话和普通电话的开卡行为数据，这些数据归类后提取，形成相应的特征向量。如可以通过手机管家等软件收集诈骗电话，通过电信管理部门收集开卡行为数据等。如查询全量电话的相关数据，所述全量电话即所有的电话，从全量电话的相关数据中选择诈骗电话的相关数据。

网内开卡行为包括开卡周期、开卡数量、开卡渠道、开卡集中性及开卡身份信息等；开卡静默行为指开卡静默时长；静默后充值消费行为包括充值金额、消费金额、异地性等；呼叫行为包括主叫特征、被叫特征、呼叫时间分布等。

开卡周期指的是用户本次开卡时间距离上一次开卡的时间；开卡数量指的是用户当前一次性开卡的数量及累计开卡数量；开卡渠道指的是用户是通过何种渠道开卡的，例如实体电信营业厅、网上电子渠道；开卡集中性指的是用户是否存在短期内连续多次开卡现象；开卡身份信息指的是用户开卡时使用的实名信息。开卡静默时长指用户开卡后到首次使用该卡进行电信操作的时间间隔，电信操作包括发送短信、拨打电话、使用流量上网等。静默后充值消费行为用于判断用户在静默后刚开始使用电话卡时，是否有大额充值消费行为，预设充值阈值时间和预设消费时间，充值金额指在充值阈值时间内用户充值的金额，消费金额指在预设消费时间用户消费的金额。异地性指用户开卡地和充值消费地不一致。主叫特征包括主叫呼叫频次、作为主叫呼叫的占比；主叫呼叫频次指的是对外呼叫的频率，作为主叫呼叫的占比指对外呼叫的数量占总呼叫次数的比率。被叫特征包括被叫号码离散度，指的接到被叫号码的离散程度，如可以使用平均差方式计算离散度，呼叫时间分布是指主叫呼叫的时间的分布情况。

收集诈骗电话的开卡行为数据，这些数据分类进行提取，即生成诈骗电话的特征向量。收集普通电话的开卡行为数据，这些数据分类进行提取，即生成普通电话的特征向量。如收集了诈骗电话的静默后充值消费行为数据，这些数据会生成诈骗电话的静默后充值消费特征向量。

优选的，诈骗电话可以分为不同类别，类别事先定义，如博彩式、股票式等。也可以按类别收集诈骗电话的开卡行为数据，并提取不同类别诈骗电话的特征向量。

具体的，使用所述诈骗电话和普通电话的特征向量进行诈骗电话模型训练，生成诈骗电话判断模型，包括：建立GBDT-LSTM-RF模型；使用所述诈骗电话和普通电话的特征向量在所述模型中训练；生成诈骗电话判断模型。

示例性的，建立GBDT-LSTM-RF模型。所述模型有三层结构，分别为：GBDT(GradientBoostingDecisionTree，梯度提升决策树)，是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案；LSTM(LongShort-TermMemory，长短期记忆神经网络)是一种时间循环神经网络；RF(RandomForest，随机森林)是一种利用多棵树对样本进行训练并预测的一种分类器。

使用所述诈骗电话和普通电话的特征向量在所述模型中训练；即把诈骗电话和普通电话的特征向量作为GBDT-LSTM-RF模型的输入量，诈骗电话和普通电话判别结果作为输出量。由于输入量与输出量已经确认，GBDT-LSTM-RF模型会自动学习。

优选的，也可以使用不同类别诈骗电话和普通电话的特征向量在所述模型中训练，把不同类别诈骗电话和普通电话的特征向量作为GBDT-LSTM-RF模型的输入量，不同类别诈骗电话和普通电话判别结果作为输出量。

诈骗电话或普通电话的特征向量数据进入到GBDT-LSTM-RF模型进行学习，处理过程如下：诈骗电话或普通电话的特征向量数据进入到GBDT，拟合出回归树，生成GBDT特征向量；GBDT特征向量再进入到LSTM，生成LSTM特征向量；LSTM特征向量再进入到RF，最终输出诈骗电话或普通电话的判别结果。这样迭代多次获得最优学习结果。训练后生成的诈骗电话判断模型判断诈骗电话时会在每一层生成不同的权重值。

GBDT分为梯度提升决策树输入量和输出量确定单元和梯度提升决策树权重值训练单元。诈骗电话和普通电话的特征向量作为输入量和输出量确定单元的输入量，学习到的优化特征向量，即GBDT特征向量为输出量。梯度提升决策树权重值训练单元，用于训练梯度提升决策树的权重值，建立梯度提升决策树的诈骗电话和普通电话的特征向量优化模型，示例性的，使用损失函数来设置权重，如均方差、绝对损失、Huber损失、分位数损失、指数损失函数和对数损失函数等。

LSTM分为长短期记忆神经网络输入量和输出量确定单元和长短期记忆神经网络权重值训练单元。GBDT特征向量作为长短期记忆神经网络输入量和输出量确定单元输入量，学习到的序列间深度特征向量，即LSTM特征向量为输出量。长短期记忆神经网络权重值训练单元，用于训练长短期记忆神经网络的权重值，建立长短期记忆神经网络的历史诈骗电话和普通电话的序列间深度特征向量提取模型，示例性的，使用sigmoid函数或tanh函数来设置权重。

RF分为随机森林模型输入量和输出量确定单元和随机森林模型权重值训练单元。LSTM特征向量作为随机森林模型输入量和输出量确定单元输入量，诈骗电话或普通电话的判别结果作为输出量。随机森林模型权重值训练单元，用于训练随机森林模型的权重值，用于随机森林模型，建立随机森林模型的诈骗电话判断模型，示例性的，使用等权重的投票算法来设置权重。

GBDT-LSTM-RF模型经过诈骗电话和普通电话的特征向量数据训练后，生成诈骗电话判断模型；该模型可以判断诈骗电话或普通电话。诈骗电话判断模型包括GBDT层、LSTM层、RF层。

优选的，GBDT-LSTM-RF模型经过不同类别诈骗电话和普通电话的特征向量数据训练后，生成带类别的诈骗电话判断模型；该模型可以判断诈骗电话或普通电话，其中诈骗电话可以判断具体属于哪一种诈骗类型。

具体的，接收新电话的开卡行为数据，并提取新电话的特征向量；使用诈骗电话判断模型对所述新电话的特征向量进行分析，对新电话进行判断。

示例性的，当一个新的电话开卡后，会产生对应的开卡行为数据；把对应的开卡行为数据分类进行提取，生成新的电话的特征向量。把新的电话的特征向量输入到诈骗电话判断模型中，模型会给出判别结果，判断此电话属于诈骗电话或普通电话。模型每一层都会对输入进行特征学习，最后一层会给出输出概率，即属于诈骗电话的概率，也称为置信度，即新的电话属于诈骗电话或普通电话的概率。模型给出的判别结果是根据新的电话属于诈骗电话或普通电话的机率得到的，如该电话属于诈骗电话0.98，属于普通电话为0.02，这表示该电话有98％机率是诈骗电话，2％机率为普通电话；预设判断阈值，人工判断阈值，这里诈骗电话机率即模型给出该电话属于诈骗电话的机率；当1≥诈骗电话机率>判断阈值时，则判断此电话为诈骗电话；当判断阈值≥诈骗电话机率>人工判断阈值时，则交人工校准；当人工判断阈值≥诈骗电话机率≥0，则判断此电话为普通电话。

优选的，如果开始使用不同类别诈骗电话的特征向量生成带类别的诈骗电话判断模型，则模型会更进一步给出更具体的判断结果，判断此电话属于哪一种类别的诈骗电话或普通电话。

具体的，基于网内开卡行为分析的诈骗电话识别方法还包括：自动更新诈骗电话判断模型；所述自动更新诈骗电话判断模型包括：

周期性收集新的诈骗电话和新的普通电话的开卡行为数据，并提取新的诈骗电话和新的普通电话的新的特征向量；使用所述特征向量进行诈骗电话模型训练，重新生成新的诈骗电话判断模型。

示例性的，当有新的诈骗电话技术产生时，原来的诈骗电话判断模型就可能不大适应；需要人工校准来判定的电话，原来的诈骗电话判断模型再次判断，还是需要人工进行校准；这就需要对诈骗电话判断模型自动更新，以适应新的需求。自动更新的方法如下：周期性收集新的诈骗电话和新的普通电话的开卡行为数据，并提取新的诈骗电话和新的普通电话的特征向量，使用新的诈骗电话和新的普通电话的特征向量在原来的诈骗电话判断模型进行训练，重新生成新的诈骗电话判断模型。当有更新的电话时，则接收更新的电话的开卡行为数据，并提取更新的电话的特征向量，利用新的诈骗电话判断模型对更新的电话的特征向量进行分析，则可以对更新的电话进行判断。

本发明还提供一种基于网内开卡行为分析的诈骗电话识别系统，示例性的，如图2所示，包括：

模型自更新模块，用于周期性收集新的诈骗电话和新的普通电话的开卡行为数据，并提取新的诈骗电话和新的普通电话的新的特征向量；使用所述特征向量进行诈骗电话模型训练，重新生成新的诈骗电话判断模型。

具体的，数据查询管理模块，用于收集诈骗电话和普通电话的开卡行为数据，并提取诈骗电话和普通电话的特征向量，生成诈骗电话的特征向量和普通电话的特征向量；所述开卡行为包括网内开卡行为、开卡静默行为、静默后充值消费行为和呼叫行为；

所述模型自学习模块包括：

建立组件，用于建立GBDT-LSTM-RF模型；生成GBDT-LSTM-RF模型；

训练组件，用于使用所述诈骗电话和普通电话的特征向量在所述模型中训练；包括：诈骗电话和普通电话的特征向量作为GBDT-LSTM-RF模型的输入量，诈骗电话和普通电话判别结果作为输出量；接收数据查询管理模块传来的诈骗电话的特征向量和普通电话的特征向量；接收建立组件传来的GBDT-LSTM-RF模型；生成训练后的GBDT-LSTM-RF模型；

生成组件，用于生成诈骗电话判断模型；接收训练组件传来的训练后的GBDT-LSTM-RF模型，生成诈骗电话判断模型。

实时检测模块，用于接收新电话的开卡行为数据，并提取新电话的特征向量；使用诈骗电话判断模型对所述新电话的特征向量进行分析，对新电话进行判断；接收模型自学习模块传来的诈骗电话判断模型，生成新电话的判断结果。

示例性的，基于网内开卡行为分析的诈骗电话识别系统还包括：

数据存储模块，用于分布式存储不同类别的多条历史诈骗电话和普通电话的相关数据；

数据处理模块，用于对多条历史诈骗电话和普通电话的相关数据快速抓取和分发。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于网内开卡行为分析的诈骗电话识别方法，其特征在于，所述方法包括：

接收新电话的开卡行为数据，并提取新电话的特征向量；

2.根据权利要求1所述的基于网内开卡行为分析的诈骗电话识别方法，其特征在于，所述开卡行为包括：

3.根据权利要求1所述的基于网内开卡行为分析的诈骗电话识别方法，其特征在于，所述使用所述诈骗电话和普通电话的特征向量进行诈骗电话模型训练，生成诈骗电话判断模型，包括：

建立GBDT-LSTM-RF模型；

生成诈骗电话判断模型。

4.根据权利要求3所述的基于网内开卡行为分析的诈骗电话识别方法，其特征在于，

使用所述诈骗电话和普通电话的特征向量在所述模型中训练，包括：

5.根据权利要求1所述的基于网内开卡行为分析的诈骗电话识别方法，其特征在于，

所述方法还包括：自动更新诈骗电话判断模型；

所述自动更新诈骗电话判断模型包括：

6.一种基于网内开卡行为分析的诈骗电话识别系统，其特征在于，

所述系统包括：

7.根据权利要求6所述的基于网内开卡行为分析的诈骗电话识别系统，其特征在于，

所述开卡行为包括：

8.根据权利要求6所述的基于网内开卡行为分析的诈骗电话识别系统，其特征在于，

所述模型自学习模块包括：

建立组件，用于建立GBDT-LSTM-RF模型；

生成组件，用于生成诈骗电话判断模型。

9.根据权利要求8所述的基于网内开卡行为分析的诈骗电话识别系统，其特征在于，

10.根据权利要求6所述的基于网内开卡行为分析的诈骗电话识别系统，其特征在于，所述系统还包括：

模型自更新模块，