CN111062422A

CN111062422A - 一种套路贷体系化识别方法及装置

Info

Publication number: CN111062422A
Application number: CN201911200313.0A
Authority: CN
Inventors: 刘胜; 梁淑云; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-24
Anticipated expiration: 2039-11-29
Also published as: CN111062422B

Abstract

本发明提供了一种套路贷体系化识别方法及装置，方法包括：1)、获取用户的网络行为数据，使用网络行为数据训练Xgboost模型，使用Xgboost模型识别出具有资金需求的用户；2)、将所述用户的历史通话数据、当前周期内通话数据以及黑名单库清单数据作为训练集训练预先构建的随机森林模型，并使用该训练好的随机森林模型输出测试集中用户属于具有寻找资金行为的用户的分类概率值；3)、根据所述用户的账户交易数据，利用贝叶斯模型输出测试集中用户为已经接收资金的用户的分类概率值；4)、将训练后的模型体系作为套路贷体系化识别模型，以对待识别用户属于套路贷受害者的概率进行检测。应用本发明实施例，可以识别出套路贷犯罪行为。

Description

一种套路贷体系化识别方法及装置

技术领域

本发明涉及套路贷识别领域，具体涉及一种套路贷体系化识别方法及装置。

背景技术

随着通讯和网络的发展及普及，越来越多的交易通过互联网进行。互联网交易行为的大量应用也给了电信网络诈骗分子可乘之机，导致电信网络诈骗日益成为威胁公众财产和社会安定的一大危害。随着刑事打击和普法宣传力度的不断加大，电信网络诈骗得到了一定程度上的遏制。但是，近几年一种新的诈骗方式出现了：“套路贷”诈骗。因此，如何识别出套路贷犯罪行为是亟待解决的技术问题。

发明内容

本发明所要解决的技术问题在于如何提供一种套路贷体系化识别方法及装置以识别出套路贷犯罪行为。

本发明通过以下技术手段实现解决上述技术问题的：

本发明实施例提供了一种套路贷体系化识别方法，所述方法包括：

1)、获取用户的网络行为数据，并使用所述网络行为数据训练Xgboost模型，并使用所述Xgboost模型输出测试集中用户属于具有资金需求用户的分类概率值；；

2)、将所述用户的历史通话数据、当前周期内通话数据以及黑名单库清单数据作为训练集训练预先构建的随机森林模型，并使用该训练好的随机森林模型输出测试集中用户属于具有寻找资金行为的用户的分类概率值；

3)、根据所述用户的账户交易数据，利用贝叶斯模型输出测试集中用户为已经接收资金的用户的分类概率值；

4)、根据用户的通话数据，利用支持向量机模型输出所述用户属于被骚扰用户的概率值；

5)、将用户属于具有资金需求用户的概率、具有寻找资金行为用户的概率、已经接收资金的用户的概率以及被骚扰用户的概率作为样本数据的特征值，并结合用户是否为套路贷受害用户标签，训练逻辑回归分类模型。将训练后的Xgboost模型、随机森林模型、贝叶斯模型以及逻辑回归模型组成的模型体系作为套路贷体系化识别模型，以对待识别用户属于套路贷受害者的概率进行检测。

可选的，所述步骤1)，包括：

101)、获取运营商记录用户网络行为数据作为的用户数据，并将所述用户数据以用户手机号码和日期为关联媒介进行关联，得到关联后的第一特征宽表，其中，所述用户数据包括：话单数据、短信数据以及dpi数据；

102)、针对第一特征宽表中的每一条用户数据中的每一个主叫号码，建立所述主叫号码与金融机构之间的关联特征；

103)、将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据，并为所述样本数据增加标签，将增加标签后的样本数据的集合作为第二特征宽表，其中，所述标签的值为表征该行数据是否有资金需求的符号；

104)、将第二特征宽表划分为训练集和测试集，利用所述训练集训练Xgboost模型，并使用测试集测试训练后的Xgboost模型的准确率，将准确率最高的训练后的 Xgboost模型作为最终的训练后的Xgboost模型，利用该模型输出测试样本中用户属于具有资金需求用户的分类概率值；。

可选的，所述建立所述主叫号码与金融机构之间的关联特征，包括：

建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征，建立所述主叫号码与金融机构进行短信通信的金融机构短信特征；建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征；建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征；建立所述主叫号码对应的设备使用金融类APP的金融类App 使用行为特征。

可选的，所述将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据，并为所述样本数据增加标签，包括：

将所述主叫号码对应的各个关联特征拼接为一行，并在所述行尾增加标签列，标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号，其中，所述符号包括：0、1。

可选的，所述利用所述训练集训练Xgboost模型，并使用测试集测试训练后的Xgboost模型的准确率，直至训练后的Xgboost模型的准确率达到预期目标，包括：

a、在当前次训练中，利用所述训练集训练Xgboost模型；使用当前次训练后的Xgboost模型识别测试集中的各条数据，得到每条数据对应的识别结果；根据测试集中各条数据中标签的实际值与识别结果之间的差异，计算当前次训练后的Xgboost模型的准确率；

b、通过网格搜索调参的方法调节所述当前次训练后的Xgboost模型的模型参数，并返回执行步骤a，直至所有参数都被选择，选取准确率最高的模型作为最终的训练后的Xgboost模型，其中，所述模型参数包括：决策树数量、模型的最大深度、最小分裂参数及学习速率中的一种或组合。

可选的，所述步骤2)，包括：

201)、获取所述用户的当前周期内通话数据，以及运营商的黑名单库清单数据，其中，所述用户的当前周期内通话数据包括：用户号码、来电号码、去电号码、通话时长、呼叫方式；

202)、根据所述当前周期内通话数据以及黑名单库清单数据，判断所述当前周期内通话数据中的各个通话号码是否在黑名单清单数据中，得到第一特征；

203)、根据所述用户的历史通话数据获取用户的交往圈数据，并针对所述当前周期内通话数据中的每一个通话号码判断所述通话号码是否属于所述用户的交往圈，得到第二特征；

204)、根据所述用户的历史通话数据，并针对所述当前周期内通话数据中的每一个通话号码判断所述号码是否为陌生号码，得到第三特征；

205)、根据所述第一特征、第二特征以及第三特征，以所述用户的号码为主键构建用户的通话特征，利用所述通话特征以及对应的标签作为训练集训练预先构建的随机森林模型，并得到测试集中用户为具有寻找资金行为的用户的概率值，其中，所述标签包括：所述用户为具有寻找资金行为的用户、所述用户不为具有寻找资金行为的用户。

可选的，所述步骤3)，包括：

301)、根据所述用户的通信数据以及账户交易数据构建用户的资金交易特征；

302)、根据所述资金交易特征，利用预先构建的贝叶斯模型计算所述用户为收到资金用户的概率。

可选的，所述步骤4)，包括：

401)、获取用户通话数据和短信数据，其中，所述用户通话数据包括：通话日期、用户号码、来电号码、来电时间以及通话时长；所述短信数据包括：数据日志、用户号码、来信号码以及来信时间；

402)、对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征；

403)、根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别测试集对应的用户属于被骚扰用户的分类概率。

可选的，在步骤403)之前，所述方法还包括：

对所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征进行归一化处理；

所述根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本的步骤，包括：

根据所述用户对应的归一化后的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本。

可选的，所述利用所述训练样本组成的训练集训练目标支持向量机模型，包括：

在每一次迭代中，将第三特征宽表划分为K等份，随机将其中的一份作为测试集，将除测试集之外的K-1份数据作为训练集，其中，所述K大于等于2；

将训练集中的各个样本映射到特征空间内，得到若干个样本点

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

L(w,b,α)为目标函数；w为支持向量的法向参数矩阵；∑为求和函数；n为样本点数量；||||²为2范数函数；y_i为第i个样本点；w^T为支持向量的法向参数矩阵的转置；α为拉格朗日乘子；b为支持向量的截距参数矩阵；

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值，并继续循环执行以上步骤，得到若干个训练后的支持向量机模型；

得到若干个训练后的支持向量机模型；使用测试集测试训练后的支持向量机模型，并将准确率最高的模型作为目标支持向量机模型。

可选的，所述利用所述目标支持向量机模型识别测试集对应的用户属于被骚扰用户的分类概率，包括：

获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中，得到待识别用户对应的样本点；

利用所述目标支持向量机模型对所述样本点进行划分，根据所述样本点被划分的区域判断所述用户是否被骚扰。

本发明实施例还提供了一种套路贷体系化识别装置，装置包括：

获取模块，用于获取用户的网络行为数据，并使用所述网络行为数据训练Xgboost模型，并使用所述Xgboost模型输出测试集中用户属于具有资金需求用户的分类概率值；；

第一识别模块，用于将所述用户的历史通话数据、当前周期内通话数据以及黑名单库清单数据作为训练集训练预先构建的随机森林模型，并使用该训练好的随机森林模型输出测试集中用户属于具有寻找资金行为的用户的分类概率值；

第二识别模块，用于根据所述用户的账户交易数据，利用贝叶斯模型输出测试集中用户为已经接收资金的用户的分类概率值；

第三识别模块，用于根据用户的通话数据，利用支持向量机模型输出所述用户属于被骚扰用户的概率值；将用户属于具有资金需求用户的概率、具有寻找资金行为用户的概率、已经接收资金的用户的概率以及被骚扰用户的概率作为样本数据的特征值，并结合用户是否为套路贷受害用户标签，训练逻辑回归分类模型。将训练后的 Xgboost模型、随机森林模型、贝叶斯模型以及逻辑回归模型组成的模型体系作为套路贷体系化识别模型，以对待识别用户属于套路贷受害者的概率进行检测。

可选的，所述获取模块，用于：

将所述主叫号码对应的各个关联特征拼接为一行，并在所述行尾之后增加标签列，标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号，其中，所述符号包括：0、1，其中，1表示正样本，0表示你负样本。

可选的，所述获取模块，用于：

可选的，所述第一识别模块，用于：

可选的，第二识别模块，用于：

可选的，所述第三识别模块，用于：

可选的，第三识别模块，用于：

可选的，所述第三识别模块，用于：

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

本发明的优点在于：

应用本发明实施例依据套路贷的犯罪进程特征，根据从运营商获取用户的网络行为数据以及通话数据构建针对套路贷犯罪的进程特征的识别模型体系，然后使用识别模型体系对用户的网络行为数据以及通话数据进行识别，匹配出与套路贷犯罪的进程特征相匹配的资金往来行为，进而可以识别出套路贷犯罪行为。

附图说明

图1为本发明实施例提供的一种套路贷体系化识别方法的流程示意图；

图2为本发明实施例提供的一种套路贷体系化识别方法中Xgboost模型的决策树的结构示意图；

图3为本发明实施例提供的一种套路贷体系化识别方法中识别结果的分类示意图；

图4为本发明实施例提供的一种套路贷体系化识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种套路贷体系化识别方法的流程示意图，如图1所示，所述方法包括：

S1：获取用户的网络行为数据，并使用所述网络行为数据训练Xgboost模型，并使用所述Xgboost模型输出测试集中用户属于具有资金需求用户的分类概率值；；

具体的，S1步骤可以包括以下内容：

S101：获取运营商记录用户网络行为数据作为的用户数据，并将所述用户数据以用户手机号码和日期为关联媒介进行关联，得到关联后的第一特征宽表，其中，所述用户数据包括：话单数据、短信数据以及dpi数据。

示例性的，可以获取运营商话单数据，包含但不限于用户的手机号码、金融机构号码、通话开始时间、通话结束时间、通话时长等；

获取运营商短信数据，包含但不限于用户的手机号码、短信接收时间、接收短信的对端发送号码、是否回复等；

获取运营商dpi(Deep Packet Inspection，深度报文检测)数据，包含但不限于用户手机号码、搜索关键字内容、浏览网页是否为借贷网站、安装金融类App的名称、金融类App的安装时间、金融类App的使用时长、金融类App的使用流量等。

将以上三部分数据以用户手机号码和日期作为关联媒介，整合成宽表T1，例如，手机号码135XXX的若干条通话记录可以作为对应条数的用户数据；

使用该号码的手机浏览网页时产生的网页浏览数据，将这些网页浏览数据与手机号码135XXX进行关联；

使用该号码的手机发送的短信产生的通信记录，将这些通信记录与手机号码135XXX关联；

使用该号码的办理的宽带产生的网页浏览记录以及搜索记录，将这些记录与手机号码135XXX关联；

还可以将使用该号码的手机使用的金融类APP的相关数据与手机号码135XXX关联。

需要强调的是，关联的数据包括但不仅限于上述数据，而且关联方式包括但不仅限于手机号码，还可以为用户的身份证号等数据。

在使用手机号码数据进行关联时，还可以加入时间作为辅助的关联媒介。

S102：针对第一特征宽表中的每一条用户数据中的每一个主叫号码，建立所述主叫号码与金融机构之间的关联特征。

具体的，可以建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征，建立所述主叫号码与金融机构进行短信通信的金融机构短信特征；建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征；建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征；建立所述主叫号码对应的设备使用金融类APP 的金融类App使用行为特征。

示例性的，将S101步骤中得到的第一特征宽表中包含金融机构对应关键词的数据筛选出来，并以主叫电话号码为单位，取当月数据进行关联特征构建；主要从以下五个部分进行关联特征构建：

金融机构通话行为特征；可以通过提取出主叫号码有拨打金融机构行为的通话数据，构建主叫号码与金融机构的通话次数、平均时长、通话次数或者平均时长与历史相比变化系数、主被叫占比等通话特征的方法进行特征构建，其中，如主被叫占比＝该号码作为主叫的次数/该号码作为被叫的次数；通话次数变化系数是通过当前数据与历史数据计算得到的，用于表示用户该行为特征与历史平均水平相比的变化情况，如主叫号码拨打金融机构电话次数与历史相比变化系数指标＝该号码当月拨打金融机构电话次数/半年内该号码拨打金融机构电话次数的平均值。

金融机构短信特征：可以通过提取出主叫号码有与金融机构短信发送行为的数据，构建主叫号码与金融机构短信发送、接收的次数、发送量占比、接受量占比、与历史相比变化系数等特征的方法进行特征构建；

借贷网页浏览行为特征：可以通过提取主叫号码浏览借贷网页行为数据，构建借贷网页浏览次数、平均浏览时长、浏览借贷网页个数、浏览借贷网页个数占比、与历史相比变化系数等特征的方法进行特征构建；

搜索关键字行为特征：可以通过提取主叫号码网页搜索关键字行为数据，构建主叫号码搜索与借贷相关的关键字个数、与历史相比变化系数等特征的方法进行特征构建；

金融类App使用行为特征：可以通过提取主叫号码使用金融类App行为的数据，构建主叫号码金融类App安装次数、App个数、使用次数、平均使用时长、使用流量、使用流量占比、使用时长占比、与历史相比变化系数等特征的方法进行特征构建其中，金融类App使用流量占比＝金融类App使用流量/所有App使用流量。

S103：将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据，并为所述样本数据增加标签，将增加标签后的样本数据的集合作为第二特征宽表，其中，所述标签的值为表征该行数据是否有资金需求的符号。

具体的，可以将所述主叫号码对应的各个关联特征拼接为一行，并在所述行尾增加标签列，标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号，其中，所述符号包括：0、1。

示例性的，在关联特征构建完成后，以主叫号码为主键，拼接各个特征作为数据列，并增加标签列，其值为0或者1，其中，0表示无资金需求用户，1表示有资金需求用户，最终形成特征宽表T2，表2为本发明实施例提供的使用标签列标记后的拼接后的关联特征汇总表：

表2

将若干个号码的数据汇总在一起就可以得到了第二特征宽表。

S104：将第二特征宽表划分为训练集和测试集，利用所述训练集训练Xgboost模型，并使用测试集测试训练后的Xgboost模型的准确率，将准确率最高的训练后的 Xgboost模型作为最终的训练后的Xgboost模型，利用该模型输出测试样本中用户属于具有资金需求用户的分类概率值；。

具体的，训练过程可以包括：

首先，通过k折交叉验证法(在此k取10，k的值根据需要进行调整，k大于等于 2)对训练样本集进行拆分，其中一份作为测试集，剩下k-1份作为训练集；即，可以将第二特征宽表划分为10等份，随机将第2份作为测试集，将除测试集之外的9份数据作为训练集。

将训练集中的每一条数据作为一个样本，将样本中的每个特征指标作为模型训练阶段的输入参数，标签列中的字段或者值作为用户的分类标签。

对所构建的Xgboost模型，其训练过程如下：

a、在当前次训练中，利用所述训练集训练Xgboost模型；使用当前次训练后的Xgboost模型识别测试集中的各条数据，得到每条数据对应的识别结果；根据测试集中各条数据中标签的实际值与识别结果之间的差异，计算当前次训练后的Xgboost模型的准确率。

b、通过网格搜索调参的方式，即通过修改当前参数中的一个或多个，固定其他参数，

使用训练集对Xgboost模型进行训练，并利用网格搜索法对模型的参数进行调优处理。具体方法是：修改所需要调整的参数中的一个或多个的值，固定其他所需要调整的参数的值不变进行模型的训练，并比较模型的输出结果与标签数据，选择模型准确率最高的参数。比如：设定树的最大深度max_depth范围为(1，2，3，4，5，6，7， 8，9)，固定其他参数的值不变，依次选择max_depth＝1,2,3…,9进行模型的训练，选择模型准确率最高的max_depth值记为该参数调优后的值。依次对其他参数进行同样处理，最终得到最优模型，需要进行调优的参数有：决策树数量、模型的最大深度、最小分裂参数集学习速率等。

c、按步骤a、b再次进行模型的训练与效果评估，直至各个参数都被选择，所述模型参数包括：决策树数量、模型的最大深度、最小分裂参数及学习速率等。

示例性的，Xgboost是boosting算法的一种，它是将许多CART回归树模型集合在一起，形成一个分类性能很强的分类器，从而提升分类效果。该算法的核心思想是不断地添加树，不断地进行特征分类来生长一个树，每次添加一个树实际上是学习一个新函数，去拟合上次预测的残差。其最终预测样本所得到的分数，就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点上，每个叶子节点对应一个分数，最后将每颗树的分数加起来就是该样本的预测值。

图2为本发明实施例提供的一种套路贷体系化识别方法中Xgboost模型的决策树的结构示意图，如图3所示，在决策树算法中，其对样例的划分是通过对其特征值进行判断从而向左或者向右划分，最终达到叶子节点。

Xgboost就是使用了集成的思想，通过使用多棵树来组成一个强分类器。

然后，对Xgboost第一次迭代过程中的添加树的过程进行介绍：

初始阶段树是0，可表示为：y_i ^'(0)＝0。

添加第一棵树：y_i ^'(1)＝y_i ^'(0)+f₁(x_i)，其中，y_i ^'(1)为第一棵树的输出结果；f₁(x_i)为第一棵树对应的拟合函数；i为第二特征宽表中的数据的条数。

添加第二棵树：y_i ^'(2)＝y_i ^'(1)+f₂(x_i)，其中，y_i ^'(2)为第一棵树的输出结果；f₂(x_i)为第一棵树对应的拟合函数。

以此类推，最终第t轮的模型预测：y_i ^'(t)＝y_i ^'(t-1)+f_t(x_i)。

添加树的过程需要保证加入的新的树能够提升整体的表达效果，即新的树添加之后，目标函数的值会下降。进一步的，本发明实施例中为了在当叶子节点过多时，降低过拟合的风险增加了惩罚项。

Xgboost的目标函数可以表示为：

其中，

Ω(f_t)为Xgboost惩罚项，且

λ为惩罚力度，T为叶子的个数；w为叶子节点的得分；y′为整个累加模型的输出，

为正则化项，表示树的复杂度的函数，复杂度越低，表示模型的泛化能力越强。

将本轮迭代中t棵树添加完成后，使用测试集测试本轮迭代中训练的Xgboost模型的预测结果，如果本轮迭代中得到的预测结果的准确性大于或者等于预设阈值，则结束迭代。如果本轮迭代中得到的预测结果的准确性小于预设阈值，则调节决策树数量、模型的最大深度、最小分裂参数及学习速率等参数，得到调节后的Xgboost模型，并进行下一轮迭代，直至迭代结束。

需要强调的是，模型最终输出的结果为用户的分类概率值，默认概率值大于或等于0.5的认为是有借贷需求的用户，可根据实际需求进行阈值的调节。也可以是用户的分类结果，其值为0或者1。另外，不同次迭代中第二特征宽表被划分的份数可以不同，也可以相同。

在本发明实施例中，在使用验证集对Xgboost模型进行验证时，是使用交叉验证法对Xgboost模型进行测试。可以选择平均效果最好的模型。

应用本发明实施例，从运营商记录的用户数据中筛选出根据用户与金融机构之间的关联特征，并使用这些关联特征训练Xgboost模型，利用训练号的Xgboost模型可以识别出具有借贷需求的用户。

进一步的，本发明实施例通过完善的特征构造以及结合Xgboost机器学习算法，能够准确地识别出哪些用户具有借贷需求，这对电信诈骗地防控与管制起到了很大的指导作用，通过本发明所识别出的用户，可根据对其下一步行为进行分析，判断其是否可能遭受到电信诈骗，从而对其进行短信或电话提醒。

另外，本发明实施例构建了较为完善的特征工程；本发明所展示的特征部分，是基于对有借贷需求的用户的行为进行深入分析得来的。其中包含用户的借贷网页浏览、金融类APP的使用、搜索关键字以及用户的通话、短信等行为特征。

S2：将所述用户的历史通话数据、当前周期内通话数据以及黑名单库清单数据作为训练集训练预先构建的随机森林模型，并使用该训练好的随机森林模型输出测试集中用户属于具有寻找资金行为的用户的分类概率值。

S201：获取所述用户的当前周期内通话数据，以及运营商的黑名单库清单数据，其中，所述用户的当前周期内通话数据包括：用户号码、来电号码、去电号码、通话时长、呼叫方式。

将获取的用户过去一周内的通话数据作为当前周期内通话数据，并形成表3，如表3所示，

序号	字段名称	字段含义	字段类型	数据来源	备注
						1	day_id	数据日期	NUMBER	话单	数据处理日期
2	phone_no	用户号码	VARchar	话单	分析对象的电话号码
						3	call_phone	来电号码	VARchar	话单	来电/去电号码
4	call_time	来电时间	DATE	话单	来电/去电时间
						5	call_dur	来电通话时长	NUMBER	话单	来电/去电通话时长
6	call_type	呼叫方式	NUMBER	话单	区分主被叫

其中，call_type为呼叫方式，其值为1或2，1表示主叫，即phone_no为具有资金需求的用户的号码为主叫号码，2表示具有资金需求的用户的号码为被叫号码，即 phone_no为被叫号码。

需要说明的是，来电号码在本发明实施例中均代表的是与具有资金需求的用户通话的号码，包含用户所呼叫的号码以及呼叫该用户的号码。

S202：根据所述当前周期内通话数据以及黑名单库清单数据，判断所述当前周期内通话数据中的各个通话号码是否在黑名单清单数据中，得到第一特征。

以表3为主表，left join的方式，及将与具有资金需求的用户通话的号码是否属于黑名单库清单表的结果作为第一特征，并添加到表3中的最后一列的右侧，如表4 所示，若表3中的来电号码存在于黑名单清单中，则该号码为黑名单用户，否则不是黑名单用户。以下展示了表4的部分数据：

day_id	phone_no	call_phone	call_type	call_time	call_dur	is_blacklist
							20190901	153＊＊＊＊1	133＊＊＊＊9	1	2019/1/1 0:25	12	1
20190901	159＊＊＊＊8	132＊＊＊＊0	1	2019/1/1 1:20	35	0
							20190901	132＊＊＊＊0	155＊＊＊＊5	2	2019/1/1 13:54	532	0
20190901	158＊＊＊＊3	187＊＊＊＊7	1	2019/1/1 20:10	79	0
							20190901	166＊＊＊＊0	155＊＊＊＊2	1	2019/1/1 21:38	136	0

其中，is_blacklist字段表示该来电号码是否为黑名单用户，其值为0或者1，0 表示非黑名单用户，1表示黑名单用户。

S203：根据所述用户的历史通话数据获取用户的交往圈数据，并针对所述当前周期内通话数据中的每一个通话号码判断所述通话号码是否属于所述用户的交往圈，得到第二特征。

示例性的，在本步骤中，可以获取表4中的用户的过去一年的历史通话数据，并确定如下规则：

条件1：与该用户的手机号码下的所有副卡号码或该用户号码手机号码所属的主卡号码；

条件2：三个月内每个月或者每周均登录表4中用户办理宽带wifi的手机号码；

条件3：三个月内每周或者每三天均与表4中用户具有通话行为或者短信行为的手机号码；

对于以上各定义的具体说明，如下：

满足条件1的，可定义为该用户的交往圈号码；

满足条件2并且满足条件3的，可定义为该用户的交往圈号码；

满足条件3并且与该用户有两次或者两次以上长时间通话行为，可定义为该用户的交往圈号码。一般通话时长大于5分钟的定义为长时间通话；

满足条件3并且与该用户有多次在非工作时段通话的行为，可定义为该用户的交往圈号码。非工作时段一般定义为工作日8：00-18：00之外的时间段及非工作日。

我们基于上述交往圈的定义方式对表4进行分析，判断来电号码是否属于该用户的交往圈，得到第二特征。增加字段is_contacter，其值为0或者1，0表示非交往圈用户，1表示是交往圈用户。

S204：根据所述用户的历史通话数据，并针对所述当前周期内通话数据中的每一个通话号码判断所述号码是否为陌生号码，得到第三特征。

示例性的，在最近一个月内，未出现在用户前六个月的通话记录中的与表4中用户产生通信行为的号码作为陌生号码。

基于上述陌生号码的定义方式对表4进行分析，判断来电号码是否为陌生号码。增加字段is_stranger，其值为0或者1，0表示非陌生号码，1表示是陌生号码。

S205：根据所述第一特征、第二特征以及第三特征，以所述用户的号码为主键构建用户的通话特征，利用所述通话特征以及对应的标签作为训练集训练预先构建的随机森林模型，并得到测试集中用户为具有寻找资金行为的用户的概率值，其中，所述标签包括：所述用户为具有寻找资金行为的用户、所述用户不为具有寻找资金行为的用户。

将第二特征、第三特征与表4进行汇总，汇总方式与将第一特征添加到表3中的方式相同，最终得到数据源表，如表5所示，表5为以下展示了其部分数据：

day_id	phone_no	call_phone	call_type	call_time	call_dur	is_blacklist	is_contacter	is_stranger
									20190901	153＊＊＊＊1	133＊＊＊＊9	1	2019/1/1 0:25	12	1	0	1
20190901	159＊＊＊＊8	132＊＊＊＊0	1	2019/1/1 1:20	35	0	0	1
									20190901	132＊＊＊＊0	155＊＊＊＊5	2	2019/1/1 13:54	532	0	0	0
20190901	158＊＊＊＊3	187＊＊＊＊7	1	2019/1/1 20:10	79	0	1	0
									20190901	166＊＊＊＊0	155＊＊＊＊2	1	2019/1/1 21:38	136	0	1	0

通常情况下，处于该阶段的用户一般是已经确定了借贷途径，从而开始有与放贷机构接触的行为，所以用户往往具有与大量陌生号码通话的行为。基于以上分析，以主叫号码为维度，取当月数据进行统计以构造以下特征：

用户交往圈通话特征：取is_contacter＝1的数据，以phone_no为分析对象，构建其与交往圈用户通话总次数、日均通话次数、交往圈号码数、通话总时长、平均通话时长，并基于以上特征构造历史变化系数相关特征；

陌生号码通话特征：取is_stranger＝1的数据，以phone_no为分析对象，构建其与陌生号码通话总次数、日均通话次数、陌生号码数、通话总时长、平均通话时长、接通率，并基于以上特征构造历史变化系数相关特征；

呼叫黑名单号码特征：取is_blacklist＝1的数据，以phone_no为分析对象，构建与其通话的号码中黑名单号码数、黑名单通话总次数、黑名单日均通话次数、黑名单通话总时长、黑名单日均通话时长、接通率，并基于以上特征构造历史变化系数的相关特征。

构造完成以上特征之后，以主叫号码为主键，各特征为数据列形成数据表表6，并增加标签列，其值为0或者1，0表示非寻找资金用户，1表示寻找资金用户，最终得到样本数据集。表6为本发明实施例得到的样本数据列表，如表6所示，

表6

用户号码	交往圈通话总次数	交往圈通话号码数	陌生号码通话总次数	通话陌生号码个数	…	黑名单号码数	黑名单号码数变化系数	label
									153＊＊＊＊1	97	8	288	127	2	1.33	1
159＊＊＊＊8	38	7	432	285		0	0.0	1
									132＊＊＊＊0	11	3	41	37	1	0.85	1
158＊＊＊＊3	8	3	53	52		0	0.0	0
									166＊＊＊＊0	23	6	10	7	0	0.0	0

其中，历史变化系数是利用公式，

计算出来的。

然后使用预先训练的随机森林模型识别出用户是否与套路贷犯罪分子产生了接触。

另外，本发明实施例中随机森林模型的训练过程如下：

将具有寻找资金行为的样本数据作为正样本、不具有寻找资金行为的样本数据作为负样本，使用正样本以及负样本组成的训练集训练随机森林模型，且样本数据格式与表6中数据格式相同。

随机森林是基于bagging框架下的决策树模型，其包含了很多决策树，每棵树给出分类结果，其中，Bagging是一种并行式集成学习方法，其基于自主采样法，从给定包含m个样本的数据集中随机抽取一个放入采样集中，再把该样本放回至原数据集中，使得该样本在下一次采样中仍有可能被选中。重复该过程m次后，样本在m次采样后仍未被选中的概率为：

对其取极限可得：

Bagging就是通过在每轮迭代中，通过自主采样法生成不同的训练集和测试集，之后基于得到的训练集对基学习器进行训练，最后将由多轮迭代后生成的多个基学习器进行简单投票法来决定模型最后的输出结果。

随机森林分类模型的构造过程可表示如下：

假设训练集大小为N，对于每棵树而言，随机且有放回地从训练集中抽取N个样本作为该树的训练样本集，这样重复K次，生成K组训练样本集。

假设每个样本的特征维度是M，指定一个常数m＜＜M，对每个训练集随机地从M个特征中选取m个特征。

利用选取的m个特征对树进行最大程度的生长，且不做剪枝处理，处理完成后得到k个分类模型。

投票决定最优分类。

在模型训练阶段，需要对模型的部分参数进行优化调试。主要涉及到的参数有：n_estimators(表示算法在进行最大投票或预测平均值之前建立的树数)、 max_features(单颗树可拥有的最大特征数量)、min_sample_leaf(叶子的数量)等，通过袋外误差估计对模型效果进行测试，选择最优参数。

在训练结果中，数据集中有约36.8％的样本未出现在训练样本中，这部分数据称为 “袋外数据”，袋外数据误差估计是一种可以取代测试集的误差估计方法，即袋外数据误差是测试集误差的无偏估计，所以可用这部分数据来作为检测模型泛化能力的数据集。

本步骤可以用于识别出测试集中的用户已经接触到了“套路贷”诈骗团伙的概率值。

S3：根据所述用户的账户交易数据，利用贝叶斯模型输出测试集中用户为已经接收资金的用户的分类概率值。

“套路贷”犯罪分子为了获得银行转账流水以作为日后实施“套路”的证据，往往都会采用转账的方式将贷款放贷给受害者。而从实际情况出发，受害者在收到银行转账流水短信之后，一般会与“套路贷”犯罪分子进行联系，因此，可以采用如下方式训练贝叶斯模型：

S301：获取运营商通话、短信数据，包含但不限于用户的手机号码、短信来信号码、来电号码、来电时间、通话时长等。

需要说明的是，来电号码应包含用户号码作为主叫的被叫号码及用户号码作为被叫的主叫号码；来电时间为对应用户号码作为主、被叫时的通话开始时间，此部分数据可以使用S201步骤中获取的当前周期内的童通话数据。

S302：判断用户是否接收到银行转账类短信，如通过关键字匹配或者正则的方式，分析短信中是否包含“转账”、“入账”等关键字及金额信息；

若用户接收到银行转账类短信，则通过分析其接收短信时间之后12小时内的通话数据，判断其是否有与陌生人联系的行为；

通过上述处理，将所生成的数据汇总成表，表7为本发明实施例中得到的具有寻找资金行为的用户的通信记录表，如表7所示，

表7

序号	字段名称	字段含义	字段类型	数据来源
					1	day_id	数据日期	NUMBER	话单
2	phone_no	手机号码	VARchar	话单
					3	bank_msg_time	接收到银行转账类短信时间	DATE	短信
4	call_phone	接收银行短信后首次产生通话的陌生号码	VARchar	话单
					5	call_time	接收银行短信后首次产生通话的开始时间	DATE	话单

S303：构造用户是否有接收到银行短信通知、是否有与陌生号码通话的行为特征，构造方式如下：

取表7的day_id，phone_no字段创建表8，并增加字段is_bank_msg以表征该用户是否接收到银行转账类短信，is_stranger_call以表征该用户与陌生号码发生通话；

取表7的bank_msg_time不为空的数据汇总至表8中，并在接收到银行转账类短信的情况下将is_bank_msg字段值设为1；在未接收到银行转账类短信的情况下将 is_bank_msg字段值设为0；

在对应的call_time不为空时，将表8中的phone_no对应的字段值 is_stranger_call字段值设为1；对应的call_time为空时将表8中的phone_no对应的字段值is_stranger_call字段值设为0。

对表8增加字段label以表征用户是否获得资金，其中0表示非获得资金用户，1 表示已获得资金用户。

通过上述步骤，得到特征表，表8为本发明实施例得到的用户是否有接收到银行短信通知、是否有与陌生号码通话的行为特征的汇总表，如表8所示，其部分内容如下所示：

表8

day_id	phone_no	is_bank_msg	is_stranger_call	label
					20190901	153＊＊＊＊1	1	0	1
20190901	159＊＊＊＊8	1	1	1
					20190901	132＊＊＊＊0	1	1	1
20190901	158＊＊＊＊3	0	1	0
					20190901	166＊＊＊＊0	0	0	0
20190901	133＊＊＊＊3	0	0	1
					20190901	153＊＊＊＊9	1	1	1
20190901	177＊＊＊＊1	1	1	1
					20190901	151＊＊＊＊9	1	1	0
20190901	151＊＊＊＊7	0	1	0

然后，构建朴素贝叶斯分类模型，算法描述如下：

其中C为类别变量，其值可能有多个，C＝(C₁,C₂,…,C_k)；F₁,F₂,…,F_n为特征变量。而朴素贝叶斯分类器的训练过程就是基于训练集来估计先验概率p(C)，并为每个属性估计条件概率p(F_i|C)。

使用朴素贝叶斯对该样例数据的计算过程如下：

用N₀、N₁分别表示样本中label＝0和1数据量，y₀、y₁分别表示label＝0和1的类别，x₁,x₂分别表示特征is_bank_msg和is_stranger_call。

1)计算两类类别的先验概率为：

2)计算相关条件概率：

比如P(x₁|y₀)表示的是在非获得资金用户中有接收到银行短信的用户的概率。

表9为本发明实施例提供的待测试数据表，如表9所示，

表9

day_id	phone_no	is_bank_msg	is_stranger_call	label
					20190901	151****9	1	1

计算待测试样例的分类概率：

该用户属于获得资金用户的概率为：

该用户属于非获得资金用户的概率为：

由

可知，朴素贝叶斯分类器将该用户判别为获得资金用户。

需要注意的是，上面的分类概率的计算中，仅仅是为了方便比较用户属于两种类别的概率，其值并不代表其归属于某种类别的概率。

进一步的，可以使用K折交叉验证法将用于训练朴素贝叶斯模型的样本集拆分成k等份，其中一份作为模型的测试数据集，剩下k-1份作为模型的训练数据集对朴素贝叶斯模型进行训练和效果评估，得到用户为获得资金用户的概率，如此反复执行k次，得到k个概率值，将k个概率值的平均值作为用户被判定为获得资金用户的概率，其值介于[0，1]之间。

进一步的，可以将前述概率进行二值化处理，例如，将概率大于0.7的用户判定为该用户已经获得资金，其对应的标签值为1；否则标签值为0；也可以是用户的分类概率值，一般默认值大于0.5的为获得资金用户，可根据实际情况调整该阈值。

S4：根据用户的通话数据，利用支持向量机模型输出所述用户属于被骚扰用户的概率值；并使用逻辑回归模型识别出具有资金需求的用户、具有寻找资金行为的用户、已经接收资金的用户以及被骚扰的用户中属于套路贷犯罪受害者的用户，将与所述用户之间发生的对应的资金往来行为识别为套路贷犯罪行为。

S401：获取用户通话数据和短信数据，其中，所述用户通话数据包括：通话日期、用户号码、来电号码、来电时间以及通话时长；所述短信数据包括：数据日志、用户号码、来信号码以及来信时间。

示例性的，可以从运营商那里获取用户通话数据。表10为本发明实施例中获取的用户通话数据汇总表，如表10所示：

表10

序号	字段名称	字段含义	字段类型	数据来源	备注
						1	day_id	数据日期	NUMBER	话单	数据处理日期
2	phone_no	用户号码	VARchar	话单	分析对象的电话号码
						3	call_phone	来电号码	VARchar	话单	来电号码
4	call_time	来电时间	DATE	话单	来电时间
						5	call_dur	来电通话时长	NUMBER	话单	来电通话时长

可以从运营商那里获取用户短信数据。表11为本发明实施例中获取的用户短信数据汇总表，如表11所示：

表11

序号	字段名称	字段含义	字段类型	数据来源	备注
						1	day_id	数据日志	NUMBER	短信	数据处理日期
1	phone_no	用户号码	VARchar	短信	分析对象的电话号码
						2	send_phone	来信号码	VARchar	短信	短信来信号码
3	send_time	来信时间	DATE	短信	短信来信时间

S402：对用户通话数据和短信数据进行统计，基于统计数据生成所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征。

示例性的，首先，分别以通话、短信表中的call_phone、send_phone为分析对象，取出其与phone_no的通话、短信数据，表12为本发明实施例中用户的号码通话数据、号码短信数据。

表12

day_id

phone_no1

phone_no2

call_type

send_type

call_time

send_time

call_dur

20190901

153＊＊＊＊1

133＊＊＊＊9

1

2019/1/1 1:12

2019/1/1 1:10

12

20190901

159＊＊＊＊8

132＊＊＊＊0

1

2019/1/1 0:25

35

20190901

132＊＊＊＊0

155＊＊＊＊5

2

2019/1/1 13:54

532

20190901

158＊＊＊＊3

187＊＊＊＊7

1

2019/1/1 20:10

79

20190901

166＊＊＊＊0

155＊＊＊＊2

1

2019/1/1 15:29

如表12所示，phone_no1和phone_no2分别为具有通话、短信关系的两个手机号码，phone_no1为所分析对象的手机号码；Call_type为phone_no1、phone_no2的呼叫关系，为1时表示phone_no1为主叫，为2时phone_no1为被叫。；Send_type为短信发送接收关系，为1时表示phone_no1为短信发送方，为2时表示phone_no1为短信接收方。call_time是通话时间；send_time为短信发送时间；call_dur为通话时长，单位为秒。

然后，构建用户的交往圈通话数据、交往圈短信数据，过程如下：

按照如下方式定义交往圈：1)、该用户手机号码下的所有副卡或该用户号码手机号码所属的主卡；2)、该用户所办理宽带下的连接wifi的手机号码，其中号码应至少连续三个月连接过该wifi；3)、该用户经常联系的手机号码，应至少有连续三个月的通话或短信行为；对于以上各定义的具体说明，如下：满足条件1)的，可定义为该用户的交往圈号码；满足条件2)并且满足条件3)的，可定义为该用户的交往圈号码；满足条件3)并且与该用户有多次长时间通话行为，可定义为该用户的交往圈号码。一般通话时长大于5分钟的定义为长时间通话；满足条件3)并且与该用户有多次在非工作时段通话的行为，可定义为该用户的交往圈号码。非工作时段一般定义为工作日8： 00-18：00之外的时间段及非工作日。

基于数据表12，定义用户的陌生号码。此处给出的定义方式为该号码出现在所分析号码的最近一个月的通话记录中，且未出现在所分析号码最近一个月之前的六个月的通话记录中的号码。

然后，基于以上步骤分析及处理，对表12增加两列：phone_no2是否是交往圈号码、phone_no2是否是陌生号码，分别定义字段is_contacter,is_stranger表示，其值为0或者1，0表示否，1表示是。表13为本发明实施例中提供的添加交往圈通话数据、交往圈短信数据后的特征汇总表。

表13

day_id	phone_no1	phone_no2	call_type	send_type	call_time	send_time	call_dur	is_contacter	is_stranger
										20190901	153＊＊＊＊1	133＊＊＊＊9	1	1	2019/1/1 1:12	2019/1/1 1:10	12	0	1
20190901	159＊＊＊＊8	132＊＊＊＊0	1		2019/1/1 0:25		35	0	1
										20190901	132＊＊＊＊0	155＊＊＊＊5	2		2019/1/1 13:54		532	0	0
20190901	158＊＊＊＊3	187＊＊＊＊7	1		2019/1/1 20:10		79	1	0
										20190901	166＊＊＊＊0	155＊＊＊＊2		1		2019/1/1 15:29		1	0

最后，通过对骚扰电话的行为特征分析可知，其一般具有拨打次数高，回拨率低，发送短信次数高，回复率低，拨打时段不固定，有深夜拨打电话、发送短信的行为、对受害人的亲戚朋友可能有骚扰的特点，构建以下特征，形成特征宽表14：

陌生号码通话特征：取出is_stranger＝1的数据，统计以构建分析号码的陌生用户号码个数、工作时段主叫通话次数、工作时段被叫通话次数、工作时段主叫平均通话时长、工作时段被叫平均通话时长、非工作时段主叫通话次数、非工作时段被叫通话次数、非工作时段主叫平均通话时长、非工作时段被叫平均通话时长等特征；

陌生号码短信特征：取出is_stranger＝1的数据，统计以构建分析号码的陌生用户号码个数、工作时段发送短信次数、工作时段接收短信次数、非工作时段发送短信次数、非工作时段接收短信次数等特征；

交往圈通话特征：取出is_contacter＝1的数据，以其phone_no2为分析对象，统计以构建陌生用户号码个数、工作时段主叫通话次数、工作时段被叫通话次数、工作时段主叫平均通话时长、工作时段被叫平均通话时长、非工作时段主叫通话次数、非工作时段被叫通话次数、非工作时段主叫平均通话时长、非工作时段被叫平均通话时长等特征；

交往圈短信特征：取出is_contacter＝1的数据，以其phone_no2为分析对象，统计以构建陌生用户号码个数、工作时段发送短信次数、工作时段接收短信次数、非工作时段发送短信次数、非工作时段接收短信次数等特征；其中，非工作时段定义为工作日除8：00-18：00之外的时段及非工作日。

基于运营商已确认的被骚扰用户及未被骚扰用户电话清单数据，关联特征宽表5形成标签列，其值为0或者1，0表示已确认被骚扰用户，1表示已确认未被骚扰用户，最终生成样例数据表14。表14为本发明实施例中构建的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征汇总表，如表14所示：

表14

用户号码	通话陌生号码个数	短信陌生号码个数	工作时段主叫次数	工作时段平均通话时长	…	交往圈陌生号码个数	label
								153＊＊＊＊1	127	18	95	8.2	67	1
159＊＊＊＊8	285	9	53	7.9		190	1
								132＊＊＊＊0	37	205	10	12.5	83	1
158＊＊＊＊3	52	72	51	35.8		7	0
								166＊＊＊＊0	7	0	7	4.1	385	0

进一步的，还可以对表5中的数据进行归一化处理：

对表14中的每一个样本的每个特征值分别利用公式，

对表13中的样本数据利用Min-Max归一化方法处理成范围[0,1]之间的小数，其中，

对于样本中的每个特征，X_normal是该样本归一化后的值；X为样本数据的值； X_max为样本数据中的最大值；X_min为样本数据中的最小值。

S403：根据所述用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征以及所述用户是否被骚扰的标签生成训练样本，所述利用所述训练样本组成的训练集训练目标支持向量机模型；并利用所述目标支持向量机模型识别测试集对应的用户属于被骚扰用户的分类概率。

示例性的，在每一次迭代中，将第三特征宽表划分为K等份，随机将其中的一份作为测试集，将除测试集之外的K-1份数据作为训练集，其中，所述K大于等于2。最后求得准确率的平均值作为模型的准确率评价指标。

对第三特征宽表拆分成K等份进行训练，比如拆成5个，拆出来的编码为abcde。每次训练时，依次取其中一份作为测试集，剩下的作为训练集。在第一次训练时，取a 作为测试集，bcde作为训练集，第二次训练时取b作为测试集，acde作为测试集，以此类推，这样做5次，能够保证abcde每一份都有机会做测试集。

将训练集中的各个样本映射到特征空间内，得到若干个样本点。样本集的每一列即每个特征作为模型训练阶段的输入参数，标签字段作为用户的分类标签。模型最终输出的结果可以是用户的分类结果，其值为0或者1，也可以输出用户的分类概率值，默认概率值大于0.5的认为是有借贷需求的用户，可根据实际需求进行阈值的调节。

特征空间为支持向量机的特征空间。SVM(Support Vector Machine，支持向量机)从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不仅能将两类正确分开，并且还要求分类间隔最大。SVM考虑找到一个满足分类要求的超平面，并且使训练数据集中的点距离分类超平面尽可能的远，也就是寻找一个分类面使它两侧的空白区域最大。这两类样本中距离分类超平面最近的样本点被称为支持向量，支持向量机算法就是找到超平面f(x)＝w^Tx_i+b，使得支持向量到超平面的距离

的值最大。

因此，可以在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，max为求最大值函数。

使用测试集测试训练后的支持向量机模型，得到第一个支持向量机模型对应的准确率。

然后，将第二份数据作为测试集；将第一份数据以及，第三份至第K份数据作为训练集，调节支持向量的法向参数矩阵以及支持向量的截距参数矩阵的值，得到第二个训练后的支持向量机模型；循环上述步骤。

然后，将上述步骤完成后模型输出的k个准确率取其平均值，该平均值即认为是模型的真实准确率。

最后，获取待识别用户的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征并映射到特征空间中，得到待识别用户对应的样本点；利用所述目标支持向量机模型对所述样本点进行划分，根据所述样本点被划分的区域判断所述用户是否被骚扰。图3为本发明实施例提供的一种套路贷体系化识别方法中识别结果的分类示意图，如图3所示，图3是对被骚扰用户进行了二维分类的示例，实心黑色圆为骚扰电话的样本点，空心圆圈为非骚扰电话对应的样本点。可以理解的是，被骚扰用户的特征维度较多，被骚扰用户的分类的维度可以为三维或者更多维度。

对于待识别用户，获取其通话、短信数据，按照上述进行预测。模型输出结果可以是分类结果，其值为0或者1，其中0为非骚扰用户，1为被骚扰用户；也可以输出分类概率值，默认值大于0.5的是被骚扰用户，具体阈值可根据实际需求进行调整。

应用本发明实施例，基于用户对应的陌生号码通话特征、陌生号码短信特征、交往圈通话特征、交往圈短信特征利用支持向量机进行识别，相对于现有技术，无需识别通话内容，即使骚扰方变更了通话内容，也可以根据骚扰电话或者骚扰短信本身具有的共性特征进行识别，可以提高识别的准确率。

另外，现有的技术手段其目的往往是通过分析来电号码是否为陌生号码，判断其来电响铃次数，识别是否为“一声响”、“呼死你”等骚扰电话，或者通过简单的分析来电次数、来电时间等特征分析该号码是否为骚扰电话。而本发明所描述的被骚扰用户的识别方法，其分析对象不仅包含受害人，还包括其亲人、朋友，通过对受害人及其交往圈的分析来达到精准识别出被骚扰用户。另外，该方法可作为“套路贷”中受害用户是否收到犯罪分子恐吓、骚扰的识别方法。

本发明不仅提供了一种有效的被骚扰用户识别方法，还提供了一种交往圈和陌生号码的定义方式。并且，通过本发明的输出结果，可以更加友好的刻画用户交往圈和陌生号码。

本发明可应用在“套路贷”诈骗中的处于“偿还资金”阶段的用户识别中。处于该阶段的用户往往不仅自身深受“套路贷”犯罪分子的骚扰，其亲人、朋友等也可能出于被骚扰之中。

然后，前四个模型的输出概率值作为输入，使用预先训练的逻辑回归模型识别出被骚扰用户中的哪些用户属于套路贷受害者。其中，逻辑回归模型的训练过程包括：

A.将由步骤S1-S4所生成的用户的各个分类概率值进行拼接，得到特征宽表，其以用户号码为主键，各个阶段的分类概率值为特征列，并增加标签列，其值为0或者1， 0为非“套路贷”受害用户，1为“套路贷”受害用户。表15为本发明实施例提供的用于训练逻辑回归模型的样本数据表，如表15所示：

表15

手机号码	资金需求用户概率	寻找资金用户概率	获得资金用户概率	偿还资金用户概率	标签
						177＊＊＊＊1	0.5032	0.3785	0.4509	0.8181	1
177＊＊＊＊2	0.7539	0.6890	0.2094	0.7433	1
						177＊＊＊＊3	0.2783	0.3905	0.0547	0.1532	0
153＊＊＊＊0	0.0119	0.7432	0.0752	0.2845	0
						133＊＊＊＊7	0.6231	0.3219	0.1420	0.0896	0
189＊＊＊＊6	0.7859	0.0125	0.2835	0.2868	0
						151＊＊＊＊7	0.8015	0.2302	0.2021	0.4704	1
155＊＊＊＊6	0.1006	0.7537	0.8325	0.3864	0

B.然后，将表15中的数据训练逻辑回归模型。

逻辑回归是一种广义地线性模型，通过使用一个转换函数将线性回归地值域R映射到[0，1]区间，区间内，取值大于临界值的为一类，小于临界值的为另一类，从而达到二分类的目的。这里的转换函数一般使用sigmoid函数，即：

逻辑回归的假设函数为：

其中X为输入样本，h_θ(X)为模型输出，θ为要求解的模型参数。

其原理可解释为：设0.5为临界值，当h_θ(X)＞0.5时，即Xθ＞0时，y为1；当 h_θ(X)＜0.5时，即Xθ＜0时，y为0。模型输出值h_θ(X)是一个范围在[0，1]区间内的值，可从概率角度解释为：h_θ(X)越接近于0，则分类为0的概率越大；h_θ(X)越接近于1，则分类为1的概率越大；h_θ(X)月接近于临界值0.5，则越难以判断其分类结果。

C.可以使用k折交叉验证法对样本数据进行拆分得到训练集和测试集，并分别使用拆分后得到的训练集和测试集对模型训练k次，最终选择准确率最高的模型作为训练后的逻辑回归模型。

在逻辑回归模型训练完成后，然后使用训练后的逻辑回归模型识别用户是否属于“套路贷”受害者。

结合已训练完成的Xgboost分类模型、随机森林分类模型、朴素贝叶斯分类模型及支持向量机分类模型构建“套路贷”识别模型体系，进而识别出待分类数据中用户是否属于“套路贷”受害者。

具体识别步骤如下：

对待分类用户数据，将其按照步骤S1-S4的数据处理和特征构造部分处理成相对应的特征宽表；

将所得到的四个特征宽表传给对应的分类模型，得到该部分用户所属每个阶段的分类概率值。即：用户属于资金需求行为的概率、具有寻找自己你行为的概率、已获得资金的概率、被骚扰的概率；

以用户号码为主键，拼接以上四个概率值，构成特征宽表，传给逻辑回归模型进行处理，最终可得到用户属于“套路贷”受害用户的概率值。一般地，认为概率大于预设阈值0.5的即为“套路贷”受害用户。该阈值可根据实际情况和需求进行调节。通常情况下默认其概率值大于预设阈值，如0.5时对应的识别结果为是，可根据实际情况调整预设阈值的大小。

需要强调的是，在本发明实施例中，步骤S1-S4中训练Xgboost模型、随机森林模型、朴素贝叶斯模型以及支持向量机模型使用的数据均是来源于同一批用户的，区别仅在于不同的模型使用了用户的不同类型的数据。

而且，对”套路贷”这一严重危害社会治安的犯罪行为，目前缺乏有效的技术手段去进行识别。传统的处理办法往往是通过受害人进行报案从而实施立案侦查和实施抓捕。但是，受害者往往在饱受其害、走投无路时才会选择报案的方式，受害者的财产已经遭遇严重损失。另外，此时距”套路贷”开始实施已经过去相当长的一段时间，诈骗分子有足够的时间进行位置转移、改头换面，给破案工作也带来了困难，因此，现有技术存在时效性差的问题；而且，传统手段只能针对已经报案的受害者，对于仍陷于”套路贷”的受害者无法进行识别。再者传统方式由于缺乏有效技术手段，难以对”套路贷”涉案犯罪团体进行有效识别。而本发明实施例本发明从受害用户陷入” 套路贷”的整个业务过程入手，在深入了解“套路贷”的手段的前提下，针对现有运营商可提供数据从中分析出具有资金需求的用户，判断其是否寻找资金，通过其通话、短信等特征进一步分析其是否获得了资金，是否陷入“套路贷”的骗局中。本发明所提供的识别思路，从建立在深入了解“套路贷“的实施步骤，将目标放在受害者的识别上，通过用户的行为特征实现对受害者的识别进而捕获到犯罪人及团伙。

与本发明图1所示实施例相对应，本发明实施例还提供了一种套路贷体系化识别装置。

图4为本发明实施例提供的一种套路贷体系化识别装置的结构示意图，如图4所示，所述装置包括：

获取模块401，用于获取用户的网络行为数据，并使用所述网络行为数据训练Xgboost模型，并使用所述Xgboost模型输出测试集中用户属于具有资金需求用户的分类概率值；；

第一识别模块402，用于将所述用户的历史通话数据、当前周期内通话数据以及黑名单库清单数据作为训练集训练预先构建的随机森林模型，并使用该训练好的随机森林模型输出测试集中用户属于具有寻找资金行为的用户的分类概率值；

第二识别模块403，用于根据所述用户的账户交易数据，利用贝叶斯模型输出测试集中用户为已经接收资金的用户的分类概率值；

第三识别模块404，用于根据用户的通话数据，利用支持向量机模型输出所述用户属于被骚扰用户的概率值；并使用逻辑回归模型识别出具有资金需求的用户、具有寻找资金行为的用户、已经接收资金的用户以及被骚扰的用户中属于套路贷犯罪受害者的用户，将与所述用户之间发生的对应的资金往来行为识别为套路贷犯罪行为。

在本发明实施例的一种具体实施方式中，所述获取模块401，用于：

在本发明实施例的一种具体实施方式中，所述第一识别模块402，用于：

在本发明实施例的一种具体实施方式中，第二识别模块403，用于：

19、根据权利要求12所述的一种套路贷体系化识别装置，其特征在于，所述第三识别模块，用于：

在本发明实施例的一种具体实施方式中，第三识别模块404，用于：

在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

在本发明实施例的一种具体实施方式中，第三识别模块404：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种套路贷体系化识别方法，其特征在于，所述方法包括：

4)、根据用户的通话数据，利用支持向量机模型输出所述用户属于被骚扰用户的概率值；将用户属于具有资金需求用户的概率、具有寻找资金行为用户的概率、已经接收资金的用户的概率以及被骚扰用户的概率作为样本数据的特征值，并结合用户是否为套路贷受害用户标签，训练逻辑回归分类模型；将训练后的Xgboost模型、随机森林模型、贝叶斯模型以及逻辑回归模型组成的模型体系作为套路贷体系化识别模型，以对待识别用户属于套路贷受害者的概率进行检测。

2.根据权利要求1所述的一种套路贷体系化识别方法，其特征在于，所述步骤1)，包括：

104)、将第二特征宽表划分为训练集和测试集，利用所述训练集训练Xgboost模型，并使用测试集测试训练后的Xgboost模型的准确率，将准确率最高的训练后的Xgboost模型作为最终的训练后的Xgboost模型，利用该模型输出测试样本中用户属于具有资金需求用户的分类概率值；。

3.根据权利要求2所述的一种基于用户网络行为的具有借贷需求的用户识别方法，其特征在于，所述建立所述主叫号码与金融机构之间的关联特征，包括：

建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征，建立所述主叫号码与金融机构进行短信通信的金融机构短信特征；建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征；建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征；建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征。

4.根据权利要求2所述的一种基于用户网络行为的具有借贷需求的用户识别方法，其特征在于，所述将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据，并为所述样本数据增加标签，包括：

5.根据权利要求2所述的一种基于用户网络行为的具有借贷需求的用户识别方法，其特征在于，所述利用所述训练集训练Xgboost模型，并使用测试集测试训练后的Xgboost模型的准确率，直至训练后的Xgboost模型的准确率达到预期目标，包括：

6.根据权利要求1所述的一种套路贷体系化识别方法，其特征在于，所述步骤2)，包括：

7.根据权利要求1所述的一种套路贷体系化识别方法，其特征在于，所述步骤3)，包括：

8.根据权利要求1所述的一种套路贷体系化识别方法，其特征在于，所述步骤4)，包括：

9.根据权利要求8所述的一种套路贷体系化识别方法，其特征在于，在步骤403)之前，所述方法还包括：

10.根据权利要求8所述的一种套路贷体系化识别方法，其特征在于，所述利用所述训练样本组成的训练集训练目标支持向量机模型，包括：

将训练集中的各个样本映射到特征空间内，得到若干个样本点在约束条件为，y_i(w^Tx_i+b)≥1的条件下，利用公式，

建立当前超平面，其中，

L(w,b,α)为目标函数；w为支持向量的法向参数矩阵；∑为求和函数；n为样本点数量；|| ||²为2范数函数；y_i为第i个样本点；w^T为支持向量的法向参数矩阵的转置；α为拉格朗日乘子；b为支持向量的截距参数矩阵；

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

11.根据权利要求8所述的一种套路贷体系化识别方法，其特征在于，所述利用所述目标支持向量机模型识别测试集对应的用户属于被骚扰用户的分类概率，包括：

12.一种套路贷体系化识别装置，其特征在于，所述装置包括：

第三识别模块，用于根据用户的通话数据，利用支持向量机模型输出所述用户属于被骚扰用户的概率值；将用户属于具有资金需求用户的概率、具有寻找资金行为用户的概率、已经接收资金的用户的概率以及被骚扰用户的概率作为样本数据的特征值，并结合用户是否为套路贷受害用户标签，训练逻辑回归分类模型；将训练后的Xgboost模型、随机森林模型、贝叶斯模型以及逻辑回归模型组成的模型体系作为套路贷体系化识别模型，以对待识别用户属于套路贷受害者的概率进行检测。

13.根据权利要求12所述的一种套路贷体系化识别装置，其特征在于，所述获取模块，用于：

14.根据权利要求13所述的一种基于用户网络行为的具有借贷需求的用户识别装置，其特征在于，所述获取模块，用于：

15.根据权利要求13所述的一种基于用户网络行为的具有借贷需求的用户识别装置，其特征在于，所述获取模块，用于：

16.根据权利要求13所述的一种基于用户网络行为的具有借贷需求的用户识别装置，其特征在于，所述获取模块，用于：

17.根据权利要求12所述的一种套路贷体系化识别装置，其特征在于，所述第一识别模块，用于：

18.根据权利要求12所述的一种套路贷体系化识别装置，其特征在于，第二识别模块，用于：

19.根据权利要求12所述的一种套路贷体系化识别装置，其特征在于，所述第三识别模块，用于：

20.根据权利要求19所述的一种套路贷体系化识别装置，其特征在于，第三识别模块，用于：

21.根据权利要求19所述的一种套路贷体系化识别装置，其特征在于，所述第三识别模块，用于：

建立当前超平面，其中，

利用公式，

计算当前超平面对应的支持向量到超平面的距离，其中，

max为求最大值函数；

22.根据权利要求19所述的一种套路贷体系化识别装置，其特征在于，所述第三识别模块：