CN110147448A

CN110147448A - 短信诈骗分类方法及系统

Info

Publication number: CN110147448A
Application number: CN201910352154.XA
Authority: CN
Inventors: 王红熳; 周红敏; 张飞; 丁正; 顾晓东; 程钢; 贾岩峰
Original assignee: SHANGHAI XINFANG SOFTWARE Co Ltd; BEIJING XINFANG INTELLIGENT SYSTEM CO LTD
Current assignee: SHANGHAI XINFANG SOFTWARE Co Ltd; BEIJING XINFANG INTELLIGENT SYSTEM CO LTD
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-20

Abstract

本发明公开了一种短信诈骗分类方法及系统，包括以下步骤：获取大数据集群中短信数据，根据所述短信数据进行第一特征工程处理，将第一特征工程处理的所述短信数据利用CART算法构建预测模型；利用十则交叉法训练所述预测模型，将训练完的所述预测模型计算评估值；将所述预测模型的评估值部署于线上，当待分类目标数据到达时，调用预测模型接口，将待分类目标数据输入预测模型进行实时分类。本发明有益效果：能够有效快速识别电信诈骗短信，快速协助警察破案，从而有效降低人为误判和漏判短信诈骗。

Description

短信诈骗分类方法及系统

技术领域

本发明涉及电信短信诈骗技术领域，具体来说，涉及一种短信诈骗分类方法及系统。

背景技术

短信诈骗是指嫌疑人利用手机短信骗取他人金钱或财务的行为，诈骗短信具有很强的诱惑力与欺骗性，线索特别少，而且容易伪装，不易破案，给电信用户带来很大的困扰与危害。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述技术问题，本发明提出一种短信诈骗分类方法，不仅能够显著提高诈骗短信分类准确率，又可以降低办案人员工作量。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种短信诈骗分类方法，包括以下步骤：

获取大数据集群中短信数据，根据所述短信数据进行第一特征工程处理，将第一特征工程处理的所述短信数据利用CART算法构建预测模型；

利用十则交叉法训练所述预测模型，将训练完的所述预测模型计算评估值；

将所述预测模型的评估值部署于线上，当待分类目标数据到达时，调用预测模型接口，将待分类目标数据输入预测模型进行实时分类。

进一步地，将第一特征工程处理的所述短信数据利用CART算法构建预测模型包括：

计算所述CART算法中各个指标信息增益值；

选取所述信息增益值最大的特征指标作为分裂节点；

所述CART算法循环计算其他各个特征指标的信息增益值，生成一颗二叉树，其中，所述二叉树的每个叶节点是一条规则，根据每条所述规则判断所述短信数据是否为诈骗短信。

进一步地，将生成一颗二叉树进行剪枝。

进一步地，将所述待分类目标数据进行第二特征工程处理。

进一步地，所述根据短信数据进行第一特征工程处理包括：

将所述短信数据从所述大数据集群中读入，利用分析工具对读入的所述短信数据进行分词；

将分词后的所述短信数据进行标注；

将标注后的所述短信数据进行特征提取。

本发明的另一方面，提供一种短信诈骗分类系统，包括：

构建模块，用于获取大数据集群中短信数据，根据所述短信数据进行第一特征工程处理，将第一特征工程处理的所述短信数据利用CART算法构建预测模型；

模型评估模块，用于利用十则交叉法训练所述预测模型，将训练完的所述预测模型计算评估值；

分类模块，用于将所述预测模型的评估值部署于线上，当待分类目标数据到达时，调用预测模型接口，将待分类目标数据输入预测模型进行实时分类。

进一步地，所述将第一特征工程处理的短信数据利用CART算法构建预测模型包括：

计算模块，用于计算所述CART算法中各个指标信息增益值；

选取模块，用于选取所述信息增益值最大的特征指标作为分裂节点；

生成模块，用于所述CART算法循环计算其他各个特征指标的信息增益值，生成一颗二叉树，其中，所述二叉树的每个叶节点是一条规则，根据每条规则判断所述短信数据是否为诈骗短信。

进一步地，所述生成模块包括剪枝模块，用于将生成一颗二叉树进行剪枝。

进一步地，所述分类模块包括处理模块，用于将所述待分类目标数据进行第二特征工程处理。

进一步地，所述构建模块包括：

读取模块，用于将所述短信数据从大数据集群中读入，利用分析工具对读入的短信数据进行分词；

标注模块，用于将分词后的所述短信数据进行标注；

特征提取模块，用于将标注后的所述短信数据进行特征提取。

本发明的有益效果：能够有效快速识别电信诈骗短信，快速协助警察破案，从而有效降低人为误判和漏判短信诈骗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的短信诈骗分类方法的流程图；

图2是根据本发明实施例所述的短信诈骗分类方法的结构示意图；

图3是根据本发明实施例CART树结构示意图；

图4是根据本发明实施例生成树的结构图之一；

图5是根据本发明实施例生成树的结构图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明实施例所述的一种短信诈骗分类方法，包括以下步骤：

获取大数据集群中短信数据，短信数据存放在Hbase中,有利于数据实时访问与处理,其内容是文本格式,标签信息是0和1,训练数据由Hbase数据库中获取；根据所述短信数据进行第一特征工程处理，将第一特征工程处理的所述短信数据利用CART算法构建预测模型；

利用十则交叉法训练所述预测模型，将训练完的所述预测模型计算评估值，其中，使用精准率、召回率和F1-score指标对预测模型进行评估，其计算公式分别如下所示：

Precision(精准率)＝TP/(TP+FP)

Recall(召回率)＝TP/(TP+FN)

F1-score＝2*Precision*Recall/(Precision+Recall)

Precision(精准率)，预测正确的样本除以预测的样本数；Recall(召回率)，预测正确的样本数除以总样本数；

公式中字母含义：TP代表样本为正，预测结果为正的个数；FP代表样本为负，预测结果为正的个数；FN代表样本为正，预测结果为负的个数。

具体的，

从集群读取数据:短信数据从大数据集群上实时读取，为保护用户隐私权，集群中短息数据加密处理，对涉及用户位置信息偏转处理，从集群中读取短信数据供第一特征工程处理；第一特征工程:短信数据从集群中读取后，为第一特征工程做准备，第一特征工程主要包含数据预处理、数据分词、去除停用词、词性标注、同义词标注、特征提取及特征选择等功能；CART算法:第一特征工程处理后，短信数据进入预测模型开始训练，CART算法即可实现分类问题也可实现预测问题，第一特征工程处理后的数据分为训练集与测试集，采用十则交叉法训练预测模型；模型评估:预测模型训练结束后，结合业务及多种预测模型评估指标，评估预测模型上线可行性，对满足业务要求的模型实施上线运行，实现自动分类预测任务；分类目标数据:该数据是待分类目标数据，此目标数据从集群中实时读取，第二特征工程后，目标数据经部署后的预测模型，给出预测结果，是否为诈骗短信，也可作为办案人员参考依据；模型部署:模型部署是预测模型综合评估达到要求后，把该预测模型部署在线上，所有短信数据经过该预测模型，预测模型对短信实时分类，实现诈骗短信实时分类预测拦截；结果输出实时展示:结果输出实时展示是实时输出预测模型预测为诈骗短信的数据展示出来，该数据可供实时查询，也可在大屏实时展示。

在本发明的一个具体实施例中，将第一特征工程处理的所述短信数据利用CART算法构建预测模型包括：

计算所述CART算法中各个指标信息增益值；

选取所述信息增益值最大的特征指标作为分裂节点；

CART是生成一棵二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树和右子树。相比其它决策树算法，CART既可以解决分类问题也可以解决预测问题。

CART算法使用基尼指数(Gini)来选择最好数据分割点；Gini系数含义：是一种不等性度量，用来度量信息不均匀分布性，是介于0～1之间的数，0-完全相等，1-完全不相等；Gini指数就越大，数据内包含的类别越杂乱。

Gini系数公式：

公式中字母含义：

p_k：样本由k个类别，第k个类别的概率为p_k

决策树生成：根据Gini数值选择节点，递归创建二叉树。

选择CART好处：生成规则易于理解；建树的计算量不大；该算法能处理连续字段与类别字段；生成的树能清晰显示哪些字段比较重要；能解决分类问题也能解决预测问题。

如图3所示，女性通过男性性别、年龄、身高和收入作为判断能否结婚依据(yes:可以结婚，no:不考虑)，当一条男生数据进入预测模型后，先进行性别判断，则不考虑，接着进行下一步判断年龄.....依次类推，知道最后看该男子是否符合标准，每一个节点都会进行一次规则判断，最后判断出该女孩是否考虑结婚。

在本发明的一个具体实施例中，为避免生成的决策树过拟合，将生成一颗二叉树进行剪枝。

决策树剪枝公式：

其中，字母e表示该节点的错误误差；字母N表示该节点有多少笔数据；字母E表示该节点预测错误笔数；字母表示该节点的错误率；字母Z在该公式中取经验常熟Z＝0.69。

在本发明的一个具体实施例中，将所述待分类目标数据进行第二特征工程处理。

具体的，第二特征工程是把原始数据转化为机器识别的特征过程，而这些特征又能很好的承载原始数据，且利用特征工程后的数据建立预测模型在未知数据上表现达到性能最优。该第一特征工程详细过程如下：

数据分词:加密短信数据从集群中读入，用分析工具对读入的信息分词，并对分词后数据去除停用词；

词性标注：对分词后的数据词性标注，词性标注的目的是为数据清洗和过滤做准备；

同义词标注：对意义相同及相近的词汇标注，对预测模型预测、分类的准确率有重要意义；

概念标定：也称概念的抽象，把不同的表达抽象为相同含义，如把意大利面与牛排抽象为西式餐点；

特征选择：采用特征选择方法是TF-IDF算法，TF即词频，是某词语出现的次数除以该文件总词语数，IDF即逆向文件词频，是总文件数目除以包含该词语文件的数目，再将得到的商取对数即可，而TF与IDF乘积用以评估每个词对于一个文本集或一个词库重要程度，字词的重要性与它在文本中出现的次数成正比，与它在词库中出现的频率成反比。

公式如下：

tfidf_i，j＝tf_i，j×idf_i； (3)

公式(1)中字母说明：

分子n_i，j表示词语t_i在文件d_j中出现次数；

其中t_i表示文件中词语数量，d_j表示文件个数；

分母∑_kn_k，j表示文件d_j中所有字词的出现次数之和；

tf_i，j表示词频；

公式(2)中字母说明：

分子|D|表示语料库中的文件总数；

分母|{j：t_i∈d_j}|表示包含词语t_i的文件数目；

其中t_i表示文件中词语数量，d_j表示文件个数；

idf_i表示逆向文件频率。

在本发明的一个具体实施例中，所述根据短信数据进行第一特征工程处理包括：

将分词后的所述短信数据进行标注；

将标注后的所述短信数据进行特征提取。

具体的，第一特征工程是把原始数据转化为机器识别的特征过程，而这些特征又能很好的承载原始数据，且利用特征工程后的数据建立预测模型在未知数据上表现达到性能最优。该第一特征工程详细过程如下：

公式如下：

tfidf_i，j＝tf_i，j×idf_i；

如图2所示，另一方面，提供一种短信诈骗分类系统，包括：

在本发明的一个具体实施例中，所述将第一特征工程处理的短信数据利用CART算法构建预测模型包括：

计算模块，用于计算所述CART算法中各个指标信息增益值；

在本发明的一个具体实施例中，所述生成模块包括剪枝模块，用于将生成一颗二叉树进行剪枝。

在本发明的一个具体实施例中，所述分类模块包括处理模块，用于将所述待分类目标数据进行第二特征工程处理。

在本发明的一个具体实施例中，所述构建模块包括：

标注模块，用于将分词后的所述短信数据进行标注；

为了方便理解本发明的上述技术方案，以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

实施例一

如图4所示，本应用案例数据为云南省某市通信管理局用户短信数据，数据指标处理为a1、a2、a3、a4、a5、a6、a7、a8、a9、a10共10个指标数据，以单条短信加密后数据为例，各指标数值为0.32、0.28、-0.15、0.29、-0.39、0.79、-0.52、0.59、0.48、-0.67，系统展示平台调用预测模型接口，将用户短信数据输入预测模型中，短信数据进入预测模型后，算法计算各个指标信息增益值且选择信息增益值最大的特征指标，作为分裂节点，算法循环计算其他各个特征指标的信息增益值，最后生成一颗二叉树，生成树的每个叶节点是一条规则，通过这些规则判断该条短信是否为诈骗短信，如果该条短信分类值是“1”则表示是诈骗短信，否则返回0表示正常短信，为避免模型过拟合，对生成的二叉树剪枝。

根节点a1是最强分割点，其信息增益值最大，节点间连线为判断条件，叶子节点为输出是规则，在实现分类过程中，树中每个节点作为判断条件，最底层叶子节点为规则，如上述本棵树以a1(0.32)为根节点，a1<＝0.32，进入左子树，左分支判断a2(0.28)，a2<＝0.28，进入左子树，左分支a5(-0.39)，a5<＝-0.39，进入左子树，左分支a9(0.48)，a9<＝0.48，叶子节点为“1”，即判断该条短信诈骗短信，若果叶节点输出为“0”，预测模型训练好，以脚本形式部署在系统上，定时运行短信数据，输出判断结果。

实施例二

如图5所示，本应用案例中数据为吉林省某市通信管理局用户短信数据，数据指标处理为a1、a2、a3、a4、a5、a6、a7、a8、a9、a10共10个指标数据，以单条短信加密后数据为例，各指标数值为0.32、0.28、-0.15、0.29、-0.39、0.79、-0.52、0.59、0.48、-0.67，系统展示平台调用预测模型接口，将用户短信数据输入预测模型中，短信数据进入预测模型后，算法计算各个指标信息增益值且选择信息增益值最大的特征指标，作为分裂节点，算法循环计算其他各个特征指标的信息增益值，最后生成一颗二叉树，生成树的每个叶节点是一条规则，通过这些规则判断该条短信是否为诈骗短信，如果该条短信分类值是“1”则表示是诈骗短信，否则返回0表示正常短信，为避免模型过拟合，对生成的二叉树剪枝。

根节点a1是最强分割点，其信息增益值最大，节点间连线为判断条件，叶子节点为输出是规则，在实现分类过程中，树中每个节点作为判断条件，最底层叶子节点为规则，如上述本棵树以a1(-0.48)为根节点，a1<＝-0.48，进入左子树，左分支判断a2(0.38)，a2<＝0.38，进入左子树，左分支a5(0.69)，a5<＝0.69，进入左子树，左分支a9(0.28)，a9<＝0.28，叶子节点为“1”，即判断该条短信是诈骗短信，否则输出为“0”为正常短信，预测模型训练好，以脚本形式部署在系统上，定时运行短信数据，输出判断结果。

综上所述，借助于本发明的上述技术方案，能够有效快速识别电信诈骗短信，快速协助警察破案，从而有效降低人为误判和漏判短信诈骗。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种短信诈骗分类方法，其特征在于，包括以下步骤：

将所述预测模型的评估值部署于线上，当待分类目标数据到达时，调用预测模型接口，将待分类目标数据输入所述预测模型进行实时分类。

2.根据权利要求1所述的短信诈骗分类方法，其特征在于，将第一特征工程处理的所述短信数据利用CART算法构建预测模型包括：计算所述CART算法中各个指标信息增益值；

选取所述信息增益值最大的特征指标作为分裂节点；

3.根据权利要求2所述的短信诈骗分类方法，其特征在于，将生成一颗二叉树进行剪枝。

4.根据权利要求1所述的短信诈骗分类方法，其特征在于，将所述待分类目标数据进行第二特征工程处理。

5.根据权利要求1-4任一项所述的短信诈骗分类方法，其特征在于，所述根据短信数据进行第一特征工程处理包括：

将分词后的所述短信数据进行标注；

将标注后的所述短信数据进行特征提取。

6.一种短信诈骗分类系统，其特征在于，包括：

7.根据权利要求6所述的短信诈骗分类系统，其特征在于，所述将第一特征工程处理的短信数据利用CART算法构建预测模型包括：计算模块，用于计算所述CART算法中各个指标信息增益值；

8.根据权利要求7所述的短信诈骗分类方法，其特征在于，所述生成模块包括剪枝模块，用于将生成一颗二叉树进行剪枝。

9.根据权利要求7所述的短信诈骗分类系统，其特征在于，所述分类模块包括处理模块，用于将所述待分类目标数据进行第二特征工程处理。

10.根据权利要求6-9任一项所述的短信诈骗分类系统，其特征在于，所述构建模块包括：

标注模块，用于将分词后的所述短信数据进行标注；