CN110147448A - 短信诈骗分类方法及系统 - Google Patents
短信诈骗分类方法及系统 Download PDFInfo
- Publication number
- CN110147448A CN110147448A CN201910352154.XA CN201910352154A CN110147448A CN 110147448 A CN110147448 A CN 110147448A CN 201910352154 A CN201910352154 A CN 201910352154A CN 110147448 A CN110147448 A CN 110147448A
- Authority
- CN
- China
- Prior art keywords
- prediction model
- data
- note data
- short message
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013213 extrapolation Methods 0.000 claims abstract description 8
- 238000013138 pruning Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 241001269238 Data Species 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 235000004348 Perilla frutescens Nutrition 0.000 description 2
- 244000124853 Perilla frutescens Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 235000015927 pasta Nutrition 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/128—Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种短信诈骗分类方法及系统,包括以下步骤:获取大数据集群中短信数据,根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值;将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入预测模型进行实时分类。本发明有益效果:能够有效快速识别电信诈骗短信,快速协助警察破案,从而有效降低人为误判和漏判短信诈骗。
Description
技术领域
本发明涉及电信短信诈骗技术领域,具体来说,涉及一种短信诈骗分类方法及系统。
背景技术
短信诈骗是指嫌疑人利用手机短信骗取他人金钱或财务的行为,诈骗短信具有很强的诱惑力与欺骗性,线索特别少,而且容易伪装,不易破案,给电信用户带来很大的困扰与危害。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种短信诈骗分类方法,不仅能够显著提高诈骗短信分类准确率,又可以降低办案人员工作量。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种短信诈骗分类方法,包括以下步骤:
获取大数据集群中短信数据,根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;
利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值;
将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入预测模型进行实时分类。
进一步地,将第一特征工程处理的所述短信数据利用CART算法构建预测模型包括:
计算所述CART算法中各个指标信息增益值;
选取所述信息增益值最大的特征指标作为分裂节点;
所述CART算法循环计算其他各个特征指标的信息增益值,生成一颗二叉树,其中,所述二叉树的每个叶节点是一条规则,根据每条所述规则判断所述短信数据是否为诈骗短信。
进一步地,将生成一颗二叉树进行剪枝。
进一步地,将所述待分类目标数据进行第二特征工程处理。
进一步地,所述根据短信数据进行第一特征工程处理包括:
将所述短信数据从所述大数据集群中读入,利用分析工具对读入的所述短信数据进行分词;
将分词后的所述短信数据进行标注;
将标注后的所述短信数据进行特征提取。
本发明的另一方面,提供一种短信诈骗分类系统,包括:
构建模块,用于获取大数据集群中短信数据,根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;
模型评估模块,用于利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值;
分类模块,用于将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入预测模型进行实时分类。
进一步地,所述将第一特征工程处理的短信数据利用CART算法构建预测模型包括:
计算模块,用于计算所述CART算法中各个指标信息增益值;
选取模块,用于选取所述信息增益值最大的特征指标作为分裂节点;
生成模块,用于所述CART算法循环计算其他各个特征指标的信息增益值,生成一颗二叉树,其中,所述二叉树的每个叶节点是一条规则,根据每条规则判断所述短信数据是否为诈骗短信。
进一步地,所述生成模块包括剪枝模块,用于将生成一颗二叉树进行剪枝。
进一步地,所述分类模块包括处理模块,用于将所述待分类目标数据进行第二特征工程处理。
进一步地,所述构建模块包括:
读取模块,用于将所述短信数据从大数据集群中读入,利用分析工具对读入的短信数据进行分词;
标注模块,用于将分词后的所述短信数据进行标注;
特征提取模块,用于将标注后的所述短信数据进行特征提取。
本发明的有益效果:能够有效快速识别电信诈骗短信,快速协助警察破案,从而有效降低人为误判和漏判短信诈骗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的短信诈骗分类方法的流程图;
图2是根据本发明实施例所述的短信诈骗分类方法的结构示意图;
图3是根据本发明实施例CART树结构示意图;
图4是根据本发明实施例生成树的结构图之一;
图5是根据本发明实施例生成树的结构图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种短信诈骗分类方法,包括以下步骤:
获取大数据集群中短信数据,短信数据存放在Hbase中,有利于数据实时访问与处理,其内容是文本格式,标签信息是0和1,训练数据由Hbase数据库中获取;根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;
利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值,其中,使用精准率、召回率和F1-score指标对预测模型进行评估,其计算公式分别如下所示:
Precision(精准率)=TP/(TP+FP)
Recall(召回率)=TP/(TP+FN)
F1-score=2*Precision*Recall/(Precision+Recall)
Precision(精准率),预测正确的样本除以预测的样本数;Recall(召回率),预测正确的样本数除以总样本数;
公式中字母含义:TP代表样本为正,预测结果为正的个数;FP代表样本为负,预测结果为正的个数;FN代表样本为正,预测结果为负的个数。
将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入预测模型进行实时分类。
具体的,
从集群读取数据:短信数据从大数据集群上实时读取,为保护用户隐私权,集群中短息数据加密处理,对涉及用户位置信息偏转处理,从集群中读取短信数据供第一特征工程处理;第一特征工程:短信数据从集群中读取后,为第一特征工程做准备,第一特征工程主要包含数据预处理、数据分词、去除停用词、词性标注、同义词标注、特征提取及特征选择等功能;CART算法:第一特征工程处理后,短信数据进入预测模型开始训练,CART算法即可实现分类问题也可实现预测问题,第一特征工程处理后的数据分为训练集与测试集,采用十则交叉法训练预测模型;模型评估:预测模型训练结束后,结合业务及多种预测模型评估指标,评估预测模型上线可行性,对满足业务要求的模型实施上线运行,实现自动分类预测任务;分类目标数据:该数据是待分类目标数据,此目标数据从集群中实时读取,第二特征工程后,目标数据经部署后的预测模型,给出预测结果,是否为诈骗短信,也可作为办案人员参考依据;模型部署:模型部署是预测模型综合评估达到要求后,把该预测模型部署在线上,所有短信数据经过该预测模型,预测模型对短信实时分类,实现诈骗短信实时分类预测拦截;结果输出实时展示:结果输出实时展示是实时输出预测模型预测为诈骗短信的数据展示出来,该数据可供实时查询,也可在大屏实时展示。
在本发明的一个具体实施例中,将第一特征工程处理的所述短信数据利用CART算法构建预测模型包括:
计算所述CART算法中各个指标信息增益值;
选取所述信息增益值最大的特征指标作为分裂节点;
所述CART算法循环计算其他各个特征指标的信息增益值,生成一颗二叉树,其中,所述二叉树的每个叶节点是一条规则,根据每条所述规则判断所述短信数据是否为诈骗短信。
CART是生成一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树和右子树。相比其它决策树算法,CART既可以解决分类问题也可以解决预测问题。
CART算法使用基尼指数(Gini)来选择最好数据分割点;Gini系数含义:是一种不等性度量,用来度量信息不均匀分布性,是介于0~1之间的数,0-完全相等,1-完全不相等;Gini指数就越大,数据内包含的类别越杂乱。
Gini系数公式:
公式中字母含义:
pk:样本由k个类别,第k个类别的概率为pk
决策树生成:根据Gini数值选择节点,递归创建二叉树。
选择CART好处:生成规则易于理解;建树的计算量不大;该算法能处理连续字段与类别字段;生成的树能清晰显示哪些字段比较重要;能解决分类问题也能解决预测问题。
如图3所示,女性通过男性性别、年龄、身高和收入作为判断能否结婚依据(yes:可以结婚,no:不考虑),当一条男生数据进入预测模型后,先进行性别判断,则不考虑,接着进行下一步判断年龄.....依次类推,知道最后看该男子是否符合标准,每一个节点都会进行一次规则判断,最后判断出该女孩是否考虑结婚。
在本发明的一个具体实施例中,为避免生成的决策树过拟合,将生成一颗二叉树进行剪枝。
决策树剪枝公式:
其中,字母e表示该节点的错误误差;字母N表示该节点有多少笔数据;字母E表示该节点预测错误笔数;字母表示该节点的错误率;字母Z在该公式中取经验常熟Z=0.69。
在本发明的一个具体实施例中,将所述待分类目标数据进行第二特征工程处理。
具体的,第二特征工程是把原始数据转化为机器识别的特征过程,而这些特征又能很好的承载原始数据,且利用特征工程后的数据建立预测模型在未知数据上表现达到性能最优。该第一特征工程详细过程如下:
数据分词:加密短信数据从集群中读入,用分析工具对读入的信息分词,并对分词后数据去除停用词;
词性标注:对分词后的数据词性标注,词性标注的目的是为数据清洗和过滤做准备;
同义词标注:对意义相同及相近的词汇标注,对预测模型预测、分类的准确率有重要意义;
概念标定:也称概念的抽象,把不同的表达抽象为相同含义,如把意大利面与牛排抽象为西式餐点;
特征选择:采用特征选择方法是TF-IDF算法,TF即词频,是某词语出现的次数除以该文件总词语数,IDF即逆向文件词频,是总文件数目除以包含该词语文件的数目,再将得到的商取对数即可,而TF与IDF乘积用以评估每个词对于一个文本集或一个词库重要程度,字词的重要性与它在文本中出现的次数成正比,与它在词库中出现的频率成反比。
公式如下:
tfidfi,j=tfi,j×idfi; (3)
公式(1)中字母说明:
分子ni,j表示词语ti在文件dj中出现次数;
其中ti表示文件中词语数量,dj表示文件个数;
分母∑knk,j表示文件dj中所有字词的出现次数之和;
tfi,j表示词频;
公式(2)中字母说明:
分子|D|表示语料库中的文件总数;
分母|{j:ti∈dj}|表示包含词语ti的文件数目;
其中ti表示文件中词语数量,dj表示文件个数;
idfi表示逆向文件频率。
在本发明的一个具体实施例中,所述根据短信数据进行第一特征工程处理包括:
将所述短信数据从所述大数据集群中读入,利用分析工具对读入的所述短信数据进行分词;
将分词后的所述短信数据进行标注;
将标注后的所述短信数据进行特征提取。
具体的,第一特征工程是把原始数据转化为机器识别的特征过程,而这些特征又能很好的承载原始数据,且利用特征工程后的数据建立预测模型在未知数据上表现达到性能最优。该第一特征工程详细过程如下:
数据分词:加密短信数据从集群中读入,用分析工具对读入的信息分词,并对分词后数据去除停用词;
词性标注:对分词后的数据词性标注,词性标注的目的是为数据清洗和过滤做准备;
同义词标注:对意义相同及相近的词汇标注,对预测模型预测、分类的准确率有重要意义;
概念标定:也称概念的抽象,把不同的表达抽象为相同含义,如把意大利面与牛排抽象为西式餐点;
特征选择:采用特征选择方法是TF-IDF算法,TF即词频,是某词语出现的次数除以该文件总词语数,IDF即逆向文件词频,是总文件数目除以包含该词语文件的数目,再将得到的商取对数即可,而TF与IDF乘积用以评估每个词对于一个文本集或一个词库重要程度,字词的重要性与它在文本中出现的次数成正比,与它在词库中出现的频率成反比。
公式如下:
tfidfi,j=tfi,j×idfi;
如图2所示,另一方面,提供一种短信诈骗分类系统,包括:
构建模块,用于获取大数据集群中短信数据,根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;
模型评估模块,用于利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值;
分类模块,用于将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入预测模型进行实时分类。
在本发明的一个具体实施例中,所述将第一特征工程处理的短信数据利用CART算法构建预测模型包括:
计算模块,用于计算所述CART算法中各个指标信息增益值;
选取模块,用于选取所述信息增益值最大的特征指标作为分裂节点;
生成模块,用于所述CART算法循环计算其他各个特征指标的信息增益值,生成一颗二叉树,其中,所述二叉树的每个叶节点是一条规则,根据每条规则判断所述短信数据是否为诈骗短信。
在本发明的一个具体实施例中,所述生成模块包括剪枝模块,用于将生成一颗二叉树进行剪枝。
在本发明的一个具体实施例中,所述分类模块包括处理模块,用于将所述待分类目标数据进行第二特征工程处理。
在本发明的一个具体实施例中,所述构建模块包括:
读取模块,用于将所述短信数据从大数据集群中读入,利用分析工具对读入的短信数据进行分词;
标注模块,用于将分词后的所述短信数据进行标注;
特征提取模块,用于将标注后的所述短信数据进行特征提取。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
实施例一
如图4所示,本应用案例数据为云南省某市通信管理局用户短信数据,数据指标处理为a1、a2、a3、a4、a5、a6、a7、a8、a9、a10共10个指标数据,以单条短信加密后数据为例,各指标数值为0.32、0.28、-0.15、0.29、-0.39、0.79、-0.52、0.59、0.48、-0.67,系统展示平台调用预测模型接口,将用户短信数据输入预测模型中,短信数据进入预测模型后,算法计算各个指标信息增益值且选择信息增益值最大的特征指标,作为分裂节点,算法循环计算其他各个特征指标的信息增益值,最后生成一颗二叉树,生成树的每个叶节点是一条规则,通过这些规则判断该条短信是否为诈骗短信,如果该条短信分类值是“1”则表示是诈骗短信,否则返回0表示正常短信,为避免模型过拟合,对生成的二叉树剪枝。
根节点a1是最强分割点,其信息增益值最大,节点间连线为判断条件,叶子节点为输出是规则,在实现分类过程中,树中每个节点作为判断条件,最底层叶子节点为规则,如上述本棵树以a1(0.32)为根节点,a1<=0.32,进入左子树,左分支判断a2(0.28),a2<=0.28,进入左子树,左分支a5(-0.39),a5<=-0.39,进入左子树,左分支a9(0.48),a9<=0.48,叶子节点为“1”,即判断该条短信诈骗短信,若果叶节点输出为“0”,预测模型训练好,以脚本形式部署在系统上,定时运行短信数据,输出判断结果。
实施例二
如图5所示,本应用案例中数据为吉林省某市通信管理局用户短信数据,数据指标处理为a1、a2、a3、a4、a5、a6、a7、a8、a9、a10共10个指标数据,以单条短信加密后数据为例,各指标数值为0.32、0.28、-0.15、0.29、-0.39、0.79、-0.52、0.59、0.48、-0.67,系统展示平台调用预测模型接口,将用户短信数据输入预测模型中,短信数据进入预测模型后,算法计算各个指标信息增益值且选择信息增益值最大的特征指标,作为分裂节点,算法循环计算其他各个特征指标的信息增益值,最后生成一颗二叉树,生成树的每个叶节点是一条规则,通过这些规则判断该条短信是否为诈骗短信,如果该条短信分类值是“1”则表示是诈骗短信,否则返回0表示正常短信,为避免模型过拟合,对生成的二叉树剪枝。
根节点a1是最强分割点,其信息增益值最大,节点间连线为判断条件,叶子节点为输出是规则,在实现分类过程中,树中每个节点作为判断条件,最底层叶子节点为规则,如上述本棵树以a1(-0.48)为根节点,a1<=-0.48,进入左子树,左分支判断a2(0.38),a2<=0.38,进入左子树,左分支a5(0.69),a5<=0.69,进入左子树,左分支a9(0.28),a9<=0.28,叶子节点为“1”,即判断该条短信是诈骗短信,否则输出为“0”为正常短信,预测模型训练好,以脚本形式部署在系统上,定时运行短信数据,输出判断结果。
综上所述,借助于本发明的上述技术方案,能够有效快速识别电信诈骗短信,快速协助警察破案,从而有效降低人为误判和漏判短信诈骗。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种短信诈骗分类方法,其特征在于,包括以下步骤:
获取大数据集群中短信数据,根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;
利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值;
将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入所述预测模型进行实时分类。
2.根据权利要求1所述的短信诈骗分类方法,其特征在于,将第一特征工程处理的所述短信数据利用CART算法构建预测模型包括:计算所述CART算法中各个指标信息增益值;
选取所述信息增益值最大的特征指标作为分裂节点;
所述CART算法循环计算其他各个特征指标的信息增益值,生成一颗二叉树,其中,所述二叉树的每个叶节点是一条规则,根据每条所述规则判断所述短信数据是否为诈骗短信。
3.根据权利要求2所述的短信诈骗分类方法,其特征在于,将生成一颗二叉树进行剪枝。
4.根据权利要求1所述的短信诈骗分类方法,其特征在于,将所述待分类目标数据进行第二特征工程处理。
5.根据权利要求1-4任一项所述的短信诈骗分类方法,其特征在于,所述根据短信数据进行第一特征工程处理包括:
将所述短信数据从所述大数据集群中读入,利用分析工具对读入的所述短信数据进行分词;
将分词后的所述短信数据进行标注;
将标注后的所述短信数据进行特征提取。
6.一种短信诈骗分类系统,其特征在于,包括:
构建模块,用于获取大数据集群中短信数据,根据所述短信数据进行第一特征工程处理,将第一特征工程处理的所述短信数据利用CART算法构建预测模型;
模型评估模块,用于利用十则交叉法训练所述预测模型,将训练完的所述预测模型计算评估值;
分类模块,用于将所述预测模型的评估值部署于线上,当待分类目标数据到达时,调用预测模型接口,将待分类目标数据输入预测模型进行实时分类。
7.根据权利要求6所述的短信诈骗分类系统,其特征在于,所述将第一特征工程处理的短信数据利用CART算法构建预测模型包括:计算模块,用于计算所述CART算法中各个指标信息增益值;
选取模块,用于选取所述信息增益值最大的特征指标作为分裂节点;
生成模块,用于所述CART算法循环计算其他各个特征指标的信息增益值,生成一颗二叉树,其中,所述二叉树的每个叶节点是一条规则,根据每条规则判断所述短信数据是否为诈骗短信。
8.根据权利要求7所述的短信诈骗分类方法,其特征在于,所述生成模块包括剪枝模块,用于将生成一颗二叉树进行剪枝。
9.根据权利要求7所述的短信诈骗分类系统,其特征在于,所述分类模块包括处理模块,用于将所述待分类目标数据进行第二特征工程处理。
10.根据权利要求6-9任一项所述的短信诈骗分类系统,其特征在于,所述构建模块包括:
读取模块,用于将所述短信数据从大数据集群中读入,利用分析工具对读入的短信数据进行分词;
标注模块,用于将分词后的所述短信数据进行标注;
特征提取模块,用于将标注后的所述短信数据进行特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910352154.XA CN110147448A (zh) | 2019-04-29 | 2019-04-29 | 短信诈骗分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910352154.XA CN110147448A (zh) | 2019-04-29 | 2019-04-29 | 短信诈骗分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110147448A true CN110147448A (zh) | 2019-08-20 |
Family
ID=67593829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910352154.XA Pending CN110147448A (zh) | 2019-04-29 | 2019-04-29 | 短信诈骗分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147448A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114157760A (zh) * | 2021-12-06 | 2022-03-08 | 上海欣方智能系统有限公司 | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930531A (zh) * | 2016-06-08 | 2016-09-07 | 安徽农业大学 | 一种基于混合模型的农业领域本体知识云维度优选方法 |
US20170083920A1 (en) * | 2015-09-21 | 2017-03-23 | Fair Isaac Corporation | Hybrid method of decision tree and clustering technology |
CN106934493A (zh) * | 2017-02-28 | 2017-07-07 | 北京科技大学 | 一种电力客户价值评估模型的构建方法 |
US20170221075A1 (en) * | 2016-01-29 | 2017-08-03 | Sap Se | Fraud inspection framework |
CN107169629A (zh) * | 2017-04-17 | 2017-09-15 | 四川九洲电器集团有限责任公司 | 一种电信诈骗识别方法及数据处理设备 |
CN107577702A (zh) * | 2017-07-28 | 2018-01-12 | 中南大学 | 一种社交媒体中交通信息的辨别方法 |
CN108009287A (zh) * | 2017-12-25 | 2018-05-08 | 北京中关村科金技术有限公司 | 一种基于对话系统的回答数据生成方法以及相关装置 |
CN109271523A (zh) * | 2018-11-23 | 2019-01-25 | 中电科大数据研究院有限公司 | 一种基于信息检索的政府公文主题分类方法 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
-
2019
- 2019-04-29 CN CN201910352154.XA patent/CN110147448A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083920A1 (en) * | 2015-09-21 | 2017-03-23 | Fair Isaac Corporation | Hybrid method of decision tree and clustering technology |
US20170221075A1 (en) * | 2016-01-29 | 2017-08-03 | Sap Se | Fraud inspection framework |
CN105930531A (zh) * | 2016-06-08 | 2016-09-07 | 安徽农业大学 | 一种基于混合模型的农业领域本体知识云维度优选方法 |
CN106934493A (zh) * | 2017-02-28 | 2017-07-07 | 北京科技大学 | 一种电力客户价值评估模型的构建方法 |
CN107169629A (zh) * | 2017-04-17 | 2017-09-15 | 四川九洲电器集团有限责任公司 | 一种电信诈骗识别方法及数据处理设备 |
CN107577702A (zh) * | 2017-07-28 | 2018-01-12 | 中南大学 | 一种社交媒体中交通信息的辨别方法 |
CN108009287A (zh) * | 2017-12-25 | 2018-05-08 | 北京中关村科金技术有限公司 | 一种基于对话系统的回答数据生成方法以及相关装置 |
CN109271523A (zh) * | 2018-11-23 | 2019-01-25 | 中电科大数据研究院有限公司 | 一种基于信息检索的政府公文主题分类方法 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114157760A (zh) * | 2021-12-06 | 2022-03-08 | 上海欣方智能系统有限公司 | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN108038240A (zh) | 基于内容、用户多因素分析的社交网络谣言检测方法 | |
CN108038725A (zh) | 一种基于机器学习的电商产品客户满意度分析方法 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN104778186B (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
CN110297988A (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN108345587A (zh) | 一种评论的真实性检测方法与系统 | |
CN104346379A (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN108052625A (zh) | 一种实体精细分类方法 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及系统 | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN111353044A (zh) | 一种基于评论的情感分析方法及系统 | |
CN109783633A (zh) | 数据分析服务流程模型推荐方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN103186647B (zh) | 一种依据贡献度排序的方法及装置 | |
Karaahmetoğlu et al. | Evaluation of profession predictions for today and the future with machine learning methods: emperical evidence from Turkey | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
WO2024087754A1 (zh) | 一种多维度文本综合辨识方法 | |
CN110147448A (zh) | 短信诈骗分类方法及系统 | |
CN110990530A (zh) | 一种基于深度学习的微博博主性格分析方法 | |
Du et al. | Identifying high-impact opioid products and key sellers in dark net marketplaces: An interpretable text analytics approach | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190820 |
|
RJ01 | Rejection of invention patent application after publication |