CN108108756A - 一种基于svm分类算法的话单信息中敏感电话发现方法 - Google Patents

一种基于svm分类算法的话单信息中敏感电话发现方法 Download PDF

Info

Publication number
CN108108756A
CN108108756A CN201711368252.XA CN201711368252A CN108108756A CN 108108756 A CN108108756 A CN 108108756A CN 201711368252 A CN201711368252 A CN 201711368252A CN 108108756 A CN108108756 A CN 108108756A
Authority
CN
China
Prior art keywords
ticket
svm classifier
big data
sensitive
phone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711368252.XA
Other languages
English (en)
Inventor
曹万鹏
罗云彬
李鹏
李�浩
徐青
史辉
林绍福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711368252.XA priority Critical patent/CN108108756A/zh
Publication of CN108108756A publication Critical patent/CN108108756A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种基于SVM分类算法的话单信息中敏感电话发现方法,包括以下步骤:步骤1、在话单大数据中寻找出用户话单中与一般、普通电话具有根本性差异的具有一系列敏感特征的电话号码;步骤2、对电信运营商话单大数据进行挖掘、分析,在用户话单大数据中提取不同号码的通话记录特征信息;步骤3、把上述特征信息做为训练SVM分类模型的特征向量,在话单大数据中选取一定量已知的话单数据,训练SVM分类模型;步骤4、采用改SVM分类算法模型,对话单中可能的敏感电话号码与正常号码进行区分,寻找出可疑电话。

Description

一种基于SVM分类算法的话单信息中敏感电话发现方法
技术领域
本发明属于模式识别方法,特别是涉及一种基于SVM分类算法的话单信息中敏感电话发现方法。
背景技术
随着人工智能的越来越成熟,其在生产生活中得到了更多实际应用。机器学习技术作为人工智能技术中最为核心算法进一步吸引了人们的目光,成为模式识别和分类算法中的研究热点。其中,统计学习理论自从提出以来就得到了广泛的应用,基于SVM的分类算法因为其结构简单、泛化能力强、学习和预测时间短、能实现全局最优等卓越性能而得到广泛关注和良好发展。特别是,SVM分类算法在解决小样本,非线性和高维模式识别上具有很大优势,被广泛应用于人脸识别,笔迹鉴定和其他相关领域。SVM算法通过满足Mercer条件的核函数,把原始空间上样本的非线性问题变换为高维空间的线性问题,实现了非线性问题的线性化,也直接关系到SVM分类算法的性能。
分类器模型训练中,为对分类有利的样本分配较大的权值是一种常用的手段,有利于训练获得的分类器模型后续的分类。基于SVM分类模型原理中,分类间隔大意味着能以充分大的确信度对训练数据进行分类。也就是说,不仅能将正负样本点分开,而且对最难分的样本点也有足够大的确信度将他们分开。这样具有较大间隔的超平面对未知的样本也将有很好的分类预测能力。
基于以上考虑,本专利提出一种基于SVM分类算法的话单信息中敏感电话发现方法。基于话单数据中不同通话记录的特征信息,从敏感电话通话与其他普通通话之间的根本差异出发,挖掘并计算相关特征量,基于SVM分类算法,对话单大数据中的敏感电话号码与正常电话号码进行区分,使得最终基于SVM分类算法设计的分类器分类效果更佳、误判率更低。
发明内容
针对传统的敏感电话分辨不准确的不足,提出一种基于SVM分类算法的话单信息的敏感电话发现方法,通过挖掘通话话单大数据中敏感电话与其他普通通话每条话单之间的根本差异作为特征向量,基于SVM分类算法,对话单大数据中的敏感电话号码与正常电话号码进行区分,进而使得到的SVM分类器模型分类效果更佳、分类精度更高。
其中,涉及到对话单大数据中关键区别特征信息的挖掘、计算、分析,它们决定了最终是否可以准确、高效的对上述话单数据信息中不同号码的区分。
与现有技术相比,本发明具有以下明显的优势和有益效果:
(1)本发明基于敏感电话在用户话单中相关特征信息的特有性,及其与一般电话的根本性差异,采用SVM分类算法模型,提出一种基于SVM分类算法的话单信息的敏感电话发现方法。
(2)通过对推销、广告、骚扰电话在话单大数据中呈现的规律性进行分析、挖掘,基于SVM分类算法,对话单大数据中的敏感电话号码与一般、正常号码进行区分,使得最终基于SVM算法的分类器分类效果更佳、误判率更低。
附图说明
图1为本发明所提出的一种基于SVM分类算法的话单信息中敏感电话发现方法功能框图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
本发明所涉及方法的流程图如图1所示,包括以下步骤:
1、在话单大数据中寻找出用户话单中与一般、普通电话具有根本性差异的具有一系列敏感特征的电话号码,例如话单中,该电话的主叫大于一定比例(90%以上电话)或只有主叫,通话时间通常都很短(大多数会被别人挂断),不同通话间间隔较短、较规律(90%以上电话),平均通话时长较稳定(90%以上电话),话单中被叫电话号码重复率较低(90%以上电话),话单中不具有相对稳定、长期通话对象(低于10%),挂断率较高,一段时间内(每天、每周、每月)通话条数多,电话接入基站变化较少,电话活跃时间相对较规律,电话回复率较低等特征;
2、在oracle数据库中对存储的话单大数据进行过滤,对电信运营商话单大数据进行挖掘、分析,根据步骤1中特征,在用户话单大数据中提取不同号码的上述特征信息,即该电话的主叫比例,设为x1;通话时间,设为x2;不同通话间间隔,设为x3;话单中被叫电话号码重复率,设为x4,平均通话时长,设为x5等;
3、把上述特征信息做为训练SVM分类模型的输入特征向量,在话单大数据中选取一定量已知的话单数据,训练SVM分类模型:
给定训练集(xi,yi),i=1,2,···,N,x∈Rn,y∈{±1},超平面为wx+b=0。为使分类超平面正确分类所有样本并产生一个尽量大的分类间隔,需满足方程:
yi[(w·xi)+b]≥1,i=1,2,L,N (1)
因此,分类间隔可表示为2/||w||,构造最优超平面的问题就转化为下列约束的最小值问题:
这里,引入拉格朗日函数,
公式(3)中,αi是拉格朗日系数,且有αi>0。该约束优化问题由拉格朗日函数的鞍点确定,优化问题的解满足在鞍点处的偏微分为0。最后,QP(二次规划)问题转化为相应的对偶问题:
这里,满足,
通过计算,最优权值向量w*和最佳偏置b*分别为:
那么,最优分类平面为:
w*·x+b*=0 (8)
最优分类函数为:
在这里,x∈Rn。当样本非线性可分时,输入特征空间通过非线性变换变换到一个高维特征空间。为了在高维空间中寻求最佳线性分类,通过定义适当的内积函数(核函数)实现非线性变换。SVM算法可以用训练集和核函数完全描述,训练集和核函数是决定算法成败的关键。因此,将训练样本映射到其他空间,实现线性区分处理,分割效果取决于核函数的选择。不同核函数K的选择将导致完全不同的SVM算法,决定了所构建分类模型的分类性能和精度,在SVM算法中起着决定性作用。非线性SVM的最优分类函数如下:
这里,K(x·xj)表示核函数。
4、采用该SVM分类算法模型,对话单中可能的敏感电话号码与正常号码进行区分,寻找出可疑电话。

Claims (1)

1.一种基于SVM分类算法的话单信息中敏感电话发现方法,其特征在于,包括以下步骤:
步骤1、在话单大数据中寻找出用户话单中与一般、普通电话具有根本性差异的具有一系列敏感特征的电话号码;
步骤2、对电信运营商话单大数据进行挖掘、分析,在用户话单大数据中提取不同号码的通话记录特征信息;
步骤3、把上述特征信息做为训练SVM分类模型的特征向量,在话单大数据中选取一定量已知的话单数据,训练SVM分类模型;
步骤4、采用改SVM分类算法模型,对话单中可能的敏感电话号码与正常号码进行区分,寻找出可疑电话。
CN201711368252.XA 2017-12-18 2017-12-18 一种基于svm分类算法的话单信息中敏感电话发现方法 Pending CN108108756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711368252.XA CN108108756A (zh) 2017-12-18 2017-12-18 一种基于svm分类算法的话单信息中敏感电话发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711368252.XA CN108108756A (zh) 2017-12-18 2017-12-18 一种基于svm分类算法的话单信息中敏感电话发现方法

Publications (1)

Publication Number Publication Date
CN108108756A true CN108108756A (zh) 2018-06-01

Family

ID=62210991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711368252.XA Pending CN108108756A (zh) 2017-12-18 2017-12-18 一种基于svm分类算法的话单信息中敏感电话发现方法

Country Status (1)

Country Link
CN (1) CN108108756A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810290A (zh) * 2018-07-17 2018-11-13 中国联合网络通信集团有限公司 一种诈骗电话的识别的方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DATAALPHA: "https://www.cnblogs.com/fionacai/p/5926228.html", 《支持向量机SVM》 *
DENGHE1122: "https://blog.csdn.net/denghecsdn/article/details/77313758", 《超平面是什么?——理解超平面(SVM开篇之超平面详解)》 *
JACKIE_ZHU: "https://blog.csdn.net/jackie_zhu/article/details/49904331", 《SVM(SUPPORT VECTOR MACHINE)读书笔记一(最佳分割超平面)》 *
LEFTNOTEASY: "https://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html", 《机器学习中的算法(2)-支持向量机(SVM)基础》 *
WEIXIN_30624825: "https://blog.csdn.net/weixin_30624825/article/details/96633799", 《SVM理论之最优超平面》 *
双锴,马姣: "基于机器学习的SPIT可疑度评估方法", 《华中科技大学学报(自然科学版)》 *
吉涵之等: "基于SVM的电信诈骗行为特征识别方法", 《软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810290A (zh) * 2018-07-17 2018-11-13 中国联合网络通信集团有限公司 一种诈骗电话的识别的方法及系统
CN108810290B (zh) * 2018-07-17 2021-04-02 中国联合网络通信集团有限公司 一种诈骗电话的识别的方法及系统

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
Kumar et al. Crime prediction using K-nearest neighboring algorithm
CN109962909B (zh) 一种基于机器学习的网络入侵异常检测方法
CN111813835B (zh) 一种基于手机信令和poi数据的公共活动中心识别系统
CN102937951A (zh) 建立ip地址分类模型的方法、对用户分类的方法及装置
CN109886161A (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN101256631A (zh) 一种字符识别的方法、装置、程序和可读存储介质
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN111274338A (zh) 一种基于移动大数据的预出境用户识别方法
CN107729940A (zh) 一种用户话单大数据基站连接信息用户关系推定方法
CN109858974A (zh) 已购车用户识别模型构建方法及识别方法
CN116028803A (zh) 一种基于敏感属性再平衡的去偏方法
CN112163636A (zh) 基于孪生神经网络的电磁信号辐射源的未知模式识别方法
CN109347719A (zh) 一种基于机器学习的图像垃圾邮件过滤方法
CN108108756A (zh) 一种基于svm分类算法的话单信息中敏感电话发现方法
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN116561327B (zh) 基于聚类算法的政务数据管理方法
CN110110914A (zh) 基于变换决策树和智能优化方法的学生困难程度预测方法
CN110213449A (zh) 一种漫游诈骗号码的识别方法
CN105930430B (zh) 一种基于非累积属性的实时欺诈检测方法及装置
CN116501982A (zh) 基于无监督聚类与多维度协同过滤的用户兴趣推荐方法
Xu et al. A novel algorithm for associative classification of image blocks
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备
CN112185083A (zh) 一种重复报警判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180601