CN108108756A

CN108108756A - 一种基于svm分类算法的话单信息中敏感电话发现方法

Info

Publication number: CN108108756A
Application number: CN201711368252.XA
Authority: CN
Inventors: 曹万鹏; 罗云彬; 李鹏; 李�浩; 徐青; 史辉; 林绍福
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-06-01

Abstract

本发明公开一种基于SVM分类算法的话单信息中敏感电话发现方法，包括以下步骤：步骤1、在话单大数据中寻找出用户话单中与一般、普通电话具有根本性差异的具有一系列敏感特征的电话号码；步骤2、对电信运营商话单大数据进行挖掘、分析，在用户话单大数据中提取不同号码的通话记录特征信息；步骤3、把上述特征信息做为训练SVM分类模型的特征向量，在话单大数据中选取一定量已知的话单数据，训练SVM分类模型；步骤4、采用改SVM分类算法模型，对话单中可能的敏感电话号码与正常号码进行区分，寻找出可疑电话。

Description

一种基于SVM分类算法的话单信息中敏感电话发现方法

技术领域

本发明属于模式识别方法，特别是涉及一种基于SVM分类算法的话单信息中敏感电话发现方法。

背景技术

随着人工智能的越来越成熟，其在生产生活中得到了更多实际应用。机器学习技术作为人工智能技术中最为核心算法进一步吸引了人们的目光，成为模式识别和分类算法中的研究热点。其中，统计学习理论自从提出以来就得到了广泛的应用，基于SVM的分类算法因为其结构简单、泛化能力强、学习和预测时间短、能实现全局最优等卓越性能而得到广泛关注和良好发展。特别是，SVM分类算法在解决小样本，非线性和高维模式识别上具有很大优势，被广泛应用于人脸识别，笔迹鉴定和其他相关领域。SVM算法通过满足Mercer条件的核函数，把原始空间上样本的非线性问题变换为高维空间的线性问题，实现了非线性问题的线性化，也直接关系到SVM分类算法的性能。

分类器模型训练中，为对分类有利的样本分配较大的权值是一种常用的手段，有利于训练获得的分类器模型后续的分类。基于SVM分类模型原理中，分类间隔大意味着能以充分大的确信度对训练数据进行分类。也就是说，不仅能将正负样本点分开，而且对最难分的样本点也有足够大的确信度将他们分开。这样具有较大间隔的超平面对未知的样本也将有很好的分类预测能力。

基于以上考虑，本专利提出一种基于SVM分类算法的话单信息中敏感电话发现方法。基于话单数据中不同通话记录的特征信息，从敏感电话通话与其他普通通话之间的根本差异出发，挖掘并计算相关特征量，基于SVM分类算法，对话单大数据中的敏感电话号码与正常电话号码进行区分，使得最终基于SVM分类算法设计的分类器分类效果更佳、误判率更低。

发明内容

针对传统的敏感电话分辨不准确的不足，提出一种基于SVM分类算法的话单信息的敏感电话发现方法，通过挖掘通话话单大数据中敏感电话与其他普通通话每条话单之间的根本差异作为特征向量，基于SVM分类算法，对话单大数据中的敏感电话号码与正常电话号码进行区分，进而使得到的SVM分类器模型分类效果更佳、分类精度更高。

其中，涉及到对话单大数据中关键区别特征信息的挖掘、计算、分析，它们决定了最终是否可以准确、高效的对上述话单数据信息中不同号码的区分。

与现有技术相比，本发明具有以下明显的优势和有益效果：

(1)本发明基于敏感电话在用户话单中相关特征信息的特有性，及其与一般电话的根本性差异，采用SVM分类算法模型，提出一种基于SVM分类算法的话单信息的敏感电话发现方法。

(2)通过对推销、广告、骚扰电话在话单大数据中呈现的规律性进行分析、挖掘，基于SVM分类算法，对话单大数据中的敏感电话号码与一般、正常号码进行区分，使得最终基于SVM算法的分类器分类效果更佳、误判率更低。

附图说明

图1为本发明所提出的一种基于SVM分类算法的话单信息中敏感电话发现方法功能框图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

本发明所涉及方法的流程图如图1所示，包括以下步骤：

1、在话单大数据中寻找出用户话单中与一般、普通电话具有根本性差异的具有一系列敏感特征的电话号码，例如话单中，该电话的主叫大于一定比例(90％以上电话)或只有主叫，通话时间通常都很短(大多数会被别人挂断)，不同通话间间隔较短、较规律(90％以上电话)，平均通话时长较稳定(90％以上电话)，话单中被叫电话号码重复率较低(90％以上电话)，话单中不具有相对稳定、长期通话对象(低于10％)，挂断率较高，一段时间内(每天、每周、每月)通话条数多，电话接入基站变化较少，电话活跃时间相对较规律，电话回复率较低等特征；

2、在oracle数据库中对存储的话单大数据进行过滤，对电信运营商话单大数据进行挖掘、分析，根据步骤1中特征，在用户话单大数据中提取不同号码的上述特征信息，即该电话的主叫比例，设为x₁；通话时间，设为x₂；不同通话间间隔，设为x₃；话单中被叫电话号码重复率，设为x₄，平均通话时长，设为x₅等；

3、把上述特征信息做为训练SVM分类模型的输入特征向量，在话单大数据中选取一定量已知的话单数据，训练SVM分类模型：

给定训练集(x_i,y_i)，i＝1，2，···，N，x∈Rⁿ，y∈{±1}，超平面为wx+b＝0。为使分类超平面正确分类所有样本并产生一个尽量大的分类间隔，需满足方程：

y_i[(w·x_i)+b]≥1,i＝1,2,L,N (1)

因此，分类间隔可表示为2/||w||，构造最优超平面的问题就转化为下列约束的最小值问题：

这里，引入拉格朗日函数，

公式(3)中，α_i是拉格朗日系数，且有α_i＞0。该约束优化问题由拉格朗日函数的鞍点确定，优化问题的解满足在鞍点处的偏微分为0。最后，QP(二次规划)问题转化为相应的对偶问题：

这里，满足，

通过计算，最优权值向量w^*和最佳偏置b^*分别为：

那么，最优分类平面为：

w^*·x+b^*＝0 (8)

最优分类函数为：

在这里，x∈Rⁿ。当样本非线性可分时，输入特征空间通过非线性变换变换到一个高维特征空间。为了在高维空间中寻求最佳线性分类，通过定义适当的内积函数(核函数)实现非线性变换。SVM算法可以用训练集和核函数完全描述，训练集和核函数是决定算法成败的关键。因此，将训练样本映射到其他空间，实现线性区分处理，分割效果取决于核函数的选择。不同核函数K的选择将导致完全不同的SVM算法，决定了所构建分类模型的分类性能和精度，在SVM算法中起着决定性作用。非线性SVM的最优分类函数如下：

这里，K(x·x_j)表示核函数。

4、采用该SVM分类算法模型，对话单中可能的敏感电话号码与正常号码进行区分，寻找出可疑电话。

Claims

1.一种基于SVM分类算法的话单信息中敏感电话发现方法，其特征在于，包括以下步骤：

步骤1、在话单大数据中寻找出用户话单中与一般、普通电话具有根本性差异的具有一系列敏感特征的电话号码；

步骤2、对电信运营商话单大数据进行挖掘、分析，在用户话单大数据中提取不同号码的通话记录特征信息；

步骤3、把上述特征信息做为训练SVM分类模型的特征向量，在话单大数据中选取一定量已知的话单数据，训练SVM分类模型；

步骤4、采用改SVM分类算法模型，对话单中可能的敏感电话号码与正常号码进行区分，寻找出可疑电话。