CN101516071B

CN101516071B - 垃圾短消息的分类方法

Info

Publication number: CN101516071B
Application number: CN200810069369.2A
Authority: CN
Inventors: 秦大斌; 刘瑛; 杜燕春; 谢志远; 袁锐; 刘建胜; 唐兵; 何蔓微; 佘安娅
Original assignee: China Mobile Group Chongqing Co Ltd
Current assignee: China Mobile Group Chongqing Co Ltd
Priority date: 2008-02-18
Filing date: 2008-02-18
Publication date: 2013-01-23
Anticipated expiration: 2028-02-18
Also published as: CN101516071A

Abstract

本发明提出了一种垃圾短消息的分类方法，能够应用支持矢量机(SVM)和人工神经网络(ANN)对自学习，并通过有效算法SVM分类器和ANN分类器这两种分类器有机的结合起来。该算法为：将分类样本发送到人工神经网络分类器，并将人工神经网络分类器的输出值M进行排序；如果输出值M的最大值大于预设定值r，则该最大值对应的分类即为该短消息的分类，否则所述输出值M是否小于等于预定值s，如果是则将该分类样本归入拒识类；如果M在r和s之间则利用先前的训练结果再使用支持矢量机分类器进行分类。本发明能够在容许的拒识率下，对垃圾短信的分类效果更好。

Description

垃圾短消息的分类方法

技术领域

本发明涉及一种移动通信技术领域，特别涉及一种垃圾短消息的分类方法。

背景技术

随着短消息业务的快速发展，垃圾短消息的问题也日益泛滥。垃圾短消息中的广告短消息不但影响了客户感知、损害客户利益，而且部分违法的垃圾信息还影响了社会稳定和国家安全。因此对垃圾短消息智能识别分类和拦截的研究成了目前移动运营商重要的课题。

目前对垃圾信息的识别和治理方式是：先通过过滤系统对每一短消息进行粗略筛选，然后将过滤后的可疑信息交由人工判定作为精确筛选。粗略筛选时是由垃圾信息过滤系统对某一节点的发送流量和每一短消息的关键字等条件进行分析。这种过滤方式存在以下问题：

(1)分类效果不明显。由于没有从短消息的语义入手提取特征，往往采用关键词、流量、号码等个别的、不全面的特征，因此造成漏屏蔽、误拦截严重的问题；

(2)目前实时拦截主要靠人工判断处理，分类及时性差、效率低，并且不能实时分析和处理垃圾短信，客户感知不高。

使用过滤系统粗略筛选时，主要通过关键词筛选或是号码筛选。关键词筛选是判断短消息中是否有预先设定的关键词；号码筛选是根据主叫号码、被叫号码，如果有5位的数字号码是连续的，则认为是群发的垃圾短消息。由于这两者方法是单独使用，因此，都同样存在着分类不够精确、及时性差等问题。

发明内容

针对现有技术中的上述缺陷和问题，本发明的目的是提出一种垃圾短消息的分类方法，能够应用支持矢量机(SVM)和人工神经网络(ANN)自学习，在使用本发明提出的方法生成的本类样本进行过滤时，比现有的过滤系统的过滤效果明显提高，同时又比人工判定效率明显提高。

为了达到上述目的，本发明提出了一种垃圾短消息的分类方法中分类样本的生成方法，包括：

步骤1、根据垃圾短信息的原始特征生成特征向量，所述原始特征至少包括垃圾短信息的关键词；

步骤2、将所述特征向量作为输入向量，输入人工神经网络进行训练，得到训练结果1；将所述特征向量作为输入向量，输入支持矢量机进行训练，得到训练结果2；将所述特征向量作为输入向量，输入人工神经网络进行分类，得到分类结果，并将该分类结果输入人工神经网络进行训练，得到训练结果3；

步骤3、将分类样本发送到人工神经网络分类器，并将人工神经网络分类器的输出值M进行排序；如果输出值M的最大值大于预设定值r，则该最大值对应的分类即为该短消息的分类，步骤结束；如果输入值M的最大值不大于所设定的阈值r，则进入步骤4；

步骤4、判断所述输出值M是否小于等于预定值s，如果是则将该分类样本归入拒识类，步骤结束；否则进入步骤5；

步骤5、将分类样本分别发送到生成训练结果2和生成训练结果3的支持矢量机分类器进行分类，如果两分类器的结果一致，则该分类结果即为该分类样本对应的类别，否则将该分类样本归入拒识类，步骤结束。

作为上述技术方案的优选，所述人工神经网络为BP神经网络。

作为上述技术方案的优选，所述步骤1中，所述原始特征还包括呼入号码、呼出号码、高度敏感关键词库。

作为上述技术方案的优选，所述步骤1具体为：

步骤11、对垃圾短消息进行分类，并根据分类生成一个或一个以上关键词库，并为每一关键词设定一权值，以得到一矩阵，所述矩阵每一行对应一关键词库，其每行中的每一列对应该关键词库中的一关键词的权值；

步骤12、根据主叫号码、被叫号码特性形成一向量；

步骤13、形成高度敏感关键词库，并根据该高度敏感关键词库形成一向量；

步骤14、根据步骤11～13的原始特征所得生成一特征向量。

本发明提出的垃圾短信息的分类方法，将SVM和BP神经网络的优势通过有效的算法结合起来，在容许的拒识率下达到对短消息的更好的分类。同时，还可以使用SVM和BP神经网络进行自学习。

本发明的效果是：

(1)通过对垃圾信息语义和结构的分析，提取了垃圾信息的内容和号码特征，采用时间序列理论，多角度重构了多组特征。

(2)融合SVM、子空间和神经网络等先进的模式识别技术，形成多层次、交叉学习、并行学习的自动学习架构。采用多分类器集成，对垃圾信息进行识别和分类(政治、涉黄、违法犯罪、SP诱骗、商业信息等)，大大提高识别准确率，减少漏判误判。

(3)采用了实时处理技术，能实时分析和处理垃圾信息。

附图说明

图1为BP神经网络的结构示意图；

图2为本发明优选实施例中利用BP神经网络和支持矢量机自学习的流程示意图；

图3为本发明的原理图。

具体实施方式

下面结合附图对本发明做进一步说明。

本发明的设计思想如图3所示，是把垃圾系统的处理分成了学习模块、分类识别模块。根据以前垃圾信息治理的经验，输入垃圾短信分类样本，对取得的样本进行特征提取，对特征进行学习，取得分类经验；按照经验进行垃圾信息辨别和分类。同时，通过与短信中心或信令设备等网元建立连接，取得新的数据样本进行样本库的完善。在学习模块中采用BP神经网络和支持矢量机(Support Vector Machine，以下简称SVM)。

BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。

支持矢量机(SVM)是近年机器学习、识别方面公认比较好的算法。在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。因此很适合垃圾短信内容隐蔽、变化快的特点。SVM根据结构风险最小化准则，在使训练样本分类误差极小化的前提下，尽量提高分类器的泛化推广能力，它能保证得到的解为全局最优解。相应的判别函数也应变为：

f (x) = sgn {Σ_{i = 1}^{n} ai * yik (xi \cdot x) + b *} .

支持矢量机的基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。常用的核函数有：

线性内积函数K(x，y)＝x·y；

多项式内积函数K(x，y)＝[(x·y)+1]d；

径向基内积函数K(x，y)＝exp{-|x-y|2/σ2}；

二层神经网络内积函数K(x，y)＝tanh(k(x·y)+c)。

本发明提出的垃圾短消息的分类方法中分类样本的生成方法包括：

步骤A、对短信样本进行分析，并将垃圾短消息分为六大类，即：政治、涉黄、违法犯罪、SP诱骗、商业信息；并根据这六大类建立关键词库；

步骤B、在关键词库中，将每一关键词按照出现的几率排序，并为每一关键词设置一权值；这样就得到一个短消息到权值矩阵Q的一个对应关系Q＝(qi，j)：权值矩阵是一个6行3200列的矩阵；该权值可以为0～1之间的数字，例如“中奖”这个关键词，在“违法犯罪”关键词库中的权值为0.6；

步骤C、根据主叫号码、被叫号码连续超过5位的数字号码，并根据这些号码的特性(比如省内、省外、连号、外网等)形成一个固定维数为30的向量；其中1到10维表示连号；11到12表示省内、省外；其他表示外网；当然该向量的维数可以根据具体需要进行

步骤D、对某些严重违反法律的词语建立高度敏感词库，形成一个400维的向量；每个位置也是由0或1形成；

步骤E、利用步骤A～步骤E所得原始特征，形成3631维的特征向量；其中第1到第30维表示步骤C的号码特征；第31到第3231维表示步骤B的关键词特征；3231到3631表示步骤D的严重违法关键词特征；

步骤F、将上述特征向量作为输入向量输入BP神经网络进行训练，得到训练结果1；将该原始特征输入支持矢量机进行训练，得到训练结果2；

步骤G、将上述原始特征输入BP神经网络进行分类得到6维类别概率信息，并将该6维类别概率信息输入支持矢量机进行训练，得到训练结果3；

步骤H、将该6维类别概率信息作为分类样本，并将该分类样本发送到BP神经网络分类器，如果BP神经网络分类器，并将BP神经网络分类器的输出值M进行排序；如果输出值M的最大值大于预设定值r，则该最大值对应的分类即为该短消息的分类，步骤结束；如果输入值M的最大值不大于预设定值r，则进入步骤I；

步骤I、判断所述输出值M是否小于等于预定值s，如果是则将该分类样本归入拒识类，步骤结束；否则进入步骤J；

步骤J、将分类样本分别发送到生成训练结果2和生成训练结果3的支持矢量机分类器进行分类，如果两分类器的结果一致，则该分类结果即为该分类样本对应的类别，否则将该分类样本归入拒识类，步骤结束。

其中，步骤A到步骤G是采用了BP神经网络和支撑矢量机对以上特征进行学习。

其中，BP神经网络的隐含层函数采用

F (x) = \frac{1 - e^{- 2 x}}{1 + e^{- 2 x}};

输出层采用恒等函数。设m，n，h分别表示输入节点数、输出层神经元数和隐层神经元数，隐层神经元数我们采用

h = {(m \times n)}^{\frac{1}{2}}

经验公式。本发明中输入向量是3631维，输出是6维。因此隐层神经元数据选择了153。在具体的应用中，BP算法充分利用了特征向量矩阵的稀疏性，使得训练的时间复杂度大大低于MATLAB7.0。

如图2所示，BP神经网络首先对原始特征进行训练，训练完成后，得到训练结果。最后，利用该网络，对同样的训练样本进行分类，得到中间特征。

其中支持矢量机(SVM)选择了C-SVC的RBF径向基内积函数。

如图2所示，支撑矢量机要分别完成原始特征、中间特征的训练，得到两个训练结果，供分类使用。

步骤G到步骤J为采用分类器对分类样本进行分类，在分类时将BP神经网络分类器和SVM分类器结合起来。由于BP神经网络在拒识加大的情况下，推广性能会越来越高；SVM对样本分类，在不考虑拒识的情形下，其性能一般优于BP神经网络。通过步骤G到步骤J的有效算法将这两种分类器有机的结合起来，达到容许的拒识率下，垃圾短信的分类效果更好的目的。

应用本发明的方法与现有的技术相比：

识别方式

学习样本的正确率

学习样本的误识率

学习样本的拒识率

测试样本的正确率

测试样本的误识率

测试样本的拒识率

本发明方式

99.86％

0.10％

0.04％

97.40％

2.10％

0.50％

语义特征+BP网

93.23％

5.20％

1.57％

89.50％

8.70％

1.80％

络语义特征+SVM

98.10％

1.90％

0.00％

88.20％

11.80％

0.00％

号码特征+严重关键词+BP神经网络

90.50％

7.30％

2.20％

83.10％

10.20％

6.70％

号码特征+严重关键词+SVM

92.60％

7.40％

0.00％

89.50％

10.50％

0.00％

表1几种不同特征和识别方式的比较

从表1的实验数据看出，SVM在没有拒识率的情况下，对样本的分类效果比较明显，但推广能力不稳定。采取目前现有技术中单纯用语义特征或号码特征进行垃圾短信的分类，效果也不如本发明提出的方法。从对垃圾短信智能分析和治理的需求来看，本发明提出的方法是最具有实用价值的。

本文参考文献包括：

[1]Sebastiani F.Machine learning in automated text categorization.ACM Computing Surveys，2002，34(1)：1□47(萨巴斯蒂尼F著：自动文本分类的机器学习，ACM计算测量，2002，34(1)：1-47)。

[2]Bigi B.Using Kullback-Leibler distance for text categorization.In：Sebastiani F，ed.Proc.of the 25th European Conf.on InformationRetrieval(ECIR-03).Pisa：Springer-Verlag，2003.305□319.(Bigi B.基于Kullback-Leibler信息距离的文本分类，萨巴斯蒂尼F等在第二十五届欧洲信息检索会议(ECIR-03)，比萨：施普林格，2003.305□319.)

[3]LiF，Yang Y.A loss function analysis for classification methodsin text categorization.In：Fawcett T，Mishra N，eds.Proc.of the ICML2003.Washington：AAAI Press，2003.472□479.(Li F，Yang Y.著：在文本分类的错过功能分析的分类方法，Fawcett T，Mishra N，eds.Proc.of theICML 2003，华盛顿AAAI印刷，2003.472□479.)

[4]http://www.nlplab.com/chinese/source.htm

[5]加卢什金[俄]《神经网络理论》清华大学出版社ISBN：7302058562002-12-01

[6]Lanckriet G，Cristianini N，BartlettP，et al.Learning the KernelMatrix with Semidefinite Programming[J].J Mach Learn Res，2004，(5)：27-72.(Lanckriet G，Cristianini N，Bartlett P等人著：利用自动化程序学习内核矩阵，J Mach Learn Res，2004，(5)：27-72.)

[7]Amari S，Wu S.Improving Support Vector Machine Classifiers byModifying Kernel Functions[J].Neural Networks，1999，12(6)：783-789.(Amari S，Wu S.著：通过修改内核功能提高支持矢量机分类，Neural Networks，1999，12(6)：783-789.，)

[8]Smits G，Jordan E.Improved SVM Regression Using Mixtures ofKernels[C]//IJCNN.Honolulu：IEEE Press，2002：2785-2790.(Smits G，Jordan E.著：利用内核的混合改良SVM衰退，//IJCNN.Honolulu：IEEE印刷，2002：2785-2790.)

当然，采用上述优选技术方案只是为了便于理解而对本发明进行的举例说明，本发明还可有其他实施例，本发明的保护范围并不限于此。在不背离本发明精神及其实质的情况下，所属技术领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种垃圾短消息的分类方法，包括：

步骤2、将所述特征向量作为输入向量，输入人工神经网络进行训练，得到训练结果1；将所述特征向量作为输入向量，输入支持矢量机进行训练，得到训练结果2；将所述特征向量作为输入向量，输入人工神经网络进行分类，得到分类结果，并将该分类结果输入支持矢量机进行训练，得到训练结果3；

步骤3、将分类结果作为分类样本发送到人工神经网络分类器，并将人工神经网络分类器的输出值M进行排序；如果输出值M的最大值大于与设定值r，则该最大值对应的分类即为该短消息的分类，步骤结束；如果输入值M的最大值不大于所设定的阈值r，则进入步骤4；

2.根据权利要求1所述的垃圾短消息的分类方法，其特征在于，所述人工神经网络为BP神经网络。

3.根据权利要求2所述的垃圾短消息的分类方法，其特征在于，所述步骤1中，所述原始特征还包括呼入号码、呼出号码、高度敏感关键词库。

4.根据权利要求3所述的垃圾短消息的分类方法，其特征在于，所述步骤1具体为：

步骤12、根据主叫号码、被叫号码特性形成一向量；

步骤14、根据步骤11~13的原始特征所得生成一特征向量。