CN101184259A

CN101184259A - 垃圾短信中的关键词自动学习及更新方法

Info

Publication number: CN101184259A
Application number: CNA2007101564745A
Authority: CN
Inventors: 徐从富; 刘菊新
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-11-01
Filing date: 2007-11-01
Publication date: 2008-05-21
Anticipated expiration: 2027-11-01
Also published as: CN101184259B

Abstract

本发明公开了一种垃圾短信中的关键词自动学习及更新方法，其步骤为：(1)在线过滤系统根据黑白名单和短信特征进行过滤(2)离线系统对一定周期内的实时短信进行短信文本预处理，并将其转化为短语向量；(3)采用支持向量机(SVM)对短信向量进行高准确率的离线分类；(4)针对分类结果，对特征进行统计分析，选择关键词并计算概率信息；(5)通过接口将结果反馈给垃圾短信在线过滤系统。本发明可根据垃圾短信的不断变化自动学习关键词，在此基础上，实时更新关键词列表，以达到自适应过滤垃圾短信的目的。

Description

垃圾短信中的关键词自动学习及更新方法

技术领域

本发明涉及垃圾短信过滤方法，尤其涉及一种垃圾短信中的关键词自动学习及更新方法。

背景技术

在传统的垃圾短信在线过滤系统中，其关键词由人工设置和添加，且一旦设置了关键词后即固定不变。然而，随着移动通信运营商对垃圾短信打击力度的不断加强，垃圾短信发送者也在不断地改变垃圾短信的内容(主要是关键词)及发送特征(如发送频率、短信长度等)，因此，为适应这种变化，必须提高垃圾短信过滤系统的自适应性和智能化水平。

发明内容

本发明的目的是提供一种垃圾短信中的关键词自动学习及更新方法。

垃圾短信中的关键词自动学习及更新方法包括如下步骤：

1)在线过滤系统根据黑白名单和短信特征进行过滤；

2)对实时短信进行短信文本预处理，并将其转化为短语向量；

3)采用支持向量机对短信进行高准确率的离线分类；

4)针对分类结果，对特征进行统计分析，选择关键词并计算概率信息；

5)通过接口将结果反馈给垃圾短信实时过滤系统。

所述的在线过滤系统根据黑白名单和短信特征进行过滤：短信首先进入白名单模块，若属白名单则直接放行；否则，进入黑名单模块，若属黑名单则拒绝该主叫号码，若不属黑名单，则根据短信特征判断是否是垃圾短信。

所述的对实时短信进行短信文本预处理，并将其转化为短语向量：对短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量预处理，以剔除短信文本，即由字、词、数字、标点符号构成的文字串中所有与分类任务无关的内容，并将文本转化为由其包含的基本语义单位组成的短语向量。

所述的采用支持向量机对短信进行高准确率的离线分类：利用LibSVM工具包中的训练程序对训练样本进行训练，得到一个支持向量机模型，然后利用LibSVM工具包中的预测程序和训练得到的模型对短信进行分类。

所述的针对分类结果，对特征进行统计分析，选择关键词并计算概率信息：在分类结果中，对所有特征计算其信息增益，选择计算值较大的一些词作为关键词，并对选择的关键词分别计算在正常短信和垃圾短信中的概率信息。

所述的通过接口将结果反馈给垃圾短信实时过滤系统：通过配置文件定义关键词的信息格式，离线系统通过配置文件把分析结果及时反馈给在线过滤系统。

本发明具有的有益效果：

1)提出一种基于支持向量机(SVM)增量算法的离线短信分类方法，充分利用SVM单模型分类准确率最高的优点，大幅度提高短信关键词统计和分析的准确性；

2)提出一种关键词自动学习和更新方法，可有效解决短信在线过滤系统对垃圾短信发送特征和内容不断变化的适应性问题。

附图说明

图1是在线过滤系统和离线系统实现的流程图；

图2是短信预处理的流程图；

图3是SVM分类器的训练流程图；

图4是SVM分类器的分类流程图。

具体实施方式

本发明的原理如下：

1)在预处理阶段，对一定周期内的实时短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量等预处理，以剔除短信文本(即由字、词、数字、标点符号等构成的文字串)中所有与分类任务无关的内容，并将文本转化为由其包含的基本语义单位组成的短语向量。

2)在模型层面，利用SVM进行训练和分类。通过训练得到一个SVM模型，找到分类超平面，即垃圾短信和正常短信之间的分类超平面。

3)在实际中，垃圾短信一般具有发送频率高、包含回复电话、长度较长等行为特征，而在正常短信中出现这些特征的概率较小，故在短信向量中增加了这些行为特征向量，以提高短信分类的准确率。

4)在关键词选择时，采用了信息增益方法，即选择出能对整个分类提供最大信息量的关键词用于垃圾短信的在线过滤，以减少特征的维数，提高在线分类器的效率和推广能力。

垃圾短信中的关键词自动学习及更新方法的步骤如下：

1)在线过滤系统首先根据黑白名单进行过滤，黑白名单过滤可以对一些特殊号码发出的短信直接进行拦截/放行操作，以节约处理时间和系统资源。白名单模块和黑名单模块均维护一个独立的主叫号码列表。白名单模块中的主叫号码(即白名单)主要包括一些大客户或特殊客户等信息，该列表通常由操作员手工维护，黑名单则主要由系统自动添加，黑名单存在失效期，一段时间内无垃圾短信发送记录的主叫号码可自动从黑名单中去除，操作员亦可根据实际情况维护黑名单。短信首先进入白名单模块，若属白名单则直接放行；否则，进入黑名单模块，若属黑名单则拒绝该主叫号码，若不属黑名单，则综合评价函数根据短信特征(包括反馈过来的关键词信息和发送频率、是否包含回复电话、短信长度等行为特征)判断是否是垃圾短信，综合评价函数采用朴素贝叶斯方法，充分发挥分类器速度快的特点，适应短信实时过滤的低延时要求。朴素贝叶斯分类器根据类别的先验概率和各个特征的类条件概率来计算为垃圾短信和正常短信的概率值，给出判定结果。

详细的流程图如图1所示。

2)离线系统对短信进行分类训练之前，需要对文本进行预处理，使文本更适合后续分析的需要。文本预处理的主要任务是对进入分类器的短信进行前期处理，即剔除所有与分类任务无关的内容，并将文本(即由字、词、数字、标点符号等构成的文字串)转化为由其包含的基本语义单位组成的表列。进行短信清洗、自动分词、词性标注、去除停用词、特征项提取、特征项权重计算和生成短信向量等步骤，经预处理后，可获得一系列待分类的短信向量。

a)可采用已有的开源分词系统对短信进行分词，完成对短信清洗、去除停用词、自动分词、词性标注，把连续字符分成一个个单独的有意义的词汇，然后将词汇作为短信的特征。目前国内主要的分词系统有：中科院ICTCLAS分词程序、哈工大分词程序、北大天网分词程序。

以北大天网分词程序为例，将程序的源代码下载之后进行编译得到可执行程序，把需要进行分词的文件作为输入给程序就可以得到经过分词的文件。

b)将短信映射成向量。首先，统计短信数据集中所有的词汇及其出现的频率；然后，以此为基础建立一个词汇索引表；同时，把行为特征发送频率、是否包含回复电话、短信长度也放入词汇索引表中。

c)建立词汇索引表之后，分别扫描每条短信，并统计每条短信中包含的词频，然后，将每条短信映射成一个文本向量，其计算方法可采用如下的TF-IDF公式：

a_{ij} = \frac{{tf}_{ij} \cdot \log \frac{| D |}{D F_{i}}}{\sqrt{\underset{k}{Σ} {({tf}_{kj} \cdot \log \frac{| D |}{D F_{k}})}^{2}}}

其中，tf_ij是词i在短信j中的词频，|D|是训练数据集中的短信数量，DF_i是含有词i的短信数量。

详细的流程图如图2所示。

3)步骤2)已将训练数据集映射到向量空间模型，本发明不采取任何降维措施，因为实践表明降维会降低分类的准确率。对于已映射为向量的短信，只需利用LibSVM工具包中的svm-train子程序即可由现有的训练数据集获得一个SVM分类器模型。SVM分类器的训练流程如图3所示。

4)对新的分类短信，经过步骤2)，把需要分类的短信映射成文本向量；然后，利用LibSVM工具包中的svm-predict，把新的文本向量和步骤2)中获得的分类器模型作为参数输入，并选择支持向量回归(SVR)选项进行预测，得到分类结果。SVM分类器的分类流程如图4所示。

5)对分类结果计算词的信息增益，选择值最大的一些词作为关键词。词的信息增益计算公式如下：

G (t) = P (t) ΣP (c_{i} | t) \log \frac{P (c_{i} | t)}{P (c_{i})} + P (\overset{&OverBar;}{t}) ΣP (c_{i} | \overset{&OverBar;}{t}) \log \frac{P (c_{i} | \overset{&OverBar;}{t})}{P (c_{i})}

其中，p(t)是t出现的概率，p(c_i)是第i个目录的概率，p(c_i|t)是t出现时取第i个目录的概率，

是t不出现的概率，

是t不出现时取第i个目录的概率。

6)对选择的关键词计算概率信息p(x_k/c_i)，为避免式中p(x_k/c_i)等于0，可采用拉普拉斯概率估计：

p (c_{i}) = \frac{T (c_{i})}{T}

p (x_{k} / c_{i}) = \frac{1 + TF (x_{k} / v_{i})}{| D | + Σ_{k = 1}^{| D |} TF (x_{k} / c_{i})}

其中，T表示训练样本总数，T(c)表示类c_i中的训练样本数，|D|表示属性空间的维数，即特征词表中总单词数，TF(x/c)表示x_k(即某一特征词)在类c_i的所有文档中出现的频率之和。

7)离线系统通过接口把统计分析结果反馈给在线过滤子系统，接口定义为配置文件。在配置文件记录每个词在正常短信和垃圾短信中的概率，在线过滤子系统根据这些信息及其它行为特征计算分类结果。如图1所示。

Claims

1.一种垃圾短信中的关键词自动学习及更新方法，其特征在于包括如下步骤：

1)在线过滤系统根据黑白名单和短信特征进行过滤；

2)离线系统对一定周期内的实时短信进行短信文本预处理，并将其转化为短语向量；

3)采用支持向量机对短信向量进行高准确率的离线分类；

5)通过接口将结果反馈给垃圾短信在线过滤系统，实现关键词的更新。

2.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法，其特征在于所述的在线过滤系统根据黑白名单和短信特征进行过滤：短信首先进入白名单模块，若属白名单则直接放行；否则，进入黑名单模块，若属黑名单则拒绝该主叫号码，若不属黑名单，则根据短信特征判断是否是垃圾短信。

3.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法，其特征在于所述的对实时短信进行短信文本预处理，并将其转化为短语向量：对短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量预处理，以剔除短信文本，即由字、词、数字、标点符号构成的文字串中所有与分类任务无关的内容，并将文本转化为由其包含的基本语义单位组成的短语向量。

4.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法，其特征在于所述的采用支持向量机对短信进行高准确率的离线分类：利用LibSVM工具包中的训练程序对训练样本进行训练，得到一个支持向量机模型，然后利用LibSVM工具包中的预测程序和训练得到的模型对短信进行分类。

5.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法，其特征在于所述的针对分类结果，对特征进行统计分析，选择关键词并计算概率信息：在分类结果中，对所有特征计算其信息增益，选择计算值较大的一些词作为关键词，并对选择的关键词分别计算在正常短信和垃圾短信中的概率信息。

6.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法，其特征在于所述的通过接口将结果反馈给垃圾短信实时过滤系统：通过配置文件定义关键词的信息格式，离线系统通过配置文件把分析结果及时反馈给在线过滤系统。