CN101902523B

CN101902523B - 一种移动终端及其短信的过滤方法

Info

Publication number: CN101902523B
Application number: CN201010225273.8A
Authority: CN
Inventors: 董昊; 查敦林; 孙知信; 朱佳佳
Original assignee: ZTE Corp
Current assignee: Global Innovation Polymerization LLC
Priority date: 2010-07-09
Filing date: 2010-07-09
Publication date: 2014-07-16
Anticipated expiration: 2030-07-09
Also published as: CN101902523A

Abstract

本发明公开了一种移动终端及其短信过滤的方法，通过采用支持向量机算法对短信进行分类，同时，还具有自反馈功能，基于已分类的短信进行简单的通讯录或黑名单匹配，对分类错误的短信进行反馈学习、更新支持向量库；如此，使得支持向量库不断完善、过滤能力不断地自行调整、并增强；由于支持向量机算法、以及通讯录或黑名单匹配的结合使用，使得本发明的方案可以针对格式各样的短信，特别地，对于那些来源即不属于黑名单、也不属于通讯录的短信进行了过滤。

Description

一种移动终端及其短信的过滤方法

技术领域

本发明涉及移动通讯领域，特别是指一种移动终端及其短信的过滤方法。

背景技术

近几年来，由于移动通信技术的快速发展，短信作为移动通信最流行的增值服务之一，在为人们提供便捷的同时，也滋生了大量以传播色情、欺诈、广告等不良信息为目的的垃圾短信。这些短信严重干扰了人们的生活，侵犯了消费者利益。垃圾短信的监管问题受到社会各界的广泛重视，除了从立法层面加强对信息发布进行监管外，更重要的是从技术层面探索对垃圾短信的防范技术。

现有技术中，垃圾短信的过滤可以分为两种：一是基于短信服务中心的过滤方式；一是基于用户移动终端的过滤方式。

传统的短信文本过滤技术主要还是停留在关键词阶段，无法通过研究文本的内容特征进行分类，从而达到识别垃圾短信的效果，因此传统的过滤技术效果不是很理想。

下面简单说明一下现有技术中基于用户移动终端的过滤方式：

一、基于关键词方案：

一种短消息过滤方法，用户在移动终端上设置过滤敏感词；移动终端接收到短消息中心发送的消息并保存在内存中；移动终端根据敏感词对短消息内容进行字符串匹配，如果有敏感词出现在短消息内容中，则丢弃该消息，并向短消息中心发送成功接收消息；如果在短消息内容中没有发现敏感词，保存该消息。该方案虽然可以有效过滤用户不想看到的短消息，防止被干扰；但是，基于关键词的过滤方法显得过于简单，效果也不是很好。该方案不具备灵活性，对于纷繁芜杂的垃圾短信应对能力有限，经常也会对正常短信造成“误伤”。

二、基于黑白名单的方案：

因为在每部移动终端上都有电话簿，而移动终端电话簿内的联系电话可以直接视为短信过滤中的白名单，这样就可以确保凡是正常的联系人短信不会被文本分类错误地过滤掉。而移动终端上一般没有黑名单列表，因此这需要专门在移动终端上建立黑名单列表，并对黑名单列表进行维护。在建立了黑名单列表后，当一条新的短消息被接收后，首先从短消息中获取短信发送方的号码，查询电话薄中是否有该号码，如果有该号码就直接把短信作为正常短信接收到收件箱；如果没有该号码，查询该电话号码是否在于黑名单列表中，如果是，就直接把短信作为垃圾短信放入垃圾箱中，从而实现短信的初级过滤。该方案具有初步的过滤能力，但对于既不是来源于黑名单也不是来源于通讯录的短信则无能为力。虽然这部分短信数量不多，但恰恰这部分短信容易给用户造成困扰和损失。

对短信进行必要的内容过滤是营造健康移动终端环境的重要环节，但综上所述，国内、外尚缺少高效、智能的短信内容过滤产品。

发明内容

有鉴于此，本发明的主要目的在于提供一种移动终端及其短信的过滤方法，以解决传统的短信过滤技术效果不是很理想的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种短信过滤方法，该方法包括：

获取接收的短信的短信样本向量；

依据所述短信样本向量对接收的短信的类型进行支持向量机（SVM）识别；

所述识别结果为垃圾短信时，对发送所述垃圾短信的移动终端号码进行通讯录匹配；若所述号码属于所述通讯录，则接收所述垃圾短信；否则，不接收所述垃圾短信；

所述识别结果为正常短信时，对发送所述正常短信的移动终端号码进行黑名单匹配；若所述号码属于所述黑名单，则不接收所述正常短信；否则，接收所述正常短信。

获取接收的短信的短信样本向量，具体为：

根据预定义的特征词库，将接收的短信文本中的非特征词剔除；

以所述特征词库为依据，采用机械分词方法中的正向最大匹配法对剔除非特征词后的短信文本进行分词处理；

对分词后的短信文本进行向量化和数字化，得到所述短信样本向量T<x1,x2,x3,...xN>，其中，2≤N≤特征词个数。

对分词后的短信文本进行向量化和数字化，具体为：

采用特征提取算法对所述短信文本进行向量化；

根据预定义的字符库，将所述短信文本中的特征词转化为对应的字符xN。

采用特征提取算法对所述短信文本进行向量化，具体为：

采用期望交叉熵法对对所述短信文本进行向量化。

对接收的短信进行SVM识别，具体为：

将所述短信样本向量T<x1,x2,x3,...xN>作为输入向量带入分类函数：将计算结果记为分量y；所述y=-1，表示接收的短信为垃圾短信；y=1，表示接收的短信为正常短信；

其中，x_i是支持向量的输入向量，1≤i≤n，n为支持向量库中支持向量的个数；y_i是支持向量的输出向量，指示x_i对应的短信的分类，y_i=1、或y_i=-1；x为所述短信样本向量T<x1,x2,x3,...xN>；α_i是SVM算法中每一个支持向量的Lagrange乘子，由算法自动生成；x_j为支持向量库中选取的任意一个支持向量的输入向量，y_j为输出向量，指示x_j对应的短信的分类，y_j=1、或y_j=-1。

所述K_mix=λK_poly+(1-λ)K_rbf；

所述

K_{rbf} (x, x_{i}) = \exp {- \frac{{| | x - x_{i} | |}^{2}}{2 σ^{2}}};

所述K_poly=((x*x_i)+1)^q；其中：q=2，λ=0.5，σ=0.3。

对接收的短信进行SVM识别后，该方法还包括：

将所述短信样本向量T<x1,x2,x3,...xN>作为输入向量，将所述分量y作为输出向量，得到一组支持向量，并存入所述支持向量库中。

对接收的短信进行SVM识别，具体为：

对获取的所述短信样本向量进行支持向量库匹配，若所述短信样本向量与支持向量库中某一组支持向量的输入向量匹配，则将所述输入向量对应的输出向量指示的分类作为所述短信的分类；否则将所述短信样本向量带入所述分类函数。

所述号码属于所述通讯录时，该方法还包括：判定所述短信的分类错误，更新所述支持向量库；

所述号码不属于所述通讯录时，该方法还包括：判定所述短信的分类正确，将发送所述垃圾短信的移动终端号码添加到所述黑名单。

所述号码属于所述黑名单时，该方法还包括：判定所述短信的分类错误，更新所述支持向量库。

本发明还提供了一种移动终端，包括：向量获取模块、SVM识别模块、和过滤模块，其中：

所述向量获取模块，用于获取接收的短信的短信样本向量；

所述SVM识别模块，依据所述短信样本向量对接收的短信的类型进行SVM识别；

所述过滤模块，用于在所述SVM识别模块的识别结果为垃圾短信时，对发送所述垃圾短信的移动终端号码进行通讯录匹配；若所述号码属于所述通讯录，则接收所述垃圾短信；否则，不接收所述垃圾短信；还用于在所述识别结果为正常短信时，对发送所述正常短信的移动终端号码进行黑名单匹配；若所述号码属于所述黑名单，则不接收所述正常短信；否则，接收所述正常短信。

所述向量获取模块包括：

文本预处理子模块，用于根据预定义的特征词库，将接收的短信文本中的非特征词剔除；

文本分词子模块，用于以所述特征词库为依据，采用机械分词方法中的正向最大匹配法对剔除非特征词后的短信文本进行分词处理；

文本向量化子模块，用于对分词后的短信文本进行向量化和数字化，得到所述短信样本向量T<x1,x2,x3,...xN>，其中，2≤N≤特征词个数。

所述SVM识别模块，还用于将所述短信样本向量T<x1,x2,x3,...xN>作为输入向量带入分类函数：将计算结果记为分量y；所述y=-1，表示接收的短信为垃圾短信；y=1，表示接收的短信为正常短信；

其中，x_i是支持向量的输入向量，1≤i≤n，n为支持向量库中支持向量的个数；y_i是支持向量的输出向量，指示x_i对应的短信的分类，y_i=1、或y_i=-1；x为所述短信样本向量T<x1,x2,x3,...xN>；α_i是SVM算法中每一个支持向量的Lagrange乘子，由算法自动生成；x_j为支持向量库中选取的任意一个支持向量的输入向量，y_j为输出向量，指示x_j对应的短信的分类，y_j=1、或y_j=-1；

所述SVM识别模块，还用于将所述短信样本向量T<x1,x2,x3,...xN>作为输入向量，将所述分量y作为输出向量，得到一组支持向量，并存入所述支持向量库中。

所述SVM识别模块，还用于对获取的所述短信样本向量进行支持向量库匹配，若所述短信样本向量与支持向量库中某一组支持向量的输入向量匹配，则将所述输入向量对应的输出向量指示的分类作为所述短信的分类；否则将所述短信样本向量带入所述分类函数。

所述过滤模块，还用于在所述号码属于所述黑名单时，判定所述短信的分类错误，并通知所述SVM识别模块更新所述支持向量库；还用于在所述号码属于所述通讯录时，判定所述短信的分类错误，并通知所述SVM识别模块更新所述支持向量库；还用于在所述号码不属于所述通讯录时，判定所述短信的分类正确，将发送所述垃圾短信的移动终端号码添加到所述黑名单。

本发明的短信的过滤方案，通过采用支持向量机算法对短信进行分类，同时，还具有自反馈功能，基于已分类的短信进行简单的通讯录或黑名单匹配，对分类错误的短信进行反馈学习、更新支持向量库；如此，使得支持向量库不断完善、过滤能力不断地自行调整、并增强；由于支持向量机算法、以及通讯录或黑名单匹配的结合使用，使得本发明的方案可以针对格式各样的短信，特别地，对于那些来源即不属于黑名单、也不属于通讯录的短信进行了过滤。

附图说明

图1为本发明短信过滤的方法流程示意图；

图2为本发明实现短信过滤的移动终端结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

本发明的核心思想是：采用支持向量机算法对短信进行分类、以及简单的通讯录或黑名单匹配查询功能来实现移动终端短信的过滤。

如图1所示，本发明短信过滤的流程包括：

首先要获取短信样本向量，如步骤101～103：

步骤101，对接收到的短信进行预处理，将短信文本中的非特征词剔除。具体的，可以预先定制一个特征词库，根据该特征词库，将短信内容中不属于该特征词库的非特征词剔除，例如标点符号等，这些内容对于文本分类的意义有限，尽早剔除对于优化后续步骤大有裨益。

例如一条短信：明天三桥广场华联超市做优惠活动，欢迎届时光临。经过剔词，得到：广场华联超市优惠活动欢迎届时光临。

步骤102，以特征词库为依据，采用机械分词方法中的正向最大匹配法对剔除非特征词后的短信文本进行分词处理。承接上述例子，对剔词得到的短信文本进行分词，得到：广场/华联超市/优惠/活动/欢迎/届时/光临。

步骤103，对分词后的短信文本进行向量化和数字化。

承接上述例子，分词后的短信文本：广场/华联超市/优惠/活动/欢迎/届时/光临中特征词过多，向量化后维数过大，由SVM理论可知，这不利于SVM算法的高效执行。为了解决该问题，本发明采用特征提取算法对短信文本进行向量化，现有的特征提取算法有：互信息、信息增益、文档频度、和期望交叉熵等，经过实践证明，期望交叉熵法效果最优；当然，其他几种方法也可以采用，只是效果较期望交叉熵法稍差。

采用期望交叉熵法对剔词、分词后的短信文本进行向量化后的形式为：

T<x1,x2,x3,...xN>、即短信样本向量，其中，2≤N≤特征词个数，经过期望交叉熵法对短信进行向量化时，可以得到一个最优的N的取值。xN为特征词的数字化结果，对特征词进行数字化时，如根据预先定义的字符库，将特征词转化为对应的字符；当然，也可以采用现有技术中其他的数据化方法，只要能对特征词进行数字化即可。

步骤104，依据短信样本向量对短信进行SVM识别。

短信经过向量化和数字化后，得到一个短信样本向量T<x1,x2,x3,...xN>（最优的），经过SVM识别后，得到与T对应的该短信的分类y，y=-1，表示垃圾短信；y=1，表示正常短信。

将短信样本向量T作为输入向量，将分量y作为输出向量，由此得到一组支持向量，记为S=（T，y），多组支持向量组成了一个支持向量库，记为S_i=(x_i，y_i)；1≤i≤n，n为支持向量库中支持向量的个数；则x_i表示支持向量的输入向量T，y_i为支持向量的输出向量，指示x_i对应的短信的分类，y_i=1、或y_i=-1。

在实际应用时，移动终端中会预先保存一个支持向量库，作为对新接收的短信进行SVM识别的根据；当然，理论上移动终端也可以不预先存储支持向量（此时移动终端在接收到短信时就无法进行SVM识别），而是在接收到了若干条短信之后，对这些短信进行SVM训练，从而得到一个支持向量库，这样，后续接收的短信就可以进行SVM识别。

根据支持向量库S_i=(x_i，y_i)，对短信进行SVM识别时，有两种方式：

方式一：将短信样本向量T<x1,x2,x3,...xN>作为输入向量带入下列分类函数，对该短信进行分类：

分类函数为：

f (x) = Σ_{i = 1}^{n} y_{i} α_{i} K_{mix} (x * x_{i}) + b^{*};

将通过分类函数得到的计算结果记为分量y，y=-1，表示垃圾短信；y=1，表示正常短信。由此便得到了一组新的支持向量，存入支持向量库中，使支持向量库处于不断地更新中。

该公式为SVM算法线性不可分情况下的分类函数；K(*)为核函数，起到维数转化的作用，从而使线性不可分情况下的问题在更高维的空间里可分。

为了适应上述SVM算法线性不可分情况下的分类函数进一步地，本发明还可以把短信样本向量T映射到一个高维特征空间H，并在此空间中运用原空间的分类函数来实现内积运算，这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属。根据泛函的有关理论，只要一种核函数满足Mercer条件，它就对应某一空间中的内积，因此只要采用适当的内积函数就可以实现这种线性不可分的分类问题。

本发明中的核函数K(*)为混合核函数，也称作高斯核函数（径向基函数（RBF））和多项式核函数的结合，其中：

高斯核函数：

K_{rbf} (x, x_{i}) = \exp {- \frac{{| | x - x_{i} | |}^{2}}{2 σ^{2}}};

多项式核函数：K_poly=((x*x_i)+1)^q。

则混合核函数为：K_mix=λK_poly+(1-λ)K_rbf，其中：q=2，λ=0.5，σ=0.3。

方式二：对短信样本向量T<x1,x2,x3,...xN>进行支持向量库匹配，如果当前的短信样本向量T<x1,x2,x3,...xN>与支持向量库S_i=(x_i，y_i)中某一组支持向量的输入向量匹配、即一致，则该组支持向量中y_i的值就指示了当前短信的类型；否则采用方式一进行SVM识别。

步骤105，如果进行SVM识别的结果为y=1，则表示当前短信为正常短信。抽取该短信的移动终端号码，进行黑名单匹配；若属于黑名单，则为错分短信，然后进行反馈学习、即更新支持向量库，移动终端不接收该短信；若不属于黑名单，则正常接收之，此时，是否将该号码添加入通讯录有用户决定。

步骤106，如果进行SVM识别的结果为y=-1，则表示当前短信为垃圾短信。抽取该短信的移动终端号码，进行通讯录匹配；若属于通讯录，则为错分短信，然后进行反馈学习、更新支持向量库，移动终端接收该短信；若不属于通讯录，则抛弃该短信，并将其移动终端号码添加到黑名单。

通过上述方法可知，本发明通过对已分类的短信进行简单的通讯录或黑名单匹配来确认分类是否正确，并基于分类错误的短信进行反馈学习、即更新支持向量库，由此使得支持向量库不断完善、过滤功能不断地自行调整、并增强；同时，对于那些来源即不属于黑名单、也不属于通讯录的短信进行了过滤。

为了实现上述方法，本发明提供了一种移动终端，如图2所示包括：向量获取模块、SVM识别模块、和过滤模块，其中：

向量获取模块，用于获取接收的短信的短信样本向量；

SVM识别模块，依据短信样本向量对接收的短信的类型进行SVM识别；

过滤模块，用于在SVM识别模块的识别结果为垃圾短信时，对发送垃圾短信的移动终端号码进行通讯录匹配；若号码属于通讯录，则接收垃圾短信；否则，不接收垃圾短信；还用于在识别结果为正常短信时，对发送正常短信的移动终端号码进行黑名单匹配；若号码属于黑名单，则不接收正常短信；否则，接收正常短信。

向量获取模块包括：

文本分词子模块，用于以特征词库为依据，采用机械分词方法中的正向最大匹配法对剔除非特征词后的短信文本进行分词处理；

文本向量化子模块，用于对分词后的短信文本进行向量化和数字化，得到短信样本向量T<x1,x2,x3,...xN>，其中，2≤N≤特征词个数。

SVM识别模块，还用于将短信样本向量T<x1,x2,x3,...xN>作为输入向量带入分类函数：将计算结果记为分量y；y=-1，表示接收的短信为垃圾短信；y=1，表示接收的短信为正常短信；

SVM识别模块，还用于将短信样本向量T<x1,x2,x3,...xN>作为输入向量，将所述分量y作为输出向量，得到一组支持向量，并存入所述支持向量库中。

SVM识别模块，还用于对获取的短信样本向量进行支持向量库匹配，若支持向量库中存在与获取的短信样本向量匹配的短信样本向量，则使用匹配的短信样本向量对应的y值标记接收的短信的类型；否则，将获取的短信样本向量带入分类函数。

过滤模块，还用于在号码属于黑名单时，判定短信的分类错误，并通知SVM识别模块更新支持向量库；还用于在号码属于通讯录时，判定短信的分类错误，并通知SVM识别模块更新支持向量库；还用于在号码不属于通讯录时，判定短信的分类正确，将发送垃圾短信的移动终端号码添加到黑名单。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种短信过滤方法，其特征在于，该方法包括：

获取接收的短信的短信样本向量，采用期望交叉熵法对剔词、分词后的短信文本进行向量化后的形式为：T<x1,x2,x3,...xN>，其中，2≤N≤特征词个数，xN为根据预定义的字符库，将所述短信文本中的特征词转化为对应的字符的结果；

所述识别结果为垃圾短信时，对发送所述垃圾短信的移动终端号码进行通讯录匹配；若所述号码属于所述通讯录，则接收所述垃圾短信，判定所述短信的分类错误，更新支持向量库；否则，不接收所述垃圾短信；

所述识别结果为正常短信时，对发送所述正常短信的移动终端号码进行黑名单匹配；若所述号码属于所述黑名单，则不接收所述正常短信，判定所述短信的分类错误，更新所述支持向量库；否则，接收所述正常短信。

2.根据权利要求1所述短信过滤方法，其特征在于，获取接收的短信的短信样本向量，具体为：

以所述特征词库为依据，采用机械分词方法中的正向最大匹配法对剔除非特征词后的短信文本进行分词处理。

3.根据权利要求1所述短信过滤方法，其特征在于，对接收的短信进行SVM识别，具体为：

其中，K_mix(x*x_i)为混合核函数，x_i是支持向量的输入向量，1≤i≤n，n为支持向量库中支持向量的个数；y_i是支持向量的输出向量，指示x_i对应的短信的分类，y_i=1或y_i=-1；x为所述短信样本向量T<x1,x2,x3,...xN>；α_i是SVM算法中每一个支持向量的Lagrange乘子，由算法自动生成；x_j为支持向量库中选取的任意一个支持向量的输入向量，y_j为输出向量，指示x_j对应的短信的分类，y_j=1或y_j=-1。

4.根据权利要求3所述短信过滤方法，其特征在于，对接收的短信进行SVM识别后，该方法还包括：

5.根据权利要求4所述短信过滤方法，其特征在于，对接收的短信进行SVM识别，具体为：

6.根据权利要求5所述短信过滤方法，其特征在于，

所述识别结果为垃圾短信且所述号码不属于所述通讯录时，该方法还包括：判定所述短信的分类正确，将发送所述垃圾短信的移动终端号码添加到所述黑名单。

7.一种移动终端，其特征在于，包括：向量获取模块、SVM识别模块和过滤模块，其中：

所述向量获取模块，用于获取接收的短信的短信样本向量，采用期望交叉熵法对剔词、分词后的短信文本进行向量化后的形式为：T<x1,x2,x3,...xN>，其中，2≤N≤特征词个数，xN为根据预定义的字符库，将所述短信文本中的特征词转化为对应的字符的结果；

所述过滤模块，用于在所述SVM识别模块的识别结果为垃圾短信时，对发送所述垃圾短信的移动终端号码进行通讯录匹配；若所述号码属于所述通讯录，则接收所述垃圾短信，判定所述短信的分类错误，更新支持向量库；否则，不接收所述垃圾短信；还用于在所述识别结果为正常短信时，对发送所述正常短信的移动终端号码进行黑名单匹配；若所述号码属于所述黑名单，则不接收所述正常短信，判定所述短信的分类错误，更新所述支持向量库；否则，接收所述正常短信。

8.根据权利要求7所述移动终端，其特征在于，所述向量获取模块包括：

9.根据权利要求7或8所述移动终端，其特征在于，

其中，K_mix(x*x_i)为混合核函数，x_i是支持向量的输入向量，1≤i≤n，n为支持向量库中支持向量的个数；y_i是支持向量的输出向量，指示x_i对应的短信的分类，y_i=1或y_i=-1；x为所述短信样本向量T<x1,x2,x3,...xN>；α_i是SVM算法中每一个支持向量的Lagrange乘子，由算法自动生成；x_j为支持向量库中选取的任意一个支持向量的输入向量，y_j为输出向量，指示x_j对应的短信的分类，y_j=1或y_j=-1；

10.根据权利要求9所述移动终端，其特征在于，所述SVM识别模块，还用于对获取的所述短信样本向量进行支持向量库匹配，若所述短信样本向量与支持向量库中某一组支持向量的输入向量匹配，则将所述输入向量对应的输出向量指示的分类作为所述短信的分类；否则将所述短信样本向量带入所述分类函数。

11.根据权利要求10所述移动终端，其特征在于，

所述过滤模块，还用于在识别结果为垃圾短信且所述号码不属于所述通讯录时，判定所述短信的分类正确，将发送所述垃圾短信的移动终端号码添加到所述黑名单。