CN103067896A

CN103067896A - 垃圾短信过滤方法及装置

Info

Publication number: CN103067896A
Application number: CN201310018709XA
Authority: CN
Inventors: 张尼; 张云勇; 刘明辉; 伍铭坚; 易阳锋; 欧阳秀平
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2013-01-17
Filing date: 2013-01-17
Publication date: 2013-04-24
Anticipated expiration: 2033-01-17
Also published as: CN103067896B

Abstract

本发明提供一种垃圾短信过滤方法及装置，方法包括：获取短信息；确定所述短信息的至少两种特征信息的可疑度；根据所述至少两种特征信息的可疑度以及每种所述特征信息对应的权值，确定所述短信息的可疑度阀值；若所述短信息的所述可疑度阀值大于设定阈值，则对所述短信息进行过滤。本发明实施例有效解决了由于非法用户降低发送频次或变换关键字而无法拦截垃圾短信息，拦截的准确率低的问题。

Description

垃圾短信过滤方法及装置

技术领域

本发明涉及信息技术，尤其涉及一种垃圾短信过滤方法及装置。

背景技术

短信息业务是移动通信领域的一个成功典范，简单、易用、廉价、开放的设计理念使其成为当今最重要的通信方式。然而，短信息业务在给人们提供便捷通信手段的同时，也导致手机间的垃圾短信息泛滥成灾。

目前，对垃圾短信息的监控和拦截主要是在短信息中心、互通网关、高级/低级信令转接点(High/Low Signal Transfer Point,HSTP/LSTP)等关键网元节点上建立垃圾短信息监控系统。

现有技术中，根据短信息的关键字和发送频次对短信息进行过滤和拦截。然而，这种方法可能由于非法用户降低发送频次或变换关键字而无法拦截垃圾短信息，拦截的准确率低。

发明内容

本发明提供一种垃圾短信过滤方法及装置，用以解决现有垃圾短信息的监控和拦截方法由于非法用户降低发送频次或变换关键字而无法拦截垃圾短信息，拦截的准确率低的问题。

一方面，本发明实施例提供一种垃圾短信过滤方法，包括：

获取短信息；

确定所述短信息的至少两种特征信息的可疑度；

根据所述至少两种特征信息的可疑度以及每种所述特征信息对应的权值，确定所述短信息的可疑度阀值；

若所述短信息的所述可疑度阀值大于设定阈值，则对所述短信息进行过滤。

另一方面，本发明实施例提供一种垃圾短信过滤装置，包括：获取模块、确定模块、计算模块和处理模块；

所述获取模块，用于获取短信息；

所述确定模块，用于确定所述短信息的至少两种特征信息的可疑度；

所述计算模块，用于根据所述至少两种特征信息的可疑度以及每种所述特征信息对应的权值，确定所述短信息的可疑度阀值；

所述处理模块，用于当判断所述短信息的所述可疑度阀值大于设定阈值时，则对所述短信息进行过滤。

本发明提供的垃圾短信过滤方法和装置，根据短信息的至少两种特征信息的可疑度以及每种特征信息对应的权值来确定短信息的可疑度阀值，对可疑度阀值大于设定阈值的短信息进行过滤，提高了拦截的准确率。

附图说明

图1为本发明提供的垃圾短信过滤方法一个实施例的流程图；

图2为本发明提供的垃圾短信过滤方法另一个实施例的流程图；

图3为本发明提供的垃圾短信过滤装置一个实施例的结构示意图；

图4为本发明提供的垃圾短信过滤装置另一个实施例的结构示意图。

具体实施方式

图1为本发明提供的垃圾短信过滤方法一个实施例的流程图。如图1所示，以下步骤的执行主体可以为设置在短信息中心网络中的服务器，或是集成在该服务器上的模块或芯片。该垃圾短信过滤方法具体包括：

S101，获取短信息；

其中，获取的短信息可以为通过短信息中心接收的来自手机、报警设备或者互联网等发送方发送的短信息。获取到的短信息包括短信息内容、短信息的发送号码，短信息的接收号码及时间等信息。

S102，确定该短信息的至少两种特征信息的可疑度；

其中，特征信息可以为对短信息是否进行过滤，拦截的判断依据，当一条短信息符合至少两种特征信息时，可以根据该短信息中特征信息的具体内容和程度范围，赋予该短信息不同等级的可疑度，该可疑度可用数值表示。

其中，短信息的至少两种特征信息可以体现为：一定时间内相同内容的短信息的数量，用户发送相同内容短信息的数量，用户发送的不同短信息数量，用户的通话次数，短信息的发送成功率，信息的数字内容特征，短信息的被叫号码特征，短信息的关键字、关键句等方面的特征。可以根据各特征信息的程度，例如：数量大小，通话次数大小，被叫号码的号码段等情况，赋予不同类型和程度的特征信息以不同的可疑度。

S103，根据所述至少两种特征信息的可疑度以及每种所述特征信息对应的权值，确定所述短信息的可疑度阀值；

根据上述至少两种特征信息的程度或范围确定的可疑度，以及每种特征信息对应的权值，来确定该短信息的可疑度阀值。其中，每种特征信息对应的权值可以根据该特征信息在判断该短信息是否为垃圾短息过程中的权重来确定。例如：在判断一条短信息是否为垃圾短息时，采用4种特征信息作为判断依据，分别是：一定时间内相同内容的短信息的数量，用户发送相同内容短信息的数量，用户发送的不同短信息数量，短信息的发送成功率。其中，对于短信息的发送成功率，我们认为相对于其它三种特征信息，其在判断过程中地位最高，权重最大，那么就将该特征信息的权值设定的相对较高。具体地，若上述4种的权值之和为1，那么就可以设定该短信息的发送成功率的权值为0.5，以体现其在四种特征信息中所占的较高权重。

另外，该可疑度阀值的确定方式也可以为：将每种特征信息的可疑度及其对应的权值进行某种运算后获得，这里对获取该可疑度阀值的具体方式不做限定。

S104，若所述短信息的所述可疑度阀值大于设定阈值，则对所述短信息进行过滤。

具体地，当由一条短信息的每种特征信息的可疑度及其对应的权值进行某种运算后获得的可疑度阀值大于设定阈值时，则认为该短信息为垃圾短信息，并对该短信息进行过滤。

图2为本发明提供的垃圾短信过滤方法另一个实施例的流程图，是如图1所示实施例的一种具体的实现方式。如图2所示，所述方法具体包括：

S201，获取短信息；

具体地，对该步骤的说明可参看步骤101，在此不做赘述。

S202，识别所述短信息是否为点对点短信息；

垃圾短信息按照其发送方式可以分为两种，具体包括：服务商（ServiceProvider，SP）利用移动运营商的短信息网关进行发送，以下简称为SP发送，和普通用户间的点对点发送，以下简称点对点发送。对于SP发送方式，用户收到短信息时，其显示的发送号码为短信息的接入号，而不是普通用户的手机号码，此种方法发送的垃圾短信息具有速度快，操作简单，需要运营商许可等特点，短信息类型以商品广告、服务类居多；对于点对点发送方式，则是将手机卡插入群发器，通过串口连接线连接到计算机的串口上，然后利用计算机上的群发软件进行发送。使用者或是购买大量无需注册的手机卡（如动感地带、神州行等）来进行透支，或是抓住优惠套餐的软肋大量发送短信息。一个群发器可以同时插入16-20个以上的手机卡，能在很短的时间内群发上万条的短信息，因此运营商往往来不及计费就被恶意透支话费。用户收到短信息时，其显示的发送号码为普通的手机号码。

基于上述两种方式发送的短信息特征，在接收到一条短信息后，首先判断短信息的发送者是否为黑名单用户，若是，则对短信息进行拦截，结束短信息发送过程；若不是，再识别该短信息具体为点对点短信息、SP端口发送的短信息还是设备报警短信息。鉴于SP下发的短信息可通过加强SP审核管理的方式进行处理，而点对点垃圾短信息往往比SP发起的垃圾短信息变化更多、拦截更难，本发明实施例主要针对点对点垃圾短信息进行过滤、拦截。为此，将点对点垃圾短信息、SP发起的垃圾短信息和设备报警短信息分开处理，对于SP发起的垃圾短信息和设备报警短信息不作过滤处理，直接发送至目的用户；而对点对点短信息则继续进行以下步骤的处理。

S203，确定所述短信息中是否包含中文信息；

若所述短信息中存在所述中文信息，则确定对所述短信息进行以下任一种或多种预处理操作。

具体地，当识别出一条短信息为点对点短信息，并需要确定该短信息的至少两种特征信息的可疑度之前，需将该短信息进行预处理，使其具有统一的标准格式，便于特征信息的确定。而符合进行预处理操作的短信息中应包含中文信息。若该短信息中不含有中文信息，则对短信息进行通放，将短信息发送至目的用户，结束短信息发送过程；若该短信息中存在中文信息，则确定对短信息进行以下的任一种或多种预处理操作。

可选的，在本实施例中，还可以先判断一条短信息中，是否包含中文信息，将包含中文信息的短信息进行点对点短信息的识别，对于识别出的点对点短信息确定其需要进行以下任一种或多种预处理操作。

S204，对所述短信息进行以下任一种或多种预处理操作：统一编码预处理操作，英文大小写一致预处理操作，内容简化预处理操作，分段预处理操作和原始内容信息记录预处理操作。

其中，统一（Unicode）编码预处理操作可以包括：将短信息进行Unicode编码，生成具有统一编码格式的原始短信息内容。由于短信息内容一般由中文、英文、数字以及特殊符号混杂组成，有的字符是单字节的，有的字符是双字节的，如果不统一为定长的编码，则不利于进行动态分割，而变成Unicode编码后统一使用定长的，如16bit的编码格式，便于下一步的动态分割和关键字匹配。通过Unicode编码的统一转换后，生成Unicode编码的原始短信息内容。

英文大小写一致预处理操作可以包括：将原始短信息内容的英文字母大小写进行替换，统一为大写字母或小写字母，替换前后的内容含义是一致的。这时生成Unicode编码的替换后短信息内容。

内容简化预处理操作可以包括：将短信息内容中的英文、空格、特殊符号删除，使短信息内容简化。一般来说，发送包含汉字、数字的短信息才能让用户看得懂，如果内容中包含了大量的英文、特殊符号必然会严重影响可阅读性。而且不法分子经常利用程序自动在每条短信息内容中插入长度不同的字母、空格、特殊字符等方式制造出大量内容、长度不相同的短信息，一般的匹配方式很难判断这些内容是否基本相同。该内容简化预处理操作不仅可以降低匹配难度，而且该操作一般也不会破坏内容结构，例如：“你好！本公司有各种(FA)*(票)，电话：139-27231336张生。”经过简化后变成“你好本公司有各种票电话13927231336张生”，变换后的内容含义基本无太大变化。这时生成的是Unicode编码的简化短信息内容。

分段预处理操作可以包括：对超过10个编码长度的简化短信息内容进行平均分割成5段，使用哈希算法（MD5）对分割后内容映射成一个唯一的哈希（hash）值，生成定长的分段短信息摘要，将这些分段短信息摘要组合构成一条短信息对应的短信息摘要。对少于10个编码长度的简化短信息内容不做分割，按一段生成hash值。该分段预处理操可以判断内容、长度不完全相同的多条短信息是否属于同一内容短信息。可选的，在本实施例中，上述分段预处理操作中，对于短信息进行分割的段数，以及每段的长度并不局限于上述描述。

原始内容信息记录预处理操作可以包括：经过上述统一编码预处理操作，英文大小写一致预处理操作，内容简化预处理操作，分段预处理操作对短信息内容进行预处理后，最终生成包含主叫号码、被叫号码、原始短信息内容、替换后短信息内容、简化短信息内容、分段短信息摘要等信息的原始短信息记录。

S205，确定所述预处理操作后得到的短信息的至少两种特征信息的可疑度；

具体地，对该步骤的描述请参看步骤102。在本步骤中，至少两种特征信息的内容具体可以包括：

窗口时间内相同内容的短信息的数量：将接收的具有相同短信息摘要的所有短信息进行统计。具体地，将当前短信息的分段短信息摘要的hash值与数据库中的每条短信息摘要的分段短信息摘要的hash值进行匹配，如果当前短信息可匹配到的分段短信息摘要数量超过分段数量的50%，则可认为当前短信息与数据库中该短信息的内容基本相同，数据库中该短信息摘要的计数加1，否则将当前短信息按新短信息记录在数据库中。当窗口时间内的短信息数量累积到一定程度，则赋予当前短信息不同的可疑度。例如：20条以下可疑度为1，20～50条可疑度为2……1000条以上可疑度为10。当某条短信息内容的可疑度超过一定阀值时，将这条内容送信息安全人员人工审定，以确定该短信息是否需要过滤。用此方法可以及时发现不法分子使用大批卡和短信息群发器进行低频次发送短信息。

单个用户发送相同内容短信息的数量：根据上述窗口时间内相同内容的短信息的数量赋予当前短信息可疑度的方法，计算单个用户在窗口时间内发送相同内容的短信息的数量，并根据数量赋予当前短信息不同等级的可疑度。

单个用户发送短信息数量：针对每个用户在一个滑动窗口时间内发送的短信息的数量进行记录，当窗口时间内发送短信息的数量超过一个既定的阀值时，赋予不同的可疑度。例如：5条以下可疑度为1，5～10条可疑度为2……300条以上可疑度为10。

单个用户的通话次数：不法分子一般会购买大批短信息套餐资费低廉的卡使用短信息群发器进行非法群发，这些卡一般只发短信息极少打电话。针对类似情况，可以通过查询业务支撑系统（Bussiness Service，BS）的原始话单中采集用户的通话频次，例如：通过在原始话单中采集移动用户国际号码-国际移动设备身份码（Mobile Subscriber international ISDN-InternationalMobile Equipment Identity，MSISDN-IMEI）数据，即MSISDN、国际移动用户识别(International Mobile Subscriber Identification，IMSI)码、国际移动设备身份码(International Mobile Equipment Identity，IMEI)三元组信息，以MSISDN统计更新次数，由此粗略计算用户的通话频次。当用户发短信息时，向此信息库查询是否有相关记录，若无，则说明用户只发短信息无通话，赋予一个高的可疑度，同样，根据用户发送短信息数量与通话次数比例的多少赋予该短信息不同等级的可疑度。

短信息的发送成功率：由于受群发的号码源影响，短信息的接收端是空号或停机等异常状态的可能性很大，短信息的发送成功率必然比正常短信息低。针对这个特点，对主叫号码发送短信息的成功率进行判断，通过计算窗口时间内的空号、停机失败的比例，当成功率低于某阀值时，赋予该短信息相应等级的可疑度。

短信息的数字内容特征：对简化短信息内容的连续性数字进行判断，区分11位手机号码、固定电话号码、银行卡号等，并针对上述号码的连续性程度赋予该短信息不同等级的可疑度。

短信息的被叫号码特征：通过统计被叫号码的MSISDN、IMSI的连续性来识别连号、隔号、万号段，根据连续性程度不同，赋予该短信息不同等级的可疑度。

短信息的关键字：首先建立相关编码表，该相关编码表包括：

Unicode编码对应表：这个对应表包括字符、对应Unicode编码、对应简繁体字、对应拼音、对应全角字符、对应大小写、对应象形字，样例如表1：

表1Unicode编码对应表

字符

Unicode编码

简繁体字

拼音

全角字符

大小写

象形字

发

21457

發

fa

發

30332

发

fa

票

31080

piao

瞟

30623

piao

A

65

a

A

97

A

0

48

0

O

1

49

1

I

关键字表：由关键字、关键字增加与（&）、或（|）的逻辑关系组成的组合关键字、每个关键字的敏感等级、可疑度、加权系数和发送频次组成，样例如表2：

表2关键字表

根据上述预设定的关键字表，对替换后短信息内容进行匹配。

当匹配到一个组合关键字时，赋予相应等级的可疑度；

当匹配到两个以上组合关键字时，赋予的可疑度为：(关键字1的可疑度*加权系数)+(关键字2的可疑度*加权系数)，以此类推；

当只匹配到一个关键字时，则对另一个关键字在Unicode编码对应表中查找匹配的同义关键字。例如：一条短信息内容中含有“發票”，在关键字表中只找到一个可以匹配的“票”，这时对另外一个“發”在Unicode编码对应表查找，可匹配对应的简繁体字“发”，证实“發票”可匹配到“发&票”的组合关键字，赋予“发&票”对应的可疑度；

符合上述条件之一，而且该短信息的发送频次达到设定的阀值时，可疑度再乘以加权系数。

短信息的关键句：当信息安全员人工审定某条短信息属于非法时，可将这条短信息置为非法，通过分段短信息摘要对后面的短信息进行过滤，如果匹配到就赋予一个高的可疑度，直接将这些短信息拦截。

S206，将每种特征信息的可疑度及其对应的权值的乘积之和，确定为所述短信息的可疑度阀值；

具体地，在完成上述至少两种特征信息的程度或范围的判断，并根据判断结果赋予当前短信息不同等级的可疑度后，依据每种特征信息对应的权值，确定出该短信息的可疑度阀值。具体地，该短信息的可疑度阀值可表示为每种特征信息的可疑度及其对应的权值的乘积之和。

举例来说，本实施例中涉及的短信息的特征信息，可以具体为：窗口时间内相同内容的短信息的数量、单个用户发送相同内容短信息的数量、单个用户发送短信息数量、单个用户的通话次数、短信息的发送成功率、短信息的数字内容特征、短信息的被叫号码特征、短信息的关键字、短信息的关键句。上述特征信息的可疑度可以分别为a～i，对应的权值分别为k₁～k₉，则该短信息的可疑度阀值X可以采用下列公式获得：

X=k₁*a+k₂*b+k₃*c+k₄*d+k₅*e+k₆*f+k₇*g+k₈*h+k₉*i。

S207，若所述短信息的所述可疑度阀值大于设定阈值，则对所述短信息进行过滤。

其中，该设定阈值是根据经验值总结获得并且与该可疑度阀相适用，用以衡量该短信息是否为垃圾短息的判定依据。具体的判断过程为：设该设定阈值为x，当上述可疑度阀值X>x，则认为该短信息为垃圾短信息，并对该短信息进行过滤。

本实施例提供的垃圾短信过滤方法，通过计算短信息至少两种特征信息的可疑度阀值，具体地，将每种特征信息的可疑度及其对应的权值的乘积之和，确定为所述短信息的可疑度阀值来判定该短信息是否为垃圾短信息，提高了拦截的准确率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明提供的一种垃圾短信过滤装置一个实施例的结构示意图。该结构示意图可以执行如图1实施例中的垃圾短信过滤方法。如图3所示，该垃圾短信过滤装置包括：

获取模块31，用于获取短信息；

确定模块32，用于确定通过获取模块31获取的短信息的至少两种特征信息的可疑度；

计算模块33，用于根据确定模块32确定的至少两种特征信息的可疑度以及每种特征信息对应的权值，确定短信息的可疑度阀值；

处理模块34，用于当判断通过计算模块33计算得到的短信息的可疑度阀值大于设定阈值时，则对短信息进行过滤。

具体地，获取模块31可以获取到通过短信息中心接收的来自手机、报警设备或者互联网等发送方发送的短信息。获取到的短信息包括短信息内容、短信息的发送号码，短信息的接收号码及时间等信息。

确定模块32根据该短信息中至少两种特征信息的具体内容和程度范围，赋予该短信息相对于该特征信息的不同等级的可疑度。该特征信息可以为对短信息是否进行过滤，拦截的判断依据，可以体现为：一定时间内相同内容的短信息的数量，用户发送相同内容短信息的数量，用户发送的不同短信息数量，用户的通话次数，短信息的发送成功率，信息的数字内容特征，短信息的被叫号码特征，短信息的关键字、关键句等方面的特征。可以根据各特征信息的程度，例如：数量大小，通话次数大小，被叫号码的号码段等情况，赋予不同类型和程度的特征信息以不同的可疑度。该可疑度可用数字表示。

计算模块33根据确定模块32确定的至少两种特征信息的可疑度，以及每种特征信息对应的权值，来确定短信息的可疑度阀值。其中，每种特征信息对应的权值可以根据该特征信息在判断该短信息是否为垃圾短息的权重来确定。例如：在判断一条短信息是否为垃圾短息时，采用4种特征信息作为判断依据，分别是：一定时间内相同内容的短信息的数量，用户发送相同内容短信息的数量，用户发送的不同短信息数量，短信息的发送成功率。其中，对于短信息的发送成功率，我们认为相对于其它三种特征信息，其在判断过程中地位最高，权重最大，那么就将该特征信息的权值设定的相对较高。具体地，若上述4种的权值之和为1，那么就可以设定该短信息的发送成功率的权值为0.5，以体现其在四种特征信息中所占的较高权重。而该可疑度阀值的确定方式可以为：将每种特征信息的可疑度及其对应的权值进行某种运算后获得，这里对获取该可疑度阀值的具体方式不做限定。当处理模块34判断由一条短信息的每种特征信息的可疑度及其对应的权值通过计算模块33进行某种运算后获得的可疑度阀值大于设定阈值时，则认为该短信息为垃圾短信息，并对该短信息进行过滤。

本实施例提供的垃圾短信过滤装置，根据短信息的至少两种特征信息的可疑度以及每种特征信息对应的权值来确定短信息的可疑度阀值，对可疑度阀值大于设定阈值的短信息进行过滤，提高了拦截的准确率。

图4为本发明提供的垃圾短信过滤装置另一个实施例的结构示意图。该结构示意图是如图3所示实施例的一种具体的实现方式，可以执行如图2所示的垃圾短信过滤方法。如图4所示，该垃圾短信过滤装置包括：

获取模块41，用于获取短信息；

识别模块42，用于在预处理模块44对短信息进行以下任一种或多种预处理操作之前，识别短信息是否为点对点短信息，若该短信息为点对点短信息，则预处理模块对该短信息进行以下任一种或多种预处理操作；

确定模块43，用于在预处理模块44对所述短信息进行以下任一种或多种预处理操作之前，确定短信息中是否包含中文信息；

若该短信息中存在中文信息，则确定对短信息进行以下任一种或多种预处理操作；

该确定模块43，还用于确定通过获取模块41获取的短信息的至少两种特征信息的可疑度；

预处理模块44，用于在确定模块43确定短信息的至少两种特征信息的可疑度之前，对该短信息进行以下任一种或多种预处理操作：统一编码预处理操作，英文大小写一致预处理操作，内容简化预处理操作，分段预处理操作和原始内容信息记录预处理操作。上述各项预处理操作过程在如图2对应的垃圾短信过滤方法实施例中已经详细说明，在此不做赘述。

计算模块45，用于将每种特征信息的可疑度及其对应的权值的乘积之和，确定为所述短信息的可疑度阀值；

处理模块46，用于当判断该短信息的可疑度阀值大于设定阈值时，则对该短信息进行过滤。

具体地，获取模块41在接收到一条短信息后，首先由识别模块42判断短信息的发送者是否为黑名单用户，若是，则对短信息进行拦截，结束短信息发送过程；若不是，再识别该短信息具体为点对点短信息、SP端口发送的短信息还是设备报警短信息。鉴于SP下发的短信息可通过加强SP审核管理的方式进行处理，而点对点垃圾短信息往往比SP发起的垃圾短信息变化更多、拦截更难，本发明实施例主要针对点对点垃圾短信息进行过滤、拦截。为此，将点对点垃圾短信息、SP发起的垃圾短信息和设备报警短信息分开处理，对于SP发起的垃圾短信息和设备报警短信息不作过滤处理，直接发送至目的用户；而对点对点短信息则继续进行一下步骤的处理。

在识别模块42识别出一条短信息为点对点短信息后，由确定模块43对短信息中是否包含中文信息做出判断，若该短信息中存在中文信息，则确定对短信息进行上述一种或多种预处理操作。具体地，若该短信息中不含有中文信息，确定模块43则对短信息进行通放，将短信息发送至目的用户，结束短信息发送过程；若该短信息中存在中文信息，则确定由预处理模块44对短信息进行上述任一种或多种预处理操作。该预处理操作具体包括内容可参见步骤204中的描述，在此不做赘述。

可选的，在本实施例中，还可以先通过确定模块43判断一条短信息中，是否包含中文信息，将包含中文信息的短信息通过识别模块42进行点对点短信息的识别，对于识别出的点对点短信息确定其需要进行以下任一种或多种预处理操作。

当预处理模块44对短信息进行上述任一种或多种预处理操作后，确定模块43确定该短信息的至少两种特征信息的可疑度；对该过程的具体描述，可参见步骤102和步骤205。

当确定模块43确定该短信息的至少两种特征信息的可疑度后，计算模块45计算出每种特征信息的可疑度及其对应的权值的乘积之和，并以此作为该短信息的可疑度阀值。对该过程的具体描述，可参见步骤206。

当计算模块45确定出该短信息的可疑度阀值后，由处理模块46判断该短信息的可疑度阀值是否大于设定阈值，若该短信息的可疑度阀值大于设定阈值，则对该短信息进行过滤。

其中，该设定阈值可以是本领域技术人员经过长期的经验积累总结出来的，与该可疑度阀相适用的经验值，用以衡量该短信息是否为垃圾短息的判定依据。具体的判断过程为：设该设定阈值为x，当上述可疑度阀值X>x，则认为该短信息为垃圾短信息，并对该短信息进行过滤。

本实施例提供的垃圾短信过滤装置，通过计算短信息息至少两种特征信息的可疑度阀值，具体地，将每种特征信息的可疑度及其对应的权值的乘积之和，确定为所述短信息的可疑度阀值来判定该短信息是否为垃圾短信息，有效解决了现有的短信息拦截方法由于非法用户降低发送频次或变换关键字而无法拦截垃圾短信息的问题，提高了拦截的准确率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种垃圾短信过滤方法，其特征在于，包括：

获取短信息；

确定所述短信息的至少两种特征信息的可疑度；

2.根据权利要求1所述的垃圾短信过滤方法，其特征在于，所述确定所述短信息的至少两种特征信息的可疑度之前，还包括：

对所述短信息进行以下任一种或多种预处理操作：统一编码预处理操作，英文大小写一致预处理操作，内容简化预处理操作，分段预处理操作和原始内容信息记录预处理操作。

3.根据权利要求2所述的垃圾短信过滤方法，其特征在于，所述对所述短信息进行以下任一种或多种预处理操作之前，还包括：

识别所述短信息是否为点对点短信息，

若所述短信息为点对点短信息，则确定对所述短信息进行以下任一种或多种预处理操作；和/或

确定所述短信息中是否包含中文信息；

4.根据权利要求1-3任一项所述的垃圾短信过滤方法，其特征在于，所述至少两种特征信息包括以下任意两种或两种以上特征信息：窗口时间内相同内容的短信息的数量，单个用户发送相同内容短信息的数量，单个用户发送短信息数量，单个用户的通话次数，所述短信息的发送成功率，所述短信息的数字内容特征，所述短信息的被叫号码特征，所述短信息的关键字和所述短信息的关键句。

5.根据权利要求4所述的垃圾短信过滤方法，其特征在于，所述根据所述至少两种特征信息的可疑度以及每种所述特征信息对应的权值，确定所述短信息的可疑度阀值，包括：

将每种特征信息的可疑度及其对应的权值的乘积之和，确定为所述短信息的可疑度阀值。

6.一种垃圾短信过滤装置，其特征在于，包括：获取模块、确定模块、计算模块和处理模块；

所述获取模块，用于获取短信息；

7.根据权利要求6所述的垃圾短信过滤装置，其特征在于，所述装置还包括：

预处理模块，用于所述确定模块在确定所述短信息的至少两种特征信息的可疑度之前，对所述短信息进行以下任一种或多种预处理操作：统一编码预处理操作，英文大小写一致预处理操作，内容简化预处理操作，分段预处理操作和原始内容信息记录预处理操作。

8.根据权利要求7所述的垃圾短信过滤装置，其特征在于，所述装置还包括：

识别模块，用于所述预处理模块对所述短信息进行以下任一种或多种预处理操作之前，识别所述短信息是否为点对点短信息，若所述短信息为点对点短信息，则所述预处理模块对所述短信息进行以下任一种或多种预处理操作；和/或

所述确定模块，还用于所述预处理模块对所述短信息进行以下任一种或多种预处理操作之前，确定所述短信息中是否包含中文信息，若所述短信息中存在所述中文信息，则所述预处理模块对所述短信息进行以下任一种或多种预处理操作。

9.根据权利要求6-8任一项所述的垃圾短信过滤装置，其特征在于，所述确定模块确定所述短信息的至少两种特征信息包括以下任意两种或两种以上特征信息：窗口时间内相同内容的短信息的数量，单个用户发送相同内容短信息的数量，单个用户发送短信息数量，单个用户的通话次数，所述短信息的发送成功率，所述短信息的数字内容特征，所述短信息的被叫号码特征，所述短信息的关键字和所述短信息的关键句。

10.根据权利要求9所述的垃圾短信过滤装置，其特征在于，所述计算模块具体用于：