CN103634797A

CN103634797A - 一种垃圾短信识别方法及装置

Info

Publication number: CN103634797A
Application number: CN201310657233.4A
Authority: CN
Inventors: 黄文良; 杨丹; 颜珊珊
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2013-12-06
Filing date: 2013-12-06
Publication date: 2014-03-12

Abstract

本发明提供一种垃圾短信识别方法及装置，该方法包括：记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的第一条数；针对每个短信发送号码发送的首条短信，记录所述首条短信的长度；统计所述每个短信发送号码在当天发送的与所述首条短信相近长度短信的第二条数；当所述每个短信发送号码在设定时间间隔内发送短信的频度达到第一监控阈值，所述第一条数大于第一设定值，所述第二条数大于第二设定值，则断定所述号码正在发送垃圾短信，所述短信为垃圾短信。本发明可以降低正常短信被误拦的概率，同时又可以减少垃圾短信因钻漏洞而当作正常短信放过的数量，提高了垃圾短信判定的成功率。

Description

一种垃圾短信识别方法及装置

技术领域

本发明属于通信技术领域，具体是涉及一种垃圾短信识别方法及装置。

背景技术

垃圾短信问题一直困惑着电信业，各个移动运营商化了大量的投资和精力来对付垃圾短信，但效果一直不理想，给运营商的声誉造成了很大的影响。当前运营商治理垃圾短信主要从两个方面入手，一是短信内容的关键字匹配，二是单位时间的发送条数。当前垃圾短信的拦截系统，判定用户是否正在发送垃圾短信的主要基于两个特征之一，一是垃圾短信发送的速度，如每小时超过了300条就加以拦截并关闭用户手机的正常功能；二是短信内容的关键字匹配，如果某条短信内容包含关键字列表中的内容，就把该短信当作垃圾短信加以拦截。

现有技术中基于发送频次的垃圾短信判断方法，很容易把正常的短信当作垃圾短加以拦截过滤，引起大量用户的投诉，例如，一个用户换号时，需要群发短信告诉他通讯录里的朋友时，如果朋友数量超过拦截门槛就会被误拦截。基于内容关键字匹配的方法，很容易把正常短信误判为垃圾短信，而真正的垃圾短信却很容易逃过拦截，无法有效拦截和过滤，例如，关键字匹配的方法很容易发生误拦，如“发票”是关键，结果正常用户只要发一条包含发票的短信就会被误拦。而真正的垃圾短信发送者很容易通过同音字、近音字、拼音替代、加分隔符等方法绕过关键字匹配算法。

发明内容

针对现有技术中存在的问题，本发明提供一种垃圾短信识别方法及装置，用以克服现有技术中错误拦截垃圾短信的缺陷。

本发明提供了一种垃圾短信识别方法，包括：

记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的第一条数；

针对每个短信发送号码发送的首条短信，记录所述首条短信的长度；

统计所述每个短信发送号码在当天发送的与所述首条短信相近长度短信的第二条数；

当所述每个短信发送号码在设定时间间隔内发送短信的频度达到第一监控阈值，所述第一条数大于第一设定值，所述第二条数大于第二设定值，则断定所述号码正在发送垃圾短信，所述短信为垃圾短信。

本发明提供了一种垃圾短信识别装置，包括：

第一记录模块，用于记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的第一条数；

第二记录模块，用于针对每个短信发送号码发送的首条短信，记录所述首条短信的长度；

统计模块，用于统计所述每个短信发送号码在当天发送的与所述首条短信相近长度短信的第二条数；

确定模块，用于当所述每个短信发送号码在设定时间间隔内发送短信的频度达到第一监控阈值，所述第一条数大于第一设定值，所述第二条数大于第二设定值，则断定所述号码正在发送垃圾短信，所述短信为垃圾短信。

本发明提供的垃圾短信识别方法及装置，由于第一条数用于记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的数目，因此本发明是对短信发送号码进行了网内和网外的区分，通过第一条数、第二条数以及第一监控阈值的结合来确定是否是垃圾短信，由于第一条数、第二条数以及第一监控阈值可以通过试验调整，因此可以降低正常短信被误拦的概率，同时又可以减少垃圾短信因钻漏洞而当作正常短信放过的数量，提高了垃圾短信判定的成功率，大幅度降低了正常短信的误判率。

附图说明

图1为本发明提供的垃圾短信识别方法实施例一的流程图；

图2为本发明提供的垃圾短信识别方法实施例二的流程图；

图3为本发明提供的垃圾短信识别装置实施例一的示意图；

图4为本发明提供的垃圾短信识别装置实施例二的示意图。

具体实施方式

图1为本发明提供的垃圾短信识别方法实施例一的流程图，如图1所示，该方法包括：

步骤101、记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的第一条数。

步骤102、针对每个短信发送号码发送的首条短信，记录所述首条短信的长度。

步骤103、统计所述每个短信发送号码在当天发送的与所述首条短信相近长度短信的第二条数。

步骤104、当所述每个短信发送号码在设定时间间隔内发送短信的频度达到第一监控阈值，所述第一条数大于第一设定值，所述第二条数大于第二设定值，则断定所述号码正在发送垃圾短信，所述短信为垃圾短信。

本发明实施例提供的垃圾短信识别方法，由于第一条数用于本网内的每个短信发送号码在当天发送短信到该本网内的目标号码的数目，因此本发明是对短信发送号码进行了网内和网外的区分，通过第一条数、第二条数以及第一监控阈值的结合来确定是否是垃圾短信，由于第一条数、第二条数以及第一监控阈值可以通过试验调整，因此可以降低正常短信被误拦的概率，同时又可以减少垃圾短信因钻漏洞而当作正常短信放过的数量，提高了垃圾短信判定的成功率，大幅度降低了正常短信的误判率。

图2为本发明提供的垃圾短信识别方法实施例二的流程图，如图2所示，该方法包括：

步骤201、检测本网内的每个短信发送号码在当天发送短信的目标号码是否是本网内的电话号码，若是，执行步骤202；若否，执行步骤209。

步骤202、记录本网内的短信发送号码在当天发送短信到所述本网内的目标号码的第一条数，执行步骤203。

步骤203、针对每个短信发送号码发送的首条短信，记录所述首条短信的长度，执行步骤204。

步骤204、检测所述每个短信发送号码在首条短信之后发送的短信的第二长度，执行步骤205。

步骤205、确定第二长度与首条短信的第一长度的差值是否小于或者等于第二监控阈值，若所述第二长度与所述首条短信的第一长度的差值小于或者等于第二监控阈值，执行步骤206；若第二长度与所述第一长度的差值大于所述第二监控阈值，执行步骤207。

步骤206、将第二条数加1，视为该条短信与所述首条短信长度相近，执行步骤208。

步骤207、将所述第二条数置为1，该条短信与所述首条短信为不同的短信，将该条短信作为首条短信，并将该条短信的所述第二长度视为所述第一长度，执行步骤204。

步骤208、当所述每个短信发送号码在设定时间间隔内发送短信的频度达到第一监控阈值，所述第一条数大于第一设定值，所述第二条数大于第二设定值，则断定所述号码正在发送垃圾短信，所述短信为垃圾短信，应该加以拦截，流程结束。

步骤209、若检测到所述本网内的每个短信发送号码在当天发送短信的目标号码为外网的号码，将所述第一条数复位为0，执行步骤204。

为了更清楚的理解本发明实施例，下面以表1为例进行示例性说明。

表1

本实施例中，针对每个短信发送号码（例如，表1中的13003698531），记录当天发送短信到本网（例如，中国联通）内目标号码的第一条数B，当遇到一条目标号码为外网（例如，中国移动）的短信时，B复位为0。

本实施例中，针对每个号码发送的首条短信，记录下该首条短信的长度C，并将D设为1。

本实施例中，垃圾短信发送者为了躲避监控，有时会在发送内容中插入一两个干扰符，如果当前发送的短信的长度与C当前的值小于第二监控阈值d（d可以取1-2），说明该当前发送的短信与上一条短信长度相近，可以视为是同一条短信，并将D增加1。

本实施例中，如果该当前发送的短信的长度与C当前的差值大于d，说明该条短信与上一条短信长度有差异，可以视为是不同的短信，将C置为该短信的长度值，并将D置为1。

本实施例中，设定时间间隔内发送短信的频度例如可以设为每小时不超过m条，m一般取值在几十条即可，本发明实施例对m的取值不做限定。

本实施例中，当发送短信的频度E达到第一监控阈值m时，判断B值是否大于第一设定值b，D值是否大于第二设定值d，如果三者都满足，即可断定该号码正在发送垃圾短信，该短信为垃圾短信，应该加以拦截。

本实施例中，第一监控阈值m、第一设定值b、第二设定值d的值，需要不断地试验调整，就可以降低正常短信被误拦的概率，同时又可以减少垃圾短信因钻漏洞而当作正常短信放过的数量。

本实施例中，上述当天网内短信发送累计的第一条数、当前发送短信的第二长度、当天相近长度短信累计的第二条数、最近一小时已发送短信的频度在每天凌晨清零初始化。

图3为本发明提供的垃圾短信识别装置实施例一的示意图，如图3所示，该装置包括：

第一记录模块11，用于记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的第一条数；

第二记录模块12，用于针对每个短信发送号码发送的首条短信，记录所述首条短信的长度；

统计模块13，用于统计所述每个短信发送号码在当天发送的与所述首条短信相近长度短信的第二条数；

确定模块14，用于当所述每个短信发送号码在设定时间间隔内发送短信的频度达到第一监控阈值，所述第一条数大于第一设定值，所述第二条数大于第二设定值，则断定所述号码正在发送垃圾短信，所述短信为垃圾短信。

本实施例的装置可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明提供的垃圾短信识别装置实施例二的示意图，如图4所示，本实施例提供的装置在图3所示实施例的基础上，所述装置还包括：

检测模块15，用于检测所述本网内的每个短信发送号码在当天发送短信到是否是所述本网内的目标号码；

复位模块16，用于若检测到所述本网内的每个短信发送号码在当天发送短信到外网的目标号码，将所述第一条数复位为0。

进一步地，所述统计模块13包括：

检测单元131，用于检测所述每个短信发送号码在首条短信之后发送的短信的第二长度；

计数单元132，用于若所述第二长度与所述首条短信的第一长度的差值小于或者等于第二监控阈值，则视为该条短信与所述首条短信长度相近，将所述第二条数加1。

进一步地，所述第二监控阈值由垃圾短信发送者在发送内容中插入的干扰符的长度确定。

进一步地，若所述检测单元131检测到该短信的第二长度与所述第一长度的差值大于所述第二监控阈值，则该条短信与所述首条短信为不同的短信，将该条短信作为首条短信，并将该条短信的所述第二长度视为所述第一长度，所述检测单元131检测所述每个短信发送号码在首条短信之后发送的短信的第二长度，并将所述第二条数置为1。

本实施例的装置可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种垃圾短信识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述统计所述每个短信发送号码在当天发送的与所述首条短信相近长度短信的第二条数，包括：

检测所述每个短信发送号码在首条短信之后发送的短信的第二长度，若所述第二长度与所述首条短信的第一长度的差值小于或者等于第二监控阈值，则视为该条短信与所述首条短信长度相近，将第二条数加1。

3.根据权利要求2所述的方法，其特征在于，所述第二监控阈值由垃圾短信发送者在发送内容中插入的干扰符的长度确定。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若该短信的所述第二长度与所述第一长度的差值大于所述第二监控阈值，则该条短信与所述首条短信为不同的短信，将该条短信作为首条短信，并将该条短信的所述第二长度视为所述第一长度，执行，并将所述第二条数置为1。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

检测所述本网内的每个短信发送号码在当天发送短信的目标号码是否是所述本网内的电话号码；

若检测到所述本网内的每个短信发送号码在当天发送短信的目标号码是所述本网内的电话号码，执行所述记录本网内的每个短信发送号码在当天发送短信到所述本网内的目标号码的第一条数的步骤；

若检测到所述本网内的每个短信发送号码在当天发送短信的目标号码是外网的电话号码，将所述第一条数复位为0，执行检测所述每个短信发送号码在首条短信之后发送的短信的第二长度的步骤。

6.一种垃圾短信识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述统计模块包括：

检测单元，用于检测所述每个短信发送号码在首条短信之后发送的短信的第二长度；

计数单元，用于若所述第二长度与所述首条短信的第一长度的差值小于或者等于第二监控阈值，则视为该条短信与所述首条短信长度相近，将所述第二条数加1。

8.根据权利要求7所述的装置，其特征在于，所述第二监控阈值由垃圾短信发送者在发送内容中插入的干扰符的长度确定。

9.根据权利要求7所述的装置，其特征在于，

若所述检测单元检测到该短信的第二长度与所述第一长度的差值大于所述第二监控阈值，则该条短信与所述首条短信为不同的短信，将该条短信作为首条短信，并将该条短信的所述第二长度视为所述第一长度，所述检测单元检测所述每个短信发送号码在首条短信之后发送的短信的第二长度，并将所述第二条数置为1。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

检测模块，用于检测所述本网内的每个短信发送号码在当天发送短信到是否是所述本网内的目标号码；

复位模块，用于若检测到所述本网内的每个短信发送号码在当天发送短信到外网的目标号码，将所述第一条数复位为0。