CN103139730A - 用于识别大量号码低频发送垃圾短信情况的方法 - Google Patents
用于识别大量号码低频发送垃圾短信情况的方法 Download PDFInfo
- Publication number
- CN103139730A CN103139730A CN2011103757679A CN201110375767A CN103139730A CN 103139730 A CN103139730 A CN 103139730A CN 2011103757679 A CN2011103757679 A CN 2011103757679A CN 201110375767 A CN201110375767 A CN 201110375767A CN 103139730 A CN103139730 A CN 103139730A
- Authority
- CN
- China
- Prior art keywords
- content characteristic
- similarity
- calling number
- identifying
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种用于识别大量号码低频发送垃圾短信情况的方法,该方法为:通过生成短信内容的初步内容特征来排除垃圾短信中的干扰元素,并根据设定的相似度计算规则,计算初步内容特征和现有的内容特征集合中逐个内容特征的相似度,并与设定的相似度最小阈值的比较,生成对应的内容特征并累加计数;在满足统计周期条件时,选取满足发送次数最小阈值的内容特征,并对所有选取的内容特征逐个查找对应的主叫号码集合,根据设定的主叫号码离散规则判断是否将主叫号码集中的各主叫号码加入嫌疑名单。本发明克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情况,达到治理大量号码发送垃圾短信的目的。
Description
技术领域
本发明涉及一种识别发送垃圾短信情况的方法,尤其涉及一种用于识别大量号码低频发送垃圾短信情况的方法。
背景技术
短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也为信息垃圾的传播提供了渠道。目前,垃圾短信有着愈演愈烈的趋势,垃圾短信不但带来用户投诉的不良影响,还存在着恶意欠费问题,因此需要对垃圾短信进行实时监控拦截。
随着对垃圾短信治理力度的加大,垃圾短信的发送行为也逐渐变化,目前发现了一种使用大量号码低速发送垃圾短信的情况,具有以下特征:1、购买大量手机号码同时低速发送垃圾短信;2、每个号码选取多条垃圾短信循环或随机发送;3、不同号码发送的具有相同垃圾信息的垃圾短信内容不尽相同,中间随机加入干扰字符或文字。
对于上述的大量号码低速发送垃圾短信的情况,现有的基于频次和内容的拦截方式都不能有效进行识别。
发明内容
本发明的目的在于克服现有技术的缺陷而提供一种用于识别大量号码低频发送垃圾短信情况的方法,通过内容特征相似度的方法,将短信内容中提炼出的初步内容生成对应的内容特征,并对内容特征进行累加计数,定期统计识别短信内容特征的发送次数满足用户设置的最小阈值的内容特征,对满足要求的所有内容特征逐个查找对应的主叫号码集合,然后根据设定的主叫号码离散规则来判断是否将主叫号码集合中的各主叫号码加入到嫌疑名单,从而有效识别出大量号码发送垃圾短信的情况并避免对正常短信的误拦,克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情况。
实现上述目的的技术方案是:
一种用于识别大量号码低频发送垃圾短信情况的方法,包括下列步骤:
步骤S0,设定剔除规则、相似度计算规则、相似度最小阈值、发送次数最小阈值、统计周期以及主叫号码离散规则;
步骤S1,读取短信信息,包括主叫号码和短信内容;
步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初步内容特征;
步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初步内容特征和现有的内容特征集合中逐个内容特征的相似度,并与所述的相似度最小阈值逐个比较,根据比较结果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加;
步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于所述的统计周期,若是,则进入步骤S5;若否,则进入步骤S1;
步骤S5,提取当前内容特征集合中发送次数大于或者等于所述的发送次数最小阈值的内容特征;
步骤S6,对于步骤S5中选取的所有内容特征,按顺序依次选择其中一个内容特征,追溯该内容特征对应的主叫号码集合;
步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8;若不符合,进入步骤S9;
步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单;
步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述步骤S3中现有的内容特征集合不为空时,
若由计算所得的相似度均小于所述的相似度最小阈值,则将所述的初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若由计算所得的相似度中至少有一个大于或者等于所述的相似度最小阈值,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加1。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述剔除规则为:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字需要预先进行设定。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述相似度计算规则为:S(A,B)=f(A∩B)*2*100/(f(A)+f(B)),其中,函数S(A,B)表示相似度,函数f(A)和f(B)分别表示集合A和集合B的元素个数,函数f(A∩B)表示集合A和集合B的交集元素的个数。
上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述主叫号码离散规则为:不同的主叫号码的个数大于或者等于H,H为正整数。
本发明的有益效果:
本发明针对大量号码同时低速发送垃圾短信的情况,从短信发送的内容入手,通过生成发送短信的初步内容特征来排除垃圾短信中的干扰元素,并使用内容特征相似度的方法进一步优化短信内容特征的准确性和高效性;定期统计识别短信内容特征的发送次数满足用户设置的最小阈值的内容特征;对满足要求的所有内容特征逐个查找对应的主叫号码集合,然后根据设定的主叫号码离散规则来判断是否将主叫号码集合中的各主叫号码加入到嫌疑名单;利用内容特征的相似度和对应的主叫号码离散规则能够有效识别出大量号码发送垃圾短信的情况并避免对正常短信的误拦,克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情况,能有效提升发送垃圾短信号码的识别效率,达到治理大量号码发送垃圾短信的目的。
附图说明
图1是本发明的用于识别大量号码低频发送垃圾短信情况的方法的工作流程的示意图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1,本发明的用于识别大量号码低频发送垃圾短信情况的方法,包括下列步骤:
步骤S0,设定如下参数和规则:
剔除规则:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字要预先进行设定,例如,删除“*”、“#”、“,”字符;
相似度计算规则:S(A,B)=f(A∩B)*2*100/(f(A)+f(B)),其中,函数S(A,B)表示相似度,函数f(A)和函数f(B)分别表示集合A和集合B的元素个数,函数f(A∩B)表示集合A和集合B的交集元素的个数,相似度为0表示完全不同,相似度100表示完全相同;
相似度最小阈值N,N为正整数;
发送次数最小阈值M,M为正整数;
统计周期P,P为正数;
主叫号码离散规则:不同的主叫号码的个数大于或者等于H,H为正整数;
步骤S1,读取短信信息,读取的信息包括主叫号码和短信内容;
步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初步内容特征;
步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初步内容特征和现有的内容特征集合中逐个内容特征的相似度,并与相似度最小阈值N逐个比较,根据比较结果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加,此时分为两种情况:
若由计算所得的相似度均小于相似度最小阈值N,则将所述的初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若由计算所得的相似度中至少有一个大于或者等于相似度最小阈值N,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加1;
步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于统计周期P,若是,则进入步骤S5;若否,则进入步骤S1;
步骤S5,提取当前内容特征集合中发送次数大于或者等于发送次数最小阈值M的内容特征T1-Tm;
步骤S6,对于步骤S5中选取的所有内容特征T1-Tm,按顺序依次选择其中一个内容特征Ti,其中1≤i≤m且i为正整数,追溯该内容特征Ti对应的主叫号码集合;
步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8;若不符合,进入步骤S9;
步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单;
步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6;若处理完毕,则结束。
本实施例中,设定剔除规则为:删除“*”、“#”、“,”字符;相似度最小阈值N为50;发送次数最小阈值M为50;统计周期P为60分钟;主叫号码离散规则中的H为5。此时,请参阅以下的表1至表5,举例说明:
若现有的内容特征集合为空,且读取两条短信信息并得到其初步内容特征,如下表1:
表1
将表1中的初步内容特征生成对应的内容特征,因为此时现有的内容特征集合为空,所以得到表2的结果:
表2
若现有的内容特征集合不为空,且读取一条短信信息并得到其初步内容特征,如下表3:
表3
将表3中的初步内容特征生成对应的内容特征,因为此时现有的内容特征集合不为空,所以对表3中的初步内容特征进行相似度计算,如下表4所示:
表4
经过表4所示的过程后,所得的结果如下表5所示:
表5
然后,当此刻时间与上一次统计时间的时间差大于或者等于60分钟时,提取当前内容特征集合中发送次数大于或者50的内容特征,并依次追溯与这些内容特征各自对应的主叫号码集合,将不同主叫号码个数大于或等于5的各个主叫号码集合中的主叫号码加入到嫌疑名单。
综上所述,本发明针对大量号码同时低速发送垃圾短信的情况,从短信发送的内容入手,排除垃圾短信中的干扰元素,并使用内容特征相似度的方法进一步优化短信内容特征的准确性和高效性,定期统计满足设定的发送次数最小阈值的内容特征,并逐个查找对应的主叫号码集合,然后根据设定的主叫号码离散规则来判断是否将主叫号码集合中的各主叫号码加入到嫌疑名单,能够有效识别出大量号码发送垃圾短信的情况并避免对正常短信的误拦。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。
Claims (5)
1.一种用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,包括下列步骤:
步骤S0,设定剔除规则、相似度计算规则、相似度最小阈值、发送次数最小阈值、统计周期以及主叫号码离散规则;
步骤S1,读取短信信息,包括主叫号码和短信内容;
步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初步内容特征;
步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初步内容特征和现有的内容特征集合中逐个内容特征的相似度,并与所述的相似度最小阈值逐个比较,根据比较结果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加;
步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于所述的统计周期,若是,则进入步骤S5;若否,则进入步骤S1;
步骤S5,提取当前内容特征集合中发送次数大于或者等于所述的发送次数最小阈值的内容特征;
步骤S6,对于步骤S5中选取的所有内容特征,按顺序依次选择其中一个内容特征,追溯该内容特征对应的主叫号码集合;
步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8;若不符合,进入步骤S9;
步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单;
步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6。
2.根据权利要求1所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述步骤S3中现有的内容特征集合不为空时,
若由计算所得的相似度均小于所述的相似度最小阈值,则将所述的初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为1;
若由计算所得的相似度中至少有一个大于或者等于所述的相似度最小阈值,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加1。
3.根据权利要求1或2所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述剔除规则为:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字需要预先进行设定。
4.根据权利要求1或2所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述相似度计算规则为:S(A,B)=f(A∩B)*2*100/(f(A)+f(B)),其中,函数S(A,B)表示相似度,函数f(A)和f(B)分别表示集合A和集合B的元素个数,函数f(A∩B)表示集合A和集合B的交集元素的个数。
5.根据权利要求1或2所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述主叫号码离散规则为:不同的主叫号码的个数大于或者等于H,H为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110375767.9A CN103139730B (zh) | 2011-11-23 | 2011-11-23 | 用于识别大量号码低频发送垃圾短信情况的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110375767.9A CN103139730B (zh) | 2011-11-23 | 2011-11-23 | 用于识别大量号码低频发送垃圾短信情况的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103139730A true CN103139730A (zh) | 2013-06-05 |
CN103139730B CN103139730B (zh) | 2016-03-30 |
Family
ID=48498925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110375767.9A Expired - Fee Related CN103139730B (zh) | 2011-11-23 | 2011-11-23 | 用于识别大量号码低频发送垃圾短信情况的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103139730B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103974214A (zh) * | 2014-04-11 | 2014-08-06 | 武汉科技大学 | 低频垃圾短信号码识别系统 |
WO2015054993A1 (zh) * | 2013-10-18 | 2015-04-23 | 中兴通讯股份有限公司 | 垃圾信息处理方法及装置 |
CN105592430A (zh) * | 2014-10-20 | 2016-05-18 | 中兴通讯股份有限公司 | 一种基于同源信息的短消息监控方法及系统 |
CN106549851A (zh) * | 2015-09-18 | 2017-03-29 | 中国移动通信集团公司 | 一种违规信息发送群的判定方法及装置 |
CN106657549A (zh) * | 2016-10-25 | 2017-05-10 | 杭州东信北邮信息技术有限公司 | 一种基于号码模式的黑号码识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350957A (zh) * | 2008-07-28 | 2009-01-21 | 杨沁沁 | 屏蔽垃圾短信的方法和设备 |
CN101730017A (zh) * | 2008-10-27 | 2010-06-09 | 中国移动通信集团吉林有限公司 | 一种垃圾短信发送用户确定方法与装置 |
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN101860822A (zh) * | 2010-06-11 | 2010-10-13 | 中兴通讯股份有限公司 | 垃圾短信监控方法和系统 |
US20110023116A1 (en) * | 2009-06-29 | 2011-01-27 | International Business Machines Corporation | Method and apparatus for spam short message detection |
CN102045652A (zh) * | 2009-10-21 | 2011-05-04 | 深圳市彩讯科技有限公司 | 基于特征相似度的垃圾短信拦截方法 |
CN102111767A (zh) * | 2009-12-24 | 2011-06-29 | 上海粱江通信系统股份有限公司 | 基于被叫离散度的提高垃圾短信号码识别正确率的方法 |
-
2011
- 2011-11-23 CN CN201110375767.9A patent/CN103139730B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN101350957A (zh) * | 2008-07-28 | 2009-01-21 | 杨沁沁 | 屏蔽垃圾短信的方法和设备 |
CN101730017A (zh) * | 2008-10-27 | 2010-06-09 | 中国移动通信集团吉林有限公司 | 一种垃圾短信发送用户确定方法与装置 |
US20110023116A1 (en) * | 2009-06-29 | 2011-01-27 | International Business Machines Corporation | Method and apparatus for spam short message detection |
CN102045652A (zh) * | 2009-10-21 | 2011-05-04 | 深圳市彩讯科技有限公司 | 基于特征相似度的垃圾短信拦截方法 |
CN102111767A (zh) * | 2009-12-24 | 2011-06-29 | 上海粱江通信系统股份有限公司 | 基于被叫离散度的提高垃圾短信号码识别正确率的方法 |
CN101860822A (zh) * | 2010-06-11 | 2010-10-13 | 中兴通讯股份有限公司 | 垃圾短信监控方法和系统 |
Non-Patent Citations (1)
Title |
---|
张尼等: "基于主叫号码发送行为分析的垃圾短信识别方法", 《中国通信学会信息通信网络技术委员会2009年年会论文集(上册)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015054993A1 (zh) * | 2013-10-18 | 2015-04-23 | 中兴通讯股份有限公司 | 垃圾信息处理方法及装置 |
CN103974214A (zh) * | 2014-04-11 | 2014-08-06 | 武汉科技大学 | 低频垃圾短信号码识别系统 |
CN105592430A (zh) * | 2014-10-20 | 2016-05-18 | 中兴通讯股份有限公司 | 一种基于同源信息的短消息监控方法及系统 |
CN106549851A (zh) * | 2015-09-18 | 2017-03-29 | 中国移动通信集团公司 | 一种违规信息发送群的判定方法及装置 |
CN106549851B (zh) * | 2015-09-18 | 2020-01-21 | 中国移动通信集团公司 | 一种违规信息发送群的判定方法及装置 |
CN106657549A (zh) * | 2016-10-25 | 2017-05-10 | 杭州东信北邮信息技术有限公司 | 一种基于号码模式的黑号码识别方法 |
CN106657549B (zh) * | 2016-10-25 | 2019-05-31 | 杭州东信北邮信息技术有限公司 | 一种基于号码模式的黑号码识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103139730B (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101335920B (zh) | 基于主叫号码位置和发送内容的垃圾短消息识别系统及方法 | |
CN101860822A (zh) | 垃圾短信监控方法和系统 | |
CN103139730B (zh) | 用于识别大量号码低频发送垃圾短信情况的方法 | |
CN101790142B (zh) | 结合短信内容和发送频次识别垃圾短信源的系统与方法 | |
CN109640312B (zh) | “黑卡”识别方法、电子设备及计算机可读取存储介质 | |
CN101909261A (zh) | 一种垃圾短信监控的方法和系统 | |
CN106658564B (zh) | 一种家庭用户的识别方法及装置 | |
CN105704685B (zh) | 一种短信安全处理方法及装置 | |
EP3048539A1 (en) | Method and apparatus for recognizing junk messages | |
CN101771966B (zh) | 一种基于关键字和频次识别垃圾短信源的方法 | |
CN104462509A (zh) | 垃圾评论检测方法及装置 | |
CN102438205B (zh) | 一种基于移动用户行为的业务推送的方法与系统 | |
CN102801866B (zh) | 一种移动终端的短信群发方法 | |
CN105072238A (zh) | 一种根据新增号码的备注信息创建通讯录的方法及装置 | |
CN103369486A (zh) | 诈骗短信防范系统与防范方法 | |
CN101389085A (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
CN108810290A (zh) | 一种诈骗电话的识别的方法及系统 | |
CN107844914A (zh) | 基于集团管理的风险管控系统和实现方法 | |
CN104598595A (zh) | 欺诈网页检测方法及相应装置 | |
WO2012151929A1 (zh) | 一种短消息监控方法及装置 | |
CN103796207A (zh) | 一种虚假用户号码识别方法及装置 | |
CN102801548A (zh) | 一种智能预警的方法、装置及信息系统 | |
CN109474755B (zh) | 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质 | |
Bin et al. | Behavior analysis based SMS spammer detection in mobile communication networks | |
CN104717625A (zh) | 一种信控处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160330 Termination date: 20181123 |
|
CF01 | Termination of patent right due to non-payment of annual fee |