CN102111731A - 基于内容相同度的提高垃圾短信号码识别准确率的方法 - Google Patents
基于内容相同度的提高垃圾短信号码识别准确率的方法 Download PDFInfo
- Publication number
- CN102111731A CN102111731A CN200910200650XA CN200910200650A CN102111731A CN 102111731 A CN102111731 A CN 102111731A CN 200910200650X A CN200910200650X A CN 200910200650XA CN 200910200650 A CN200910200650 A CN 200910200650A CN 102111731 A CN102111731 A CN 102111731A
- Authority
- CN
- China
- Prior art keywords
- note
- content
- calling number
- refuse messages
- mutually unison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于内容相同度的提高垃圾短信号码识别准确率的方法,它包括:设定内容相同度的阈值;在设定的时间范围内,记录主叫号码发送的每条短信,在每条短信属性中增加短信内容特征值;当设定的时间范围内主叫号码发送的短信数量超出阈值时,计算此主叫号码发送短信的内容相同度;当内容相同度超出设定的内容相同度阈值时,认为此主叫号码是垃圾短信号码;当内容相同度未达到设定的内容相同度阈值时,则不认为此主叫号码是垃圾短信号码。本发明能够提高垃圾短信识别准确率,当短信流量超频时能够根据短信的内容分布状况分析用户的发送行为,排除正常短信号码,减少垃圾短信拦截误拦率。
Description
技术领域
本发明涉及一种按流量统计短信时提高垃圾短信号码识别准确率的方法,尤其涉及一种基于内容相同度的提高垃圾短信号码识别准确率的方法。
背景技术
短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也为信息垃圾的传播提供了渠道。而垃圾短信息有着愈演愈烈的趋势,垃圾短信不但带来用户投诉的不良影响,还存在恶意欠费问题,因此需要对垃圾短信进行实时监控拦截。
垃圾短信的发送内容特征有:1、字数较多,2、内容重复。
根据垃圾短信的内容特征,采用按时间范围统计号码发出的短信流量的方法,识别出短信时间发送大量短信的号码,并列入垃圾短信号码,限制此号码发送短信是一种有效的手段。
上述方法从垃圾短信的内容角度,能够及时发现垃圾短信号码。但是对于正常号码频繁发送短信的情况,如果短信发送的频率比较高,也造成了正常用户号码被列入垃圾短信号码,造成正常号码短信发送不成功。
原有短信流量计算方式为计算时间段内的主叫号码发送短信的频度,超出流量阈值即为垃圾短信号码。
请参阅图1,设定流量阈值为10条/1分钟,超出此值为垃圾短信号码,号码8613988888888在08:00:00-08:00:45的45秒内达到了10条。号码8613988888888被列为垃圾短信号码。
发明内容
本发明的目的在于克服现有技术的缺陷,而提供一种基于内容相同度的提高垃圾短信号码识别准确率的方法,它能够提高垃圾短信识别准确率,当短信流量超频时能够根据短信的内容分布状况分析用户的发送行为,排除正常短信号码,减少垃圾短信拦截误拦率。
实现上述目的的技术方案是:一种基于内容相同度的提高垃圾短信号码识别准确率的方法,
设定内容相同度的阈值;
在设定的时间范围内,记录主叫号码发送的每条短信,在每条短信属性中增加短信内容特征值;
当设定的时间范围内主叫号码发送的短信数量超出阈值时,计算此主叫号码发送短信的内容相同度,内容相同度=(短信数-不重复短信内容数)/短信数的百分比;
当内容相同度超出设定的内容相同度阈值时,认为此主叫号码是垃圾短信号码;
当内容相同度未达到设定的内容相同度阈值时,则不认为此主叫号码是垃圾短信号码。
上述的基于内容相同度的提高垃圾短信号码识别准确率的方法,其中,它包括以下步骤:
首先,记录每个主叫号码发送短信的时间、内容特征值,检查主叫号码发送的每一条短信是否达到了指定时间段内的流量阈值,根据不同的状态作相应的处理;
若不超过流量阈值,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,并且继续监测;
若超出流量阈值但未达到设定的内容相同度,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,此号码不作为垃圾短信号码,并且继续监测;
若超出流量阈值且超出设定的内容相同度,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,列入垃圾短信号码中作为垃圾短信号码。
本发明的有益效果是:本发明按流量统计短信时提高垃圾短信号码准确率,同传统单纯按照流量统计的方法不同,超频后进行二次计算。采用了该方法,流量超频时,再次统计内容的相同度,能够过滤点对点的正常短信,避免了错误的把正常号码列入垃圾短信号码。
附图说明
图1是现有技术的无内容特征值的统计队列示意图;
图2是本发明的一实施例的流程图;
图3是本发明的实施例的有内容特征值的统计队列示意图。
具体实施方式
本发明的一种基于内容相同度的提高垃圾短信号码识别准确率的方法,实现方法:设定内容相同度的阈值;在设定的时间范围内,记录主叫号码发送的每条短信,在每条短信属性中增加短信内容特征值;当设定的时间范围内主叫号码发送的短信数量超出阈值时,计算此主叫号码发送短信的内容相同度,内容相同度=(短信数-不重复短信内容数)/短信数的百分比;当内容相同度超出设定的内容相同度阈值时,认为此主叫号码是垃圾短信号码;当内容相同度未达到设定的内容相同度阈值时,则不认为此主叫号码是垃圾短信号码。
该方法包括以下步骤:
首先,记录每个主叫号码发送短信的时间、内容特征值,检查主叫号码发送的每一条短信是否达到了指定时间段内的流量阈值,根据不同的状态作相应的处理;
若不超过流量阈值,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,并且继续监测;
若超出流量阈值但未达到设定的内容相同度,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,此号码不作为垃圾短信号码,并且继续监测;
若超出流量阈值且超出设定的内容相同度,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,列入垃圾短信号码中作为垃圾短信号码。
下面将结合一实施例对本发明作进一步说明。
请参阅图2,为本发明的一实施例的流程图,包括以下步骤:
步骤S1,接收短信;
步骤S2,存入按主叫号码的短信队列;
步骤S3,判断该主叫号码是否超出流量阈值,
若是,则进入步骤S4;
若不是,则返回步骤S1;
步骤S4,判断该主叫号码的内容相同度是否超出阈值;
若是,则进入步骤S5;
若不是,则返回步骤S1;
步骤S5,确认,即确认为垃圾短信号码。
请参阅图3,本发明的实施例的有内容特征值的统计队列示意图,它在原有统计方式上设定内容相同度合适的数值(如80%),增加内容特征值字段,计算短信内容的相同度,超出此数值判定为垃圾短信号码。
附图3中主叫号码发送的短信中不重复内容特征值数为9个,短信数为10条,内容相同度=(短信数-不重复短信内容数)/短信数的百分比=(10-9)/10=10%。所以,此主叫号码虽然超出流量阈值,但不作为垃圾短信号码。采用内容相同度过滤增加了垃圾短信号码的准确率。
综上所述,本发明对时间段内短信发送超出流量阈值后,进而对于短信内容的分布情况进行统计,根据监控时段内计算号码发送短信的内容相同度,对超出设定阈值的号码,列入垃圾短信号码;在监控时段时,号码发送超频时,再计算短信内容的相同度进而提高准确率。具体地说,当号码在规定的时间范围内发送的短信数超出事先设定的阈值时,通过计算短信内容的的相同度,过滤掉正常的短信号码,识别出垃圾短信号码,提高垃圾短信号码识别准确率。
本发明可应用于短信优化系统,采用了这种方法,证明可行有效,减少了垃圾短信的误拦率,提高了垃圾短信识别的命中度。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (2)
1.一种基于内容相同度的提高垃圾短信号码识别准确率的方法,其特征在于,
设定内容相同度的阈值;
在设定的时间范围内,记录主叫号码发送的每条短信,在每条短信属性中增加短信内容特征值;
当设定的时间范围内主叫号码发送的短信数量超出阈值时,计算此主叫号码发送短信的内容相同度,内容相同度=(短信数-不重复短信内容数)/短信数的百分比;
当内容相同度超出设定的内容相同度阈值时,认为此主叫号码是垃圾短信号码;
当内容相同度未达到设定的内容相同度阈值时,则不认为此主叫号码是垃圾短信号码。
2.根据权利要求1所述的基于内容相同度的提高垃圾短信号码识别准确率的方法,其特征在于,它包括以下步骤:
首先,记录每个主叫号码发送短信的时间、内容特征值,检查主叫号码发送的每一条短信是否达到了指定时间段内的流量阈值,根据不同的状态作相应的处理;
若不超过流量阈值,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,并且继续监测;
若超出流量阈值但未达到设定的内容相同度,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,此号码不作为垃圾短信号码,并且继续监测;
若超出流量阈值且超出设定的内容相同度,则清除此主叫号码的过期短信,保留指定时间段内的短信,记录每条短信的时间和内容特征值,列入垃圾短信号码中作为垃圾短信号码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910200650XA CN102111731A (zh) | 2009-12-24 | 2009-12-24 | 基于内容相同度的提高垃圾短信号码识别准确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910200650XA CN102111731A (zh) | 2009-12-24 | 2009-12-24 | 基于内容相同度的提高垃圾短信号码识别准确率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102111731A true CN102111731A (zh) | 2011-06-29 |
Family
ID=44175728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910200650XA Pending CN102111731A (zh) | 2009-12-24 | 2009-12-24 | 基于内容相同度的提高垃圾短信号码识别准确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102111731A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833713A (zh) * | 2012-08-31 | 2012-12-19 | 中国联合网络通信集团有限公司 | 识别垃圾短信的方法及装置 |
CN103167501A (zh) * | 2011-12-15 | 2013-06-19 | 上海粱江通信系统股份有限公司 | 基于被叫离散度的提高骚扰电话号码识别正确率的方法 |
CN103188635A (zh) * | 2011-12-29 | 2013-07-03 | 上海粱江通信系统股份有限公司 | 一种基于频次和被叫分布规则识别垃圾短信源的方法 |
CN103188682A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团吉林有限公司 | 一种控制发送垃圾消息的通信号码的方法以及装置 |
CN103796207A (zh) * | 2012-11-02 | 2014-05-14 | 中国移动通信集团上海有限公司 | 一种虚假用户号码识别方法及装置 |
CN103888919A (zh) * | 2012-12-19 | 2014-06-25 | 中兴通讯股份有限公司 | 短消息监控方法及装置 |
CN107094126A (zh) * | 2016-02-17 | 2017-08-25 | 中国移动通信集团浙江有限公司 | 一种病毒短信的拦截方法、装置及系统 |
-
2009
- 2009-12-24 CN CN200910200650XA patent/CN102111731A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103167501A (zh) * | 2011-12-15 | 2013-06-19 | 上海粱江通信系统股份有限公司 | 基于被叫离散度的提高骚扰电话号码识别正确率的方法 |
CN103188635A (zh) * | 2011-12-29 | 2013-07-03 | 上海粱江通信系统股份有限公司 | 一种基于频次和被叫分布规则识别垃圾短信源的方法 |
CN103188635B (zh) * | 2011-12-29 | 2017-08-08 | 上海粱江通信系统股份有限公司 | 一种基于频次和被叫分布规则识别垃圾短信源的方法 |
CN103188682A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团吉林有限公司 | 一种控制发送垃圾消息的通信号码的方法以及装置 |
CN103188682B (zh) * | 2011-12-30 | 2016-05-25 | 中国移动通信集团吉林有限公司 | 一种控制发送垃圾消息的通信号码的方法以及装置 |
CN102833713A (zh) * | 2012-08-31 | 2012-12-19 | 中国联合网络通信集团有限公司 | 识别垃圾短信的方法及装置 |
CN103796207A (zh) * | 2012-11-02 | 2014-05-14 | 中国移动通信集团上海有限公司 | 一种虚假用户号码识别方法及装置 |
CN103888919A (zh) * | 2012-12-19 | 2014-06-25 | 中兴通讯股份有限公司 | 短消息监控方法及装置 |
CN107094126A (zh) * | 2016-02-17 | 2017-08-25 | 中国移动通信集团浙江有限公司 | 一种病毒短信的拦截方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102111731A (zh) | 基于内容相同度的提高垃圾短信号码识别准确率的方法 | |
CN101790142B (zh) | 结合短信内容和发送频次识别垃圾短信源的系统与方法 | |
CN101771966B (zh) | 一种基于关键字和频次识别垃圾短信源的方法 | |
CN102413076A (zh) | 基于行为分析的垃圾邮件判定系统 | |
WO2010031294A1 (zh) | 基于区域策略的位置广告业务分众方法及其系统 | |
CN101909261A (zh) | 一种垃圾短信监控的方法和系统 | |
CN101335968B (zh) | 一种垃圾短消息监控后续处理的方法及系统 | |
WO2007070612A3 (en) | Methods, systems, and computer program products for detecting and mitigating fraudulent message service message traffic | |
CN102111723B (zh) | 一种分析短信消息频次与内容识别垃圾短消息用户的方法 | |
CN101389085B (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
CN102231888A (zh) | 一种监控方法和装置 | |
CN101146262A (zh) | 一种移动用户长期活动区域信息生成的方法及系统 | |
CN101472247A (zh) | 一种控制垃圾短信的方法和系统 | |
CN110611929A (zh) | 异常用户识别方法及装置 | |
CN111401874B (zh) | 一种自助交易系统监控方法及装置 | |
CN108322354B (zh) | 一种偷跑流量账户识别方法及装置 | |
CN102104847B (zh) | 基于流量和起呼区域的短消息监控方法和装置 | |
CN102905236B (zh) | 一种垃圾短消息监控方法、装置及系统 | |
CN103188635A (zh) | 一种基于频次和被叫分布规则识别垃圾短信源的方法 | |
CN103139730B (zh) | 用于识别大量号码低频发送垃圾短信情况的方法 | |
CN102111767A (zh) | 基于被叫离散度的提高垃圾短信号码识别正确率的方法 | |
CN110072251A (zh) | 一种分析用户通讯行为与管理用户的方法及装置 | |
CN101827328A (zh) | 一种短消息监控装置及方法 | |
CN104065617B (zh) | 一种骚扰邮件处理方法、装置和系统 | |
CN102572746B (zh) | 一种基于频次和用户发送行为特征识别垃圾短信源的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110629 |