CN103188635B - 一种基于频次和被叫分布规则识别垃圾短信源的方法 - Google Patents

一种基于频次和被叫分布规则识别垃圾短信源的方法 Download PDF

Info

Publication number
CN103188635B
CN103188635B CN201110452694.9A CN201110452694A CN103188635B CN 103188635 B CN103188635 B CN 103188635B CN 201110452694 A CN201110452694 A CN 201110452694A CN 103188635 B CN103188635 B CN 103188635B
Authority
CN
China
Prior art keywords
called
short message
source
rule
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110452694.9A
Other languages
English (en)
Other versions
CN103188635A (zh
Inventor
狄卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Original Assignee
LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd filed Critical LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Priority to CN201110452694.9A priority Critical patent/CN103188635B/zh
Publication of CN103188635A publication Critical patent/CN103188635A/zh
Application granted granted Critical
Publication of CN103188635B publication Critical patent/CN103188635B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于频次和被叫分布规则识别垃圾短信源的方法,包括:设定短信频率门限,即设定的时间粒度范围内主叫源发送短信数量的最大阈值,当设定的时间粒度范围内的主叫源发送的短信数量超出该短信频率门限时,该主叫源的短信将被监控;设定被叫号码分散规则,即在设定的时间粒度范围内监控主叫源短信发送被叫号码的分散规则特征,当主叫源发送行为符合设定的时间粒度范围内的被叫号码分散规则,则判定该主叫源为垃圾短信源。本发明根据垃圾短信的被叫规则与频次相结合的方法拦截短信,采用主叫源监控并符合被叫分散特征的主叫源加入黑名单。

Description

一种基于频次和被叫分布规则识别垃圾短信源的方法
技术领域
本发明涉及一种基于频次和被叫分布规则识别垃圾短信源的方法。
背景技术
随着对垃圾短信治理力度的加大,垃圾短信的发送行为也逐渐变化,垃圾短信源发送垃圾短信的行为也越来越模仿正常用户的发送行为,不仅短信内容多变而且发送被叫号码随机离散,以便用于干扰现有垃圾短信治理系统。即便如此,垃圾短信发送的行为仍然存在着其特有的规律,在发送特定时间内,其被叫号码分散呈现特定的规律。
对于上述的大量号码低速发送垃圾短信的情况,现有的基于频次和内容的拦截方式都不能有效进行识别。
发明内容
本发明的目的在于克服现有技术的缺陷而提供一种基于频次和被叫分布规则识别垃圾短信源的方法,该方法基于短信特定时间内发送频次,并结合当前垃圾短信发送地域性的特点,从短信被叫入手,通过发现被叫号码的规律性,来提高垃圾短信治理系统的查全性和查准率。
实现上述目的的技术方案是:
一种基于频次和被叫分布规则识别垃圾短信源的方法,包括:
设定短信频率门限,该短信频率门限为设定的时间粒度范围内主叫源发送短信数量的最大阈值;当设定的时间粒度范围内的主叫源发送的短信数量超出该短信频率门限时,该主叫源的短信将被监控;
设定被叫号码分散规则,即在设定的时间粒度范围内监控主叫源短信发送被叫号码的分散规则特征;当主叫源发送行为符合设定的时间粒度范围内的被叫号码分散规则,则判定该主叫源为垃圾短信源。
上述的基于频次和被叫分布规则识别垃圾短信源的方法,其中,所述方法包括下列步骤:
步骤S1:设定参数和规则,即设定所述的时间粒度范围、短信频率门限以及被叫号码分散规则,其中,在设定被叫号码分散规则时,设定同一号段发送最大阈值、外省短信比例最大阈值、号码分析单元长度、分析单元的密度最小阈值和号码集中度最大阈值;
步骤S2:接收短信数据并将主被叫信息加入统计队列;
步骤S3:检查主叫源在所述的时间粒度范围内发送的短信数量是否超过所述的短信频率门限;
若没有超过,则返回步骤S2;
若超过,则进入步骤S4;
步骤S4:判断在所述的时间粒度范围内被叫号码的分布是否满足所述的被叫分散规则;
若未满足,直接结束;
若满足,将所述主叫源加入嫌疑黑名单。
上述的基于频次和被叫分布规则识别垃圾短信源的方法,其中,所述的被叫号码分散规则包括:
(1)对被叫号码,即MSISDN(Mobile Subscriber International ISDN/PSTNnumber)号码,进行分析,得到分析号码m,m=Fm(M);建立二维坐标,并针对该被叫号码计算:纵坐标y=Fy(m),横坐标x=Fx(m),其中:
M为MSISDN号码,Fm为被叫号码转换函数,Fm(M)=M的低11位,即提取号码M的低11位;
Fy为纵坐标转换函数,Fy(m)=m的高7位的数值-1300000;
Fx为横坐标转换函数,Fx(m)=m的低4位的数值;
(2)将被叫号码依次在所述的二维坐标中进行标注,记为(xi,yi),即第i条短信的被叫号码位于坐标中的位置点,称为被叫点,其中i为正整数;
(3)以被叫点的y轴坐标为水平线,统计落在该水平线的点的数目,若大于或者等于设定的同一号段发送最大阈值,则将主叫源加入黑名单;否则继续进行后续分析;
(4)对被叫归属地进行分析,统计和主叫归属地不同的短信数目,计算:外省短信比例=被叫同主叫归属地不同的短信数目/短信总数;若大于或者等于设定的外省短信比例最大阈值,则将主叫源加入黑名单;否则继续进行后续分析;
(5)将x轴和y轴以设定的号码分析单元长度N为刻度进行划分,N为正整数,即将二维坐标系划分为等面积大小的以N为边长的正方形,每个正方形作为被叫分析的一个单元,记为Cell;
(6)对包含被叫点数目超出设定的分析单元的密度最小阈值的Cell进行计数;
(7)若超出所述的分析单元的密度最小阈值的Cell的数目为0,则结束;
(8)若超出所述的分析单元的密度最小阈值的Cell的数目不为0,统计包含被叫点Cell的数目,并计算:被叫号码集中度=包含被叫点Cell的数目/超出分析单元的密度最小阈值的Cell的数目;如果被叫号码集中度大于或者等于设定的号码集中度最大阈值,则将主叫源加入黑名单。
上述的基于频次和被叫分布规则识别垃圾短信源的方法,其中,所述步骤S2中,所述的主被叫信息指所接收短信的主叫源信息和被叫号码信息。
上述的基于频次和被叫分布规则识别垃圾短信源的方法,其中,所述的号码分析单元长度N默认为10。
本发明的有益效果是:本发明基于频次和被叫分散规律,当主叫源发送的短信数量超出流量设定阈值时,通过分析被叫号码的规律性和集中度,决定主叫源是否列入黑名单。其中,被叫分散规则的特征在于对被叫号码从<号码号段,号段内序号>进行二维分析,将被叫号码投影到二维坐标,首先根据垃圾短信地域性特点的号段规律性和外省发送比例进行分析,如满足则直接将主叫号码加入黑名单;若不满足以上规则,则通过设定二维坐标中分析的单元大小和分析单元的密度最小阈值,计算出被叫号码集中度并进行分析。本发明通过对垃圾短信源发送的被叫号码的规律性和被叫号码密度集中性进行分析,能够有效排除被叫号码偶然性和离散型的正常用户发送一定数目短信的情况,达到准确查找和治理垃圾短信源的目的,提高垃圾短信治理系统的查全性和查准率。
附图说明
图1是本发明的具体实施例的流程图。
具体实施方式
下面对本发明作进一步说明。
请参阅图1,本发明的基于频次和被叫分布规则识别垃圾短信源的方法,具体包括下列步骤:
步骤S1:设定参数和规则,即设定时间粒度范围、短信频率门限以及被叫号码分散规则,其中:
短信频率门限,即在设定的时间粒度范围内主叫源发送短信数量的最大阈值;当设定的时间粒度范围内的主叫源发送的短信数量超出该短信频率门限时,该主叫源的短信将被监控;
被叫号码分散规则,即在设定的时间粒度范围内监控主叫源短信发送被叫号码的分散规则特征;当主叫源发送行为符合设定的时间粒度范围内的被叫号码分散规则,则判定该主叫源为垃圾短信源,此主叫源的此后所有短信将被拦截;在设定被叫号码分散规则时,需设定同一号段发送最大阈值、外省短信比例最大阈值、号码分析单元长度、分析单元的密度最小阈值和号码集中度最大阈值;
所述的被叫号码分散规则具体包括:
(1)对被叫号码,即MSISDN号码,进行分析,得到分析号码m,m=Fm(M);建立二维坐标,并针对该被叫号码计算:纵坐标y=Fy(m),横坐标x=Fx(m),其中:
M为MSISDN号码,Fm为被叫号码转换函数,Fm(M)=M的低11位,即提取号码M的低11位;
Fy为纵坐标转换函数,Fy(m)=m的高7位的数值-1300000;
Fx为横坐标转换函数,Fx(m)=m的低4位的数值;
以号码“86133H1H2H3H4 K1K2K3K4”为例:
m=Fm(86133H1H2H3H4 K1K2K3K4)=133H1H2H3H4 K1K2K3K4
y=Fy(133H1H2H3H4 K1K2K3K4)=133H1H2H3H4-1300000=3H1H2H3H4
x=Fx(133H1H2H3H4 K1K2K3K4)=K1K2K3K4
(2)将被叫号码依次在所述的二维坐标中进行标注,记为(xi,yi),即第i条短信的被叫号码位于坐标中的位置点,称为被叫点,其中i为正整数;
(3)以被叫点的y轴坐标为水平线,统计落在该水平线的点的数目,若大于或者等于设定的同一号段发送最大阈值,则将主叫源加入黑名单;否则继续进行后续分析;
(4)对被叫归属地进行分析,统计和主叫归属地不同的短信数目,计算:外省短信比例=被叫同主叫归属地不同的短信数目/短信总数;若大于或者等于设定的外省短信比例最大阈值,则将主叫源加入黑名单;否则继续进行后续分析;
(5)将x轴和y轴以设定的号码分析单元长度N为刻度进行划分,N为正整数且默认为10,即将二维坐标系划分为等面积大小的以N为边长的正方形,每个正方形作为被叫分析的一个单元,记为Cell;
(6)对包含被叫点数目超出设定的分析单元的密度最小阈值的Cell进行计数;例如:若Cell的最小点坐标为(x0,y0),最大点坐标为(x1,y1),则统计规则为x0<=xi<x1,y0<=yi<y1,将(xi,yi)进行计数,若超出设定的分析单元的密度最小阈值,则将该Cell计数;
(7)若超出所述的分析单元的密度最小阈值的Cell的数目为0,则结束;
(8)若超出所述的分析单元的密度最小阈值的Cell的数目不为0,统计包含被叫点Cell的数目,即包含至少一个被叫点的Cell的数量;
并计算:被叫号码集中度=包含被叫点Cell的数目/超出分析单元的密度最小阈值的Cell的数目;如果被叫号码集中度大于或者等于设定的号码集中度最大阈值,则将主叫源加入黑名单;其中,被叫号码集中度介于0和设定的号码集中度最大阈值之间,集中度越大,表明垃圾短信源嫌疑越大;
本实施例中,时间粒度范围为24小时;短信频率门限为200条;同一号段发送最大阈值为10条;外省短信比例最大阈值为0.9;号码分析单元长度N为10;分析单元的密度最小阈值为20;号码集中度最大阈值为60;
步骤S2:接收短信数据并将主被叫信息加入统计队列,其中,主被叫信息指所接收短信的主叫源信息和被叫号码信息;
步骤S3:检查主叫源在时间粒度范围24小时内发送的短信数量是否超过短信频率门限200;
若没有超过,则返回步骤S2;
若超过,则进入步骤S4;
步骤S4:判断在时间粒度范围24小时内被叫号码的分布是否满足所述的被叫分散规则;若未满足,直接结束;若满足,进入步骤S5;
本实施例中,步骤S4具体包括如下步骤:
步骤S4.1:进行二维分析,通过转换将主叫源发送的被叫号码投影到二维坐标;
步骤S4.2:依次以被叫点y轴坐标为水平线,统计落在该水平线的被叫点的数目,若大于或者等于同一号段发送最大阈值10,则转步骤S5;若不满足,转步骤S4.3;
步骤S4.3:对被叫归属地进行分析,统计和主叫归属地不同的短信数目,外省短信比例=被叫同主叫归属地不同的短信数目/短信总数,若外省短信比例大于或者等于设定的外省短信比例最大阈值0.9,则转步骤S5;否则转步骤S4.4;
步骤S4.4:将x轴和y轴的刻度以号码分析单元长度10为刻度进行划分,每个正方形单元记为Cell;对包含被叫点数目超出设定的分析单元的密度最小阈值20的Cell进行计数,
若超出分析单元的密度最小阈值20的Cell的数目为0,则结束;
若超出分析单元的密度最小阈值20的Cell的数目不为0,则计算:
被叫号码集中度=包含被叫点Cell的数目/超出分析单元的密度最小阈值的Cell的数目;如果被叫号码集中度大于或者等于号码集中度最大阈值60,则转步骤S5;
步骤S5:将主叫源加入嫌疑黑名单。
上述的主叫源默指同一个主叫源。
综上所述,本发明基于短信特定时间内发送频次,并结合当前垃圾短信发送地域性的特点,从短信被叫入手,通过发现被叫号码的规律性,来提高垃圾短信治理系统的查全性和查准率。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (3)

1.一种基于频次和被叫分布规则识别垃圾短信源的方法,其特征在于,
设定短信频率门限,该短信频率门限为设定的时间粒度范围内主叫源发送短信数量的最大阈值;当设定的时间粒度范围内的主叫源发送的短信数量超出该短信频率门限时,该主叫源的短信将被监控;
设定被叫号码分散规则,即在设定的时间粒度范围内监控主叫源短信发送被叫号码的分散规则特征;当主叫源发送行为符合设定的时间粒度范围内的被叫号码分散规则,则判定该主叫源为垃圾短信源,
所述方法包括下列步骤:
步骤S1:设定参数和规则,即设定所述的时间粒度范围、短信频率门限以及被叫号码分散规则,其中,在设定被叫号码分散规则时,设定同一号段发送最大阈值、外省短信比例最大阈值、号码分析单元长度、分析单元的密度最小阈值和号码集中度最大阈值;
步骤S2:接收短信数据并将主被叫信息加入统计队列;
步骤S3:检查主叫源在所述的时间粒度范围内发送的短信数量是否超过所述的短信频率门限;
若没有超过,则返回步骤S2;
若超过,则进入步骤S4;
步骤S4:判断在所述的时间粒度范围内被叫号码的分布是否满足所述的被叫号码分散规则;
若未满足,直接结束;
若满足,将所述主叫源加入嫌疑黑名单,
所述的被叫号码分散规则包括:
(1)对被叫号码,即MSISDN号码,进行分析,得到分析号码m,m=Fm(M);建立二维坐标,并针对该被叫号码计算:纵坐标y=Fy(m),横坐标x=Fx(m),其中:
M为MSISDN号码,Fm为被叫号码转换函数,Fm(M)=M的低11位,即提取号码M的低11位;
Fy为纵坐标转换函数,Fy(m)=m的高7位的数值-1300000;
Fx为横坐标转换函数,Fx(m)=m的低4位的数值;
(2)将被叫号码依次在所述的二维坐标中进行标注,记为(xi,yi),即第i条短信的被叫号码位于坐标中的位置点,称为被叫点,其中i为正整数;
(3)以被叫点的y轴坐标为水平线,统计落在该水平线的点的数目,若大于或者等于设定的同一号段发送最大阈值,则将主叫源加入黑名单;否则继续进行后续分析;
(4)对被叫归属地进行分析,统计和主叫归属地不同的短信数目,计算:外省短信比例=被叫同主叫归属地不同的短信数目/短信总数;若大于或者等于设定的外省短信比例最大阈值,则将主叫源加入黑名单;否则继续进行后续分析;
(5)将x轴和y轴以设定的号码分析单元长度N为刻度进行划分,N为正整数,即将二维坐标系划分为等面积大小的以N为边长的正方形,每个正方形作为被叫分析的一个单元,记为Cell;
(6)对包含被叫点数目超出设定的分析单元的密度最小阈值的Cell进行计数;
(7)若超出所述的分析单元的密度最小阈值的Cell的数目为0,则结束;
(8)若超出所述的分析单元的密度最小阈值的Cell的数目不为0,统计包含被叫点Cell的数目,并计算:被叫号码集中度=包含被叫点Cell的数目/超出分析单元的密度最小阈值的Cell的数目;如果被叫号码集中度大于或者等于设定的号码集中度最大阈值,则将主叫源加入黑名单。
2.根据权利要求1所述的基于频次和被叫分布规则识别垃圾短信源的方法,其特征在于,所述步骤S2中,所述的主被叫信息指所接收短信的主叫源信息和被叫号码信息。
3.根据权利要求1所述的基于频次和被叫分布规则识别垃圾短信源的方法,其特征在于,所述的号码分析单元长度N默认为10。
CN201110452694.9A 2011-12-29 2011-12-29 一种基于频次和被叫分布规则识别垃圾短信源的方法 Expired - Fee Related CN103188635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110452694.9A CN103188635B (zh) 2011-12-29 2011-12-29 一种基于频次和被叫分布规则识别垃圾短信源的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110452694.9A CN103188635B (zh) 2011-12-29 2011-12-29 一种基于频次和被叫分布规则识别垃圾短信源的方法

Publications (2)

Publication Number Publication Date
CN103188635A CN103188635A (zh) 2013-07-03
CN103188635B true CN103188635B (zh) 2017-08-08

Family

ID=48679523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110452694.9A Expired - Fee Related CN103188635B (zh) 2011-12-29 2011-12-29 一种基于频次和被叫分布规则识别垃圾短信源的方法

Country Status (1)

Country Link
CN (1) CN103188635B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110505353A (zh) * 2019-08-30 2019-11-26 北京泰迪熊移动科技有限公司 一种号码识别方法、设备及计算机存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125546B (zh) * 2014-04-03 2018-05-04 上海粱江通信系统股份有限公司 短信订阅业务类型集中管控方法及系统
CN109660961B (zh) * 2018-12-17 2021-03-30 珠海市小源科技有限公司 短信号码及其归属信息的匹配方法、装置及存储介质
CN113795002B (zh) * 2021-10-26 2022-07-08 中国联合网络通信集团有限公司 垃圾短信的拦截方法、装置和计算机可读存储介质
CN117202098A (zh) * 2022-06-01 2023-12-08 华为技术有限公司 一种通信方法、系统和通信装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101730017A (zh) * 2008-10-27 2010-06-09 中国移动通信集团吉林有限公司 一种垃圾短信发送用户确定方法与装置
CN101771966A (zh) * 2010-03-11 2010-07-07 上海粱江通信系统股份有限公司 一种基于关键字和频次识别垃圾短信源的方法
CN102111731A (zh) * 2009-12-24 2011-06-29 上海粱江通信系统股份有限公司 基于内容相同度的提高垃圾短信号码识别准确率的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101730017A (zh) * 2008-10-27 2010-06-09 中国移动通信集团吉林有限公司 一种垃圾短信发送用户确定方法与装置
CN102111731A (zh) * 2009-12-24 2011-06-29 上海粱江通信系统股份有限公司 基于内容相同度的提高垃圾短信号码识别准确率的方法
CN101771966A (zh) * 2010-03-11 2010-07-07 上海粱江通信系统股份有限公司 一种基于关键字和频次识别垃圾短信源的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110505353A (zh) * 2019-08-30 2019-11-26 北京泰迪熊移动科技有限公司 一种号码识别方法、设备及计算机存储介质

Also Published As

Publication number Publication date
CN103188635A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN103188635B (zh) 一种基于频次和被叫分布规则识别垃圾短信源的方法
CN100479572C (zh) 一种垃圾短信可疑用户监控方法和系统
CN103116696B (zh) 基于稀疏采样的手机定位数据的人员常驻地点识别方法
CN103813278B (zh) 一种短信发送处理方法、装置及系统
CN105869035A (zh) 一种移动用户信用评估方法及装置
CN104660481A (zh) 即时通讯消息处理方法及装置
CN103020152B (zh) 社交网络信息流显示方法和移动终端
CN109561404A (zh) 一种短信推送优先级调整的方法及系统
CN102231888A (zh) 一种监控方法和装置
CN103188348A (zh) 一种基于文件分享的联系人管理方法
CN107067189A (zh) 预警策略确定方法和预警策略确定装置
CN103888919A (zh) 短消息监控方法及装置
CN103905622A (zh) 移动终端中联系人的区分方法、装置及移动终端
CN102905236B (zh) 一种垃圾短消息监控方法、装置及系统
CN102111731A (zh) 基于内容相同度的提高垃圾短信号码识别准确率的方法
CN106845882A (zh) 用于群发短信的方法、服务器以及系统
CN107015993A (zh) 一种用户类型识别方法及装置
CN105812460A (zh) 一种面向企业客户的移动互联网消息推送技术
CN103874033B (zh) 一种基于中文分词识别不规则垃圾短信的方法
CN103139730B (zh) 用于识别大量号码低频发送垃圾短信情况的方法
CN106056137A (zh) 一种基于数据挖掘多分类算法的电信集团业务推荐方法
CN106411704A (zh) 一种分布式垃圾短信识别方法
CN201985891U (zh) 一种防止社交网络中陌生人骚扰的系统
WO2015188500A1 (zh) 一种短信监控方法及装置
CN112152818B (zh) 话单处理方法、装置、系统、存储介质和网络设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170808

Termination date: 20201229

CF01 Termination of patent right due to non-payment of annual fee