CN104581729A - 垃圾信息处理方法及装置 - Google Patents
垃圾信息处理方法及装置 Download PDFInfo
- Publication number
- CN104581729A CN104581729A CN201410504998.9A CN201410504998A CN104581729A CN 104581729 A CN104581729 A CN 104581729A CN 201410504998 A CN201410504998 A CN 201410504998A CN 104581729 A CN104581729 A CN 104581729A
- Authority
- CN
- China
- Prior art keywords
- information
- junk information
- seed
- junk
- clique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/18—Service support devices; Network management devices
- H04W88/184—Messaging devices, e.g. message centre
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种垃圾信息处理方法及装置,该方法包括:采用获取垃圾信息种子;以垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;确定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息,通过本发明,解决了相关技术中存在无法对整个团伙垃圾拦截的问题,进而达到了能够对垃圾主叫号码团伙以及垃圾内容团伙进行有效识别,大幅提升垃圾信息治理的效果。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种垃圾信息处理方法及装置。
背景技术
短消息业务是基于移动通讯网络的简短文本信息收发方式。消息由短信服务中心(ShortMessage Service Center,简称为SMSC)负责接收、转存和发送。该业务广泛应用于所有移动通信网络:全球移动通信(Global system for Mobile Communication,简称为GSM)、码分多址(Code Division Multiple Access,简称为CDMA)、个人便携式电话系统(Personal HandyphoneSystem,简称为PHS),以及宽带码分多址接入(Wideband Code Division Multiple Access,简称为WCDMA)、CDMA2000、时分同步码分多址接入(Time Division-Synchronous Code DivisionMultiple Access,简称为TD-SCDMA)等3G网络,发展迅速,并有着更广的发展前景,已经日益成为手机用户应用最频繁的业务之一。而不少商家亦越来越青睐这一便捷、低廉的广告途径。然而这也带来了新的问题:如何更高效地过滤垃圾短消息。
在申请号为:CN200510086930,发明名称为“一种短消息业务系统及其实现短消息过滤的方法”的专利文件中提出,在短消息中心设置过滤垃圾短信条件,对满足条件的消息进行鉴权,并根据鉴权结果控制短信的下发。能实现对垃圾短信的实时监控、实时过滤。
另外,在相关技术中垃圾短信监控策略主要采用流量门限规则、内容关键字匹配规则、目的号码连续性、消息投送状态等进行垃圾短信监控。基于规则的监控,很容易被垃圾发送者识别并化解,但是,目前垃圾短信发送趋向于团伙性、单号码低频性、内容多变性,即成百上千号码参与一种垃圾短信发送,每个号码仅发送少量的消息,并且发送的内容多变,传统的基于流量门限、内容关键字匹配、目的号码联系特征等难以有效识别这些垃圾短消息,通常只能拦截其中一部分垃圾短信,难以将整个团伙识别并拦截。
因此,在相关技术中存在无法对整个团伙垃圾拦截的问题。
发明内容
本发明提供了一种垃圾信息处理方法及装置,以至少解决相关技术中存在的无法对整个团伙垃圾拦截的问题。
根据本发明的一个方面,提供了一种垃圾信息处理方法,包括:获取垃圾信息种子;以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
优选地,获取所述垃圾信息种子包括以下至少之一:由垃圾信息监控系统监控到的垃圾信息提供所述垃圾信息种子;由短消息中心获取信息话单文件中的信息提供所述垃圾信息种子;由用户投诉的垃圾信息提供所述垃圾信息种子。
优选地,确定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码包括:将与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码。
优选地,依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码包括:对所述垃圾信息主叫号码团伙集中的号码进行排序;获取排序后的预定间隔内的连续号码数;判断所述连续号码数是否超过第一预定阈值;在判断结果为是的情况下,确定信息主叫号码为所述垃圾信息号码。
优选地,确定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息包括:将与所述垃圾信息种子有直接或间接虫网关系的所述信息划分为垃圾信息内容团伙集;依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息。
优选地,通过以下方式至少之一依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息包括:通过判断所述垃圾信息内容团伙集中所述信息与所述垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得所述信息与所述垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定所述信息为所述垃圾信息;判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的发送条数,在发送条数超过第三预定阈值的情况下,确定所述信息为所述垃圾信息;判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的参与主叫号码数,在所述参与主叫号码数超过第四预定阈值的情况下,确定所述信息为所述垃圾信息。
根据本发明的另一方面,提供了一种垃圾信息处理装置,包括:获取模块,用于获取垃圾信息种子;处理模块,用于以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;第一确定模块,用于确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码;和/或,第二确定模块,用于确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
优选地,所述获取模块包括以下至少之一:第一提供单元,用于由垃圾信息监控系统监控到的垃圾信息提供所述垃圾信息种子;第二提供单元,用于由短消息中心获取信息话单文件中的信息提供所述垃圾信息种子;第三提供单元,用于由用户投诉的垃圾信息提供所述垃圾信息种子。
优选地,所述第一确定模块包括:第一切分单元,用于将与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;第一判定单元,用于依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码。
优选地,所述第一判定单元包括:排序子单元,用于对所述垃圾信息主叫号码团伙集中的号码进行排序;获取子单元,用于获取排序后的预定间隔内的连续号码数;判断子单元,用于判断所述连续号码数是否超过第一预定阈值;第一确定子单元,用于在判断结果为是的情况下,确定信息主叫号码为所述垃圾信息号码。
优选地,所述第二确定模块包括:第二切分单元,用于将与所述垃圾信息种子有直接或间接虫网关系的所述信息划分为垃圾信息内容团伙集;第二判定单元,用于依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息。
优选地,所述第二判定单元包括以下至少之一:第二确定子单元,用于通过判断所述垃圾信息内容团伙集中所述信息与所述垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得所述信息与所述垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定所述信息为所述垃圾信息;第三确定子单元,用于判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的发送条数,在发送条数超过第三预定阈值的情况下,确定所述信息为所述垃圾信息;第四确定子单元,用于判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的参与主叫号码数,在所述参与主叫号码数超过第四预定阈值的情况下,确定所述信息为所述垃圾信息。
通过本发明,采用获取垃圾信息种子;以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息,解决了相关技术中存在无法对整个团伙垃圾拦截的问题,进而达到了能够对垃圾主叫号码团伙以及垃圾内容团伙进行有效识别,大幅提升垃圾信息治理的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的垃圾信息处理方法的流程图;
图2是根据本发明实施例的垃圾信息处理装置的结构框图;
图3是根据本发明实施例的垃圾信息处理装置中获取模块22的优选结构框图;
图4是根据本发明实施例的垃圾信息处理装置中第一确定模块26的优选结构框图;
图5是根据本发明实施例的垃圾信息处理装置中第一确定模块26中第一判定单元44的优选结构框图;
图6是根据本发明实施例的垃圾信息处理装置中第二确定模块28的优选结构框图;
图7是根据本发明实施例的垃圾信息处理装置中第二确定模块28中的第二判定单元64的优选结构框图;
图8是根据本发明优选实施方式的垃圾信息爬虫处理的系统架构图;
图9是根据本发明优选实施方式的垃圾信息爬虫处理的示意图;
图10是根据本发明优选实施方式的爬虫迭代处理的逻辑流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种垃圾信息处理方法,图1是根据本发明实施例的垃圾信息处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取垃圾信息种子;
步骤S104,以垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;
步骤S106,确定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
通过上述步骤,依据垃圾信息内容或是垃圾主叫号码进行迭代爬行处理,相对于相关技术中仅对垃圾信息进行简单的流量门限规则,内容关键字匹配规则处理,无法对团伙性的垃圾信息操作进行有效识别,不仅解决了相关技术中存在无法对整个团伙垃圾拦截的问题,进而达到了能够对垃圾主叫号码团伙以及垃圾内容团伙进行有效识别,大幅提升垃圾信息治理的效果。
需要说明的是,上述获取垃圾信息种子可以采用多种处理方式,例如,可以采用以下方式至少之一来获取该垃圾信息种子:由垃圾信息监控系统监控到的垃圾信息提供垃圾信息种子;由短消息中心获取信息话单文件中的信息提供垃圾信息种子;由用户投诉的垃圾信息提供垃圾信息种子。
其中,确定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息也可以采用以下较为简单的处理方式,下面分别对上述两个处理步骤进行说明。
确定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码可以采用以下处理方式:首先,将与垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;之后,依据垃圾信息主叫号码团伙集判定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码。其中,依据垃圾信息主叫号码团伙集判定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码可以包括:对垃圾信息主叫号码团伙集中的号码进行排序;获取排序后的预定间隔内的连续号码数;判断连续号码数是否超过第一预定阈值;在判断结果为是的情况下,确定信息主叫号码为垃圾信息号码。
确定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息可以采用以下处理方式:将与垃圾信息种子有直接或间接虫网关系的信息划分为垃圾信息内容团伙集;依据垃圾信息内容团伙集判定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。其中,依据垃圾信息内容团伙集判定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息也可以采用多种方式,例如,可以通过以下方式至少之一来实现:通过判断垃圾信息内容团伙集中信息与垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得信息与垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定信息为垃圾信息;判断垃圾信息内容团伙集中与垃圾信息种子有直接或间接虫网关系的信息的发送条数,在发送条数超过第三预定阈值的情况下,确定信息为垃圾信息;判断垃圾信息内容团伙集中与垃圾信息种子有直接或间接虫网关系的信息的参与主叫号码数,在参与主叫号码数超过第四预定阈值的情况下,确定信息为垃圾信息。
在本实施例中还提供了一种垃圾信息处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的垃圾信息处理装置的结构框图,如图2所示,该装置包括获取模块22、处理模块24、第一确定模块26和/或第二确定模块28,下面对该装置进行说明。
获取模块22,用于获取垃圾信息种子;处理模块24,连接至上述获取模块22,用于以垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;第一确定模块26,连接至上述处理模块24,用于确定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码;和/或,第二确定模块28,连接至上述处理模块24,用于确定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
图3是根据本发明实施例的垃圾信息处理装置中获取模块22的优选结构框图,如图3所示,该获取模块22包括第一提供单元32、第二提供单元34和第三提供单元36,下面对该获取模块22进行说明。
第一提供单元32,用于由垃圾信息监控系统监控到的垃圾信息提供垃圾信息种子;第二提供单元34,用于由短消息中心获取信息话单文件中的信息提供垃圾信息种子;第三提供单元36,用于由用户投诉的垃圾信息提供垃圾信息种子。
图4是根据本发明实施例的垃圾信息处理装置中第一确定模块26的优选结构框图,如图4所示,该第一确定模块24包括第一切分单元42、第一判定单元44,下面对该第一确定模块24进行说明。
第一切分单元42,用于将与垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;第一判定单元44,连接至上述第一切分单元42,用于依据垃圾信息主叫号码团伙集判定与垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码。
图5是根据本发明实施例的垃圾信息处理装置中第一确定模块26中第一判定单元44的优选结构框图,如图5所示,第一判定单元44包括排序子单元52、获取子单元54、判断子单元56和第一确定子单元58,下面对该第一判定单元44进行说明。
排序子单元52,用于对垃圾信息主叫号码团伙集中的号码进行排序;获取子单元54,连接至上述排序子单元52,用于获取排序后的预定间隔内的连续号码数;判断子单元56,连接至上述获取子单元54,用于判断连续号码数是否超过第一预定阈值;第一确定子单元58,连接至上述判断子单元56,用于在判断结果为是的情况下,确定信息主叫号码为垃圾信息号码。
图6是根据本发明实施例的垃圾信息处理装置中第二确定模块28的优选结构框图,如图6所示,该第二确定模块28包括第二切分单元62和第二判定单元64,下面对该第二确定模块28进行说明。
第二切分单元62,用于将与垃圾信息种子有直接或间接虫网关系的信息划分为垃圾信息内容团伙集;第二判定单元64,连接至上述第二切分单元62,用于依据垃圾信息内容团伙集判定与垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
图7是根据本发明实施例的垃圾信息处理装置中第二确定模块28中的第二判定单元64的优选结构框图,如图7所示,该第二判定单元64包括以下至少之一:第二确定子单元72、第三确定子单元74、第四确定子单元76,下面对该第二判定单元64进行说明。
第二确定子单元72,用于通过判断垃圾信息内容团伙集中信息与垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得信息与垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定信息为垃圾信息;第三确定子单元74,用于判断垃圾信息内容团伙集中与垃圾信息种子有直接或间接虫网关系的信息的发送条数,在发送条数超过第三预定阈值的情况下,确定信息为垃圾信息;第四确定子单元76,用于判断垃圾信息内容团伙集中与垃圾信息种子有直接或间接虫网关系的信息的参与主叫号码数,在参与主叫号码数超过第四预定阈值的情况下,确定信息为垃圾信息。
随着相关技术中,垃圾短信治理的发展,基于流量门限和关键字规则的监控技术已经相对成熟,垃圾短信发送者为绕过这些规则,趋向于群体号码参与、每个号码低频发送。在本实施例中基于垃圾短信的发送的群到群特征,以及垃圾短信监控结果,提供了一种有效的识别团伙性、发送低频性垃圾短信监控识别方法。该垃圾短信分析识别方法为基于爬虫的垃圾短信识别方法,即,垃圾主叫和垃圾短信反复迭代的爬虫识别技术。
实时监控系统通过各种监控策略可以识别一定垃圾短信、移动人工投诉平台能提供一定垃圾短信、短信人工审核台等可以确切的得到一定垃圾短信。或者根据疑似短信,生成粗垃圾短信种子集合。以这些垃圾短信为种子,生成垃圾短信种子短信内容列表集,再以种子短信列表集内每一条垃圾短信为起点,以一定周期的短信历史话单文件集为爬虫处理体,依次执行以短信内容爬垃圾短信主叫号码,以垃圾短信主叫号码爬短信内容,以短信内容爬垃圾短信主叫号码......,如此逐层迭代爬行,直到爬出与垃圾种子短信内容有直接或间接虫网关系的短信。
之后,将爬出的垃圾短信根据虫网关系,将所有有直接间接联系的垃圾短信号码识别为一组垃圾短信主叫号码团伙集;将所有有直接间接联系的垃圾短信内容识别为一组垃圾短信内容团伙集;最终可以识别出多组团伙集。
之后,再对短信主叫号码团伙集和垃圾短信内容团伙集,进行评估审核,审核方式既可以采用基于规则方式进行自动处理,也可以送维护中心进行人工审核。其中审核时可以综合“主叫号码团伙集成员大小”、“主叫号码团伙集成员号码连续性”、“垃圾短信内容团伙集”短消息内容是否有相似性(垃圾短信发送一般加载噪声,通过判断内容体间相似性可以确定是否为垃圾短信)、“垃圾短信内容团伙集”内每一种短信的发送条数、以及总发送条数来进一步判断是否为垃圾短信。
之后,将判定后的“短信主叫号码团伙集”作为黑名单团伙集合,送实时监控系统或归属位置寄存器(Home Location Register,简称为HLR)或短信中心作为黑名单号码;将判定后的“垃圾短信内容团伙集”的短信内容列表送实时监控系统或者操作维护中心,作为垃圾短信样本集以及内容关键字识别参考集。
需要说明的是,在本实施例及优选实施方式中提出的基于爬虫的垃圾短信识别方法,是一种事后基于话单的垃圾短信监控方法。通过这种方案,可以识别团伙性低频发送短信,即群到群垃圾短信发送,能够识别主叫号码团伙和垃圾内容团伙,可以大幅提升垃圾短信治理效果。
另外,上述方案的实施系统独立于现有实时监控子系统,对短信下发、实时监控消息流程无影响。而且,本发明不限制消息类型和网络类型,能分析全球移动通信(Global system forMobile Communication,简称为GSM)、码分多址(Code Division Multiple Access,简称为CDMA)、个人便携式电话系统(Personal Handyphone System,简称为PHS)等无线通信网络短信业务。
下面结合附图对本发明优选实施方式进行说明。
图8是根据本发明优选实施方式的垃圾信息爬虫处理的系统架构图,如图8所示,该系统包括:垃圾短信实时监控系统8、短消息中心11、人工审核平台(或称运营商垃圾短信投诉平台)9、垃圾短信爬虫分析挖掘系统10、操作维护子系统(或称操作维护台)7,以及归属用户服务器HLR6等。
垃圾短信爬虫分析挖掘系统10是系统的核心处理模块,它的输入为短消息历史话单,1)可以由垃圾短信实时监控系统8提供、2)也可以直接从短消息中心11获取短信话单文件;它的另外一种输入为垃圾短消息,1)由人工审核平台9提供,人工审核平台9为运营商建设的第三方维护平台,当手机用户收到垃圾短信后,可以向该平台投诉,该平台将垃圾短信送给挖掘系统10。2)垃圾短信实时监控系统8,实时监控到的垃圾短信,送垃圾短信爬虫分析挖掘系统10。
操作维护台7,实现对挖掘出的团伙号码、团伙短信的评估审核,垃圾短信爬虫分析挖掘系统10,分析挖掘出来的团伙号码、团伙消息发送给7,7再将审核之后的确定的团伙号码、团伙垃圾消息内容,发送给垃圾短信实时监控系统8,进行黑名单加黑,内容关键字更新等。
HLR 6,挖掘系统挖掘出的垃圾短信发送团伙号码,送该系统加黑,进行短消息拦截,该模块为可选。
接口说明:
1接口为爬虫挖掘系统短消息历史话单输入接口,本方案采用FTP接口实现,但不仅限于该种方式;
2接口为垃圾短信种子样本输入接口,本方案采用FTP接口实现,但不仅限于该种方式;
3接口为爬虫挖掘系统短消息历史话单输入接口(历史话单输入可以选择1接口实现,如果采用1接口,则该接口不提供历史话单)、垃圾短信种子样本(实时监控系统监控到的垃圾短信)输入接口。本方案采用FTP接口实现,但不仅限于该种方式;
4接口为垃圾短信发送团伙号码、团伙短信内容送实时监控系统加黑名单接口、其中短信内容也送实时系统,用于关键字规则配置参考。本方案采用FTP接口实现,但不仅限于该种方式;
5接口垃圾短信送给挖掘系统10分析挖掘出的初次团伙号码、团伙短信内容送操作维护台,进行审核评估。本方案采用FTP接口实现,但不仅限于该种方式;
12接口垃圾短信发送团伙号码送短消息中心加黑名单接口,本方案采用FTP接口实现,但不仅限于该种方式;
13接口垃圾短信发送团伙号码送HLR加黑名单接口,本方案采用FTP接口实现,但不仅限于该种方式;
评估审核:
当以可疑短信号码为种子号码进行爬虫处理时,存在爬出正常短信的情况,需要对短信主叫号码团伙集和垃圾短信内容团伙集,进行评估审核,审核方式既可以采用基于规则方式进行自动处理,也可以送维护中心进行人工审核。本方案可以采用基于以下规则的自动处理方式:
(1)主叫号码团伙集成员号码连续性检测,对团伙内号码进行排序计算号码间隔差,设定相邻号码最小间隔差Dm,最小连续号码阈值Hc,如果在Dm之内的连续号码数据超过Hc,则认为该主叫号码团伙集具有连续号码特征。一旦满足该特征,则判断该团伙为有效垃圾短信发送团伙。
(2)垃圾短信内容团伙集内短消息内容进行相似性检测,本方案采用比较两条消息间公共字符个数与消息最大长度的比来确定是否具有相似性;设定门限S,例如,S可以设定为0.7,即表示两消息有70%字符是相同的,则认为是相似内容。
(3)计算垃圾短信内容团伙集内每一种短信的发送条数,设定门限Mc,当存在大于Mc的消息时,则认为该集团具有高量发特征。
(4)计算垃圾短信内容团伙集内每一种短信参与主叫号码数,设定门限Cc,当存在大于Cc的消息时,则认为该集团具有群参与特征。
当同时出现(2)+(3)、(2)+(4)、(3)+(4)特征时,则判断该团伙为垃圾短信发送团伙。
图9是根据本发明优选实施方式的垃圾信息爬虫处理的示意图,如图9所示,此处信息以垃圾短信为例进行说明,有三个垃圾短信发送主叫号码,共同参与发送了MessageA~F(消息A~F)6种垃圾短信,每个用户均参与发送其中的一部分。MessageA(消息A)为用户向投递平台举报的垃圾短信,爬虫系统以MessageA为种子,首先通过MessageA内容爬出两个参与该消息发送的用户USER1和USER2,然后以这两个用户为种子爬出垃圾短信MessageB~F 5条新的垃圾短信,然后再逐一以这些新的垃圾短信为种子爬出另外一个垃圾短信发送参与者USER3。
图10是根据本发明优选实施方式的爬虫迭代处理的逻辑流程图,如图10所示,爬虫处理迭代分为以主叫号码爬出短信内容、短信内容爬出主叫号码两个主迭代流程。其中输入分为三种,垃圾短信内容、垃圾短信主叫号码、可疑垃圾短信主叫号码,其中“垃圾短信内容”用以生成内容种子,作为爬虫的起始点;其中“垃圾短信主叫号码”或“可疑垃圾短信主叫号码”用以生成主叫号码种子,作为爬虫的起始点。爬虫爬行过程中,通过维护待爬HASH和已经爬虫HASH,实现种子的增删以及爬出结果的冲突检测。下面以图10为例对上述两种主迭代流程进行说明。
步骤S1002,依据起始源类型分别进行相应的处理,例如,以垃圾短信内容、可疑主叫号码和黑名单号码为例进行说明,首先将垃圾消息内容、可疑号码、或是黑名单号码写入待爬号码列表;之后设置NewSeed为号码条数;再将处理类型设置为依据号码爬短信内容(即,HM—>NR);
步骤S1004,判断NewSeed是否大于0,在判断为是的情况下,进入步骤S1006,结束流程,否则进入步骤S1008;
步骤S1006,结束流程;
步骤S1008,判断爬虫处理类型,判断结果为依据号码爬短信内容的情况下,进入步骤S1010,如果判断结果为依据短信内容爬号码的情况下,进入步骤S1012;
步骤S1010,执行依据号码爬短信内容的处理:将NewSeed设置为0;判断待爬号码列表是否为空;在判断结果为是的情况下,将爬虫类型修改为依据短信内容爬号码(即,NR—>HM);在判断结果为否的情况下,依据号码找到内容列表(以号码为关键词(KEY)查找号码文件(FILE_HM));将该号码插入已爬号码HASH,并从待爬列表删除;以内容为KEY,在已爬内容HASH检查是否存在;在判断结果为是的情况下,返回判断待爬号码列表为空的处理步骤;在判断结果为否的情况下,将NewSeed加1;将内容插入待爬内容HASH列表;
步骤S1012,执行依据短信内容爬号码的处理:将NewSeed设置为0;判断待爬内容列表是否为空;在判断结果为是的情况下,将爬虫类型修改为依据号码爬短信内容(即,HM—>NR);在判断结果为否的情况下,依据短信内容找到号码列表(以短信为关键词(KEY)查找号码文件(FILE_HM));将该内容插入已爬内容HASH,并从待爬列表删除;以各个号码为KEY,在已爬号码HASH检查是否存在;在判断结果为是的情况下,返回判断待爬内容列表为空的处理步骤;在判断结果为否的情况下,将NewSeed加1;将号码插入待爬号码HASH列表。
基于上述实施例及优选实施方式所提出的基于爬虫的垃圾短信识别方法,实现了一种垃圾短信爬虫分析挖掘系统。测试结果显示,可以识别团伙性低频发送短信,即群到群垃圾短信发送,能够识别主叫号码团伙和垃圾内容团伙,可以大幅提升垃圾短信治理效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种垃圾信息处理方法,其特征在于,包括:
获取垃圾信息种子;
以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;
确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
2.根据权利要求1所述的方法,其特征在于,获取所述垃圾信息种子包括以下至少之一:
由垃圾信息监控系统监控到的垃圾信息提供所述垃圾信息种子;
由短消息中心获取信息话单文件中的信息提供所述垃圾信息种子;
由用户投诉的垃圾信息提供所述垃圾信息种子。
3.根据权利要求1所述的方法,其特征在于,确定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码包括:
将与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;
依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码。
4.根据权利要求3所述的方法,其特征在于,依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码包括:
对所述垃圾信息主叫号码团伙集中的号码进行排序;
获取排序后的预定间隔内的连续号码数;
判断所述连续号码数是否超过第一预定阈值;
在判断结果为是的情况下,确定信息主叫号码为所述垃圾信息号码。
5.根据权利要求1所述的方法,其特征在于,确定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息包括:
将与所述垃圾信息种子有直接或间接虫网关系的所述信息划分为垃圾信息内容团伙集;
依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息。
6.根据权利要求5所述的方法,其特征在于,通过以下方式至少之一依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息包括:
通过判断所述垃圾信息内容团伙集中所述信息与所述垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得所述信息与所述垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定所述信息为所述垃圾信息;
判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的发送条数,在发送条数超过第三预定阈值的情况下,确定所述信息为所述垃圾信息;
判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的参与主叫号码数,在所述参与主叫号码数超过第四预定阈值的情况下,确定所述信息为所述垃圾信息。
7.一种垃圾信息处理装置,其特征在于,包括:
获取模块,用于获取垃圾信息种子;
处理模块,用于以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;
第一确定模块,用于确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码;和/或,第二确定模块,用于确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括以下至少之一:
第一提供单元,用于由垃圾信息监控系统监控到的垃圾信息提供所述垃圾信息种子;
第二提供单元,用于由短消息中心获取信息话单文件中的信息提供所述垃圾信息种子;
第三提供单元,用于由用户投诉的垃圾信息提供所述垃圾信息种子。
9.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
第一切分单元,用于将与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;
第一判定单元,用于依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码。
10.根据权利要求9所述的装置,其特征在于,所述第一判定单元包括:
排序子单元,用于对所述垃圾信息主叫号码团伙集中的号码进行排序;
获取子单元,用于获取排序后的预定间隔内的连续号码数;
判断子单元,用于判断所述连续号码数是否超过第一预定阈值;
第一确定子单元,用于在判断结果为是的情况下,确定信息主叫号码为所述垃圾信息号码。
11.根据权利要求7所述的装置,其特征在于,所述第二确定模块包括:
第二切分单元,用于将与所述垃圾信息种子有直接或间接虫网关系的所述信息划分为垃圾信息内容团伙集;
第二判定单元,用于依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息。
12.根据权利要求11所述的装置,其特征在于,所述第二判定单元包括以下至少之一:
第二确定子单元,用于通过判断所述垃圾信息内容团伙集中所述信息与所述垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得所述信息与所述垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定所述信息为所述垃圾信息;
第三确定子单元,用于判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的发送条数,在发送条数超过第三预定阈值的情况下,确定所述信息为所述垃圾信息;
第四确定子单元,用于判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的参与主叫号码数,在所述参与主叫号码数超过第四预定阈值的情况下,确定所述信息为所述垃圾信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410504998.9A CN104581729B (zh) | 2013-10-18 | 2014-09-26 | 垃圾信息处理方法及装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310493826 | 2013-10-18 | ||
CN2013104938261 | 2013-10-18 | ||
CN201410504998.9A CN104581729B (zh) | 2013-10-18 | 2014-09-26 | 垃圾信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104581729A true CN104581729A (zh) | 2015-04-29 |
CN104581729B CN104581729B (zh) | 2019-07-09 |
Family
ID=52827625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410504998.9A Active CN104581729B (zh) | 2013-10-18 | 2014-09-26 | 垃圾信息处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104581729B (zh) |
WO (1) | WO2015054993A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100366A (zh) * | 2015-07-13 | 2015-11-25 | 小米科技有限责任公司 | 骚扰电话号码确定方法、装置和系统 |
US9570696B2 (en) | 2014-06-23 | 2017-02-14 | Lg Display Co., Ltd. | White organic light emitting device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816404B (zh) * | 2019-01-28 | 2023-04-07 | 天津市国瑞数码安全系统股份有限公司 | 基于dbscan算法的电信诈骗团伙聚类方法及电信诈骗团伙聚类系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147669A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Detecting web spam from changes to links of web sites |
CN102724355A (zh) * | 2012-05-04 | 2012-10-10 | 北京百纳威尔科技有限公司 | 垃圾信息处理方法和手机终端 |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8412779B1 (en) * | 2004-12-21 | 2013-04-02 | Trend Micro Incorporated | Blocking of unsolicited messages in text messaging networks |
CN101257671B (zh) * | 2007-07-06 | 2010-12-08 | 浙江大学 | 基于内容的大规模垃圾短信实时过滤方法 |
CN101083802B (zh) * | 2007-07-18 | 2010-08-18 | 中兴通讯股份有限公司 | 一种短消息监控实现方法 |
CN101389085B (zh) * | 2008-10-14 | 2012-03-21 | 中国联合网络通信集团有限公司 | 基于发送行为的垃圾短消息识别系统及方法 |
CN101959145B (zh) * | 2009-07-13 | 2016-07-06 | 中国移动通信集团江苏有限公司 | 一种移动通信中的垃圾信息识别方法、装置和系统 |
CN103139730B (zh) * | 2011-11-23 | 2016-03-30 | 上海粱江通信系统股份有限公司 | 用于识别大量号码低频发送垃圾短信情况的方法 |
-
2014
- 2014-04-08 WO PCT/CN2014/074924 patent/WO2015054993A1/zh active Application Filing
- 2014-09-26 CN CN201410504998.9A patent/CN104581729B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147669A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Detecting web spam from changes to links of web sites |
CN102724355A (zh) * | 2012-05-04 | 2012-10-10 | 北京百纳威尔科技有限公司 | 垃圾信息处理方法和手机终端 |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
Non-Patent Citations (1)
Title |
---|
BHUVAN BAMBA,LING LIU,JAMES CAVERLEE: "DSphere: A Source-Centric Approach to Crawling, Indexing and Searching the World Wide Web", 《DATA ENGINEERING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9570696B2 (en) | 2014-06-23 | 2017-02-14 | Lg Display Co., Ltd. | White organic light emitting device |
US9786863B2 (en) | 2014-06-23 | 2017-10-10 | Lg Display Co., Ltd. | White organic light emitting device |
CN105100366A (zh) * | 2015-07-13 | 2015-11-25 | 小米科技有限责任公司 | 骚扰电话号码确定方法、装置和系统 |
CN105100366B (zh) * | 2015-07-13 | 2018-03-20 | 小米科技有限责任公司 | 骚扰电话号码确定方法、装置和系统 |
US10291774B2 (en) | 2015-07-13 | 2019-05-14 | Xiaomi Inc. | Method, device, and system for determining spam caller phone number |
Also Published As
Publication number | Publication date |
---|---|
CN104581729B (zh) | 2019-07-09 |
WO2015054993A1 (zh) | 2015-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102209326B (zh) | 基于智能手机无线电接口层的恶意行为检测方法及系统 | |
WO2016197675A1 (zh) | 骚扰电话的识别方法及装置 | |
EP3214861B1 (en) | Method, device and system for detecting fraudulent user | |
CN100579150C (zh) | 恶意骚扰电话筛选和拦截方法 | |
CN101291362B (zh) | 手机呼叫过程中防止骚扰电话的方法 | |
CN102802133B (zh) | 垃圾信息的识别方法、装置及系统 | |
CN105869035A (zh) | 一种移动用户信用评估方法及装置 | |
CN101686444B (zh) | 垃圾短信发送号码实时检测系统及方法 | |
CN101854609A (zh) | 一种短消息监控系统和方法 | |
CN105335354A (zh) | 欺诈信息识别方法和装置 | |
CN101321070B (zh) | 一种可疑用户的监控系统及方法 | |
CN101415188B (zh) | 一种群发垃圾短信的监管方法 | |
WO2011160328A1 (zh) | 一种通信监控方法及装置 | |
CN101389085B (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
CN104581729A (zh) | 垃圾信息处理方法及装置 | |
CN102546272B (zh) | 信息泄露检测方法、装置及系统 | |
CN105163296A (zh) | 一种多维度的垃圾短信过滤方法及系统 | |
KR101306074B1 (ko) | 피싱방지방법 및 피싱방지시스템 | |
CN114169438A (zh) | 一种电信网络诈骗识别方法、装置、设备及存储介质 | |
CN112351429B (zh) | 基于深度学习的有害信息检测方法及系统 | |
CN103067610B (zh) | 一种垃圾短信的拦截方法、装置以及移动终端 | |
CN103167502A (zh) | 基于ota技术整治非法呼叫的方法 | |
CN102056105A (zh) | 一种监控垃圾短信的方法和系统 | |
CN114205462A (zh) | 一种诈骗电话识别方法、装置、系统及计算机存储介质 | |
CN202503667U (zh) | 一种垃圾短信拦截系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |