CN101909261A - 一种垃圾短信监控的方法和系统 - Google Patents

一种垃圾短信监控的方法和系统 Download PDF

Info

Publication number
CN101909261A
CN101909261A CN2010102527552A CN201010252755A CN101909261A CN 101909261 A CN101909261 A CN 101909261A CN 2010102527552 A CN2010102527552 A CN 2010102527552A CN 201010252755 A CN201010252755 A CN 201010252755A CN 101909261 A CN101909261 A CN 101909261A
Authority
CN
China
Prior art keywords
note
sender
refuse messages
ticket
spam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102527552A
Other languages
English (en)
Inventor
王飞
谢钢锋
邢刚
冯亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2010102527552A priority Critical patent/CN101909261A/zh
Priority to PCT/CN2010/078516 priority patent/WO2012019386A1/zh
Publication of CN101909261A publication Critical patent/CN101909261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/58Message adaptation for wireless communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种垃圾短信监控的方法和系统,该方法,包括:若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,进行垃圾短信的监控,所述预定规则至少包括:若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。本发明基于发送者行为在时序和空间上的特征进行垃圾短信监控,具有较高的查准率和查全率。

Description

一种垃圾短信监控的方法和系统
技术领域
本发明涉及移动通信领域中的短消息业务,尤其涉及一种基于发送者行为特征的垃圾短信监控系统及方法。
背景技术
据统计,中国手机用户数量已超过6亿,平均每天有超过6.5亿条短信在用户的拇指之间传送。然而随着手机使用的普及和短信业务的迅速发展,人们享受着快捷方便的通信手段的同时,伴随而来的却是日趋泛滥的垃圾短信。垃圾短信产生的根源在于短信的发送成本极其低廉,而获得的广告效益却非常之高。垃圾短信不仅对运营商的网络产生冲击,给广大用户的利益也带来了巨大的损害,更造成了严重的不良的社会影响。国外在垃圾短信的治理上,主要通过立法和先进的技术手段来识别并处理欺诈性的信息及手机,还有一整套的打击手机犯罪的先进技术手段。在国内,垃圾短信防控任务主要由运营商主导和负责,通常从技术和管理上采取措施,立法方面还比较欠缺。
在目前普遍采用的垃圾短信监控技术中,主要采用的是垃圾短信过滤机制。从原理上,又可以分为黑白名单过滤、基于流量的过滤、基于关键字的内容过滤几种方式。基于黑名单的过滤方式是将确定已知垃圾短信制造者的主叫号码,将其整理成黑名单,并部署在短消息中心或者短信网关,就可以拒绝来自黑名单的主叫号码发送短消息。对黑名单可以进行号段或号码的拦截。对于白名单的主叫号码不做任何形式的拦截。基于流量的过滤方式对用户在某个时间段内的群发数量进行统计,当群发量超过预先设定的阈值时,将其手动或自动添加到黑名单中去。基于关键字的内容过滤方式对手机内容进行关键字查询,一旦命中,即将发送号码加入到黑名单中去。
不管是基于流量的过滤方式还是基于关键字的内容过滤方式,都有其自身的弊端。基于流量的方式很容易通过“在多个手机发送少量信息的形式”进行屏蔽,同时这种方式在很多手机终端实现了群发功能之后容易对过节类的祝贺短信产生大量的误杀,而造成用户的投诉率的上升。基于关键词的方法可以通过“同音词”、“错别字”、“结构拆分”、“换词”等方式规避。
目前运营商已部署了大量的垃圾监控系统,评价一个垃圾监控系统监控效果有两个重要的指标:查准率和查全率。查准率即在检测出的垃圾短信发送名单中真正为垃圾短信发送者所占的比例;查全率为检测出的真正为垃圾短信发送者的数量占网络中实际垃圾短信发送者数量的比例。显然,一个好的垃圾监控系统具备较高的查准率和查全率。目前运营商已部署的基于以上传统技术或基于传统技术的改良的垃圾监控系统这两个方面的指标都不够理想,而不得不依靠大量人力辅助检查垃圾短信。因此如何提高垃圾短信查准率和查全率成为当前迫切需要解决的问题。
发明内容
本发明要解决的技术问题是提供一种垃圾短信监控的方法和系统,以提高垃圾短信查准率和查全率。
为了解决上述技术问题,本发明提供了一种垃圾短信监控的方法,包括:
若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,进行垃圾短信的监控,所述预定规则至少包括:
若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或
若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。
进一步地,上述方法还具有下面特点:在根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:
提取已知垃圾短信发送者的历史短信记录,
通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征;或
将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定值。
进一步地,上述方法还具有下面特点:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:检测所述短信发送者在单位时间内发送短信的条数超过阈值。
进一步地,上述方法还具有下面特点:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤具体包括:
在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾短信发送者;或
在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者与其发送短信的所有接收者之间以有相互通信记录的对数与其两两组合的总对数的比例小于所述预定值,则判断所述短信发送者为垃圾短信发送者。
进一步地,上述方法还具有下面特点:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:
提取所述短信发送者在当前一段时间内的短信话单;
对所述短信话单进行预处理。
进一步地,上述方法还具有下面特点:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:检测所述短信发送者不在黑名单和白名单上。
为了解决上述问题,本发明还提供了一种垃圾短信监控的系统,包括:
检测模块,用于若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,然后将所述黑名单发送给监控模块;
监控模块,用于根据所述黑名单进行垃圾短信的监控,
所述预定规则至少包括:
若检测短信发送者在预定时间段内发送短信的时序特征为预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或
若检测在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。
进一步地,上述系统还具有下面特点:还包括,
训练模块,用于提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征,然后将所述预定时序特征发送给所述检测模块;或用于将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定值,然后将所述预定值发送给所述检测模块。
进一步地,上述系统还具有下面特点:所述检测模块包括,
在线检测模块,用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾短信发送者;或用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于所述预定值,则判断所述短信发送者为垃圾短信发送者。
进一步地,上述系统还具有下面特点:所述在线检测模块在检测短信发送者是否为垃圾短信发送者之前还用于,检测所述短信发送者在单位时间内发送短信的条数超过阈值。
进一步地,上述系统还具有下面特点:还包括:
话单预处理模块,用于提取所述短信发送者在当前一段时间内的短信话单,对所述短信话单进行预处理后发送给所述在线检测模块。
进一步地,上述系统还具有下面特点:所述检测模块根据预定规则检测短信发送者为垃圾短信发送者之前还用于,检测所述短信发送者不在黑名单和白名单上。
有益效果:
传统的基于内容的垃圾监控系统对垃圾短信过滤在查准率和查全率两个指标上都不是很理想,并且需要扫描短信内容,系统资源开销较大。而本发明提供的垃圾短信监控的方法和系统是基于发送者行为在时序和空间上的特征进行垃圾短信监控,具有较高的查准率和查全率,同时也提高了垃圾短信制造者的规避成本,并且不需要扫描短信内容,系统性能上也有了很大的提升。
附图说明
图1为本发明的垃圾短信监控系统的示意图;
图2为本发明的垃圾短信监控的方法的流程图;
图3为本发明实施例的垃圾短信监控系统的示意图;
图4为本发明实施例的垃圾短信监控的方法的流程图;
图5为本发明实施例的训练垃圾短信发送者的行为特征的流程图;
图6为本发明实施例的在线检测的流程图。
具体实施方式
短信发送者在行为上具有一定的时间特征和空间特征,比如很多垃圾短信发送者采用机器群发的方法发送商业广告,在发送时序上所表现的频率特征和普通短信发送者有明显的区别。机器群发频率往往比较固定,比如发送短信的时间间隔一定,普通短信发送频率不固定,规律性不强。
同样在空间特征上,正常短信的发送者具有稳定而独特的社会关系网络特征,且关系较为隐蔽,而垃圾短信发送者体现出来的社会关系网络混乱且不稳定。因为,每个人都有自己较为固定的社交圈,正常发送短信的对象大部分为社交圈内的,并且每个人的社交圈都不同,也就是社会关系网络不同;而垃圾短信发送的对象之间往往没有任何关系。垃圾短信制造者如果要规避基于社会关系网络的监控,就必须要获取每个人的社会关系网络,正因为每个人都有自己独特的社会关系网络,所以垃圾短信制造者很难获取到每个人的社会关系网络。简单地说,关系较为隐蔽就是说我们通常并不知道别人的社交网络怎样,垃圾短信制造者群发垃圾短信要获取很多人的社交网络更困难。
本发明正是利用了垃圾短信发送者与正常短信发送者行为在时间特征和/或空间特征上的不同进行垃圾短信的监控。通过分析垃圾短信制造者的时间特征和空间特征,来提取时序特征和社会关系网络特征,训练构造垃圾短信制造者的时序特征和社会关系网络的度量模型,并用该模型用来度量短信发送者属于垃圾制造者的概率。
训练构造垃圾短信制造者的时序特征和社会关系网络的度量模型的过程实际上就是,在获取了一组已知的垃圾短信制造者名单的前提下,通过分析这组垃圾短信制造者在时间和空间上的特征,提取出在时序上以及在社会关系网络上具有共性的特征,以参数值的形式体现,作为检验其他短信发送者是否为垃圾短信发送者的参照。
时序特征模型就是从垃圾短信发送者的历史短信记录中训练分析得出的一组发送短信的频率特征参数,例如,在某段时间内所发送的每条短信之间在发送时间间隔上有一定的规律,比如某个垃圾短信发送者每隔1秒发送一条短信,那么表现出的特征就是时间间隔为1秒。而有些低频的垃圾短信发送用户可能为了逃避监控发送的时间间隔会故意设置得长一些,但是只要是通过机器群发的,在发送时间间隔上总会表现出一定的规律性。
社会关系网络特征(即空间特征模型)可以从一定时期内发送者与接收者之间的短信通信记录的情况体现出来。垃圾短信接收者之间的社会关系比较疏远,即相互之间的通信记录较少。可以利用所有短信接收者(包括短信发送者)之间有相互通信记录的对数(例如,有发信有回信的两用户为一对)与所有短信接收者(短信发送者)之间两两组合的总对数的比例,来衡量短信发送者与所有接收者之间的社会关系密切度。对垃圾短信的发送者和接收者之间的社会关系比例一般很小。
可以通过历史短信记录构造出包含短信发送者与所有短信接收者之间的社会关系网络图,将各个短信发送者与所有短信接收者分别视为一个节点,互相有通信记录的节点之间以边相连,然后可以根据该图计算出的节点聚合程度参数,具体可以用图中实际相连的边数与各节点两两相连的总边数的比例来衡量。图的边数越多意味着节点聚合程度越高,通常由垃圾短信制造者构造的社会关系网络图中节点聚合程度较低。
垃圾短信制造者有高频发送用户和低频发送用户之分。高频发送用户由于在短时间内发送大量垃圾短信,造成的危害性较大;低频发送用户不会在短时间内产生大量垃圾短信,短期内不会造成危害。
针对两种情况,垃圾监控系统需要在短时间内检测出高频发送用户,在一定时期内检测出低频发送用户。为了满足该要求,本发明采用了在线检测和离线检测相结合的方法。在线检测针对高频发送用户,考察当前一段时间内数据,具有较强的时效性;离线检测考察一定时期(比如1周内的数据),作为在线检测的补充,离线检测可以检测出在线检测无法发现的低频垃圾短信发送用户。
为了实现基于时序特征和空间特征的垃圾短信检测,首先需要对一定时间内历史话单中的垃圾短信制造者的短信发送记录作为短信训练集合进行离线的训练,以得到垃圾短信制造者的时序特征和社会关系网络度量模型,训练过程包括提取发送者时序特征和社会关系网络特征,进行聚类分析,统计得到垃圾短信发送者的规律,最终生成包含垃圾短信发送规律参数的模型文件。
在进行垃圾短信检测时,同样提取实时短信中发送者的时序特征和社会关系网络特征,通过计算该样本与模型文件相似度从而确定发送者是否为垃圾短信发送者。训练的过程是自适应的,系统会定期取话单进行训练,并调整模板库。
在系统进行垃圾短信检测时,首先,进行基于黑白名单的检测,如果短信发送者在黑白名单列表上,则直接跳过该用户。因为黑名单为已经确定为垃圾短信发送者用户或者是被运营商设定禁止发送短信的特定用户,对黑名单用户再作检测没有意义,垃圾短信监控的目的就是找出垃圾短信发送者,将其加入到黑名单列表,既然已经在黑名单列表上了就无需再检测了。同样,白名单用户通常为运营商设定的不作监控的用户,白名单用户不管发送什么样的短信,垃圾短信监控系统都不能作为垃圾短信制造者来处理,因此对白名单监控也没有意义。然后,可以进行基于时序特征和/或空间特征的检测,并且可以在线检测和离线检测并行进行;最后,可以对几种不同的检测方法导出的黑名单取并集,并将黑名单同步给BOSS(业务操作支撑系统)。
为了更好地理解本发明,下面结合附图和具体实施例对本发明作进一步地描述。
图1为本发明的垃圾短信监控系统的示意图,如图1所示,本发明的垃圾短信监控系统主要包括:检测模块和监控模块,其中,
检测模块,用于若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,然后将所述黑名单发送给监控模块;
监控模块,用于根据所述黑名单进行垃圾短信的监控,
所述预定规则至少包括:
若检测短信发送者在预定时间段内发送短信的时序特征为预定时序特征,例如在单位时间内发送短信的时间间隔一定,则将所述短信发送者规定为垃圾短信发送者;或
若检测在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,例如小于10%,则将所述短信发送者规定为垃圾短信发送者。
这样,本发明的垃圾短信监控系统即可以根据垃圾短信发送者的时序特征和/或空间特征,实现对垃圾短信的监控,以提高垃圾短信的查准率和查全率。
进一步地,本发明的垃圾短信监控系统还可以包括:
训练模块,用于提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征,然后将所述预定时序特征发送给所述检测模块;或将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定值,然后将所述预定值发送给所述检测模块。
这样,本发明的垃圾短信监控系统可以针对不同运营商,训练出不同的时序特征模型和空间特征模型。
图2为本发明的垃圾短信监控的方法的流程图,如图2所述,本发明的方法包括下面步骤:
步骤10,根据预定规则检测短信发送者是否为垃圾短信发送者,若是,则执行步骤20,否则重复执行步骤10;
步骤20,将所述短信发送者列入黑名单,进行垃圾短信的监控。
其中,所述预定规则至少包括:
若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,例如在预定时间段内发送短信的时间间隔一定,则将所述短信发送者规定为垃圾短信发送者;或
若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。
这样,根据本发明的垃圾短信监控的方法即可基于垃圾短信发送者的时序特征和/或空间特征,实现对垃圾短信的监控,以提高垃圾短信的查准率和查全率。
优选地,在步骤10之前,还可以包括下面步骤:
提取已知垃圾短信发送者的历史短信记录,
通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征;或
将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定值。
下面通过具体实施例对本发明作详细的说明。
图3为本发明实施例的垃圾短信监控系统的示意图,如图3所示,本实施例的垃圾监控系统包括:话单预处理模块、训练模块、人工标注模块、检测模块和黑白名单管理模块。
话单预处理模块,负责对短信中心话单进行预处理,主要功能为去除重复记录,去除非点对点短信,去除非目标运营商话单,提取有用字段,转换格式为系统内部格式和入库操作。
话单记录中有些记录是因为系统原因发送失败重试的记录,这种记录只能当作1条短信来处理;有些短信记录是运营商客服系统群发给用户的,并非用户发送的,无需监控要去除;运营商只监控属于本运营商的用户,对于非本运营商用户发送短信给本运营商用户,在短信中心也会产生话单记录,对这类记录也无需监控;话单记录会有很多字段,但对于垃圾短信监控只需要用到其中很少一部分字段,只需要提取有用字段。另外,还需要把话单转换为系统内部能够识别的格式。
其中,话单预处理模块可以通过FTP(File Transfer Protocol,文件传输协议)方式获取短信中心的原始话单。
训练模块,用于训练已知为垃圾短信发送者的历史话单,产生用于垃圾短信检测的模型文件。
人工标注模块、主要用于在训练垃圾短信发送者的模型前对候选出的可能为垃圾短信发送者的用户正确地进行用户类别的标注,以便模型训练得到的模型文件更加准确地符合垃圾短信发送者的规律特征。
本实施例中的检测模块可以包括:
在线时序检测模块,用于在线检测短信发送者的时序特征并导出黑名单。
在线空间检测模块,用于在线检测短信发送者的社会关系网络特征并导出黑名单。
离线空间检测模块,用于离线检测短信发送者的社会关系网络特征并导出黑名单。
黑白名单管理模块,对以上3个检测模块导出的黑名单取并集后,将结果同步给BOSS,并从BOSS获取黑白名单列表同步给检测模块。
黑白名单管理模块和BOSS之间也可以通过FTP方式同步黑白名单。
图4为本发明实施例的垃圾短信监控的方法的流程图,如图4所示,具体流程包括如下步骤:
步骤201,获取短信中心的原始话单,进行预处理。
话单预处理模块预处理包括去除重复记录,去除非点对点短信,去除非目标运营商话单,提取有用字段,转换格式为系统内部格式,同时按提交短信的时间顺序进行排序,其中,提取的有用字段包括:消息id、发送者号码、接收者号码、短信提交时间、短信长度和短信内容。
然后,话单预处理模块将预处理后的短信话单发送给检测模块。
步骤202,检测模块逐条扫描预处理后的话单,只记录提交时间和发送者号码和接收者号码。
步骤203,检测模块对每条记录进行基于黑白名单的过滤,如果用户在黑白名单列表上,则直接忽略该用户。
步骤204,根据训练模块训练产生的模型文件,基于短信发送者时序特征和/或空间特征的进行检测。
本实施例中可以进行在线检测,也可以进行离线检测,在线检测可以对短信发送者的时序特征进行检测,也可以对短信发送者的空间特征进行检测。离线检测一般检测短信发送者在历史一段时间内的空间特征。
在线时序检测模块、在线空间检测模块和离线空间检测模块可以并行操作,也可以单独操作。
在线时序检测模块、在线空间检测模块分析当前一段时间内扫描到的用户发送短信的特征,离线空间检测通常分析用户在历史较长一段时间内(例如,一周)的社会关系网络特征。
步骤205,将检测出的垃圾短信发送者列入黑名单。
若以上3种检测模块并行操作,将独立产生黑名单,黑白名单管理模块对3个检测模块导出的黑名单取并集得到最终的黑名单列表。
这3个检测模块可以从3个角度检测垃圾短信发送者,从检测结果看,这3种方法检测出来的大部分黑名单都是相同的。这3种方法并行使用的目的是为了互补,可能有少部分垃圾短信发送者,有些方法能监控到,有些监控不到。比如低频率的垃圾短信发送者通过在线检测方法比较难监控到,而通过离线方法能监控到。另外3种方法并行使用也起到了提高垃圾短信制造者规避成本的目的。
步骤206,黑白名单管理模块将黑名单列表同步给BOSS。
BOSS会把黑名单提供给短信中心的临控模块,短信中心在发送短信时会首先检查发送者是否在黑名单上,如果在黑名单上则禁止该用户发送短信。
图5为本发明实施例的训练垃圾短信发送者的行为特征的流程图;如图5所示,具体流程包括如下步骤:
步骤301,提取一段时期的历史话单作预处理并入库。
步骤302,根据已有的经验模型初步获取认为可能为垃圾短信发送者的候选训练集。
所述已有的经验模型是指通过分析运营商历史话单数据中垃圾短信制造者的时序特征和空间特征规律得出的一组参数。
步骤303,评估训练集规模,如果训练集规模不够,表明其中垃圾短信发送者数量不大,则由该训练集训练得到的模型文件统计意义不大,须要重新返回步骤301获取更多话单重新进行训练。如果认为训练集规模足够则进入步骤304进行下一步工作。
步骤304,对训练集进行人工标注,利用人工标注模块提供的标注工具,查看训练集每个用户所发送的短信,根据人工判断对训练集用户进行分类标注。
人工分类标注通常通过查看短信内容,根据发送的短信内容来判定该用户有没有发送垃圾短信,通常垃圾短信的判定标准还要结合运营商的要求。
人工分类标注通常将用户分成4类,即正常短信发送者、垃圾短信发送者、混合短信发送者和其它短信发送者。其中,混合短信发送者既发送了正常的短信又发送了垃圾短信,其他短信发送者通常为乱码或运营商群发的祝福类短信。
步骤305,根据标注结果提取垃圾短信发送者的历史话单,来训练时序特征和空间特征。
其中,可以将时序特征转换为频域信息,提取的空间特征参数可以包括:发送短信条数、接收短信条数、回复短信的接收者的数量、有相互通信记录的接收者的对数等,可以通过回复短信的数量,即有相互通信记录的对数,训练出空间特征模型。
步骤306,通过频域分析和社会关系网络分析,确定垃圾短信发送者发送规律,分别产生基于时序特征的模型文件和基于空间特征的模型文件。
步骤307,将生成的模型文件同步给检测模块。
根据不同运营商对查准率和查全率的不同要求,模型文件可以灵活调整。比如,如果运营商希望更高的查全率,则训练时对标注为混合短信发送者这类用户将归为垃圾短信来处理;如果运营商希望更高的查准率,则训练时只对标注为垃圾短信发送者的用户进行训练。
图6为本发明实施例的在线检测的流程图,如图6所示,具体流程包括如下步骤:
步骤401,逐条扫描预处理后的话单,只记录提交时间和短信发送者和接收者的号码。
步骤402,进行在线检测条件触发判断,满足一定触发条件才会进入步骤403启动在线检测算法,否则返回步骤401继续扫描话单。
比如用户在单位时间内发送短信条数超过一定阈值,这个阈值可以根据实际检测状况进行调整,则启动在线检测相关算法。
步骤403,提取实时短信发送者的时序特征和空间特征。
步骤404,确定该短信发送者的时序特征和空间特征后,与训练出的模型文件相比较,从而判断该发送者是否为垃圾发送者。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (12)

1.一种垃圾短信监控的方法,包括:
若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,进行垃圾短信的监控,所述预定规则至少包括:
若短信发送者在预定时间段内发送短信的时序特征在预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或
若在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。
2.如权利要求1所述的方法,其特征在于:在根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:
提取已知垃圾短信发送者的历史短信记录,
通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征;或
将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定值。
3.如权利要求1所述的方法,其特征在于:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:
检测所述短信发送者在单位时间内发送短信的条数超过阈值。
4.如权利要求3所述的方法,其特征在于:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤具体包括:
在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾短信发送者;或
在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者与其发送短信的所有接收者之间以有相互通信记录的对数与其两两组合的总对数的比例小于所述预定值,则判断所述短信发送者为垃圾短信发送者。
5.如权利要求4所述的方法,其特征在于:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:
提取所述短信发送者在当前一段时间内的短信话单;
对所述短信话单进行预处理。
6.如权利要求1-5任一项所述的方法,其特征在于:所述根据预定规则检测短信发送者为垃圾短信发送者的步骤之前,还包括:
检测所述短信发送者不在黑名单和白名单上。
7.一种垃圾短信监控的系统,包括:
检测模块,用于若根据预定规则检测短信发送者为垃圾短信发送者,则将所述短信发送者列入黑名单,然后将所述黑名单发送给监控模块;
监控模块,用于根据所述黑名单进行垃圾短信的监控,
所述预定规则至少包括:
若检测短信发送者在预定时间段内发送短信的时序特征为预定时序特征,则将所述短信发送者规定为垃圾短信发送者;或
若检测在预定时间段内短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于预定值,则将所述短信发送者规定为垃圾短信发送者。
8.如权利要求7所述的系统,其特征在于:还包括,
训练模块,用于提取已知垃圾短信发送者的历史短信记录,通过从所述历史短信记录中训练得到已知垃圾短信发送者发送短信的频率特征来训练出所述预定时序特征,然后将所述预定时序特征发送给所述检测模块;或用于将所述历史短信记录中的有相互通信记录的节点之间以边相连构建所述已知垃圾短信发送者与其发送短信的所有接收者之间的社会关系网络图,通过所述边数与所有节点之间两两相连的总边数的比值训练出所述预定值,然后将所述预定值发送给所述检测模块。
9.如权利要求7所述的系统,其特征在于:所述检测模块包括,
在线检测模块,用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者发送短信的时序特征为所述预定时序特征,则判断所述短信发送者为垃圾短信发送者;或用于在线检测所述短信发送者在当前一段时间内的短信话单,若检测所述短信发送者与其发送短信的所有接收者之间有相互通信记录的对数与其两两组合的总对数的比例小于所述预定值,则判断所述短信发送者为垃圾短信发送者。
10.如权利要求9所述的系统,其特征在于:所述在线检测模块在检测短信发送者是否为垃圾短信发送者之前还用于,
检测所述短信发送者在单位时间内发送短信的条数超过阈值。
11.如权利要求9所述的系统,其特征在于:还包括:
话单预处理模块,用于提取所述短信发送者在当前一段时间内的短信话单,对所述短信话单进行预处理后发送给所述在线检测模块。
12.如权利要求7-11任一项所述的系统,其特征在于:所述检测模块根据预定规则检测短信发送者为垃圾短信发送者之前还用于,
检测所述短信发送者不在黑名单和白名单上。
CN2010102527552A 2010-08-10 2010-08-10 一种垃圾短信监控的方法和系统 Pending CN101909261A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010102527552A CN101909261A (zh) 2010-08-10 2010-08-10 一种垃圾短信监控的方法和系统
PCT/CN2010/078516 WO2012019386A1 (zh) 2010-08-10 2010-11-08 一种垃圾短信监控的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102527552A CN101909261A (zh) 2010-08-10 2010-08-10 一种垃圾短信监控的方法和系统

Publications (1)

Publication Number Publication Date
CN101909261A true CN101909261A (zh) 2010-12-08

Family

ID=43264550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102527552A Pending CN101909261A (zh) 2010-08-10 2010-08-10 一种垃圾短信监控的方法和系统

Country Status (2)

Country Link
CN (1) CN101909261A (zh)
WO (1) WO2012019386A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231873A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 垃圾短信监控方法、系统和监控处理装置
CN102231874A (zh) * 2011-06-23 2011-11-02 中兴通讯股份有限公司 一种短信处理方法、装置及系统
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN103996130A (zh) * 2014-04-29 2014-08-20 北京京东尚科信息技术有限公司 一种商品评价信息过滤方法及系统
CN105119910A (zh) * 2015-07-23 2015-12-02 浙江大学 基于模板的在线社交网络垃圾信息实时检测方法
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN105744493A (zh) * 2014-12-08 2016-07-06 中国移动通信集团河北有限公司 一种信息识别方法及装置
CN106506329A (zh) * 2016-10-20 2017-03-15 北京小米移动软件有限公司 删除终端用户数据信息的方法及装置
CN106559761A (zh) * 2015-09-28 2017-04-05 中国移动通信集团公司 一种信息处理方法及终端、服务器
CN107872772A (zh) * 2017-12-19 2018-04-03 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN108306811A (zh) * 2017-02-06 2018-07-20 腾讯科技(深圳)有限公司 一种消息处理方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323763B (zh) * 2014-06-27 2019-03-05 中国移动通信集团湖南有限公司 一种垃圾短消息的识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1696619A1 (en) * 2003-06-23 2006-08-30 Microsoft Corporation Method and device for spam detection
CN101188580A (zh) * 2007-12-05 2008-05-28 中国联合通信有限公司 一种实时垃圾电子邮件过滤方法及系统
CN101299729A (zh) * 2008-06-25 2008-11-05 哈尔滨工程大学 一种基于拓扑行为的垃圾邮件判定方法
CN101686444A (zh) * 2008-09-28 2010-03-31 国际商业机器公司 垃圾短信发送号码实时检测系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1696619A1 (en) * 2003-06-23 2006-08-30 Microsoft Corporation Method and device for spam detection
CN101188580A (zh) * 2007-12-05 2008-05-28 中国联合通信有限公司 一种实时垃圾电子邮件过滤方法及系统
CN101299729A (zh) * 2008-06-25 2008-11-05 哈尔滨工程大学 一种基于拓扑行为的垃圾邮件判定方法
CN101686444A (zh) * 2008-09-28 2010-03-31 国际商业机器公司 垃圾短信发送号码实时检测系统及方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231873A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 垃圾短信监控方法、系统和监控处理装置
CN102231874A (zh) * 2011-06-23 2011-11-02 中兴通讯股份有限公司 一种短信处理方法、装置及系统
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN102890688B (zh) * 2011-07-22 2018-01-02 深圳市世纪光速信息技术有限公司 一种自动提交内容的检测方法以及装置
AU2015252513B2 (en) * 2014-04-29 2018-11-29 Beijing Jingdong Century Trading Co., Ltd. Method and system for filtering goods evaluation information
CN103996130A (zh) * 2014-04-29 2014-08-20 北京京东尚科信息技术有限公司 一种商品评价信息过滤方法及系统
CN103996130B (zh) * 2014-04-29 2016-04-27 北京京东尚科信息技术有限公司 一种商品评价信息过滤方法及系统
CN105744493A (zh) * 2014-12-08 2016-07-06 中国移动通信集团河北有限公司 一种信息识别方法及装置
CN105744493B (zh) * 2014-12-08 2019-09-10 中国移动通信集团河北有限公司 一种信息识别方法及装置
CN105119910A (zh) * 2015-07-23 2015-12-02 浙江大学 基于模板的在线社交网络垃圾信息实时检测方法
CN106559761A (zh) * 2015-09-28 2017-04-05 中国移动通信集团公司 一种信息处理方法及终端、服务器
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN106506329A (zh) * 2016-10-20 2017-03-15 北京小米移动软件有限公司 删除终端用户数据信息的方法及装置
CN108306811A (zh) * 2017-02-06 2018-07-20 腾讯科技(深圳)有限公司 一种消息处理方法及装置
CN108306811B (zh) * 2017-02-06 2021-03-26 腾讯科技(深圳)有限公司 一种消息处理方法及装置
CN107872772A (zh) * 2017-12-19 2018-04-03 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN107872772B (zh) * 2017-12-19 2021-02-26 北京奇虎科技有限公司 诈骗短信的检测方法及装置

Also Published As

Publication number Publication date
WO2012019386A1 (zh) 2012-02-16

Similar Documents

Publication Publication Date Title
CN101909261A (zh) 一种垃圾短信监控的方法和系统
CN1801854B (zh) 不想要的消息(垃圾消息)的检测
CN101860822A (zh) 垃圾短信监控方法和系统
Wang et al. A behavior-based SMS antispam system
CN103763690A (zh) 检测伪基站向移动终端发送短信息的方法和装置
CN101686444B (zh) 垃圾短信发送号码实时检测系统及方法
Jiang et al. Greystar: Fast and accurate detection of {SMS} spam numbers in large cellular networks using gray phone space
CN101784022A (zh) 短信过滤、分类方法及系统
CN102802133A (zh) 垃圾信息的识别方法、装置及系统
CN102088697A (zh) 垃圾短信的处理方法和系统
CN101321070B (zh) 一种可疑用户的监控系统及方法
CN101043686A (zh) 基于质询的移动终端拒收垃圾短信的方法
CN101389085B (zh) 基于发送行为的垃圾短消息识别系统及方法
CN105007218A (zh) 反垃圾电子邮件方法和系统
CN110705926A (zh) 一种物流对象配送信息的获取方法、装置和系统
CN101415188B (zh) 一种群发垃圾短信的监管方法
CN105207881A (zh) 一种消息发送方法和设备
WO2012151929A1 (zh) 一种短消息监控方法及装置
CN102111723B (zh) 一种分析短信消息频次与内容识别垃圾短消息用户的方法
CN103139730A (zh) 用于识别大量号码低频发送垃圾短信情况的方法
CN102905236A (zh) 一种垃圾短消息监控方法、装置及系统
CN102231874A (zh) 一种短信处理方法、装置及系统
CN101321365A (zh) 一种利用短信回复频率的垃圾短信发送用户识别方法
CN100456755C (zh) 消息过滤方法及其装置
CN108271202B (zh) 一种基于短频话单数据定位网络故障的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101208