CN101938711A - 用于垃圾消息检测的方法和设备 - Google Patents

用于垃圾消息检测的方法和设备 Download PDF

Info

Publication number
CN101938711A
CN101938711A CN2009101398119A CN200910139811A CN101938711A CN 101938711 A CN101938711 A CN 101938711A CN 2009101398119 A CN2009101398119 A CN 2009101398119A CN 200910139811 A CN200910139811 A CN 200910139811A CN 101938711 A CN101938711 A CN 101938711A
Authority
CN
China
Prior art keywords
message
message source
transfer characteristic
domain transfer
rubbish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009101398119A
Other languages
English (en)
Other versions
CN101938711B (zh
Inventor
张轶博
朱延峰
王晨
陈晓艳
英春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200910139811.9A priority Critical patent/CN101938711B/zh
Priority to US12/821,230 priority patent/US8479287B2/en
Publication of CN101938711A publication Critical patent/CN101938711A/zh
Priority to US13/924,044 priority patent/US9059951B2/en
Application granted granted Critical
Publication of CN101938711B publication Critical patent/CN101938711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了用于垃圾消息检测的方法和设备。该方法包括:收集消息源的时域发送特性;利用消息源的时域发送特性来计算消息源的频域发送特性;和响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者。采用根据本发明实施例的技术方案,可以通过频域发送特性来检测异于正常用户的消息发送行为,尤其是检测控制多个消息源轮番发送消息的垃圾消息发送者,从而弥补基于消息发送速度的方法所具有的缺陷。

Description

用于垃圾消息检测的方法和设备
技术领域
本发明涉及信息处理领域,更具体地说,涉及用于垃圾消息检测的方法和设备。
背景技术
垃圾消息,例如垃圾短信和垃圾邮件,严重地影响用户的体验和系统的性能。已经存在多种检测垃圾消息的方法。根据基于用户反馈的方法,由用户识别并报告垃圾消息发送者。根据基于社会网络的方法,为每个用户建立社会网络档案,用户向社会网络之外的其他用户发送的消息被判断为垃圾消息。问题在于,需要庞大的数据记录系统来存储被报告的垃圾消息发送者或者社会网络档案,并且该数据记录系统需要在各服务运营商之间共享,这对于运营商而言是不可行的。
根据基于消息内容的方法,如果消息中含有预先设定的关键词则被判断为垃圾消息。问题在于:关键词的集合过小会导致大的漏判率,关键词的集合过大又会影响检测速度;查看消息内容可能涉及隐私问题;垃圾消息的发送者可以采用简单的变通方式,例如在关键词内部插入空格等,来规避检测。
根据基于消息发送速度的方法,如果消息源在短时间内发送大量消息则被判断为垃圾消息发送者。问题在于:垃圾消息发送者可以通过控制多个消息源轮番发送消息来降低每个消息源短时间内发送的消息数目;而作为正常用户,也有可能在某些情况下在短时间内发送大量消息。
发明内容
有鉴于此,本发明提供了一种新的检测垃圾消息的方法,使得垃圾消息发送者无法通过如上所述的简单手段来规避检测。
根据本发明的实施例,一种用于垃圾消息检测的方法,包括:收集消息源的时域发送特性;利用消息源的时域发送特性来计算消息源的频域发送特性;和响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者。
采用根据本发明实施例的技术方案,可以通过频域发送特性来检测控制多个消息源轮番发送消息的垃圾消息发送者,从而弥补基于消息发送速度的方法所具有的缺陷。
附图说明
图1是不同类型的消息源所具有的频域发送特性示意图。
图2是根据本发明实施例的检测垃圾消息的方法的框图。
图3(A)-图3(D)示出了在四个不同的时域采样间隔长度下,已知的垃圾消息发送者的模型参数分布。
图4是根据本发明实施例的垃圾消息检测结果。
图5是根据本发明实施例的会话检测的流程图。
图6是根据本发明实施例的用于垃圾消息检测的设备的方框图。
具体实施方式
以下参照附图说明本发明提供的检测垃圾消息的方法和装置的具体实施方式。当第一元件被描述为与第二元件相连时,第一元件不仅可以直接与第二元件相连,而且还可以借助第三元件间接地与第二元件相连。进一步地,为了清楚,省略了对完全理解本发明不必要的一些元件。
图1是不同类型的消息源所具有的频域发送特性示意图。
图1(A)是突发发送消息的消息源的频域发送特性示意图;图1(B)是周期性发送消息的消息源的频域发送特性示意图;图1(C)是随机发送消息的消息源的频域发送特性示意图。图1(A)中的消息源在短时间内发送大量的垃圾消息,期望在系统检测到其行为之前发送尽可能多的垃圾消息。这种垃圾消息发送者已经可以被基于消息发送速度的方法所检测。图1(B)中的消息源是消息源组中的一个,这一组消息源轮番发送消息。对于每一个消息源而言,其发送速度均达不到被基于消息发送速度的方法所检测到的标准。图1(C)中的消息源对应于正常用户,其随机地发送消息,因此其频域发送特性呈现无规律的特性。
如图1所示,不同类型的消息源的频域发送特性具有显著的差别,因此,可以通过频域发送特性判断每个消息源属于哪种类型,从而判断该消息源是否为垃圾消息发送者。
图2是根据本发明实施例的检测垃圾消息的方法的框图。
如上所述,可以通过频域发送特性判断每个消息源属于哪种类型。因此,根据本发明实施例的检测垃圾消息的方法包括:
步骤201,收集消息源的时域发送特性。
消息源的时域发送特性可以从很多渠道获得。例如,所谓的时域发送特性实际上可以通过到达时间来体现,即对于网络侧来说,只能判定消息到达网络侧的时间,而无法判定消息源发送消息的时间。可以从网络侧所维持的呼叫细节记录(CDR)获取短消息的到达时间,也可以从网络侧的各种数据库获取各条消息的到达时间。
步骤202,利用消息源的时域发送特性来计算消息源的频域发送特性。
步骤203,判断该消息源的频域发送特性是否符合预定的条件,如果符合则判断该消息源为垃圾消息发送者。
所述预定的条件可以包括多种形式,例如,与预定的垃圾消息发送者模板的频域发送特性匹配,或者与预定的非垃圾消息发送者模板的频域发送特性不匹配。特别地,消息源的频域发送特性一般是由一组参数表示的,可以计算这一组参数的方差,如果方差大于方差阈值,则认为该消息源是垃圾消息发送者。这是因为,垃圾消息发送者并非随机发送,因此其频域发送特性总是有比较明显的峰和谷,对应到频域发送特性的参数上就是方差比较大;而随机发送的普通消息源的频域发送特性类似于白噪声,谱分布比较平均,对应到频域发送特性的参数上就是方差比较小。这样就可以减少需要进行参数比较的消息源的数目,从而提高处理速度。
以下以所述预定的条件是与预定的垃圾消息发送者模板的频域发送特性匹配,详细介绍步骤202和步骤203的实现。根据本发明的第一个实施例,在利用消息源的时域发送特性计算消息源的频域发送特性时,利用傅立叶变换将时域发送特性变换为频域发送特性。傅立叶变换是本领域的公知技术,在此不再赘述。在通过傅立叶变换得到频域发送特性以后,可以通过与预定的垃圾消息发送者模板的频域发送特性进行参数比较的方式来判断该频域发送特性是否匹配预定的垃圾消息发送者模板的频域发送特性。
但是,采用傅立叶变换获取频域发送特性可能存在的缺点在于:一方面,傅里叶变换依赖于离散采样,而离散采样会造成频谱拓展和频谱混叠,从而引入较大的噪声,这些噪声往往淹没了所需要的频域发送特性,导致精度下降;另一方面,为了克服噪声的影响以达到所要求的精度,需要提高傅里叶变换的阶次,而阶次的提高导致用于缓存时域发送特性数据的内存开销、用于进行傅里叶变换的计算开销和用于进行参数比较的开销都相应提高。
因此,根据本发明的第二个实施例,利用模型来估计消息源的频域发送特性,然后判断所述频域发送特性是否匹配预定的垃圾消息发送者模板的频域发送特性,如果匹配则判断该消息源为垃圾消息发送者。根据该实施例,首先为消息源建模。可以建模为自回归(AR)模型,自回归移动平均ARMA模型或移动平均MA模型。由于作为消息源的系统不存在输出对输入的反馈,因此优选地,将消息源建模为自回归(AR)模型。一个M阶自回归模型的定义是:
x ( t ) = Σ m = 1 M a m x ( t - m ) + ϵ ( t ) - - - ( 1 )
其物理意义是,当前时刻的x值,是过去M个时刻的x值的线性组合加上均值为零,方差为σ2的白噪声ε(t)。其中a1到aM为M个模型参数,构成模型参数组。σ2称为模型增益。因此,估计消息源的频域发送特性就是估计消息源的AR模型中的这些模型参数和模型增益。但是,将频域发送特性与预定的垃圾消息发送者模板进行比对是比较对应的模型参数,后面将阐述为什么不比较模型增益σ2。由此可见,采用这种方法可以灵活地设置所要比较的参数个数。
下面详细地描述如何利用消息源的时域发送特性来估计AR模型中的模型参数。
对于一个消息源,利用滑动窗检测其在一段时间内的消息发送数目。对于M阶的AR模型,滑动窗具有M+1个窗格,每个窗格对应于一个时域采样间隔,设时域采样间隔的长度为P。可以容易地得到在任意一个时域采样间隔内该消息源所发送的消息数目。在零时刻,每个窗格的值均为零;在P时刻,计算从零时刻到P时刻这段时间内消息源所发送的消息数目,作为第一个窗格的值;在2P时刻,计算从P时刻到2P时刻这段时间内消息源所发送的消息数目,作为第二个窗格的值;直到在(M+1)P时刻,计算从MP时刻到(M+1)P时刻这段时间内消息源所发送的消息数目,作为第M+1个窗格的值。此后,在(M+2)P时刻,令第一个窗格的值等于第二个窗格的值,第二个窗格的值等于第三个窗格的值等等,然后令第M+1个窗格的值等于从(M+1)时刻到(M+2)P时刻这段时间内消息源所发送的消息数目。这样就构成了滑动窗。由此可见,时域采样间隔长度的设置相对于采用傅立叶变换的实施例而言更加灵活。这是因为采用傅立叶变换的实施例需要采中每条消息,而本实施例需要统计一定间隔内的总的消息数目。
在(M+1)P时刻,计算滑动窗的M+1个窗格中各个值的自相关。其中,自相关的定义是:
R ( m ) = Σ t = 1 M + 1 - m x ( t ) x ( t + m ) M + 1 - m - - - ( 2 )
根据第一种计算自相关的方式,可以根据当前滑动窗的窗格中的各个值计算出M+1个自相关的值。当滑动窗滑动时,滑动窗的第一个窗格的值就被丢弃。这种方式的好处是,只在需要计算自相关的时刻,根据当前滑动窗的窗格中的各个值进行计算,从而在其他时刻只需要更新滑动窗中各窗格的值。
根据第二种计算自相关的方式,也可以在从(M+1)P时刻开始的每个整数倍P的时刻先按照以下各式子计算准自相关:
R ′ ( 0 ) = Σ t = 1 T x 2 ( t )
R ′ ( 1 ) = Σ t = 1 T - 1 x ( t ) x ( t + 1 )
……
R ′ ( M ) = Σ t = 1 t - M x ( 1 ) x ( t + M )
其中T为不小于M+1的自然数。然后按照下式计算出相应的自相关的值:
R ( m ) = R ′ ( m ) T - m - - - ( 3 )
其中m为不小于0不大于M的整数。
采用这种计算自相关的方式的好处是,可以考虑到从时刻零开始的所有时域采样间隔的消息发送数目。
这样就可以计算出R(0)到R(M)总共M+1个值,利用这M+1个值,结合式(1),可以构成如下所示的M+1个方程,从而解出M个模型参数a1到aM以及模型增益σ2
R ( 0 ) R ( 1 ) R ( 2 ) L R ( M ) R ( 1 ) R ( 0 ) R ( 1 ) L R ( M - 1 ) R ( 2 ) R ( 1 ) R ( 0 ) L R ( M - 2 ) M M M M M M M M M M M M M M M R ( M ) R ( M - 1 ) R ( M - 2 ) L R ( 0 ) 1 a 1 a 2 M M M a M = σ 2 0 0 0 0 0 0 - - - ( 4 )
已经证明,当a1到aM均为实数时,系统的传递函数为:
H ( z ) = σ Σ i = 1 M a i z i - - - ( 4 )
由此可见,采用以上办法估计出a1到aM以及σ2后,就可以确定消息源的频域发送特性。例如,通过将计算得到的消息源的a1到aM与垃圾消息发送者模板的a1到aM相比较,就可以判断消息源的频域发送特性是否匹配预定的垃圾消息发送者模板,从而判断消息源是否为垃圾消息发送者。又例如,经过实验发现,采用不同周期的两个消息源,如果第一个消息源在每次周期到达时发送的消息数目比第二个消息源多,则第一个消息源的σ2也比第二个消息源大。由于σ2可以通过R(0)进行估计,因此,可以用R(0)为标准先进行初步筛选,如果消息源的R(0)大于平均功率阈值,则认为该消息源为垃圾消息源。初步筛选时只需要计算R(0),从而不用计算R(1)~R(M),也不用解a1到aM以及对a1到aM进行比较。R(0)通常称为信号的平均功率。R(0)的计算即可以只考虑当前滑动窗口中各窗格的值,也可以通过先计算准相关再根据式(3)得到。
采用根据本实施例的方法,时域采样间隔长度可以灵活地设定。要比较的参数的个数M也可以灵活地设定。但是,垃圾消息发送者的频域发送特性,例如所采用的周期,可能不相同。如果时域采样间隔长度过长,则无法捕捉到采用短周期的垃圾消息发送者;如果时域采样间隔长度过短,为了捕捉采用长周期的垃圾消息发送者,又需要过多的采样点,从而导致过大的开销。
下面描述根据本发明的第三个实施例。根据时域抽样定理,一个频谱受限的信号f(t),如果频率为0到fm,那么信号f(t)可以被等间隔的时域抽样值来无失真地唯一表示的条件是:时域抽样的间隔必须不大于1/2fm,或者说最低抽样频率为2fm。因此,如果以P为时域采样间隔长度进行时域采样,那么该时域采样能够无失真地表示频率低于1/2P的信号;如果采样个数为N,则所采样的抽样值只在0至NP的时间范围内存在,那么周期长于NP的信号是无法被该时域采样表示的。因此,从1/NP到1/2P是时域采样间隔长度为P、采样个数为N的时域采样对频域特性的有效分辨区间。
以P分别为P1=4、P2=16、P3=128和P4=1024为例(单位可以为秒或任何合适的时间单位),对应的有效分辨区间为:
区间1:1/4N到1/8,
区间2:1/16N到1/32,
区间3:1/128N到1/256,
区间4:1/1024N到1/2048。
对于任何N>2,区间1到区间4的长度都是依次变短的。可以考虑在较短的有效分辨区间中采用较高的频域分辨率,而在较长的有效分辨区间中采用较低的频域分辨率。换句话说,就是在高频端的有效分辨区间中采用较低的频域分辨率,而在低频端的有效分辨区间中采用较高的频域分辨率。根据频域抽样定理,一个时间受限的信号f(t),如果只在0到tm的时间范围内存在,那么信号f(t)可以被对该信号的频谱F(f)的等间隔频域抽样值来无失真地唯一表示的条件是:频域抽样的间隔必须不大于1/tm。因此,时域采样间隔长度为P、采样个数为N的时域采样得到的频域特性的分辨率最低必须为1/NP。可以用1/NP作为各个有效分辨区间中的分辨率。
将以上分析应用到第二个实施例所给出的模型估计的方法中,利用多层模型来估计消息源在多个时域采样间隔长度下的多个频域发送特性,然后判断所述多个频域发送特性是否分别与多个预定的垃圾消息发送者模板相匹配,如果匹配其中任意一个垃圾消息发送者模板则判断该消息源为垃圾消息发送者。也就是说,采用较短的时域采样间隔长度,以较低的频域分辨率,可以捕捉到采用短周期的垃圾消息发送者;采用较长的时域采样间隔长度,以较高的频域分辨率,可以捕捉到采用长周期的垃圾消息发送者;当发生匹配后,就停止对该消息源的采样。这样即保证了能够捕捉到采用短周期的垃圾消息发送者,又避免了采样过多引起的过大的开销。优选地,所述较长的时域采样间隔长度是所述较短的时域采样间隔长度的整数倍。这样做的好处是,将若干个较短的时域采样间隔内该消息源所发送的消息数目加起来,就可以得到一个较长的时域采样间隔内该消息源所发送的消息数目。
具体而言,如果需要建立四个垃圾消息发送者模板,就采用P1到P4总共四类时域采样间隔。然后采用P1到P4分别对同一个消息源进行采样,即每隔P1计算该P1间隔内对应于该消息源的消息到达数量,每隔P2计算该P2间隔内对应于该消息源的消息到达数量,每隔P3计算该P3间隔内对应于该消息源的消息到达数量,每隔P4计算该P4间隔内对应于该消息源的消息到达数量。对于每一类时域采样间隔,对应地采用本发明第二实施例所描述的方法:估计系统传递函数,即估计模型参数;将所估计的模型参数与对应垃圾消息发送者模板的模型参数相比从而确定是否匹配;以及如果匹配垃圾消息发送者模板中的任意一个则确定该消息源为垃圾消息发送者。
下面结合实验结果具体描述根据本发明第三实施例的参数比较过程。本领域技术人员能够容易地知道,以下方法也同样适用于第一实施例和第二实施例。为垃圾消息发送者建立与消息源同样形式的模型。垃圾消息发送者模板的模型参数组可以是人工设定的,也可以是通过对大量的已知垃圾消息发送者的频域发送特性进行统计而得到垃圾消息发送者模板的模型参数组。图3(A)-图3(D)示出了针对四类不同的时域采样间隔,针对大量已知的垃圾消息发送者所计算出的模型参数的分布,其中P1=4、P2=16、P3=128和P4=1024为时域采样间隔长度,固定N为11,即M为10,就可以得到四组a1到a10。如前所述,虽然在得到a1到a10的时候还会得到σ2,但是σ2主要用作初步筛选,在与垃圾消息发送者模板比较的时候就不再考虑。每个模型参数后都位于[-1,1]的区间,将该区间分为32个子区间,图3(A)-图3(D)所示的就是模型参数落入各个子区间的消息源的个数。
以图3(A)为例,表示时域采样间隔长度为4的情况下模型参数的分布。每一列表示a1到a10中的一个。左边第一列表示a1的分布。左边第一列的第一行为0,表示在所考虑的已知垃圾消息发送者中,没有任何一个垃圾消息发送者的模型参数处于[15/16,1]这个区间中。左边第一列的第16行为31,说明在所考虑的已知垃圾消息发送者中,有31个垃圾消息发送者的模型参数处于[0,1/16]这个区间中。根据图3(A)到图3(D),可以采用各种统计方法,例如加权平均,计算出对应于P1到P4的四个垃圾消息发送者模板的各自的模型参数a1到a10
需要说明的是,子区间的个数,模型的阶数以及垃圾消息发送者模板的个数都是示意性的,本领域技术人员完全可以采用各种合适的设置。
在得到了垃圾消息发送者模板的模型参数之后,就可以将消息源的模型参数与垃圾消息发送者模板的模型参数进行比较从而判断是否匹配。根据一种基于距离的匹配判断方法,将模型参数视为M维空间,每一组模型参数a1到aM视为该空间中的一个点,计算消息源的模型参数与垃圾消息发送者模板的模型参数之间的距离,例如欧几里得距离,判断所述距离是否满足预定的条件。所述条件可以是,如果该距离不超过距离阈值,则认为匹配成功。作为替换,可以引入除垃圾消息发送者以外的其他类型消息源的模板,然后计算消息源的模型参数与垃圾消息发送者模板的模型参数之间的距离和与非垃圾消息发送者模板的模型参数之间的距离,所述条件可以是,如果前者较小则认为消息源与垃圾消息发送者模板匹配。当然,关于比较两组参数是否匹配有很多其他的方法,本领域技术人员可以想到将这些方法应用于本发明。
图4是根据采用根据本发明实施例的垃圾消息检测方法的检测结果。图中的每个点代表一个消息源,总共有2,000,000个消息源,检测到的消息数目为40,000,000条。其中,P1=4、P2=16、P3=128和P4=1024为时域采样间隔长度,固定M为10。横轴示意性地表示R(0),纵轴示意性地表示消息源的模型参数的方差。如果消息源的R(0)大于平均功率阈值,则认定为垃圾消息发送者;如果消息源的模型参数的方差低于方差阈值,则认为该消息源不是垃圾消息发送者;对于R(0)小于平均功率阈值而模型参数方差高于方差阈值的消息源,判断其模型参数与垃圾消息发送者模板的模型参数是否匹配,从而判断是否为垃圾消息发送者。
为了验证判断的准确性,采用人工判断消息发送速度大于发送速度阈值的各个消息源是否的确为垃圾消息发送者。从图上可以看出,采用根据本发明实施例的方法,在进行过人工判断的消息源中,没有发生漏判,但是有少数的误判。但是,由于所检测的消息源数目为2,000,000个,误判率还是非常低的。
根据本发明实施例的方法可以包括若干额外的步骤来提高判断的准确性和速度。如上所述,可以采用平均功率阈值和方差阈值进行初步筛选。又例如,可以在步骤201和步骤202之间进一步包括基于消息发送速度的检测,可以将发送速度大于发送速度阈值的消息源作为垃圾消息发送者,进一步还可以在步骤201和步骤202之间进一步包括采用漏桶机制,从而将发送速度大于发送速度阈值的时间长度达到时间长度阈值的消息源作为垃圾消息发送者。也可以将发送速度阈值和时间长度阈值作为触发进入步骤202的标准。
再例如在,步骤201中,可以是否建立新的会话来进行初步筛选,即只有在判断出到达的消息建立了新的会话的情况下才进入步骤202。这样做可以将以较高速度发送消息的两方排除在垃圾消息发送者之外。具体方法如图5所示。
步骤501,检测到消息的到达。
步骤502,根据该消息的发送者和接收者,判断是否为新的发送者-接收者对,如果是则前进至步骤505,否则前进至步骤503。
步骤503,响应于并非新的发送者-接收者对,判断该消息与对应于同一发送者-接收者对的上一消息的到达时间之间的间隔是否超过间隔阈值,如果超过则前进至步骤505,否则前进至步骤504。
步骤504,认为未建立新的会话,不进入步骤202
步骤505,认为建立了新的会话,进入步骤202。
步骤503是可选的,即可以只要判断为消息的发送者-接收者对已经存在就认为未建立新的会话。
需要说明的是,以上描述中将垃圾消息发送者描述为周期性地发送消息。但是,本发明不限于用于检测周期性发送消息的垃圾消息发送者。即使垃圾消息发送者通过一定的手段,将其时域发送特性变得看起来好像是随机发射,其频域发送特性仍然会呈现与普通消息源的频域发送特性不同的特征,从而仍然能够通过根据本发明实施例的方法检测出来。
图6是根据本发明实施例的用于垃圾消息检测的设备的方框图。该设备包括:
收集装置,配置为收集消息源的时域发送特性;
计算装置,配置为利用消息源的时域发送特性来计算消息源的频域发送特性;和
判断装置,响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者。
本领域的普通技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的用于控制移动设备能耗的系统及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
虽然已经图示和描述了本发明的若干示例性实施例,不过本领域技术人员可以理解的是,在不偏离本发明原则和精神的前提下,可以对这些实施例进行改变,本发明的范围由权利要求书及其等价变换所限定。

Claims (18)

1.一种用于垃圾消息检测的方法,包括:
收集消息源的时域发送特性;
利用消息源的时域发送特性来计算消息源的频域发送特性;和
响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者。
2.根据权利要求1所述的方法,其中所述响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者的步骤包括:
响应于该消息源的频域发送特性与垃圾消息发送者模板的频域发送特性匹配,判断该消息源为垃圾消息发送者。
3.根据权利要求1所述的方法,其中所述响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者的步骤包括:
响应于该消息源的频域发送特性与非垃圾消息发送者模板的频域发送特性不匹配,判断该消息源为垃圾消息发送者。
4.根据权利要求1所述的方法,其中所述响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者的步骤包括:
响应于该消息源的频域发送特性的参数的方差大于方差阈值,判断该消息源为垃圾消息发送者。
5.根据权利要求2所述的方法,其中为所述消息源和垃圾消息发送者模板建立形式相同的模型,所述频域发送特性由模型的参数组表示,所述利用消息源的时域发送特性来计算消息源的频域发送特性的步骤包括:
利用消息源的时域发送特性来估计模型的对应于该消息源的参数组;
所述响应于该消息源的频域发送特性与垃圾消息发送者模板的频域发送特性匹配,判断该消息源为垃圾消息发送者的步骤包括:
响应于模型的对应于该消息源的参数组与模型的对应于垃圾消息发送者模板的参数组匹配,判断该消息源为垃圾消息发送者。
6.根据权利要求2所述的方法,其中所述垃圾消息发送者模板至少包括第一垃圾消息发送者模板和第二垃圾消息发送者模板,为所述消息源、所述第一垃圾消息发送者模板和所述第二垃圾消息发送者模板建立形式相同的模型,其中所述利用消息源的时域发送特性来计算消息源的频域发送特性的步骤包括:
以至少两个不同的值分别作为时域采样间隔长度,利用消息源的时域发送特性来估计模型的对应于该消息源的至少两个参数组;
所述响应于该消息源的频域发送特性与垃圾消息发送者模板的频域发送特性匹配,判断该消息源为垃圾消息发送者的步骤包括:
响应于模型的对应于该消息源的至少两个参数组中的任意一个与模型的对应于第一垃圾消息发送者模板的参数组和模型的匹配对应于第一垃圾消息发送者模板的参数组中的任意一个匹配,判断该消息源为垃圾消息发送者。
7.根据权利要求6所述的方法,其中所述至少两个不同的值中的一个是另一个的正整数倍。
8.根据权利要求1到7中任意一项所述的方法,在收集消息源的时域发送特性的步骤和利用消息源的时域发送特性来计算消息源的频域发送特性的步骤之间进一步包括:
利用消息源的时域发送特性计算消息源的平均功率;
响应于所述平均功率大于平均功率阈值,判断该消息源为垃圾消息发送者,并且退出流程。
9.根据权利要求1到7中任意一项所述的方法,在收集消息源的时域发送特性的步骤和利用消息源的时域发送特性来计算消息源的频域发送特性的步骤之间进一步包括:
根据消息源的时域发送特性,判断到达的消息是否建立了新的会话;和
响应于到达的消息建立新的会话,进入利用消息源的时域发送特性来计算消息源的频域发送特性的步骤。
10.一种用于垃圾消息检测的设备,包括:
收集装置,配置为收集消息源的时域发送特性;
计算装置,配置为利用消息源的时域发送特性来计算消息源的频域发送特性;和
判断装置,配置为响应于该消息源的频域发送特性符合预定的条件,判断该消息源为垃圾消息发送者。
11.根据权利要求10所述的设备,其中所述判断装置包括:
配置为响应于该消息源的频域发送特性与垃圾消息发送者模板的频域发送特性匹配,判断该消息源为垃圾消息发送者的装置。
12.根据权利要求10所述的设备,其中所述判断装置包括:
配置为响应于该消息源的频域发送特性与非垃圾消息发送者模板的频域发送特性不匹配,判断该消息源为垃圾消息发送者的装置。
13.根据权利要求10所述的设备,其中所述判断装置包括:
配置为响应于该消息源的频域发送特性的参数的方差大于方差阈值,判断该消息源为垃圾消息发送者的装置。
14.根据权利要求11所述的设备,其中为所述消息源和垃圾消息发送者模板建立形式相同的模型,所述频域发送特性由模型的参数组表示,所述计算装置包括:
配置为利用消息源的时域发送特性来估计模型的对应于该消息源的参数组的装置;
所述判断装置包括:
配置为响应于模型的对应于该消息源的参数组与模型的对应于垃圾消息发送者模板的参数组匹配,判断该消息源为垃圾消息发送者的装置。
15.根据权利要求11所述的设备,其中所述垃圾消息发送者模板至少包括第一垃圾消息发送者模板和第二垃圾消息发送者模板,为所述消息源、所述第一垃圾消息发送者模板和所述第二垃圾消息发送者模板建立形式相同的模型,其中所述计算装置包括:
配置为以至少两个不同的值分别作为时域采样间隔长度,利用消息源的时域发送特性来估计模型的对应于该消息源的至少两个参数组的装置;
所述判断装置包括:
配置为响应于模型的对应于该消息源的至少两个参数组中的任意一个与模型的对应于第一垃圾消息发送者模板的参数组和模型的匹配对应于第一垃圾消息发送者模板的参数组中的任意一个匹配,判断该消息源为垃圾消息发送者的装置。
16.根据权利要求15所述的设备,其中所述至少两个不同的值中的一个是另一个的正整数倍。
17.根据权利要求10到16中任意一项所述的设备,在所述收集装置和所述计算装置之间进一步包括:
配置为利用消息源的时域发送特性计算消息源的平均功率的装置;
配置为响应于所述平均功率大于平均功率阈值,判断该消息源为垃圾消息发送者,并且退出流程的装置。
18.根据权利要求10到16中任意一项所述的设备,在所述收集装置和所述计算装置之间进一步包括:
配置为根据消息源的时域发送特性,判断到达的消息是否建立了新的会话的装置;和
配置为响应于到达的消息建立新的会话,启动所述计算装置的装置。
CN200910139811.9A 2009-06-30 2009-06-30 用于垃圾消息检测的方法和设备 Active CN101938711B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200910139811.9A CN101938711B (zh) 2009-06-30 2009-06-30 用于垃圾消息检测的方法和设备
US12/821,230 US8479287B2 (en) 2009-06-30 2010-06-23 Method and apparatus for spam message detection
US13/924,044 US9059951B2 (en) 2009-06-30 2013-06-21 Method and apparatus for spam message detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910139811.9A CN101938711B (zh) 2009-06-30 2009-06-30 用于垃圾消息检测的方法和设备

Publications (2)

Publication Number Publication Date
CN101938711A true CN101938711A (zh) 2011-01-05
CN101938711B CN101938711B (zh) 2015-09-09

Family

ID=43382281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910139811.9A Active CN101938711B (zh) 2009-06-30 2009-06-30 用于垃圾消息检测的方法和设备

Country Status (2)

Country Link
US (2) US8479287B2 (zh)
CN (1) CN101938711B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101938711B (zh) * 2009-06-30 2015-09-09 国际商业机器公司 用于垃圾消息检测的方法和设备
US8756688B1 (en) * 2011-07-01 2014-06-17 Google Inc. Method and system for identifying business listing characteristics
US8612414B2 (en) 2011-11-21 2013-12-17 Google Inc. Grouped search query refinements
US9043417B1 (en) * 2011-12-13 2015-05-26 Google Inc. Detecting spam across a social network
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US9026601B1 (en) * 2013-03-12 2015-05-05 Symantec Corporation Systems and methods for validating members of social networking groups
US9300676B2 (en) * 2013-03-15 2016-03-29 Socure Inc. Risk assessment using social networking data
US9147117B1 (en) 2014-06-11 2015-09-29 Socure Inc. Analyzing facial recognition data and social network data for user authentication
EP3200136A1 (en) 2016-01-28 2017-08-02 Institut Mines-Telecom / Telecom Sudparis Method for detecting spam reviews written on websites
CN108880990B (zh) * 2018-06-14 2021-02-05 深信服科技股份有限公司 检测外发垃圾邮件的方法、系统、装置及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928465B2 (en) * 2001-03-16 2005-08-09 Wells Fargo Bank, N.A. Redundant email address detection and capture system
EP1613103A1 (fr) * 2004-07-02 2006-01-04 Société Française du Radiotéléphone Procédé de détection de messages redondants dans un flot de messages
CN101415188A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种群发垃圾短信的监管方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7739270B2 (en) 2004-12-07 2010-06-15 Microsoft Corporation Entity-specific tuned searching
US7926108B2 (en) 2005-11-23 2011-04-12 Trend Micro Incorporated SMTP network security processing in a transparent relay in a computer network
US20080127345A1 (en) 2006-06-30 2008-05-29 Nokia Corporation Smart-card centric spam protection
US8199746B2 (en) 2007-07-20 2012-06-12 Cisco Technology, Inc. Using PSTN reachability to verify VoIP call routing information
US8204047B2 (en) 2007-07-20 2012-06-19 Cisco Technology, Inc. Using PSTN reachability to verify caller ID information in received VoIP calls
CN101938711B (zh) * 2009-06-30 2015-09-09 国际商业机器公司 用于垃圾消息检测的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928465B2 (en) * 2001-03-16 2005-08-09 Wells Fargo Bank, N.A. Redundant email address detection and capture system
EP1613103A1 (fr) * 2004-07-02 2006-01-04 Société Française du Radiotéléphone Procédé de détection de messages redondants dans un flot de messages
CN101415188A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种群发垃圾短信的监管方法

Also Published As

Publication number Publication date
US8479287B2 (en) 2013-07-02
CN101938711B (zh) 2015-09-09
US20100333200A1 (en) 2010-12-30
US9059951B2 (en) 2015-06-16
US20140156766A1 (en) 2014-06-05

Similar Documents

Publication Publication Date Title
CN101938711B (zh) 用于垃圾消息检测的方法和设备
CN101686235B (zh) 网络异常流量分析设备和方法
CN106443203A (zh) 一种脉冲信号检测系统及方法
CN107092654B (zh) 基于均值变化检测的报警正常与异常数据检测方法和装置
CN101036343A (zh) 使基于主动探测的ip网络性能监控和诊断自动化并对其调节的方法和设备
CN108981781A (zh) 用于分析和检测机器传感器故障的预测分析系统和方法
JP2001352350A (ja) 連続ビットストリームの統計的アイダイアグラムによる測定装置及び方法
EP2838022B1 (en) User sensory quality estimation device, terminal bottleneck determination device, similar operation extraction device, and methods and programs therefor
US20150249589A1 (en) Method and apparatus for determining automatic scanning action
CN110022182A (zh) 干扰源预测模型建立方法、干扰源识别方法、装置和终端设备
CN111835611A (zh) 一种车辆can总线数据解析方法及装置
CN101938714A (zh) 用于垃圾短信检测的方法和设备
CN113179195A (zh) 一种can报文埋点检测方法、系统、装置及计算机可读存储介质
CN111124816B (zh) 一种基于hdp算法的服务器日志分析方法及系统
CN109756358B (zh) 采样频率推荐方法、装置、设备与存储介质
CN101141326A (zh) 一种自适应抽样的流量检测方法及系统
CN114884849B (zh) 基于Adaboost的CAN总线异常检测方法及系统
Lei et al. DeviceNet reliability assessment using physical and data link layer parameters
CN104320209A (zh) 一种基于拟合优度检验的频谱感知方法
CN114564758A (zh) 一种运维数据的管理方法及其系统
CN114938339A (zh) 一种数据处理方法和相关装置
JP4469278B2 (ja) 時間遅延が試験範囲よりも良好かどうかの評価方法
CN110032758B (zh) 计算电信号的能量的方法、装置和计算机存储介质
CN108806222B (zh) 智能门锁网络连接方法及智能门锁
US7957459B2 (en) Symbol rate testing method based on signal waveform analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant