CN104040963A

CN104040963A - 用于使用字符串的频谱进行垃圾邮件检测的系统和方法

Info

Publication number: CN104040963A
Application number: CN201280066689.7A
Authority: CN
Inventors: 达尼埃尔·迪基乌; Z·卢奇安·卢普赛斯库
Original assignee: Bit Fan De Intellectual Property Management Co Ltd
Current assignee: Bit Fan De Intellectual Property Management Co Ltd; Bitdefender IPR Management Ltd
Priority date: 2012-01-25
Filing date: 2012-09-05
Publication date: 2014-09-10
Anticipated expiration: 2032-09-05
Also published as: AU2012367397B2; WO2013112061A1; IL233057B; IL233057A0; US20130191468A1; CA2859135C; US9130778B2; CN104040963B; AU2012367397A1; KR20140115314A; EP2807801A1; CA2859135A1; SG11201403440PA; RU2601190C2; JP2015506642A; RU2014133872A; JP5941163B2; KR101686144B1; US10212114B2; US20150381539A1

Abstract

所描述的包含串识别、预过滤以及频谱和时戳比较步骤的垃圾邮件检测技术促进了对在短持续波中到达的快速改变的垃圾邮件的准确、计算上高效的检测。在一些实施例中，计算机系统从例如博客评论等电子通信提取目标字符串，将其发射到反垃圾邮件服务器，且从所述反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。所述反垃圾邮件服务器根据所述目标串的频谱的特征确定所述电子通信是否为垃圾邮件或非垃圾邮件。一些实施例还执行将传入目标串无监督地群集为若干群集，其中群集的所有成员具有相似的谱。

Description

用于使用字符串的频谱进行垃圾邮件检测的系统和方法

背景技术

本发明涉及用于分类电子通信的方法和系统，且特定来说涉及用于对非请求商业电子通信(垃圾邮件(spam))进行过滤的系统和方法。

非请求商业电子通信(也称为垃圾邮件)形成全世界所有通信业务的重要部分，从而影响计算机和电话消息接发服务。垃圾邮件可采取许多形式，从非请求电子邮件通信到装作例如博客和社交网络站点等各种因特网站点上的用户评论的垃圾邮件消息。垃圾邮件占用有价值的硬件资源，影响生产力，且被通信服务和/或因特网的许多用户视为厌烦和打扰的。

在电子邮件垃圾邮件的情况下，在用户或电子邮件服务提供者的计算机系统上运行的软件可用以将电子邮件消息分类为垃圾邮件或非垃圾邮件，且甚至在各种垃圾邮件消息之间进行区分(例如，产品报价、成人内容、电子邮件欺诈)。随后可将垃圾邮件消息引导到特殊文件夹或删除。

类似地，在内容提供者的计算机系统上运行的软件可用以拦截张贴到网站的欺骗消息且防止相应消息被显示，或向网站的用户显示相应消息可能是垃圾邮件的警告。

已经提出若干方法来识别垃圾邮件消息，包含将消息的发源地址匹配于已知的违反或受信任地址的列表(分别称为列黑名单和列白名单的技术)、搜索某些字或字模式(例如，重新募集资金、股票)以及分析消息标头。特征提取/匹配方法经常结合自动化数据分类方法(例如，贝叶斯滤波、神经网络)来使用。

垃圾邮件经常以相似消息的快速连续群组到达，也称为垃圾邮件波。垃圾邮件的形式和内容可大体上在垃圾邮件波之间改变，因此成功检测可得益于能够快速地辨识新垃圾邮件波且对其作出反应的方法和系统。

发明内容

根据一个方面，一种方法包括：采用计算机系统接收形成电子通信的一部分的目标串；将所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符映射到所述数字序列的数字；根据所述目标串确定串合格性准则；以及根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串。响应于选择所述候选串，进一步采用所述计算机系统执行所述目标信号的频谱与针对所述多个候选串中的候选串确定的频谱之间的比较；以及根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

根据另一方面，一种计算机系统包括经编程以进行以下操作的至少一处理器：接收形成电子通信的一部分的目标串；将所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符映射到所述数字序列的数字；响应于接收到所述目标串，根据所述目标串确定串合格性准则；以及根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串。所述处理器进一步经编程以执行所述目标信号的频谱与针对所述多个候选串中的候选串确定的频谱之间的比较；以及根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

根据另一方面，一种方法包括：采用计算机系统接收电子通信；从所述电子通信提取目标串；将所述目标串发射到反垃圾邮件服务器；以及接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目标标签，其中所述目标标签是在所述反垃圾邮件服务器处确定。确定所述目标标签包括：采用所述反垃圾邮件服务器将字符的所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符映射到所述数字序列的数字；根据所述目标串确定合格性准则；根据所述合格性准则对参考串的语料库进行预过滤，以产生多个候选串；响应于选择所述候选串，执行所述目标信号的频谱与针对所述多个候选串中的候选串确定的频谱之间的比较；根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

根据一个方面，一种方法包括：采用计算机系统接收形成电子通信的一部分的目标串；将所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符映射到所述数字序列的数字；根据所述目标串确定串合格性准则；以及根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串。响应于选择所述候选串，进一步采用所述计算机系统确定将所述目标串与所述多个候选串中的候选串分离的串间距离，所述串间距离是根据所述目标信号的频谱的第一振幅和根据针对所述候选串确定的频谱的第二振幅来确定；以及根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

根据另一方面，一种方法包括：采用计算机系统接收形成电子通信的一部分的目标串；将所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符映射到所述数字序列的数字；以及确定所述目标信号的频谱。所述方法进一步包括执行所述目标信号的所述频谱与针对从一组参考串选择的参考串确定的频谱之间的比较；以及根据所述比较的结果确定所述目标通信是否为垃圾邮件或非垃圾邮件。

附图说明

在阅读以下详细描述后且在参考附图后将更好地了解本发明的前述方面和优点，其中：

图1展示根据本发明的一些实施例的示范性反垃圾邮件系统。

图2展示根据本发明的一些实施例的服务器计算机系统的示范性硬件配置。

图3-A说明根据本发明的一些实施例的在客户端计算机与反垃圾邮件服务器之间的示范性垃圾邮件检测事务。

图3-B说明根据本发明的一些实施例的在内容服务器与反垃圾邮件服务器之间的示范性垃圾邮件检测事务。

图4展示根据本发明的一些实施例的目标通信的示范性目标指示符，所述指示符包括目标串和额外识别垃圾邮件的数据。

图5展示根据本发明的一些实施例的在反垃圾邮件服务器上执行的一组示范性应用程序的图。

图6展示根据本发明的一些实施例的示范性目标信号和关联于目标串的示范性目标谱。

图7说明根据本发明的一些实施例的在图1的反垃圾邮件服务器上操作的示范性垃圾邮件检测器应用程序。

图8说明根据本发明的一些实施例的在特征超空间中表示的多个群集，每一群集包括相似项目的集合。

图9展示根据本发明的一些实施例的由图7的垃圾邮件检测器执行的示范性步骤序列。

图10-A展示随着测试串的串长度而变的计算机实验的结果，包括确定将目标串转换为目标信号花费的计算时间。

图10-B-C-D展示随着测试串的串长度而变的计算机实验的结果，包括确定用以针对目标串集合产生目标谱的计算时间。

图10-E展示随着测试串的明显不同的字符数目而变的计算机实验的结果，包括确定针对测试串集合执行群集指派所花费的计算时间。

图11展示针对包括垃圾邮件和非垃圾邮件的真实博客评论的集合的串长度对时戳指示符的绘图。

图12展示针对包括垃圾邮件和非垃圾邮件的真实博客评论的集合的明显不同的字符数目对时戳指示符的绘图。

具体实施方式

在以下描述中，应了解，结构之间所有陈述的连接可为直接操作连接或通过中间结构的间接操作连接。一组元件包含一或多个元件。对一元件的任何陈述应理解为涉及至少一个元件。多个元件包含至少两个元件。除非另外需要，否则任何描述的方法步骤均无需一定以特定说明的次序执行。从第二元素导出的第一元素(例如，数据)涵盖等于第二元素的第一元素，以及通过处理第二元素和(任选地)其它数据而产生的第一元素。根据参数做出确定或决策涵盖根据参数且任选地根据其它数据做出确定或决策。除非另外指定，否则某个量/数据的指示符可为所述量/数据自身，或不同于所述量/数据自身的指示符。在本发明的一些实施例中描述的计算机程序可为独立的软件实体或其它计算机程序的子实体(例如，子例程、代码对象)。除非另外指定，否则术语垃圾邮件不限于电子邮件垃圾邮件，而是还涵盖例如不合法或非请求的商业用户产生的内容等电子通信，其形式为博客评论、论坛讨论、维基(wiki)条目、顾客反馈、社交网络站点上的张贴、即时消息，以及电话文本和多媒体消息等等。计算机可读媒体涵盖非暂时性存储媒体，例如磁性、光学和半导体媒体(例如，硬驱动器、光盘、快闪存储器、DRAM)，以及例如传导电缆和光纤链路等通信链路。根据一些实施例，本发明尤其提供包括经编程以执行本文描述的方法的硬件的计算机系统，以及编码用以执行本文描述的方法的指令的计算机可读媒体。

以下描述借助于实例且不一定以限制方式来说明本发明的实施例。

图1展示根据本发明的一些实施例的示范性反垃圾邮件系统。系统10包含多个内容服务器12a到12b、反垃圾邮件服务器16以及多个客户端系统14a到14b。内容服务器12a到12b可表示托管和/或递送在线内容的网络服务器，所述在线内容例如为个人和公司网站、博客、社交网络站点和在线娱乐站点等等。其它内容服务器12a到12b可表示电子邮件服务器，其对客户端系统14a到14b提供电子消息递送。客户端系统14a到14b可表示最终用户计算机，其各自具有处理器、存储器和存储装置，且运行例如或Linux等操作系统。一些客户端计算机系统14a到14b可表示移动计算和/或电信装置，例如平板PC、移动电话和个人数字助理(PDA)。在一些实施例中，客户端系统14a到14b可表示个别顾客，或若干客户端系统可属于同一顾客。反垃圾邮件服务器16可包含一或多个计算机系统。网络18连接内容服务器12a到12b、客户端系统14a到14b以及反垃圾邮件服务器16。网络18可为例如因特网等广域网，而网络18的部分也可包含局域网(LAN)。

图2展示例如反垃圾邮件服务器16等服务器计算机系统的示范性硬件配置。在一些实施例中，服务器16包括处理器20、存储器单元22、一组存储装置24，和通信接口控制器26，其全部通过一组总线28连接。

在一些实施例中，处理器20包括物理装置(例如，多核心集成电路)，其经配置以用一组信号和/或数据执行计算和/或逻辑操作。在一些实施例中，此些逻辑操作以处理器指令序列(例如，机器代码或其它类型的软件)的形式递送到处理器20。存储器单元22可包括计算机可读媒体(例如，RAM)，其存储在实行指令的过程中由处理器20存取或产生的数据/信号。存储装置24包含实现软件指令和/或数据的非易失性存储、读取和写入的计算机可读媒体。示范性存储装置24包含磁盘和光盘以及半导体(例如，快闪)存储器装置，以及例如CD和/或DVD光盘和驱动器等可装卸媒体。通信接口控制器26使得服务器系统16能够连接到网络18和/或其它机器/计算机系统。典型的通信接口控制器26包含网络适配器。总线28共同地表示多个系统、外围设备和芯片组总线和/或实现服务器系统16的装置20到26的互通信的所有其它电路。举例来说，总线28可尤其包括将处理器20连接到存储器22的北桥总线，和/或将处理器20连接到装置24到26的南桥总线。

在一些实施例中，每一客户端系统14a到14b包括文档阅读器应用程序(例如，网络浏览器、电子邮件阅读器、媒体播放器)，其可为用以远程地存取存储在内容服务器12a到12b上的数据的计算机程序。当用户接入例如网页等在线文档或接收例如电子邮件等电子通信时，关联于所述文档/通信的数据在相应内容服务器与客户端系统14之间在网络18的部分上循环。在一些实施例中，阅读器应用程序接收文档数据，将其转换为可视形式，且向用户显示。阅读器应用程序的一些实施例也可允许用户与所显示内容交互。在电子邮件的情况下，客户端系统14a到14b可包含专门软件，其经配置以将传入电子邮件分类为多种类别中的一者(例如，垃圾邮件、合法邮件、各种其它类和子类)。

在一些实施例中，内容服务器12a到12b经配置以从多个用户接收用户产生的内容(例如，文章、博客条目、媒体上载、评论等等)，且组织、格式化此内容且经由网络18将此内容递送到第三方。在服务器12a到12b处接收的用户产生的数据的一部分可包括可能包含非请求消息(垃圾邮件)的电子通信。此些电子通信的实例(在以下描述中称为目标通信或目标消息)是电子邮件消息、博客评论、向社交网络站点的张贴、以及发送到娱乐和/或新闻站点的评论等等。

在一些实施例中，内容服务器12a到12b可包括经配置以处理从用户接收的目标通信以检测垃圾邮件的软件组件。当检测到时，可阻止和/或防止垃圾邮件消息(例如，欺骗性博客评论等等)在相应网站内显示。垃圾邮件处理软件可以服务器侧脚本的形式在内容服务器12a到12b上实施。此些脚本可作为插件并入到较大的脚本包中，例如作为用于或在线发布平台的反垃圾邮件插件。在一些实施例中，为了检测垃圾邮件，服务器12a到12b可经配置以从事与反垃圾邮件服务器16的合作性垃圾邮件检测事务，如下文详细描述。

在一些实施例中，反垃圾邮件服务器16经配置以执行与内容服务器12a到12b和/或客户端系统14a到14b的合作性垃圾邮件检测事务。图3-A说明经配置以检测电子邮件垃圾邮件的实施例中在服务器16与客户端系统14之间的示范性数据交换。客户端系统14可经由网络18从邮件服务器接收电子邮件消息。在接收到电子邮件消息之后，客户端系统14可将包括关联于电子邮件消息的识别垃圾邮件的数据的目标指示符40发送到反垃圾邮件服务器16，且作为响应可接收指示相应电子邮件消息是否为垃圾邮件的目标标签50。客户端系统14可随后将消息置于适当消息类别中(例如，垃圾邮件或合法电子邮件)。

图3-B说明经配置以检测在服务器12处接收的用户产生的垃圾邮件(例如博客垃圾邮件或张贴在社交网络站点上的垃圾邮件等等)的实施例中在反垃圾邮件服务器16与内容服务器12之间的示范性数据交换。在例如由于用户在托管于服务器12上的网站上张贴评论而接收到目标通信之后，服务器12可将包括从目标通信提取的识别垃圾邮件的数据的目标指示符40发送到反垃圾邮件服务器16，且作为响应接收指示目标通信是否为垃圾邮件的目标标签50。

图4展示根据本发明的一些实施例的目标通信的示范性目标指示符。目标指示符40包括：对象ID41(例如，标签、散列)，其唯一地识别目标通信；以及目标串42，其包含目标通信的文本部分，例如博客评论的文本部分。在一些实施例中，目标串42包括目标通信的大体上所有文本。当目标通信包含若干文本部分时，目标串42可包括文本部分的串联，或者，每一文本部分可接收明显不同的目标串42。在一些实施例中，目标串42包括目标通信的文本部分的区段，所述区段具有预设串长度(例如，128个连续字符)。

目标指示符40的一些实施例除了目标串42之外可包含对应于目标通信的其它识别垃圾邮件的数据。在图4的实例中，目标指示符40包含：用户名指示符44，其指示由目标通信的提交者提供的名称(例如，个人名字、笔名、屏幕名称、登录名称、化身名称、句柄等等)；地址指示符46，其指示目标通信的起源位置(例如，发源的IP地址)；以及时戳48，其指示当目标通信被提交时的实时点(例如，日期和时间)。

在一些实施例中，目标标签50可包括例如ID41等对象ID，以及目标通信的垃圾邮件状态的指示符。目标标签50根据由反垃圾邮件服务器16执行的评估有效地指定目标通信是否为垃圾邮件，如下文详细描述。

图5展示根据本发明的一些实施例的在反垃圾邮件服务器16上执行的一组示范性应用程序的图。应用程序包含垃圾邮件检测器32和连接到垃圾邮件检测器32的通信管理器34。应用程序32和34可为独立计算机程序，或可形成提供例如计算机安全性服务(例如恶意软件检测)的较大软件套件的部分。在一些实施例中，反垃圾邮件服务器16还托管反垃圾邮件数据库30。或者，反垃圾邮件数据库可驻留在与服务器16明显不同的计算机系统上，但经由网络18连接到服务器16，或驻留在连接到服务器16的计算机可读媒体上。

反垃圾邮件数据库30包括与在线垃圾邮件相关的知识储存库。在一些实施例中，数据库30包括参考谱的语料库，每一谱是针对电子通信而计算，如下文进一步描述。数据库30可包含用于垃圾邮件或非垃圾邮件电子通信两者的数据，例如博客评论、张贴于社交网络站点上的评论等等。除了谱数据，存储于数据库30中的每一记录可包含额外信息，例如相应通信的串42，例如时戳48等时间指示符，以及串长度的指示符，明显不同的字符的数目以及串42的谱得分，下文描述此些量的示范性使用。在一些实施例中，与每一谱相关，数据库30可存储群集指派指示符，其指示相应串当前经指派于的消息群集。数据库30还可存储包括例如对象ID41等多个识别符的数据结构，每一对象识别符唯一地关联于电子通信，以及映射，其使每一谱与其计算所针对的电子通信相关联，从而允许垃圾邮件检测器32从数据库30选择性地检索参考谱，如下文所示。

图6展示根据本发明的一些实施例的示范性目标信号和针对目标串42计算的示范性目标谱。目标信号52包括数字序列，每一数字指示串42的字符。为了产生目标信号52，可使用将字符映射到数字的一一对应关系(即，双射函数)。在一些实施例中，对于串42的每一字符，目标信号52包括用于相应字符的ASCII码。

目标谱60包括数字序列，所述序列表示目标信号52的频域(例如，傅立叶变换)表示。在一些实施例中，序列内的选定数字的位置指示频率f，而数字自身A(f)可指示信号52的相应频率分量的振幅或功率。在一些实施例中，使用例如快速傅立叶变换(FFT)等离散傅立叶变换(DFT)算法从目标信号52计算目标频谱60。

在一些实施例中，通信管理器34经配置以管理与客户端系统14a到14b和/或内容服务器12a到12b的通信。举例来说，管理器34可经由网络18建立连接，向客户端系统14a到14b和内容服务器12a到12b/从客户端系统14a到14b和内容服务器12a到12b发送和接收例如目标指示符和目标标签等数据。

图7展示根据本发明的一些实施例的在反垃圾邮件服务器16上操作的示范性垃圾邮件检测器的图。垃圾邮件检测器32包括谱管理器36和连接到谱管理器36的群集引擎38。垃圾邮件检测器32可从通信管理器34接收目标通信的目标指示符40(参见图5和3a到3b)且从反垃圾邮件数据库30接收参考谱64，且又将目标标签50输出到通信管理器34，以转发到客户端系统14或内容服务器12，其起始相应的垃圾邮件检测事务。

在一些实施例中，谱管理器36经配置以从通信管理器34接收目标指示符40，根据目标指示符40的数据计算目标谱60，执行预过滤过程以确定一组合格的参考谱64，从反垃圾邮件数据库30选择性地检索参考谱64，且将谱60和64转发到群集引擎38以进行谱比较和群集指派。将关于图9详细论述谱管理器36的操作。

在一些实施例中，在特征超空间中通过分析对应于目标通信的特征向量与一组代表性向量之间的距离来执行目标消息分析，每一代表性向量界定目标串的明显不同的集合(群集)的原型。图8展示在具有两条轴线d1和d2的简单二维特征空间中分别由特征向量74a到74c形成的三个示范性群集70a到70c。在本发明的一些实施例中，轴线d1和d2对应于目标串的明显不同的特征，例如目标谱的两个明显不同的频率。在一些实施例中，每一群集70由占据特征超空间的大体上小区域的目标串组成，意味着群集的所有成员具有相似的特征向量，例如相似的频谱。

在一些实施例中，群集引擎38经配置以维持群集70的集合，表示在数据积累的历史期间在反垃圾邮件服务器16处接收的电子通信的语料库。根据相似性将通信分组为群集，理想上，群集由相同或近相同的消息组成。一些群集70可表示个别垃圾邮件波，每一波包含发送到大量客户端和/或张贴于大量网站上的同一垃圾邮件消息的副本或变体。群集引擎38进一步经配置以接收目标谱60且根据谱相似性将由谱60表示的目标通信指派于其最相似的群集。为了执行群集指派，群集引擎38从谱管理器36接收一组参考谱64，每一谱64表示一群集，且比较谱60与64以确定哪一消息群集最佳地匹配于目标谱60。下文关于图9给出群集引擎38的操作的更多细节。

图9展示根据本发明的一些实施例的在垃圾邮件检测事务内由垃圾邮件检测器32(图7)执行的示范性步骤序列。在步骤102中，垃圾邮件检测器32经由通信管理器34从客户端系统14或内容服务器12接收目标指示符40。接着，在步骤104中，垃圾邮件检测器32根据目标指示符40提取目标串42，且通过例如对目标串42的ASCII码进行定序来计算目标信号52。

步骤106确定目标信号52的频谱60(参见图6)。步骤106还可包括计算目标串42的若干参数，例如串长度和/或明显不同的字符的数目，其用以在步骤108中对消息群集的集合进行预过滤。在一些实施例中，目标信号52经填零到等于下一2的幂的长度(例如，针对长度243的目标串，目标信号将填补到长度256)。在一些实施例中，垃圾邮件检测器32还将数字滤波器应用于目标信号52。示范性数字滤波器包含低通和/或高通滤波器。

在一些实施例中，在步骤108中，垃圾邮件检测器32执行预过滤操作以根据一组预过滤准则从由群集引擎38维持的完整集合选择候选群集的子集。通过仅选择将执行谱比较的群集的(小)子集，垃圾邮件检测器32可有效地降低计算成本。

在一些实施例中，垃圾邮件检测器32可使用串长度作为用于选择候选群集的预过滤准则。将目标串42的串长度与代表每一群集的串长度进行比较(或与相应群集的成员的平均串长度进行比较)。群集在其典型串长度在目标串42的串长度的预定阈值内时可被选择为用于谱比较的候选。

替代的预过滤准则是明显不同的字符的数目(计数)。举例来说，串“Mississippi”具有4个明显不同的字符：M、i、s和p。对于每一群集，将目标串42的明显不同的字符的数目与相应群集的代表性成员的明显不同的字符的数目进行比较，或与群集的成员的明显不同的字符的平均数目进行比较；将具有与目标串42相似数目的明显不同的字符的群集选择为用于谱比较的候选。

在一些实施例中，预过滤准则包括将谱得分计算为如下函数：

S = \underset{i}{Σ} A_{i}, - - - [1]

其中i标引频率，且A_i表示相应串的傅立叶谱在频率i处的振幅(或功率)。对于每一群集，将目标串42的谱得分[1]与相应群集的代表性成员的谱得分进行比较，或与群集的平均串得分进行比较；将具有与目标串42相似谱得分的群集选择为用于谱比较的候选。

在一些实施例中，可组合预过滤准则。举例来说，可选择群集的第一子集，其中每一群集具有与目标串42相似的串长度，随后，在群集的第一子集之外，根据谱得分相似性选择第二子集。

在已选择用于谱比较的一组候选后，对于每一选定群集，垃圾邮件检测器32可指示谱管理器36从反垃圾邮件数据库30选择性地检索对应于相应群集的代表性消息的参考谱64。随后，针对每一选定群集执行步骤110到118的循环序列。在步骤110中，垃圾邮件检测器32可检验是否已考虑所有选定群集以用于比较。如果是，那么垃圾邮件检测器32前进到下文描述的步骤120。如果否，那么在步骤112中，评估下一群集。在步骤114中，将目标谱60与代表相应群集的参考谱64进行比较。

步骤114包括执行目标谱60与参考谱64之间的比较。在一些实施例中，比较包含通过比较在一组选定频率处相应谱的振幅来计算串间距离。举例来说，

D (T, R) = \underset{i &Element; S}{Σ} {| {A^{T}}_{i} - {A^{R}}_{i} |}^{α}, - - - [2]

其中i标引频率，A^T _i表示在频率i处目标谱的振幅，A^R _i表示在频率i处参考谱的振幅，且α是正常数(例如，α-1)。在一些实施例中，对应于同一群集的成员的所有频谱具有相同频率标度，因此公式[2]确实比较针对同一频率i计算的T和R的频率分量。当经比较的串不具有确切相同的串长度时(将导致两个对应谱具有不同频率标度)，在一些实施例中，关联于相应串的信号可经填零到等于下一2的幂的串长度。

集合S表示谱的频率子集。在一些实施例中，S由仅一个频率组成。举例来说，当S＝{i|f＝0}时，公式[2]仅比较在零频率处两个谱的振幅。在另一实例中，S＝{i|A^T _i＝A^T _max}，即公式[2]仅比较在对应于目标谱的最大振幅A^T _max的频率i处两个谱的振幅。在一些实施例中，S表示谱的所有频率的子集。

步骤116(图9)确定目标谱60是否匹配于参考谱64。在一些实施例中，谱匹配要求串间距离小于预定阈值，D(T,R)<t。阈值t可独立于正比较的串，或可根据目标串42的串长度和/或明显不同的字符的数目而变化。在一些实施例中，较高的阈值用于相当较长的串，或具有相当较大数目的明显不同的字符的串。

当发现谱60与64之间的匹配时，垃圾邮件检测器32前进到步骤118，其中将相应消息群集标记为合格接收目标串42。如果谱不匹配，那么垃圾邮件检测器32返回到步骤110。当在步骤106中选择的所有消息群集均已通过谱比较而评估时，步骤120确定是否还有任何群集合格接收目标串42。如果是，那么在步骤124中垃圾邮件检测器32可针对每一合格群集计算串与群集相似性指示符，其指示目标串42与相应群集的所有成员有多相似。每一合格群集的示范性串与群集相似性指示符包括具有匹配于目标谱60的参考谱64的群集成员的分数。

接着，步骤126实行目标串42向其最相似的消息群集的实际指派。在一些实施例中，将目标串42指派于在步骤124中确定的具有最高串与群集相似性指示符的群集。群集引擎38可更新群集指派数据以反映新群集成员的添加，且可在反垃圾邮件数据库30中引入目标串42的记录。在一些实施例中，步骤126进一步包含确定关联于接收到目标消息的群集的一组识别垃圾邮件的参数。举例来说，一些实施例可计算在同一群集内在连续时戳之间过去的时间间隔。此些参数可彼此相关而保存，且可用以自动地(无人操作者的监督)确定特定群集是否包含垃圾邮件或合法消息，或特定群集是否可能表示垃圾邮件波。

当未发现群集合格接收目标串(步骤120)，指示目标串42可能明显不同于已经存储在反垃圾邮件数据库中的任一者时，在步骤122中，群集引擎38可产生具有目标串的新群集作为单独成员，且可将目标串的记录保存到反垃圾邮件数据库30中。

在步骤128中，垃圾邮件检测器32可确定将目标通信识别为垃圾邮件或合法的目标标签50。在一些实施例中，根据目标串42的群集指派做出目标通信是否为垃圾邮件的决策。当串42经指派于主要由垃圾邮件消息组成的群集时，则目标消息也可接收垃圾邮件标签。

在一些实施例中，根据目标消息经指派于的群集的成员的某些识别垃圾邮件的特征来确定标签50。一种此识别垃圾邮件的特征是时戳48。在短时间间隔中许多新成员的指派可为相应群集由垃圾邮件消息波组成的指示。在一些实施例中，垃圾邮件检测器32可确定在关联于群集的成员的多个时戳之间过去的时间间隔，例如，6个成员经指派于所述群集的最短时间间隔，且当时间间隔下降到低于预定阈值时，将相应群集标记为垃圾邮件。

上文描述的示范性系统和方法允许反垃圾邮件系统检测呈因特网上的用户产生的内容(呈博客评论、张贴于社交网络站点上的评论等等的形式)的形式以及还呈电子邮件消息、即时消息以及电话文本和多媒体消息的形式的非请求通信。

在一些实施例中，计算机系统从例如博客评论等电子通信提取目标字符串，将其发射到反垃圾邮件服务器，且从反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。当电子通信是垃圾邮件时，计算机系统可阻止、隔离、擦除或以任何其它方式限制电子通信的显示和/或可向用户发出警告。

反垃圾邮件服务器根据从电子通信提取的目标字符串的频率表示来确定电子通信是否为垃圾邮件或非垃圾邮件。将目标串变换为信号，例如数字序列，且计算信号的目标谱并与参考谱的语料库进行比较，以找到目标谱的匹配。本发明的一些实施例利用了两个相似串总是具有相似频谱的观察。因此，找到目标串的谱与针对参考串计算的另一谱之间的匹配可为目标串类似于参考串的指示。在此情况下，反垃圾邮件服务器可随后根据参考串是否指示垃圾邮件(例如，参考串是否属于经标记为垃圾邮件的电子通信的群集)而确定电子通信是否为垃圾邮件。

然而，存在其中两个明显不同的串具有非常相似谱的许多情形。为了避免错误肯定识别，当做出两个串是否相似的决策时可考虑目标串的其它特征(例如时戳)。

当串长度超过某一阈值时，谱比较可能不是识别相似串的可靠方法。在非常长的串的限制中，所有串具有相似谱，其类似于白噪声谱。因此，此处描述的系统和方法尤其适于分析在例如博客张贴和社交联网站点(例如和)上的评论等电子通信中出现的短串。

通过串比较的垃圾邮件检测的额外问题是迷惑性，其中发垃圾邮件者可用其它字符(例如，Vi4gra)替换消息中的某些字符以避免检测。通过将具有高通或低通特性的数字滤波器应用于目标信号可解决串迷惑性。迷惑性字符可视为“噪声”，滤波可减少同一串的两个迷惑性版本之间的串间距离，从而使得两个串看上去较相似。

本发明的一些实施例将语料库组织为多个群集，记录的每一群集由相似串组成。替代于在语料库的所有记录上执行谱比较，群集允许此处描述的方法和系统将目标串与每群集仅一个代表性目标串进行比较，因此显著降低计算成本。

群集也可促进自动化(无监督)垃圾邮件检测。与其中消息分类通常通过监督训练过程(例如，在先前分类为多个预定消息类的训练语料库上)实现的常规群集方法相反，本发明的一些实施例执行动态群集，而不需要群集或消息的垃圾邮件状态(垃圾邮件对非垃圾邮件)的先前知识。群集在其在短时间间隔中积累某一数目的成员时可自动经识别为表示垃圾邮件。

在计算机实验中，根据本发明的一些实施例将22,000个博客评论的语料库分类为群集。在配备3GHz的奔腾4处理器和1.5GB的RAM的运行Ubuntu OS10.04的计算机系统上实行计算。分类花费计算时间的近似9:30分钟，从而产生具有一个以上群集成员的1,652个消息群集(平均每群集4.59个评论)。通过比较，采用基于散列的串匹配算法且在相同硬件平台上执行的常规群集系统在计算时间的7:07分钟中产生具有一个以上成员的1,617个群集，其中平均每群集4.26个评论。

图10A到10E展示以在从25到3000个字符的串长度范围内的测试串集合执行的另一计算机实验的结果。硬件配置与上文相同。图10-A展示随着测试串的串长度而变的将串映射到信号中花费的时间。每信号的计算时间从几微秒变化到近似0.5毫秒，其中在时间与串长度之间具有近似线性相关。

图10-B-C-D展示针对某一范围的串长度计算测试串的频谱所花费的时间。图10-E展示随着测试串的串长度而变的根据谱比较(例如，公式[2])计算串间距离所花费的时间。计算时间的范围是从几微秒到大约500微秒。

图11展示针对包括垃圾邮件和非垃圾邮件的8676个真实博客评论的集合的对比时戳指示符所绘制的串长度。图12展示针对包括垃圾邮件和非垃圾邮件的5351个真实博客评论的另一集合的对比时戳指示符所绘制的明显不同的字符的数目。图11和12两者指示根据时戳的垃圾邮件消息的群集，其允许如上所述的自动垃圾邮件识别。

所属领域的技术人员将明了，可以许多方式更改以上实施例而不偏离本发明的范围。因此，本发明的范围应由所附权利要求书及其合法等效物确定。

Claims

1.一种方法，其包括：

采用计算机系统接收形成电子通信的一部分的目标串；

采用计算机系统将所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符被映射到所述数字序列的一数字；

响应于接收到所述目标串，采用所述计算机系统根据所述目标串确定串合格性准则；

采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；

响应于选择所述候选串，采用所述计算机系统执行所述目标信号的频谱与针对所述多个候选串中的一候选串确定的频谱之间的比较；以及

采用所述计算机系统根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

2.根据权利要求1所述的方法，其进一步包括根据所述目标串的时戳与所述候选串的时戳之间的比较确定所述电子通信是否为垃圾邮件或非垃圾邮件。

3.根据权利要求1所述的方法，其中所述参考串的语料库包括多个群集，每一群集包含一组相似串，其中所述多个候选串中的每一候选串代表一明显不同的群集，且其中所述方法进一步包括响应于执行所述比较，采用所述计算机系统从所述多个群集选择一群集且将所述目标串指派于所述选定群集。

4.根据权利要求3所述的方法，其进一步包括根据多个时戳确定所述目标通信是否为垃圾邮件或非垃圾邮件，所述多个时戳中的每一时戳对应于所述选定群集的一成员。

5.根据权利要求3所述的方法，其进一步包括：

响应于将所述目标串指派于所述选定群集，确定所述选定群集的群集成员的计数；以及

根据所述群集成员的计数确定所述目标通信是否为垃圾邮件或非垃圾邮件。

6.根据权利要求3所述的方法，其进一步包括根据所述选定群集将所述目标通信识别为属于选定垃圾邮件波。

7.根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：

确定所述目标串的第一串长度和所述语料库的参考串的第二串长度，且

当所述第一串长度与所述第二串长度相差小于预定阈值的量时，将所述参考串添加到所述组候选串。

8.根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：

将所述目标串的第一谱得分确定为如下函数：

S = \underset{i}{Σ} A_{i}

其中A_i表示在频率i处确定的所述目标信号的所述频谱的振幅；

确定所述语料库的参考串的第二谱得分；以及

当所述第一谱得分与所述第二谱得分相差小于预定阈值的量时，将所述参考串添加到所述组候选串。

9.根据权利要求1所述的方法，其中执行所述比较包括将串间距离确定为如下函数：

\underset{i &Element; S}{Σ} {| {A^{T}}_{i} - {A^{C}}_{i} |}^{α},

其中i标引频率，S表示所述目标信号的所述频谱的频率子集，A^T _i表示频率i处所述目标信号的所述频谱的振幅，A^C _i表示在频率i处针对所述候选串确定的所述频谱的振幅，且其中ɑ是正常数。

10.根据权利要求9所述的方法，其中所述子集S排他地由对应于所述目标信号的所述频谱的零频率的索引i组成。

11.根据权利要求9所述的方法，其中所述子集S排他地由对应于所述目标信号的所述频谱的最大振幅的索引i组成。

12.根据权利要求1所述的方法，其进一步包括响应于将所述目标串处理为目标信号，采用所述计算机系统将数字低通滤波器应用于所述目标信号，且其中所述目标信号的所述频谱包括所述经滤波目标信号的频谱。

13.根据权利要求1所述的方法，其进一步包括响应于将所述目标串处理为目标信号，采用所述计算机系统将数字高通滤波器应用于所述目标信号，且其中所述目标信号的所述频谱包括所述经滤波目标信号的频谱。

14.一种计算机系统，其包括经编程以进行以下操作的至少一个处理器：

接收形成电子通信的一部分的目标串；

将所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符被映射到所述数字序列的一数字；

响应于接收到所述目标串，根据所述目标串确定串合格性准则；

根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；

响应于选择所述候选串，执行所述目标信号的频谱与针对所述多个候选串中的候选串确定的频谱之间的比较；以及

根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

15.根据权利要求14所述的系统，其中所述处理器进一步经编程以根据所述目标串的时戳与所述候选串的时戳之间的比较确定所述电子通信是否为垃圾邮件或非垃圾邮件。

16.根据权利要求14所述的系统，其中所述参考串的语料库包括多个群集，每一群集包含一组相似串，其中所述多个候选串中的每一候选串代表一明显不同的群集，且其中所述处理器进一步经编程以响应于执行所述比较，从所述多个群集选择一群集且将所述目标串指派于所述选定群集。

17.根据权利要求16所述的系统，其进一步包括根据多个时戳确定所述目标通信是否为垃圾邮件或非垃圾邮件，所述多个时戳中的每一时戳对应于所述选定群集的一成员。

18.根据权利要求16所述的系统，其中所述处理器进一步经编程以：

19.根据权利要求16所述的系统，其中所述处理器进一步经编程以根据所述选定群集将所述目标通信识别为属于选定垃圾邮件波。

20.根据权利要求14所述的系统，其中对所述语料库进行预过滤包括：

21.根据权利要求14所述的系统，其中对所述语料库进行预过滤包括：将所述目标串的第一谱得分确定为如下函数：

S = \underset{i}{Σ} A_{i}

确定所述语料库的参考串的第二谱得分；以及

22.根据权利要求14所述的系统，其中执行所述比较包括将串间距离确定为如下函数：

\underset{i &Element; S}{Σ} {| {A^{T}}_{i} - {A^{C}}_{i} |}^{α},

其中i标引频率，S表示所述目标信号的所述频谱的频率子集，A^T _i表示在频率i处所述目标信号的所述频谱的振幅，A^C _i表示在频率i处针对所述候选串确定的所述频谱的振幅，且其中ɑ是正常数。

23.根据权利要求22所述的系统，其中所述集合S排他地由对应于所述目标信号的所述频谱的零频率的索引i组成。

24.根据权利要求22所述的系统，其中所述集合S排他地由对应于所述目标信号的所述频谱的最大振幅的索引i组成。

25.根据权利要求14所述的系统，其中所述处理器进一步经编程以响应于将所述目标串处理为目标信号，将数字低通滤波器应用于所述目标信号，且其中所述目标信号的所述频谱包括所述经滤波目标信号的频谱。

26.根据权利要求14所述的系统，其中所述处理器进一步经编程以响应于将所述目标串处理为目标信号，将数字高通滤波器应用于所述目标信号，且其中所述目标信号的所述频谱包括所述经滤波目标信号的频谱。

27.一种方法，其包括：

采用计算机系统接收电子通信；

响应于接收到所述电子通信，采用所述计算机系统从所述电子通信提取目标串；

采用所述计算机系统将所述目标串发射到反垃圾邮件服务器；以及

响应于发射所述目标串，接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目标标签，其中所述目标标签是在所述反垃圾邮件服务器处确定且其中确定所述目标标签包括：

采用所述反垃圾邮件服务器将字符的所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符被映射到所述数字序列的一数字；

采用所述反垃圾邮件服务器根据所述目标串确定合格性准则；

采用所述反垃圾邮件服务器根据所述合格性准则对参考串的语料库进行预过滤，以产生多个候选串；

响应于选择所述候选串，采用所述反垃圾邮件服务器以采用所述计算机系统执行所述目标信号的频谱与针对所述多个候选串中的候选串确定的频谱之间的比较；以及

采用所述反垃圾邮件服务器根据所述比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

28.一种方法，其包括：

采用计算机系统接收形成电子通信的一部分的目标串；

采用计算机系统将字符的所述目标串处理为由数字序列组成的目标信号，其中所述目标串的每一字符被映射到所述数字序列的一数字；

响应于选择所述候选串，采用所述计算机系统确定将所述目标串与所述多个候选串中的一候选串分离的串间距离，所述串间距离是根据所述目标信号的频谱的第一振幅和根据针对所述候选串确定的频谱的第二振幅来确定；以及

采用所述计算机系统根据所述串间距离确定所述目标通信是否为垃圾邮件或非垃圾邮件。

29.一种方法，其包括：

采用计算机系统接收形成电子通信的一部分的目标串；

采用所述计算机系统确定所述目标信号的频谱；

采用所述计算机系统执行所述目标信号的所述频谱与针对从一组参考串选择的一参考串确定的频谱之间的比较；以及

采用所述计算机系统根据所述比较的结果确定所述目标通信是否为垃圾邮件或非垃圾邮件。