CN104067567A

CN104067567A - 用于使用字符直方图进行垃圾邮件检测的系统和方法

Info

Publication number: CN104067567A
Application number: CN201280067397.5A
Authority: CN
Inventors: 达尼埃尔·迪基乌; Z·卢奇安·卢普赛斯库
Original assignee: Bit Fan De Intellectual Property Management Co Ltd
Current assignee: Bit Fan De Intellectual Property Management Co Ltd; Bitdefender IPR Management Ltd
Priority date: 2012-01-25
Filing date: 2012-09-05
Publication date: 2014-09-24
Anticipated expiration: 2032-09-05
Also published as: US8954519B2; CA2859131C; IL233058B; IL233058A0; AU2012367398B2; SG11201403442QA; JP2015513133A; AU2012367398A1; KR101686147B1; EP2807802B1; EP2807802A1; US20130191469A1; CN104067567B; WO2013112062A1; RU2601193C2; JP5990284B2; CA2859131A1; RU2014133875A; ES2732824T3; WO2013112062A8

Abstract

所描述的包含串识别、预过滤以及字符直方图和时戳比较步骤的垃圾邮件检测技术促进了对在短持续波中到达的快速改变的垃圾邮件的准确、计算上高效的检测。在一些实施例中，计算机系统从例如博客评论等电子通信提取目标字符串，将其发射到反垃圾邮件服务器，且从所述反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。所述反垃圾邮件服务器根据所述目标串的所述字符直方图的某些特征确定所述电子通信是否为垃圾邮件或非垃圾邮件。一些实施例还执行将传入目标串无监督地群集为若干群集，其中群集的所有成员具有相似的字符直方图。

Description

用于使用字符直方图进行垃圾邮件检测的系统和方法

背景技术

本发明涉及用于分类电子通信的方法和系统，且特定来说涉及用于对非请求商业电子通信(垃圾邮件(spam))进行过滤的系统和方法。

非请求商业电子通信(也称为垃圾邮件)形成全世界所有通信业务的重要部分，从而影响计算机和电话消息接发服务。垃圾邮件可采取许多形式，从非请求电子邮件通信到装作例如博客和社交网络站点等各种因特网站点上的用户评论的垃圾邮件消息。垃圾邮件占用有价值的硬件资源，影响生产力，且被通信服务和/或因特网的许多用户视为厌烦和打扰的。

在电子邮件垃圾邮件的情况下，在用户或电子邮件服务提供者的计算机系统上运行的软件可用以将电子邮件消息分类为垃圾邮件或非垃圾邮件，且甚至在各种垃圾邮件消息之间进行区分(例如，产品报价、成人内容、电子邮件欺诈)。随后可将垃圾邮件消息引导到特殊文件夹或删除。

类似地，在内容提供者的计算机系统上运行的软件可用以拦截张贴到网站的欺骗消息且防止相应消息被显示，或向网站的用户显示相应消息可能是垃圾邮件的警告。

已经提出若干方法来识别垃圾邮件消息，包含将消息的发源地址匹配于已知的违反或受信任地址的列表(分别称为列黑名单和列白名单的技术)、搜索某些字或字模式(例如，重新募集资金、股票)以及分析消息标头。特征提取/匹配方法经常结合自动化数据分类方法(例如，贝叶斯滤波、神经网络)来使用。

垃圾邮件经常以相似消息的快速连续群组到达，也称为垃圾邮件波。垃圾邮件的形式和内容可大体上在垃圾邮件波之间改变，因此成功检测可得益于能够快速地辨识新垃圾邮件波且对其作出反应的方法和系统。

发明内容

根据一个方面，一种方法包括：采用计算机系统接收形成电子通信的一部分的目标串；根据所述目标串确定串合格性准则；以及根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串。响应于选择所述候选串，采用所述计算机系统执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较。所述计算机系统根据所述第一比较和第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

根据另一方面，一种计算机系统包括经编程以进行以下操作的至少一处理器：接收形成电子通信的一部分的目标串；根据所述目标串确定串合格性准则；以及根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串。所述处理器进一步经编程以响应于选择所述候选串，执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较。所述处理器进一步经编程以根据所述第一比较和第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

根据另一方面，一种方法包括：采用计算机系统接收电子通信；响应于接收到所述电子通信，从所述电子通信提取目标串；将所述目标串发射到反垃圾邮件服务器；以及响应于发射所述目标串，接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目标标签，其中所述目标标签是在所述反垃圾邮件服务器处确定。确定所述目标标签包括：采用所述反垃圾邮件服务器根据所述目标串确定合格性准则；根据所述准则条件对参考串的语料库进行预过滤，以产生多个候选串；响应于选择所述候选串，执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及根据所述第一比较和第二比较的结果确定所述目标标签。

根据另一方面，一种方法包括：采用计算机系统接收形成电子通信的一部分的目标串；根据所述目标串确定串合格性准则；根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串。响应于选择所述候选串，所述方法采用所述计算机系统确定将所述目标串与所述多个候选串中的候选串分离的串间距离，所述串间距离是根据所述目标串内的选定字符的发生计数和所述候选串内的所述选定字符的发生计数来确定。所述方法随后包括根据所述串间距离确定所述电子通信是否为垃圾邮件或非垃圾邮件。

附图说明

在阅读以下详细描述后且在参考附图后将更好地了解本发明的前述方面和优点，其中：

图1展示根据本发明的一些实施例的示范性反垃圾邮件系统。

图2展示根据本发明的一些实施例的服务器计算机系统的示范性硬件配置。

图3-A说明根据本发明的一些实施例的在客户端计算机与反垃圾邮件服务器之间的示范性垃圾邮件检测事务。

图3-B说明根据本发明的一些实施例的在内容服务器与反垃圾邮件服务器之间的示范性垃圾邮件检测事务。

图4展示根据本发明的一些实施例的目标通信的示范性目标指示符，所述指示符包括目标串和额外识别垃圾邮件的数据。

图5展示根据本发明的一些实施例的在反垃圾邮件服务器上执行的一组示范性应用程序的图。

图6展示根据本发明的一些实施例的关联于目标串且针对多个字符类计算的示范性字符直方图。

图7说明根据本发明的一些实施例的在图1的反垃圾邮件服务器上操作的示范性垃圾邮件检测器应用程序。

图8说明根据本发明的一些实施例的在特征超空间中表示的多个群集，每一群集包括相似项目的集合。

图9展示根据本发明的一些实施例的由图7的垃圾邮件检测器执行的示范性步骤序列。

图10-A展示随着测试串的明显不同的字符数目而变的计算机实验的结果，包括确定针对测试串集合产生字符直方图的计算时间。

图10-B展示随着测试串的串长度而变的计算机实验的结果，包括确定针对测试串集合产生字符直方图的计算时间。

图10-C展示随着测试串的明显不同的字符数目而变的计算机实验的结果，包括确定针对测试串集合计算一组串间距离的计算时间。

图10-D展示随着测试串的串长度而变的计算机实验的结果，包括确定针对测试串集合计算一组串间距离的计算时间。

图11展示针对包括垃圾邮件和非垃圾邮件的真实博客评论集合的串长度对时戳指示符的绘图。

图12展示针对包括垃圾邮件和非垃圾邮件的真实博客评论集合的明显不同的字符数目对时戳指示符的绘图。

具体实施方式

在以下描述中，应了解，结构之间所有陈述的连接可为直接操作连接或通过中间结构的间接操作连接。一组元件包含一或多个元件。对一元件的任何陈述应理解为涉及至少一个元件。多个元件包含至少两个元件。除非另外需要，否则任何描述的方法步骤均无需一定以特定说明次序执行。从第二元素导出的第一元素(例如，数据)涵盖等于第二元素的第一元素，以及通过处理第二元素和(任选地)其它数据产生的第一元素。根据参数做出确定或决策涵盖根据参数且任选地根据其它数据做出确定或决策。除非另外指定，否则某个量/数据的指示符可为所述量/数据自身，或不同于所述量/数据自身的指示符。在本发明的一些实施例中描述的计算机程序可为独立的软件实体或其它计算机程序的子实体(例如，子例程、代码对象)。除非另外指定，否则术语垃圾邮件不限于电子邮件垃圾邮件，而是还涵盖例如不合法或非请求的商业用户产生的内容等电子通信，其形式为博客评论、论坛讨论、维基(wiki)条目、顾客反馈、社交网络站点上的张贴、即时消息，以及电话文本和多媒体消息等等。计算机可读媒体涵盖非暂时性存储媒体，例如磁性、光学和半导体媒体(例如，硬驱动器、光盘、快闪存储器、DRAM)，以及例如传导电缆和光纤链路等通信链路。根据一些实施例，本发明尤其提供包括经编程以执行本文描述的方法的硬件的计算机系统，以及编码用以执行本文描述的方法的指令的计算机可读媒体。

以下描述借助于实例且不一定以限制方式来说明本发明的实施例。

图1展示根据本发明的一些实施例的示范性反垃圾邮件系统。系统10包含多个内容服务器12a到12b、反垃圾邮件服务器16以及多个客户端系统14a到14b。内容服务器12a到12b可表示托管和/或递送在线内容的网络服务器，所述在线内容例如个人和公司网站、博客、社交网络站点和在线娱乐站点等等。其它内容服务器12a到12b可表示电子邮件服务器，其对客户端系统14a到14b提供电子消息递送。客户端系统14a到14b可表示最终用户计算机，其各自具有处理器、存储器和存储装置，且运行例如或Linux等操作系统。一些客户端计算机系统14a到14b可表示移动计算和/或电信装置，例如平板PC、移动电话和个人数字助理(PDA)。在一些实施例中，客户端系统14a到14b可表示个别顾客，或若干客户端系统可属于同一顾客。反垃圾邮件服务器16可包含一或多个计算机系统。网络18连接内容服务器12a到12b、客户端系统14a到14b以及反垃圾邮件服务器16。网络18可为例如因特网等广域网，而网络18的部分也可包含局域网(LAN)。

图2展示例如反垃圾邮件服务器16等服务器计算机系统的示范性硬件配置。在一些实施例中，服务器16包括处理器20、存储器单元22、一组存储装置24，和通信接口控制器26，全部通过一组总线28连接。

在一些实施例中，处理器20包括物理装置(例如，多核心集成电路)，其经配置以用一组信号和/或数据执行计算和/或逻辑操作。在一些实施例中，此些逻辑操作以处理器指令序列(例如，机器代码或其它类型的软件)的形式递送到处理器20。存储器单元22可包括计算机可读媒体(例如，RAM)，其存储在实行指令的过程中由处理器20存取或产生的数据/信号。存储装置24包含实现软件指令和/或数据的非易失性存储、读取和写入的计算机可读媒体。示范性存储装置24包含磁盘和光盘以及半导体(例如，快闪)存储器装置，以及例如CD和/或DVD光盘和驱动器等可装卸媒体。通信接口控制器26使得服务器系统16能够连接到网络18和/或其它机器/计算机系统。典型的通信接口控制器26包含网络适配器。总线28共同地表示多个系统、外围设备和芯片组总线和/或实现服务器系统16的装置20到26的互通信的所有其它电路。举例来说，总线28可尤其包括将处理器20连接到存储器22的北桥总线，和/或将处理器20连接到装置24到26的南桥总线。

在一些实施例中，每一客户端系统14a到14b包括文档阅读器应用程序(例如，网络浏览器、电子邮件阅读器、媒体播放器)，其可为用以远程地存取存储在内容服务器12a到12b上的数据的计算机程序。当用户接入例如网页等在线文档或接收例如电子邮件等电子通信时，关联于所述文档/通信的数据在相应内容服务器与客户端系统14之间在网络18的部分上循环。在一些实施例中，阅读器应用程序接收文档数据，将其转换为可视形式，且向用户显示。阅读器应用程序的一些实施例也可允许用户与所显示内容交互。在电子邮件的情况下，客户端系统14a到14b可包含专门软件，其经配置以将传入电子邮件分类为多种类别中的一者(例如，垃圾邮件、合法邮件、各种其它类和子类)。

在一些实施例中，内容服务器12a到12b经配置以从多个用户接收用户产生的内容(例如，文章、博客条目、媒体上载、评论等等)，且组织、格式化此内容且经由网络18将此内容递送到第三方。在服务器12a到12b处接收的用户产生的数据的一部分可包括可能包含非请求消息(垃圾邮件)的电子通信。此些电子通信的实例(在以下描述中称为目标通信或目标消息)是电子邮件消息、博客评论、向社交网络站点的张贴、以及发送到娱乐和/或新闻站点的评论等等。

在一些实施例中，内容服务器12a到12b可包括经配置以处理从用户接收的目标通信以检测垃圾邮件的软件组件。当检测到时，可阻止和/或防止垃圾邮件消息(例如，欺骗性博客评论等等)在相应网站内显示。垃圾邮件处理软件可以服务器侧脚本的形式在内容服务器12a到12b上实施。此些脚本可作为插件并入到较大的脚本包中，例如作为用于或在线发布平台的反垃圾邮件插件。在一些实施例中，为了检测垃圾邮件，服务器12a到12b可经配置以从事与反垃圾邮件服务器16的合作性垃圾邮件检测事务，如下文详细描述。

在一些实施例中，反垃圾邮件服务器16经配置以执行与内容服务器12a到12b和/或客户端系统14a到14b的合作性垃圾邮件检测事务。图3-A说明经配置以检测电子邮件垃圾邮件的实施例中在服务器16与客户端系统14之间的示范性数据交换。客户端系统14可经由网络18从邮件服务器接收电子邮件消息。在接收到电子邮件消息之后，客户端系统14可将包括关联于电子邮件消息的识别垃圾邮件的数据的目标指示符40发送到反垃圾邮件服务器16，且作为响应可接收指示相应电子邮件消息是否为垃圾邮件的目标标签50。客户端系统14可随后将消息置于适当消息类别中(例如，垃圾邮件或合法电子邮件)。

图3-B说明经配置以检测在服务器12处接收的用户产生的垃圾邮件(例如博客垃圾邮件或张贴在社交网络站点上的垃圾邮件等等)的实施例中在反垃圾邮件服务器16与内容服务器12之间的示范性数据交换。在例如由于用户在托管于服务器12上的网站上张贴评论而接收到目标通信之后，服务器12可将包括从目标通信提取的识别垃圾邮件的数据的目标指示符40发送到反垃圾邮件服务器16，且作为响应接收指示目标通信是否为垃圾邮件的目标标签50。

图4展示根据本发明的一些实施例的目标通信的示范性目标指示符。目标指示符40包括：对象ID41(例如，标签、散列)，其唯一地识别目标通信；以及目标串42，其包含目标通信的文本部分，例如博客评论的文本部分。在一些实施例中，目标串42包括目标通信的大体上所有文本。当目标通信包含若干文本部分时，目标串42可包括文本部分的串联，或者，每一文本部分可接收明显不同的目标串42。在一些实施例中，目标串42包括目标通信的文本部分的区段，所述区段具有预设串长度(例如，128个连续字符)。

目标指示符40的一些实施例除了目标串42之外可包含对应于目标通信的其它识别垃圾邮件的数据。在图4的实例中，目标指示符40包含：用户名指示符44，其指示由目标通信的提交者提供的名称(例如，个人名字、笔名、屏幕名称、登录名称、化身、句柄等等)；地址指示符46，其指示目标通信的起源位置(例如，发源的IP地址)；以及时戳48，其指示当目标通信被提交时的实时点(例如，日期和时间)。

在一些实施例中，目标标签50可包括例如ID41等对象ID，以及目标通信的垃圾邮件状态的指示符。目标标签50根据由反垃圾邮件服务器16执行的评估有效地指定目标通信是否为垃圾邮件，如下文详细描述。

图5展示根据本发明的一些实施例的在反垃圾邮件服务器16上执行的一组示范性应用程序的图。应用程序包含垃圾邮件检测器32和连接到垃圾邮件检测器32的通信管理器34。应用程序32和34可为独立计算机程序，或可形成提供例如计算机安全性服务(例如恶意软件检测)的较大软件套件的部分。在一些实施例中，反垃圾邮件服务器16还托管反垃圾邮件数据库30。或者，反垃圾邮件数据库可驻留在与服务器16明显不同的计算机系统上，但经由网络18连接到服务器16，或驻留在连接到服务器16的计算机可读媒体上。

反垃圾邮件数据库30包括与在线垃圾邮件相关的知识储存库。在一些实施例中，数据库30包括字符直方图的语料库，每一直方图是针对电子通信而计算，如下文进一步描述。数据库30可包含用于垃圾邮件或非垃圾邮件电子通信两者的数据，例如博客评论、张贴于社交网络站点上的评论等等。除了直方图数据，存储于数据库30中的每一记录可包含额外信息，例如相应目标通信的串42，例如时戳48等时间指示符，以及串长度的指示符，明显不同的字符的数目以及串42的串得分，下文描述此些量的示范性使用。在一些实施例中，与每一字符直方图相关，数据库30可存储群集指派指示符，其指示相应串当前经指派于的消息群集。数据库30还可存储包括例如对象ID41等多个识别符的数据结构，每一对象识别符唯一地关联于电子通信，以及映射，其使每一字符直方图与其计算所针对的目标通信相关联，从而允许垃圾邮件检测器32从数据库30选择性地检索直方图，如下文所示。

图6展示根据本发明的一些实施例的针对目标串42计算的示范性字符直方图。目标直方图60包括一组数字，每一数字指示目标串42内的每一明显不同的字符的发生计数。举例来说，“Mississippi”的目标直方图包含针对“M”的1、针对“i”的4、针对“s”的4和针对“p”的2。在一些实施例中，将字符分组为若干明显不同的字符类62，例如“小写字母”、“大写字母”、“数位”和“特殊字符”等等。各种字符类的数字和复合可在实施例之间变化。

在一些实施例中，通信管理器34经配置以管理与客户端系统14a到14b和/或内容服务器12a到12b的通信。举例来说，管理器34可经由网络18建立连接，向客户端系统14a到14b和内容服务器12a到12b/从客户端系统14a到14b和内容服务器12a到12b发送和接收例如目标指示符和目标标签等数据。

图7展示根据本发明的一些实施例的在反垃圾邮件服务器16上操作的示范性垃圾邮件检测器的图。垃圾邮件检测器32包括直方图管理器36和连接到直方图管理器36的群集引擎38。垃圾邮件检测器32可从通信管理器34接收目标通信的目标指示符40(参见图5和3-A-B)且从反垃圾邮件数据库30接收参考直方图64，且又将目标标签50输出到通信管理器34，以转发到客户端系统14或内容服务器12，其起始相应的垃圾邮件检测事务。

在一些实施例中，直方图管理器36经配置以从通信管理器34接收目标指示符40，根据目标指示符40的数据计算目标直方图60，执行预过滤过程以确定一组合格的参考直方图64，从反垃圾邮件数据库30选择性地检索参考直方图64，且将直方图60和64转发到群集引擎38以进行直方图比较和群集指派。将关于图9详细论述直方图管理器36的操作。

在一些实施例中，在消息特征超空间中通过分析对应于目标通信的特征向量与一组代表性向量之间的距离来执行目标消息分析，每一代表性向量界定消息的明显不同的集合(群集)。图8展示在具有两条轴线d1和d2的简单二维特征空间中分别由特征向量74a到74c形成的三个示范性消息群集70a到70c。在本发明的一些实施例中，轴线d1和d2对应于字符直方图的明显不同的特征。举例来说，轴线d1可对应于字符“M”，且轴线d2对应于字符“s”。考虑到在相应串内“M”出现一次而“s”出现四次，串“Mississippi”可由特征向量(1，4)表示。具有相似字符直方图的两个串在此示范性特征超空间中彼此靠近而驻留：在以上实例中，“Mississippi”和“Mission：impossible”在此空间中具有相同的特征向量。在一些实施例中，每一消息群集70由占据特征超空间的大体上小区域的消息组成，意味着群集的所有成员具有相似的特征向量，即相似的字符直方图。

在一些实施例中，群集引擎38经配置以维持根据相似性而分组为群集的消息群集70的集合，表示在数据积累的历史期间在反垃圾邮件服务器16处接收的通信的语料库。一些群集70可表示个别垃圾邮件波，每一波包含发送到大量客户端和/或张贴于大量网站上的同一垃圾邮件消息的副本或变体。理想上，消息群集由相同或近相同的目标串组成。群集引擎38进一步经配置以接收目标直方图60且根据直方图相似性将由直方图60表示的目标通信指派于其最相似的消息群集。为了执行群集指派，群集引擎38从直方图管理器36接收一组参考直方图64，每一直方图64代表一群集，且比较直方图60与64以确定哪一消息群集最佳地匹配于目标直方图60。下文关于图9给出群集引擎38的操作的更多细节。

图9展示根据本发明的一些实施例的在垃圾邮件检测事务内由垃圾邮件检测器32(图7)执行的示范性步骤序列。在步骤102中，垃圾邮件检测器32经由通信管理器34从客户端系统14或内容服务器12接收目标指示符40。接着，在步骤104中，垃圾邮件检测器根据目标指示符40提取目标串42，且计算串42的字符直方图60。步骤104还可包括计算目标串42的若干参数，例如串长度和/或明显不同的字符的数目，其用以在步骤106中对消息群集的集合进行预过滤。在一些实施例中，在步骤106中，垃圾邮件检测器32执行预过滤操作以根据一组预过滤条件从群集引擎38所维持的完整集合选择候选消息群集的子集。通过仅选择将执行直方图比较的群集的(小)子集，垃圾邮件检测器32可有效地降低计算成本。

在一些实施例中，垃圾邮件检测器32可根据串长度选择候选群集的子集。将目标串42的串长度与代表每一群集的串长度进行比较，或与相应群集的成员的平均串长度进行比较。群集在其典型串长度在目标串42的串长度的预定阈值内时可经选择为用于直方图比较的候选。

替代预过滤准则是明显不同的字符的数目(计数)。举例来说：串“Mississippi”具有4个明显不同的字符：M、i、s和p。对于每一群集，将目标串42的明显不同的字符的数目与相应群集的代表性成员的明显不同的字符的数目进行比较，或与群集的成员的明显不同的字符的平均数目进行比较；将具有与目标串42相似数目的明显不同的字符的群集选择为用于直方图比较的候选。

在一些实施例中，预过滤可根据如下计算的串得分而进行：

S = \underset{i}{Σ} {p_{i} w}_{i}, - - - [1]

其中i标引串的字符，p_i表示所有字符的集合(例如，相应字符的ASCII码)内字符i的位置指示符，且w_i表示相应字符的字符特定权重。在一些实施例中，将字符划分为若干类，例如图6中说明的类62：小写字母、大写字母、数位和特殊字符等等。权重w(i)可在同一字符类内相同，但可在类之间不同。举例来说，关联于特殊字符的权重可高于小写字母的权重。对于每一群集，将目标串42的串得分[1]与相应群集的代表性成员的串得分进行比较，或与群集的平均串得分进行比较；将具有与目标串42相似串得分的群集选择为用于直方图比较的候选。

在一些实施例中，可组合预过滤准则。举例来说，可根据串得分相似性选择消息群集的第一子集，随后，在群集的第一子集之外，选择第二子集，其中每一群集具有与目标串42相似的串长度和相似数目的明显不同的字符。

在选择用于直方图比较的一组候选后，对于每一选定群集，垃圾邮件检测器32可指示直方图管理器36从反垃圾邮件数据库30选择性地检索对应于相应群集的代表性消息的参考直方图64。随后，针对每一选定群集执行步骤108到116的循环序列。在步骤108中，垃圾邮件检测器可检验是否已通过直方图比较评估所有选定群集。如果是，那么垃圾邮件检测器32前进到下文描述的步骤118。如果否，那么在步骤110中，评估下一群集。在步骤112中，将目标直方图60与参考直方图64进行比较。

在一些实施例中，步骤112包括计算一组串间距离，其指示直方图60与64之间的相似性程度。在一些实施例中，两个串s₁与s₂之间的串间距离可公式化为：

D_{1} (s_{1}, s_{2}) = \underset{i &Element; s_{1} \cap s_{2}}{Σ} w_{i} | {N_{1}}^{i} - {N_{2}}^{i} |, - - - [2]

其中i标引串s₁和s₂共同的字符的子集，w_i是字符i的字符权重，N₁ ⁱ表示串s₁内字符i的发生计数，且其中N₂ ⁱ表示串s₂内字符i的发生计数。替代的串间距离如下给出：

D_{2} (s_{1}, s_{2}) = \underset{i &Element; s_{1} - s_{2}}{Σ} w_{i} \cdot c, - - - [3]

其中i标引仅在s₁中存在但不在s₂中存在的字符的子集，w_i是字符i的权重，且c是预定的独立于字符的常数。如上文论述，权重w_i可为字符特定的或类特定的(例如，特殊字符对小写字母)。使用字符特定权重的基本原理在于，对于文本迷惑性，一些字符比其它字符更经常地使用，所述文本迷惑性是发垃圾邮件者经常采用的方法且包括用其它字符(例如，“vi4gra”)替换文本中的某些字符以避开垃圾邮件检测。通过将相对小权重指派于在迷惑性中使用的字符，目标串的迷惑性版本根据串间距离可看上去彼此非常相似，且因此可全部被正确地识别为垃圾邮件。c的值可用作调谐参数：如果c太小，那么可能将两个相当不同的串错误地视为相似；如果c太大，那么可能过度地放大串之间的小差异。

一些实施例可计算组合的串间距离：

D₃(s₁，s₂)＝D₁(s₁，s₂)+D₂(s₁，s₂)。 [4]

而且，由于D₂不是可交换的，因此替代的串间距离是：

D₄(s₁，s₂)＝D₂(s₁，s₂)+D₂(s₂，s₁)。 [5]

在一些实施例中，步骤112(图9)包括计算D₁(T，R)和/或D₂(T，R)，其中T表示目标串42且R表示关联于参考直方图64的参考串。或者，垃圾邮件检测器可计算D₃(T，R)、D₃(R，T)和/或D₄(T，R)。接着，步骤114确定是否在目标直方图60与参考直方图64之间发现匹配。

在一些实施例中，直方图匹配要求串间距离小于预定阈值。举例来说，直方图匹配可要求D₁＜t₁或D₁＜t₂，或者D₁和D₂两者均小于其相应阈值。或者，直方图匹配要求D₃＝D₁+D₂＜t₃。在又一实施例中，D₃(T，R)和D₃(R，T)两者必须小于阈值，或D₄＜t₄，以得到成功匹配。阈值t_i可独立于正比较的串，或可根据目标串42的串长度和/或明显不同的字符的数目而变化。在一些实施例中，较高的阈值用于相当较长的串，或具有相当较大数目的明显不同的字符的串。

当发现直方图60与64之间的匹配时，垃圾邮件检测器32前进到步骤116，其中将相应消息群集标记为合格接收目标串42。如果直方图不匹配，那么垃圾邮件检测器32返回到步骤108。当在步骤106中选择的所有消息群集均已通过直方图比较而评估时，步骤118确定是否有任何群集合格接收目标串42。如果是，那么在步骤122中垃圾邮件检测器32可针对每一合格群集计算串与群集相似性指示符，其指示目标串42与相应群集的所有成员有多相似。每一合格群集的示范性串与群集相似性指示符包括具有匹配于目标直方图60的参考直方图的群集成员的分数。

接着，步骤124实行目标串42向其最相似的消息群集的实际指派。在一些实施例中，将目标串42指派于在步骤122中确定的具有最高串与群集相似性指示符的群集。群集引擎38可更新群集指派数据以反映新群集成员的添加，且可在反垃圾邮件数据库30中引入目标串42的记录。在一些实施例中，步骤124进一步包含确定关联于接收到目标消息的群集的一组识别垃圾邮件的参数。举例来说，一些实施例可计算在同一群集内在连续时戳之间过去的时间间隔。此些参数可彼此相关而保存，且可用以自动地(无人操作者的监督)确定特定群集是否包含垃圾邮件或合法消息，或特定群集是否可能表示垃圾邮件波。

当未发现群集合格接收目标消息(步骤118)，指示目标串42可能明显不同于已经存储在反垃圾邮件数据库中的任一者时，在步骤120中，群集引擎38可产生具有目标消息的新群集作为单独成员，且可将目标消息的记录保存到反垃圾邮件数据库30中。

在步骤126中，垃圾邮件检测器32可确定将目标通信识别为垃圾邮件或合法的目标标签50。在一些实施例中，根据目标串42的群集指派做出目标通信是否为垃圾邮件的决策。当串42经指派于主要由垃圾邮件消息组成的群集时，则目标消息也可接收垃圾邮件标签。

在一些实施例中，根据目标消息经指派于的群集的成员的某些识别垃圾邮件的特征来确定标签50。一种此识别垃圾邮件的特征是时戳48。在短时间间隔中许多新成员的指派可为相应群集由垃圾邮件消息波组成的指示。在一些实施例中，垃圾邮件检测器32可确定在关联于群集的成员的多个时戳之间过去的时间间隔，例如，6个成员经指派于所述群集的最短时间间隔，且当时间间隔下降到低于预定阈值时，将相应群集标记为垃圾邮件。在一些实施例中，群集成员的计数可用作识别垃圾邮件的特征：当群集获取超过预定数目的成员时，可将相应群集标记为垃圾邮件。

上文描述的示范性系统和方法允许反垃圾邮件系统检测呈因特网上的用户产生的内容(呈博客评论、张贴于社交网络站点上的评论等等的形式)的形式的非请求通信以及还有呈电子邮件消息、即时消息以及电话文本和多媒体消息的形式的内容。

在一些实施例中，计算机系统从例如博客评论等电子通信提取目标字符串，将其发射到反垃圾邮件服务器，且从反垃圾邮件服务器接收相应电子通信是否为垃圾邮件或非垃圾邮件的指示符。当电子通信是垃圾邮件时，计算机系统可阻止、隔离、擦除或以任何其它方式限制电子通信的显示和/或可向用户发出警告。

所述反垃圾邮件服务器根据所述目标串内某些字符的发生频率确定所述电子通信是否为垃圾邮件或非垃圾邮件。计算目标串的字符直方图且与针对可能包含垃圾邮件和非垃圾邮件消息两者的电子通信的语料库计算的直方图进行比较。本发明中描述的方法和系统利用了两个相似串总是具有相似字符直方图的观察。因此，找到目标串的直方图与针对参考串计算的另一直方图之间的匹配可为目标串类似于参考串的指示。在此情况下，反垃圾邮件服务器可根据参考串是否指示垃圾邮件(例如，参考串是否属于经标记为垃圾邮件的电子通信的群集)而确定电子通信是否为垃圾邮件。

然而，存在其中两个明显不同的串具有非常相似直方图的许多情形。为了避免错误肯定识别，当做出两个串是否相似的决策时可考虑目标串的其它特征(例如时戳)。

当串长度超过某一阈值时，直方图比较可能不是识别相似串的可靠方法。在非常长的串的限制中，所有串具有非常相似的直方图，这简单地指示相应语言中每一字符的自然发生频率。因此，此处描述的系统和方法尤其适于分析在例如博客张贴和社交联网站点(例如和)上的评论等电子通信中出现的短串。

通过串比较的垃圾邮件检测的额外问题是迷惑性，其中发垃圾邮件者可用其它字符(例如，Vi4gra)替换消息中的某些字符以避免检测。通过采用每一字符特定的权重且根据每一字符计数和例如公式[2-3]中的权重确定串间距离，可解决串迷惑性。字符特定权重允许调谐串比较的敏感性。在一些实施例中，字符可通过类别(例如，字母、数位、特殊字符)而分组，一类别的所有字符接收相同的类别特定的权重。此分组可解决文本迷惑性，因为例如随机字母的迷惑性比其它类型字符的文本迷惑性更普遍。当在迷惑性中使用某些字符多于其它字符时，为它们指派相当较小的权重有利地减少同一串的两个迷惑性版本之间的串间距离，从而使得两个串看上去较相似。

本发明的一些实施例将语料库组织为多个群集，记录的每一群集由相似串组成。替代于在语料库的所有记录上执行直方图比较，群集允许将目标串与每群集仅一个代表性目标串进行比较，因此显著降低计算成本。

群集也可促进自动化(无监督)垃圾邮件检测。与其中消息分类通常通过分类器的监督训练(例如，在先前分类为多个预定消息类的训练语料库上)实现的常规群集方法相反，本发明的一些实施例执行动态群集，而不需要群集或消息的垃圾邮件状态(垃圾邮件对非垃圾邮件)的先前知识。群集在其在短时间间隔中积累某一数目的成员时可自动经识别为表示垃圾邮件。

在计算机实验中，根据本发明的一些实施例将22,000个博客评论的语料库分类为群集。在配备3GHz的奔腾4处理器和1.5GB的RAM的运行Ubuntu OS10.04的计算机系统上实行计算。分类花费计算时间的近似5:00分钟，从而产生具有一个以上群集成员的1,741个消息群集(平均每群集4.13个消息)。通过比较，采用基于散列的串匹配算法且在相同硬件平台上执行的常规群集系统在计算时间的7:07分钟中产生具有一个以上成员的1,617个群集，其中平均每群集4.26个评论。

图10-A-D展示以在从近似25到5500个字符的串长度范围内的测试串集合执行的计算机实验的结果。硬件配置与上文相同。图10-A展示随着测试串的明显不同字符的数目而变的产生字符直方图所花费的时间。图10-B展示随着测试串的串长度而变的产生字符直方图所花费的时间。每直方图的计算时间从几微秒变化到近似一毫秒，其中在时间与串长度之间具有近似线性相关。

图10-C展示随着测试串的明显不同字符的数目而变的计算一组串间距离所花费的时间，而图10-D展示随着测试串的串长度而变绘制的相同数据。串间距离的计算是根据公式[2-3]从字符计数确定执行，且范围是从几微秒到大约500微秒。

图11展示针对包括垃圾邮件和非垃圾邮件的8676个真实博客评论的集合的对比时戳指示符所绘制的串长度。图12展示针对包括垃圾邮件和非垃圾邮件的5351个真实博客评论的另一集合的对比时戳指示符所绘制的明显不同的字符的数目。图11和12两者指示根据时戳和串长度的垃圾邮件消息的群集，其允许如上所述的自动垃圾邮件识别。

所属领域的技术人员将明了，可以许多方式更改以上实施例而不偏离本发明的范围。因此，本发明的范围应由所附权利要求书及其合法等效物确定。

Claims

1.一种方法，其包括：

采用计算机系统接收形成电子通信的一部分的目标串；

响应于接收到所述目标串，采用所述计算机系统根据所述目标串确定串合格性准则；

采用所述计算机系统根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；

响应于选择所述候选串，采用所述计算机系统执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及

采用所述计算机系统根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

2.根据权利要求1所述的方法，其中所述参考串的语料库包括多个群集，每一群集包含一组互相相似串，其中所述多个候选串中的每一候选串代表一明显不同的群集，且其中所述方法进一步包括响应于执行所述第一比较，采用所述计算机系统从所述多个群集选择一群集且将所述目标串指派于所述选定群集。

3.根据权利要求2所述的方法，其进一步包括根据多个时戳确定所述目标通信是否为垃圾邮件或非垃圾邮件，所述多个时戳中的每一时戳对应于所述选定群集的一成员。

4.根据权利要求2所述的方法，其进一步包括：

响应于将所述目标串指派于所述选定群集，确定所述选定群集的群集成员的计数；以及

根据所述群集成员的计数确定所述电子通信是否为垃圾邮件或非垃圾邮件。

5.根据权利要求2所述的方法，其进一步包括根据所述选定群集将所述电子通信识别为属于选定垃圾邮件波。

6.根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：

确定所述目标串的第一串长度和所述语料库的参考串的第二串长度，且

当所述第一串长度与所述第二串长度相差小于预定阈值的量时，将所述参考串添加到所述组候选串。

7.根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：

确定所述目标串的明显不同的字符的第一计数和所述语料库的参考串的明显不同的字符的第二计数，且

当所述第一计数与所述第二计数相差小于预定阈值的量时，将所述参考串添加到所述组候选串。

8.根据权利要求1所述的方法，其中对所述语料库进行预过滤包括：

将所述目标串的第一串得分确定为如下函数：

\underset{i}{Σ} p_{i} w_{i}

其中p_i表示所述目标串的第i字符的ASCII码，且w_i是字符特定权重；

确定所述语料库的参考串的第二串得分；以及

当所述第一串得分与所述第二串得分相差小于预定阈值的量时，将所述参考串添加到所述组候选串。

9.根据权利要求1所述的方法，其中执行所述第一比较包括将串间距离确定为如下函数：

\underset{i &Element; T \cap C}{Σ} w_{i} | {N^{i}}_{T} - {N^{i}}_{C} |,

其中T表示所述目标串的字符集合，C表示所述候选串的字符集合，Nⁱ _T表示所述目标串内字符i的发生计数，Nⁱ _C表示所述候选串内字符i的发生计数，且其中w_i是字符i的字符特定权重。

10.根据权利要求9所述的方法，其中将所述串间距离进一步确定为如下函数：

\underset{j &Element; T - C}{Σ} w_{j} \cdot c,

其中字符j在所述目标串内发生，但不在所述候选串内发生，w_j是字符j的字符特定权重，且c是根据所述目标串的串长度选择的数字。

11.根据权利要求1所述的方法，其中执行所述第一比较包括将串间距离确定为如下函数：

\underset{i &Element; T - C}{Σ} w_{i} \cdot c,

其中T表示所述目标串的字符集合，C表示所述候选串的字符集合，其中字符i在所述目标串内发生，但不在所述候选串内发生，w_i是字符i的字符特定权重，且c是根据所述目标串的串长度选择的数字。

12.根据权利要求1所述的方法，其中所述电子通信包括博客评论。

13.根据权利要求1所述的方法，其中所述电子通信包括张贴于社交网络站点上的消息。

14.一种计算机系统，其包括经编程以进行以下操作的至少一个处理器：

接收形成电子通信的一部分的目标串；

响应于接收到所述目标串，根据所述目标串确定串合格性准则；

根据所述串合格性准则对参考串的语料库进行预过滤，以产生多个候选串；

响应于选择所述候选串，执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及

根据所述第一比较和所述第二比较的结果确定所述电子通信是否为垃圾邮件或非垃圾邮件。

15.根据权利要求14所述的系统，其中所述参考串的语料库包括多个群集，每一群集包含一组相似串，其中所述多个候选串中的每一候选串代表一明显不同的群集，且其中所述处理器进一步经编程以响应于执行所述第一比较，从所述多个群集选择一群集且将所述目标串指派于所述选定群集。

16.根据权利要求15所述的系统，其进一步包括根据多个时戳确定所述目标通信是否为垃圾邮件或非垃圾邮件，所述多个时戳中的每一时戳对应于所述选定群集的一成员。

17.根据权利要求15所述的系统，其中所述处理器进一步经编程以：

18.根据权利要求15所述的系统，其中所述处理器进一步经编程以根据所述选定群集将所述电子通信识别为属于选定垃圾邮件波。

19.根据权利要求14所述的系统，其中对所述语料库进行预过滤包括：

20.根据权利要求14所述的系统，其中对所述语料库进行预过滤包括：

21.根据权利要求14所述的系统，其中对所述语料库进行预过滤包括：

将所述目标串的第一串得分确定为如下函数：

\underset{i}{Σ} p_{i} w_{i}

确定所述语料库的参考串的第二串得分；以及

22.根据权利要求14所述的系统，其中执行所述第一比较包括将串间距离确定为如下函数：

\underset{i &Element; T \cap C}{Σ} w_{i} | {N^{i}}_{T} - {N^{i}}_{C} |,

23.根据权利要求22所述的系统，其中将所述串间距离进一步确定为如下函数：

\underset{j &Element; T - C}{Σ} w_{j} \cdot c,

24.根据权利要求14所述的系统，其中执行所述第一比较包括将串间距离确定为如下函数：

\underset{i &Element; T - C}{Σ} w_{i} \cdot c,

25.根据权利要求14所述的系统，其中所述电子通信包括博客评论。

26.根据权利要求14所述的系统，其中所述电子通信包括张贴于社交网络站点上的消息。

27.一种方法，其包括：

采用计算机系统接收电子通信；

响应于接收到所述电子通信，采用所述计算机系统从所述电子通信提取目标串；

采用所述计算机系统将所述目标串发射到反垃圾邮件服务器；以及

响应于发射所述目标串，接收指示所述电子通信是否为垃圾邮件或非垃圾邮件的目标标签，其中所述目标标签是在所述反垃圾邮件服务器处确定且其中确定所述目标标签包括：

采用所述反垃圾邮件服务器根据所述目标串确定合格性准则；

采用所述反垃圾邮件服务器根据所述准则条件对参考串的语料库进行预过滤，以产生多个候选串；

响应于选择所述候选串，采用所述反垃圾邮件服务器执行所述目标串的字符直方图与所述多个候选串中的候选串的字符直方图之间的第一比较，以及所述电子通信的时戳与所述候选串的时戳之间的第二比较；以及

采用所述反垃圾邮件服务器根据所述第一比较和所述第二比较的结果确定所述目标标签。

28.一种方法，其包括：

采用计算机系统接收形成电子通信的一部分的目标串；

响应于选择所述候选串，采用所述计算机系统确定将所述目标串与所述多个候选串中的一候选串分离的串间距离，所述串间距离是根据所述目标串内的选定字符的发生计数和所述候选串内的所述选定字符的发生计数来确定；以及

采用所述计算机系统根据所述串间距离确定所述电子通信是否为垃圾邮件或非垃圾邮件。