CN102685200A

CN102685200A - 使用模板生成和指纹比较特征管理不想要的通信

Info

Publication number: CN102685200A
Application number: CN2012100376701A
Authority: CN
Inventors: M·森达拉姆; C·P·希洛维茨; M·甘地; C·W·拉曼纳
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-02-17
Filing date: 2012-02-17
Publication date: 2012-09-19
Also published as: WO2012112944A2; WO2012112944A3; US20120215853A1

Abstract

本发明涉及使用模板生成和指纹比较特征管理不想要的通信。提供不想要通信的检测和/或管理特征，包括使用一个或多个共性度量作为生成模板以进行指纹化和对比操作的一部分，但是这些实施例不限于此。一个实施例的计算架构包括被配置成为已知不想要通信生成模板和相关联指纹的组件，其中将该模板指纹与未知通信指纹进行比较，作为确定该未知通信是否是基于类似模板的并且可以被恰当分类为不想要的或可能不安全的通信以进行后续分析和/或阻挡的一部分。一个实施例的方法用于使用多个模板指纹来检测未知通信并将其分类为兜售信息、网络钓鱼(phishing)、和/或其他不想要通信。

Description

使用模板生成和指纹比较特征管理不想要的通信

技术领域

本发明涉及使用模板生成和指纹比较特征管理不想要的通信。

背景技术

兜售信息(spam)一般被描述为使用电子消息收发系统来发送未经请求的、而且通常是不想要的批量消息。兜售信息一般可被表征为包含一些不想要的或者未经请求的电子通信。兜售信息包含许多电子服务，包括电子邮件兜售信息、即时消息收发兜售信息、Usenet新闻组兜售信息、Web搜索引擎兜售信息、博客中的兜售信息、维基兜售信息、在线分类广告兜售信息、移动设备兜售信息、因特网论坛兜售信息、社交联网兜售信息等。兜售信息检测和保护系统尝试标识并控制兜售信息通信。

当前的兜售信息检测系统使用基本内容过滤技术，像正则表达式或关键字匹配，作为检测兜售信息的一部分。然而，这些系统不能够捕捉所有类型的兜售信息和其他不想要的通信。例如，兜售信息者通常重用(reuse)HTML/文字模板来发送兜售信息。除了检测和消除问题以外，兜售信息技术一直涉及对绕过原地兜售信息检测和/或排除技术的尝试。此外，可缩放性(scalability)和性能问题成为部署某些兜售信息检测系统的考虑因素。不幸的是，标识和排除不想要的通信的传统方法和系统可能是资源密集的，并且难以实现附加的预防措施。

发明内容

提供本发明内容以便以简化的形式介绍将在以下的具体实施例中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

各实施例提供不想要通信的检测和/或管理特征，包括使用一个或多个共性度量(commonality measure)作为生成模板以进行指纹化(fingerprinting)和对比操作的一部分，但是实施例不限于此。在一实施例中，计算架构包括被配置成为已知不想要的通信生成模板和相关联指纹的组件，其中将该模板指纹与未知通信指纹进行比较，作为确定该未知通信是否是基于类似模板的并且可以被恰当分类为不想要的或可能不安全的通信以进行后续分析和/或阻挡的一部分。一个实施例的方法用于使用多个模板指纹来检测未知通信并将其分类为兜售信息、网络钓鱼(phishing)、和/或其他不想要通信。还包括其他实施例。

通过阅读下面的详细描述并参考相关联的附图，这些及其它特点和优点将变得显而易见。可以理解，前述一般描述和以下详细描述均仅是说明性的，并且不限制所要求保护的本发明。

附图说明

图1是示例性计算架构的框图。

图2A-2B示出了使用包含系数计算作为标识兜售信息通信的一部分的示例性过程。

图3是描绘标识不想要的电子通信的示例性过程的流程图。

图4是描绘处理和管理不想要的电子通信的示例性过程的流程图。

图5A-5D描绘了部分地使用消息来生成模板以进行指纹化并在消息表征操作中使用的示例。

图6A-6C描绘了部分地使用消息来生成模板以进行指纹化并在消息表征操作中使用的示例。

图7是描绘处理和管理不想要的电子通信的示例性过程的流程图。

图8是描绘示例性兜售信息检测系统的方面的框图。

图9是描绘示例性兜售信息检测系统的方面的框图。

图10是示出用于实现此处所描述的各个实施例的示例性计算环境的框图。

具体实施方式

图1是示例性计算架构100的框图，计算架构100包括处理、存储器和提供通信处理操作的其他组件/资源，这些操作包括处理电子消息的功能，作为防止不想要通信被传递和/或阻塞通信管道的一部分。例如，基于存储器和处理器的计算系统/设备可以被配置成提供消息处理操作，作为标识和/或防止兜售信息或其他不想要通信被传递到接收者的一部分。

在一实施例中，架构100的组件可被用作对通信管道上的消息进行监视的一部分，包括部分基于一个或多个已知不想要通信模板指纹来标识不想要通信。例如，可以根据各种因素(诸如通过已知兜售信息实体)来生成模板指纹并将其分组。已知的不想要通信的模板的指纹可以代表已知不想要通信的已定义组或分组。如同下面描述的，假的和/或负面的反馈通信可被用作维护模板指纹储存库的方面的一部分，诸如删除/移除和/或添加/修改模板指纹。

在一个实施例中，可以部分基于部分基于第一共性度量提取多个不想要通信的第一部分以及部分基于第二共性度量提取该多个不想要通信的第二部分来生成模板。例如，模板生成过程可以用于部分基于第一共性度量来标识并提取第一组电子消息的部分，其中该第一共性度量指示该第一组电子消息的所标识的部分之间有很少共性或没有共性。继续该示例，模板生成过程还可用于部分基于第二共性度量来标识并提取第二组(例如，跨多个组)电子消息的部分，其中该第二共性度量指示该第二组电子消息的所标识的部分之间的很高的或显著的共性(例如，跨多个消息的极常见的标记(markup)结构)。一旦已提取了这些部分，则可以生成指纹以用于检测不想要的通信，如下面讨论的。

在另一实施例中，可以部分基于对自定义串解析器的使用来生成模板，该自定义串解析器被配置成提取包括超文本标记语言(HTML)的多个不想要的通信的已定义部分，作为生成用于指纹化的模板的一部分。一实施例的模板生成器可以被配置成从不想要通信数据结构中提取所有文字和标记属性，从而暴露基本标签(例如，<html>，<a>，<table>等)。例如，模板生成器可以使用自定义解析器来从MIME消息部分移除文字，然后对剩余部分应用正则表达式，以提取纯标签，作为生成模板以用于指纹化和在消息表征操作中使用的一部分。

继续参考图1，架构100的组件监视一个或多个电子通信，诸如例如专用消息通信管道，作为标识或监视不想要电子通信(诸如兜售信息、网络钓鱼和其他不想要通信)的一部分。如同下面讨论的，架构100的组件被配置成为一个或多个已知不想要电子通信生成模板和模板指纹。已知不想要电子通信的模板指纹可被用作将未知电子通信表征为安全或不安全的一部分。例如，已知不想要电子通信的模板指纹可被存储在计算机存储器(例如，远程的和/或本地的)中，并被与未知消息指纹进行比较，作为将未知电子消息表征或标识为不想要电子通信(例如，兜售信息消息、网络钓鱼消息等)的一部分。

如图1所示，一实施例的架构100包括模板生成器组件或模板生成器102、指纹生成器组件或指纹生成器104、表征组件106、指纹储存库108、和/或知识管理器组件或知识管理器110。如图所示，并且如下面进一步描述的，架构100的组件可被用于监视并处理通信管道(例如，简单邮件传输(SMTP)管道)上的入站未知电子通信112的各方面，但是不限于此。

作为未知消息表征操作的示例，可基于兜售信息活动的指示(经由源IP地址、源域、相似度打分等完成)将电子邮件消息的集合分组在一起，并且可以使用模板处理操作来提供模板以进行指纹化。例如，微软的用于Exchange的前线在线保护(FOPE)维护已知会发送兜售信息的IP地址的列表，其中可以根据IP地址分组来生成模板。在一个实施例中，与该已知IP地址相关联的消息被用于捕捉实况兜售信息电子邮件，以供模板生成器102在生成用于指纹化的模板时使用。

模板生成器102被配置成部分基于一个或多个源通信的方面来生成电子模板，但不限于此。例如，模板生成器102可以部分基于由标记语言和数据(例如，包括文字的HTML模板)组成的已知兜售信息或其他不想要通信的各方面来生成不想要通信模板。一实施例的模板生成器102可以部分基于一个或多个电子通信的方面来生成电子模板，包括使用一个或多个共性度量来标识通信部分以用于提取。可将剩余的部分指纹化并将其用作标识不想要通信或不想要通信部分的一部分。

一个实施例的模板生成器102可用于部分基于第一共性度量提取第一通信部分并部分基于第二共性度量提取第二通信部分来生成不想要通信模板。一旦已提取了这些部分，则指纹化组件104可以生成指纹以用于检测不想要的通信，如下面讨论的。例如，模板生成器102可用于部分基于第一共性度量标识和提取第一组电子消息的部分，该第一共性度量指示该第一组电子消息的所标识部分之间有很少的共性或没有共性(例如，组中的大部分电子邮件不包含所标识的第一部分，其根据已知兜售信息IP地址分组)。

可以部分基于消息HTML和文字的检查、使用无损集合交集(lossless setintersection)对消息的不相交“元组”或字单元的收集、和/或用于标识消息间的差别的其他自动化方法，标识共性。继续上述示例，模板生成过程还可以部分基于第二共性度量来标识并提取第二组(例如，跨多个组)的电子消息的部分，该第二共性度量指示该第二组电子消息的相关联部分之间的很高的或显著的共性。

作为一个示例，极常见部分可以使用第二共性度量来标识，极常见部分可被定义为所有消息的百分之十(10)中出现的消息部分，并且可以包括超出基本值的逆文档频率(IDF)度量(例如，<！DOCTYPE html PUBLIC″-//W3C//DTD XHTML1.0 Transitional//EN″″http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd″>)。注意，这些极常见的所标识的部分可能横跨多个组和/或储存库。在一个实施例中，通过编译标准列表或通过基于样本消息动态地生成列表，可以标识这些极常见部分，从而提高指纹化过程的选择性。任何剩余部分(例如，HTML和文字)可以被定义为模板，以用于由指纹化组件104指纹化。

在另一实施例中，模板生成器可用于部分基于对自定义串解析器的使用来生成模板，该自定义串解析器被配置成提取多个不想要的通信的已定义部分，作为生成用于指纹化的模板的一部分。一实施例的模板生成器可以被配置成从不想要通信数据结构中提取所有文字和HTML属性并留下基本的HTML标签(例如，<html>，<a>，<table>等)。例如，模板生成器可以使用自定义解析器来从MIME消息部分的文本中移除文字，然后对剩余部分应用正则表达式，以提取纯标签，作为生成模板以用于指纹化和在消息表征操作中使用的一部分。

指纹化组件104被配置成使用指纹化算法部分基于底层源(诸如例如已知兜售信息模板或未知入站消息)生成电子指纹。一实施例的指纹化组件104用于部分基于散列技术和电子通信的方面以及至少一个其他未知电子通信生成电子指纹，所述电子通信的方面包括被分类为兜售信息的所生成的电子模板的方面。

在一个实施例中，指纹化组件104可以生成指纹，以在使用minwise散列计算确定已知和未知通信之间的相似度度量时使用。一实施例的minwise散列涉及基于电子通信的字单元生成散列值的集合，以及使用从所述集合选择的散列值进行比较操作。B-位minwise散列包括所选择的值的多个位截断的比较。指纹化新的、未知的消息不需要在指纹化之前移除或修改任何部分，这部分是由于使用下面进一步讨论的包含因素或系数所提供的非对称比较。

字单元的类型可被定义并用作minwise散列计算的一部分。字单元的选择对应于在散列操作中使用的单元。例如，用于散列的字单元可包括单个字或术语，或者两个或更多个连续的字或术语。字单元还可以基于多个连续的字符。在这样的实施例中，连续字符的数量可以基于所有文本字符(诸如所有ASCII字符)，或者字符的数量可以排除非字母字符或非数字字符，诸如空格或标点符号。

提取字单元可以包括提取电子通信(诸如例如电子邮件模板)内的所有文本。字对的提取可以用作提取字单元的示例。当提取字对时，每个字(除了第一个字和最后一个字之外)可以被包括在字对中。例如，考虑以字“Patent Disclosure Document.This is a summary paragraph，Abstract，Claims，etc(专利披露文档。这是发明内容段落、摘要、权利要求书等)”开始的模板。本模板的字对包括“Patent Disclosure”、“Disclosure Document”、“Document This”、“This is”等。每个术语既作为对中的第一术语出现，又作为对中的第二术语出现，以避免类似的消息可能由于偏移了单个术语而显得不同的可能性。

散列函数可用于基于所提取的字单元来生成一组散列值。在字单元是字对的实施例中，使用散列函数来生成每个字对的散列值。对每个字对使用散列函数(或其他字单元解析)导致电子通信的一组散列值。适当的散列函数允许将字单元转换为可被表达为n-位值的数字。例如，可以为字单元的每个字符分配数字，诸如ASCII数字。

然后能够使用散列函数来将求和后的值转换成散列值。在另一实施例中，可以为每个字符生成散列值，并将该散列值求和以生成字单元的单个值。可以使用其他方法以使得该散列函数将字单元转换为n-位值。还可以选择散列函数以使得所使用的各个散列函数是独立于彼此min-wise的。在一个实施例中，可以选择若干不同类型的散列函数，以使得所得到的散列函数的集合是近似min-wise独立的。

可以使用多个不同的散列函数来重复字单元的散列，以使得该多个散列函数中的每一个允许创建不同的散列值集合。可以按预定序列使用散列函数，以使得可对被比较的每个消息使用相同序列的散列函数。基于散列函数的函数格式，某些散列函数可能不同。其他散列函数可能具有类似的函数格式，但是包括与该散列函数一起使用的不同的内部常量。在文档上使用的不同的散列函数的数量可以变化，并且可以与字单元中的字(或字符)的数量有关。使用多个散列函数的结果是多个散列值集合。每个集合的大小基于字单元的数量。集合的数量基于散列函数的数量。如同上面指出的，可以按预定序列应用多个散列函数，以使得所得到的散列值集合对应于散列值集合的有序系列或序列。

在一实施例中，对于每个散列值集合，可以从该集合中选出特征值。例如，特征值的一个选择可以是该散列值集合的最小值。来自数字集合的最小值不依赖于该集合的大小或该最小值在该数字集合中的位置。集合的最大值可以是特征值的另一示例。又一个选项可以是使用与产生所述散列值集合的总排序、然后基于排序后的集合的方面选择特征值相一致的任何技术。

在一个实施例中，特征值可被用作指纹值的基础。可以直接使用特征值，或将其转换成指纹值。所述转换可以是如下转换：用可预测的方式修改特征值，诸如对特征值执行算术运算。另一示例包括截断该特征值中所述数量的位，诸如通过仅使用相关联特征值的b个最低有效位。

从一组散列函数生成的指纹值可以被汇编成消息的指纹值集合，该集合基于用于散列值的原始预定顺序来排序。如同下面描述的，代表消息指纹的指纹值可用于确定电子通信的相似度值和/或包含系数。包括指纹值的有序集合的指纹很容易被存储在指纹储存库108中并且与其他指纹(包括未知消息的指纹)进行比较。存储指纹而不是底层源(例如，模板、原始源通信等)需要使用少得多的存储器和更少的处理需求。在一实施例中，散列操作是不可逆的。例如，原始文本不能从所得出的散列重构。

一个实施例的表征组件106被配置为部分基于相似度和包含因素过程使用电子指纹执行表征操作。在一实施例中，表征组件106使用模板指纹和未知(例如，新的兜售信息/网络钓鱼活动)通信指纹以标识并核查兜售信息、网络钓鱼、和其他不想要的通信。如上所述，字单元类型被用作指纹化过程的一部分。瓦片(shingle)代表一些参考文本或语料库的n个连续的字。研究已指示，在执行集合相似度计算时，瓦片集合能够准确代表文本。作为示例，考虑如下消息：“the red fox runs far(红狐狸跑得远)”。这会产生如下的瓦片或字单元集合：{“the red”，“red fox”，“foxruns”，“runs far”}。

一个实施例的表征组件106使用以下算法作为表征未知通信指纹的一部分，其中：

Fingerprint_t(指纹_t)：代表用于模板检测的目的的S_t并实际上代表散列值序列的指纹。

Fingerprint_t(i)：返回指纹中的第i个值。

WordUnitCount_t(字单元计数_t)：模板(例如，HTML模板)中包含的字单元的数量，取决于模板生成方法。

S_c：未知通信(例如，实况电子邮件)中的字单元的集合。

R：R代表集合相似性(resemblance)或相似度(similarity)。

hash(散列)：散列是具有随机离差的唯一散列函数。

min(最小值)：min(S)寻找S中的最低值。

bb(b，v₁，v₂)：若v₁和v₂的最后b位相等则等于一(1)；否则等于零(0)。

\approx \frac{1}{k} * Σ_{j = 1}^{k} {bb (b, {Fingerprint}_{t} (j), \min ({hash}_{j} (S_{c})))}

R \approx \frac{1}{k} * Σ_{j = 1}^{k} {bb (b, {Fingerprint}_{t} (j), \min ({hash}_{j} (S_{c})))}

C_r：在另一文档、文件或其他结构中找到的一个文档、文件或其他结构的包含系数或分数

C_{r} = \frac{\frac{R}{1 + R} * ({WordUnitCount}_{t} + | S_{c} |)}{{WordUnitCount}_{t}}

且S_t的文本因此是S_c的子集

如果

则该未知通信是基于该模板的并且可以被标识为不想要的(例如，邮件头部可以被相应地打上戳)。

具有随机离差的示例性唯一散列算法可被定义如下：

1)使用消息摘要算法5(Md5)和相应的字单元来产生该字单元的128位整数表示。

2)从该128位表示中取64位(例如，64个最低有效位)。

3)从相容大质数集合中取所建立的大质数“种子”(例如，hash_j将使用来自该集合的第j个质数种子)。

4)从集合中取所建立的小质数“种子”(按照与(1)相同的过程)。

5)从该Md5中取该64位的较低32位。

6)把来自(5)的值与该小质数相乘并且取59个最高有效位；把来自(5)的值与该小质数相乘并且取5个最低有效位；对这些值“求或”。

7)把来自(6)的值与来自(3)的大散列数相乘。

8)从该Md5中取该64位的较高32位并把其与该小质数相乘并取59个最高有效位；把来自该Md5中的该64位的较高32位和该小质数相乘并且取5个最低有效位；对这些值“求或”。

9)将来自(6)和(8)的值相加以产生minwise独立值。

通过修改来自上面的(3)和(4)的质数种子，确定性地重用该散列函数以产生minwise独立值。

下面可以看到用F#实现的该散列函数的示例：

当包含系数C_r大于阈值值时，较小的S_t可以被认为是S_c的子集(或基本上是子集)。如果S_t是S_c的子集或基本上是子集，则S_t可以被认为是S_c的模板。取决于S_t是S_c的子集的期望确信度，可将该阈值值设置为一较高值或一较低值。作为几个示例，适当的阈值值可以是至少约0.50，或至少约0.60，或至少约0.75，或至少约0.80。可以获得用于确定指纹和/或相似度，以及使用这些值来确定包含系数的其他方法。

上面描述的minwise散列过程的其他变型可用于计算指纹。另一个可选项可以是使用其他已知方法来计算相似性，诸如“局部性敏感散列”(LSH)方法。这些可以包括被称为符号随机投影(即simhash)和汉明(Hamming)距离LSH算法的1-位方法。更一般地，可以使用能够确定Jaccard相似度系数的其他技术来确定集合相似性或相似度。在确定集合相似性或相似度值后，可以基于该较小集合和较大集合的基数(cardinality)来确定包含系数。

一实施例的指纹储存库108包括存储器和多个所存储的指纹。指纹储存库108可用于存储被分类为兜售信息、网络钓鱼和/或其他不想要通信的电子指纹，以在表征未知通信(诸如使用信号通信管道递送的未知电子邮件)时由表征组件106用来与其他未知电子通信进行比较。知识管理器110可用于管理指纹储存库108的方面，包括使用假肯定和否定反馈通信作为维护已知不想要通信指纹的准确集合的一部分，以改善表征组件106的标识准确度。

知识管理器110能够为兜售信息分析者提供用于确定该假肯定/假否定(FP/FN)反馈是否准确(例如，许多人不正确地将通讯稿(newsletter)报告为兜售信息)的工具。在确认这些消息的确是假肯定或假否定之后，可以更新反兜售信息规则来提高表征准确度。因此，分析者现在能够对于给定兜售信息活动指定HTML/文字模板，从而减少了时间并提高了兜售信息标识准确度。可以使用规则更新和认证来确认经更新的规则(例如，正则表达式和/或模板)不对服务的健康带来负面损害(例如，导致很多假肯定)。如果规则通过了确认，则可以将它释出到例如生产服务器。

此处描述的功能可被托管的系统、应用或其他资源使用或者可以是其一部分。在一个实施例，架构100可以通信地耦合到消息收发系统、虚拟web、网络和/或其他组件，作为提供不想要通信监视操作的一部分。示例性计算系统包括适当的处理和存储器资源，用于根据使用所生成的模板和未知通信指纹标识不想要的通信的方法操作。合适的编程装置包括指示计算机系统或设备执行方法中的各步骤的任何装置，例如包括由处理单元和耦合到计算机存储器的各算术逻辑电路组成的系统，该系统具有在计算机存储器中进行存储的能力，该计算机存储器包括配置来存储数据和程序指令的电子电路。示例性计算机程序产品能与任何合适的数据处理系统一起使用。尽管以上描述了一定数量和类型的组件，但可以理解，可根据各个实施例而包括其他数量和/或类型和/或结构。因此，根据所期望的实现，还可将组件功能进一步进行划分和/或将其与其他组件功能组合在一起。

图2A-2B示出了使用包含系数计算作为标识兜售信息通信的一部分的示例性过程。如图2A中所示，部分基于底层源或文件204的方面生成一组字对202(例如，从已知HTML兜售信息模板生成模板)。然后可使用该组字对202生成模板指纹206。要理解，在表征操作之前可以生成、存储和/或更新兜售信息指纹的集合。如图2B中所示，还可以生成未知通信210(诸如使用SMTP管道递送的主动电子邮件消息)的指纹208。然后处理模板指纹206和指纹208，作为评估模板和未知通信间的相似度的一部分。使用该类似度值，可以确定包含系数，然后结合标识可能的兜售信息通信的触发阈值，可以从其确定未知通信的表征是兜售信息还是不是兜售信息。

图3是描绘标识不想要的电子通信(诸如兜售信息、网络钓鱼、或其他不想要通信)的示例过程300的流程图在302，过程300操作以标识和/或收集不想要通信，诸如例如HTML兜售信息模板，以将其用作生成比较模板的一部分。在304，过程300操作以部分基于该不想要通信生成不想要通信模板。一个实施例的过程300在304操作以部分基于对一个或多个共性度量的使用来生成不想要通信模板，该共性度量在生成相关联模板时用于从每个不想要通信(或组)提取部分。

在306，过程300操作以便为所生成的不想要通信模板生成不想要通信模板指纹。在一个实施例中，使用b-位minwise技术来生成指纹。在308，将不想要通信模板指纹存储在储存库中，诸如例如指纹数据库。在310，过程300操作以生成未知通信(诸如例如未知电子邮件消息)的指纹。在312，过程300操作以将该不想要通信模板指纹与该未知通信指纹进行比较。部分基于该比较，可将该未知通信表征或分类为非不想要的并在314允许其被递送，或者分类为不想要的并且在316阻止其被递送。例如，可以使用被确定为兜售信息的先前未知的消息来阻挡相关联的电子邮件，并且可向发送者、服务提供者和/或其他方通知该不想要通知，包括限制在无在先授权的情况下进行未来通信的理由。

如上所述，可以使用反馈通信来将不想要通信重新分类为可接受的，而过程300可在320操作以从该储存库移除任何相关联的不想要通信指纹，并且在318继续处理另一未知通信。然而，如果已将未知通信正确地标识为兜售信息，则该过程行进到318。尽管针对图3中的示例性流程图描述了一定数量和次序的操作，但可以理解，可根据所期望的实现而使用其他数量和/或次序。其它实施例是可用的。

图4是描绘处理和管理不想要的电子通信的示例性过程400的流程图。过程400在402操作以监视通信管道中的不想要通信，诸如例如不想要电子消息。在404，过程400操作以生成不想要通信模板。在一个实施例中，过程400在404操作以部分基于第一共性度量提取第一组(例如，第一IP地址分组)的已知兜售信息消息的第一部分，并部分基于第二共性度量提取第二组(例如跨所有组或大部分组)的已知兜售信息消息的第二部分。例如，可以使用反兜售信息引擎来累积已知兜售信息者的IP地址，其中使用相关联兜售信息通信来生成不想要通信模板以进行指纹化和比较。

在另一实施例中，过程400在404可被用于提取HTML属性和文字，作为生成主要由HTML标签组成的模板的一部分。在一个实施例中，过程400在404使用剩余的HTML标签来形成每个模板的串数据结构。标签串中或所生成的模板中包含的信息提供HTML模板的类似度度量，以在检测不想要消息时使用(例如，跨兜售信息活动的类似度)。这样的模板包括每个兜售信息活动的相对静态的HTML，因为该HTML需要结构并且不能很容易地随机化。此外，因为此文本可被随机化(例如，经由新闻阅读器、字典等)所以可以忽略该文字。这样的基于串的模板还能提供对结构变形的头部(参见图6中的“<i#mg>”)的利用。具体而言，示例性模板中的标签的位置和结构变形最有可能对该特定兜售信息活动是唯一的。由于作者的打字错误或者故意断开以避免渲染(例如，隐藏数据/对阅读器/接收者不可见的)，标签还可能被不正确地输入。对兜售信息的确定可以人工证实或者基于某个量或其他阈值被证实。

在406，过程400操作以在计算机存储器中生成和/或存储不想要通信指纹。在408，可以将该模板指纹作为比较性指纹与未知通信指纹一起使用，以标识不想要通信。在一个实施例中，在将该模板指纹作为比较性指纹与未知通信指纹一起使用以标识不想要通信之前，首先使用确认过程来验证相关联的不想要通信或通信实际上被认为是不想要的。否则，在410，如果确定该不想要通信是可接受通信(例如，不是兜售信息)，则可以从存储器移除该模板指纹。尽管针对图4中的示例性流程图描述了一定数量和次序的操作，但可以理解，可根据所期望的实现而使用其他数量和/或次序。

图5A-5D描绘了根据一实施例部分地使用消息来生成模板以进行指纹化并在消息表征操作中使用的示例。在一个实施例中，使用不想要消息之间的一个或多个共性度量来生成该模板。如在图5A-5C中所示，已经使用类似度群集技术将三个消息502-506标识为相对类似的，并且可包括它们作为生产IP阻挡列表(或“SEN”)的一部分。消息502-506的所标识部分被突出显示，如这些消息下所显示的，其中与第一共性度量相关联的可变HTML/文字部分被加了下划线，而与第二共性度量相关联的极常见HTML/文字部分被倾斜。

图5D描绘了在提取已标识部分后基于上述消息集合的不想要通信模板508。对于本示例，所有可变HTML/文字，连同在较大消息集合中频繁找到的极常见HTML/文字，均已被移除或提取。如同上面讨论的，该不想要通信模板可以被指纹化、确认、和/或作为兜售信息活动的代表而被存储。

图6A-6C描绘了根据另一实施例部分地使用消息来生成模板以进行指纹化并在消息表征操作中使用的示例。图6A描绘了包括HTML MIME部分的消息部分602。例如，可以使用多个应用编程接口(API)(例如，可公开获得的微软ExchangeMime API)来提取电子邮件的MIME部分。在一个实施例中，可以使用定制串解析器来从该电子邮件的MIME部分中提取所有HTML标签/模板。如同上面讨论的，通过把将实际内容/文本排除在外的消息正文格式化，可以使用剩余的HTML标签来生成不想要通信模板。

图6B描绘了经修改的消息数据结构604。经修改的消息数据结构604可以通过从该文本中移除任何文字来生成。例如，使用正则表达式(？＜＝\＞)[^\＜]+连同string.empty来匹配落入＞和＜之间的任何文本，其中‘＞’代表HTML标签的末尾而‘＞’代表开头，包括用空串来取代任何匹配。在一个实施例中，这些值被完全移除以使得第二正则表达式(regex)增加匹配HTML标签的准确度(意味着可以从该HTML中移除任何被认为是文字的东西)。如图6B中所示，经修改的消息数据结构604包括具有属性和成员的纯标签。

图6C描绘了从经修改的消息数据结构604生成的示例性模板数据结构606。例如，可以使用正则表达式(例如，\＞？\s*\＜\S+)来生成模板数据结构606以从剩余的文本中提取纯标签。因为对于本示例已移除了所有文字空格，所以能够使用该正则表达式来从‘＜’或空格开始解析，直到遇到另一个空格。相应地，通过仅向上解析直到遇到标签内的空格，而忽略剩余部分，替代方案不需要提取标签属性而仅提取基本标签。例如，(<a href…>，会导致将标签提取为<a>。一旦生成，示例性模板数据结构606能够被指纹化并用作表征未知消息的一部分。

图7是描绘处理和管理不想要的电子通信的示例性过程700的流程图。过程700在702操作以捕捉并分组实况兜售信息通信(例如，电子邮件)。在704，过程700通过移除该组的可变内容和标准元素来操作以生成HTML/文字模板。在706，过程700操作以指纹化该HTML和文字模板。在708，过程700操作以存储所生成的指纹。

在710，过程700操作以指纹化入站且未知的消息，从而生成未知消息指纹。在一个实施例中，过程700在710使用瓦片化(shingling)过程、未知消息(例如，使用所有标记和/或内容)、以及散列算法来生成相应的通信指纹。如果没有模板指纹与该未知通信指纹相匹配，则该流程行进到712，而未知消息被分类为良好的并被释出。在一个实施例中，可以使用正则表达式引擎作为第二安全层来处理被分类为良好的消息以进一步确保通信不是兜售信息或不想要的。

如果模板指纹与该未知消息相匹配，则该流程行进到714，并且该未知消息被分类为兜售信息并被阻挡，而该流程行进到716。在716，过程700操作以接收假肯定反馈，诸如当电子邮件被错误分类为例如兜售信息。基于对反馈通信和/或其他信息的分析，在718可以将模板指纹标记为有关的兜售信息并且在未知消息表征操作中继续使用。否则，可在720将该模板指纹标记为不是有关的兜售信息和/或从指纹储存库和/或参考数据库中移除。尽管针对图7中的示例性流程图描述了一定数量和次序的操作，但可以理解，可根据所期望的实现而使用其他数量和/或次序。

图8是描绘示例性兜售信息检测系统800的方面的框图。如图所示，示例性系统800包括SMTP接收管道802，管道802包括多个过滤代理，过滤代理用于在Forefront Online Protection for Exchange(FOPE)SMTP服务器接受这些消息之前处理消息(例如，拒绝或阻挡)并承担与其相关联的任何责任。边缘阻挡804包括操作以在接受消息之前标识、分类和/或阻挡该消息(例如，基于发送者IP地址)的组件。指纹化代理(FPA)806可用于阻挡匹配兜售信息模板指纹(例如，HTML/文字模板指纹)的消息。

病毒组件808执行基本反病毒扫描操作并且如果检测到恶意软件能阻挡递送。如果消息被病毒组件808阻挡，则使用FOPE来处理它可能是更昂贵的，其中处理可包括处置将非递送和/或其他通知等发送回去。策略组件810基于所创作的规则执行过滤操作并且对消息执行动作(例如，由消费者创作的规则，例如，如果它来自雇员并且使用了粗俗的词，则阻挡该消息)。SPAM(Regex)组件812提供反兜售信息特征和功能，诸如关键字814和混合816特征(请添加细节)。

图9是描绘示例性兜售信息检测系统900的方面的框图。如图所示，示例性系统900包括兜售信息FP/FN反馈组件902，组件902代表进入兜售信息补救管道(例如，顾客可以向特定地址发送电子邮件；或者，最终用户可以安装垃圾邮件插件等)的任何数量的输入。反馈邮件存储904可以被配置为反兜售信息系统的假肯定和否定的中央储存库。

邮件提取器和分析器906操作以移除消息正文和头部以存储在数据库中。从原始消息移除内容可以节省稍后的处理时间。所提取的内容，连同现有反兜售信息规则，可被存储在该邮件和兜售信息规则存储组件908中。知识工程(KE)工作室组件901可被用作兜售信息分析工具，作为确定FP/FN反馈是否准确的一部分(例如，例行地不正确地将通讯稿报告为兜售信息)。在确认这些消息的确是假肯定或假否定之后，规则更新组件911可以更新反兜售信息规则来提高检测准确度。规则认证组件912可被用于在将经更新的规则提供给邮件过滤系统914(例如，FOPE)之前认证该经更新的规则是有效的。例如，可以使用规则更新和认证操作来确认经更新的规则(例如，正则表达式或模板)不对服务的健康带来负面损害(例如，导致很多假肯定)。如果该规则通过了确认，则可将它释出到生产服务器。

尽管在此描述了某些实施例，但其他实施例是可用的，并且不应该用所描述的各实施例来限制权利要求书。针对各个实施例的示例性通信环境可包括对安全网络、非安全网络、混合网络和/或某其他网络或各网络的组合的使用。作为示例而非限制，该环境可包括诸如有线网络或直接线连接之类的有线介质，和/或诸如声学、射频(RF)、红外线和/或其他有线和/或无线介质和组件之类的无线介质。除了计算系统、设备等以外，可将各个实施例实现为计算机过程(例如，方法)、计算机程序产品或计算机可读介质之类的制品、计算机可读存储介质和/或作为各种通信结构的一部分。

本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器、可移动存储和不可移动存储都是计算机存储介质示例(即，存储器存储)。计算机存储介质可以包括，但不限于，RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储信息且可以由计算设备访问的任何其它介质。任何这样的计算机存储介质都可以是设备的一部分。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、射频、红外线和其他无线介质。

此处描述的各实施例和示例不旨在是限制性的，并且其他实施例也是可用的。此外，上述各组件可被实现为联网、分布式和/或其他计算机实现环境的一部分。这些组件可以经由有线、无线、和/或通信网络的组合来通信。网络组件和/或各组件之间的耦合可包括任何类型、数量和/或组合的网络，且相应的网络组件包括但不限于广域网(WAN)、局域网(LAN)、城域网(MAN)、专有网络、后端网络等。

客户计算设备/系统和服务器可以是任何类型和/或组合的基于处理器的设备或系统。另外，服务器功能可包括许多组件并包括其他服务器。在单个时态中描述的计算环境的组合可包括这种组件的多个实例。尽管特定实施例包括软件实现，但它们不限于此并且它们涵盖硬件或混合硬件/软件解决方案。其他实施例和配置是可用的。

示例性操作环境

现在参考图10，以下讨论旨在提供可以在其中实现本发明的实施例的合适计算环境的简要、一般的描述。尽管将在结合在个人计算机上的操作系统上运行的应用程序执行的程序模块的一般上下文中描述本发明，但本领域的技术人员可以认识到，本发明也可结合其他类型的计算系统和程序模块实现。

一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其它类型的结构。此外，本领域的技术人员将理解，本发明可以使用其他计算机系统配置来实施，包括手持式设备、多处理器系统、基于微处理器或可编程的消费电子产品、小型计算机、大型计算机等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备两者中。

现在参考图10，将描述用于本发明的各实施例的说明性操作环境。如图10所示，计算机2包括通用台式计算机、膝上型计算机、手持式计算机、或能执行一个或多个应用程序的其他类型的计算机。计算机2包括至少一个中央处理单元8(“CPU”)、包括随机存取存储器18(“RAM”)和只读存储器(“ROM”)20的系统存储器12、以及将存储器耦合至CPU 8的系统总线10。基本输入/输出系统存储在ROM 20中，所述基本输入/输出系统包含帮助在诸如启动期间在计算机内元件之间传递信息的基本例程。计算机2还包括用于储存操作系统24、应用程序、以及其他程序模块26的大容量存储设备14。

大容量存储设备14通过连接至总线10的大容量存储控制器(未示出)连接到CPU 8。大容量存储设备14及其相关联的计算机可读介质为计算机2提供非易失性存储。尽管此处包含的计算机可读介质的描述指的是大容量存储设备，诸如硬盘或CD-ROM驱动器，但本领域的技术人员应明白，计算机可读介质可以是可由计算机2访问或利用的任何可用介质。

作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EPROM、EEPROM、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(“DVD”)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机2访问的任何其他介质。

根据本发明的各实施例，计算机2可以使用通过诸如局域网、因特网等的网络4与远程计算机的逻辑连接在联网环境中操作。计算机2可以通过连接至总线10的网络接口单元16来连接到网络4。应当明白，网络接口单元16也可用于连接至其它类型的网络和远程计算系统。计算机2也可包括输入/输出控制器22，用于接收和处理来自多个其他设备，包括键盘、鼠标等(未示出)的输入。类似地，输入/输出控制器22可将输出提供给显示屏、打印机、或其他类型的输出设备。

如以上简要地提及的，许多程序模块和数据文件可以被存储在计算机2的大容量存储设备14和RAM 18中，包括适用于控制联网的个人计算机的操作的操作系统24，诸如位于华盛顿州雷德蒙市的微软公司的WINDOWS操作系统。大容量存储设备14和RAM 18还可以存储一个或多个程序模块。具体地，大容量存储设备14和RAM18可存储诸如文字处理、电子表格、绘画、电子邮件和其他应用程序和/或程序模块等应用程序。

应当明白，本发明的各种实施例可被实现为(1)运行于计算机系统上的一系列计算机实现的动作或程序模块，和/或(2)计算机系统内互连的机器逻辑电路或电路模块。该实现是取决于实现本发明的计算系统的性能要求来选择的。因此，包括相关算法的逻辑操作可被不同地称为操作、结构设备、动作或模块。本领域技术人员将认识到，这些操作、结构设备、动作和模块可以用软件、固件、专用数字逻辑、以及其任意组合实现，而不背离如本文中阐述的权利要求内陈述的本发明精神和范围。

尽管已经结合各示例性实施例描述了本发明，但本领域普通技术人员将理解，可以在所附权利要求的范围内对其作出许多修改。因此，并非旨在以任何方式将本发明的范围限于以上的说明，而是应该完全参照所附权利要求书来确定。

Claims

1.一种系统，包括：

模板生成器组件(102)，所述模板生成器组件被配置为移除已知不想要通信的第一部分、移除所述已知不想要通信的第二部分、以及使用所述已知不想要通信的剩余部分生成模板，其中所述第一部分与第一共性度量相关联，其中所述第二部分与第二共性度量相关联；

指纹生成器组件(104)，所述指纹生成器组件被配置为生成所述模板的模板指纹和未知通信的未知通信指纹；以及

表征组件(106)，所述表征组件被配置为将所述模板指纹和所述未知通信指纹的方面进行比较，作为确定所述未知通信是否是不想要通信的一部分；以及

指纹储存库(108)，所述指纹储存库用于存储模板指纹。

2.如权利要求1所述的系统，其特征在于，所述模板生成器组件(102)被配置为根据第一分组已知不想要通信来移除所述已知不想要通信的所述第一部分，其中所述第一共性度量与所述第一分组的所述已知不想要通信的很少的共性或没有共性相对应。

3.如权利要求2所述的系统，其特征在于，所述模板生成器组件(102)被配置为根据第二分组通信来移除所述已知不想要通信的所述第二部分，其中所述第二共性度量与所述第二分组的所述第二部分之间的高程度的共性相对应。

4.如权利要求1所述的系统，其特征在于，所述表征组件(106)被配置为部分基于包含系数评估来将所述未知通信分类为兜售信息，包括使用已知兜售信息模板的一组字单元和实况消息的一组字单元。

5.如权利要求4所述的系统，其特征在于，所述表征组件(106)被配置为部分基于包含系数参数将主动未知电子消息分类为兜售信息，包括使用相似度参数比乘以所述模板中的所述组字单元和所述主动未知电子消息中的所述组字单元的和，除以所述模板中的所述组字单元。

6.如权利要求1所述的系统，其特征在于，所述指纹生成器组件(104)被配置为使用b-位minwise散列算法来生成所述指纹。

7.一种方法，包括：

使用指纹生成器组件(104)和所标识的不想要通信的部分来使用一个或多个散列算法生成一个或多个不想要通信指纹，以及使用所述一个或多个散列算法从未知通信生成未知通信指纹；以及

使用表征组件(106)来将所述一个或多个不想要通信指纹和所述未知通信指纹的方面进行比较以标识所述未知通信是否是不想要的，作为当所述未知通信被标识为不想要未知通信时阻止所述不想要通信的递送的一部分。

8.如权利要求7所述的方法，其特征在于，进一步包括使用模板生成器组件(102)来部分基于所述部分生成不想要通信模板，其中所述部分包括具有相关联共性度量的第一部分和具有相关量共性度量的第二部分。

9.如权利要求7所述的方法，其特征在于，进一步包括使用模板指纹、实况消息指纹、以及包含系数评估来表征电子通信。

10.一种包括可执行指令的计算机可读存储介质，当所述可执行指令时被使用计算系统执行时，用于：

移除已知不想要通信的第一部分、移除所述已知不想要通信的第二部分、以及使用所述已知不想要通信的剩余部分生成模板(202)，其中所述第一部分与第一共性度量相关联，其中所述第二部分与第二共性度量相关联；

生成所述模板(202)的模板指纹(206)和未知通信(210)的未知通信指纹(208)；以及

将所述模板指纹(206)和所述未知通信指纹(208)的方面进行比较，作为确定所述未知通信(210)是否是不想要通信的一部分；以及

存储模板指纹。