ES2350107T3

ES2350107T3 - Cuarentena inteligente para evitar el correo no deseado.

Info

Publication number: ES2350107T3
Application number: ES05100847T
Authority: ES
Inventors: Geoffrey J. Hulten; Robert L. Rounthwaite; Joshua T. Goodman; Derek C/o Microsoft Corporation Hazeur
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-02-13
Filing date: 2005-02-07
Publication date: 2011-01-18
Anticipated expiration: 2025-02-07
Also published as: CN1658572A; JP4818616B2; US7543053B2; KR101117866B1; ATE481804T1; EP1564670A2; MXPA05001677A; CN1658572B; CA2497012A1; BRPI0500374A; JP2005235206A; EP1564670B1; EP1564670A3; DE602005023553D1; KR20060041934A; US20040215977A1

Abstract

Un sistema que facilita la clasificación de mensajes en conexión con la evitación de correo no deseado, que comprende: un componente (110) adaptado para recibir un conjunto de los mensajes; un primer componente (130, 540, 550) de clasificación adaptado para identificar un subconjunto de los mensajes como CORREO NO DESEADO o para señalar la necesidad de un análisis adicional; un componente (140) de almacenamiento adaptado para almacenar el subconjunto de mensajes durante la duración de un periodo (350, 635) de retraso; y un segundo componente (130, 250, 370) de clasificación adaptado para clasificar el subconjunto almacenado de mensajes después del periodo de retraso como aceptable o como CORREO NO DESEADO a partir de nueva información.

Description

CAMPO TÉCNICO

La presente invención versa acerca sistemas y procedimientos para identificar información tanto legítima (por ejemplo, correo aceptable) como no deseada (por ejemplo, correo basura), y más en particular acerca de la clasificación de mensajes para evitar el correo no deseado en parte por, al menos, retrasar la entrega de mensajes sospechosos hasta que se pueda reunir información adicional acerca de los mensajes para facilitar una clasificación de tales mensajes.

ANTECEDENTES DE LA INVENCIÓN

La llegada de las redes de comunicaciones globales tales como Internet ha presentado oportunidades comerciales para alcanzar a un gran número de clientes potenciales. La mensajería electrónica, y en particular el correo electrónico (“e-mail”), se está volviendo cada vez más dominante como un medio para diseminar promociones y anuncios no deseados (también denominados “correo no deseado”) a los usuarios de la red.

El Radicati Group, Inc., empresa consultora y de estudio de mercado, estima que en agosto de 2002, se envían cada día dos mil millones de mensajes de correo electrónico no deseados —se espera que se triplique este número cada dos años—. Los individuos y las entidades (por ejemplo, empresas, agencias gubernamentales) están siendo cada vez más molestados y ofendidos a veces por los mensajes basura. Como tal, el correo electrónico basura es ya una amenaza importante a la informática fiable, o lo será pronto.

Una técnica clave utilizada para frustrar el correo electrónico basura es el empleo de sistemas/metodologías de filtrado. Una técnica probada de filtrado está basada en un enfoque de aprendizaje automático —los filtros de aprendizaje automático asignan a un mensaje entrante una probabilidad de que el mensaje sea basura. En este enfoque, normalmente se extraen características de dos clases de mensajes ejemplares (por ejemplo, mensajes basura y no basura), y se aplica un filtro de aprendizaje para discriminar de forma probabilística entre las dos clases. Dado que muchas de las características de los mensajes están relacionadas con el contenido (por ejemplo, palabras y frases en el asunto y/o en el cuerpo del mensaje), se denominan habitualmente tales tipos de filtros como “filtros basados en contenido”.

Algunos filtros de basura/correo no deseado son adaptativos, lo que es importante porque los usuarios de idiomas múltiples y los usuarios que hablan idiomas poco frecuentes necesitan un filtro que pueda adaptarse a sus necesidades específicas. Además, no todos los usuarios están de acuerdo en lo que es o no basura/correo no deseado. En consecuencia, al emplear un filtro que pueda ser entrenado de forma implícita (por ejemplo, mediante la observación del comportamiento del usuario) se puede adaptar de forma dinámica el filtro respectivo para satisfacer las necesidades particulares de identificación de mensajes de un usuario.

Un enfoque para la adaptación del filtrado es solicitar a un usuario que marque mensajes como basura o no basura. Por desgracia, tales técnicas manuales de entrenamiento intensivo no son deseables para muchos usuarios debido a la complejidad asociada con dicho entrenamiento, por no hablar de la cantidad de tiempo requerida para llevar a cabo de forma apropiada dicho entrenamiento. Además, a menudo, tales técnicas manuales de entrenamiento tienen deficiencias por culpa del usuario individual. Por ejemplo, los usuarios olvidan las suscripciones a listas gratuitas de correos y, por lo tanto, estas son marcadas incorrectamente como correo basura. Como resultado, se bloquea correo legítimo de forma indefinida del buzón de correo del usuario. Otro enfoque de entrenamiento de filtro adaptativo es emplear señales de entrenamiento implícito. Por ejemplo, si el usuario responde a un mensaje, o lo reenvía, el enfoque supone que el mensaje no es basura. Sin embargo, el uso exclusivo de señales de mensajes de este tipo introduce desviaciones estadísticas en el procedimiento de entrenamiento, lo que tiene como resultado filtros de una menor precisión respectiva.

Otro enfoque más es utilizar el correo electrónico de todos los usuarios para el entrenamiento, asignando un filtro existente etiquetas iniciales y anulando el o los usuarios a veces las asignaciones con señales explícitas (por ejemplo, un procedimiento de “corrección del usuario”) por ejemplo, seleccionando opciones tales como “borrar como basura” o “no basura” y/o señales implícitas. Aunque tal enfoque es mejor que las técnicas presentadas anteriormente al mismo, sigue siendo deficiente en comparación con la presente invención descrita y reivindicada a continuación.

Además, la tecnología actual de filtros que está diseñada para luchar contra los correos no deseados sigue siendo problemática. Por ejemplo, si un remitente de correo no deseado encuentra un mensaje que es capaz de atravesar un filtro, puede pasar un millón de mensajes no deseados antes de que se actualice el filtro. Con independencia de cuán rápido se actualicen los filtros, los remitentes de correo no deseado pueden enviar sus mensajes se supone que cada vez más rápido simplemente al adquirir un mayor ancho de banda.

El documento US 2002/199095 A1 versa acerca de un procedimiento que emplea un reenvío de correos electrónicos para filtrar mensajes NO DESEADOS en una disposición de red. En general, el reenvío de correos electrónicos proporciona una recopilación de CORREO NO DESEADO y un filtrado de CORREO NO DESEADO que emplea una base de datos de CORREO NO DESEADO. En base a datos de atributos extraídos de los mensajes recibidos, se genera una comparación entre el correo electrónico interceptado y los datos del mensaje del correo electrónico en la base de datos de CORREO NO DESEADO. El resultado de la comparación puede incluir una de tres indicaciones: CORREO NO DESEADO, limpio, y dudoso. Se consigue este resultado al establecer un intervalo umbral para una puntuación de comparación.

RESUMEN DE LA INVENCIÓN

Un objetivo de la invención es proporcionar un procedimiento y un sistema mejorados para evitar el correo no deseado que emplean una cuarentena de los mensajes.

Se logra este objetivo por medio de la presente invención según se reivindica en las reivindicaciones independientes.

Las realizaciones preferentes están definidas por medio de las reivindicaciones dependientes.

A continuación se presenta un resumen simplificado de la invención para proporcionar una comprensión básica de algunos aspectos de la invención. Este resumen no es una visión general extensiva de la invención. No se pretende que identifique elementos clave/críticos de la invención ni delimite el alcance de la invención. Su único fin es presentar algunos conceptos de la invención de forma simplificada como un preludio a la descripción más detallada que se presenta más adelante.

La presente invención proporciona un sistema de cuarentena inteligente y un procedimiento que facilita la clasificación de elementos en conexión con la evitación de correo no deseado. Más específicamente, la invención clasifica o señala mensajes como sospechosos y/o retrasa temporalmente su clasificación (bien como correo no deseado o como aceptable). El filtro y/o el sistema pueden establecer un retraso o un periodo de cuarentena que proporciona una cantidad adecuada de tiempo para aprender más información acerca del o de los mensajes y/o acerca del remitente.

Según un aspecto de la invención, se puede obtener la información de uno o más componentes del sistema que pueden ser configurados para monitorizar las actividades y/o el comportamiento, tal como el volumen de mensajes (por ejemplo, el volumen de mensajes por remitente). Por ejemplo, es menos probable que los mensajes enviados con un volumen pequeño sean correo no deseado. De forma similar, es más probable que los mensajes enviados con un volumen elevado sean correo no deseado.

Según otro aspecto de la invención, se puede analizar el contenido de los mensajes para determinar si se parece sustancialmente a un mensaje que se encuentra en un servidor trampa. Recuérdese que un servidor trampa hace referencia a un objetivo conocido del correo no deseado para identificar mensajes entrantes como correo no deseado y/o para hacer un seguimiento de un procesamiento de dirección del mensaje de un comerciante específico. En general, un servidor trampa es una dirección de correo electrónico en la que se puede determinar un conjunto de mensajes legítimos y se pueden considerar correo no deseado todos los otros mensajes. Por ejemplo, se puede dar a conocer la dirección de correo electrónico en una página Web de forma restrictiva que no es probable que sea encontrada por personas. Por lo tanto, cualquier mensaje enviado a esta dirección de correo puede ser considerado correo no deseado. De forma alternativa, la dirección de correo electrónico puede haber sido dada a conocer únicamente a un comerciante del que se espera recibir mensajes legítimos. Por lo tanto, los mensajes recibidos del comerciante son legítimos, pero todos los demás mensajes recibidos pueden ser considerados sin temor a equivocarse correo no deseado. Los datos de correo no deseado derivados de servidores trampa y/u otras fuentes (por ejemplo, usuarios) pueden estar integrados en el sistema de bucle de información de retorno, pero debido al aumento sustancial en la clasificación de correos no deseados con servidores trampa, se puede dar menos valor a tales datos para mitigar la obtención de resultados sesgados de la información de retorno.

Según otro aspecto de la invención, se puede analizar el contenido del mensaje para determinar si se parece sustancialmente a mensajes que han recibido una información de retorno por medio de otros procedimientos, incluyendo: haber sido marcado como “esto es basura” por un usuario; haber sido marcados como “esto no es basura” por un usuario; haber sido categorizados por un usuario del bucle de información de retorno (véase Feedback Loop for Spam Prevention, ya referido supra); haber sido categorizados por un desarrollo de la tecnología de bucle de información de retorno en algún otro entorno (por ejemplo, en el servidor Y en vez de en el servicio J de correo electrónico); al compararlo con otros repositorios de correo no deseado.

Según otro aspecto adicional de la invención, se puede combinar la cuarentena con técnicas basadas en un algoritmo de identificación parcial. En un caso, se pueden identificar los mensajes mediante algoritmo de identificación parcial para ayudar a averiguar si los mensajes en cuarentena son similares a cualquier otro mensaje (que haya estado anteriormente en cuarentena) que haya sido clasificado posteriormente como aceptable o como correo no deseado y sacarlos de la cuarentena. Normalmente, los remitentes de correo no deseado envían correo a muchos miles o millones de usuarios. A veces, los mensajes son idénticos, casi idénticos o pueden ser identificados como que son de un tipo. Por lo tanto, interceptar mensajes que son similares entre sí puede facilitar su clasificación. Sin embargo, si no existen mensajes similares (o solo existen unos pocos) en los servidores trampa, en el bucle de información de retorno, o de los que se han quejado los usuarios, entonces es probable que el mensaje se dirija a un destinatario o a un grupo de destinatarios en particular, y, por lo tanto, lo más probable es que el remitente no sea un remitente de correo no deseado.

Los mensajes en cuarentena pueden ser almacenados en una carpeta especial identificada como “Cuarentena”, “Basura”, o “Potencialmente basura”, y similares que puede ser o bien visible o bien no visible para el usuario. Los mensajes enviados a la carpeta de cuarentena pueden estar seleccionados del bucle de información de retorno, sean o no visibles normalmente los mensajes de cuarentena para el usuario. Es decir, al igual que los mensajes borrados, puestos en la carpeta de basura, o puestos en el buzón de entrada, se pueden seleccionar los mensajes enviados a la carpeta de cuarentena para una clasificación por parte del usuario. Recuérdese, que el bucle de información de retorno es un mecanismo de encuesta que implica pedir a los usuarios a clasificar al menos un subconjunto de mensajes como correo no deseado o aceptable para facilitar la detección de correo no deseado y crear filtros de correo no deseado más robustos. Según se emplea en la presente invención, se puede utilizar el bucle de información de retorno para encuestar a los usuarios acerca de un muestreo aleatorio de mensajes en cuarentena. Por ejemplo, se puede permitir que pase al menos un subconjunto de mensajes en cuarentena a sus destinatarios respectivos (por ejemplo, usuarios) que participan en el bucle de información de retorno para una clasificación por parte del usuario.

Como una alternativa al bucle de información de retorno, o además del mismo, la carpeta de cuarentena puede ser visible para los destinatarios de los mensajes (por ejemplo, al menos un subconjunto de los mismos) para darles una oportunidad de clasificar al menos un subconjunto de mensajes retenidos en la carpeta especial. Sin embargo, en este caso los destinatarios pueden ser participantes o no del bucle de información de retorno. Pueden tener la capacidad de notificar dichos mensajes como aceptables o como basura. Tales caracterizaciones pueden llevarse a cabo al pinchar sobre uno o más botones tales como un botón de “notificación de basura” para indicar que el mensaje es un correo no deseado o un botón de “aceptable” o de “rescatar el mensaje” para indicar que el mensaje es legítimo. Por lo tanto, los datos del usuario, bien a través del bucle de información de retorno o bien a través de los procedimientos de notificación de basura/aceptable, con respecto a al menos una selección limitada de mensajes en cuarentena puede facilitar la determinación de si un mensaje particular en cuarentena es correo no deseado.

Se debe apreciar que, a diferencia de los sistemas de rescate que clasifican los mensajes dudosos como correo no deseado y luego permiten a los usuarios que los rescaten antes de ser borrados, la presente invención retrasa la clasificación (como correo no deseado o lo contrario) y permite que algunos usuarios proporcionen sus opiniones acerca de mensajes particulares para facilitar una clasificación subsiguiente. Además, se pueden utilizar las quejas de los usuarios, tales como las presentadas por los participantes en el bucle de información de retorno y/o de los destinatarios de mensajes no solicitados para facilitar la determinación de si al menos algunos de los mensajes en cuarentena son correo no deseado. También se puede hacer notar y emplear la ausencia de quejas de los usuarios para ayudar a determinar si mensajes particulares son correo no deseado.

Como alternativa a la cuarentena de mensajes, se puede permitir que salgan poco a poco o que pasen a través del filtro al menos un subconjunto de mensajes dudosos o sospechosos sin una cuarentena o una clasificación explícita por parte del usuario (por ejemplo, solicitudes de información de retorno, encuestas, y similares). En cambio, se puede monitorizar u observar el comportamiento del usuario/destinatario con respecto a estos mensajes. La cantidad de mensajes que se permite que salgan poco a poco puede ser un número fijo de mensajes por remitente (por ejemplo, los primeros 1000) o un porcentaje fijo de mensajes, como por remitente. Se puede proporcionar a los destinatarios de estos mensajes una oportunidad implícita para caracterizar el o los mensajes como correo no deseado o lo contrario. Se puede emplear el comportamiento del usuario con respecto a estos mensajes para actualizar el o los filtros.

En otro aspecto adicional de la invención, los sistemas de aprendizaje automático (por ejemplo, redes neurales, Máquinas de soporte vectorial (SVM), Redes de creencia de Bayes) facilitan la creación de filtros mejorados y/o actualizados de correo no deseado que están entrenados para identificar tanto mensajes legítimo como de correo no deseado y además, para distinguir entre ellos. Una vez se ha entrenado a un filtro nuevo o actualizado de correo no deseado según la invención, puede ser distribuido a los servidores de correo y a los programas informáticos cliente de correo electrónico. Además, se puede entrenar al filtro nuevo o actualizado de correo no deseado con respecto a las clasificaciones y/u otra información proporcionada por usuarios particulares para mejorar el rendimiento de un filtro o filtros personalizados. Según se construyen conjuntos de datos adicionales de entrenamiento, el filtro de correo no deseado puede pasar por un entrenamiento adicional por medio de un aprendizaje automático para optimizar su rendimiento y precisión. También se puede utilizar la información de retorno de los usuarios por medio de una clasificación de mensajes para generar listas para filtros de correo no deseado y controles parentales, para comprobar el rendimiento del filtro de correo no deseado, y/o para identificar el origen del correo no deseado.

Además, también se pueden utilizar los datos de entrenamiento según son generados en parte por los usuarios al igual que por análisis del sistema para crear nuevos subfiltros (más pequeños que un filtro de tamaño completo entrenados acerca de una pluralidad de características de mensajes aceptables, de correo no deseado y sospechosos) que pueden aplicarse específicamente a mensajes puestos recientemente en cuarentena. Los nuevos subfiltros pueden ser entrenados acerca de una o más características particulares (un subconjunto de características) extraídas de los mensajes puestos recientemente en cuarentena. Por ejemplo, se puede entrenar un subfiltro solamente en cuanto a características de la dirección IP.

En cuanto se obtiene la información y/o cuando ha transcurrido el periodo de cuarentena, se pueden actualizar uno o más filtros (de correo no deseado) para facilitar la clasificación apropiada de los mensajes en cuarentena. Obsérvese que esto no significa que se deba actualizar el filtro cada vez que un mensaje está listo para salir de la cuarentena (aunque puede hacer cuando sea práctico). La presente invención puede seleccionar en cambio tiempos de cuarentena para estar sincronizados con los horarios preestablecidos de actualización del filtro, de forma que los grupos de mensajes estén listos para salir de la cuarentena inmediatamente después de que se produzca una actualización del filtro (y sea clasificado o reclasificado, por lo tanto, con la información actualizada). Esta programación se puede llevar a cabo de forma implícita (por ejemplo, hay programado que llegue un nuevo filtro a la 13:00, por lo que se ponen en cuarentena los mensajes hasta las 13:01) o de forma explícita (por ejemplo, se ponen en cuarentena los mensajes “hasta que llegue un nuevo filtro”, sea cuando sea). Por lo tanto, se pueden volver a pasar estos mensajes sospechosos a través del o de los filtros actualizados y clasificar bien como correo no deseado o lo contrario. Por ejemplo, se puede clasificar un mensaje retrasado como “aceptable” basado en parte en una escasez de nueva información negativa. Asimismo, se puede clasificar un mensaje retrasado como aceptable en base a nueva información positiva.

Además, se puede utilizar la información del usuario reunida y/o de información de retorno del sistema para actualizar el o los filtros ya en uso. Como resultado, se pueden procesar o enviar los mensajes retrasados a través del o de los filtros de nuevo para ser clasificados. Además, se pueden entrenar nuevos filtros para su aplicación a mensajes entrantes subsiguientes sometidos a una cuarentena.

Cuando se determina que los mensajes son correo no deseado durante la cuarentena o el periodo de retraso, pueden ser borrados directamente de la carpeta especial (por ejemplo, la carpeta de cuarentena) y/o ser movidos a otra carpeta (por ejemplo, la carpeta de basura) para ser desechados. De lo contrario, se pueden marcar los mensajes clasificados con un sello de tiempo como aceptables con sus fechas respectivas de liberación (fecha de liberación de la cuarentena) y son entregados a sus destinatarios previstos. Por lo tanto, estos mensajes pueden tener dos sellos de tiempo: uno primero que indica la fecha de llegada original y uno segundo que indica la liberación de la cuarentena. La fecha de liberación de la cuarentena puede ser la Fecha: campo de la cabecera, garantizando, por lo tanto, que el software del cliente organiza estos mensajes de forma apropiada, donde serán vistos. (En particular, si se retrasa sustancialmente un mensaje, y luego aparece en su orden habitual, puede aparecer en una sección de un buzón de entrada ordenado por fecha en la que es poco probable que sea visto por el usuario. La marcación de una nueva fecha ayuda a asegurar que el mensaje será visible para el usuario).

Para el logro de los anteriores fines y de los relacionados, se describen en el presente documento ciertos aspectos ilustrativos de la invención en conexión con la siguiente descripción y los dibujos adjuntos. Sin embargo, estos aspectos son indicativos únicamente de algunas de las diversas formas en las que se pueden emplear los principios de la invención y se pretende que la presente invención incluya todos los aspectos de ese tipo y sus equivalentes. Pueden ser evidentes otras ventajas y características novedosas de la invención a partir de la siguiente descripción detallada de la invención cuando se considera en conjunto con los dibujos.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La Fig. 1 es un diagrama de bloques de un sistema de cuarentena inteligente que utiliza “información de retorno” en conexión con un sistema de entrenamiento de bucle de información de retorno para aprender más acerca de mensajes en cuarentena según un aspecto de la presente invención. La Fig. 2 es un diagrama de bloques de un sistema de cuarentena inteligente que facilita la obtención de más información acerca de mensajes sospechosos para actualizar los filtros de correo no deseado y para clasificar mensajes sospechosos como correo no deseado o lo contrario según un aspecto de la presente invención. La Fig. 3 es un diagrama esquemático de flujo de clasificaciones ejemplares de mensajes entrantes en parte por medio de filtros establecidos y en parte por filtros actualizados según un aspecto de la presente invención. La Fig. 4 es un diagrama esquemático de casos ejemplares que facilitan la determinación de ocasiones apropiadas para considerar mensajes como sospechosos para fines de cuarentena según un aspecto de la presente invención. La Fig. 5 es una ilustración esquemática de comunicaciones entre cliente y servidor en conexión con la implementación de un sistema de cuarentena en al menos un servidor según un aspecto de la presente invención. La Fig. 6 es un diagrama de bloques de un mensaje que avanza a través de un procedimiento ejemplar de cuarentena según un aspecto de la presente invención. La Fig. 7 es un diagrama de flujo de un procedimiento ejemplar que facilita la clasificación de mensajes cuando hay disponible suficiente información y la cuarentena de mensajes que carece de suficiente información para una clasificación según un aspecto de la presente invención. La Fig. 8 es un diagrama de flujo de un procedimiento ejemplar que facilita la recopilación de más información acerca de un mensaje o del remitente de un mensaje durante un periodo de cuarentena según un aspecto de la presente invención. La Fig. 9 es un diagrama de flujo de un procedimiento ejemplar que facilita la recopilación de más información acerca de un mensaje o del remitente de un mensaje durante un periodo de cuarentena según un aspecto de la presente invención. La Fig. 10 es un diagrama de flujo de un procedimiento ejemplar que facilita la recopilación de más información acerca de un mensaje o del remitente de un mensaje durante un periodo de cuarentena según un aspecto de la presente invención. La Fig. 11 es un diagrama esquemático de bloques de un entorno ejemplar de comunicaciones según la presente invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

Se describe ahora la presente invención con referencia a los dibujos, en los que se utilizan números similares de referencia para hacer referencia a elementos similares de principio a fin. En la siguiente descripción, con fines explicativos, se exponen numerosos detalles específicos para proporcionar una comprensión profunda de la presente invención. Sin embargo, puede ser evidente que se puede poner en práctica la presente invención sin estos detalles específicos. En otros casos, se muestran estructuras y dispositivos bien conocidos en forma de diagrama de bloques para facilitar la descripción de la presente invención.

Según se utiliza en la presente solicitud, se pretende que los términos “componente” y “sistema” hagan referencia a una entidad relacionada con ordenadores, bien hardware, bien una combinación de hardware y software, bien software, o bien software en ejecución. Por ejemplo, un componente puede ser, pero no está limitado a ser, un proceso que corre en un procesador, un procesador, un objeto, un ejecutable, un hilo de ejecución, un programa y/o un ordenador. A modo de ilustración, puede ser un componente tanto una aplicación que corre en un servidor como el servidor. Pueden residir uno o más componentes dentro de un proceso y/o un hilo de ejecución y se puede localizar un componente en un ordenador y/o puede estar distribuido entre dos o más ordenadores.

La presente invención puede incorporar diversos modelos de inferencia de y/o técnicas en conexión con la generación de datos de entrenamiento para un filtrado de aprendizaje automático de correo no deseado. Según se utiliza en el presente documento, el término “inferencia” hace referencia en general al proceso de razonamiento en torno al sistema o a estados de inferencia del mismo, el entorno, y/o el usuario de un conjunto de observaciones según son capturadas por medio de eventos y/o datos. Se puede emplear la inferencia para identificar una acción o un contexto específico, o puede generar una distribución de probabilidades con respecto a estados, por ejemplo. La inferencia puede ser probabilístico, es decir, el cálculo de una distribución de probabilidades con respecto a estados de interés en base a una consideración de datos y eventos. Inferencia también puede hacer referencia a técnicas empleadas para componer eventos de mayor nivel a partir de un conjunto de eventos y/o datos. Tal inferencia tiene como resultado la construcción de nuevos eventos o acciones a partir de un conjunto de eventos observados y/o datos almacenados de eventos, se correlacionen o no los eventos en estrecha proximidad temporal, y sean o no los eventos y los datos de una o varias fuentes de eventos y de datos.

Se debe apreciar que aunque se emplea el término mensaje muy a menudo en toda la memoria, tal término no está limitado a correo electrónico per se, sino que puede adaptarse de forma adecuada para incluir mensajería electrónica de cualquier forma que pueda ser distribuido por cualquier arquitectura adecuada de comunicaciones. Por ejemplo, las aplicaciones de conferencia que facilitan una conferencia o conversación entre dos o más personas (por ejemplo, programas interactivos de charla, y programas de mensajería instantánea) también pueden utilizar los beneficios de filtrado dados a conocer en el presente documento, dado que se puede intercalar electrónicamente el texto no deseado en mensajes normales de charla según los usuarios intercambian mensajes y/o se puede insertar como un mensaje de despedida, un mensaje de cierre, o todos los anteriores. En la presente aplicación, se puede entrenar un filtro para filtrar automáticamente un contenido particular de mensajes (texto e imágenes) para capturar y marcar como basura el contenido no deseable (por ejemplo, publicidad, promociones o anuncios).

En la presente invención, el término “destinatario” hace referencia a un receptor de un mensaje entrante. El término “usuario” hace referencia a un destinatario que ha escogido, bien de forma pasiva o bien de forma activa, o ha sido seleccionado indirectamente para participar en los sistemas y procedimientos de bucle de información de retorno según se describen en el presente documento.

La presente invención implica sistemas y procedimientos que facilitan una cuarentena inteligente de artículos o mensajes entrantes. La cuarentena inteligente hace referencia a retener algunos mensajes que se sospecha que son correo no deseado. Esto puede dar más tiempo para que se actualice un filtro y llegue a una clasificación más precisa para estos mensajes. En la práctica, considérese el siguiente escenario sin una cuarentena: un remitente de correo no deseado encuentra un mensaje que atraviesa el filtro actual. Lo envía a

10.000.000 de personas tan rápido como puede, antes de que un sistema de mensajes pueda obtener una actualización del filtro. Los 10.000.000 de personas reciben correo no deseado (en sus buzones de entrada). Considérese ahora el mismo escenario con una cuarentena: un remitente de correo no deseado encuentra un mensaje que no es interceptado actualmente ni clasificado como correo no deseado; sin embargo el mensaje es extraño de alguna forma, haciendo que sea sospechoso para el sistema. Envía este mensaje a 10.000.000 de personas tan rápido como puede antes de que se actualice el filtro. Dado que los mensajes del remitente de correo no deseado son sospechosos y no hay disponible suficiente información para que el filtro lo clasifique fácilmente como correo no deseado o lo contrario, pueden ser puestos en cuarentena como se describe a continuación en la presente invención.

Con referencia ahora a la Fig. 1, se ilustra un diagrama general de bloques de un sistema 100 de cuarentena que implementa un sistema de bucle de información de retorno según un aspecto de la presente invención. Un componente 110 de recepción de mensajes recibe y entrega mensajes entrantes (indicados como IM) a destinatarios previstos 120. El componente de recepción de mensajes puede incluir u operar con al menos un filtro 130 (por ejemplo, un primer componente de clasificación), según es habitual con muchos componentes de recepción de mensajes para mitigar la entrega de mensajes no deseados (por ejemplo, correo basura). El componente 110 de recepción de mensajes en relación con el filtro 130 procesa los mensajes (IM) y proporciona un subconjunto filtrado de los mensajes (indicados como IM FILTRADOS) a los destinatarios previstos 120.

Se debería apreciar que se pueden haber entrenado el o los filtros 130 utilizando un sistema de bucle de información de retorno. En particular, se entrena previamente al o a los filtros 130 para identificar no solamente correo no deseado, sino también para distinguir entre correo no deseado y correo aceptable en base al menos en parte a la información de retorno de confianza de los usuarios. Los sistemas de aprendizaje automático facilitan el entrenamiento de tales filtros 130 al utilizar datos de entrenamiento que comprenden información de retorno de usuarios tanto acerca de mensajes aceptables como acerca de correo no deseado.

Cuando el o los filtros 130 tienen suficiente información acerca de un mensaje entrante, los filtros 130 pueden puntuar con más precisión el mensaje y clasificarlo bien como correo no deseado o bien como lo contrario (por ejemplo, aceptable). Por lo tanto, para el subconjunto de mensajes (IM FILTRADOS) que es entregado a sus destinatarios previstos 120, se puede concluir que los filtros 130 comprenden una cantidad suficiente de información para determinar que los mensajes fueron aceptables. Asimismo, se puede identificar otro subconjunto de mensajes entrantes como correo no deseado y puede ser desechado (no mostrado) de forma apropiada.

Por desgracia, los remitentes de correo no deseado, e incluso remitentes legítimos en un menor grado, tienden a cambiar alguna porción de su información de remitente más frecuentemente que otros. Por ejemplo, los remitentes de correo no deseado tienen una mayor tendencia a disfrazar o modificar muchos aspectos de sus mensajes tal como la dirección IP, el nombre del dominio, y el contenido del mensaje en un intento de engañar o soslayar filtros de correo no deseado. En cambio, algunos remitentes legítimos cambian su dirección IP por razones logísticas. Por ejemplo, es sabido que The New York Times cambia su dirección IP de vez en cuando debido a la adición de nuevos servidores que son necesarios para acomodar un mayor número de abonados en línea. Debido a estos tipos de cambios en al menos un subconjunto de mensajes entrantes, puede que los filtros 130 no tengan suficiente información acerca de los mensajes para determinar de forma precisa una puntuación de probabilidad de correo no deseado (por ejemplo, la probabilidad de que el mensaje sea correo no deseado). Como resultado, no se pueden clasificar de forma precisa los mensajes debido a una falta de información.

A diferencia de los sistemas convencionales de evitación de correo no deseado, los mensajes que tienen una falta de información para su clasificación pueden ser retenidos o puestos en cuarentena (señalados para un análisis adicional) en la presente invención, mientras que se recopila más información acerca de los mismos. Se pueden mover los mensajes en cuarentena a un almacén 140 de mensajes retrasados durante un periodo de tiempo (por ejemplo, un periodo de retraso o de cuarentena) hasta que se puedan actualizar los filtros 130 con cualquier información recopilada durante el periodo de cuarentena. El almacén de mensaje retrasado puede ser el mismo que algún otro almacén, por ejemplo, la carpeta de basura, o colas en un servidor. Los mensajes en cuarentena en este almacén pueden estar marcados de forma especial, o se pueden volver a puntuar periódicamente todos los mensajes en esta carpeta o cola como si estuviesen en cuarentena.

Se pueden obtener varios tipos de información. Un tipo es un componente de salida controlada. La información de retorno de los usuarios acerca de mensajes en cuarentena puede suponer emplear un mecanismo de salida controlada en el que se permite “salir poco a poco” al menos a un subconjunto de los mensajes en cuarentena fuera de cuarentena o saltarse el procedimiento de clasificación del filtro para ser entregados a sus destinatarios previstos. Los mensajes que salen poco a poco pueden ser seleccionados basándose en parte en el hecho de que el destinatario previsto (por ejemplo, un usuario 150 aleatorio o seleccionado) es un participante en el sistema de bucle de información de retorno para entrenar filtros de correo no deseado. De forma alternativa, o además, se pueden seleccionar de forma aleatoria los mensajes que salen poco a poco.

Otra forma de datos es el bucle de información de retorno. El componente 170 del bucle de información de retorno selecciona una porción del correo, esté o no en cuarentena, borrado, etc., para una información adicional de retorno por parte de los usuarios (por ejemplo, destinatarios que participan en el bucle de información de retorno). El componente 170 del bucle de información de retorno da datos a un componente 160 de actualización del filtro que facilita construir y/o actualizar filtros. Como se describe en Feedback Loop for Spam Prevention, citado supra, se puede preguntar explícitamente a los usuarios acerca de estos mensajes.

Otra forma adicional de datos puede provenir de servidores trampa 180 (por ejemplo, un componente del servidor trampa). Cuando llegan mensajes al componente 110 de recepción de mensajes, algunos mensajes pueden fluir al componente 180 del servidor trampa. En general, los mensajes hallados en servidores trampa pueden ser normalmente correo no deseado. Por lo tanto, se puede reunir información que identifica estos mensajes puede para un uso posterior por parte del componente 160 de actualización de filtro cuando se actualizan o se construyen filtros.

Los datos también pueden provenir de otras fuentes 185, incluyendo “esto es basura”, “esto no es basura”, o de la tecnología de bucle de información de retorno utilizada en nuevos entornos, o de otras fuentes.

Se puede recopilar la información de retorno de los usuarios por medio del componente 160 de actualización de filtro y se emplea luego para actualizar el o los filtros 130. Se debe apreciar que el periodo de cuarentena puede tener una duración fija. Por ejemplo, puede ser fijada de forma automático o manual para cualquier duración de tiempo, tal como 1 hora, 6 horas, o 24 horas. Esto significa que se puede recopilar la información 1 hora, 6 horas o hasta 24 horas o más después de que se mueva el mensaje al almacén 140 de mensajes retrasados. En algunos casos, una escasez de quejas de los usuarios acerca de los mensajes que salen poco a poco puede indicar que es más probable que los mensajes (por ejemplo, bien copias múltiples del mismo mensaje o bien muchos mensajes distintos por remitente) sean legítimos y menos probable que sean correo no deseado.

Además de la información de retorno de los usuarios, también se puede reunir información por medio de un componente 190 de análisis de mensajes que está conectado de forma operativa al almacén 140 de mensajes retrasados. El componente 190 de análisis de mensajes puede monitorizar mensajes en cuarentena con respecto al volumen por remitente y a los parecidos entre los mensajes en cuarentena y puede analizarlos también en cuanto a sus contenidos y/o información de origen. Por ejemplo, es menos probable que los mensajes enviados en un volumen bajo (por ejemplo, menos de 20 por hora, menos de 50 por hora, menos de 1.000 por hora, etc.) sean correo no deseado que los mensajes enviados en gran volumen (por ejemplo, 10.000 por hora, 100.000 por hora, etc.), que es más representativo de un comportamiento de un remitente de correo no deseado. Por lo tanto, la información de que un remitente particular está enviando un número pequeño de mensajes puede ser una característica aprendida en cuanto al usuario y empleada para actualizar los filtros 130, de forma que en el futuro, no se consideren sospechosos los mensajes del remitente, sino que se clasifiquen como aceptables.

Además, se puede calcular una función de identificación parcial con respecto a al menos un subconjunto de mensajes en cuarentena para determinar el parecido entre los mensajes, tal como por remitente. Por ejemplo, se pueden comparar los mensajes en cuarentena con otros mensajes recientes en base al contenido o en base al remitente. Si otros mensajes recientes con el mismo algoritmo de identificación parcial, o similar, o del mismo usuario, o similar, fuesen denunciados como basura por los usuarios, clasificados como basura en el bucle de información de retorno, o llegasen a servidores trampa, se podría clasificar el mensaje como correo no deseado. Si se marcasen mensajes similares como aceptables, o se rescatasen de una carpeta de cuarentena o de basura, o se clasificasen como aceptables en el bucle de información de retorno, se podría clasificar el mensaje como aceptable. Si alcanzasen muchos mensajes similares el componente de recepción de mensajes, entonces el volumen de dichos mensajes podría ser un indicador de que los mensajes son correo no deseado. Si fuesen entregados muchos mensajes similares a los buzones de entrada de usuarios (por ejemplo, mediante salida controlada), y ninguno o pocos fuesen marcados como basura por parte de los usuarios, esto puede ser tomado como un indicador de que los mensajes eran aceptables. Si no se reciben mensajes similares en los servidores trampa, se puede tomar esto como un indicador de que el mensaje era aceptable.

Cuando ha finalizado el periodo de cuarentena, se pueden actualizar los filtros 130 en consecuencia (por ejemplo, se puede denotar un filtro actualizado como un segundo componente de clasificación) y se pueden volver a filtrar los mensajes en cuarentena para una clasificación bien de correo no deseado o bien aceptable. Las actualizaciones de filtros en base al menos en parte a datos de entrenamiento generados a partir de información de retorno acerca de mensajes en cuarentena puede producirse frecuentemente según lo determina el usuario (por ejemplo, para un filtro personal), el cliente y/o el servidor. También se puede establecer que las actualizaciones de los filtros coincidan con la duración de los periodos de cuarentena y viceversa.

Con referencia ahora a la Fig. 2, se ilustra un diagrama de bloques de un sistema 200 de cuarentena que facilita la clasificación de mensajes. El sistema 200 comprende uno o más filtros 210 de mensajes por los que se procesan los nuevos mensajes para una clasificación de correo no deseado o aceptable. Los mensajes que no cumplen los requisitos definitivamente ni como correo no deseado ni como aceptable, tal como mediante un análisis de umbral, pueden ser vistos como sospechosos y ser movidos a una carpeta especial 220 de cuarentena hasta que se puedan proporcionar datos adicionales acerca del mensaje o del remitente del mensaje al o a los filtros 210. Esto es diametralmente opuesto a los sistemas de rescate de mensajes. A diferencia de la presente invención, los sistemas que llevan a cabo un rescate de mensajes clasifican los mensajes dudosos como correo no deseado y los mueven a una carpeta de correo no deseado. Dichos mensajes de “correo no deseado” son rescatados posteriormente porque alguien clasifica un mensaje muy similar como aceptable. En la presente invención, los mensajes pueden ser considerados “sospechosos” y se retrasa temporalmente la clasificación como correo no deseado o como aceptable para dar tiempo para aprender más acerca de los mismos.

Una técnica de aprendizaje que puede ser empleada supone recibir datos adicionales 230 acerca de los mensajes sospechosos. En algunas circunstancias, se pueden liberar (hacerlos salir poco a poco) algunos mensajes sospechosos a sus destinatarios previstos. De forma alternativa, se puede utilizar el bucle de información de retorno para muestrear algunos mensajes. De forma alternativa, se pueden entregar algunos datos a los servidores trampa. De forma alternativa, los datos pueden provenir de una notificación de “esto es basura”; de una notificación de “esto no es basura”; o de la tecnología de bucle de información de retorno utilizada en nuevos entornos; o de otras fuentes.

En otras circunstancias, los usuarios pueden tener acceso a sus carpetas de cuarentena de mensajes. Cuando esto ocurre, los usuarios pueden proporcionar información de retorno acerca de al menos un subconjunto de los mensajes en cuarentena. Entonces, se les puede dar un tratamiento similar a los mensajes similares, posibilitando que los usuarios no necesiten ofrecer información de retorno acerca de todos los mensajes en cuarentena. Esto puede ser relativamente importante dado que se pueden poner en cuarentena varios miles de mensajes, por lo que se ha retrasado temporalmente su clasificación como correo no deseado o como aceptable.

La información de retorno puede tener forma de comentarios positivos o negativos de los usuarios que tuvieron algún acceso a los mensajes particulares. Por ejemplo, los comentarios positivos pueden comprender “declaraciones” afirmativas de que un mensaje es aceptable. Además, los comentarios positivos pueden comprender una ausencia de nuevos comentarios negativos y/o una ausencia de nuevas quejas acerca de información similar.

También se puede recoger información de retorno del sistema acerca de los mensajes en cuarentena. Esto puede incluir datos recopilados de la monitorización de al menos un subconjunto de mensajes en la carpeta 220 de cuarentena en busca de características tales como volumen (volumen bajo o alto de mensajes), parecido del mensaje a otros mensajes en cuarentena, y/o parecido del mensaje al mensaje del servidor trampa. Esta información, junto con cualquier información de retorno disponible de los usuarios, puede ser utilizada por un componente 240 de actualización del filtro como características respectivas (o datos de entrenamiento) para entrenar y actualizar el o los filtros 210. A partir de ello, se pueden generar filtros actualizados 250. Se pueden hacer pasar a los mensajes en cuarentena, en parte sustancial, por los filtros actualizados 250 para reanudar el procedimiento de clasificación. Por lo tanto, se puede borrar permanentemente el correo no deseado, una vez clasificado, de la carpeta de cuarentena o puede ser enviado a un cubo 260 de basura para ser borrado. Un primer componente 270 de entrega puede liberar los mensajes “aceptables” de la cuarentena para ser entregados a sus destinatarios previstos. Si la carpeta de cuarentena no es también la carpeta de la basura, se pueden colocar los mensajes en cuarentena en la carpeta de basura por medio de un segundo componente 280 de entrega. Si la carpeta de cuarentena es la carpeta de basura, se les puede retirar a los mensajes en cuarentena una bandera especial “de cuarentena”.

La Fig. 3 demuestra otra vista de las ventajas asociadas con un sistema 300 de cuarentena según un aspecto de la invención. En particular, la vista ilustra de forma esquemática un recorrido particular que puede tomar un nuevo mensaje entrante. El mensaje se procesa inicialmente a través de un filtro 310. El filtro ha sido entrenado para distinguir entre mensajes aceptables 320 y de correo no deseado 330 al calcular puntuaciones de probabilidad, por ejemplo. Sin embargo, algunos mensajes pueden encontrarse en el límite de ser clasificado decisivamente como correo no deseado o como aceptable. Estos pueden ser mensajes sospechosos 340. Una razón de esto es que el filtro puede no tener información acerca del mensaje simplemente porque el mensaje incluye aspectos o características que no ha visto antes o que no reconoce. Para estos mensajes particulares, la clasificación como correo no deseado 330 o aceptable 320 se aplaza durante un periodo de tiempo (350). Este periodo de tiempo permite que el filtro aprenda más información (360) acerca del mensaje antes de decidirse por a una clasificación de correo no deseado o de aceptable. Como resultado, se pueden reducir las tasas de error de clasificación y se puede aumentar la satisfacción del usuario dado que se pueden clasificar de forma arbitraria mensajes “aceptables” no vistos antes como “correo no deseado” simplemente debido a un filtro ignorante o a un filtro que no tiene la información apropiada.

Se puede actualizar el filtro (370) y puede reanudar la clasificación del mensaje bien como aceptable 380 o como correo no deseado 390. Se debería apreciar que el periodo de tiempo debería ser lo suficientemente prolongado, de forma que se pueden obtener, y se obtienen, más datos para facilitar la clasificación de los mensajes en cuarentena bien como aceptables o bien como correo no deseado. En otras palabras, puede no seguir estando disponible una etiqueta de “sospechoso”, o puede no ser aplicable, a los mensajes en cuarentena una vez ha transcurrido el periodo de tiempo de cuarentena.

Con referencia ahora a la Fig. 4, hay una ilustración esquemática 400 de casos ejemplares que puede tener como resultado un retraso temporal de la clasificación y de la cuarentena de los mensajes. Cuando llegan inicialmente los mensajes a un componente de recepción de mensajes (por ejemplo, Fig. 1, 110), pueden ser evaluados por uno o más filtros y luego ser puntuados. La puntuación de probabilidad hace referencia a la probabilidad de que un mensaje particular es correo no deseado. Se puede comparar esta puntuación con un umbral, tal como un umbral de borrado y un umbral de cambio de carpeta.

Se pueden considerar los mensajes que satisfacen o superan el umbral de borrado como correo no deseado o como al menos más similar a un remitente de correo no deseado. Dado que una puntuación perfecta de probabilidad de 0 = mensajes aceptables y una puntuación perfecta de 1 = correo no deseado o mensajes basura, se puede determinar que las puntuaciones calculadas entre 0 y hasta aproximadamente 0,8 reflejan mensajes aceptables (o mensajes que es muy probable que sean aceptables como para arriesgarse a ponerlos en la carpeta de basura) (por lo tanto, son entregados), puntuaciones entre aproximadamente 0,8 y hasta aproximadamente 0,99 reflejan lo que es probable que sea basura (por lo tanto, pueden ser colocados en una carpeta de basura), y puntuaciones entre aproximadamente 0,99 y 1 reflejan basura o correo no deseado (por lo tanto, pueden ser borrados con una gran cantidad de seguridad). Se pueden seleccionar para una cuarentena los mensajes con puntuaciones en el límite, o cerca del mismo, bien de correo no deseado o bien de aceptable o un umbral para el que se ha definido alguna acción configurable. De lo contrario, puede producirse alguna otra acción configurable tal como marcar el mensaje de alguna forma especial o enviarlo a un administrador de mensajes para que investigue el mensaje.

Para algunos mensajes que podrían ser considerados dudosos quizás debido a una nueva dirección IP no vista antes por el filtro, la cuarentena puede ser útil o no. Es decir, algunos mensajes pueden estar cerca del límite porque su puntuación puede no cambiar mucho para llevar a una clasificación definitiva como correo no deseado o como aceptable después de que se haya aprendido más información acerca de los mismos. Por ejemplo, considérense los mensajes de remitentes ficticios Gran Periódico Aceptable, S.A., y Remitente de Correo No Deseado Fundamentalmente Maligno, S.A. Se les asigna a los mensajes de Gran Periódico Aceptable, S.A. un 25% de probabilidad (umbral) de ser correo no deseado, mientras que se les asigna a los mensajes de Remitente de Correo No Deseado Fundamentalmente Maligno,

S.A. un 80% de probabilidad. Estos porcentajes están basados en grandes cantidades de información o de datos de entrenamiento obtenidos anteriormente y utilizados para entrenar a los filtros (por medio de técnicas de aprendizaje automático). El Gran Periódico Aceptable, S.A., por lo visto, no quita el rebote de sus listas y, por lo tanto, aproximadamente un cuarto de los usuarios de los filtros marcan este mensaje como correo no deseado (por ejemplo, algunos usuarios se olvidan de que están suscritos y marcarlo como correo no deseado). Por lo tanto, el filtro da a sus mensajes aproximadamente un 25% de probabilidad de ser correo no deseado, que es lo suficientemente baja como para atravesar filtros, pero es potencialmente lo suficientemente alta como para ser puestos en cuarentena. Sin embargo, estos mensajes se encuentran constantemente en el nivel del 25%; y no hay necesidad de entregar a cada destinatario sus titulares de Gran Periódico Aceptable, S.A. un día o más tarde dado que el filtro espera para ver si se obtiene más información o para ver si mañana ha cambiado la puntuación de estos mensajes. De forma similar, los mensajes de Remitente de Correo No Deseado Fundamentalmente Maligno, S.A. son constantemente un 80% de correo no deseado día a día. Por lo tanto, en cualquiera de estas situaciones, la cuarentena puede no ser el enfoque óptimo o el más eficaz que puede adoptarse, dado que es menos probable que la información adicional cambie cualquiera de las clasificaciones.

Por lo tanto, si ya se conoce una cantidad relativamente grande de datos acerca de un mensaje, entonces un usuario o un sistema de filtros puede decidir no ponerlo en cuarentena, dado que es improbable que la información adicional tenga un efecto sobre un cambio en la clasificación. Una gran parte de la cantidad de datos puede hacer referencia a cualquier dato relacionado con la dirección IP, enlaces en el mensaje, el nombre de dominio del remitente (particularmente cuando está combinado con un mecanismo de detección de direcciones ilegítimas), palabras en el mensaje, y cualquier otra característica. Por lo tanto, para las características que están siendo analizadas, se puede determinar si el filtro ya tiene mucha información para estas características por remitente para facilitar tomar una decisión de si se pone en cuarentena o no.

Sin embargo, la distancia de un umbral no es la única respuesta para determinar cuándo se realiza la cuarentena. Más específicamente, se considera la dirección IP de un mensaje. Cuando la dirección IP no ha sido vista anteriormente, normalmente se puede poner en cuarentena, a no ser que el mensaje sea evidentemente correo no deseado o aceptable en base a otras características del mensaje. Si se recibe un mensaje que tiene una dirección IP que no ha sido vista antes, hay tres posibilidades:

•: es una dirección IP de bajo volumen (por ejemplo, quizás es el servidor de un pequeño negocio o un individuo y no es correo no deseado, o, como mínimo, es correo no deseado muy bien dirigido a sus receptores);

•: es una nueva dirección IP quizás para una empresa grande legítima según añaden más servidores (por ejemplo, The New York Times) —de nuevo, no es correo no deseado—; o

•: es una dirección IP de un remitente de correo no deseado.

Al esperar incluso unas pocas horas, el filtro puede distinguir probablemente entre estas tres posibilidades y obtener información muy valiosa. Para una dirección IP no conocida, puede ser deseable retrasar el mensaje (en cuarentena temporalmente) incluso si el mensaje se encuentra en un intervalo bastante amplio. Se puede gestionar el dominio del remitente de forma similar. Según se vuelve más común la tecnología de detección de direcciones ilegítimas, los mensajes pueden ser puestos en cuarentena también para establecer la veracidad en la identificación de los remitentes de ciertos mensajes dudosos. Además, si no hay ningún registro de dirección IP inversa para la dirección IP del remitente y/o una búsqueda directa del dominio IP del remitente no coincide al menos aproximadamente con la dirección IP del remitente, se puede poner en cuarentena el mensaje (430).

Otro indicador sustancial de correo no deseado es la presencia de dominios insertados, especialmente en los enlaces. Si un mensaje contiene un nombre de dominio que no se ha visto nunca antes, o se ha visto raras veces, puede ser considerado sospechoso. Al igual que con las direcciones IP, el retraso en la entrega de tales mensajes puede ser útil para clasificarlos de forma apropiada, bien como correo no deseado o bien como aceptable. Ciertos tipos de ficheros adjuntos (440) son particularmente sospechosos (por ejemplo, típico de virus) y se pueden poner en cuarentena mensajes que contienen tales extensiones (por ejemplo, ficheros ejecutables o ficheros de documentos con macros insertadas).

La cuarentena también puede ser capaz de detectar intentos de utilizar agujeros en el filtrado basado en palabras clave. Por ejemplo, si un remitente de correo no deseado descubre muchas palabras aceptables y añade estas palabras aceptables a su mensaje, pero aún son detectables algunas palabras inaceptables, se puede considerar el mensaje como sospechoso (aunque tiene una buena puntuación total). Se puede demorar la clasificación del mensaje durante unas horas, por ejemplo, y se pueden descubrir muchos mensajes de este tipo por medio del sistema de bucle de información de retorno. Después de ello, el filtro puede aprender que el mensaje de este tipo es en realidad inaceptable. Para combatir este tipo de táctica de un remitente de correo no deseado, se puede dar menos valor a las palabras que se pensó anteriormente que eran válidas y el filtro puede aprender que el origen del mensaje es inaceptable, etc. En otras palabras, cuando un mensaje parece ser de un tipo que es difícil para un filtro de aprendizaje automático porque incluye evidencias contradictorias, puede ser puesto en cuarentena. Además, se puede poner en cuarentena cualquier mensaje que parece ser difícil para cualquier tipo de filtro porque incluye HTML, que puede ser difícil de analizar, o que incluye principalmente una imagen. En general, se puede llevar a cabo una valoración de una pluralidad de características antes de que ser pueda determinar si se pone en cuarentena un mensaje.

En general, los usuarios individuales tienden a recibir mensajes de un número relativamente pequeño de ubicaciones y en un número pequeño de idiomas. Con respecto a los filtros personales, cuando un usuario recibe un mensaje de una ubicación de la que no reciben normalmente mensajes aceptables o en un idioma en el que no reciben normalmente mensajes aceptables, también se puede poner en cuarentena el mensaje. Se puede determinar la ubicación en parte en base a una ubicación geográfica, una dirección IP, información de asignación de la dirección IP, el código de país, en el nombre de dominio PROCEDENTE DE, y similares.

Con referencia ahora a la Fig. 5, se ilustra una arquitectura ejemplar 500 de comunicaciones de alto nivel entre al menos un servidor y al menos un cliente en la que se emplea una cuarentena al menos en el servidor, según la presente invención. En algunos casos, puede ser deseable indicar de alguna forma que los mensajes ya han sido puestos en cuarentena. Por ejemplo, si tanto los clientes como los servidores implementan una cuarentena, puede no ser deseable para los clientes poner los mensajes en cuarentena que ya han sido puestos en cuarentena en el servidor. De forma alternativa, el cliente puede reducir de forma apropiada el tiempo de cuarentena al restar la cantidad de tiempo durante el que estuvo en cuarentena el mensaje en el servidor de la cantidad de tiempo durante el que lo tendría en cuarentena.

Como se muestra en la figura, los mensajes que llegan al servidor pasan a través de uno o más FILTROSS 510 y luego o bien al cliente o bien a cuarentena, donde son retenidos 530 para ser analizados e investigados 520. Los mensajes procedentes del servidor que han sido puestos en cuarentena (y han sido liberados de la cuarentena) o que no han sido puestos en cuarentena pueden ser pasados entonces al o a los FILTROSC 540 ubicados en el cliente. En este punto, los mensajes pueden ser clasificados simplemente por el filtro 540 y ser entregados al buzón 550 de entrada según sea apropiado.

Con referencia ahora a la Fig. 6, se ilustra una vista esquemática de un sistema 600 de cuarentena que supone la operación de un procesador 605 de mensajes con respecto a un mensaje entrante 610. El mensaje 610 está marcado con sello de tiempo (615) con la fecha y la hora de su llegada y luego entra en el procesador 605 de mensajes, donde es filtrado (620). Se marca el mensaje para cuarentena debido a una falta de información acerca del mensaje (630). Como resultado de la cuarentena, se retrasa la clasificación del mensaje bien como correo no deseado o bien como aceptable durante la duración de un periodo de retraso.

El periodo de retraso (635) comienza cuando se marca el mensaje para cuarentena y puede continuar durante cualquier cantidad de tiempo establecida por el sistema o el usuario. Por ejemplo, el filtro puede proporcionar un tiempo recomendado de cuarentena basado en parte en la siguiente actualización del filtro (actualización programada). Dado que se puede implementar la cuarentena por medio de una API (interfaz para programa de aplicaciones), también es posible hacer que se pasen a la API apropiada m (por ejemplo, un número entero superior o igual a 1) tiempos de cuarentena (agresivos, moderados, conservadores). En la Fig. 10 se expone, infra, una presentación adicional acerca de la API.

Durante el periodo de retraso, el filtro puede aprender más acerca del mensaje, tal como al recopilar información de retorno de usuarios al igual que observaciones realizadas a partir de la monitorización o del análisis de los mensajes retenidos en cuarentena (640). Cuando finaliza el periodo de retraso (645), se puede actualizar el filtro (650), y se pueden clasificar los mensajes en cuarentena como aceptables o como correo no deseado (660). Para los mensajes en cuarentena clasificados ahora como aceptables, sus sellos de tiempo originales de recepción por el servidor, por ejemplo, pueden ser de horas o días antes de su fecha de liberación y/o su fecha de entrega. Esto puede ser problemático para usuarios que organizan sus mensajes por fecha de entrada/llegada. Por lo tanto, los mensajes “aceptables” liberados de la cuarentena también pueden ser marcados con sello de tiempo con sus fechas de liberación (670), en particular cuando los periodos de cuarentena duran más de unas pocas horas y se durante uno

o más días. Tales mensajes pueden incluir ambas fechas y/o pueden ser organizados principalmente por sus fechas de liberación, por ejemplo.

Se describirán ahora diversas metodologías según la presente invención por medio de una serie de acciones. Se debe comprender y apreciar que la presente invención no está limitada por el orden de las acciones, dado que algunas acciones pueden producirse, según la presente invención, en distintos órdenes y/o al mismo tiempo que otras acciones de las mostradas y descritas en el presente documento. Por ejemplo, los expertos en la técnica comprenderán y apreciarán que se podría representar de forma alternativa una metodología como una serie de estados o eventos interdependientes, tal como en un diagrama de estados. Además, pueden no ser requeridos todas las acciones ilustradas para implementar una metodología según la presente invención.

Con referencia a la Fig. 7, se ilustra un diagrama de flujo de un procedimiento ejemplar 700 que facilita el retraso de la clasificación de mensajes sospechosos o dudosos. El procedimiento 700 supone recibir mensajes entrantes para ser clasificados bien como correo no deseado o bien como aceptable en 710. En 720, se puede determinar si un filtro tiene suficiente información para clasificar el mensaje como correo no deseado o como aceptable. Si la tienen, entonces se pueden clasificar los mensajes en 730 y después, se pueden entregar los mensajes aceptables y se pueden desechar los mensajes de correo no deseado en 740. Este procedimiento puede reanudarse en 710 según se continúa recibiendo mensajes entrantes. Se debería apreciar que los mensajes de los remitentes en las listas seguras no están puestos en cuarentena aunque puedan parecer sospechosos de otra manera. Los usuarios pueden añadir remitentes a sus listas seguras respectivas si observan que mensajes particulares se encuentran constantemente en cuarentena (por el remitente).

Sin embargo, si hay una falta de información en 720, entonces se retrasa la clasificación en 750, y se puede mover el mensaje a una carpeta de cuarentena u otro tipo de carpeta especial durante la duración de un periodo de retraso. Durante este periodo de retraso, se puede recopilar en 760 más información acerca del mensaje o acerca del remitente del mensaje. Se pueden encontrar en la Fig. 8, infra, detalles adicionales acerca de esta etapa del procedimiento. Cualquier información o datos recopilados pueden ser introducidos de nuevo al

o a los filtros para actualizar el filtro (por medio de técnicas de aprendizaje automático) en 770. La Fig. 9, infra, presenta detalles adicionales acerca de esta fase del procedimiento.

Se continúa la recopilación de datos acerca de los mensajes hasta que finaliza el periodo de retraso (780). Cuando finaliza el periodo de retraso, se pueden clasificar los mensajes (o al menos un subconjunto) como correo no deseado o como aceptable utilizando los filtros actualizados en 790. Se pueden desechar los mensajes de correo no deseado y se pueden entregar los mensajes aceptables en 740.

Con referencia ahora a la Fig. 8, se ilustra un diagrama de flujo de tipos ejemplares de información que puede ser recopilada, tal como en 760 en la Fig. 7, supra. Por ejemplo, en 810, se puede monitorizar el volumen de mensajes para determinar si el remitente es un remitente de volumen bajo o de volumen alto. Además, la tasa a la que se envían los mensajes por remitente también puede ser indicativa de un comportamiento similar a un remitente de correo no deseado. Por ejemplo, enviar unos pocos cientos de correos electrónicos por hora contrasta directamente con enviar unos pocos miles de correos electrónicos por hora.

En 820, también se pueden comparar los mensajes en cuarentena con mensajes del servidor trampa. Recuérdese que los servidores trampa son fuentes fiables de mensajes de correo no deseable. Por lo tanto, los mensajes en cuarentena que se asemejan a los mensajes del servidor trampa pueden ser más similares a correo no deseado. Esta información puede ser bastante útil para el filtro cuando se determina cómo clasificar el mensaje.

En 830, se les puede proporcionar a los usuarios una oportunidad de proporcionar sus aportaciones en cuanto a si al menos un subconjunto de los mensajes en cuarentena es correo no deseado o no. En particular, un sistema de cuarentena puede estar diseñado de forma que unos pocos mensajes bien salen poco a poco de la cuarentena o bien se permite que atraviesen el filtro (saltarse la cuarentena) con el fin de comprobar las quejas de los usuarios. Por ejemplo, cuando se detectan los mensajes de una nueva dirección IP, el filtro puede estar programado para permitir a los primeros 1.000 o incluso 10.000 mensajes atravesar el filtro sin cuarentena. De forma alternativa, se puede dejar pasar un porcentaje fijo de los mensajes. A continuación, se ponen en cuarentena los mensajes de la misma dirección IP hasta que un número suficiente de usuarios han tenido tiempo para analizar los mensajes y quejarse si son correo no deseado. Después de que ha pasado una cantidad suficiente de tiempo, se puede llevar a cabo la decisión de clasificarlos como aceptables o como correo no deseado.

En 840, se pueden analizar los mensajes en cuarentena en cuanto a su parecido. En particular, se pueden calcular los valores del algoritmo de identificación parcial para los mensajes (o al menos un subconjunto) para determinar qué mensajes son similares entre sí entre distintos remitentes o por remitente. Los volúmenes elevados de mensajes similares pueden indicar correo no deseado y se puede utilizar esta información para actualizar el filtro. Además, se pueden comparar los mensajes con mensajes recientemente puestos en cuarentena que han sido clasificados como correo no deseado o como aceptable. Cuando se encuentran mensajes similares, pueden ser sacados de la cuarentena y clasificados de la misma manera que fueron sus homólogos anteriores. Además, los mensajes pueden compararse en base al análisis del remitente (por ejemplo, la dirección IP del remitente).

En 860, se recopilan datos de bucle de información de retorno. Según entran algunos mensajes, se envían consultas especiales a los destinatarios pidiéndoles específicamente que categoricen los mensajes bien como aceptables o bien como correo no deseado.

La Fig. 9 muestra un diagrama de flujo de un procedimiento ejemplar 900 que expone cómo se puede utilizar la información recopilada durante un periodo de cuarentena para mejorar la clasificación de mensajes. En 910, se puede emplear la información como datos de entrenamiento junto con técnicas de aprendizaje automático para actualizar de forma eficaz un filtro de correo no deseado, por ejemplo. Al actualizar el filtro de correo no deseado, se puede mejorar la clasificación de mensajes como correo no deseado o como aceptable para mitigar las clasificaciones de falsos aceptables o de falso correo no deseado. De forma alternativa o además, se puede emplear al menos un subconjunto de la información obtenida para construir

o entrenar un nuevo filtro (subfiltro) de correo no deseado para mensajes puestos en cuarentena recientemente en 920.

Además, se puede emplear un enfoque de aprendizaje automático con respecto a una cuarentena. En particular, el procedimiento (o el sistema asociado) puede registrar para cada mensaje si una cuarentena hubiese cambiado la clasificación del mensaje. Y si lo hubiese hecho, el mensaje debería haber sido puesto en cuarentena, y si no lo hubiese hecho, no debería haberlo sido. A continuación, el procedimiento y/o el sistema pueden aprender en base a estos datos, qué mensajes deberían ser puestos en cuarentena. Este enfoque de aprendizaje automático puede tener en cuenta cualquier característica especial que pueda ser útil para la cuarentena. Las características ejemplares incluyen, sin limitación, lo procedente de una dirección IP de volumen elevado; la dirección IP del mensaje (si es de Remitente de Correo No Deseado Fundamentalmente Maligno, S.A. o de Gran Periódico Aceptable, S.A., se sabe que la clasificación tiene a ser estable); lo procedente de una dirección IP desconocida o contiene un nombre desconocido de dominio; lo que contiene muchas características aceptables e inaceptables; etc.

Con referencia ahora a la Fig. 10, se ilustra un diagrama de flujo de un procedimiento ejemplar 1000 que puede ser implementado al menos en parte en una API para llevar a cabo un aspecto de la presente invención. El procedimiento 1000 supone calcular una probabilidad de correo no deseado en 1010 para cada mensaje entrante. En 1020, un filtro puede determinar si se pone en cuarentena un mensaje particular basándose al menos en parte a la probabilidad (puntuación) calculada respectiva de correo no deseado. En 1030, se puede recomendar un tiempo de cuarentena basado, al menos en parte, en al menos uno de los siguientes elementos:

•: probabilidad (puntuación) de que el mensaje es correo no deseado;

•: hora de la siguiente actualización del filtro, hora de la siguiente descarga del filtro (momento en el cual el filtro puede decidir si continuar con la cuarentena o tomar una decisión final y repetir hasta que se tome una decisión final); y/o

•: nivel de incertidumbre.

De forma alternativa, o además, se pueden pasar a la API m tiempos de cuarentena (agresivos, moderados y/o conservadores). La recomendación de si se pone en cuarentena, y en cuanto a su duración, puede informarse de los valores pasados a la API. El filtro (de correo no deseado) puede devolver información acerca de si un mensaje es correo no deseado al igual que si se debería poner el mensaje en cuarentena o no, e incluyendo la duración de la cuarentena. Inicialmente, el tiempo recomendado de cuarentena podría estar basado simplemente en la probabilidad de correo no deseado pero se pueden considerar también otros factores, tales como los presentados anteriormente.

Tanto un servidor como un cliente pueden implementar una cuarentena con respecto a sus filtros. Por lo tanto, si tanto el servidor como el cliente emplean tales filtros y el servidor ponen en cuarentena un mensaje, se puede comunicar esta información al filtro del cliente en 1040. Además, si el filtro del cliente también pone en cuarentena, se puede comunicar al filtro del cliente la duración de tiempo de cuarentena en el servidor, por lo que se puede reducir el tiempo de cuarentena del cliente o puede no ser invocado o aplicado al mensaje particular por el tiempo de cuarentena del servidor en 1050.

Además, el retraso temporal de la clasificación de los mensajes por medio de un filtro o un filtro de correo no deseado, en particular, leads a un mecanismo más robusto de filtrado que facilita la evitación de correo no deseado. Además, los retrasos innecesarios en al entrega de mensajes aceptables mitigan el descontento de los usuarios dado que no se someten a todos los mensajes dudosos a una cuarentena. Más bien, se pueden emplear varios factores y/o técnicas como se ha presentado anteriormente en el presente documento por medio del filtro o el sistema de filtrado para efectuar un sistema de cuarentena inteligente.

Para proporcionar un contexto adicional para diversos aspectos de la presente invención, se pretende que la Fig. 11 y la siguiente exposición proporcionen una breve descripción general de un entorno adecuado 1110 de operación en el que se pueden implementar diversos aspectos de la presente invención. Aunque se describe la invención en el contexto general de instrucciones ejecutables por un ordenador, tal como módulos de programa, ejecutados por uno o más ordenadores u otros dispositivos, los expertos en la técnica reconocerán que también se puede implementar la invención en combinación con otros módulos de programa y/o como una combinación de hardware y de software.

Sin embargo, en general, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que llevan a cabo tareas particulares o implementan tipos particulares de datos. El entorno 1110 de operación es únicamente un ejemplo de un entorno adecuado de operación y no se pretende que sugiera ninguna limitación en cuanto al alcance del uso o a la funcionalidad de la invención. Otros sistemas informáticos, entornos y/o configuraciones bien conocidos que pueden ser adecuados para ser utilizados con la invención incluyen, pero no están limitados a, ordenadores personales, dispositivos de mano o portátiles, sistemas de multiprocesadores, sistemas basados en microprocesador, electrónica de consumo programable, PC de red, miniordenadores, ordenadores centrales, entornos informáticos distribuidos que incluyen los anteriores sistemas o dispositivos, y similares.

Con referencia a la Fig. 11, un entorno ejemplar 1110 para implementar diversos aspectos de la invención incluye un ordenador 1112. El ordenador 1112 incluye una unidad 1114 de procesamiento, una memoria 1116 del sistema, y un bus 1118 del sistema. El bus 1118 del sistema acopla los componentes del sistema incluyendo, sin limitación, la memoria 1116 del sistema a la unidad 1114 de procesamiento. La unidad 1114 de procesamiento puede ser de cualquiera de diversos procesadores disponibles. También se pueden emplear microprocesadores duales y otras arquitecturas de multiprocesadores como la unidad 1114 de procesamiento.

El bus 1118 del sistema puede ser de cualquiera de varios tipos de estructura o estructuras de bus, incluyendo el bus de la memoria o el controlador de la memoria, un bus de periféricos o un bus externo, y/o un bus local que utiliza cualquier variedad de arquitecturas disponibles de bus, incluyendo, sin limitación, un bus de 11 bits, Arquitectura estándar industrial (ISA), Arquitectura de microcanal (MSA), ISA extendida (EISA), Electrónica de unidad inteligente (IDE), Bus local de VESA (VLB), Interconexión de componentes periféricos (PCI), Bus universal en serie (USB), Puerto de gráficos avanzado (AGP), bus de la Asociación Internacional de Tarjetas de Memoria para Ordenadores Personales (PCM-CIA) e Interfaz para sistemas de ordenadores pequeños (SCSI).

La memoria 1116 del sistema incluye memoria volátil 1120 y memoria no volátil 1122. El sistema básico de entrada/salida (BIOS), que contiene las rutinas básicas para transferir información entre elementos dentro del ordenador 1112, tal como durante el arranque, está almacenado en memoria no volátil 1122. A modo de ilustración, y no de limitación, la memoria no volátil 1122 puede incluir memoria de solo lectura (ROM), ROM programable (PROM), ROM programable eléctricamente (EPROM), ROM programable y borrable eléctricamente (EEPROM) o memoria flash. La memoria volátil 1120 incluye memoria de acceso aleatorio (RAM), que actúa como memoria externa de caché. A modo de ilustración y no de limitación, hay disponible RAM de muchas formas, tales como RAM síncrona (SRAM), RAM dinámica (DRAM), DRAM síncrona (SDRAM), SDRAM de doble tasa de transferencia de datos (DDR SDRAM), SDRAM mejorada (ESDRAM), DRAM de enlace síncrono (SLDRAM), y RAM directa de Rambus (DR-RAM).

El ordenador 1112 también incluye medios volátiles/no volátiles de almacenamiento informático extraíbles/no extraíbles. La Fig. 11 ilustra, por ejemplo un almacenamiento 1124 de disco. El almacenamiento 1124 de disco incluye, pero no está limitado a, dispositivos como una unidad de disco magnético, una disquetera, una unidad de cinta, una unidad Jaz, una unidad Zip, una unidad LS-100, una tarjeta de memoria flash, o un pendrive de memoria. Además, el almacenamiento 1124 de disco puede incluir medios de almacenamiento por separado o en combinación con otros medios de almacenamiento que incluyen, pero no están limitados a, una unidad de disco óptico, tal como un dispositivo de disco compacto ROM (CD-ROM), una unidad de CD grabable (unidad de CD-R), una unidad de CD regrabable (unidad de CD-RW), o una unidad de disco versátil digital ROM (DVD-ROM). Para facilitar la conexión de los dispositivos 1124 de almacenamiento de disco al bus 1118 del sistema, se utiliza normalmente una interfaz extraíble o no extraíble tal como la interfaz 1126.

Se debe apreciar que la Fig. 11 describe software que actúa como intermediario entre los usuarios y los recursos básicos del ordenador descritos en un entorno adecuado 1110 de operación. Dicho software incluye un sistema operativo 1128. El sistema operativo 1128, que también puede ser almacenado en el almacenamiento 1124 de disco, actúa para controlar y asignar los recursos del sistema informático 1112. Las aplicaciones 1130 del sistema aprovechan la gestión de los recursos por el sistema operativo 1128 por medio de módulos de programa 1132 y datos 1134 de programa almacenados bien en la memoria 1116 del sistema o bien en un almacenamiento 1124 de disco. Se debe apreciar que la presente invención puede implementarse con diversos sistemas operativos o combinaciones de sistemas operativos.

Un usuario introduce instrucciones o información en el ordenador 1112 por medio de dispositivo/s 1136 de entrada. Los dispositivos 1136 de entrada incluyen, sin limitación, un dispositivo de indicación tal como un ratón, una bola de seguimiento, un puntero, una alfombrilla táctil, un teclado, un micrófono, una palanca de juegos, un mando para juegos, una antena parabólica, un escáner, una tarjeta de sintonización de TV, una cámara digital, una videocámara digital, una cámara web, y similares. Estos y otros dispositivos de entrada se conectan a la unidad 1114 de procesamiento por medio del bus 1118 del sistema por medio de puerto/s 11138 de interfaz. El o los puertos 1138 de interfaz incluyen, por ejemplo, un puerto serie, un puerto paralelo, un puerto de juegos, y un bus universal en serie (USB). El o los dispositivos 1140 de salida utilizan algunos de los mismos tipos de puertos que el o los dispositivos 1136 de entrada. Por lo tanto, por ejemplo, se puede utilizar un puerto USB puede para proporcionar una entrada de datos al ordenador 1112 y para dar salida a información del ordenador 1112 a un dispositivo 1140 de salida. Se proporciona el adaptador 1142 de salida para ilustrar que hay algunos dispositivos 1140 de salida como los monitores, los altavoces, y las impresoras entre otros dispositivos 1140 de salida que requieren adaptadores especiales. Los adaptadores 1142 de salida incluyen, a modo de ilustración y no de limitación, tarjetas de vídeo y de sonido que proporcionan un medio de conexión entre el dispositivo 1140 de salida y el bus 1118 del sistema. Se debe hacer notar que otros dispositivos y/o sistemas de dispositivos proporcionan capacidades tanto de entrada como de salida, tales como ordenador/es remotos 1144.

El ordenador 1112 puede operar en un entorno de red utilizando conexiones lógicas a uno o más ordenadores remotos, tal como ordenador/es remoto/s 1144. El o los ordenadores remotos 1144 pueden ser ordenadores personales, servidores, dispositivos de encaminamiento, PC de red, estaciones de trabajo, aplicaciones basadas en microprocesador, dispositivos del mismo nivel u otros nodos de red común y similares, y normalmente incluyen muchos de los elementos, o todos ellos, descritos con respecto al ordenador 1112. En aras de la brevedad, solo se ilustra un dispositivo 1146 de memoria de almacenamiento con el o los ordenadores remotos 1144. El o los ordenadores remotos 1144 están conectados lógicamente al ordenador 1112 por medio de una interfaz 1148 de red y luego están conectados físicamente por medio de una conexión 1150 de comunicaciones. La interfaz 1148 de red abarca redes de comunicaciones tales como redes de área local (LAN) y redes de área amplia (WAN). Las tecnologías LAN incluyen la Interfaz de fibra de datos distribuidos (FDDI), la Interfaz de datos distribuidos por cobre (CDDI), Ethernet/IEEE 1102.3, Token Ring/IEEE 1102.5 y similares. Las tecnologías WAN incluyen, pero no están limitadas a, enlaces punto a punto, redes de conmutación por circuitos como las Redes digitales de servicios integrados (RDSI) y variaciones de las mismas, redes de conmutación por paquetes, y Líneas digitales de abonado (DSL).

La o las conexiones 1150 de comunicaciones hacen referencia a hardware/software empleado para conectar la interfaz 1148 de red al bus 1118. Aunque la conexión 1150 de comunicaciones se muestra en aras de la claridad ilustrativa dentro del ordenador 1112, también puede ser externa al ordenador 1112. El hardware/software necesario para la conexión a la interfaz 1148 de red incluye, únicamente con fines ejemplares, tecnologías internas y externas tales como, módems y módems de DSL, adaptadores de RDSI, y tarjetas de Ethernet.

Lo descrito anteriormente incluye ejemplos de la presente invención. Por supuesto, no es posible describir cada combinación imaginable de componentes o de metodologías con el fin de describir la presente invención, pero una persona con un nivel normal de dominio de la técnica puede reconocer que son posibles muchas otras combinaciones y permutaciones de la presente invención. En consecuencia, se pretende que la presente invención abarque todas las alteraciones, modificaciones y variaciones semejantes que se encuentren dentro del alcance de las reivindicaciones adjuntas. Además, hasta la amplitud en la que se utiliza el término “incluye”, bien en la descripción detallada o bien en las reivindicaciones, se pretende que dicho término sea inclusivo, de forma similar al término “comprende”, tal como se interpreta “que comprende” cuando se emplea como una palabra de transición en una reivindicación.

Claims

Reivindicaciones

1.

Un sistema que facilita la clasificación de mensajes en conexión con la evitación de correo no deseado, que comprende:

un componente (110) adaptado para recibir un conjunto de los mensajes; un primer componente (130, 540, 550) de clasificación adaptado para identificar un subconjunto de los mensajes como CORREO NO DESEADO o para señalar la necesidad de un análisis adicional; un componente (140) de almacenamiento adaptado para almacenar el subconjunto de mensajes durante la duración de un periodo (350, 635) de retraso; y un segundo componente (130, 250, 370) de clasificación adaptado para clasificar el subconjunto almacenado de mensajes después del periodo de retraso como aceptable o como CORREO NO DESEADO a partir de nueva información.
2.

El sistema de la reivindicación 1, estando adaptado el segundo componente de clasificación para identificar parte del subconjunto de mensajes como aceptable en base a una falta de suficiente información negativa nueva (230, 360).
3.

El sistema de la reivindicación 1, estando adaptado el segundo componente de clasificación para identificar parte del subconjunto de mensajes como aceptable en base a nueva información positiva (230, 360).
4.

El sistema de la reivindicación 1, estando adaptado el primer componente de clasificación para clasificar los mensajes como correo no deseado o para señalar la necesidad de un análisis adicional en base a una falta de información.
5.

El sistema de la reivindicación 1, estando adaptado el segundo componente de clasificación para clasificar los mensajes en base a información actualizada a partir de un filtro de correo no deseado de aprendizaje automático.
6.

El sistema de la reivindicación 2, en el que la falta de suficiente información negativa nueva comprende la no aparición de mensajes similares en servidores trampa.
7.

El sistema de la reivindicación 2, en el que la falta de suficiente información negativa

nueva comprende una ausencia de quejas de los usuarios acerca de información similar.
8.

El sistema de la reivindicación 2, en el que la falta de suficiente información negativa nueva comprende información proveniente de consultas a usuarios acerca de al menos un subconjunto de mensajes.
9.

El sistema de la reivindicación 2, en el que la falta de suficiente información negativa nueva comprende un volumen bajo de mensajes similares.
10.

El sistema de la reivindicación 8, en el que el primer componente de clasificación está adaptado para clasificar los mensajes como similares en base a la identidad del remitente.
11.

El sistema de la reivindicación 10, en el que la identidad del remitente se clasifica en base a su dirección IP.
12.

El sistema de la reivindicación 8, en el que el parecido de los mensajes está basado en los URL contenidos en los mensajes.
13.

El sistema de la reivindicación 1, estando adaptado el segundo componente de clasificación para clasificar mensajes como correo no deseado (390) en base a nueva información.
14.

El sistema de la reivindicación 13, que comprende medios adaptados para borrar mensajes de forma permanente clasificados como correo no deseado.
15.

El sistema de la reivindicación 13, que comprende medios adaptados para mover mensajes clasificados como correo no deseado a una carpeta (260) de mensajes borrados.
16.

El sistema de la reivindicación 1, que comprende, además, un componente (170) de información de retorno adaptado para recibir información relativa al o a los componentes primero y/o segundo de clasificación, y está adaptado para emplear la información en conexión con el entrenamiento de un filtro de correo no deseado o el relleno de una lista

de correo no deseado.
17.

El sistema de la reivindicación 1, en el que los mensajes comprenden al menos uno de: correo electrónico, e-mail, y mensajes.
18.

El sistema de la reivindicación 1, en el que el componente que recibe un conjunto de los mensajes es uno cualquiera de un servidor de correo electrónico, un servidor de mensajes, y software cliente de correo electrónico.
19.

El sistema de la reivindicación 1, que comprende, además, un componente de cuarentena adaptado para poner en cuarentena el subconjunto de mensajes en base, al menos en parte, tras la clasificación como la señalización para un análisis adicional por parte del primer componente de clasificación.
20.

El sistema de la reivindicación 19, efectuándose la cuarentena mediante la colocación del subconjunto de mensajes en una carpeta (220) aparte de otros mensajes.
21.

El sistema de la reivindicación 20, siendo la carpeta visible o invisible para un usuario.
22.

El sistema de la reivindicación 1, que comprende, además, un componente de identificación adaptado para identificar una fuente asociada con una incidencia elevada del subconjunto de mensajes.
23.

El sistema de la reivindicación 1, que comprende, además, un componente (670) de sello de tiempo adaptado para marcar al menos una de una fecha de llegada original en el mensaje y una fecha de liberación cuando se reanuda la clasificación del mensaje.
24.

El sistema de la reivindicación 1, en el que el subconjunto de mensajes excluye al menos uno de los mensajes de remitentes en listas seguras, mensajes identificados fácilmente y clasificados como correo no deseado, mensajes identificados fácilmente y clasificados como aceptables.
25.

El sistema de la reivindicación 1, estando adaptado el primer componente de clasificación para determinar la duración del retraso antes de que se lleve a cabo la clasificación del subconjunto de mensajes.
26.

El sistema de la reivindicación 25, en el que la duración del retraso está basada al menos en parte en al menos una de los siguientes:

cantidad de tiempo hasta una siguiente actualización programada del filtro; cantidad de tiempo hasta una descarga de un filtro nuevo o actualizado; y puntuación de probabilidad de correo no deseado asignada a mensajes respectivos en el subconjunto.
27.

Un entorno informático (1110) adaptado para procesar mensajes de correo electrónico, en el que el entorno informático emplea el sistema de la reivindicación 1.
28.

El entorno informático de la reivindicación 27, que comprende un cliente y un servidor, en el que al menos el servidor emplea el sistema de la reivindicación 1.
29.

El sistema de la reivindicación 1, que comprende, además, un filtro de aprendizaje automático adaptado para determinar la probabilidad de que la cuarentena ayude finalmente a una clasificación correcta.
30.

Un procedimiento para clasificar mensajes, que comprende:

recibir un conjunto de mensajes para ser clasificados; clasificar un subconjunto de los mensajes como poco fiables o sospechosos; almacenar el subconjunto de los mensajes durante la duración de un periodo de retraso; y clasificar el subconjunto almacenado de mensajes después del periodo de retraso cuando se ha obtenido información adicional acerca del subconjunto de mensajes.
31.

El procedimiento de la reivindicación 30, excluyendo el subconjunto de mensajes los mensajes que son clasificados fácilmente como correo no deseado o como aceptables o provienen de remitentes en una lista segura.
32.

El procedimiento de la reivindicación 30, en el que la clasificación del conjunto de mensajes está basada en al menos uno de los siguientes elementos:

no se ha visto antes la dirección IP del remitente en el mensaje; no se ha visto antes el dominio del remitente; el dominio del remitente carece de una dirección IP inversa; una búsqueda directa del dominio del remitente no coincide al menos aproximadamente con la dirección IP del remitente; el mensaje comprende al menos uno de un nombre de dominio insertado, una macro insertada, y un archivo ejecutable; el mensaje comprende evidencia contradictoria de mensajes aceptables y de correo no deseado; el mensaje se origina en una ubicación asociada con el correo no deseado; el mensaje está escrito en un idioma asociado con el correo no deseado; el mensaje comprende principalmente una imagen; y el mensaje comprende HTML.
33.

El procedimiento de la reivindicación 30, que comprende, además, entregar al menos un subconjunto de mensajes sospechosos.
34.

El procedimiento de la reivindicación 33, en el que se entrega el subconjunto de mensajes sospechosos a sus respectivos destinatarios previstos y sus acciones facilitan la determinación de si el subconjunto de mensajes es correo no deseado o es aceptable.
35.

El procedimiento de la reivindicación 34, en el que el subconjunto de mensajes para el que se busca información de retorno es un porcentaje fijo de mensajes o es una cantidad fija de mensajes por remitente cuya clasificación se retrasa temporalmente.
36.

El procedimiento de la reivindicación 34, en el que se permite que el subconjunto de mensajes para el que se busca información de retorno pase sin ser clasificado ni como correo no deseado ni como aceptable para facilitar aprender más acerca de los mensajes.
37.

El procedimiento de la reivindicación 30 para clasificar mensajes mediante una cuarentena, comprendiendo el procedimiento:

calcular una puntuación de probabilidad de correo no deseado para los mensajes recibidos; y recomendar un tiempo de cuarentena; en el que el almacenamiento comprende poner en cuarentena el subconjunto de mensajes en base, al menos en parte, a sus puntuaciones respectivas de

5 probabilidad de correo no deseado.
38. El procedimiento de la reivindicación 37, que comprende, además, poner en cuarentena al menos un subconjunto de mensajes hasta la siguiente descarga del filtro, momento en el cual el filtro determina si continuar la cuarentena o reanudar la clasificación de los

10 mensajes; y repetir hasta que se lleva a cabo una clasificación final, bien de correo no deseado o bien de correo aceptable.
39. El procedimiento de la reivindicación 37, que comprende, además, comunicar entre un servidor y un cliente de que un filtro del servidor ha puesto en cuarentena el mensaje

15 respectivo durante un periodo de tiempo; y reducir el tiempo de cuarentena de un filtro del cliente.
40. Un medio legible por un ordenador que tiene almacenadas en el mismo instrucciones

ejecutables por un ordenador que, cuando son ejecutadas por un procesador, llevan a 20 cabo todas las etapas del procedimiento de la reivindicación 30.