ES2259374T3

ES2259374T3 - Sistema y metodo para procesar mensajes almacenados en memorias de mensajes multiples.

Info

Publication number: ES2259374T3
Application number: ES02741648T
Authority: ES
Inventors: David Thomas Mcdonald
Original assignee: Attenex Corp
Current assignee: Attenex Corp
Priority date: 2001-03-19
Filing date: 2002-03-19
Publication date: 2006-10-01
Anticipated expiration: 2022-03-19
Also published as: WO2002091701A2; CA2441390C; US6745197B2; CA2441390A1; US20020161788A1; DE60211489D1; WO2002091701A3; EP1371195A2; EP1371195B1; ATE326807T1; AU2002314724A1; DE60211489T2

Abstract

Sistema para procesar eficientemente mensajes memorizados en memorias (32) de mensajes múltiples, que comprende: un procesador (20) de mensajes que copia iterativamente meta-datos que identifican un rango de mensajes tópicamente idénticos extraídos desde una pluralidad de memorias de mensajes que memorizan una multiplicidad de mensajes a procesar y que categoriza los meta-datos para el rango extraído de mensajes tópicamente idénticos, comprendiendo además el procesamiento de mensajes: un selector (61) de mensajes duplicados que identifica aquellos mensajes que contienen contenido sustancialmente duplicado dentro del rango extraído como mensajes duplicados; un selector (62) de longitudes de series que concuerda aquellos mensajes no duplicados dentro del rango extraído en una ordenación de longitudes de series de conversación; un selector (63) de mensajes casi duplicados que clasifica aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes no duplicados concordados como mensajes casi duplicados; y un selector (64) de mensajes únicos que designa los mensajes restantes como mensajes únicos que contienen sustancialmente contenido no duplicado.

Description

Sistema y método para procesar mensajes almacenados en memorias de mensajes múltiples.

Campo técnico

La presente invención se refiere en general a la categorización de mensajes memorizados, y en particular a un sistema y método para procesar eficientemente mensajes memorizados en memorias para mensajes múltiples.

Antecedentes de la invención

Actualmente, la mensajería electrónica constituye una forma principal de comunicaciones interpersonales, complementaria a, y que en algunos aspectos sustituye las comunicaciones convencionales basadas en voz. La mensajería electrónica incluye el correo electrónico tradicional (e-mail) y ha crecido hasta abarcar la programación, ejecución de tareas, gestión de contactos y de proyectos, y un número creciente de actividades automatizadas de trabajo en grupo. La mensajería electrónica incluye también el intercambio de documentos electrónicos y contenidos multimedia, incluidos con frecuencia como adjuntos. Y, como diferencia respecto al correo de voz, la mensajería electrónica se puede comunicar fácilmente a una audiencia que alcanza desde un único usuario, un grupo de trabajo, una corporación, o incluso el mundo entero, mediante listas de direcciones de mensajes predefinidas.

La arquitectura de la mensajería electrónica básica incluye un servidor de intercambio de mensajes que comunica con una pluralidad de abonados o clientes individuales. El servidor de intercambio de mensajes actúa como custodio de los mensajes electrónicos que mantiene, recibe y distribuye mensajes electrónicos procedentes de los clientes usando una o más bases de datos de mensajes. La información de mensajería electrónica individual se mantiene en memorias de mensajes, denominadas carpetas o archivos, identificadas por cuenta de usuario dentro de las bases de datos de mensajes. Generalmente, por política, una corporación archivará las bases de datos de mensajes como datos históricos que se memorizan durante procedimientos rutinarios de grabación de copias de reserva.

La información contenida en los mensajes electrónicos archivados puede proporcionar una cronología potencialmente útil de eventos históricamente significativos. Por ejemplo, las series de conversación de mensajes presentan un diálogo en curso que puede recoger históricamente los procesos de toma de decisiones llevados a cabo por individuos durante la ejecución de sus responsabilidades corporativas. Asimismo, los archivos de las memorias de mensajes individuales pueden confirmar la recepción y acuse de recibo de ciertas comunicaciones corporativas tanto localmente como en localizaciones distribuidas. Y las bases de datos de mensajes electrónicos archivados crean pistas de revisión para seguir rastrear el flujo de información.

En consecuencia, los investigadores de hechos se están orientando cada vez más a las memorias de mensajes electrónicos archivados para localizar información crucial y para obtener indicios de motivaciones y comportamientos individuales. En particular, se producen ahora casi de manera rutinaria memorias de mensajes electrónicos durante la fase de investigación de los litigios al objeto de obtener evidencias y materiales útiles para los litigantes y para el tribunal. La investigación implica la revisión de documentos, durante la cual todos los materiales relevantes son leídos y analizados. El proceso de revisión de documentos consume tiempo y es costoso, porque en último término cada documento debe ser leído manualmente. El pre-análisis de documentos para eliminar información duplicada puede ahorrar tiempo y costes significativos, al reducir el campo de revisión, en particular si hay que trabajar con el gran número de mensajes individuales memorizados en cada una de las memorias de mensajes electrónicos archivados para una comunidad de usuarios.

Típicamente, los mensajes electrónicos mantenidos en memorias de mensajes electrónicos archivados son memorizados físicamente como objetos de datos que contienen texto u otros contenidos. Muchos de estos objetos son duplicados, al menos en parte, de otros objetos en la memoria de mensajes para el mismo usuario o para otros usuarios. Por ejemplo, los mensajes electrónicos son duplicados con frecuencia mediante su inclusión en un mensaje de respuesta o reenviado, o como un adjunto. Una cadena de tales mensajes incluidos recursivamente constituye una "serie" de conversación. Además, la radiodifusión, las multitareas y voluminosos "envíos por correo" de mensajes electrónicos ocasionan la duplicación de mensajes entre cualquier número de cuentas de mensajería electrónica individuales.

Aunque el objetivo del pre-análisis de documentos es reducir el tamaño del campo de revisión, la eliminación simplista de mensajes duplicados por completo sólo proporciona una solución parcial. Por término medio, los mensajes duplicados exactamente constituyen una pequeña proporción del material duplicado. Una proporción mucho mayor de los mensajes electrónicos duplicados forman parte de series de conversación que contienen información incrustada generada mediante una respuesta, reenvío o adjunto. El mensaje que contiene la serie de conversación más larga es con frecuencia el mensaje más pertinente, porque cada uno de los mensajes anteriores está reenviado dentro del propio mensaje. Los mensajes que contienen una serie de conversación son mensajes "casi" duplicados que pueden ser también de interés para mostrar relaciones temporales y sustantivas, así como para revelar información potencialmente duplicada.

En la técnica anterior, las aplicaciones de mensajería electrónica proporcionan herramientas limitadas para procesar mensajes electrónicos. Los clientes de mensajería electrónica, tales como el producto Outlook, bajo licencia de Microsoft Corporation, Redmond, Washington, o el producto cc:mail, bajo licencia de Lotus Corporation, Cambridge, Massachussets, proporcionan utilidades rudimentarias para clasificar los mensajes memorizados. Sin embargo, estas utilidades se limitan al procesamiento sólo de aquellos mensajes memorizados en una única cuenta de usuario y son incapaces de manejar memorias de mensajes electrónicos múltiples mantenidas por diferentes custodios de mensajes.

La publicación "Distribution Duplication Prevention Mechanism", Research Disclosure, Kenneth Mason Publications, Hampshire, GB, Nº 336, 1 de abril 1992 (1992-04-01), página 261 XP000304807 ISSN: 0374-4353 describe un método para impedir la recepción de copias duplicadas de distribuciones, incluyendo correos electrónicos, facsímiles y correos de voz. El método impide la recepción de duplicados por un receptor mediante la observación de atributos para determinar si la distribución entrante es idéntica a otra.

Existe por tanto necesidad de un método para procesar mensajes electrónicos mantenidos en memorias de mensajes múltiples para el pre-análisis de documentos. Preferiblemente, un método de este tipo generaría un registro de resultados, incluyendo una colección manipulada punto a punto y una colección manipulada de referencias cruzadas, y "graduaría" los mensajes electrónicos en categorías que incluyen mensajes únicos, duplicados exactos, y casi duplicados, así como determinaría la longitud de la serie de conversación.

Hay necesidad también de un método para identificar mensajes únicos y mensajes relacionados duplicados y casi duplicados mantenidos en memorias de mensajes múltiples. Preferiblemente, un método de este tipo incluiría una capacidad para separar mensajes únicos y para posteriormente reagregar los mensajes únicos seleccionados con sus mensajes relacionados duplicados y casi duplicados, según sea necesario.

Hay necesidad también de un método para procesar mensajes electrónicos generados por aplicaciones compatibles con Messaging Application Programming Interface (Interfaz de Programación de Aplicaciones de Mensajería) (MAPI).

Publicación de la invención

La invención define sistemas y métodos según las reivindicaciones adjuntas. La presente invención proporciona un sistema y método para generar una memoria transitoria (caché) que memoriza mensajes seleccionados de entre una colección agregada de memorias de mensajes. La memoria caché se crea extrayendo información seleccionada referente a mensajes desde cada una de las memorias de mensajes individuales en una matriz maestra. La matriz maestra se procesa para identificar tópicos de mensajes que ocurren sólo una vez en las memorias de mensajes individuales y para identificar seguidamente los mensajes relacionados como únicos. Los restantes mensajes no únicos se procesan tópico por tópico en una matriz de tópicos desde la que se identifican mensajes duplicados, casi duplicados y únicos. Se concuerdan además recuentos de cadenas. Se genera un fichero de registro que indica la naturaleza y posición de cada mensaje y la relación de cada mensaje con otros mensajes. Los mensajes sustancialmente únicos se copian en la memoria caché para su uso en otros procesos, tales como un proceso de revisión de documentos. Opcionalmente, los mensajes duplicados y casi duplicados seleccionados se copian también en la memoria caché o en cualquier otra memoria que contiene el mensaje único relacionado.

Se describen un sistema y método para identificar eficientemente los mensajes únicos memorizados en memorias de mensajes organizadas. Los mensajes duplicados que contienen contenido sustancialmente duplicado se eliminan de los mensajes tópicamente idénticos extraídos lógicamente de entre una pluralidad de memorias de mensajes organizadas. Se eliminan también los mensajes casi duplicados que contienen contenido incluido recursivamente dentro de otro de los mensajes restantes. Se memorizan los mensajes únicos que incluyen al menos uno de un mensaje que memoriza una única ocurrencia de un tópico dado y un mensaje que memoriza contenido no recursivo relativo a cada otro mensaje así extraído lógicamente.

Una realización de la presente invención es un sistema y método para procesar eficientemente mensajes memorizados en memorias de mensajes múltiples. Se copian iterativamente meta-datos que identifican un rango de mensajes tópicamente idénticos extraídos de una pluralidad de memorias de mensajes que memorizan una multitud de mensajes a procesar. Se categorizan los meta-datos para el rango extraído de mensajes tópicamente idénticos. Para cualquier rango tópico, si el número de mensajes tópicamente idénticos es uno, dicho mensaje se identifica como único. Si el número de mensajes tópicamente idénticos es mayor que uno, aquellos mensajes que contienen contenido sustancialmente duplicado dentro del rango extraído se identifican como mensajes duplicados. Aquellos mensajes no duplicados dentro del rango extraído son concordados en una ordenación de longitud de series de conversación.

Aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes no duplicados concordados se clasifican como mensajes casi duplicados. Los mensajes restantes se designan como mensajes únicos que contienen contenido que no es sustancialmente duplicado de otros mensajes.

Otra realización de la presente invención es un sistema y método para categorizar mensajes memorizados en memorias de mensajes en categorías discretas. Se extraen meta-datos para cada mensaje a procesar de entre una pluralidad de memorias de mensajes. Los meta-datos identifican la memoria de mensajes fuente y localización de memorización relativa para el mensaje. Los meta-datos se clasifican en función de tópicos. El contenido de los mensajes se compara con mensajes similares con tópicos idénticos, para identificar y eliminar aquellos mensajes que contienen contenido sustancialmente duplicado. Los mensajes restantes se clasifican en función de contenido haciendo referencia a los meta-datos, y los meta-datos se ordenan en orden de longitud de serie de conversación.

El contenido se compara para identificar aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes. Los mensajes restantes se identifican haciendo referencia a los meta-datos como mensajes únicos.

Aún otras realizaciones de la presente invención resultarán fácilmente evidentes para los expertos en la técnica a partir de la descripción detallada que sigue, en la que se describen realizaciones de la invención a título de ilustración del mejor modo contemplado para poner en práctica la invención. Como puede apreciarse, la invención es susceptible de otras y diferentes realizaciones, y sus varios detalles son susceptibles de modificaciones en diversos aspectos obvios, todo ello sin salir fuera del alcance de la presente invención. En consecuencia, los dibujos y la descripción detallada se deben considerar de naturaleza ilustrativa y no restrictiva.

Descripción de los dibujos

Figura 1 es un diagrama funcional de bloques que muestra un entorno informático distribuido, que incluye un sistema para procesar eficientemente mensajes memorizados en memorias de mensajes múltiples, de acuerdo con la presente invención.

Figura 2 es un diagrama de bloques que muestra el sistema para procesar eficientemente mensajes de Figura 1.

Figura 3 es un diagrama de flujo de datos que muestra el procesamiento de mensajes electrónicos seguido por el sistema de Figura 2.

Figura 4 es un diagrama de bloques que muestra los módulos de soporte lógico (software) del sistema de Figura 2.

Figura 5 muestra, a título de ejemplo, un mensaje electrónico anotado.

Figura 6 es un diagrama de flujo que muestra un método para procesar eficientemente mensajes memorizados en memorias de mensajes múltiples, de acuerdo con la presente invención.

Figura 7 es un diagrama de flujo que muestra la rutina para crear una memoria caché para su uso en el método de Figura 6.

Figura 8 es un diagrama de flujo que muestra la rutina para procesar mensajes para su uso en el método de Figura 6.

Figura 9 es un diagrama de flujo que muestra la rutina para procesar la matriz maestra para su uso en la rutina de Figura 8.

Figuras 10A-C son diagramas de flujo que muestran la rutina para procesar una matriz de tópicos para su uso en la rutina de Figura 9.

Figura 11 es un diagrama de flujo que muestra la rutina para procesar un registro para su uso en la rutina de Figura 8.

Mejor modo de puesta en práctica de la invención

Figura 1 es un diagrama funcional de bloques que muestra un entorno informático distribuido 10, que incluye un sistema para procesar eficientemente mensajes memorizados en memorias de mensajes múltiples, de acuerdo con la presente invención. El entorno informático distribuido 10 incluye una red Internet 16, que incluye la Internet, y una red intranet 13. La red Internet 16 y la red intranet 13 están interconectadas mediante un direccionador 17 o dispositivo de interconexión similar, como es conocido en la técnica. Son posibles otras topologías, configuraciones y componentes de red, como podrá apreciar el experto en la técnica.

Se intercambian mensajes electrónicos, en particular correo electrónico (e-mail), entre los diversos sistemas interconectados a través del entorno informático distribuido 10. Los términos "mensaje electrónico" y "mensaje" se usan de modo intercambiable a todo lo largo de este documento, con el mismo significado previsto. Además, los tipos de mensajes abarcan correo electrónico, programación, ejecución de tareas, gestión de contactos, gestión de proyectos, actividades de trabajo en grupo, contenidos multimedia y otras formas de objetos susceptibles de comunicación electrónica, como podrá apreciar el experto en la técnica. Estos sistemas incluyen un servidor 11 que proporciona un servicio de intercambio de mensajes a una pluralidad de clientes 12a, 12b interconectados a través de la red intranet 13. Los clientes 12a, 12b se pueden suscribir también a un servicio de intercambio de mensajes remoto proporcionado por un servidor remoto 14 interconectado a través de la red Internet 16. De modo similar, un cliente remoto 15 se puede suscribir a cualquiera de o a ambos servicios de intercambio de mensajes del servidor 11 y del servidor remoto 14 a través de la red Internet 16.

Cada uno de los sistemas está acoplado a un dispositivo de memoria. El servidor 11, los clientes 12a, 12b y el cliente remoto 15 mantienen cada uno datos memorizados en un dispositivo de memoria local 18. El servidor remoto 14 mantiene datos memorizados en un dispositivo de memoria local (no mostrado) y puede mantener también datos memorizados para sistemas remotos en un dispositivo de memoria remoto 19, a saber, un dispositivo de memoria situado remotamente respecto al servidor 11, clientes 12a, 12b y cliente remoto 15. Los dispositivos de memoria incluyen discos duros convencionales, medios desmontables y fijos, discos CD ROM y DVD, y cualesquiera otras formas de dispositivos de memoria volátiles y no volátiles.

Cada uno de los sistemas mantiene también una memoria de mensajes, bien en el dispositivo de memoria local o en el dispositivo de memoria remoto, en el que se memorizan o archivan los mensajes electrónicos. Cada memoria de mensajes constituye una biblioteca identificable dentro de la cual se guardan los mensajes electrónicos y puede incluir una memoria de mensajes de archivo integral o separado para memorización fuera de línea. Internamente, cada memoria de mensajes puede contener una o más carpetas de mensajes (no mostradas) que contienen grupos de mensajes relacionados, tales como una carpeta de mensajes "buzón de entrada" para mensajes de entrada, una carpeta de mensajes "buzón de salida" para mensajes de salida, y similares. Para mayor claridad de la descripción, las carpetas de mensajes individuales se tratarán por igual, aunque el experto en la técnica podrá apreciar que las carpetas de mensajes relacionados contextualmente se podrían procesar por separado.

En un entorno informático de grupo de trabajo, el servidor 11 mantiene colectivamente las memorias de mensajes como una memoria de mensajes de grupo de trabajo (WMS) 22 para cada cliente abonado 12a, 12b y cliente remoto 15. En un entorno informático distribuido, cada cliente 12a, 12b y cliente remoto 15 podría mantener una memoria de mensajes individual 21, bien localmente o además de una memoria 21 de mensajes de grupo de trabajo. De modo similar, el servidor remoto 14 podría mantener una memoria 22 de mensajes de grupo de trabajo para clientes remotos.

A lo largo del tiempo, cada una de las memorias de mensajes acumula inevitablemente duplicados, al menos en parte, de otros mensajes electrónicos memorizados en la memoria de mensajes para el mismo usuario o para otros usuarios. Estos mensajes electrónicos duplicados y casi duplicados se deben identificar y eliminar durante el pre-análisis de documentos. Por tanto, el servidor 11 incluye un procesador 20 de mensajes para procesar eficientemente los mensajes electrónicos memorizados en las diversas memorias 21, 22 de mensajes, tal como se describe más abajo, comenzando por hacer referencia a Figura 2. Opcionalmente, un cliente individual 12a podría incluir también el procesador 20 de mensajes. La ubicación actual del procesador 20 de mensajes sólo está limitada por la disponibilidad de recursos físicos requerida para memorizar y procesar las memorias 21 de mensajes individuales y las memorias 22 de mensajes de grupos de trabajo.

Los mensajes electrónicos son recuperados directamente desde las memorias 21 de mensajes individuales, desde las memorias 22 de mensajes de grupos de trabajo, o consolidados desde estas memorias de mensajes para obtener una memoria de mensajes combinada. Para el pre-análisis de documentos, las memorias de mensajes pueden incluir tanto mensajes activos "en línea" como mensajes archivados "fuera de línea" mantenidos en un dispositivo de memoria local 18 o dispositivo de memoria remoto 19.

Los sistemas informáticos individuales que incluyen el servidor 11, los clientes 12, el servidor remoto 14 y el cliente remoto 15 son dispositivos informáticos digitales programados para fines generales, que consisten en una unidad de proceso central (CPU), memoria de acceso aleatorio (RAM), memoria secundaria no volátil, tal como un disco duro, disco CD ROM o DVD, interfaces de red, y dispositivos periféricos, que incluyen medios de interfaz de usuario, tales como un teclado y una pantalla. Códigos de programa, incluyendo programas de software, y datos son cargados en la RAM para su ejecución y procesamiento por la CPU, y los resultados son generados para su presentación, salida, transmisión o memorización.

Figura 2 es un diagrama de bloques que muestra el sistema para procesar eficientemente mensajes de Figura 1. El sistema 30 incluye el servidor 11, dispositivo de memoria 18, y una o más memorias 32 de mensajes. Las memorias 32 de mensajes podrían incluir memorias 21 de mensajes individuales y memorias 22 de mensajes de grupos de trabajo (mostradas en Figura 1). Alternativamente, el sistema 30 podría incluir un cliente 12a (no mostrado) en lugar del servidor 11.

El servidor 11 incluye el procesador 20 de mensajes y opera opcionalmente una aplicación de mensajería 31. La aplicación de mensajería 31 proporciona servicios con respecto a intercambio de mensajes electrónicos y memorización de información para clientes individuales 12a, 12b, servidores remotos 14 y clientes remotos 15 (mostrados en Figura 1). Por el lado de las aplicaciones, estos servicios incluyen la provisión de correo electrónico, programación, ejecución de tareas, gestión de contactos y de proyectos, y soporte de actividades automatizadas de trabajo en grupo relacionadas. Por el lado de los sistemas, estos servicios incluyen la memorización e intercambio del direccionamiento de mensajes, y la interfaz con subsistemas de mensajería electrónica de bajo nivel. Un ejemplo de un servidor 31 de intercambio de mensajes es el producto Exchange Server, bajo licencia de Microsoft Corporation, Redmond, Washington. Preferiblemente, el servidor 31 de intercambio de mensajes incorpora una arquitectura compatible con la Interfaz de Programación de Aplicaciones de Mensajería (MAPI), tal como se describe en R. Orfali et al., "Client/Server Survival Guide", Ch. 19, John Wiley & Sons, Inc. (1999, 3ª edición). La aplicación de mensajería no es parte de la presente invención pero se muestra para ilustrar un entorno apropiado en el que puede operar la invención.

El procesador 20 de mensajes procesa las memorias 32 de mensajes (mostradas en Figura 3) para pre-analizar eficientemente los mensajes electrónicos, tal como se describe más abajo haciendo referencia a Figura 3. Las memorias 32 de mensajes se procesan para crear una o más estructuras memorizadas en una memoria "transitoria" (caché) 33. Una colección manipulada punto a punto 35 memoriza referencias cruzadas entre el identificador de la memoria 32 de mensajes originales o carpeta en la memoria de mensajes originales y el identificador de la carpeta o subcarpeta correspondiente recién creada en la memoria caché 33. Durante el procesamiento, los mensajes electrónicos son "graduados" en categorías de duplicados, casi duplicados y únicos, y rotulados por la serie de conversación más larga.

Los resultados del procesamiento de mensajes se registran históricamente en un registro 34 para identificar los mensajes únicos 44 y para crear una pista de revisión de procesamiento para permitir encontrar fácilmente la fuente y la disposición última de cualquier mensaje dado. Asimismo, una colección manipulada 36 de referencias cruzadas permite presentar los identificadores de mensajes únicos y recuperar la información de localización de la fuente de aquellos mensajes que son duplicados o casi duplicados del mensaje único. La información recuperada permite la reagregación opcional de los mensajes únicos seleccionados y de los mensajes relacionados duplicados y casi duplicados en un momento posterior, por ejemplo mediante su inclusión en la memoria caché 33 al final del proceso de revisión de documentos. Opcionalmente, los mensajes duplicados y casi duplicados se pueden reunir con sus mensajes únicos relacionados para completarlos. El registro 34 registra no sólo la disposición de cada menaje sino que, en el caso de mensajes duplicados y casi duplicados, indica el mensaje único con el que está asociado cada mensaje duplicado y casi duplicado, lo que permite por tanto localizar mensajes duplicados y casi duplicados específicos, y reagregarlos opcionalmente con mensajes únicos seleccionados en un momento posterior. En las realizaciones descritas, la colección manipulada 36 de referencias cruzadas se mantiene como parte del registro 34, pero se identifica por separado para mayor claridad. Los mensajes únicos 44 se copian en la memoria caché 33 para su transferencia a la siguiente etapa de la revisión de documentos.

Figura 3 es un diagrama 40 de flujo de datos que muestra el ciclo del procesamiento de mensajes electrónicos seguido por el sistema 30 de Figura 2. En primer lugar se abren para su acceso las diversas memorias 41 de mensajes. Se extraen meta-datos consistentes en información de identificación de los mensajes, y tópicos (o asuntos) de los mensajes, en una matriz "maestra" 42. La matriz maestra 42 es una colección lógica de la información de tópicos e identificación, en forma de meta-datos, para todos los mensajes en las diversas memorias 41 de mensajes. Los meta-datos son manipulados en las diversas estructuras de datos aquí descritas, incluyendo la matriz maestra 42, matriz de tópicos 43, y matrices para mensajes únicos 44, mensajes casi duplicados 45, longitudes de series 46 y mensajes duplicados 46. Sin embargo, excepto si se señala otra cosa, se describe que los mensajes son manipulados directamente durante el procesamiento, aunque el experto en la técnica podrá apreciar que se podrían usar meta-datos, mensajes, o cualquier combinación de los mismos.

Los mensajes en la matriz maestra 42 son clasificados por tópicos para identificar mensajes únicos y series de conversación, tal como se reflejan por rangos de ocurrencias múltiples del mismo tópico. La información de identificación (meta-datos) para aquellos mensajes que tienen tópicos idénticos se extrae en una matriz de tópicos 43, cada vez que se encuentra un nuevo tópico dentro de la matriz maestra 42.

La matriz de tópicos 43 funciona como una matriz de trabajo dentro de la cual se procesan mensajes tópicamente idénticos. La información de identificación extraída de la matriz maestra 42 se usa para copiar en la matriz de tópicos información adicional de mensajes que comparten un mismo tópico, incluyendo su texto ordinario. En cualquier momento durante el procesamiento, la matriz de tópicos 43 contiene solamente aquellos mensajes que comparten un tópico común. Estos mensajes tópicamente idénticos se clasifican por cuerpo de texto ordinario y se analizan. Mensajes duplicados 47, que contienen un contenido sustancialmente duplicado, se eliminan de la matriz de tópicos 43. Los restantes mensajes no duplicados en la matriz de tópicos 43 se investigan respecto a marcadores de serie que indican un contenido incluido recursivamente y se concuerdan longitudes de series de conversación 46. Se comparan los mensajes en la matriz de tópicos 43 y se identifican mensajes casi duplicados 45. Los mensajes únicos 45 se marcan para su transferencia a la memoria caché 48.

Figura 4 es un diagrama de bloques que muestra los módulos de software 60 del sistema 30 de Figura 2. Cada módulo es un programa, procedimiento o módulo informático escrito como código fuente en un lenguaje de programación convencional, tal como el lenguaje de programación Visual Basic, y se presenta para ejecución por la CPU como código objeto o de octetos (bytes), como es conocido en la técnica. Las diversas implementaciones del código fuente y de los códigos objeto o de bytes se pueden mantener en un medio de memoria legible por ordenador o realizar sobre un medio de transmisión en una onda portadora. El procesador 20 de mensajes opera de acuerdo con una secuencia de etapas de proceso, tal como se describe más abajo comenzando por hacer referencia a Figura 6.

El procesador 20 de mensajes incluye cuatro módulos principales: selector 61 de mensajes duplicados, selector 62 de longitudes de series, selector 63 de mensajes casi duplicados y selector 64 de mensajes únicos. Antes del procesamiento, las memorias 41 de mensajes se consolidan lógicamente en la matriz maestra 42. En cada etapa del procesamiento de mensajes, se crea una entrada de registro (o se modifica una entrada existente) en un registro 34 para seguir la pista de los mensajes y grabar información de identificación de los mensajes. El selector 61 de mensajes duplicados identifica y elimina aquellos mensajes duplicados 47 que contienen contenido sustancialmente duplicado de la matriz de tópicos 43. El selector 62 de longitudes de serie concuerda las longitudes 46 de las series de conversación y mantiene una ordenación de longitudes de series, preferiblemente desde la longitud de la serie de conversación más corta a la más larga. El selector 63 de mensajes casi duplicados designa como mensajes casi duplicados 45 aquellos cuyo contenido está incluido recursivamente en otros mensajes, tales como aquellos mensajes generados mediante una secuencia de respuesta o reenvío, o como un adjunto. El selector 64 de mensajes únicos designa como mensajes únicos 45 aquellos mensajes que han sido extraídos de la matriz maestra 42 como no siendo tópicamente idénticos y aquellos mensajes que quedan una vez que se han identificado los mensajes duplicados 48 y los mensajes casi duplicados 46. Los mensajes únicos 45 son reenviados a la memoria caché 48 para su uso en la subsiguiente revisión de documentos. Los mensajes únicos, casi duplicados y duplicados, así como los recuentos de series, son grabados regularmente en el registro 34, a medida que se determina la naturaleza de cada mensaje. Asimismo, la información de localización que permite la subsiguiente recuperación de cada mensaje casi duplicado 45 y mensaje duplicado 47 se inserta regularmente en la colección manipulada 36 de referencias cruzadas que relaciona el mensaje a un mensaje único, a medida que se determina la relación.

Figura 5 muestra, a título de ejemplo, un mensaje electrónico anotado 70. Con frecuencia, el mensaje que tiene la longitud de serie de conversación más larga 47 es el mensaje más útil para revisar. Cada mensaje precedente está incluido recursivamente dentro del mensaje que tiene la longitud de serie de conversación más larga, y por tanto estos mensajes casi duplicados se pueden saltar en un proceso de revisión eficiente.

El mensaje ejemplo 70 incluye dos mensajes incluidos recursivamente: un mensaje de correo electrónico original 71 y un mensaje de correo electrónico de respuesta 72. El mensaje de correo electrónico original 71 fue enviado por un primer usuario, user1@aol.com, a un segundo usuario, user2@aol.com. En respuesta al mensaje de correo electrónico original 71, el segundo usuario, user2@aol.com, generó el mensaje de correo electrónico de respuesta 72, devuelto al primer usuario, user1@aol.com. Finalmente, el primer usuario, user1@aol.com, reenvió el mensaje de correo electrónico de respuesta 72, que incluía también el mensaje de correo electrónico original 71 como mensaje de correo electrónico reenviado 73, a un tercer usuario, user3@aol.com.

Cada uno de los mensajes de correo electrónico 71, 72, 73 respectivamente incluye un cuerpo 74, 78, 82 del mensaje (incluido recursivamente), y una cabecera 75, 77, 81 del mensaje. El mensaje de correo electrónico original 71 y el mensaje de correo electrónico de respuesta 72 son mensajes incluidos recursivamente. El mensaje de correo electrónico original 71 está incluido recursivamente tanto en el mensaje de correo electrónico de respuesta 72 como en el mensaje de correo electrónico reenviado 73, mientras que el mensaje de correo electrónico de respuesta 72 está incluido recursivamente sólo en el mensaje de correo electrónico reenviado 73.

Cada sucesiva respuesta, reenvío u operación similar aumenta la longitud de la serie de conversación 47. Las longitudes de las series 47 se indican dentro de los propios mensajes mediante alguna forma de delimitador. En el ejemplo mostrado, la inclusión del mensaje de correo electrónico original 71 en el mensaje de correo electrónico de respuesta 72 está delimitada tanto por un separador 80 como por un indicador "RE:" en la línea de asunto 79. De modo similar, la inclusión del mensaje de correo electrónico de respuesta 72 está delimitada por un separador 84 y un indicador "FW:" en la línea de asunto 83. Los separadores de mensajes 80, 84 e indicadores de línea de asunto 79, 83 constituyen "marcadores" de series que pueden ser buscados, identificados y analizados por el procesador 20 de mensajes para determinar longitudes de series 47 y mensajes casi duplicados 46.

Figura 6 es un diagrama de flujo que muestra un método 100 para procesar eficientemente mensajes memorizados en memorias de mensajes múltiples, de acuerdo con la presente invención. El método 100 opera en dos fases: inicialización (bloques 101-103) y procesamiento (bloques 104-107).

Durante la inicialización, se abren las memorias 41 de mensajes (mostradas en Figura 3) para su acceso por el procesador 20 de mensajes (bloque 101) y se crea la memoria caché 48 (bloque 102), tal como se describe más abajo haciendo referencia a Figura 7. En la realización descrita, el procesador 20 de mensajes tiene una capacidad de programa finita que presenta un límite superior para el número máximo de mensajes electrónicos que se pueden procesar durante una sola pasada. En consecuencia, se pueden requerir múltiples pasadas de procesamiento para procesar todos los mensajes memorizados en el agregado de las memorias 41 de mensajes.

Suponiendo que el número agregado de mensajes excede de los límites del programa, el procesamiento se subdivide en una serie de pasadas, n, durante cada una de las cuales se procesa una parte del agregado de memorias 41 de mensajes. El número de pasadas n requerido para procesar las memorias 41 de mensajes fuente se determina (bloque 103) mediante la siguiente ecuación:

n = max \left(\frac{TotNumMensajes}{ProgMax} \right)

siendo n igual al número total de pasadas iterativas, TotNumMensajes el número total de mensajes en el agregado de las memorias 41 de mensajes, y ProgMax la capacidad máxima de procesamiento de mensajes del programa.

En la realización descrita, la selección agregada de mensajes de las memorias 41 de mensajes se procesa mediante solape de la partición i, preferiblemente etiquetada dividiendo el alfabeto en particiones correspondientes al número de pasadas n. Por ejemplo, si se requieren dos pasadas n, las particiones serían "menor que M" y "mayor que L". De modo similar, si se requirieran 52 pasadas n, las particiones serían "menor que Am" y "mayor que Al y menor que Ba".

Durante la operación, las particiones, si se requiere, se procesan en un bucle de procesamiento iterativo (bloques 104-106). Durante cada pasada n (bloque 104) los mensajes son procesados (bloque 105) tal como se describe más abajo comenzando por hacer referencia a Figura 8. Tras completarse el procesamiento (bloque 106), se cierran las memorias 41 de mensajes (bloque 107). Como una operación opcional, los mensajes duplicados 47 y los mensajes casi duplicados 45 se reinsertan en la memoria caché 48 (bloque 108). El método termina tras completarse el proceso.

Figura 7 es un diagrama de flujo que muestra la rutina 120 para crear una memoria caché para su uso en el método 100 de Figura 6. La finalidad de esta rutina es crear un área de retención, llamada la memoria caché 48 (mostrada en Figura 3) en la que se memorizan los mensajes únicos 43 para la siguiente etapa de la revisión de documentos. Se mantiene un contador de mensajes para contar los mensajes en el agregado de todas las memorias 41 de mensajes. El contador de mensajes se pone a cero inicialmente (bloque 121). Cada una de las memorias 41 de mensajes fuente se procesa a continuación en una pareja de bucles de procesamiento iterativos jerarquizados (bloques 122-128 y 124-129), como sigue.

Durante el bucle de procesamiento exterior (bloques 122-129), se crea una carpeta correspondiente a cada memoria 41 de mensajes fuente en la memoria caché 48 (bloque 123). A continuación, cada una de las carpetas en la memoria 41 de mensajes fuente seleccionada actualmente es procesada iterativamente en el bucle de procesamiento interior (bloques 124-128), como sigue. En primer lugar, el contador de mensajes se incrementa en el número de mensajes en la carpeta a examinar en la memoria 41 de mensajes fuente (bloque 125) y se crea una carpeta correspondiente en la memoria caché 48 (bloque 126). Se hace una entrada en una colección manipulada punto a punto 35 (Bloque 127) que constituye una referencia cruzada entre un puntero para la memoria 41 de mensajes originales o carpeta en la memoria de mensajes originales y un puntero para la carpeta o subcarpeta correspondiente recién creada en la memoria caché 48. Cuando los mensajes únicos se copian posteriormente en la memoria caché 48, este fichero manipulado permite que el copiado se efectúe "punto a punto", en lugar de requerir que las carpetas en la memoria caché 48 hayan de ser buscadas iterativamente para encontrar la correcta. El procesamiento de cada carpeta en la memoria 41 de mensajes fuente actual continúa (bloque 128) para cada carpeta restante en la memoria de mensajes fuente. De modo similar, el procesamiento de cada una de las propias memorias 41 de mensajes fuente continúa (bloque 129) para cada memoria 41 de mensajes fuente restante, tras lo cual la rutina retorna (bloque 130), proporcionando un recuento de todos los mensajes en todas las memorias de mensajes fuente, por lo que se puede determinar el número de pasadas requeridas.

Figura 8 es un diagrama de flujo que muestra la rutina 140 para procesar mensajes para su uso en el método 100 de Figura 6. La finalidad de esta rutina es pre-procesar los mensajes memorizados en la memoria 41 de mensajes. Obsérvese que, en cada etapa del procesamiento de mensajes, se introduce implícitamente una entrada de registro en el registro 34 (mostrado en Figura 3) para grabar la categorización y disposición de cada mensaje.

Los mensajes son procesados en un bucle de procesamiento (bloques 141-144). Durante cada iteración (bloque 141), cada mensaje en la carpeta seleccionada es comprobado respecto a su pertenencia a la partición actual i de las memorias 41 de mensajes fuente (bloque 142). Si el mensaje está en la partición correcta i (bloque 142), el mensaje es transferido lógicamente a la matriz maestra 42 (bloque 143) extrayendo la información de tópico y de localización, incluyendo información de identificación del mensaje y punteros para la memoria 41 de mensajes fuente, la carpeta de mensajes fuente, y para el mensaje individual (meta-datos). El uso de meta-datos, en lugar de copiar mensajes enteros, conserva espacio de memorización y de memoria y facilita un más rápido procesamiento. El procesamiento continúa para cada mensaje en la carpeta seleccionada (bloque 144).

Cuando todas las carpetas han sido procesadas y los meta-datos para aquellos datos que se ha encontrado que están dentro de la partición han sido transferidos a la matriz maestra, comienza el procesamiento de los mensajes. Los mensajes son clasificados por tópico (bloque 145) y se procesa la matriz maestra 42 (bloque 146), tal como se describe más abajo haciendo referencia a Figura 9. Finalmente se procesa el registro 49 (bloque 147), tras lo cual la rutina retorna.

Figura 9 es un diagrama de flujo que muestra la rutina 160 para procesar la matriz maestra 42 para su uso en la rutina 140 de Figura 8. La finalidad de esta rutina es identificar los mensajes únicos 44 y procesar los mensajes tópicamente idénticos usando la matriz de tópicos 43. La rutina procesa los mensajes para identificar mensajes únicos y tópicamente similares usando un bucle de procesamiento iterativo (bloques 161-171). Durante cada iteración (bloque 161), el tópico (o línea de asunto) de cada mensaje en la matriz maestra 42 se compara con el del mensaje siguiente en la matriz maestra 42 (bloque 162). Si los tópicos concuerdan (bloque 163), los mensajes pueden proceder de la misma serie de conversación. Si el mensaje es el primer mensaje con el tópico actual en concordar con el mensaje siguiente (bloque 164), este primer mensaje en la serie potencial se marca como el comienzo de un rango de tópico (bloque 165) y el procesamiento continúa con el siguiente mensaje (bloque 171). En caso contrario, si el mensaje no es el primer mensaje en la serie de conversación (bloque 164), el mensaje se salta y el procesamiento continúa con el mensaje siguiente (bloque 171).

Si los tópicos no concuerdan (bloque 163), el rango de tópico precedente está terminando y está comenzando un nuevo rango de tópico. Si el mensaje actual no era el primer mensaje con dicho tópico (bloque 166), se procesa el rango de mensajes con el mismo tópico (que comenzó con el mensaje marcado en el bloque 165) (bloque 168). Si el mensaje actual es el primer mensaje con el tópico concordante (bloque 166), el mensaje se extrae como un mensaje único 45 (bloque 167) y el procesamiento continúa con el mensaje siguiente (bloque 171). Si el rango de tópico ha terminado (bloque 166), cada mensaje tópicamente idéntico, más el tiempo de transmisión del mensaje, se extraen lógicamente en la matriz de tópicos 43 (bloque 168). En la realización descrita, los mensajes no se copian físicamente en la matriz de tópicos 43; por el contrario, cada mensaje es "transferido" lógicamente usando meta-datos a la matriz de tópicos 43 para proporcionar información de localización de fuente de los mensajes, que se usa para añadir una copia del cuerpo de texto ordinario del mensaje en la matriz de tópicos. La matriz de tópicos 43 se clasifica por cuerpo de texto ordinario (bloque 169) y se procesa (bloque 170), tal como se explica más abajo haciendo referencia a Figuras 10A-C. El procesamiento continúa con el mensaje siguiente (bloque 171). La rutina retorna tras el procesamiento del último mensaje en la matriz maestra 42.

Figuras 10A-C son diagramas de flujo que muestran la rutina 180 para procesar una matriz de tópicos para su uso en la rutina 160 de Figura 9. La finalidad de esta rutina es completar el procesamiento de los mensajes, incluyendo la identificación de mensajes duplicados, casi duplicados y únicos, y contar longitudes de series. La rutina cicla a través de la matriz de tópicos 43 (mostrada en Figura 3) en tres bucles de procesamiento iterativos (bloques 181-187, 189-194 y 196-203), como sigue.

Durante el primer bucle de procesamiento (bloques 181-187) se examina cada mensaje en la matriz de tópicos 43. El cuerpo de texto ordinario del mensaje actual se compara con el cuerpo de texto ordinario del mensaje siguiente (bloque 182). Si los cuerpos de texto ordinario concuerdan (bloque 183), existe posiblemente un mensaje exactamente duplicado, pendiente de verificación. El candidato a duplicado exacto se verifica comparando la información de cabecera 75, 77, 81 (mostrada en Figura 5), el remitente del mensaje (bloque 184) y los tiempos de transmisión de cada mensaje. Si se verifica la concordancia (bloque 185), el primer mensaje se marca como un duplicado exacto del segundo mensaje, y la información de identificación para los primero y segundo mensajes y su relación se graban en el registro 49 (bloque 186) y colección manipulada 36 de referencias cruzadas (mostrada en Figura 2). El procesamiento de cada mensaje subsiguiente en la matriz de tópicos 43 (bloque 187) continúa para los mensajes restantes.

A continuación, los mensajes marcados como mensajes duplicados se eliminan de la matriz de tópicos 43 (bloque 188) y los restantes mensajes no duplicados en la matriz de tópicos 43 se procesan en el segundo bucle de procesamiento (bloques 189-194) como sigue. En primer lugar, se investiga cada mensaje respecto a marcadores de serie, incluyendo separadores 80, 84 e indicadores de línea de asunto 79-83 (mostrados en Figura 5) (bloque 190). Si se encuentran marcadores de serie (bloque 191) se cuenta y graba el número de ocurrencias m de marcadores de serie (bloque 192). En caso contrario, el mensaje se graba como provisto de cero marcadores de serie (bloque 193). En la realización descrita, las entradas de datos que tienen cero marcadores de serie se incluyen en las operaciones de clasificación. Estos mensajes tienen contenido del mensaje, pero no incluyen otros mensajes. La grabación de cero marcadores de serie permite que estos mensajes "de primera vez" sean comparados con mensajes que tienen mensajes incluidos. El procesamiento continúa para cada uno de los restantes mensajes (bloque 194), hasta que todos los mensajes restantes en la matriz de tópicos 43 han sido procesados.

La matriz de tópicos se clasifica a continuación en orden creciente de marcadores de serie m (bloque 195), y los mensajes restantes en la matriz de tópicos 43 se procesan iterativamente en el tercer bucle de procesamiento (bloques 196-203). Durante cada bucle de procesamiento (bloque 196), se seleccionan los primero y subsiguientes mensajes (bloques 197, 198) y se compara el cuerpo de texto ordinario de los mensajes (bloque 199). En la realización descrita, se utiliza una función de comparación de texto para permitir la comparación eficiente de grandes bloques de texto. Si el cuerpo de texto ordinario del primer mensaje seleccionado está incluido en el cuerpo de texto ordinario del segundo mensaje seleccionado (bloque 200), el primer mensaje se marca como un casi duplicado del segundo mensaje, y la información de identificación de los primero y segundo mensajes y su relación se graban en el registro 49 y colección manipulada 36 de referencias cruzadas (mostrada en Figura 2) (bloque 201). Si el cuerpo de texto ordinario del primer mensaje seleccionado no está incluido en el cuerpo de texto ordinario del segundo mensaje seleccionado y ocurren mensajes adicionales a continuación del segundo mensaje en la matriz de tópicos 43 (bloque 202), el mensaje siguiente se selecciona y compara como antes (bloques 198-202). Se procesa cada mensaje subsiguiente en la matriz de tópicos (bloque 203) hasta que todos los mensajes restantes han sido procesados, tras lo cual la rutina retorna.

Figura 11 es un diagrama de flujo que muestra la rutina 220 para procesar un registro, para su uso en la rutina 140 de Figura 8. La finalidad de esta rutina es finalizar el registro 34 para su uso en el proceso de revisión. El procesamiento ocurre en un bucle de procesamiento iterativo (bloques 221-226) como sigue. Cada mensaje en la matriz maestra 42 se procesa durante cada bucle (bloque 221). Si el mensaje seleccionado es un mensaje único 45 (bloque 222), una copia del mensaje se recupera desde la carpeta fuente en la memoria 41 de mensajes fuente (mostrada en Figura 3) y se coloca en la carpeta correspondiente en la memoria de mensajes correspondiente en la memoria caché 48 (bloque 223) (usando la colección manipulada 36 de referencias cruzadas creada en el momento de crear la memoria caché 34), y se crea además en el registro 34 una entrada con información de localización de la fuente del mensaje e información de identificación (bloque 224). En caso contrario, el mensaje se salta como un mensaje casi duplicado 45 o mensaje duplicado 47 (bloque 225) que no se reenvía a la fase siguiente del proceso de revisión de documentos. El procesamiento de cada mensaje subsiguiente en la matriz maestra 42 continúa (bloque 226) para todos los mensajes restantes, tras lo cual la rutina retorna.

Aunque la invención se ha mostrado y descrito particularmente haciendo referencia a las realizaciones de la misma, los expertos en la técnica entenderán que se pueden hacer en ella los cambios precedentes y otros, en forma y detalle, sin salirse del alcance de la invención.

Claims

1. Sistema para procesar eficientemente mensajes memorizados en memorias (32) de mensajes múltiples, que comprende:

un procesador (20) de mensajes que copia iterativamente meta-datos que identifican un rango de mensajes tópicamente idénticos extraídos desde una pluralidad de memorias de mensajes que memorizan una multiplicidad de mensajes a procesar y que categoriza los meta-datos para el rango extraído de mensajes tópicamente idénticos, comprendiendo además el procesamiento de mensajes:

un selector (61) de mensajes duplicados que identifica aquellos mensajes que contienen contenido sustancialmente duplicado dentro del rango extraído como mensajes duplicados;

un selector (62) de longitudes de series que concuerda aquellos mensajes no duplicados dentro del rango extraído en una ordenación de longitudes de series de conversación;

un selector (63) de mensajes casi duplicados que clasifica aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes no duplicados concordados como mensajes casi duplicados; y

un selector (64) de mensajes únicos que designa los mensajes restantes como mensajes únicos que contienen sustancialmente contenido no duplicado.

2. Sistema según la reivindicación 1, que comprende además:

el procesador (20) de mensajes que extrae los meta-datos para los mensajes a procesar desde las memorias (41) de mensajes y clasifica los meta-datos en función de tópico.

3. Sistema según la reivindicación 2, que comprende además:

el selector (61) de mensajes duplicados que clasifica los meta-datos para el rango extraído de mensajes tópicamente idénticos en función de contenido antes de identificar los mensajes duplicados.

4. Sistema según la reivindicación 1, que comprende además:

el selector (62) de longitudes de series que clasifica los meta-datos para los mensajes no duplicados por contenido antes de concordar los mensajes no duplicados.

5. Sistema según la reivindicación 1, que comprende además:

el selector (61) de mensajes duplicados que verifica los mensajes duplicados mediante comparación de indicios además del contenido memorizado en ellos.

6. Sistema según la reivindicación 5, en el que los indicios comprenden información de cabecera, que comprende además:

el selector (61) de mensajes duplicados que compara la información de cabecera memorizada con cada uno de los mensajes duplicados.

7. Sistema según la reivindicación 1, que comprende además:

el selector (62) de longitudes de series que determina cada longitud de serie de conversación sobre la base de marcadores de series que comprenden al menos una de palabras clave, secuencias delimitadoras, y localización relativa dentro de cada mensaje.

8. Sistema según la reivindicación 1, que comprende además:

un registro (34) que comprende una entrada para cada uno de los mensajes únicos, memorizando cada entrada del registro información de localización de la fuente del mensaje e información de identificación para cualesquiera de tales mensajes duplicados y mensajes casi duplicados relacionados con él.

9. Sistema según la reivindicación 1, que comprende además:

una memoria (48) que memoriza los mensajes únicos y que comprende una pluralidad de memorias relativas y carpetas correspondientes sustancialmente a las memorias de mensajes desde las que se originó cada mensaje único.

10. Sistema según la reivindicación 9, que comprende además:

una colección manipulada (35) de referencias cruzadas que comprende una entrada para cada uno de los mensajes duplicados y los mensajes casi duplicados manipulados para información de identificación para un mensaje único de este tipo asociado con ellos.

11. Sistema según la reivindicación 10, que comprende además:

la memoria (48) que memoriza los mensajes duplicados y los mensajes casi duplicados copiados en ella mediante identificación del mensaje único asociado con la colección manipulada de referencias cruzadas.

12. Sistema según la reivindicación 1, en el que cada mensaje es de un tipo que comprende al menos uno de correo electrónico, programación, ejecución de tareas, gestión de contactos, gestión de proyectos, actividades de trabajo en grupo, contenidos multimedia, y otras formas de objetos susceptibles de comunicación electrónica.

13. Sistema según la reivindicación 1, en el que cada memoria de mensajes comprende una memoria de mensajes compatible MAPI.

14. Método para procesar eficientemente mensajes memorizados en memorias de mensajes múltiples, que comprende:

copiar iterativamente meta-datos que identifican un rango de mensajes tópicamente idénticos extraídos desde una pluralidad de memorias de mensajes que memorizan una multitud de mensajes a procesar; y categorizar los meta-datos para el rango extraído de mensajes tópicamente idénticos, que comprende:

identificar aquellos mensajes que contienen contenido sustancialmente duplicado dentro del rango extraído como mensajes duplicados;

concordar aquellos mensajes no duplicados dentro del rango extraído en una ordenación de longitudes de series de conversación;

clasificar aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes no duplicados concordados como mensajes casi duplicados; y

designar los mensajes restantes como mensajes únicos que contienen sustancialmente contenido no duplicado.

15. Método según la reivindicación 14, que comprende además:

extraer los meta-datos para los mensajes a procesar desde las memorias de mensajes; y clasificar los meta-datos en función de tópico.

16. Método según la reivindicación 15, que comprende además:

clasificar los meta-datos para el rango extraído de mensajes tópicamente idénticos en función de contenido antes de identificar los mensajes duplicados.

17. Método según la reivindicación 14, que comprende además:

clasificar los meta-datos para los mensajes no duplicados por contenido antes de concordar los mensajes no duplicados.

18. Método según la reivindicación 14, que comprende además:

verificar los mensajes duplicados mediante comparación de indicios además del contenido memorizado en ellos.

19. Método según la reivindicación 18, en el que los indicios comprenden información de cabecera, que comprende además:

comparar la información de cabecera memorizada con cada uno de los mensajes duplicados.

20. Método según la reivindicación 14, que comprende además:

determinar cada longitud de serie de conversación sobre la base de marcadores de serie que comprenden al menos una de palabras clave, secuencias delimitadoras y localización relativa dentro de cada mensaje.

21. Método según la reivindicación 14, que comprende además:

mantener un registro que comprende una entrada para cada uno de los mensajes únicos, memorizando cada entrada del registro información de localización de la fuente del mensaje e información de identificación para cualesquiera de tales mensajes duplicados y mensajes casi duplicados relacionados con él.

22. Método según la reivindicación 14, que comprende además:

memorizar los mensajes únicos en una memoria que comprende una pluralidad de memorias relativas y carpetas correspondientes sustancialmente a las memorias de mensajes desde las que se originó cada mensaje único.

23. Método según la reivindicación 22, que comprende además:

mantener una colección manipulada de referencias cruzadas que comprende una entrada para cada uno de los mensajes duplicados y los mensajes casi duplicados manipulados para información de identificación para un mensaje único de este tipo asociado con ellos.

24. Método según la reivindicación 23, que comprende además:

memorizar los mensajes duplicados y los mensajes casi duplicados copiados en ella mediante identificación del mensaje único asociado con la colección manipulada de referencias cruzadas.

25. Método según la reivindicación 14, en el que cada mensaje es de un tipo que comprende al menos uno de correo electrónico, programación, ejecución de tareas, gestión de contactos, gestión de proyectos, actividades de trabajo en grupo, contenidos multimedia, y otras formas de objetos susceptibles de comunicación electrónica.

26. Método según la reivindicación 14, en el que cada memoria de mensajes comprende una memoria de mensajes compatible MAPI.

27. Medio de memorización legible por ordenador que contiene códigos para poner en práctica el método de la reivindicación 14.

28. Sistema para categorizar mensajes memorizados en memorias (41) de menajes en categorías discretas, que comprende:

una matriz maestra (42) que memoriza meta-datos para cada mensaje a procesar desde una pluralidad de memorias (42) de mensajes, identificando los meta-datos la memoria de mensajes fuente y la localización de memorización relativa para el mensaje;

medios (61) para clasificar los meta-datos en función de tópico y comparar el contenido de los mensajes con tópicos similares para identificar aquellos mensajes que contienen contenido sustancialmente duplicado;

medios (62) para clasificar los mensajes en función de contenido mediante referencia a los meta-datos y ordenar los meta-datos en orden de longitud de serie de conversación;

medios (63) para comparar el contenido para identificar aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes; y

medios (64) para identificar los mensajes restantes mediante referencia a los meda-datos como mensajes únicos.

29. Método para categorizar mensajes memorizados en memorias de menajes en categorías discretas, que comprende:

extraer meta-datos para cada mensaje a procesar desde una pluralidad de memorias de mensajes, identificando los meta-datos la memoria de mensajes fuente y la localización de memorización relativa para el mensaje;

clasificar los meta-datos en función de tópico y comparar el contenido de los mensajes con tópicos similares para identificar aquellos mensajes que contienen contenido sustancialmente duplicado;

clasificar los mensajes en función de contenido mediante referencia a los meta-datos y ordenar los meta-datos en orden de longitud de serie de conversación;

comparar el contenido para identificar aquellos mensajes cuyo contenido es contenido incluido recursivamente dentro de otro de los mensajes; e

identificar los mensajes restantes mediante referencia a los meda-datos como mensajes únicos.