DE60211489T2 - System und Verfahren zur Bearbeitung von in mehreren Nachrichtenspeichern gespeicherten Nachrichten - Google Patents

System und Verfahren zur Bearbeitung von in mehreren Nachrichtenspeichern gespeicherten Nachrichten Download PDF

Info

Publication number
DE60211489T2
DE60211489T2 DE60211489T DE60211489T DE60211489T2 DE 60211489 T2 DE60211489 T2 DE 60211489T2 DE 60211489 T DE60211489 T DE 60211489T DE 60211489 T DE60211489 T DE 60211489T DE 60211489 T2 DE60211489 T2 DE 60211489T2
Authority
DE
Germany
Prior art keywords
messages
message
duplicate
content
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60211489T
Other languages
English (en)
Other versions
DE60211489D1 (de
Inventor
Thomas David Seattle MCDONALD
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Attenex Corp
Original Assignee
Attenex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Attenex Corp filed Critical Attenex Corp
Publication of DE60211489D1 publication Critical patent/DE60211489D1/de
Application granted granted Critical
Publication of DE60211489T2 publication Critical patent/DE60211489T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich allgemein auf die Kategorisierung von gespeicherten Mitteilungen und insbesondere auf ein System und Verfahren zur effizienten Verarbeitung von Mitteilungen, die in mehrfachen Mitteilungs-Speichern gespeichert sind.
  • Hintergrund der Erfindung
  • Derzeit stellt die elektronische Mitteilungsübermittlung eine Hauptform der Kommunikationen zwischen Personen dar und ergänzt und ersetzt in mancher Hinsicht übliche sprachbasierte Kommunikationen. Die elektronische Mitteilungsübermittlung schließt traditionelle elektronische Post (E-Mail) ein und hat sich so entwickelt, dass sie die Zeitplanung, Aufgabensteuerung, die Kontakt- und Projektverwaltung und eine zunehmende Anzahl von automatisierten Arbeitsgruppen-Aktivitäten umfasst. Die elektronische Mitteilungsübermittlung schließt weiterhin den Austausch von elektronischen Dokumenten und Multimedien-Inhalten ein, die in vielen Fällen als Anlagen eingefügt werden. Weiterhin kann im Gegensatz zur Sprachpost die elektronische Mitteilungsübermittlung sehr einfach an eine Zielgruppen übermittelt werden, die von einem einzigen Benutzer zu einer Arbeits-Gruppe, einer Firma oder sogar weltweit reichen, indem vordefinierte Mitteilungs-Adressenlisten verwendet werden.
  • Eine grundlegende elektronische Mitteilungsübermittlungs-Architektur schließt einen Mitteilungsaustausch-Server ein, der mit einer Vielzahl von einzelnen Teilnehmern oder Klienten kommuniziert. Der Mitteilungsaustausch-Server wirkt als ein elektronischer Mitteilungs-Verwalter, der elektronische Mitteilungen von dem Klienten speichert, empfängt und verteilt, wobei ein oder mehrere Mitteilungs-Datenbanken verwendet werden. Individuelle elektronische Mitteilungsinformationen werden in Mitteilungsspeichern gehalten, die als Verzeichnisse oder Archive bezeichnet werden, und die durch ein Benutzerkonto innerhalb der Mitteilungs-Datenbanken identifiziert werden. Im Allgemeinen archiviert eine Firma gemäß einer Richtlinie die Mitteilungs-Datenbanken als historische Datenspeicherung während der Routine-Sicherungsprozeduren.
  • Die in archivierten elektronischen Mitteilungen enthaltene Information kann eine möglicherweise nützliche Chronologie von historisch bedeutsamen Ereignissen liefern. Beispielsweise stellen Mitteilungs-Konversationsketten einen laufenden Dialog dar, der eine Chronik des Entscheidungsprozesses bilden kann, der von einzelnen Personen während der Ausführung ihrer Firmen-Verantwortlichkeiten ausgeführt wird. Weiterhin können die einzelnen Mitteilungs-Speicherarchive den Empfang und die Bestätigung bestimmter Firmenmitteilungen sowohl örtlich als auch an verteilten Orten nachweisen. Die archivierten elektronischen Mitteilungs-Datenbanken ergeben weiterhin nützliche Rückverfolgungspfade zur Verfolgung des Informationsflusses.
  • Entsprechend wenden sich Sachverhalt-Sucher zunehmend archivierten elektronischen Mitteilungsspeichern zu, um kritische Informationen zu lokalisieren und einen Einblick in die einzelnen Motivationen und Verhaltensweisen zu erhalten. Insbesondere werden elektronische Mitteilungsspeicher nunmehr fast routinemäßig während der Ausforschungsphase von Streitfällen vorgelegt, um Beweise und Materialien zu gewinnen, die für die Streitparteien und das Gericht nützlich sind. Die Ausforschung beinhaltet eine Durchsicht von Dokumenten, während der alle relevanten Materialien gelesen und analysiert werden. Der Dokumenten-Überprüfungsprozess ist zeitraubend und aufwändig, weil jedes Dokument schließlich manuell gelesen werden muss. Eine vorhergehende Analyse von Dokumenten zur Entfernung von duplizierter Information kann erheblich Zeit und Aufwand sparen, indem das Überprüfungsgebiet eingeschränkt wird, insbesondere wenn man eine große Anzahl von einzelnen Mitteilungen behandeln muss, die in jedem der archivierten elektronischen Mitteilungsspeicher für eine Gemeinschaft von Benutzern gespeichert sind.
  • Typischerweise werden elektronische Mitteilungen, die in archivierten elektronischen Mitteilungsspeichern aufbewahrt werden, physikalisch als Datenobjekte gespeichert, die Text oder anderen Inhalt enthalten. Viele dieser Objekte sind Duplikate, zumindest teilweise, von anderen Objekten in den Mitteilungsspeicher für den gleichen Benutzer oder für andere Benutzer.
  • Beispielsweise werden elektronische Mitteilungen in vielen Fälleln durch die Einfügung in eine Antwort oder eine weitergeleitete Mitteilung oder als Anlage dupliziert. Eine Kette derartiger rekursiv eingefügter Mitteilungen bildet einen Konversations-"Pfad". Zusätzlich rufen eine Rundsendung, die Parallelverarbeitung und elektronische Massenmitteilungs- „Postsendungen" eine Mitteilungsduplizierung über jede Anzahl von einzelnen elektronischen Mitteilungsübermittlungs-Konten hervor.
  • Obwohl das Ziel der Dokumenten-Voranalyse in der Verringerung der Größe des Betrachtungsgebietes liegt, ergibt eine vereinfachte Entfernung aller duplizierter Mitteilungen lediglich eine teilweise Lösung. Im Mittel stellen exakt duplizierte Mitteilungen einen kleinen Anteil des duplizierten Materials dar. Ein wesentlich größerer Anteil der duplizierten elektronischen Mitteilungen bildet einen Teil von Konversations-Pfaden, die eingebettete Information enthalten, die durch eine Antwort, eine Weiterleitung oder durch eine Anlage erzeugt wird. Die Mitteilung, die den längsten Konversations-Pfad enthält, ist in vielen Fällen die wichtigste Mitteilung, weil jede der früheren Mitteilungen mit der Mitteilung selbst weitergeleitet wird. Die Mitteilungen, die einen Konversations-Pfad umfassen, sind „nahezu" duplizierte Mitteilungen, die ebenfalls von Interesse sein können, um zeitliche oder sachliche Beziehungen zu zeigen, sowie um möglicherweise duplizierte Information erkennen zu lassen.
  • Beim Stand der Technik liefern elektronische Mitteilungsübermittlungs-Anwendungen nur begrenzte Werkzeuge zur Verarbeitung elektronischer Mitteilungen. Elektronische Mitteilungsübermittlungs-Klienten, wie z.B. das Outlook-Produkt, das von der Firma Microsoft Corporation, Redmond, Washington lizensiert wird, oder das cc:mail-Produkt, das von der Lotus Corporation, Cambridge, Massachusetts lizensiert wird, ergeben rudimentäre Einrichtungen zum Sortieren gespeicherter Mitteilungen. Diese Einrichtungen sind jedoch auf die Verarbeitung lediglich derjenigen Mitteilungen beschränkt, die in einem einzigen Benutzer-Konto gespeichert sind, und sie sind nicht in der Lage, mehrfache elektronische Mitteilungsspeicher zu handhaben, die von unterschiedlichen Mitteilungsverwaltern aufbewahrt werden.
  • Die Veröffentlichung „Distribution Duplication Prevention Mechanism", Research Disclosure, Kenneth Mason Publications, Hampshire, GB, NO. 336, 1. April 1992 (1992-04-01), Seite 261, XP000304807 ISSN: 0374-4353 beschreibt ein Verfahren zum Verhindern des Empfangs von duplizierten Kopien von Verteilungen, unter Einschluss von E-Mails, Telefax-Mitteilungen und Sprachpost. Das Verfahren verhindert den Empfang von Duplikaten durch einen Empfänger, indem Attribute betrachtet werden, um festzustellen, ob die ankommende Verteilung identisch zu einer anderen ist.
  • Es besteht daher ein Bedarf an einer Lösung für die Verarbeitung elektronischer Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert sind, für eine Dokumenten-Voranalyse. Vorzugsweise würde eine derartige Lösung ein Ergebnis-Protokoll erzeugen, das eine punktweise aufgeschlüsselte Sammlung und eine nach Querverweisen aufgeschlüsselte Sammlung einschließen würde und die elektronischen Mitteilungen in Kategorien „klassifizieren" würde, die eindeutige exakte Duplikate, und angenäherte oder Quasi-Duplikate von Mitteilungen einschließen würde und weiterhin die Konversations-Pfadlänge bestimmen würde.
  • Es besteht ein weiterer Bedarf an einer Lösung zur Identifikation von eindeutigen Mitteilungen und verwandten duplizierten oder quasi-duplizierten Mitteilungen, die in mehrfachen Mitteilungsspeichern aufbewahrt sind. Vorzugsweise würde eine derartige Lösung die Fähigkeit einschließen, eindeutige Mitteilungen zu trennen und später ausgewählte eindeutige Mitteilungen mit ihren verwandten duplizierten und quasi-duplizierten Mitteilungen in der erforderlichen Weise neu zusammenzufassen.
  • Es besteht ein weiterer Bedarf an einer Lösung zur Verarbeitung elektronischer Mitteilungen, die durch Anwendungen erzeugt werden, die zu Mitteilungsübermittlungs-Anwendungsprogrammierschnittstellen (MAPI) konform sind.
  • Offenbarung der Erfindung
  • Die Erfindung definiert Systeme und Verfahren gemäß den beigefügten Ansprüchen.
  • Die vorliegende Erfindung ergibt ein System und ein Verfahren zur Erzeugung eines Schatten-Speichers, der Mitteilungen speichert, die aus einer gebündelten Sammlung von Mitteilungsspeichern ausgewählt sind. Der Schatten-Speicher kann in einem Dokumenten-Überprüfungsprozess verwendet werden. Der Schatten-Speicher wird durch die Hrausziehen ausgewählter Information über Mitteilungen aus jedem der einzelnen Mitteilungsspeicher in eine Haupt-Gruppe erzeugt. Die Haupt-Gruppe wird verarbeitet, um Mitteilungsthemen zu identifizieren, die lediglich einmal in einzelnen Mitteilungsspeichern auftreten, und um dann die verwandten Mitteilungen als einzigartig zu identifizieren. Die verbleibenden nicht-einzigartigen Mitteilungen werden Thema für Thema in einer Thema-Gruppe verarbeitet, aus der duplizierte, quasi-duplizierte und einzigartige Mitteilungen identifiziert werden. Zusätzlich werden Pfad-Zählungen geführt. Eine Protokolldatei, die die Eigenart und den Ort jeder Mitteilung und die Beziehung jeder Mitteilung zu anderen Mitteilungen anzeigt, wird erzeugt. Im Wesentlichen einzigartige Mitteilungen werden in den Schattenspeichern zur Verwendung in anderen Prozessen kopiert, wie z.B. in einem Dokumenten-Überprüfungsprozess. Wahlweise werden ausgewählte duplizierte oder quasi-duplizierte Mitteilungen ebenfalls in den Schattenspeicher oder irgendeinen anderen Speicher kopiert, der die verwandte einzigartige Mitteilung enthält.
  • Ein System und Verfahren zur effizienten Identifikation von einzigartigen oder Unikat-Mitteilungen, die in organisierten Mitteilungsspeichern gespeichert sind, wird beschrieben. Duplizierte Mitteilungen, die im Wesentlichen duplizierten Inhalt enthalten, werden aus thematisch identischen Mitteilungen entfernt, die logisch aus einer Vielzahl von organisierten Mitteilungsspeichern abgeleitet wurden. Quasi-duplizierte Mitteilungen, die Inhalt enthalten, der rekursiv in einer anderen der verbleibenden Mitteilungen enthalten sind, werden ebenfalls entfernt. Einzigartige Mitteilungen, die zumindest eine einer Mitteilung, die ein einziges Auftreten eines vorgegebenen Themas speichert, und einer Mitteilung, die nicht rekursiven Inhalt bezüglich anderer derartiger logisch abgeleiteter Mitteilungen speichern, werden gespeichert.
  • Eine Ausführungsform der vorliegenden Erfindung ist ein System und Verfahren zur effizienten Verarbeitung von Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert sind. Metadaten, die einen Bereich von thematisch identischen Mitteilungen identifizieren, die von einer Vielzahl von Mitteilungsspeichern abgeleitet sind, die eine Vielzahl von zu verarbeitenden Mitteilungen speichern, werden iterativ kopiert. Die Metadaten für den abgeleiteten Bereich von thematisch identischen Mitteilungen werden kategorisiert. Wenn für irgendeinen Themabereich die Anzahl von thematisch identischen Mitteilungen gleich Eins ist, so wird diese Mitteilung als einzigartig oder Unikat identifiziert. Wenn die Anzahl von thematisch identischen Mitteilungen größer als Eins ist, werden diejenigen Mitteilungen, die im Wesentlichen duplizierten Inhalt innerhalb des abgeleiteten Bereiches enthalten, als duplizierte Mitteilungen identifiziert. Diejenigen nicht-duplizierten Mitteilungen innerhalb des abgeleiteten Bereiches werden in einer Reihenfolge der Konversations-Pfadlänge aufgeführt.
  • Diejenigen Mitteilungen, deren Inhalt ein rekursiv enthaltener Inhalt in anderen der aufgeführten nicht-duplizierten Mitteilungen ist, werden als quasi-duplizierte Mitteilungen klassifiziert. Die verbleibenden Mitteilungen werden als einzigartige Mitteilungen bezeichnet, die Inhalt enthalten, der im Wesentlichen andere Mitteilungen nicht dupliziert.
  • Eine weitere Ausführungsform der vorliegenden Erfindung ist ein System und Verfahren zum Kategorisieren von Mitteilungen, die in Mitteilungsspeichern gespeichert sind, in getrennte Kategorien. Metadaten für jede zu verarbeitende Mitteilung werden von einer Vielzahl von Mitteilungsspeichern abgeleitet. Die Metadaten identifizieren den Quellen-Mitteilungsspeicher und den relativen Speicherplatz für die Mitteilung. Die Metadaten werden entsprechend einem Thema sortiert. Der Inhalt von Mitteilungen mit ähnlichen Mitteilungen mit identischen Themen werden verglichen, um diejenigen Mitteilungen zu identifizieren und zu beseitigen, die einen im Wesentlichen duplizierten Inhalt enthalten. Die verbleibenden Mitteilungen werden entsprechend dem Inhalt dadurch sortiert, dass auf die Metadaten Bezug genommen wird, und die Metadaten werden in der Reihenfolge der Konversations-Pfadlänge geordnet.
  • Der Inhalt wird verglichen, um diejenigen Mitteilungen zu identifizieren, deren Inhalt rekursiv enthaltener Inhalt in anderen der Mitteilungen ist. Die verbleibenden Mitteilungen werden durch Verweis auf die Metadaten als eindeutige Mitteilungen identifiziert.
  • Weitere Ausführungsformen der Erfindung werden für den Fachmann ohne weiteres aus der folgenden ausführlichen Beschreibung ersichtlich, in der Ausführungsformen der Erfindung zur Erläuterung der besten Ausführungsform beschrieben sind, die derzeit für die Durchführung der Erfindung in Betracht gezogen wird. Wie dies zu erkennen ist, kann die Erfindung in anderen und unterschiedlichen Ausführungsformen verwirklicht werden, und ihre verschiedenen Einzelheiten können in verschiedener naheliegender Hinsicht modifiziert werden, ohne dass der Schutzumfang der vorliegenden Erfindung verlassen wird. Entsprechend sollten die Zeichnungen und die ausführliche Beschreibung lediglich als erläuternd und nicht als beschränkend aufgefasst werden.
  • Beschreibung der Zeichnungen
  • 1 ist eine funktionelle Blockdarstellung, die eine verteilte Computerumgebung zeigt, unter Einschluss eines Systems zur effizienten Verarbeitung von Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert sind, gemäß der vorliegenden Erfindung.
  • 2 ist eine Blockdarstellung, die das System zur effizienten Verarbeitung von Mitteilungen nach 1 zeigt.
  • 3 ist ein Datenfluss-Diagramm, das die elektronische Mitteilungsverarbeitung zeigt, die das System nach 2 befolgt.
  • 4 ist eine Blockdarstellung, die die Software-Module des Systems nach 2 zeigt.
  • 5 zeigt in Form eines Beispiels eine mit Anmerkungen versehene elektronische Mitteilung.
  • 6 ist ein Ablaufdiagramm, das ein Verfahren zur effizienten Verarbeitung von Mitteilungen zeigt, die in mehrfachen Mitteilungsspeichern gespeichert sind, gemäß der vorliegenden Erfindung.
  • 7 ist ein Ablaufdiagramm, das die Routine zur Erzeugung eines Schattenspeichers zur Verwendung in dem Verfahren nach 6 zeigt.
  • 8 ist ein Ablaufdiagramm, das die Routine zur Verarbeitung von Mitteilungen zur Verwendung in dem Verfahren nach 6 zeigt.
  • 9 ist ein Ablaufdiagramm, das die Routine zur Verarbeitung der Haupt-Gruppe zur Verwendung in der Routine nach 8 zeigt.
  • Die 10A-C sind Ablaufdiagramme, die die Routine zur Verarbeitung einer Thema-Gruppe zur Verwendung in der Routine nach 9 zeigen.
  • 11 ist ein Ablaufdiagramm, das die Routine zur Verarbeitung eines Protokolls zur Verwendung in der Routine nach 8 zeigt.
  • Beste Ausführungsform zur Durchführung der Erfindung
  • 1 ist eine funktionelle Blockdarstellung, die eine verteilte Computerumgebung 10 zeigt, die ein System zur effizienten Verarbeitung von den mehrfachen Mitteilungsspeichern gespeicherten Mitteilungen gemäß der vorliegenden Erfindung einschließt. Die verteilte Computerumgebung 10 schließt ein Inter-Netzwerk 16, unter Einschluss des Internets, und ein Intra-Netzwerk 13 ein. Das Inter-Netzwerk 16 und das Intra-Netzwerk 13 sind über einen Router 17 oder eine andere Zwischenverbindungseinrichtung miteinander verbunden, wie dies bekannt ist. Andere Netzwerk-Topologien, Konfigurationen und Komponenten sind denkbar, wie dies für den Fachmann zu erkennen ist.
  • Elektronische Mitteilungen, insbesondere elektronische Post (E-Mail) werden zwischen den verschiedenen Systemen ausgetauscht, die über die verteilte Computerumgebung 10 miteinander verbunden sind. In dem gesamten vorliegenden Dokument werden die Ausdrücke „elektronische Mitteilung" und „Mitteilung" austauschbar mit der gleichen vorgesehenen Bedeutung verwendet. Zusätzlich umfassen Mitteilungstypen elektronische Post, Zeitplanung, Aufgabensteuerung, Kontaktverwaltung, Projektverwaltung, Arbeitsgruppen-Aktivitäten, Multimedien-Inhalt und andere Formen von elektronisch übertragbaren Objekten, wie dies für den Fachmann zu erkennen ist. Diese Systeme schließen einen Server 11 ein, der einen Mitteilungs-Austauschdienst für eine Vielzahl von Klienten 12a, 12b bereitstellt, die über das Intra-Netzwerk 13 miteinander verbunden sind. Die Klienten 12a, 12b können weiterhin Teilnehmer an einem Fern-Mitteilungsaustausch-Dienst sein, der von einem an einer entfernten Stelle angeordneten Server 14 bereitgestellt wird, der über das Inter-Netzwerk 16 mit diesen verbunden ist. In ähnlicher Weise kann ein an einer entfernten Stelle angeordneter Klient 15 Teilnehmer an entweder einem oder beiden der Mitteilungsaustausch-Dienste von dem Server 11 und dem entfernt angeordneten Server 14 über das Inter-Netzwerk 16 sein.
  • Jedes der Systeme ist mit einem Speichergerät gekoppelt. Der Server 11, die Klienten 12a, 12b und der entfernt angeordnete Klient 15 unterhalten jeweils gespeicherte Daten in einem örtlichen Speichergerät 18. Der entfernt angeordnete Server 14 unterhält gespeicherte Daten in einem (nicht gezeigten) örtlichen Speichergerät und kann ebenfalls gespeicherte Daten für entfernt angeordnete Systeme in einem Fern-Speichergerät 19 aufbewahren, das heißt ein Speichergerät, das in einer Entfernung gegenüber dem Server 11, dem Klienten 12a, 12b und dem entfernt angeordneten Klienten 15 angeordnet ist. Die Speichergeräte schließen übliche Festplatten, entfernbare und feste Medien, CD ROM- und DVD-Laufwerke und alle anderen Formen von flüchtigen und nichtflüchtigen Speichergeräten ein.
  • Jedes der Systeme unterhält weiterhin einen Mitteilungsspeicher, entweder auf dem örtlichen Speichergerät oder einem entfernt angeordneten Speichergerät, in dem elektronische Mitteilungen gespeichert oder archiviert werden. Jeder Mitteilungsspeicher bildet einen identifizierbaren Aufbeahrungsort, an dem elektronische Mitteilungen aufbewahrt werden, und er kann einen einstückigen oder getrennten Archiv-Mitteilungsspeicher für eine Off-Line-Speicherung einschließen. Intern kann jeder Mitteilungsspeicher ein oder mehrere (nicht gezeigte) Mitteilungsverzeichnisse enthalten, die Gruppen von verwandten Mitteilungen enthalten, wie z.B. ein „Eingangsfach"-Mitteilungsverzeichnis für eingehende Mitteilungen, ein „Ausgangsfach"-Mitteilungsverzeichnis für abgehende Mitteilungen und dergleichen. Aus Gründen der Klarheit der Diskussion werden einzelne Mitteilungsverzeichnisse in der gleichen Weise behandelt, obwohl der Fachmann erkennen wird, dass kontextbezogene Mitteilungsverzeichnisse getrennt verarbeitet werden könnten.
  • In einer Arbeitsgruppen-Rechnerumgebung unterhält der Server 11 kollektiv die Mitteilungsspeicher als einen Arbeitsgruppen-Mitteilungsspeicher (WMS) 22 für jeden teilnehmenden Klienten 12a, 12b und den entfernt angeordneten Klienten 15. In einer verteilten Rechnerumgebung könnte jeder Klient 12a, 12b und der entfernt angeordnete Klient 15 einen individuellen Mitteilungsspeicher 21 entweder anstelle oder zusätzlich zu einem Arbeitsgruppen-Mitteilungsspeicher 21 unterhalten. In ähnlicher Weise könnte der entfernt angeordnete Server 16 einen Arbeitsgruppen-Mitteilungsspeicher 22 für entfernt angeordnete Klienten unterhalten.
  • Mit der Zeit speichert jeder der Mitteilungsspeicher unvermeidbar Duplikate, zumindest teilweise, von anderen elektronischen Mitteilungen, die in dem Mitteilungsspeicher für den gleichen Benutzer oder für andere Benutzer gespeichert sind. Diese duplizierten oder quasi-duplizierten elektronischen Mitteilungen müssen während einer Dokumenten-Voranalyse identifiziert und entfernt werden. Somit schließt der Server 11 einen Mitteilungsprozessor 20 zur effizienten Verarbeitung der elektronischen Mitteilungen ein, die in den verschiedenen Mitteilungsspeichern 21, 22 gespeichert sind, wie dies nachfolgend beginnend mit der Bezugnahme auf 2 weiter beschrieben wird. Wahlweise könnte ein einzelner Klient 12a ebenfalls einen Mitteilungsprozessor 20 einschließen. Die tatsächliche Aufnahme des Mitteilungsprozessors 20 ist lediglich durch die physikalische Ressourcen-Verfügbarkeit beschränkt, die zum Speichern und Verarbeiten einzelner Mitteilungsspeicher 21 und der Arbeitsgruppen-Mitteilungsspeicher 22 erforderlich ist.
  • Die elektronischen Mitteilungen werden direkt von den einzelnen Mitteilungsspeichern 21, den Arbeitsgruppen-Mitteilungsspeichern 22 zurückgewonnen oder von diesen Mitteilungsspeichern zu einem kombinierten Mitteilungsspeicher vereinigt. Für eine Dokumenten-Voranalyse können die Mitteilungsspeicher sowohl aktive „On-Line"-Mitteilungen als auch archivierte „Off-Line"-Mitteilungen einschließen, die in einem örtlichen Speichergerät 18 oder einem entfernt angeordneten Speichergerät 19 aufbewahrt werden.
  • Die einzelnen Computersysteme unter Einschluss des Servers 11, der Klienten 12, des entfernt angeordneten Servers 14 und des entfernt angeordneten Klienten 15 sind programmierte digitale Allzweck-Computergeräte, die aus einer zentralen Verarbeitungseinheit (CPU), einem Speicher mit wahlfreiem Zugriff (RAM), einem nicht-flüchtigen sekundären Speicher, wie z.B. einer Festplatte, einem CD-ROM- oder DVD-Laufwerk, Netzwerk-Schnittstellen und Peripheriegeräten bestehen, unter Einschluss von Benutzer-Schnittstelleneinrichtungen, wie z.B. einer Tastatur und einer Anzeige. Programmcode, unter Einschluss von Software-Programmen, und Daten wird in dem RAM zur Ausführung und zur Verarbeitung durch die CPU geladen, und die Ergebnisse werden zur Anzeige, Ausgabe, Übertragung oder Speicherung erzeugt.
  • 2 ist ein Blockschaltbild, das das System zur effizienten Verarbeitung von Mitteilungen nach 1 zeigt. Das System 30 schließt den Server 11, das Speichergerät 18 und ein oder mehrere Mitteilungsspeicher 32 ein. Die Mitteilungsspeicher 32 könnten individuelle Mitteilungsspeicher 21 und Arbeitsgruppen-Mitteilungsspeicher 22 (gemäß 2) einschließen. Alternativ könnte das System 30 einen (nicht gezeigten) Klienten 12a anstelle des Servers 11 einschließen.
  • Der Server 11 schließt den Mitteilungsprozessor 20 ein und betreibt wahlweise eine Mitteilungsübermittlungs-Anwendung 31. Die Mitteilungsübermittlungs-Anwendung 31 stellt Dienste bezüglich des elektronischen Mitteilungs-Austauschs und der Informationsspeicherung für einzelne Klienten 12a, 12b, entfernt angeordnete Server 14 und entfernt angeordnete Klienten 15 (gemäß 1) bereit. Auf einer Anwendungsseite schließen diese Dienste die Bereitstellung elektronischer Post, die Terminsteuerung, die Aufgabensteuerung, die Kontakt- und Projektverwaltung und verwandte automatisierte Arbeitsgruppen-Aktivitäten-Unterstützungen ein. Auf einer Systemseite schließen diese Dienste die Mitteilungs-Adressierungs-Speicherung und den Austausch sowie die Schnittstellenverbindung zu elektronischen Mitteilungsübermittlungs-Teilsystemen niedriger Ebene ein. Ein Beispiel eines Mitteilungs-Austauschservers 31 ist das Exchange Server-Produkt, das von der Microsoft Corporation, Redmond, Washington lizensiert wird. Vorzugsweise beinhaltet der Mitteilungs-Austauschserver 31 eine mit der Mitteilungs-Anwendungs-Programmierschnittstelle (MAPI) konforme Architektur, wie sie beispielsweise in der Veröffentlichung von R. Orfali et al. „Client/Server Survival Guide", Kapitel 19, John Wiley & Sons, Inc. (1999, 3. Ausgabe) beschrieben ist. Die Mitteilungsübermittlungs-Anwendung bildet keinen Teil der vorliegenden Erfindung, ist jedoch gezeigt, um eine geeignete Umgebung zu zeigen, in der die Erfindung arbeiten kann.
  • Der Mitteilungsprozessor 20 verarbeitet die Mitteilungsspeicher 32 (gemäß 1), um in effizienter Weise eine Voranalyse der elektronischen Mitteilungen durchzuführen, wie dies weiter unten unter Bezugnahme auf 3 weiter erläutert wird. Die Mitteilungsspeicher 32 werden verarbeitet, um ein oder mehrere Konstrukte zu erzeugen, die in einem „Schatten"-Speicher 33 gespeichert werden.
  • Eine Punkt-zu-Punkt verschlüsselte Sammlung 35 speichert Querverweise zwischen der Identifikation des ursprünglichen Mitteilungsspeichers oder Verzeichnisses in dem ursprünglichen Mitteilungsspeicher und der Identifikation des neu geschaffenen entsprechenden Verzeichnisses oder Unterverzeichnisses in dem Schattenspeicher 33. Während der Verarbeitung werden die elektronischen Mitteilungen in duplizierte, quasi-duplizierte und Unikat-Kategorien „klassifiziert" und durch den längsten Konversations-Pfad markiert.
  • Die Ergebnisse der Mitteilungsverarbeitung werden in einem Protokoll 34 aufgezeichnet, um Unikat-Mitteilungen 44 zu identifizieren und um eine Verarbeitungs-Revisions-Spur zu schaffen, um es zu ermöglichen, dass die Quelle und die abschließende Verfügung über irgendeine vorgegebene Mitteilung sehr einfach verfolgt werden können. Weiterhin ermöglicht eine mit Querverweisen versehene aufgeschlüsselte Sammlung 36, dass Identifikationen für Unikat-Mitteilungen geliefert und die Quellen-Ortsinformation dieser Mitteilungen, die Duplikate oder Quasi-Duplikate der Unikat-Mitteilung sind, zurückgewonnen werden. Die Zurückgewinnungs-Information ermöglicht eine wahlweise Neuzusammenfassung ausgewählter Unikat-Mitteilungen und der verwandten duplizierten oder quasi-duplizierten Mitteilungen zu einer späteren Zeit, beispielsweise durch die Einfügung in den Schattenspeicher 33 an dem Ende des Dokumenten-Überprüfungsprozesses. Wahlweise können die duplizierten und quasi-duplizierten Mitteilungen mit ihren verwandten Unikat-Mitteilungen zur Vollständigkeit wieder verbunden werden Das Protokoll 34 zeichnet nicht nur die Verfügung über jede Mitteilung auf, sondern zeichnet im Fall von duplizierten oder quasi-duplizierten Mitteilungen die Unikat-Mitteilung an, der jede duplizierte und quasi-duplizierte Mitteilung zugeordnet ist, was es ermöglicht, dass bestimmte duplizierte und quasi-duplizierte Mitteilungen lokalisiert und wahlweise mit ausgewählten Unikat-Mitteilungen zu einer späteren Zeit wieder zusammengefügt werden können. Bei der beschriebenen Ausführungsform wird die mit Querverweisen versehene aufgeschlüsselte Sammlung 36 als Teil des Protokolls 34 geführt, doch wird sie aus Gründen der Klarheit getrennt identifiziert. Die Unikat-Mitteilungen 44 werden in den Schattenspeicher 33 zur Weiterleitung an die nächste Stufe der Dokumenten-Überprüfung kopiert.
  • 3 ist ein Datenfluss-Diagramm 40, das den elektronischen Mitteilungs-Verarbeitungszyklus zeigt, dem das System 30 nach 2 folgt. Zunächst werden die verschiedenen Mitteilungsspeicher 41 für einen Zugang geöffnet. Metadaten, die aus Mitteilungs-Identifikationsinformation, unter Einschluss der Mitteilungsquellen-Ortsinformation und des Mitteilungsthemas (oder Gegenstände) bestehen, werden in eine „Haupt"-Gruppe 42 extrahiert. Die Haupt-Gruppe 42 ist eine logische Sammlung von Themen und Identifikationsinformation in Form von Metadaten für alle die Mitteilungen in den verschiedenen Mitteilungsspeichern 41. Die Metadaten werden in den verschiedenen hier beschriebenen Datenstrukturen manipuliert, unter Einschluss der Haupt-Gruppe 42, der Thema-Gruppe 43 und den Gruppen für Unikat-Mitteilungen 44, quasi-duplizierten Mitteilungen 45, Pfadlängen 46 und duplizierten Mitteilungen 47. Mit Ausnahme dessen, was weiter oben bemerkt wurde, werden diese Mitteilungen jedoch so beschrieben, als ob sie während der Verarbeitung manipuliert werden, obwohl der Fachmann erkennen wird, dass Metadaten, Mitteilungen oder irgendeine Kombination hiervon verwendet werden könnte.
  • Die Mitteilungen in der Haupt-Gruppe 42 werden nach Thema sortiert, um Unikat-Mitteilungen und Konversations-Pfade zu identifizieren, wie sie durch Bereiche des mehrfachen Auftretens des gleichen Themas wiedergegeben sind. Die Identifikationsinformation (Metadaten) für diese Mitteilungen, die identische Themen haben, wird in eine Thema-Gruppe 43 extrahiert, während jedes neue Thema in der Haupt-Gruppe 42 aufgefunden wird.
  • Die Thema-Gruppe 43 arbeitet als eine Arbeits-Gruppe, in der vom Thema her identische Mitteilungen verarbeitet werden. Die von der Haupt-Gruppe 42 abgeleitete Identifikationsinformation wird dazu verwendet, in die Thema-Gruppe weitere Informationen von Mitteilungen zu kopieren, die ein gemeinsames Thema haben, unter Einschluss ihres Klartextes. An irgendeinem Punkt der Verarbeitung enthält die Thema-Gruppe 43 lediglich diejenigen Mitteilungen, denen ein gemeinsames Thema gemeinsam ist. Diese vom Thema her identischen Mitteilungen werden nach ihrem Klartext-Inhalt sortiert und analysiert. Duplizierte Mitteilungen 47, die einen im Wesentlichen duplizierten Inhalt enthalten, werden aus der Thema-Gruppe 43 entfernt. Die verbleibenden nicht-duplizierten Mitteilungen in der Thema-Gruppe 43 werden nach Pfad-Markierungen durchsucht, die rekursiv enthaltenen Inhalt anzeigen, und die Konversations-Pfadlängen 46 werden notiert. Die Mitteilungen in der Thema-Gruppe 43 werden verglichen, und quasi-duplizierte Mitteilungen 45 werden identifiziert. Die Unikat-Mitteilungen 35 werden dann für eine Überführung in den Schattenspeicher 48 markiert.
  • 4 ist eine Blockdarstellung, die die Software-Module 60 des Systems nach 2 zeigt. Jedes Modul ist ein Computerprogramm, eine Prozedur oder ein Modul, das als Source-Code in einer üblichen Programmiersprache geschrieben ist, wie z.B. der Visual Basic-Programmiersprache, und es wird zur Ausführung durch die CPU als Objekt- oder Byte-Code geliefert, wie dies in der Technik bekannt ist. Die verschiedenen Implementierungen des Source-Codes und der Objekt- und Byte-Codes können in einem computerlesbaren Speichermedium gehalten oder auf einem Übertragungsmedium in einer Trägerschwingung verkörpert werden. Der Mitteilungsprozessor 20 arbeitet gemäß einer Folge von Prozess-Schritten, wie dies weiter unten beginnend mit der Bezugnahme auf 6 beschrieben wird.
  • Der Mitteilungsprozessor 20 schließt 4 primäre Module ein: Duplikat-Mitteilungswähler 61, Pfadlängenwähler 62, Quasi-Duplikat-Mitteilungswähler 63 und Wähler 64 für Unikat-Mitteilungen. Vor der Verarbeitung werden die Mitteilungsspeicher 41 logisch zu der Haupt-Gruppe 42 vereinigt. An jeder Stufe der Mitteilungsverarbeitung wird ein Protokolleintrag in einem Protokoll 34 geschaffen (oder ein vorhandener Eintrag modifiziert), um Mitteilungen zu verfolgen und Mitteilungs-Identifikationsinformation aufzuzeichnen.
  • Der Duplikat-Mitteilungswähler 61 identifiziert und beseitigt diese Duplikat-Mitteilungen 47, die im Wesentlichen duplizierten Inhalt von der Thema-Gruppe 43 enthalten. Der Pfadlängenwähler verzeichnet die Konversations-Pfadlängen 43 und unterhält eine geordnete Reihenfolge der Pfadlängen, vorzugsweise von der kürzesten zur längsten Konversations-Pfadlänge. Der Wähler 63 für quasi-duplizierte Mitteilungen bezeichnet diejenigen Mitteilungen als quasi-duplizierte Mitteilungen 45, deren Inhalt rekursiv in anderen Mitteilungen enthalten sind, wie z.B. diejenigen Mitteilungen, die über eine Antwort- oder Weiterleitungssequenz oder als Anlage erzeugt wurden. Der Wähler 64 für Unikat-Mitteilungen bezeichnet diejenigen Mitteilungen als Unikat-Mitteilungen 45, die aus der Haupt-Gruppe 42 als nicht thematisch identisch abgeleitet wurden, und diejenigen Mitteilungen, die verbleiben, nachdem die Duplikat-Mitteilungen 48 und die Quasi-Duplikat- Mitteilungen 46 identifiziert wurden. Die Unikat-Mitteilungen 45 werden an den Schattenspeicher 48 zur Verwendung bei der nachfolgenden Dokumenten-Überprüfung weitergeleitet. Die Unikat-, Quasi-Duplikat- und Duplikat-Mitteilungen sowie die Pfadzählungen werden regelmäßig in dem Protokoll 34 aufgezeichnet, während die Eigenart jeder Mitteilung bestimmt wird. Weiterhin wird die Ortsinformation, die eine nachfolgende Rückgewinnung jeder Quasi-Duplikat-Mitteilung 45 und jeder Duplikat-Mitteilung 47 ermöglicht, regelmäßig in die nach Querverweis aufgeschlüsselte Sammlung 36 eingefügt, die die Mitteilung zu einer Unikat-Mitteilung in Beziehung setzt, wenn die Beziehung festgestellt wird.
  • 5 zeigt als Beispiel eine mit Bemerkungen versehene elektronische Mitteilung 70. In vielen Fällen ist die Mitteilung, die die größte Konversations-Pfadlänge 47 hat, die Mitteilung, deren Prüfung am nützlichsten ist. Jede vorhergehende Mitteilung ist rekursiv innerhalb der Mitteilung mit der größten Konversations-Pfadlänge enthalten, so dass diese Quasi-Duplikat-Mitteilungen in einem effizienten Überprüfungsprozess übersprungen werden können.
  • Die Beispiels-Mitteilung 70 schließt zwei rekursiv eingefügte Mitteilungen ein: eine ursprüngliche E-Mail-Mitteilung 71 und eine Antwort-E-Mail-Mitteilung 72. Die ursprüngliche E-Mail-Mitteilung 71 wurde von einem ersten Benutzer, user1@aol.com, an einen zweiten Benutzer, user2@aol.com, gesandt. Als Antwort auf die ursprüngliche E-Mail-Mitteilung erzeugte der zweite Benutzer, user2@aol.com, die Antwort-E-Mail-Mitteilung 72, die an den ersten Benutzer, user1@aol.com, zurückgesandt wurde. Schließlich leitete der erste Benutzer, user1@aol.com, die Antwort-E-Mail-Mitteilung 72, die außerdem die ursprüngliche E-Mail-Mitteilung 71 enthielt, als weitergeleitete E-Mail-Mitteilung 73 an einen dritten Benutzer, user3@aol.com, weiter.
  • Jede der E-Mail-Mitteilungen 71, 72 bzw. 73 schließt jeweils einen Mitteilungs-Hauptteil (rekursiv enthalten) 74, 78, 82 und ein Mitteilungs-Kopffeld 75, 77, 81 ein. Die ursprüngliche E-Mail-Mitteilung 71 und die Antwort-E-Mail-Mitteilung 72 sind rekursiv eingefügte Mitteilungen. Die ursprüngliche E-Mail-Mitteilung 71 ist rekursiv sowohl in der Antwort-E-Mail-Mitteilung 72 als auch der weitergeleiteten E-Mail-Mitteilung 73 enthalten, während die Antwort-E-Mail-Mitteilung 72 rekursiv lediglich in der weitergeleiteten E-Mail-Mitteilung 73 enthalten ist.
  • Jede aufeinanderfolgende Antwort-Weiterleitungs- oder ähnliche Operation vergrößert die Konversations-Pfadlänge 47 der Mitteilung. Die Pfadlängen 4 sind in den Mitteilungen selbst durch irgendeine Form von Abgrenzung angezeigt. In dem gezeigten Beispiel ist die Einfügung der ursprünglichen E-Mail-Mitteilung 71 in die Antwort-E-Mail-Mitteilung 72 sowohl durch eine Trennung 80 als auch eine „RE:"-(„Betreff:") Anzeige in der Betreff-Zeile 79 abgetrennt. In gleicher Weise ist die Einfügung der Antwort-E-Mail-Mitteilung 72 durch eine Trennung 84 und eine „FW:" („Weiterleitung:") Anzeige in der Betreff-Zeile 83 abgegrenzt. Die Mitteilungs-Trennungen 80, 84 und die Betreff-Zeilen-Anzeigen 79, 83 bilden Pfad-"Markierungen", die von dem Mitteilungsprozessor 20 durchsucht, identifiziert und analysiert werden können, um Pfadlängen 47 und quasi-duplizierte Mitteilungen 46 zu bestimmen.
  • 6 ist ein Ablaufdiagramm, das ein Verfahren 100 zur effizienten Verarbeitung von Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert sind, gemäß der vorliegenden Erfindung zeigt. Das Verfahren 100 arbeitet in zwei Phasen: Initialisierung (Blöcke 101-103) und Verarbeitung (Blöcke 104-107).
  • Während der Initialisierung werden die Mitteilungsspeicher 41 (gemäß 3) für einen Zugang durch den Mitteilungsprozessor 20 (Block 101) geöffnet, und der Schattenspeicher 48 wird erzeugt (Block 102), wie dies nachfolgend anhand der 7 weiter beschrieben wird. Bei der beschriebenen Ausführungsform hat der Mitteilungsprozessor 20 eine begrenzte Programmkapazität, die eine obere Grenze für die maximale Anzahl von elektronischen Mitteilungen bestimmt, die während eines einzigen Ablaufs verarbeitet werden können. Entsprechend können mehrfache Verarbeitungs-Durchgänge erforderlich sein, um alle die Mitteilungen zu verarbeiten, die in der Sammlung von Mitteilungsspeichern 41 gespeichert sind.
  • Unter der Annahme, dass die zusammengesetzte Anzahl von Mitteilungen die Programmgrenzen übersteigt, wird die Verarbeitung in eine Reihe von Durchgängen n unterteilt, während denen jeweils ein Teil der zusammengefassten Mitteilungsspeicher 41 verarbeitet wird. Die Anzahl der Durchgänge n, die zur Verarbeitung der Quellen-Mitteilungsspeicher 41 erforderlich ist, wird durch die folgende Gleichung bestimmt (Block 103):
    Figure 00170001
    worin n gleich der Gesamtzahl von iterativen Durchgängen ist, TotNumMessages die Gesamtzahl von Mitteilungen in der Zusammenfassung der Mitteilungsspeicher 41 ist, und ProgMax die maximale Mitteilungs-Verarbeitungskapazität des Programms ist.
  • In der beschriebenen Ausführungsform wird die zusammengefasste Auswahl von Mitteilungen von den Mitteilungsspeichern 41 durch Überlappen der Unterteilung i verarbeitet, die vorzugsweise durch die Unterteilung des Alphabets in Unterteilungen markiert wird, die der Anzahl von Durchgängen n entsprechen. Wenn beispielsweise zwei Durchgänge n erforderlich sind, so würden die Unterteilungen „kleiner als M" und „größer als L" sein. In ähnlicher Weise würden, wenn 52 Durchgänge erforderlich sein würden, die Unterteilungen „kleiner als Am" und „größer als Al und kleiner als Ba" sein.
  • Im Betrieb werden die Unterteilungen erforderlichenfalls in einer iterativen Verarbeitungsschleife (Blöcke 104-106) verarbeitet. Während jedes Durchganges n (Block 104) werden die Mitteilungen verarbeitet (Block 105), wie dies weiter unten unter Bezugnahme auf 8 beschrieben wird. Nach der Vervollständigung der Verarbeitung (Block 106) werden die Mitteilungsspeicher 41 geschlossen (Block 107). Als wahlweise Betriebsweise werden die Duplikat-Mitteilungen 47 und die Quasi-Duplikat-Mitteilungen 45 erneut in den Schattenspeicher 48 eingefügt (Block 108). Das Verfahren wird bei Abschluss der Verarbeitung beendet.
  • 7 ist ein Flussdiagramm, das die Routine 120 zur Erzeugung eines Schattenspeichers zur Verwendung in dem Verfahren 100 nach 6 zeigt. Der Zweck dieser Routine besteht in der Erzeugung eines Haltebereiches, der als der Schattenspeicher 48 (gemäß 3) bezeichnet wird, in dem Unikat-Mitteilungen 45 für die nächste Stufe in der Dokumenten-Überprüfung gespeichert werden. Ein Mitteilungszähler wird unterhalten, um die Mitteilungen in der Zusammenfassung aller Mitteilungsspeicher 41 zu zählen. Der Mitteilungszähler wird anfänglich auf Null gesetzt (Block 121). Jeder der Quellen-Mitteilungsspeicher 41 wird dann in einem Paar von verschachtelten iterativen Verarbeitungsschleifen (Blöcke 122-128 und 124-129) wie folgt verarbeitet.
  • Während der äußeren Verarbeitungsschleife (Blöcke 122-129) wird ein Verzeichnis, das jedem Quellen-Mitteilungsspeicher 41 entspricht, in dem Schattenspeicher 48 (Block 123) erzeugt. Als nächstes wird jeder der Verzeichnisse in dem der Zeit ausgewählten Quellen-Mitteilungsspeicher 41 iterativ in den inneren Verarbeitungsschleifen (Blöcke 124-128) wie folgt verarbeitet. Als erstes wird der Mitteilungszähler um die Anzahl von Mitteilungen in dem Verzeichnis weitergeschaltet, das in dem Quellen-Mitteilungsspeicher 41 geprüft wird (Block 125), und ein entsprechendes Verzeichnis in dem Schattenspeicher 48 wird erzeugt (Block 126). Ein Eintrag wird in einer punktweise aufgeschlüsselten Sammlung 35 (Block 127) gemacht, der den Querverweis zwischen einem Zeiger auf den ursprünglichen Mitteilungsspeicher 41 oder das Verzeichnis in dem ursprünglichen Mitteilungsspeicher und einem Zeiger auf ein neu erzeugtes entsprechendes Verzeichnis oder Unterverzeichnis in dem Schattenspeicher 48 bildet. Wenn Unikat- Mitteilungen später in den Schattenspeicher 48 kopiert werden, ermöglicht diese aufgeschlüsselte Datei, dass das Kopieren „punktweise" abläuft anstatt das es erforderlich ist, dass die Verzeichnisse in dem Schattenspeicher 48 iterativ durchsucht werden, um das richtige zu finden. Die Verarbeitung jedes Verzeichnisses in dem derzeitigen Quellen-Mitteilungsspeicher 41 wird (Block 128) für jedes verbleibende Verzeichnis in dem Quellen-Mitteilungsspeicher fortgesetzt. In ähnlicher Weise wird die Verarbeitung für jeden der Quellen-Mitteilungsspeicher 41 selbst für jeden verbleibenden Quellen-Mitteilungsspeicher 41 fortgesetzt (Block 129), worauf die Routine zurückkehrt (Block 130) und eine Zählung aller der Mitteilungen in allen Quellen-Mitteilungsspeichern liefert, so dass die Anzahl der erforderlichen Durchgänge bestimmt werden kann.
  • 8 ist ein Ablaufdiagramm, das die Routine 140 zur Verarbeitung von Mitteilungen zur Verwendung in dem Verfahren 100 nach 6 zeigt. Der Zweck dieser Routine besteht in der Vorverarbeitung der in den Mitteilungsspeichern 41 gespeicherten Mitteilungen. Es sei bemerkt, dass an jeder Stufe der Mitteilungsverarbeitung ein Protokoll-Eintrag implizit in das Protokoll 34 (das in 3 gezeigt ist) eingeführt wird, um die Kategorisierung und Verwertung jeder Mitteilung aufzuzeichnen.
  • Die Mitteilungen werden in einer Verarbeitungsschleife (Blöcke 141-144) verarbeitet. Während jeder Iteration (Block 141) wird jede Mitteilung in dem ausgewählten Verzeichnis auf eine Mitgliedschaft in der derzeitigen Unterteilung i der Quellen-Mitteilungsspeicher 41 überprüft (Block 142). Wenn sich die Mitteilung in der derzeitigen Unterteilung i befindet (Block 142), so wird die Mitteilung logisch in die Haupt-Gruppe 42 dadurch überführt (Block 143), dass die Thema- und Ortsinformation unter Einschluss der Mitteilungs-Identifikationsinformation und der Zeiger auf den Quellen-Mitteilungsspeicher 41, das Quellen-Mitteilungsverzeichnis und auf die einzelne Mitteilung (Metadaten) abgeleitet werden. Unter Verwendung von Metadaten anstelle eines Kopierens vollständiger Mitteilungen wird Aufbewahrungs- und Speicherplatz eingespart und eine schnellere Verarbeitung erleichtert. Die Verarbeitung wird für jede Mitteilung in dem ausgewählten Verzeichnis fortgesetzt (Block 144).
  • Wenn alle Verzeichnisse verarbeitet wurden, und die Metadaten für diejenigen Mitteilungen, von denen festgestellt wurde, dass sie sich innerhalb der Unterteilung befinden, in die Haupt-Gruppe überführt wurden, beginnt die Mitteilungsverarbeitung. Die Mitteilungen werden nach Thema (Block 145) sortiert, und die Haupt-Gruppe 42 wird verarbeitet (Block 146), wie dies weiter unten anhand der 9 beschrieben wird. Zuletzt wird das Protokoll 49 verarbeitet (Block 147), worauf die Routine zurückkehrt.
  • 9 ist ein Ablaufdiagramm, das die Routine 160 zur Verarbeitung der Haupt-Gruppe 42 zur Verwendung in der Routine 140 nach 8 zeigt. Der Zweck dieser Routine besteht in der Identifikation von Unikat-Mitteilungen 44 und der Verarbeitung thematisch identischer Mitteilungen unter Verwendung der Thema-Gruppe 43. Die Routine verarbeitet die Mitteilungen, um Unikat-Mitteilungen und thematisch ähnliche Mitteilungen zu identifizieren, wobei eine iterative Verarbeitungsschleife (Blöcke 161-171) verwendet wird. Während jeder Iteration (Block 161) wird das Thema (oder die Betreffzeile) jeder jeweiligen Mitteilung in der Haupt-Gruppe 42 mit dem der nächsten Mitteilung in der Haupt-Gruppe 42 verglichen (Block 162). Wenn die Themen übereinstimmen (Block 163), so können die Mitteilungen von dem gleichen Konversations-Pfad sein. Wenn die Mitteilung die erste Mitteilung mit dem derzeitigen Thema ist, die mit der folgenden Mitteilung übereinstimmt (Block 164) so wird diese erste Mitteilung in dem möglichen Pfad als der Beginn eines Thema-Bereiches markiert (Block 165) und die Verarbeitung wird mit der nächsten Mitteilung (Block 171) fortgesetzt. Wenn anderenfalls die Mitteilung nicht die erste Mitteilung in dem Konversations-Pfad ist (Block 164), so wird die Mitteilung übersprungen und die Verarbeitung wird mit der nächsten Mitteilung fortgesetzt (Block 171).
  • Wenn die Themen nicht übereinstimmen (Block 163), so endet der vorhergehende Themenbereich und ein neuer Themenbereich beginnt. Wenn die derzeitige Mitteilung nicht die erste Mitteilung mit diesem Thema war (Block 166) so wird der Bereich von Mitteilungen mit dem gleichen Thema (der mit der Mitteilung begann, die am Block 165 markiert wurde) verarbeitet (Block 168). Wenn die derzeitige Mitteilung die erste Mitteilung mit dem übereinstimmenden Thema ist (Block 166), so wird die Mitteilung als Unikat-Mitteilung 45 (Block 167) abgeleitet, und die Verarbeitung wird mit der nächsten Mitteilung fortgesetzt (Block 171). Wenn der Themenbereich geendet hat (Block 166), wird jede thematisch identische Mitteilung plus der Mitteilungs-Übertragungszeit, logisch in die Thema-Gruppe 43 abgeleitet (Block 168). Bei der beschriebenen Ausführungsform werden die Mitteilungen nicht physikalisch in die Themen-Gruppe 143 kopiert, sondern jede Mitteilung wird logisch unter Verwendung von Metadaten in der Thema-Gruppe 43 „übertragen", um Mitteilungs-Quellen-Ortsinformation zu liefern, die dazu verwendet wird, eine Kopie des Klartext-Hauptteils der Mitteilung in die Thema-Gruppe hinzuzufügen. Die Thema-Gruppe 43 wird durch den Klartextkörper (Block 169) sortiert und verarbeitet (Block 170), wie dies weiter unten unter Bezugnahme auf die 10A-C weiter beschrieben wird. Die Verarbeitung wird mit der nächsten Mitteilung (Block 171) fortgesetzt. Die Routine kehrt nach der Verarbeitung der letzten Mitteilung in der Haupt-Gruppe 42 zurück.
  • Die 10A-C sind Ablaufdiagramme, die die Routine 180 zur Verarbeitung einer Thema-Gruppe zur Verwendung in der Routine 160 nach 9 zeigen. Der Zweck dieser Routine besteht in dem Abschluss der Verarbeitung der Mitteilungen unter Einschluss der Identifikation von Duplikat-, Quasi-Duplikat und Unikat-Mitteilungen und der Zählung von Pfadlängen. Die Routine durchläuft die Themen-Gruppe 43 (in 3 gezeigt) in drei iterativen Verarbeitungsschleifen (Blöcke 181-187, 189-194 und 196-203) wie folgt.
  • Während der ersten Verarbeitungsschleife (Blöcke 181-187) wird jede Mitteilung in der Themen-Gruppe 43 überprüft. Der Klartext-Hauptteil der derzeitigen Mitteilung wird mit dem Klartext-Hauptteil der nächsten Mitteilung verglichen (Block 182). Wenn die Klartext-Hauptteile übereinstimmen (Block 183) so existiert möglicherweise eine exakte Duplikat-Mitteilung, was einer Überprüfung bedarf. Der Kandidat für ein exaktes Duplikat wird durch Vergleichen der Kopffeld-Information 75, 77, 81 (in 5 gezeigt) des Absenders der Mitteilung (Block 184) und der Sendezeiten jeder Mitteilung überprüft. Wenn die Übereinstimmung verifiziert wird (Block 184) so wird die erste Mitteilung als ein exaktes Duplikat der zweiten Mitteilung markiert, und die Identifikationsinformation für die ersten und zweiten Mitteilungen und ihre Beziehung wird in dem Protokoll 49 (Block 186) und der durch Querverweis aufgeschlüsselten Sammlung 36 (in 2 gezeigt) gespeichert. Die Verarbeitung jeder nachfolgenden Mitteilung in der Themen-Gruppe 43 (Block 187) wird für die verbleibenden Mitteilungen fortgesetzt.
  • Als nächstes werden die als Duplikat-Mitteilung markierten Mitteilungen aus der Thema-Gruppe 43 (Block 188) entfernt, und die verbleibenden Nicht-Duplikat-Mitteilungen in der Thema-Gruppe 43 werden in der zweiten Verarbeitungsschleife (Blöcke 189-194) wie folgt verarbeitet. Zunächst wird jede Mitteilung nach Pfad-Markierungen unter Einschluss von Trennungen 80, 84 und Betreffzeilen-Anzeigen 79-83 (in 5 gezeigt) durchsucht (Block 190). Wenn Pfad-Markierungen gefunden werden (Block 191) so wird die Anzahl des Pfad-Markierungs-Auftretens m gezählt und aufgezeichnet (Block 192). Anderenfalls wird die Mitteilung so aufgezeichnet, als ob sie Null-Pfad-Markierungen hat (Block 193). Bei der beschriebenen Ausführungsform werden die Dateneinträge, die Null-Pfad-Markierungen haben, in die Sortieroperationen eingeschlossen. Diese Mitteilungen haben einen Mitteilungsinhalt, schließen jedoch keine anderen Mitteilungen ein. Die Aufzeichnung von Null-Pfad-Markierungen ermöglicht es, dass diese „erstmaligen Mitteilungen mit Mitteilungen verglichen werden, die Mitteilungen enthalten haben. Die Verarbeitung wird für jede der verbleibenden Mitteilungen (Block 194) fortgesetzt, bis alle verbleibenden Mitteilungen in der Thema-Gruppe 43 verarbeitet wurden.
  • Die Thema-Gruppe wird nachfolgend in der Reihenfolge zunehmender Pfad-Markierungen m (Block 195) sortiert, und die in der Thema-Gruppe 43 verbleibenden Mitteilungen werden iterativ in der dritten Verarbeitungsschleife (Block 196-203) verarbeitet. Während jeder Verarbeitungsschleife (Block 196) werden die ersten und nachfolgenden Mitteilungen ausgewählt (Blöcke 197, 198), und der Klartext-Hauptteil der Mitteilungen wird verglichen (Block 199). In der beschriebenen Ausführungsform wird eine Textvergleichsfunktion verwendet, um einen effizienten Vergleich großer Textblöcke zu ermöglichen. Wenn der Klartext-Hauptteil der ersten ausgewählten Mitteilung in dem Klartext-Hauptteil der zweiten ausgewählten Mitteilung enthalten ist (Block 200), so wird die erste Mitteilung als ein Quasi-Duplikat der zweiten Mitteilung markiert, und die Identifikationsinformation auf den ersten und zweiten Mitteilungen und ihre Beziehung wird in dem Protokoll 49 und der durch Querverweise aufgeschlüsselten Sammlung 36 (gemäß 2) gespeichert (Block 201). Wenn der Klartext-Hauptteil der ersten ausgewählten Mitteilung nicht in dem Klartext-Hauptteil der zweiten ausgewählten Mitteilung enthalten ist und zusätzliche Mitteilungen nach der zweiten Mitteilung in der Thema-Gruppe 43 auftreten (Block 202), so wird die nächste Mitteilung ausgewählt und in der vorstehend beschriebenen Weise verglichen (Blöcke 198-202). Jede nachfolgende Mitteilung in der Thema-Gruppe wird verarbeitet (Block 203), bis alle verbleibenden Mitteilungen verarbeitet wurden, worauf die Routine zurückkehrt.
  • 11 ist ein Ablaufdiagramm, das die Routine 220 zur Verarbeitung eines Protokolls zur Verwendung in der Routine 140 nach 8 zeigt. Der Zweck dieser Routine besteht in der Fertigstellung des Protokolls 34 zur Verwendung in dem Prüfungsprozess. Die Verarbeitung erfolgt in einer iterativen Verarbeitungsschleife (Block 221-226) wie folgt. Jede Mitteilung in der Haupt-Gruppe 42 wird während jeder Schleife verarbeitet (Block 221). Wenn die ausgewählte Mitteilung eine Unikat-Mitteilung 45 ist (Block 222), so wird eine Kopie der Mitteilung aus dem Quellenverzeichnis in dem Quellen-Mitteilungsspeicher 41 (in 3 gezeigt) zurückgewonnen und in das entsprechende Verzeichnis des entsprechenden Mitteilungsspeichers in dem Schattenspeicher 48 gebracht (Block 223) (wobei die mit Querverweisen versehene aufgeschlüsselte Sammlung 36, die zum Zeitpunkt der Erzeugung des Schattenspeichers 34 erzeugt wurde verwendet wird), und ein Eintrag mit der Mitteilungs-Quellen-Ortsinformation und der Identifikations information wird in dem Protokoll 34 erzeugt (Block 224). Anderenfalls wird die Mitteilung als eine quasi-duplizierte Mitteilung 45 oder eine duplizierte Mitteilung 47 übersprungen (Block 225), die nicht in die nächste Phase des Dokumenten-Prüfprozesses weitergeleitet wird. Die Verarbeitung jeder nachfolgenden Mitteilung in der Haupt-Gruppe 42 wird für alle verbleibenden Mitteilungen fortgesetzt (Block 226), worauf die Routine zurückkehrt.
  • Obwohl die Erfindung speziell unter Bezugnahme auf Ausführungsformen hiervon gezeigt und beschrieben wurde, wird der Fachmann verstehen, dass die vorstehenden und andere Änderungen hinsichtlich der Form und der Einzelheiten durchgeführt werden können, ohne von dem Schutzumfang der Erfindung abzuweichen.

Claims (29)

  1. System zum effizienten Verarbeiten von Mitteilungen, die in mehrfachen Mitteilungsspeichern (32) gespeichert sind, mit: einem Mitteilungsprozessor (20), der iterativ Metadaten kopiert, die einen Bereich von thematisch identischen Mitteilungen identifizieren, die aus einer Vielzahl von Mitteilungsspeichern extrahierten werden, die eine Vielzahl von zu verarbeitenden Mitteilungen speichern, und die Metadaten für den extrahierten Bereich von thematisch identischen Mitteilungen kategorisiert, wobei der Mitteilungsprozessor weiterhin Folgendes umfasst: einen Duplikat-Mitteilungs-Wähler (61), der diejenigen Mitteilungen, die im Wesentlichen duplizierten Inhalt enthalten, innerhalb des abgeleiteten Bereiches als Duplikat-Mitteilungen identifiziert; einen Pfadlängenwähler (62), der diese Nicht-Duplikat-Mitteilungen innerhalb des abgeleiteten Bereiches in einer Reihenfolge der Konversations-Pfadlänge aufführt; einen Quasi-Duplikat-Mitteilungswähler (63), der diejenigen Mitteilungen klassifiziert, deren Inhalt rekursiv enthaltener Inhalt in anderen der aufgeführten Nicht-Duplikat-Mitteilungen ist, als Quasi-Duplikat-Mitteilungen klassifiziert; und einen Wähler (64) für Unikat-Mitteilungen, der die verbleibenden Mitteilungen als Unikat-Mitteilungen bezeichnet, die im Wesentlichen keinen duplizierenden Inhalt enthalten.
  2. System nach Anspruch 1, das weiterhin Folgendes umfasst: der Mitteilungsprozessor (20) extrahiert die Metadaten für die zu verarbeitenden Mitteilungen aus den Mitteilungsspeichern (41) und sortiert die Metadaten entsprechend dem Thema.
  3. System nach Anspruch 2, das weiterhin Folgendes umfasst: der Duplikat-Mitteilungswähler (61) sortiert die Metadaten für den extrahierten Bereich von thematisch identischen Mitteilungen entsprechend dem Inhalt vor der Identifikation der Duplikat-Mitteilungen.
  4. System nach Anspruch 1, das weiterhin Folgendes umfasst: der Pfadlängenwähler (62) sortiert die Metadaten für die Nicht-Duplikat-Mitteilungen nach Inhalt vor dem Aufführen der Nicht-Duplikat-Mitteilungen.
  5. System nach Anspruch 1, das weiterhin Folgendes umfasst: der Duplikat-Mitteilungswähler (61) überprüft die Duplikat-Mitteilungen durch Vergleich von Indizes zusätzlich zu dem darin gespeicherten Inhalt.
  6. System nach Anspruch 5, bei dem die Indizes Kopffeld-Information umfassen, wobei weiterhin: der Duplikat-Mitteilungswähler (61) die Kopffeld-Information, die mit jeder der Duplikat-Mitteilungen gespeichert ist, vergleicht.
  7. System nach Anspruch 1, das weiterhin Folgendes umfasst: der Pfadlängenwähler (62) bestimmt jede Konversations-Pfadlänge auf der Grundlage von Pfad-Markierungen, die zumindest eines von Schlüsselworten, Begrenzungs-Zeichenketten und der relativen Position innerhalb der Mitteilung umfassen.
  8. System nach Anspruch 1, das weiterhin Folgendes umfasst: ein Protokoll (34), das einen Eintrag für jede der Unikat-Mitteilungen umfasst, wobei jeder Protokoll-Eintrag Mitteilungs-Quellen-Ortsinformation und Identifikationsinformation für irgendeine hiermit in Beziehung stehende derartige Duplikat-Mitteilung und Quasi-Duplikat-Mitteilung speichert.
  9. System nach Anspruch 1, das weiterhin Folgendes umfasst: einen Speicher (48), der die Unikat-Mitteilungen speichert und eine Anzahl von relativen Speichern und Verzeichnissen umfasst, die im Wesentlichen den Mitteilungsspeichern entsprechen, von denen die Unikat-Mitteilung entstammte.
  10. System nach Anspruch 9, das weiterhin Folgendes umfasst: eine mit Querverweisen aufgeschlüsselte Sammlung (35), die einen Eintrag für jede der Duplikat-Mitteilungen und die Quasi-Duplikat-Mitteilungen umfasst, die nach Identifikationsinformation für eine derartige zugehörige Unikat-Mitteilung aufgeschlüsselt ist.
  11. System nach Anspruch 10, das weiterhin Folgendes umfasst: einen Speicher (48), der die Duplikat-Mitteilungen und die Quasi-Duplikat-Mitteilungen speichert, die in diesen durch Identifizieren der zugehörigen Unikat-Mitteilung mit der mit Querverweisen versehenen aufgeschlüsselten Sammlung kopiert werden.
  12. System nach Anspruch 1, bei dem jede Mitteilung von einem Typ ist, der zumindest eines von elektronischer Post, Zeitplanung, Aufgabenplanung, Kontaktverwaltung, Projektverwaltung, Arbeitsgruppen-Aktivitäten, Multimedien-Inhalt und anderen Formen von elektronisch übertragbaren Objekten umfasst.
  13. System nach Anspruch 1, bei dem jeder Mitteilungsspeicher einen MAPI-konformen Mitteilungsspeicher umfasst.
  14. Verfahren zur effizienten Verarbeitung von Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert sind, mit den folgenden Schritten: iteratives Kopieren von Metadaten, die einen Bereich von thematisch identischen Mitteilungen identifizieren, die von einer Vielzahl von Mitteilungsspeichern extrahiert werden, die eine Vielzahl von zu verarbeitenden Mitteilungen speichern; und Kategorisieren der Metadaten für den extrahierten Bereich von thematisch identischen Mitteilungen, mit den folgenden Schritten: Identifizieren derjenigen Mitteilungen, die im Wesentlichen duplizierten Inhalt innerhalb des extrahierten Bereiches enthalten, als Duplikat-Mitteilungen; Aufführen derjenigen Nicht-Duplikat-Mitteilungen innerhalb des extrahierten Bereiches in einer Reihenfolge der Konversations-Pfadlänge; Klassifizieren derjenigen Mitteilungen, deren Inhalt rekursiv enthaltener Inhalt in einer anderen der aufgeführten Nicht-Duplikat-Mitteilungen ist, als Quasi-Duplikat-Mitteilungen; und Bezeichnen der verbleibenden Mitteilungen als Unikat-Mitteilungen, die im Wesentlichen nicht duplizierten Inhalt enthalten.
  15. Verfahren nach Anspruch 14, das weiterhin Folgendes umfasst: Extrahieren der Metadaten aus den zu verarbeitenden Mitteilungen von den Mitteilungsspeichern; und Sortieren der Metadaten entsprechend dem Thema.
  16. Verfahren nach Anspruch 15, das weiterhin Folgendes umfasst: Sortieren der Metadaten für den extrahierten Bereich von thematisch identischen Mitteilungen entsprechend dem Inhalt vor der Identifikation der Duplikat-Mitteilungen.
  17. Verfahren nach Anspruch 14, das weiterhin Folgendes umfasst: Sortieren der Metadaten für Nicht-Duplikat-Mitteilungen nach dem Inhalt vor dem Aufführen der Nicht-Duplikat-Mitteilungen.
  18. Verfahren nach Anspruch 14, das weiterhin Folgendes umfasst: Überprüfen der Duplikat-Mitteilungen durch Vergleichen von Indizes zusätzlich zu dem darin gespeicherten Inhalt.
  19. Verfahren nach Anspruch 18, bei dem die Indizes Kopffeld-Information umfassen, wobei das Verfahren weiterhin Folgendes umfasst: Vergleichen der Kopffeld-Information, die mit jeder der Duplikat-Mitteilungen gespeichert ist.
  20. Verfahren nach Anspruch 14, das weiterhin Folgendes umfasst: Bestimmen jeder Konversations-Pfadlänge auf der Grundlage von Pfad-Markierungen, die zumindest eines von Schlüsselworten, Begrenzungs-Zeichenketten und der relativen Position innerhalb jeder Mitteilung umfassen.
  21. Verfahren nach Anspruch 14, das weiterhin Folgendes umfasst: Führen eines Protokolls, das einen Eintrag für jede der Unikat-Mitteilungen umfasst, wobei jeder Protokolleintrag Mitteilungs-Quellen-Ortsinformation und Identifikationsinformation für jede hiermit in Beziehung stehende derartige Duplikat-Mitteilung und Quasi-Duplikat-Mitteilung speichert.
  22. Verfahren nach Anspruch 14, das weiterhin Folgendes umfasst: Speichern der Unikat-Mitteilungen in einem Speicher, der eine Vielzahl von relativen Speichern und Verzeichnissen umfasst, die im Wesentlichen den Mitteilungsspeichern entsprechen, aus denen die Unikat-Mitteilung entstammt.
  23. Verfahren nach Anspruch 22, das weiterhin Folgendes umfasst: Führen einer mit Querverweisen aufgeschlüsselten Sammlung, die einen Eintrag für jede der Duplikat-Mitteilungen und Quasi-Duplikat-Mitteilungen umfasst, die für die Identifikationsinformation für eine derartige zugeordnete Unikat-Mitteilung aufgeschlüsselt sind.
  24. Verfahren nach Anspruch 23, das weiterhin Folgendes umfasst: Speichern der Duplikat-Mitteilungen und der dazu kopierten Quasi-Duplikat-Mitteilungen durch Identifizieren der zugehörigen Unikat-Mitteilung mit der mit Querverweisen versehenen aufgeschlüsselten Sammlung.
  25. Verfahren nach Anspruch 14, bei dem die Mitteilung von einem Typ ist, der zumindest eines von elektronischer Post, Terminplanung, Aufgabenplanung, Kontaktverwaltung, Projektverwaltung, Arbeitsgruppen-Aktivitäten, Multimedia-Inhalt und andere Formen von elektronisch übertragbaren Objekten umfasst.
  26. Verfahren nach Anspruch 14, bei dem jeder Mitteilungsspeicher einen MAPI-konformen Mitteilungsspeicher umfasst.
  27. Computerlesbares Speichermedium, das Code zur Durchführung des Verfahrens nach Anspruch 14 enthält.
  28. System zum Kategorisieren von Mitteilungen, die in Mitteilungsspeichern (41) gespeichert sind, in getrennte Kategorien, mit: einer Haupt-Gruppe (42), die Metadaten für jede zu verarbeitende Mitteilung aus einer Vielzahl von Miteilungsspeichern speichert, wobei die Metadaten den Quellen-Mitteilungsspeicher und den relativen Speicherort für die Mitteilung identifizieren; Einrichtungen (61) zum Sortieren der Metadaten entsprechend dem Thema, und Vergleichen des Inhaltes von Mitteilungen mit ähnlichen Themen zur Identifikation derjenigen Mitteilungen, die einen im Wesentlichen duplizierten Inhalt enthalten; Einrichtungen (62) zum Sortieren der Mitteilungen entsprechend dem Inhalt durch Bezugnahme der Metadaten und Ordnen der Metadaten in der Reihenfolge der Konversations-Pfadlänge; Einrichtungen (63) zum Vergleich des Inhaltes zur Identifikation derjenigen Mitteilungen, deren Inhalt rekursiv enthaltener Inhalt innerhalb einer anderen der Mitteilungen ist; und Einrichtungen (64) zur Identifikation der verbleibenden Mitteilungen durch Bezugnahme auf die Metadaten als Unikat-Mitteilungen.
  29. Verfahren zum Kategorisieren von Mitteilungen, die in Mitteilungsspeichern gespeichert sind, in getrennte Kategorien, mit den folgenden Schritten: Extrahieren von Metadaten für jede zu verarbeitende Mitteilung aus einer Vielzahl von Mitteilungsspeichern, wobei die Metadaten den Quellen-Mitteilungs-Speicher und den relativen Speicherort für die Mitteilung identifizieren; Sortieren der Metadaten entsprechend dem Thema und Vergleichen des Inhaltes der Mitteilungen mit ähnlichen Themen zur Identifikation derjenigen Mitteilungen, die einen im Wesentlichen duplizierten Inhalt enthalten; Sortieren der Mitteilungen entsprechend dem Inhalt durch Referenzieren der Metadaten und Ordnen der Metadaten in der Reihenfolge der Konversations-Pfadlänge; Vergleichen des Inhaltes zur Identifikation derjenigen Mitteilungen, deren Inhalt rekursiv enthaltener Inhalt in anderen der Mitteilungen ist; und Identifizieren der verbleibenden Mitteilungen durch Referenzieren der Metadaten als Unikat-Mitteilungen.
DE60211489T 2001-03-19 2002-03-19 System und Verfahren zur Bearbeitung von in mehreren Nachrichtenspeichern gespeicherten Nachrichten Expired - Lifetime DE60211489T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/812,749 US6745197B2 (en) 2001-03-19 2001-03-19 System and method for efficiently processing messages stored in multiple message stores
US812749 2001-03-19
PCT/US2002/008471 WO2002091701A2 (en) 2001-03-19 2002-03-19 System and method for identifying unique messages stored in multiple message stores

Publications (2)

Publication Number Publication Date
DE60211489D1 DE60211489D1 (de) 2006-06-22
DE60211489T2 true DE60211489T2 (de) 2006-09-07

Family

ID=25210510

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60211489T Expired - Lifetime DE60211489T2 (de) 2001-03-19 2002-03-19 System und Verfahren zur Bearbeitung von in mehreren Nachrichtenspeichern gespeicherten Nachrichten

Country Status (8)

Country Link
US (1) US6745197B2 (de)
EP (1) EP1371195B1 (de)
AT (1) ATE326807T1 (de)
AU (1) AU2002314724A1 (de)
CA (1) CA2441390C (de)
DE (1) DE60211489T2 (de)
ES (1) ES2259374T3 (de)
WO (1) WO2002091701A2 (de)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3883647B2 (ja) * 1997-06-10 2007-02-21 インターナショナル・ビジネス・マシーンズ・コーポレーション メッセージ処理方法、メッセージ処理装置及びメッセージ処理を制御するプログラムを格納する記憶媒体
US7263558B1 (en) 1999-09-15 2007-08-28 Narus, Inc. Method and apparatus for providing additional information in response to an application server request
US6820081B1 (en) * 2001-03-19 2004-11-16 Attenex Corporation System and method for evaluating a structured message store for message redundancy
US20020184317A1 (en) * 2001-05-29 2002-12-05 Sun Microsystems, Inc. System and method for searching, retrieving and displaying data from an email storage location
US20030001882A1 (en) * 2001-06-29 2003-01-02 Macer Peter J. Portable entertainment machines
US7194553B2 (en) * 2001-10-16 2007-03-20 Microsoft Corporation Resolving virtual network names
US8015204B2 (en) 2001-10-16 2011-09-06 Microsoft Corporation Scoped access control metadata element
EP1303097A3 (de) * 2001-10-16 2005-11-30 Microsoft Corporation Virtuelles verteiltes Sicherheitsystem
US20030074579A1 (en) * 2001-10-16 2003-04-17 Microsoft Corporation Virtual distributed security system
US7676540B2 (en) * 2001-10-16 2010-03-09 Microsoft Corporation Scoped referral statements
US7899047B2 (en) 2001-11-27 2011-03-01 Microsoft Corporation Virtual network with adaptive dispatcher
US6915333B2 (en) * 2001-12-14 2005-07-05 International Business Machines Corporation Method of managing attached document
US20030231207A1 (en) * 2002-03-25 2003-12-18 Baohua Huang Personal e-mail system and method
US20040025048A1 (en) * 2002-05-20 2004-02-05 Porcari Damian O. Method and system for role-based access control to a collaborative online legal workflow tool
US20040044735A1 (en) * 2002-08-30 2004-03-04 International Business Machines Corporation Method and system for organizing an email thread
US8732245B2 (en) * 2002-12-03 2014-05-20 Blackberry Limited Method, system and computer software product for pre-selecting a folder for a message
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8316080B2 (en) * 2003-01-17 2012-11-20 International Business Machines Corporation Internationalization of a message service infrastructure
US8065277B1 (en) 2003-01-17 2011-11-22 Daniel John Gardner System and method for a data extraction and backup database
US8943024B1 (en) * 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8630984B1 (en) 2003-01-17 2014-01-14 Renew Data Corp. System and method for data extraction from email files
US7761427B2 (en) * 2003-04-11 2010-07-20 Cricket Technologies, Llc Method, system, and computer program product for processing and converting electronically-stored data for electronic discovery and support of litigation using a processor-based device located at a user-site
US20040236753A1 (en) * 2003-05-20 2004-11-25 Porcari Damian O. Method and system for automated messaging in an online legal workflow tool
US7421690B2 (en) * 2003-06-23 2008-09-02 Apple Inc. Threaded presentation of electronic mail
US7734568B2 (en) * 2003-06-26 2010-06-08 Microsoft Corporation DVD metadata wizard
EA013061B1 (ru) * 2003-10-01 2010-02-26 Шлюмбергер Холдингз Лимитед Способ, система и устройство для доступа к сохранённым пространственным данным
US8010579B2 (en) * 2003-11-17 2011-08-30 Nokia Corporation Bookmarking and annotating in a media diary application
US8990255B2 (en) 2003-11-17 2015-03-24 Nokia Corporation Time bar navigation in a media diary application
US7269621B2 (en) 2004-03-31 2007-09-11 Google Inc. Method system and graphical user interface for dynamically updating transmission characteristics in a web mail reply
US9819624B2 (en) 2004-03-31 2017-11-14 Google Inc. Displaying conversations in a conversation-based email system
US7814155B2 (en) 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US7912904B2 (en) * 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US7596603B2 (en) * 2004-06-30 2009-09-29 International Business Machines Corporation Automatic email consolidation for multiple participants
US7979501B1 (en) * 2004-08-06 2011-07-12 Google Inc. Enhanced message display
US8631077B2 (en) 2004-07-22 2014-01-14 International Business Machines Corporation Duplicate e-mail content detection and automatic doclink conversion
US20060041625A1 (en) 2004-08-19 2006-02-23 International Business Machines Corporation System and method for sectional e-mail transmission
US7809695B2 (en) * 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
US7426541B2 (en) * 2004-09-07 2008-09-16 Storage Technology Corporation Electronic mail metadata generation and management
US8185590B2 (en) * 2004-12-02 2012-05-22 Microsoft Corporation System and method for replicating offline scheduling transactions from a client to a server
US8069151B1 (en) 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US20060143274A1 (en) * 2004-12-28 2006-06-29 Schulz Karsten A Email reply consolidation
US7478132B2 (en) * 2005-01-24 2009-01-13 International Business Machines Corporation Dynamic email content update process
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US9002725B1 (en) 2005-04-20 2015-04-07 Google Inc. System and method for targeting information based on message content
US20060264232A1 (en) * 2005-05-20 2006-11-23 Research In Motion Limited Contact list for a wireless handheld device and methods thereof
US20070027955A1 (en) * 2005-07-28 2007-02-01 Jwj Software, Llc. Systems, methods and apparatus of an email client
EP1910949A4 (de) * 2005-07-29 2012-05-30 Cataphora Inc Verbessertes verfahren und gerät zur soziologischen datenauswertung
US8380682B2 (en) * 2005-08-10 2013-02-19 International Business Machines Corporation Indexing and searching of electronic message transmission thread sets
US20070038710A1 (en) * 2005-08-12 2007-02-15 Yongcheng Li Managing redundant email
US7949714B1 (en) 2005-12-05 2011-05-24 Google Inc. System and method for targeting advertisements or other information using user geographical information
US8601004B1 (en) 2005-12-06 2013-12-03 Google Inc. System and method for targeting information items based on popularities of the information items
KR20070070820A (ko) * 2005-12-29 2007-07-04 삼성전자주식회사 이동통신 단말기에서 답장 및 회람 메시지를 전송하는 장치및 방법
US7657601B2 (en) * 2005-12-30 2010-02-02 At&T Intellectual Property, I,L.P. Methods and computer programs for formulating messaging platform capacity projections
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US8370442B2 (en) * 2008-08-29 2013-02-05 Commvault Systems, Inc. Method and system for leveraging identified changes to a mail server
US20080319777A1 (en) * 2007-06-20 2008-12-25 Roland Hoff Business transaction issue manager
US9596308B2 (en) * 2007-07-25 2017-03-14 Yahoo! Inc. Display of person based information including person notes
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US8225219B2 (en) * 2008-02-12 2012-07-17 Microsoft Corporation Identifying unique content in electronic mail messages
US20090300517A1 (en) * 2008-05-31 2009-12-03 International Business Machines Corporation Providing user control of historical messages in electronic mail chain to be included in forwarded or replied electronic mail message
US8296726B2 (en) * 2008-06-06 2012-10-23 Sap Ag Representation of software application functionality
US8219524B2 (en) * 2008-06-24 2012-07-10 Commvault Systems, Inc. Application-aware and remote single instance data management
US8701046B2 (en) 2008-06-27 2014-04-15 Microsoft Corporation Aggregate and hierarchical display of grouped items spanning multiple storage locations
CA2730637A1 (en) * 2008-07-10 2010-01-14 Shell Internationale Research Maatschappij B.V. Process for removing a gaseous contaminant from a contaminated gas stream
US8495161B2 (en) * 2008-12-12 2013-07-23 Verizon Patent And Licensing Inc. Duplicate MMS content checking
US8375365B2 (en) * 2008-12-23 2013-02-12 Sap Ag Customization verification
US7925736B2 (en) * 2009-06-15 2011-04-12 Microsoft Corporation Message redirection within a messaging infrastructure
CA3026879A1 (en) 2009-08-24 2011-03-10 Nuix North America, Inc. Generating a reference set for use during document review
US8972355B1 (en) * 2009-08-31 2015-03-03 Symantec Corporation Systems and methods for archiving related items
US20110106549A1 (en) * 2009-10-30 2011-05-05 Sap Ag Account and product based sales professional workbench
WO2011072172A1 (en) * 2009-12-09 2011-06-16 Renew Data Corp. System and method for quickly determining a subset of irrelevant data from large data content
WO2011075610A1 (en) 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
US8856189B1 (en) * 2010-01-22 2014-10-07 Symantec Corporation Systems and methods for managing connections to process data
US20110231499A1 (en) * 2010-03-22 2011-09-22 Research In Motion Limited Management and display of grouped messages on a communication device
US8886664B2 (en) * 2010-05-13 2014-11-11 Microsoft Corporation Decreasing duplicates and loops in an activity record
US9824314B2 (en) 2011-01-14 2017-11-21 Apple Inc. Grouping email messages into conversations
US9009142B2 (en) 2011-07-27 2015-04-14 Google Inc. Index entries configured to support both conversation and message based searching
US20130124562A1 (en) * 2011-11-10 2013-05-16 Microsoft Corporation Export of content items from multiple, disparate content sources
US9817898B2 (en) 2011-11-14 2017-11-14 Microsoft Technology Licensing, Llc Locating relevant content items across multiple disparate content sources
US9426102B1 (en) * 2012-03-15 2016-08-23 Google Inc. Efficient conversation transmission to mobile clients
US10395185B2 (en) 2012-03-16 2019-08-27 Refinitiv Us Organization Llc System and method for verified compliance implementation
US10482396B2 (en) 2012-03-16 2019-11-19 Refinitiv Us Organization Llc System and method for automated compliance verification
SG11201405781RA (en) * 2012-03-16 2014-10-30 Thomson Reuters Glo Resources System and method for automated compliance verification
US9442925B2 (en) * 2012-11-21 2016-09-13 Bank Of America Corporation Regulated texting solution for mobile devices
US9552368B1 (en) * 2013-07-02 2017-01-24 Google Inc. Electronic mail attachments garden
US9559996B1 (en) * 2013-07-02 2017-01-31 Google Inc. Systems and methods for integrating cloud storage and network service
CN105765559B (zh) 2013-09-09 2019-03-05 尤奈特戴克斯公司 交互式案件管理系统
GB2537087A (en) 2014-12-18 2016-10-12 Ipco 2012 Ltd A system, method and computer program product for receiving electronic messages
GB2533562A (en) 2014-12-18 2016-06-29 Ipco 2012 Ltd An interface, method and computer program product for controlling the transfer of electronic messages
GB2533379A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A system and server for receiving transaction requests
GB2533432A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A device system, method and computer program product for processing electronic transaction requests
US9785833B1 (en) 2016-03-17 2017-10-10 Relativity Oda Llc System and method for textual near-duplicate grouping of documents
AU2017203723A1 (en) * 2016-06-07 2017-12-21 David Nixon Meeting management system and process
US11431662B2 (en) * 2017-12-28 2022-08-30 Meta Platforms, Inc. Techniques for message deduplication
US10505882B2 (en) 2018-04-11 2019-12-10 Outreach Corporation Automated communication in an email synchronization and workflow system
CN111224794B (zh) * 2018-11-27 2023-01-20 钉钉控股(开曼)有限公司 群组通信方法、装置和设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4653048A (en) * 1984-05-14 1987-03-24 American Telephone And Telegraph Company Method for interprocessor message accountability
US5317568A (en) * 1991-04-11 1994-05-31 Galileo International Partnership Method and apparatus for managing and facilitating communications in a distributed hetergeneous network
US5757669A (en) * 1995-05-31 1998-05-26 Netscape Communications Corporation Method and apparatus for workgroup information replication
WO1997046962A1 (en) 1996-06-07 1997-12-11 At & T Corp. Finding an e-mail message to which another e-mail message is a response
JP3488347B2 (ja) * 1996-08-29 2004-01-19 株式会社日立製作所 アドレス自動配布システム及びアドレス配布サーバ
JPH1115759A (ja) * 1997-06-16 1999-01-22 Digital Equip Corp <Dec> 全テキストインデックス型のメール保存装置
US6223209B1 (en) * 1997-09-30 2001-04-24 Ncr Corporation Distributed world wide web servers
US6484196B1 (en) * 1998-03-20 2002-11-19 Advanced Web Solutions Internet messaging system and method for use in computer networks
US6330589B1 (en) * 1998-05-26 2001-12-11 Microsoft Corporation System and method for using a client database to manage conversation threads generated from email or news messages
US6438564B1 (en) * 1998-06-17 2002-08-20 Microsoft Corporation Method for associating a discussion with a document
US20010056362A1 (en) * 1998-07-29 2001-12-27 Mike Hanagan Modular, convergent customer care and billing system
US6442592B1 (en) * 1998-12-11 2002-08-27 Micro Computer Systems, Inc. Message center system
US6523063B1 (en) * 1999-08-30 2003-02-18 Zaplet, Inc. Method system and program product for accessing a file using values from a redirect message string for each change of the link identifier
US6507847B1 (en) * 1999-12-17 2003-01-14 Openwave Systems Inc. History database structure for Usenet

Also Published As

Publication number Publication date
EP1371195A2 (de) 2003-12-17
AU2002314724A1 (en) 2002-11-18
DE60211489D1 (de) 2006-06-22
ATE326807T1 (de) 2006-06-15
WO2002091701A3 (en) 2003-08-07
EP1371195B1 (de) 2006-05-17
US6745197B2 (en) 2004-06-01
CA2441390A1 (en) 2002-11-14
CA2441390C (en) 2007-10-23
US20020161788A1 (en) 2002-10-31
ES2259374T3 (es) 2006-10-01
WO2002091701A2 (en) 2002-11-14

Similar Documents

Publication Publication Date Title
DE60211489T2 (de) System und Verfahren zur Bearbeitung von in mehreren Nachrichtenspeichern gespeicherten Nachrichten
DE602005005312T2 (de) Verfahren und System zur Verwaltung elektronischer Nachrichten
DE69907631T2 (de) Netzzugang zu inhaltsadressierbaren daten
DE60226232T2 (de) Inhaltsverwaltungssystem
DE19782227B4 (de) Verfahren zum Verteilen von Indexdaten unter einer Mehrzahl vernetzter Knoten und System zum Verwalten eines Index
DE3908459C2 (de) Netzwerkserver
EP1605649B1 (de) Verfahren und Vorrichtung zum Verwalten von elektronischen Nachrichten
DE19844071A1 (de) Verfahren zum Lösen von Datenkonflikten in einem gemeinsamen Datenumfeld
DE60004211T2 (de) Entfernung von duplizierten objekten aus einem objektspeicher
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
DE60315996T2 (de) Verfahren und vorrichtung zur datenbewegung mittels sperren
DE19919146A1 (de) Hochleistungs-Nachrichtenspeicher
DE60306209T2 (de) Verfahren, mobile vorrichtungen und rechnerlesbare media zur datenverwaltung
CH704497B1 (de) Verfahren zum Benachrichtigen, Speichermedium mit Prozessoranweisungen für ein solches Verfahren.
DE19844013A1 (de) Strukturierter Arbeitsordner
DE19607149A1 (de) Verfahren zum rechnergestützten Abgleich mehrerer, in mindestens einem Rechner gespeicherten Dateikopien einer gespeicherten Datei
DE10337144A1 (de) Verfahren zur Aufzeichnung von Ereignis-Logs
DE10151648A1 (de) Verfahren und System zum Erfassen und Speichern von während einer computerbasierten Sitzung gemachten Notizen
DE602004002777T2 (de) Vorrichtung zur Behandlung von E-Mails in einer Mehrbenutzer-Umgebung
DE112012004652T5 (de) System, Einheit und Verfahren zum Verarbeiten von Daten in einer dreidimensionalen Zeitreihe
JP4146101B2 (ja) 知識蓄積支援システムおよび同システムにおける公開まとめ提供方法
DE102012025351B4 (de) Verarbeitung eines elektronischen Dokuments
DE19746252A1 (de) Attributgesteuerte Meldungshandhabungseinrichtung und zugeordnetes Verfahren
EP0939515A1 (de) Verfahren und Netzelement zum Weiterleiten von Ereignisnachrichten
DE69905999T2 (de) Aktualisieren eines zentralisierten Ereignisjournals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition