-
Technisches
Gebiet
-
Die
vorliegende Erfindung bezieht sich allgemein auf die Kategorisierung
von gespeicherten Mitteilungen und insbesondere auf ein System und
Verfahren zur effizienten Verarbeitung von Mitteilungen, die in
mehrfachen Mitteilungs-Speichern gespeichert sind.
-
Hintergrund
der Erfindung
-
Derzeit
stellt die elektronische Mitteilungsübermittlung eine Hauptform
der Kommunikationen zwischen Personen dar und ergänzt und
ersetzt in mancher Hinsicht übliche
sprachbasierte Kommunikationen. Die elektronische Mitteilungsübermittlung schließt traditionelle
elektronische Post (E-Mail) ein und hat sich so entwickelt, dass
sie die Zeitplanung, Aufgabensteuerung, die Kontakt- und Projektverwaltung
und eine zunehmende Anzahl von automatisierten Arbeitsgruppen-Aktivitäten umfasst.
Die elektronische Mitteilungsübermittlung
schließt
weiterhin den Austausch von elektronischen Dokumenten und Multimedien-Inhalten ein, die
in vielen Fällen
als Anlagen eingefügt
werden. Weiterhin kann im Gegensatz zur Sprachpost die elektronische
Mitteilungsübermittlung sehr
einfach an eine Zielgruppen übermittelt
werden, die von einem einzigen Benutzer zu einer Arbeits-Gruppe,
einer Firma oder sogar weltweit reichen, indem vordefinierte Mitteilungs-Adressenlisten verwendet
werden.
-
Eine
grundlegende elektronische Mitteilungsübermittlungs-Architektur schließt einen
Mitteilungsaustausch-Server ein, der mit einer Vielzahl von einzelnen
Teilnehmern oder Klienten kommuniziert. Der Mitteilungsaustausch-Server
wirkt als ein elektronischer Mitteilungs-Verwalter, der elektronische Mitteilungen
von dem Klienten speichert, empfängt und
verteilt, wobei ein oder mehrere Mitteilungs-Datenbanken verwendet werden. Individuelle
elektronische Mitteilungsinformationen werden in Mitteilungsspeichern
gehalten, die als Verzeichnisse oder Archive bezeichnet werden,
und die durch ein Benutzerkonto innerhalb der Mitteilungs-Datenbanken
identifiziert werden. Im Allgemeinen archiviert eine Firma gemäß einer
Richtlinie die Mitteilungs-Datenbanken als historische Datenspeicherung
während
der Routine-Sicherungsprozeduren.
-
Die
in archivierten elektronischen Mitteilungen enthaltene Information
kann eine möglicherweise
nützliche
Chronologie von historisch bedeutsamen Ereignissen liefern. Beispielsweise
stellen Mitteilungs-Konversationsketten einen laufenden Dialog dar,
der eine Chronik des Entscheidungsprozesses bilden kann, der von
einzelnen Personen während der
Ausführung
ihrer Firmen-Verantwortlichkeiten ausgeführt wird. Weiterhin können die
einzelnen Mitteilungs-Speicherarchive den Empfang und die Bestätigung bestimmter
Firmenmitteilungen sowohl örtlich
als auch an verteilten Orten nachweisen. Die archivierten elektronischen
Mitteilungs-Datenbanken ergeben
weiterhin nützliche
Rückverfolgungspfade zur
Verfolgung des Informationsflusses.
-
Entsprechend
wenden sich Sachverhalt-Sucher zunehmend archivierten elektronischen
Mitteilungsspeichern zu, um kritische Informationen zu lokalisieren
und einen Einblick in die einzelnen Motivationen und Verhaltensweisen
zu erhalten. Insbesondere werden elektronische Mitteilungsspeicher
nunmehr fast routinemäßig während der
Ausforschungsphase von Streitfällen
vorgelegt, um Beweise und Materialien zu gewinnen, die für die Streitparteien und
das Gericht nützlich
sind. Die Ausforschung beinhaltet eine Durchsicht von Dokumenten,
während der
alle relevanten Materialien gelesen und analysiert werden. Der Dokumenten-Überprüfungsprozess ist zeitraubend
und aufwändig,
weil jedes Dokument schließlich
manuell gelesen werden muss. Eine vorhergehende Analyse von Dokumenten
zur Entfernung von duplizierter Information kann erheblich Zeit und
Aufwand sparen, indem das Überprüfungsgebiet eingeschränkt wird,
insbesondere wenn man eine große
Anzahl von einzelnen Mitteilungen behandeln muss, die in jedem der
archivierten elektronischen Mitteilungsspeicher für eine Gemeinschaft
von Benutzern gespeichert sind.
-
Typischerweise
werden elektronische Mitteilungen, die in archivierten elektronischen
Mitteilungsspeichern aufbewahrt werden, physikalisch als Datenobjekte
gespeichert, die Text oder anderen Inhalt enthalten. Viele dieser
Objekte sind Duplikate, zumindest teilweise, von anderen Objekten
in den Mitteilungsspeicher für
den gleichen Benutzer oder für andere
Benutzer.
-
Beispielsweise
werden elektronische Mitteilungen in vielen Fälleln durch die Einfügung in
eine Antwort oder eine weitergeleitete Mitteilung oder als Anlage
dupliziert. Eine Kette derartiger rekursiv eingefügter Mitteilungen
bildet einen Konversations-"Pfad". Zusätzlich rufen
eine Rundsendung, die Parallelverarbeitung und elektronische Massenmitteilungs- „Postsendungen" eine Mitteilungsduplizierung über jede
Anzahl von einzelnen elektronischen Mitteilungsübermittlungs-Konten hervor.
-
Obwohl
das Ziel der Dokumenten-Voranalyse in der Verringerung der Größe des Betrachtungsgebietes
liegt, ergibt eine vereinfachte Entfernung aller duplizierter Mitteilungen
lediglich eine teilweise Lösung.
Im Mittel stellen exakt duplizierte Mitteilungen einen kleinen Anteil
des duplizierten Materials dar. Ein wesentlich größerer Anteil
der duplizierten elektronischen Mitteilungen bildet einen Teil von
Konversations-Pfaden, die eingebettete Information enthalten, die
durch eine Antwort, eine Weiterleitung oder durch eine Anlage erzeugt
wird. Die Mitteilung, die den längsten
Konversations-Pfad enthält,
ist in vielen Fällen
die wichtigste Mitteilung, weil jede der früheren Mitteilungen mit der
Mitteilung selbst weitergeleitet wird. Die Mitteilungen, die einen
Konversations-Pfad umfassen, sind „nahezu" duplizierte Mitteilungen, die ebenfalls
von Interesse sein können,
um zeitliche oder sachliche Beziehungen zu zeigen, sowie um möglicherweise
duplizierte Information erkennen zu lassen.
-
Beim
Stand der Technik liefern elektronische Mitteilungsübermittlungs-Anwendungen nur begrenzte
Werkzeuge zur Verarbeitung elektronischer Mitteilungen. Elektronische
Mitteilungsübermittlungs-Klienten,
wie z.B. das Outlook-Produkt,
das von der Firma Microsoft Corporation, Redmond, Washington lizensiert
wird, oder das cc:mail-Produkt, das von der Lotus Corporation, Cambridge,
Massachusetts lizensiert wird, ergeben rudimentäre Einrichtungen zum Sortieren
gespeicherter Mitteilungen. Diese Einrichtungen sind jedoch auf
die Verarbeitung lediglich derjenigen Mitteilungen beschränkt, die
in einem einzigen Benutzer-Konto gespeichert sind, und sie sind
nicht in der Lage, mehrfache elektronische Mitteilungsspeicher zu
handhaben, die von unterschiedlichen Mitteilungsverwaltern aufbewahrt werden.
-
Die
Veröffentlichung „Distribution
Duplication Prevention Mechanism",
Research Disclosure, Kenneth Mason Publications, Hampshire, GB,
NO. 336, 1. April 1992 (1992-04-01), Seite 261, XP000304807 ISSN:
0374-4353 beschreibt ein Verfahren zum Verhindern des Empfangs von
duplizierten Kopien von Verteilungen, unter Einschluss von E-Mails,
Telefax-Mitteilungen und Sprachpost. Das Verfahren verhindert den
Empfang von Duplikaten durch einen Empfänger, indem Attribute betrachtet
werden, um festzustellen, ob die ankommende Verteilung identisch
zu einer anderen ist.
-
Es
besteht daher ein Bedarf an einer Lösung für die Verarbeitung elektronischer
Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert sind,
für eine
Dokumenten-Voranalyse. Vorzugsweise würde eine derartige Lösung ein
Ergebnis-Protokoll
erzeugen, das eine punktweise aufgeschlüsselte Sammlung und eine nach
Querverweisen aufgeschlüsselte
Sammlung einschließen
würde und
die elektronischen Mitteilungen in Kategorien „klassifizieren" würde, die
eindeutige exakte Duplikate, und angenäherte oder Quasi-Duplikate
von Mitteilungen einschließen
würde und
weiterhin die Konversations-Pfadlänge bestimmen würde.
-
Es
besteht ein weiterer Bedarf an einer Lösung zur Identifikation von
eindeutigen Mitteilungen und verwandten duplizierten oder quasi-duplizierten Mitteilungen,
die in mehrfachen Mitteilungsspeichern aufbewahrt sind. Vorzugsweise
würde eine
derartige Lösung
die Fähigkeit
einschließen,
eindeutige Mitteilungen zu trennen und später ausgewählte eindeutige Mitteilungen
mit ihren verwandten duplizierten und quasi-duplizierten Mitteilungen
in der erforderlichen Weise neu zusammenzufassen.
-
Es
besteht ein weiterer Bedarf an einer Lösung zur Verarbeitung elektronischer
Mitteilungen, die durch Anwendungen erzeugt werden, die zu Mitteilungsübermittlungs-Anwendungsprogrammierschnittstellen
(MAPI) konform sind.
-
Offenbarung
der Erfindung
-
Die
Erfindung definiert Systeme und Verfahren gemäß den beigefügten Ansprüchen.
-
Die
vorliegende Erfindung ergibt ein System und ein Verfahren zur Erzeugung
eines Schatten-Speichers, der Mitteilungen speichert, die aus einer
gebündelten
Sammlung von Mitteilungsspeichern ausgewählt sind. Der Schatten-Speicher
kann in einem Dokumenten-Überprüfungsprozess
verwendet werden. Der Schatten-Speicher
wird durch die Hrausziehen ausgewählter Information über Mitteilungen
aus jedem der einzelnen Mitteilungsspeicher in eine Haupt-Gruppe
erzeugt. Die Haupt-Gruppe wird verarbeitet, um Mitteilungsthemen
zu identifizieren, die lediglich einmal in einzelnen Mitteilungsspeichern
auftreten, und um dann die verwandten Mitteilungen als einzigartig
zu identifizieren. Die verbleibenden nicht-einzigartigen Mitteilungen
werden Thema für
Thema in einer Thema-Gruppe verarbeitet, aus der duplizierte, quasi-duplizierte
und einzigartige Mitteilungen identifiziert werden. Zusätzlich werden Pfad-Zählungen
geführt.
Eine Protokolldatei, die die Eigenart und den Ort jeder Mitteilung
und die Beziehung jeder Mitteilung zu anderen Mitteilungen anzeigt,
wird erzeugt. Im Wesentlichen einzigartige Mitteilungen werden in
den Schattenspeichern zur Verwendung in anderen Prozessen kopiert,
wie z.B. in einem Dokumenten-Überprüfungsprozess.
Wahlweise werden ausgewählte
duplizierte oder quasi-duplizierte Mitteilungen ebenfalls in den
Schattenspeicher oder irgendeinen anderen Speicher kopiert, der
die verwandte einzigartige Mitteilung enthält.
-
Ein
System und Verfahren zur effizienten Identifikation von einzigartigen
oder Unikat-Mitteilungen, die in organisierten Mitteilungsspeichern
gespeichert sind, wird beschrieben. Duplizierte Mitteilungen, die
im Wesentlichen duplizierten Inhalt enthalten, werden aus thematisch
identischen Mitteilungen entfernt, die logisch aus einer Vielzahl
von organisierten Mitteilungsspeichern abgeleitet wurden. Quasi-duplizierte Mitteilungen,
die Inhalt enthalten, der rekursiv in einer anderen der verbleibenden
Mitteilungen enthalten sind, werden ebenfalls entfernt. Einzigartige
Mitteilungen, die zumindest eine einer Mitteilung, die ein einziges
Auftreten eines vorgegebenen Themas speichert, und einer Mitteilung,
die nicht rekursiven Inhalt bezüglich
anderer derartiger logisch abgeleiteter Mitteilungen speichern,
werden gespeichert.
-
Eine
Ausführungsform
der vorliegenden Erfindung ist ein System und Verfahren zur effizienten Verarbeitung
von Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert
sind. Metadaten, die einen Bereich von thematisch identischen Mitteilungen
identifizieren, die von einer Vielzahl von Mitteilungsspeichern
abgeleitet sind, die eine Vielzahl von zu verarbeitenden Mitteilungen
speichern, werden iterativ kopiert. Die Metadaten für den abgeleiteten
Bereich von thematisch identischen Mitteilungen werden kategorisiert.
Wenn für
irgendeinen Themabereich die Anzahl von thematisch identischen Mitteilungen
gleich Eins ist, so wird diese Mitteilung als einzigartig oder Unikat
identifiziert. Wenn die Anzahl von thematisch identischen Mitteilungen
größer als
Eins ist, werden diejenigen Mitteilungen, die im Wesentlichen duplizierten
Inhalt innerhalb des abgeleiteten Bereiches enthalten, als duplizierte
Mitteilungen identifiziert. Diejenigen nicht-duplizierten Mitteilungen
innerhalb des abgeleiteten Bereiches werden in einer Reihenfolge
der Konversations-Pfadlänge
aufgeführt.
-
Diejenigen
Mitteilungen, deren Inhalt ein rekursiv enthaltener Inhalt in anderen
der aufgeführten nicht-duplizierten
Mitteilungen ist, werden als quasi-duplizierte Mitteilungen klassifiziert.
Die verbleibenden Mitteilungen werden als einzigartige Mitteilungen
bezeichnet, die Inhalt enthalten, der im Wesentlichen andere Mitteilungen
nicht dupliziert.
-
Eine
weitere Ausführungsform
der vorliegenden Erfindung ist ein System und Verfahren zum Kategorisieren
von Mitteilungen, die in Mitteilungsspeichern gespeichert sind,
in getrennte Kategorien. Metadaten für jede zu verarbeitende Mitteilung
werden von einer Vielzahl von Mitteilungsspeichern abgeleitet. Die
Metadaten identifizieren den Quellen-Mitteilungsspeicher und den
relativen Speicherplatz für
die Mitteilung. Die Metadaten werden entsprechend einem Thema sortiert.
Der Inhalt von Mitteilungen mit ähnlichen
Mitteilungen mit identischen Themen werden verglichen, um diejenigen
Mitteilungen zu identifizieren und zu beseitigen, die einen im Wesentlichen duplizierten
Inhalt enthalten. Die verbleibenden Mitteilungen werden entsprechend
dem Inhalt dadurch sortiert, dass auf die Metadaten Bezug genommen wird,
und die Metadaten werden in der Reihenfolge der Konversations-Pfadlänge geordnet.
-
Der
Inhalt wird verglichen, um diejenigen Mitteilungen zu identifizieren,
deren Inhalt rekursiv enthaltener Inhalt in anderen der Mitteilungen
ist. Die verbleibenden Mitteilungen werden durch Verweis auf die
Metadaten als eindeutige Mitteilungen identifiziert.
-
Weitere
Ausführungsformen
der Erfindung werden für
den Fachmann ohne weiteres aus der folgenden ausführlichen
Beschreibung ersichtlich, in der Ausführungsformen der Erfindung
zur Erläuterung
der besten Ausführungsform
beschrieben sind, die derzeit für
die Durchführung
der Erfindung in Betracht gezogen wird. Wie dies zu erkennen ist,
kann die Erfindung in anderen und unterschiedlichen Ausführungsformen
verwirklicht werden, und ihre verschiedenen Einzelheiten können in
verschiedener naheliegender Hinsicht modifiziert werden, ohne dass
der Schutzumfang der vorliegenden Erfindung verlassen wird. Entsprechend
sollten die Zeichnungen und die ausführliche Beschreibung lediglich
als erläuternd
und nicht als beschränkend
aufgefasst werden.
-
Beschreibung
der Zeichnungen
-
1 ist
eine funktionelle Blockdarstellung, die eine verteilte Computerumgebung
zeigt, unter Einschluss eines Systems zur effizienten Verarbeitung
von Mitteilungen, die in mehrfachen Mitteilungsspeichern gespeichert
sind, gemäß der vorliegenden Erfindung.
-
2 ist
eine Blockdarstellung, die das System zur effizienten Verarbeitung
von Mitteilungen nach 1 zeigt.
-
3 ist
ein Datenfluss-Diagramm, das die elektronische Mitteilungsverarbeitung
zeigt, die das System nach 2 befolgt.
-
4 ist
eine Blockdarstellung, die die Software-Module des Systems nach 2 zeigt.
-
5 zeigt
in Form eines Beispiels eine mit Anmerkungen versehene elektronische
Mitteilung.
-
6 ist
ein Ablaufdiagramm, das ein Verfahren zur effizienten Verarbeitung
von Mitteilungen zeigt, die in mehrfachen Mitteilungsspeichern gespeichert
sind, gemäß der vorliegenden
Erfindung.
-
7 ist
ein Ablaufdiagramm, das die Routine zur Erzeugung eines Schattenspeichers
zur Verwendung in dem Verfahren nach 6 zeigt.
-
8 ist
ein Ablaufdiagramm, das die Routine zur Verarbeitung von Mitteilungen
zur Verwendung in dem Verfahren nach 6 zeigt.
-
9 ist
ein Ablaufdiagramm, das die Routine zur Verarbeitung der Haupt-Gruppe
zur Verwendung in der Routine nach 8 zeigt.
-
Die 10A-C sind Ablaufdiagramme, die die Routine zur
Verarbeitung einer Thema-Gruppe zur Verwendung in der Routine nach 9 zeigen.
-
11 ist
ein Ablaufdiagramm, das die Routine zur Verarbeitung eines Protokolls
zur Verwendung in der Routine nach 8 zeigt.
-
Beste Ausführungsform
zur Durchführung
der Erfindung
-
1 ist
eine funktionelle Blockdarstellung, die eine verteilte Computerumgebung 10 zeigt,
die ein System zur effizienten Verarbeitung von den mehrfachen Mitteilungsspeichern
gespeicherten Mitteilungen gemäß der vorliegenden
Erfindung einschließt.
Die verteilte Computerumgebung 10 schließt ein Inter-Netzwerk 16,
unter Einschluss des Internets, und ein Intra-Netzwerk 13 ein.
Das Inter-Netzwerk 16 und das Intra-Netzwerk 13 sind über einen
Router 17 oder eine andere Zwischenverbindungseinrichtung
miteinander verbunden, wie dies bekannt ist. Andere Netzwerk-Topologien,
Konfigurationen und Komponenten sind denkbar, wie dies für den Fachmann
zu erkennen ist.
-
Elektronische
Mitteilungen, insbesondere elektronische Post (E-Mail) werden zwischen
den verschiedenen Systemen ausgetauscht, die über die verteilte Computerumgebung 10 miteinander
verbunden sind. In dem gesamten vorliegenden Dokument werden die
Ausdrücke „elektronische
Mitteilung" und „Mitteilung" austauschbar mit
der gleichen vorgesehenen Bedeutung verwendet. Zusätzlich umfassen Mitteilungstypen
elektronische Post, Zeitplanung, Aufgabensteuerung, Kontaktverwaltung,
Projektverwaltung, Arbeitsgruppen-Aktivitäten, Multimedien-Inhalt und
andere Formen von elektronisch übertragbaren
Objekten, wie dies für
den Fachmann zu erkennen ist. Diese Systeme schließen einen
Server 11 ein, der einen Mitteilungs-Austauschdienst für eine Vielzahl
von Klienten 12a, 12b bereitstellt, die über das
Intra-Netzwerk 13 miteinander verbunden sind. Die Klienten 12a, 12b können weiterhin
Teilnehmer an einem Fern-Mitteilungsaustausch-Dienst
sein, der von einem an einer entfernten Stelle angeordneten Server 14 bereitgestellt
wird, der über
das Inter-Netzwerk 16 mit diesen verbunden ist. In ähnlicher
Weise kann ein an einer entfernten Stelle angeordneter Klient 15 Teilnehmer
an entweder einem oder beiden der Mitteilungsaustausch-Dienste von
dem Server 11 und dem entfernt angeordneten Server 14 über das Inter-Netzwerk 16 sein.
-
Jedes
der Systeme ist mit einem Speichergerät gekoppelt. Der Server 11,
die Klienten 12a, 12b und der entfernt angeordnete
Klient 15 unterhalten jeweils gespeicherte Daten in einem örtlichen
Speichergerät 18.
Der entfernt angeordnete Server 14 unterhält gespeicherte
Daten in einem (nicht gezeigten) örtlichen Speichergerät und kann
ebenfalls gespeicherte Daten für
entfernt angeordnete Systeme in einem Fern-Speichergerät 19 aufbewahren,
das heißt ein
Speichergerät,
das in einer Entfernung gegenüber
dem Server 11, dem Klienten 12a, 12b und
dem entfernt angeordneten Klienten 15 angeordnet ist. Die
Speichergeräte
schließen übliche Festplatten, entfernbare
und feste Medien, CD ROM- und DVD-Laufwerke und alle anderen Formen
von flüchtigen
und nichtflüchtigen
Speichergeräten
ein.
-
Jedes
der Systeme unterhält
weiterhin einen Mitteilungsspeicher, entweder auf dem örtlichen Speichergerät oder einem
entfernt angeordneten Speichergerät, in dem elektronische Mitteilungen
gespeichert oder archiviert werden. Jeder Mitteilungsspeicher bildet
einen identifizierbaren Aufbeahrungsort, an dem elektronische Mitteilungen
aufbewahrt werden, und er kann einen einstückigen oder getrennten Archiv-Mitteilungsspeicher
für eine Off-Line-Speicherung
einschließen.
Intern kann jeder Mitteilungsspeicher ein oder mehrere (nicht gezeigte) Mitteilungsverzeichnisse
enthalten, die Gruppen von verwandten Mitteilungen enthalten, wie
z.B. ein „Eingangsfach"-Mitteilungsverzeichnis
für eingehende Mitteilungen,
ein „Ausgangsfach"-Mitteilungsverzeichnis
für abgehende
Mitteilungen und dergleichen. Aus Gründen der Klarheit der Diskussion
werden einzelne Mitteilungsverzeichnisse in der gleichen Weise behandelt,
obwohl der Fachmann erkennen wird, dass kontextbezogene Mitteilungsverzeichnisse
getrennt verarbeitet werden könnten.
-
In
einer Arbeitsgruppen-Rechnerumgebung unterhält der Server 11 kollektiv
die Mitteilungsspeicher als einen Arbeitsgruppen-Mitteilungsspeicher (WMS) 22 für jeden
teilnehmenden Klienten 12a, 12b und den entfernt
angeordneten Klienten 15. In einer verteilten Rechnerumgebung
könnte
jeder Klient 12a, 12b und der entfernt angeordnete
Klient 15 einen individuellen Mitteilungsspeicher 21 entweder anstelle
oder zusätzlich
zu einem Arbeitsgruppen-Mitteilungsspeicher 21 unterhalten.
In ähnlicher Weise
könnte
der entfernt angeordnete Server 16 einen Arbeitsgruppen-Mitteilungsspeicher 22 für entfernt
angeordnete Klienten unterhalten.
-
Mit
der Zeit speichert jeder der Mitteilungsspeicher unvermeidbar Duplikate,
zumindest teilweise, von anderen elektronischen Mitteilungen, die
in dem Mitteilungsspeicher für
den gleichen Benutzer oder für
andere Benutzer gespeichert sind. Diese duplizierten oder quasi-duplizierten
elektronischen Mitteilungen müssen
während
einer Dokumenten-Voranalyse identifiziert und entfernt werden. Somit schließt der Server 11 einen
Mitteilungsprozessor 20 zur effizienten Verarbeitung der
elektronischen Mitteilungen ein, die in den verschiedenen Mitteilungsspeichern 21, 22 gespeichert
sind, wie dies nachfolgend beginnend mit der Bezugnahme auf 2 weiter
beschrieben wird. Wahlweise könnte
ein einzelner Klient 12a ebenfalls einen Mitteilungsprozessor 20 einschließen. Die
tatsächliche
Aufnahme des Mitteilungsprozessors 20 ist lediglich durch
die physikalische Ressourcen-Verfügbarkeit
beschränkt,
die zum Speichern und Verarbeiten einzelner Mitteilungsspeicher 21 und
der Arbeitsgruppen-Mitteilungsspeicher 22 erforderlich
ist.
-
Die
elektronischen Mitteilungen werden direkt von den einzelnen Mitteilungsspeichern 21,
den Arbeitsgruppen-Mitteilungsspeichern 22 zurückgewonnen
oder von diesen Mitteilungsspeichern zu einem kombinierten Mitteilungsspeicher
vereinigt. Für eine
Dokumenten-Voranalyse können
die Mitteilungsspeicher sowohl aktive „On-Line"-Mitteilungen als auch archivierte „Off-Line"-Mitteilungen einschließen, die
in einem örtlichen
Speichergerät 18 oder
einem entfernt angeordneten Speichergerät 19 aufbewahrt werden.
-
Die
einzelnen Computersysteme unter Einschluss des Servers 11,
der Klienten 12, des entfernt angeordneten Servers 14 und
des entfernt angeordneten Klienten 15 sind programmierte
digitale Allzweck-Computergeräte,
die aus einer zentralen Verarbeitungseinheit (CPU), einem Speicher
mit wahlfreiem Zugriff (RAM), einem nicht-flüchtigen sekundären Speicher,
wie z.B. einer Festplatte, einem CD-ROM- oder DVD-Laufwerk, Netzwerk-Schnittstellen
und Peripheriegeräten
bestehen, unter Einschluss von Benutzer-Schnittstelleneinrichtungen, wie
z.B. einer Tastatur und einer Anzeige. Programmcode, unter Einschluss
von Software-Programmen, und Daten wird in dem RAM zur Ausführung und
zur Verarbeitung durch die CPU geladen, und die Ergebnisse werden
zur Anzeige, Ausgabe, Übertragung oder
Speicherung erzeugt.
-
2 ist
ein Blockschaltbild, das das System zur effizienten Verarbeitung
von Mitteilungen nach 1 zeigt. Das System 30 schließt den Server 11, das
Speichergerät 18 und
ein oder mehrere Mitteilungsspeicher 32 ein. Die Mitteilungsspeicher 32 könnten individuelle
Mitteilungsspeicher 21 und Arbeitsgruppen-Mitteilungsspeicher 22 (gemäß 2) einschließen. Alternativ
könnte
das System 30 einen (nicht gezeigten) Klienten 12a anstelle
des Servers 11 einschließen.
-
Der
Server 11 schließt
den Mitteilungsprozessor 20 ein und betreibt wahlweise
eine Mitteilungsübermittlungs-Anwendung 31.
Die Mitteilungsübermittlungs-Anwendung 31 stellt
Dienste bezüglich des
elektronischen Mitteilungs-Austauschs und der Informationsspeicherung
für einzelne
Klienten 12a, 12b, entfernt angeordnete Server 14 und
entfernt angeordnete Klienten 15 (gemäß 1) bereit.
Auf einer Anwendungsseite schließen diese Dienste die Bereitstellung
elektronischer Post, die Terminsteuerung, die Aufgabensteuerung,
die Kontakt- und Projektverwaltung und verwandte automatisierte
Arbeitsgruppen-Aktivitäten-Unterstützungen
ein. Auf einer Systemseite schließen diese Dienste die Mitteilungs-Adressierungs-Speicherung und den
Austausch sowie die Schnittstellenverbindung zu elektronischen Mitteilungsübermittlungs-Teilsystemen
niedriger Ebene ein. Ein Beispiel eines Mitteilungs-Austauschservers 31 ist
das Exchange Server-Produkt, das von der Microsoft Corporation,
Redmond, Washington lizensiert wird. Vorzugsweise beinhaltet der Mitteilungs-Austauschserver 31 eine
mit der Mitteilungs-Anwendungs-Programmierschnittstelle (MAPI) konforme
Architektur, wie sie beispielsweise in der Veröffentlichung von R. Orfali
et al. „Client/Server Survival
Guide", Kapitel
19, John Wiley & Sons,
Inc. (1999, 3. Ausgabe) beschrieben ist. Die Mitteilungsübermittlungs-Anwendung
bildet keinen Teil der vorliegenden Erfindung, ist jedoch gezeigt,
um eine geeignete Umgebung zu zeigen, in der die Erfindung arbeiten
kann.
-
Der
Mitteilungsprozessor 20 verarbeitet die Mitteilungsspeicher 32 (gemäß 1),
um in effizienter Weise eine Voranalyse der elektronischen Mitteilungen
durchzuführen,
wie dies weiter unten unter Bezugnahme auf 3 weiter
erläutert
wird. Die Mitteilungsspeicher 32 werden verarbeitet, um
ein oder mehrere Konstrukte zu erzeugen, die in einem „Schatten"-Speicher 33 gespeichert
werden.
-
Eine
Punkt-zu-Punkt verschlüsselte
Sammlung 35 speichert Querverweise zwischen der Identifikation
des ursprünglichen
Mitteilungsspeichers oder Verzeichnisses in dem ursprünglichen
Mitteilungsspeicher und der Identifikation des neu geschaffenen entsprechenden
Verzeichnisses oder Unterverzeichnisses in dem Schattenspeicher 33.
Während
der Verarbeitung werden die elektronischen Mitteilungen in duplizierte,
quasi-duplizierte und Unikat-Kategorien „klassifiziert" und durch den längsten Konversations-Pfad
markiert.
-
Die
Ergebnisse der Mitteilungsverarbeitung werden in einem Protokoll 34 aufgezeichnet,
um Unikat-Mitteilungen 44 zu identifizieren und um eine
Verarbeitungs-Revisions-Spur zu schaffen, um es zu ermöglichen,
dass die Quelle und die abschließende Verfügung über irgendeine vorgegebene
Mitteilung sehr einfach verfolgt werden können. Weiterhin ermöglicht eine
mit Querverweisen versehene aufgeschlüsselte Sammlung 36,
dass Identifikationen für Unikat-Mitteilungen geliefert
und die Quellen-Ortsinformation dieser Mitteilungen, die Duplikate
oder Quasi-Duplikate der Unikat-Mitteilung sind, zurückgewonnen
werden. Die Zurückgewinnungs-Information
ermöglicht
eine wahlweise Neuzusammenfassung ausgewählter Unikat-Mitteilungen und
der verwandten duplizierten oder quasi-duplizierten Mitteilungen
zu einer späteren
Zeit, beispielsweise durch die Einfügung in den Schattenspeicher 33 an
dem Ende des Dokumenten-Überprüfungsprozesses. Wahlweise
können
die duplizierten und quasi-duplizierten Mitteilungen mit ihren verwandten
Unikat-Mitteilungen zur Vollständigkeit
wieder verbunden werden Das Protokoll 34 zeichnet nicht
nur die Verfügung über jede
Mitteilung auf, sondern zeichnet im Fall von duplizierten oder quasi-duplizierten
Mitteilungen die Unikat-Mitteilung an, der jede duplizierte und
quasi-duplizierte Mitteilung zugeordnet ist, was es ermöglicht,
dass bestimmte duplizierte und quasi-duplizierte Mitteilungen lokalisiert
und wahlweise mit ausgewählten
Unikat-Mitteilungen zu einer späteren
Zeit wieder zusammengefügt
werden können. Bei
der beschriebenen Ausführungsform
wird die mit Querverweisen versehene aufgeschlüsselte Sammlung 36 als
Teil des Protokolls 34 geführt, doch wird sie aus Gründen der
Klarheit getrennt identifiziert. Die Unikat-Mitteilungen 44 werden in den
Schattenspeicher 33 zur Weiterleitung an die nächste Stufe der
Dokumenten-Überprüfung kopiert.
-
3 ist
ein Datenfluss-Diagramm 40, das den elektronischen Mitteilungs-Verarbeitungszyklus zeigt,
dem das System 30 nach 2 folgt.
Zunächst werden
die verschiedenen Mitteilungsspeicher 41 für einen
Zugang geöffnet.
Metadaten, die aus Mitteilungs-Identifikationsinformation, unter
Einschluss der Mitteilungsquellen-Ortsinformation und des Mitteilungsthemas
(oder Gegenstände)
bestehen, werden in eine „Haupt"-Gruppe 42 extrahiert.
Die Haupt-Gruppe 42 ist eine logische Sammlung von Themen
und Identifikationsinformation in Form von Metadaten für alle die
Mitteilungen in den verschiedenen Mitteilungsspeichern 41.
Die Metadaten werden in den verschiedenen hier beschriebenen Datenstrukturen
manipuliert, unter Einschluss der Haupt-Gruppe 42, der
Thema-Gruppe 43 und den Gruppen für Unikat-Mitteilungen 44,
quasi-duplizierten Mitteilungen 45, Pfadlängen 46 und
duplizierten Mitteilungen 47. Mit Ausnahme dessen, was
weiter oben bemerkt wurde, werden diese Mitteilungen jedoch so beschrieben,
als ob sie während
der Verarbeitung manipuliert werden, obwohl der Fachmann erkennen
wird, dass Metadaten, Mitteilungen oder irgendeine Kombination hiervon
verwendet werden könnte.
-
Die
Mitteilungen in der Haupt-Gruppe 42 werden nach Thema sortiert,
um Unikat-Mitteilungen und
Konversations-Pfade zu identifizieren, wie sie durch Bereiche des
mehrfachen Auftretens des gleichen Themas wiedergegeben sind. Die
Identifikationsinformation (Metadaten) für diese Mitteilungen, die identische
Themen haben, wird in eine Thema-Gruppe 43 extrahiert,
während
jedes neue Thema in der Haupt-Gruppe 42 aufgefunden wird.
-
Die
Thema-Gruppe 43 arbeitet als eine Arbeits-Gruppe, in der
vom Thema her identische Mitteilungen verarbeitet werden. Die von
der Haupt-Gruppe 42 abgeleitete Identifikationsinformation
wird dazu verwendet, in die Thema-Gruppe weitere Informationen von
Mitteilungen zu kopieren, die ein gemeinsames Thema haben, unter
Einschluss ihres Klartextes. An irgendeinem Punkt der Verarbeitung
enthält
die Thema-Gruppe 43 lediglich diejenigen Mitteilungen,
denen ein gemeinsames Thema gemeinsam ist. Diese vom Thema her identischen Mitteilungen
werden nach ihrem Klartext-Inhalt sortiert und analysiert. Duplizierte
Mitteilungen 47, die einen im Wesentlichen duplizierten
Inhalt enthalten, werden aus der Thema-Gruppe 43 entfernt.
Die verbleibenden nicht-duplizierten Mitteilungen in der Thema-Gruppe 43 werden
nach Pfad-Markierungen durchsucht, die rekursiv enthaltenen Inhalt
anzeigen, und die Konversations-Pfadlängen 46 werden notiert. Die
Mitteilungen in der Thema-Gruppe 43 werden verglichen,
und quasi-duplizierte Mitteilungen 45 werden identifiziert.
Die Unikat-Mitteilungen 35 werden dann für eine Überführung in
den Schattenspeicher 48 markiert.
-
4 ist
eine Blockdarstellung, die die Software-Module 60 des Systems
nach 2 zeigt. Jedes Modul ist ein Computerprogramm,
eine Prozedur oder ein Modul, das als Source-Code in einer üblichen
Programmiersprache geschrieben ist, wie z.B. der Visual Basic-Programmiersprache,
und es wird zur Ausführung
durch die CPU als Objekt- oder Byte-Code geliefert, wie dies in
der Technik bekannt ist. Die verschiedenen Implementierungen des
Source-Codes und der Objekt- und Byte-Codes können in einem computerlesbaren
Speichermedium gehalten oder auf einem Übertragungsmedium in einer
Trägerschwingung
verkörpert
werden. Der Mitteilungsprozessor 20 arbeitet gemäß einer
Folge von Prozess-Schritten, wie dies weiter unten beginnend mit der
Bezugnahme auf 6 beschrieben wird.
-
Der
Mitteilungsprozessor 20 schließt 4 primäre Module ein: Duplikat-Mitteilungswähler 61, Pfadlängenwähler 62,
Quasi-Duplikat-Mitteilungswähler 63 und
Wähler 64 für Unikat-Mitteilungen.
Vor der Verarbeitung werden die Mitteilungsspeicher 41 logisch
zu der Haupt-Gruppe 42 vereinigt. An jeder Stufe der Mitteilungsverarbeitung
wird ein Protokolleintrag in einem Protokoll 34 geschaffen
(oder ein vorhandener Eintrag modifiziert), um Mitteilungen zu verfolgen
und Mitteilungs-Identifikationsinformation aufzuzeichnen.
-
Der
Duplikat-Mitteilungswähler 61 identifiziert
und beseitigt diese Duplikat-Mitteilungen 47,
die im Wesentlichen duplizierten Inhalt von der Thema-Gruppe 43 enthalten.
Der Pfadlängenwähler verzeichnet
die Konversations-Pfadlängen 43 und
unterhält
eine geordnete Reihenfolge der Pfadlängen, vorzugsweise von der
kürzesten
zur längsten
Konversations-Pfadlänge.
Der Wähler 63 für quasi-duplizierte Mitteilungen
bezeichnet diejenigen Mitteilungen als quasi-duplizierte Mitteilungen 45,
deren Inhalt rekursiv in anderen Mitteilungen enthalten sind, wie
z.B. diejenigen Mitteilungen, die über eine Antwort- oder Weiterleitungssequenz
oder als Anlage erzeugt wurden. Der Wähler 64 für Unikat-Mitteilungen
bezeichnet diejenigen Mitteilungen als Unikat-Mitteilungen 45,
die aus der Haupt-Gruppe 42 als nicht thematisch identisch
abgeleitet wurden, und diejenigen Mitteilungen, die verbleiben,
nachdem die Duplikat-Mitteilungen 48 und die Quasi-Duplikat- Mitteilungen 46 identifiziert
wurden. Die Unikat-Mitteilungen 45 werden an den Schattenspeicher 48 zur
Verwendung bei der nachfolgenden Dokumenten-Überprüfung weitergeleitet.
Die Unikat-, Quasi-Duplikat- und Duplikat-Mitteilungen sowie die
Pfadzählungen
werden regelmäßig in dem
Protokoll 34 aufgezeichnet, während die Eigenart jeder Mitteilung
bestimmt wird. Weiterhin wird die Ortsinformation, die eine nachfolgende Rückgewinnung
jeder Quasi-Duplikat-Mitteilung 45 und
jeder Duplikat-Mitteilung 47 ermöglicht, regelmäßig in die
nach Querverweis aufgeschlüsselte
Sammlung 36 eingefügt,
die die Mitteilung zu einer Unikat-Mitteilung in Beziehung setzt,
wenn die Beziehung festgestellt wird.
-
5 zeigt
als Beispiel eine mit Bemerkungen versehene elektronische Mitteilung 70.
In vielen Fällen
ist die Mitteilung, die die größte Konversations-Pfadlänge 47 hat,
die Mitteilung, deren Prüfung am
nützlichsten
ist. Jede vorhergehende Mitteilung ist rekursiv innerhalb der Mitteilung
mit der größten Konversations-Pfadlänge enthalten,
so dass diese Quasi-Duplikat-Mitteilungen in einem effizienten Überprüfungsprozess übersprungen
werden können.
-
Die
Beispiels-Mitteilung 70 schließt zwei rekursiv eingefügte Mitteilungen
ein: eine ursprüngliche E-Mail-Mitteilung 71 und
eine Antwort-E-Mail-Mitteilung 72. Die ursprüngliche
E-Mail-Mitteilung 71 wurde von einem ersten Benutzer, user1@aol.com,
an einen zweiten Benutzer, user2@aol.com, gesandt. Als Antwort auf
die ursprüngliche
E-Mail-Mitteilung erzeugte der zweite Benutzer, user2@aol.com, die Antwort-E-Mail-Mitteilung 72,
die an den ersten Benutzer, user1@aol.com, zurückgesandt wurde. Schließlich leitete
der erste Benutzer, user1@aol.com, die Antwort-E-Mail-Mitteilung 72, die
außerdem
die ursprüngliche
E-Mail-Mitteilung 71 enthielt, als weitergeleitete E-Mail-Mitteilung 73 an einen
dritten Benutzer, user3@aol.com, weiter.
-
Jede
der E-Mail-Mitteilungen 71, 72 bzw. 73 schließt jeweils
einen Mitteilungs-Hauptteil
(rekursiv enthalten) 74, 78, 82 und ein
Mitteilungs-Kopffeld 75, 77, 81 ein.
Die ursprüngliche
E-Mail-Mitteilung 71 und die Antwort-E-Mail-Mitteilung 72 sind
rekursiv eingefügte
Mitteilungen. Die ursprüngliche E-Mail-Mitteilung 71 ist
rekursiv sowohl in der Antwort-E-Mail-Mitteilung 72 als
auch der weitergeleiteten E-Mail-Mitteilung 73 enthalten,
während
die Antwort-E-Mail-Mitteilung 72 rekursiv lediglich in
der weitergeleiteten E-Mail-Mitteilung 73 enthalten ist.
-
Jede
aufeinanderfolgende Antwort-Weiterleitungs- oder ähnliche
Operation vergrößert die
Konversations-Pfadlänge 47 der
Mitteilung. Die Pfadlängen 4 sind
in den Mitteilungen selbst durch irgendeine Form von Abgrenzung
angezeigt. In dem gezeigten Beispiel ist die Einfügung der
ursprünglichen E-Mail-Mitteilung 71 in
die Antwort-E-Mail-Mitteilung 72 sowohl durch eine Trennung 80 als
auch eine „RE:"-(„Betreff:") Anzeige in der
Betreff-Zeile 79 abgetrennt. In gleicher Weise ist die
Einfügung
der Antwort-E-Mail-Mitteilung 72 durch eine Trennung 84 und
eine „FW:" („Weiterleitung:") Anzeige in der
Betreff-Zeile 83 abgegrenzt. Die Mitteilungs-Trennungen 80, 84 und
die Betreff-Zeilen-Anzeigen 79, 83 bilden Pfad-"Markierungen", die von dem Mitteilungsprozessor 20 durchsucht,
identifiziert und analysiert werden können, um Pfadlängen 47 und
quasi-duplizierte Mitteilungen 46 zu bestimmen.
-
6 ist
ein Ablaufdiagramm, das ein Verfahren 100 zur effizienten
Verarbeitung von Mitteilungen, die in mehrfachen Mitteilungsspeichern
gespeichert sind, gemäß der vorliegenden
Erfindung zeigt. Das Verfahren 100 arbeitet in zwei Phasen:
Initialisierung (Blöcke 101-103)
und Verarbeitung (Blöcke 104-107).
-
Während der
Initialisierung werden die Mitteilungsspeicher 41 (gemäß 3)
für einen
Zugang durch den Mitteilungsprozessor 20 (Block 101)
geöffnet,
und der Schattenspeicher 48 wird erzeugt (Block 102),
wie dies nachfolgend anhand der 7 weiter beschrieben
wird. Bei der beschriebenen Ausführungsform
hat der Mitteilungsprozessor 20 eine begrenzte Programmkapazität, die eine
obere Grenze für
die maximale Anzahl von elektronischen Mitteilungen bestimmt, die
während
eines einzigen Ablaufs verarbeitet werden können. Entsprechend können mehrfache
Verarbeitungs-Durchgänge
erforderlich sein, um alle die Mitteilungen zu verarbeiten, die
in der Sammlung von Mitteilungsspeichern 41 gespeichert
sind.
-
Unter
der Annahme, dass die zusammengesetzte Anzahl von Mitteilungen die
Programmgrenzen übersteigt,
wird die Verarbeitung in eine Reihe von Durchgängen n unterteilt, während denen
jeweils ein Teil der zusammengefassten Mitteilungsspeicher
41 verarbeitet
wird. Die Anzahl der Durchgänge
n, die zur Verarbeitung der Quellen-Mitteilungsspeicher
41 erforderlich
ist, wird durch die folgende Gleichung bestimmt (Block
103):
worin n gleich der Gesamtzahl
von iterativen Durchgängen
ist, TotNumMessages die Gesamtzahl von Mitteilungen in der Zusammenfassung
der Mitteilungsspeicher
41 ist, und ProgMax die maximale
Mitteilungs-Verarbeitungskapazität
des Programms ist.
-
In
der beschriebenen Ausführungsform
wird die zusammengefasste Auswahl von Mitteilungen von den Mitteilungsspeichern 41 durch Überlappen der
Unterteilung i verarbeitet, die vorzugsweise durch die Unterteilung
des Alphabets in Unterteilungen markiert wird, die der Anzahl von
Durchgängen
n entsprechen. Wenn beispielsweise zwei Durchgänge n erforderlich sind, so
würden
die Unterteilungen „kleiner
als M" und „größer als
L" sein. In ähnlicher
Weise würden,
wenn 52 Durchgänge
erforderlich sein würden,
die Unterteilungen „kleiner
als Am" und „größer als
Al und kleiner als Ba" sein.
-
Im
Betrieb werden die Unterteilungen erforderlichenfalls in einer iterativen
Verarbeitungsschleife (Blöcke 104-106)
verarbeitet. Während
jedes Durchganges n (Block 104) werden die Mitteilungen verarbeitet
(Block 105), wie dies weiter unten unter Bezugnahme auf 8 beschrieben
wird. Nach der Vervollständigung
der Verarbeitung (Block 106) werden die Mitteilungsspeicher 41 geschlossen
(Block 107). Als wahlweise Betriebsweise werden die Duplikat-Mitteilungen 47 und
die Quasi-Duplikat-Mitteilungen 45 erneut in den Schattenspeicher 48 eingefügt (Block 108).
Das Verfahren wird bei Abschluss der Verarbeitung beendet.
-
7 ist
ein Flussdiagramm, das die Routine 120 zur Erzeugung eines
Schattenspeichers zur Verwendung in dem Verfahren 100 nach 6 zeigt. Der
Zweck dieser Routine besteht in der Erzeugung eines Haltebereiches,
der als der Schattenspeicher 48 (gemäß 3) bezeichnet
wird, in dem Unikat-Mitteilungen 45 für die nächste Stufe in der Dokumenten-Überprüfung gespeichert
werden. Ein Mitteilungszähler
wird unterhalten, um die Mitteilungen in der Zusammenfassung aller
Mitteilungsspeicher 41 zu zählen. Der Mitteilungszähler wird
anfänglich
auf Null gesetzt (Block 121). Jeder der Quellen-Mitteilungsspeicher 41 wird
dann in einem Paar von verschachtelten iterativen Verarbeitungsschleifen
(Blöcke 122-128 und 124-129)
wie folgt verarbeitet.
-
Während der äußeren Verarbeitungsschleife (Blöcke 122-129)
wird ein Verzeichnis, das jedem Quellen-Mitteilungsspeicher 41 entspricht,
in dem Schattenspeicher 48 (Block 123) erzeugt.
Als nächstes
wird jeder der Verzeichnisse in dem der Zeit ausgewählten Quellen-Mitteilungsspeicher 41 iterativ
in den inneren Verarbeitungsschleifen (Blöcke 124-128)
wie folgt verarbeitet. Als erstes wird der Mitteilungszähler um
die Anzahl von Mitteilungen in dem Verzeichnis weitergeschaltet,
das in dem Quellen-Mitteilungsspeicher 41 geprüft wird
(Block 125), und ein entsprechendes Verzeichnis in dem
Schattenspeicher 48 wird erzeugt (Block 126).
Ein Eintrag wird in einer punktweise aufgeschlüsselten Sammlung 35 (Block 127)
gemacht, der den Querverweis zwischen einem Zeiger auf den ursprünglichen
Mitteilungsspeicher 41 oder das Verzeichnis in dem ursprünglichen
Mitteilungsspeicher und einem Zeiger auf ein neu erzeugtes entsprechendes
Verzeichnis oder Unterverzeichnis in dem Schattenspeicher 48 bildet.
Wenn Unikat- Mitteilungen später
in den Schattenspeicher 48 kopiert werden, ermöglicht diese
aufgeschlüsselte
Datei, dass das Kopieren „punktweise" abläuft anstatt
das es erforderlich ist, dass die Verzeichnisse in dem Schattenspeicher 48 iterativ durchsucht
werden, um das richtige zu finden. Die Verarbeitung jedes Verzeichnisses
in dem derzeitigen Quellen-Mitteilungsspeicher 41 wird
(Block 128) für
jedes verbleibende Verzeichnis in dem Quellen-Mitteilungsspeicher
fortgesetzt. In ähnlicher
Weise wird die Verarbeitung für
jeden der Quellen-Mitteilungsspeicher 41 selbst für jeden
verbleibenden Quellen-Mitteilungsspeicher 41 fortgesetzt
(Block 129), worauf die Routine zurückkehrt (Block 130)
und eine Zählung
aller der Mitteilungen in allen Quellen-Mitteilungsspeichern liefert,
so dass die Anzahl der erforderlichen Durchgänge bestimmt werden kann.
-
8 ist
ein Ablaufdiagramm, das die Routine 140 zur Verarbeitung
von Mitteilungen zur Verwendung in dem Verfahren 100 nach 6 zeigt.
Der Zweck dieser Routine besteht in der Vorverarbeitung der in den
Mitteilungsspeichern 41 gespeicherten Mitteilungen. Es
sei bemerkt, dass an jeder Stufe der Mitteilungsverarbeitung ein
Protokoll-Eintrag implizit in das Protokoll 34 (das in 3 gezeigt
ist) eingeführt
wird, um die Kategorisierung und Verwertung jeder Mitteilung aufzuzeichnen.
-
Die
Mitteilungen werden in einer Verarbeitungsschleife (Blöcke 141-144)
verarbeitet. Während jeder
Iteration (Block 141) wird jede Mitteilung in dem ausgewählten Verzeichnis
auf eine Mitgliedschaft in der derzeitigen Unterteilung i der Quellen-Mitteilungsspeicher 41 überprüft (Block 142).
Wenn sich die Mitteilung in der derzeitigen Unterteilung i befindet
(Block 142), so wird die Mitteilung logisch in die Haupt-Gruppe 42 dadurch überführt (Block 143), dass
die Thema- und Ortsinformation unter Einschluss der Mitteilungs-Identifikationsinformation
und der Zeiger auf den Quellen-Mitteilungsspeicher 41, das
Quellen-Mitteilungsverzeichnis und auf die einzelne Mitteilung (Metadaten)
abgeleitet werden. Unter Verwendung von Metadaten anstelle eines
Kopierens vollständiger
Mitteilungen wird Aufbewahrungs- und Speicherplatz eingespart und
eine schnellere Verarbeitung erleichtert. Die Verarbeitung wird
für jede
Mitteilung in dem ausgewählten
Verzeichnis fortgesetzt (Block 144).
-
Wenn
alle Verzeichnisse verarbeitet wurden, und die Metadaten für diejenigen
Mitteilungen, von denen festgestellt wurde, dass sie sich innerhalb
der Unterteilung befinden, in die Haupt-Gruppe überführt wurden, beginnt die Mitteilungsverarbeitung.
Die Mitteilungen werden nach Thema (Block 145) sortiert, und
die Haupt-Gruppe 42 wird
verarbeitet (Block 146), wie dies weiter unten anhand der 9 beschrieben
wird. Zuletzt wird das Protokoll 49 verarbeitet (Block 147),
worauf die Routine zurückkehrt.
-
9 ist
ein Ablaufdiagramm, das die Routine 160 zur Verarbeitung
der Haupt-Gruppe 42 zur Verwendung
in der Routine 140 nach 8 zeigt. Der
Zweck dieser Routine besteht in der Identifikation von Unikat-Mitteilungen 44 und
der Verarbeitung thematisch identischer Mitteilungen unter Verwendung der
Thema-Gruppe 43.
Die Routine verarbeitet die Mitteilungen, um Unikat-Mitteilungen
und thematisch ähnliche
Mitteilungen zu identifizieren, wobei eine iterative Verarbeitungsschleife
(Blöcke 161-171)
verwendet wird. Während
jeder Iteration (Block 161) wird das Thema (oder die Betreffzeile)
jeder jeweiligen Mitteilung in der Haupt-Gruppe 42 mit
dem der nächsten
Mitteilung in der Haupt-Gruppe 42 verglichen (Block 162).
Wenn die Themen übereinstimmen (Block 163),
so können
die Mitteilungen von dem gleichen Konversations-Pfad sein. Wenn
die Mitteilung die erste Mitteilung mit dem derzeitigen Thema ist, die
mit der folgenden Mitteilung übereinstimmt
(Block 164) so wird diese erste Mitteilung in dem möglichen Pfad
als der Beginn eines Thema-Bereiches markiert (Block 165)
und die Verarbeitung wird mit der nächsten Mitteilung (Block 171)
fortgesetzt. Wenn anderenfalls die Mitteilung nicht die erste Mitteilung
in dem Konversations-Pfad ist (Block 164), so wird die
Mitteilung übersprungen
und die Verarbeitung wird mit der nächsten Mitteilung fortgesetzt
(Block 171).
-
Wenn
die Themen nicht übereinstimmen (Block 163),
so endet der vorhergehende Themenbereich und ein neuer Themenbereich
beginnt. Wenn die derzeitige Mitteilung nicht die erste Mitteilung
mit diesem Thema war (Block 166) so wird der Bereich von
Mitteilungen mit dem gleichen Thema (der mit der Mitteilung begann,
die am Block 165 markiert wurde) verarbeitet (Block 168).
Wenn die derzeitige Mitteilung die erste Mitteilung mit dem übereinstimmenden
Thema ist (Block 166), so wird die Mitteilung als Unikat-Mitteilung 45 (Block 167)
abgeleitet, und die Verarbeitung wird mit der nächsten Mitteilung fortgesetzt
(Block 171). Wenn der Themenbereich geendet hat (Block 166),
wird jede thematisch identische Mitteilung plus der Mitteilungs-Übertragungszeit,
logisch in die Thema-Gruppe 43 abgeleitet (Block 168). Bei
der beschriebenen Ausführungsform
werden die Mitteilungen nicht physikalisch in die Themen-Gruppe 143 kopiert,
sondern jede Mitteilung wird logisch unter Verwendung von Metadaten
in der Thema-Gruppe 43 „übertragen", um Mitteilungs-Quellen-Ortsinformation
zu liefern, die dazu verwendet wird, eine Kopie des Klartext-Hauptteils
der Mitteilung in die Thema-Gruppe hinzuzufügen. Die Thema-Gruppe 43 wird
durch den Klartextkörper
(Block 169) sortiert und verarbeitet (Block 170),
wie dies weiter unten unter Bezugnahme auf die 10A-C weiter beschrieben wird. Die Verarbeitung
wird mit der nächsten
Mitteilung (Block 171) fortgesetzt. Die Routine kehrt nach
der Verarbeitung der letzten Mitteilung in der Haupt-Gruppe 42 zurück.
-
Die 10A-C sind Ablaufdiagramme, die die Routine 180 zur
Verarbeitung einer Thema-Gruppe zur Verwendung in der Routine 160 nach 9 zeigen.
Der Zweck dieser Routine besteht in dem Abschluss der Verarbeitung
der Mitteilungen unter Einschluss der Identifikation von Duplikat-,
Quasi-Duplikat und Unikat-Mitteilungen
und der Zählung
von Pfadlängen.
Die Routine durchläuft
die Themen-Gruppe 43 (in 3 gezeigt)
in drei iterativen Verarbeitungsschleifen (Blöcke 181-187, 189-194 und 196-203)
wie folgt.
-
Während der
ersten Verarbeitungsschleife (Blöcke 181-187)
wird jede Mitteilung in der Themen-Gruppe 43 überprüft. Der
Klartext-Hauptteil der derzeitigen Mitteilung wird mit dem Klartext-Hauptteil der
nächsten
Mitteilung verglichen (Block 182). Wenn die Klartext-Hauptteile übereinstimmen
(Block 183) so existiert möglicherweise eine exakte Duplikat-Mitteilung,
was einer Überprüfung bedarf.
Der Kandidat für
ein exaktes Duplikat wird durch Vergleichen der Kopffeld-Information 75, 77, 81 (in 5 gezeigt)
des Absenders der Mitteilung (Block 184) und der Sendezeiten
jeder Mitteilung überprüft. Wenn
die Übereinstimmung
verifiziert wird (Block 184) so wird die erste Mitteilung
als ein exaktes Duplikat der zweiten Mitteilung markiert, und die
Identifikationsinformation für die
ersten und zweiten Mitteilungen und ihre Beziehung wird in dem Protokoll 49 (Block 186)
und der durch Querverweis aufgeschlüsselten Sammlung 36 (in 2 gezeigt)
gespeichert. Die Verarbeitung jeder nachfolgenden Mitteilung in
der Themen-Gruppe 43 (Block 187) wird für die verbleibenden
Mitteilungen fortgesetzt.
-
Als
nächstes
werden die als Duplikat-Mitteilung markierten Mitteilungen aus der
Thema-Gruppe 43 (Block 188) entfernt, und die
verbleibenden Nicht-Duplikat-Mitteilungen
in der Thema-Gruppe 43 werden in der zweiten Verarbeitungsschleife
(Blöcke 189-194)
wie folgt verarbeitet. Zunächst
wird jede Mitteilung nach Pfad-Markierungen
unter Einschluss von Trennungen 80, 84 und Betreffzeilen-Anzeigen 79-83 (in 5 gezeigt)
durchsucht (Block 190). Wenn Pfad-Markierungen gefunden
werden (Block 191) so wird die Anzahl des Pfad-Markierungs-Auftretens
m gezählt
und aufgezeichnet (Block 192). Anderenfalls wird die Mitteilung
so aufgezeichnet, als ob sie Null-Pfad-Markierungen hat (Block 193).
Bei der beschriebenen Ausführungsform
werden die Dateneinträge,
die Null-Pfad-Markierungen
haben, in die Sortieroperationen eingeschlossen. Diese Mitteilungen
haben einen Mitteilungsinhalt, schließen jedoch keine anderen Mitteilungen
ein. Die Aufzeichnung von Null-Pfad-Markierungen ermöglicht es,
dass diese „erstmaligen
Mitteilungen mit Mitteilungen verglichen werden, die Mitteilungen
enthalten haben. Die Verarbeitung wird für jede der verbleibenden Mitteilungen
(Block 194) fortgesetzt, bis alle verbleibenden Mitteilungen
in der Thema-Gruppe 43 verarbeitet wurden.
-
Die
Thema-Gruppe wird nachfolgend in der Reihenfolge zunehmender Pfad-Markierungen m (Block 195)
sortiert, und die in der Thema-Gruppe 43 verbleibenden
Mitteilungen werden iterativ in der dritten Verarbeitungsschleife
(Block 196-203) verarbeitet. Während jeder Verarbeitungsschleife
(Block 196) werden die ersten und nachfolgenden Mitteilungen ausgewählt (Blöcke 197, 198),
und der Klartext-Hauptteil der Mitteilungen wird verglichen (Block 199).
In der beschriebenen Ausführungsform
wird eine Textvergleichsfunktion verwendet, um einen effizienten
Vergleich großer
Textblöcke
zu ermöglichen. Wenn
der Klartext-Hauptteil
der ersten ausgewählten Mitteilung
in dem Klartext-Hauptteil der zweiten ausgewählten Mitteilung enthalten
ist (Block 200), so wird die erste Mitteilung als ein Quasi-Duplikat
der zweiten Mitteilung markiert, und die Identifikationsinformation
auf den ersten und zweiten Mitteilungen und ihre Beziehung wird
in dem Protokoll 49 und der durch Querverweise aufgeschlüsselten
Sammlung 36 (gemäß 2)
gespeichert (Block 201). Wenn der Klartext-Hauptteil der ersten
ausgewählten
Mitteilung nicht in dem Klartext-Hauptteil der zweiten ausgewählten Mitteilung
enthalten ist und zusätzliche
Mitteilungen nach der zweiten Mitteilung in der Thema-Gruppe 43 auftreten
(Block 202), so wird die nächste Mitteilung ausgewählt und
in der vorstehend beschriebenen Weise verglichen (Blöcke 198-202). Jede
nachfolgende Mitteilung in der Thema-Gruppe wird verarbeitet (Block 203),
bis alle verbleibenden Mitteilungen verarbeitet wurden, worauf die
Routine zurückkehrt.
-
11 ist
ein Ablaufdiagramm, das die Routine 220 zur Verarbeitung
eines Protokolls zur Verwendung in der Routine 140 nach 8 zeigt.
Der Zweck dieser Routine besteht in der Fertigstellung des Protokolls 34 zur
Verwendung in dem Prüfungsprozess.
Die Verarbeitung erfolgt in einer iterativen Verarbeitungsschleife
(Block 221-226) wie folgt. Jede Mitteilung in
der Haupt-Gruppe 42 wird während jeder Schleife verarbeitet
(Block 221). Wenn die ausgewählte Mitteilung eine Unikat-Mitteilung 45 ist
(Block 222), so wird eine Kopie der Mitteilung aus dem
Quellenverzeichnis in dem Quellen-Mitteilungsspeicher 41 (in 3 gezeigt)
zurückgewonnen
und in das entsprechende Verzeichnis des entsprechenden Mitteilungsspeichers
in dem Schattenspeicher 48 gebracht (Block 223)
(wobei die mit Querverweisen versehene aufgeschlüsselte Sammlung 36,
die zum Zeitpunkt der Erzeugung des Schattenspeichers 34 erzeugt
wurde verwendet wird), und ein Eintrag mit der Mitteilungs-Quellen-Ortsinformation
und der Identifikations information wird in dem Protokoll 34 erzeugt
(Block 224). Anderenfalls wird die Mitteilung als eine
quasi-duplizierte Mitteilung 45 oder eine duplizierte Mitteilung 47 übersprungen
(Block 225), die nicht in die nächste Phase des Dokumenten-Prüfprozesses
weitergeleitet wird. Die Verarbeitung jeder nachfolgenden Mitteilung
in der Haupt-Gruppe 42 wird für alle verbleibenden Mitteilungen
fortgesetzt (Block 226), worauf die Routine zurückkehrt.
-
Obwohl
die Erfindung speziell unter Bezugnahme auf Ausführungsformen hiervon gezeigt
und beschrieben wurde, wird der Fachmann verstehen, dass die vorstehenden
und andere Änderungen
hinsichtlich der Form und der Einzelheiten durchgeführt werden
können,
ohne von dem Schutzumfang der Erfindung abzuweichen.