-
Die Erfindung betrifft die Bestimmung eines Ähnlichkeitsmaß zwischen zwei Dokumenten sowie eine Verarbeitung von Dokumenten basierend auf einem Ähnlichkeitsmaß.
-
Es sind unterschiedliche Verfahren zur Texterkennung (auch bezeichnet als optische Zeichenerkennung, OCR für ”Optical Character Recognition”) bekannt, anhand derer automatisiert eine Texterkennung innerhalb von Bildern durchgeführt werden kann. Bei den Bildern handelt es sich z. B. um elektronisch eingescannte Dokumente, deren Inhalt weiter analysiert werden soll.
-
Bei den Dokumenten kann es sich um elektronische Dokumente, z. B. um elektronisch verarbeitete, vorverarbeitete oder verarbeitbare Dokumente handeln. Der Ansatz ist z. B. anwendbar bei Anwendungen, die ein Dokumentenmanagement bzw. der Dokumentenarchivierung z. B. von Geschäftsdokumenten betreffen, kann aber auch für andere Arten der Datenextraktion, z. B. eine Extraktion von Informationen aus abfotografierten Kassenbons und anderen Kleindokumenten angewendet werden.
-
Im Dokumentenmanagement spielen Indexdaten eines Dokuments, beispielsweise Sender, Empfänger, Rechnungsnummer oder Rechnungsbetrag eine zentrale Rolle. Ein Dokumentenmanagementsystem bietet beispielsweise Suchfunktionen anhand von Indexdaten an oder archiviert ein Dokument anhand seiner Indexdaten.
-
Eine Indexdatenextraktion (auch bezeichnet als ”Extraktion”) bezeichnet ein automatisches Ermitteln von Indexdaten eines Dokuments. Neben regelbasierten Methoden kommen auch lernende Verfahren zum Einsatz, welche die Indexdaten eines Dokuments anhand von ähnlichen Dokumenten (sogenannten Trainingsdokumenten), deren Indexdaten bereits von einem Nutzer bestätigt oder korrigiert wurden, ermitteln.
-
Ein Ähnlichkeitsmaß zum Vergleich von Dokumenten ist bekannt. So werden Methoden zur Abstandsbestimmung (Euklidische Distanz, Vektorraum-Modelle gemäß und probabilistische Methoden gemäß) auf das Problem der Abstandsbestimmung zwischen Dokumenten angewendet. Ein Überblick über die verschiedenen Methoden findet sich beispielsweise in [A. Huang. Similarity Measures for Text Document Clustering. In J. Holland, A. Nicholas, and D. Brignoli, editors, New Zealand Computer Science Research Student Conference, pages 49–56, April 2008.]. Hierbei werden in der Regel die Menge der Worte der beiden Dokumente verglichen (”bag of words”-Ansatz) und/oder semantische Analysen vorgenommen.
-
Die bekannten Ansätze weisen jedoch Nachteile auf, wenn es um die Bestimmung der Ähnlichkeit von Dokumenten geht, deren Text und Layout zu berücksichtigen ist.
-
Die Aufgabe der Erfindung besteht darin, die vorstehend genannten Nachteile zu vermeiden und insbesondere eine effiziente Lösung zur Bestimmung der Ähnlichkeit zwischen elektronischen Dokumenten anzugeben sowie Möglichkeiten zur Verarbeitung von Dokumenten zu schaffen, die eine derartig bestimmte Ähnlichkeit zwischen Dokumenten nutzen.
-
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesondere den abhängigen Ansprüchen entnehmbar.
-
Zur Lösung der Aufgabe wird ein Verfahren zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument vorgeschlagen,
- – bei dem für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmt wird, das Worthäufigkeiten und Koordinaten berücksichtigt,
- – bei dem anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmt wird.
-
Der vorliegende Ansatz hat den Vorteil, dass für die Ähnlichkeitsbestimmung der Text und das Layout der zu vergleichenden Dokumente berücksichtigt wird. Ein zusätzlicher Vorteil ist es, dass neben der Ähnlichkeit der Dokumente auch die Ähnlichkeit der Indexdaten der Dokumente berücksichtigt werden kann. Somit ist es beispielsweise möglich, ein von einem Nutzer irrtümlicherweise oder bewusst mit inkorrekten Indexdaten versehenes Dokument schnell zu identifizieren.
-
Die vorliegende Lösung erlaubt es, ein geeignetes Maß für die Ähnlichkeit zweier Dokumente zu bestimmen, z. B. eine Funktion, die jedem Tupel aus zwei Dokumenten einen Wert zwischen 0 und 1 zuordnet. Dieser Wert ist dabei umso größer, je ähnlicher sich die beiden Dokumente im Hinblick auf Inhalt (d. h. Vokabular) und Layout sind und den Wert 1 z. B. dann annehmen, wenn die beiden Dokumente identisch sind.
-
Eine Weiterbildung ist es, dass die Koordinaten derjenigen Wörter berücksichtigt werden, die in beiden Dokumenten gemeinsam vorkommen.
-
Eine andere Weiterbildung ist es, dass das Vektorraum-Modell bestimmt wird, indem für das erstes Dokument ein erster Vektor und für ein zweites Dokument ein zweiter Vektor bestimmt wird.
-
Insbesondere ist es eine Weiterbildung, dass das Maß für die Ähnlichkeit bestimmt wird, indem ein Cosinus zwischen dem ersten und dem zweiten Vektor bestimmt wird.
-
Auch ist es eine Weiterbildung, dass
- – je ein Wortvektor für das erste Dokument und das zweite Dokument bestimmt wird, wobei Elemente der Wortvektoren angeben, ob ein Wort in dem jeweiligen Dokument vorkommt oder nicht;
- – eine Wortdistanz zwischen den Dokumenten bestimmt wird,
- – je ein Koordinatenvektor für das erste Dokument und das zweite Dokument bestimmt wird, wobei Elemente der Wortvektoren Koordinaten angeben für Wörter, die gemeinsam in den beiden Dokumenten vorkommen,
- – eine Koordinatendistanz zwischen den Dokumenten bestimmt wird,
- – eine Gesamtdistanz basierend auf der Wortdistanz und der Koordinatendistanz bestimmt wird.
-
Beispielsweise bezeichnet ein Element ”1”, dass das Wort in dem jeweiligen Dokument vorkommt (ein Element ”0” bezeichnet entsprechend, dass das Wort nicht vorkommt und ein Element ”4” bezeichnet beispielsweise, dass das Wort viermal vorkommt); die Position des Elements innerhalb des Wortvektors ist hierbei mit einem bestimmten Wort verknüpft. Der Koordinatenvektor umfasst z. B. pro gemeinsam vorkommendem Wort je Dokument zwei Einträge, z. B. für x- und y-Koordinaten innerhalb des jeweiligen Dokuments.
-
Eine Weiterbildung besteht darin, dass die Wortdistanz bestimmt wird mittels eines Cosinus zwischen den Wortvektoren.
-
Ferner ist es eine Weiterbildung, dass die Koordinatendistanz bestimmt wird mittels eines Cosinus zwischen den Koordinatenvektoren.
-
Eine nächste Weiterbildung besteht darin, dass die Gesamtdistanz bestimmt wird gemäß (1 – p)s + p·t wobei s die Wortdistanz, t die Koordinatendistanz und p einen vorgebbaren Parameter bezeichnen.
-
Eine Ausgestaltung ist es, dass in beiden Dokumenten mehrfach vorkommende Wörter in dem Koordinatenvektor einander gegenübergestellt werden nach einem der folgenden Mechanismen:
- – entsprechend ihres Auftretens,
- – unter Verwendung eines Zuordnungsverfahrens, bei dem diejenigen Wörter gegenübergestellt werden, bei denen die Summe der Abstände zwischen den gegenübergestellten Paaren möglichst klein ist,
- – unter Verwendung eines Zuordnungsverfahrens, bei dem diejenigen Wörter gegenübergestellt werden, bei denen die Summe der Abstände zwischen den gegenübergestellten Paaren möglichst groß ist.
-
Hierbei bezeichnet das Gegenüberstellen die Verwendung gleicher Positionen innerhalb der beiden Vektoren.
-
Die vorstehende Aufgabe wird auch gelöst mittels eines Verfahrens zur Verarbeitung eines elektronischen Dokuments,
- – bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen basierend auf einem elektronischen Dokument angepasst wird, falls keine zu dem elektronischen Dokument ausreichend ähnlichen Dokumente in der übergeordneten Datenbasis vorhanden sind,
- – wobei die Ähnlichkeit zwischen dem elektronischen Dokument und in der übergeordneten Datenbank vorhandenen Dokumenten gemäß dem vorstehend genannten Verfahren bestimmt wird.
-
Dieser Ansatz kann mehrfach angewandt werden für mehrere Ebenen übergeordneter Modellräume (Modellraum entspricht hierbei der vorstehend genannten Datenbasis).
-
Hierbei ist es von Vorteil, dass durch den organisationsübergreifenden Ansatz ein Austausch von Dokumentinformationen zwischen einzelnen Nutzern ermöglicht wird.
-
Bei einem organisations- oder unternehmensbasierten Dokumentenmanagement stellen Nutzer (z. B. Unternehmen) ihre bereits mit korrekten Indexdaten versehenen Dokumente beispielsweise (auch) einem übergeordneten Modellraum (auch bezeichnet als übergeordnete Datenbasis) bzw. einer mehrstufigen Hierarchie umfassend derartige übergeordnete Modellräume zur Verfügung. Führt nun ein anderer Nutzer eine Extraktion für ein Dokument durch, können ähnliche Dokumente aus den übergeordneten Modellräumen zur Ermittlung der Indexdaten herangezogen werden.
-
Hierbei können die übergeordneten Modellräume auf unterschiedliche Art und Weise nutzbar gemacht werden.
-
Zunächst stellt sich die Frage, welche Dokumente eines Nutzers den übergeordneten Modellräumen bis zu welcher Stufe der Hierarchie zur Verfügung gestellt werden sollen. Einerseits ist im Hinblick auf eine effiziente Speicherplatznutzung erstrebenswert, nur eine geringe Anzahl an Dokumenten zur Verfügung zu stellen. Andererseits erhöht eine große Anzahl von bereitgestellten Dokumenten die Wahrscheinlichkeit, dass ein aktuelles Dokument erfolgreich indexiert wird (d. h. das eine Indexdatenextraktion für das aktuelle Dokument erfolgreich ist), indem eine ausreichende Anzahl an ähnlichen Dokumenten zur Verfügung gestellt werden kann.
-
Gesucht ist also eine Dokumentenmenge, die möglichst klein ist, wobei aber die Gesamtmenge die zu verarbeitenden Dokumente aller Nutzer im Hinblick auf deren Ähnlichkeit möglichst gut repräsentiert.
-
Eine alternative Ausführungsform besteht darin, dass die übergeordnete Datenbasis angepasst wird, indem das elektronische Dokument oder Merkmale des elektronischen Dokuments der übergeordneten Datenbasis hinzugefügt wird/werden.
-
Beispielsweise können Indexdaten oder sonstige für das Dokument charakteristische Daten der übergeordneten Datenbasis hinzugefügt werden.
-
Auch wird ein Verfahren zur Verarbeitung eines elektronischen Dokuments vorgeschlagen,
- – bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird,
- – wobei nur diejenigen Dokumente der übergeordneten Datenbasis verwendet werden, die eine vorgegebene Ähnlichkeit zu dem elektronischen Dokument aufweisen,
- – wobei die Ähnlichkeit zwischen dem elektronischen Dokument und in der übergeordneten Datenbank vorhandenen Dokumenten gemäß dem hier erläuterten Verfahren bestimmt wird.
-
Eine nächste Ausgestaltung ist es, dass die vorgegebene Ähnlichkeit durch einen Schwellwertvergleich mit einem vorgegebenen Mindest-Ähnlichkeitsmaß bestimmt wird.
-
Auch ist es eine Ausgestaltung, dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, sofern die übergeordnete Datenbasis ähnlichere Dokumente aufweist als eine lokale Datenbasis.
-
Bei der lokalen Datenbasis kann es sich um einen lokalen Modellraum, insbesondere realisiert als eine Datenbank, handeln. Die lokale sowie die übergeordnete Datenbasis kann bereits klassifizierte Dokumente, Dokumenttypen, Rückmeldungen des Benutzers, Datenfelder, Werte zu Datenfeldern, etc. umfassen.
-
Die übergeordnete Datenbasis kann eine Datenbasis einer weiteren physikalischen oder logischen Einheit sein, die von einer ersten Einheit, die die lokale Datenbasis umfasst, getrennt ausgeführt sein kann.
-
Insbesondere können mehrere übergeordnete Datenbasen vorgesehen sein, die hierarchisch angeordnet sind; dementsprechend kann der vorliegende Vorschlag mehrfach hintereinander ausgeführt werden, um über mehrere Hierarchieebenen hinweg ein ausreichend gutes Extraktionsergebnis für das Dokument zu erhalten.
-
Ein besonderer Vorteil der vorgestellten Lösung besteht darin, dass in einem ersten Schritt die lokale Datenbasis genutzt wird und somit das bereits lokal vorhandene Material (Dokumente, Klassifikationen, Felder, Werte, Koordinaten, etc.) genutzt wird, um ein möglichst gutes Klassifikationsergebnis zu erzeugen; dies ist vor allem für solche Dokumenttypen zu erwarten, die schon oft extrahiert wurden und für die dementsprechend in der lokalen Datenbasis umfangreiches Extraktionswissen gespeichert ist. Wenn kein ausreichendes Extraktionswissen lokal gefunden wird, nutzt die Eskalation in der übergeordneten Datenbasis die dort vorrätigen Informationen, die ggf. von einer anderen Organisationsstruktur und/oder von einem anderen Extraktionsdienst stammen.
-
Die vorliegende Lösung ermöglicht es, dass ein aktueller Nutzer insbesondere von bereits durchgeführten Extraktionsergebnissen, z. B. veranlasst oder durchgeführt von anderen Nutzern oder Prozessen, profitiert, indem dadurch die Extraktionsergebnisse für den aktuellen Nutzer verbessert oder eben erst ermöglicht werden.
-
Beispielsweise können Dienste zur Extraktion in elektronischen Dokumenten (Datenextraktionsdienste und/oder durch die Datenextraktionsdienste verwaltete Modellräume mit Trainingsdokumenten) in einer frei definierbaren Hierarchie zusammengeschaltet werden, insbesondere ohne dass der aktuelle Nutzer Rückschlüsse auf die Inhalte der Dokumente der anderen Nutzer ziehen kann. Damit ist die Vertraulichkeit der Inhalte gewährleistet und es können dennoch die bereits durchgeführten Extraktionsergebnisse verwendet werden.
-
Die vorstehend genannte Aufgabe wird auch gelöst durch eine Vorrichtung zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass
- – bei dem für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmbar ist, das Worthäufigkeiten und Koordinaten berücksichtigt,
- – bei dem anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmbar ist.
-
Weiterhin wird die Aufgabe gelöst mittels einer Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass die Schritte des hierin beschriebenen Verfahrens durchführbar sind.
-
Die hier genannte Verarbeitungseinheit kann insbesondere als eine Prozessoreinheit, ein Computer oder ein verteiltes System von Prozessoreinheiten oder Computer ausgeführt sein. Insbesondere kann die Verarbeitungseinheit Rechner aufweisen, die über eine Netzwerkverbindung, z. B. über das Internet, miteinander verbunden sind.
-
Die Datenbasis kann eine Datenbank oder ein Datenbankmanagementsystem sein oder umfassen.
-
Insbesondere kann die Verarbeitungseinheit jede Art von Prozessor oder Rechner oder Computer mit entsprechend notwendiger Peripherie (Speicher, Input/Output-Schnittstellen, Ein-Ausgabe-Geräte, etc.) sein oder umfassen.
-
Die vorstehenden Erläuterungen betreffend das Verfahren gelten für die Vorrichtung entsprechend. Die Vorrichtung kann in einer Komponente oder verteilt in mehreren Komponenten ausgeführt sein.
-
Eine Ausgestaltung besteht darin, dass die Vorrichtung die lokale Datenbasis und/oder die übergeordnete Datenbasis umfasst.
-
Auch wird die oben genannte Aufgabe gelöst mittels eines Systems umfassend mindestens eine der hier beschriebenen Vorrichtungen.
-
Die hier vorgestellte Lösung umfasst ferner ein Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen.
-
Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z. B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z. B. in Form von Programmcode), die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt.
-
Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit den Zeichnungen näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleichwirkende Elemente mit gleichen Bezugszeichen versehen sein.
-
Es zeigen:
-
1 eine schematische Darstellung für eine Propagations-Strategie von Dokumenten über Modellräume hinweg;
-
2 ein schematisches Bild einer Rechnung als ein beispielhaftes Dokument mit Blöcken, Koordinaten und erkannten Wörtern;
-
3 ein zu 2 ähnliches aber alternatives Bild einer Rechnung mit Blöcken, Koordinaten und erkannten Wörtern;
-
4 ein schematisches Bild eines Anschreibens mit Blöcken, Koordinaten und erkannten Wörtern.
-
Ähnlichkeitsmaß zwischen Dokumenten
-
Als Ähnlichkeitsmaß zwischen Dokumenten wird ein Ansatz basierend auf zwei Vektorraum-Modellen vorgeschlagen. So werden die Dokumente in einen mehrdimensionalen Vektor transformiert und zwischen zwei Vektoren wird der Cosinus berechnet.
-
Bei den Vektorraum-Modellen können die Worthäufigkeiten als auch Koordinaten der gemeinsamen Worte, die sofern sie mehrfach vorkommen mit Hilfe eines heuristischen Matching-Verfahrens gegenübergestellt werden, verwendet werden.
-
Beispielsweise wird ein zweites Vektorraum-Modell genutzt, mit dem das Verfahren für die Indexdaten der Dokumente durchgeführt wird. Die Ergebnisse der beiden Vektorraum-Modelle werden anschließend zu einem Gesamtergebnis verarbeitet.
-
Propagations-Strategie
-
Ein von einem Nutzer mit Indexdaten versehenes Dokument kann einer Hierarchie der übergeordneten Modellräume hinzugefügt werden. Dabei wird die Hierarchie von unten nach oben durchlaufen und es werden in jedem übergeordneten Modellraum die ähnlichsten Dokumente ermittelt, wobei die Ähnlichkeit der Dokumente mit Hilfe der vorstehend genannten Vektorraum-Modelle gemessen wird.
-
Solange sich in einem übergeordneten Modellraum keine ausreichende Anzahl von ausreichend ähnlichen Dokumenten befindet, wird das Dokument diesem übergeordneten Modellraum hinzugefügt. Wann eine Anzahl von ähnlichen Dokumenten ausreichend ist hängt beispielsweise von den lernenden Verfahren ab bzw. von einer (vorgegeben oder vorgebbaren) Anzahl an ähnlichen Dokumenten, die diese benötigen, um eine ausreichende Qualität der Indexdatenextraktion sicherzustellen. Die Qualität kann z. B. über ein Gütemaß einer Extraktion ermittelt werden, z. B. durch Vergleich des Gütemaßes mit einem vorgegebenen Schwellwert.
-
Wann ein Dokument ausreichend ähnlich ist, um als ”ähnliches Dokument” zu gelten, kann auch anhand eines Schwellwerts festgelegt werden. Das Durchlaufen der Hierarchie wird beendet, sobald ein übergeordneter Modellraum gefunden wird, dem das Dokument nicht mehr hinzugefügt werden soll oder sobald kein übergeordneter Modellraum mehr existiert.
-
1 zeigt eine schematische Darstellung für die vorstehend genannte Propagations-Strategie. Aus einem Modellraum 101 werden zwei Dokumente 102 und 103 mit Indexdaten versehen.
-
Ein übergeordneter Modellraum 104 (erste Hierarchieebene) umfasst vier Dokumente 105 bis 108 und ein weiterer übergeordneter Modellraum 109 (zweite Hierarchieebene) umfasst vier Dokumente 110 bis 113.
-
Für das Dokument 102 existieren bereits in dem übergeordneten Modellraum 104 ähnliche Dokumente 105 und 106. Das Dokument 102 wird daher nicht dem übergeordneten Modellraum 104 hinzugefügt. Die weiteren übergeordneten Modellräume werden für das Dokument 102 nicht mehr geprüft.
-
Für das Dokument 103 existieren in dem übergeordneten Modellraum 104 keine ähnlichen Dokumente 105 bis 108. Das Dokument 103 wird dem übergeordneten Modellraum 104 hinzugefügt. Für das Dokument 103 existiert ein ähnliches Dokument 112 in dem übergeordneten Modellraum 109. Das Dokument 103 wird somit dem übergeordneten Modellraum 109 nicht hinzugefügt.
-
Abfragestrategie
-
Es existieren zwei Abfragestrategien:
- (1) In der ersten Abfragestrategie wird jeder übergeordnete Modellraum zur Indexdatenextraktion herangezogen. Dies stellt die größtmögliche Sicherheit dar bei der Indexdatenextraktion tatsächlich ähnliche Dokumente zu erhalten, ist allerdings laufzeitintensiv.
- (2) In der zweiten Abfragestrategie werden die übergeordneten Modellräume nicht grundsätzlich zur Indexdatenextraktion herangezogen. Stattdessen werden aus jedem übergeordneten Modellraum nur die ähnlichsten Dokumente ermittelt (was wesentlich weniger laufzeitintensiv ist als eine komplette Indexdatenextraktion). Die Ähnlichkeit wird wieder anhand der Vektorraum-Modelle bestimmt. Die Indexdatenextraktion wird nun auf denjenigen übergeordneten Modellraum ausgedehnt, der die ähnlichsten Dokumente enthält und dies auch nur dann, wenn diese eine höhere Ähnlichkeit aufweisen, als die bereits im eigentlichen Modellraum zur Verfügung stehenden Dokumente.
-
Weitere Ausführungsformen und Vorteile:
-
Es wird eine erste Strategie zur Verwendung einer Hierarchie von übergeordneten Modellräumen in einem organisationsbasierten Dokumentenmanagement vorgeschlagen. Hierbei wird der Abstand zwischen Dokumenten bestimmt, wobei sowohl die Ähnlichkeit des Layouts, des Wortschatzes als auch der Indexdaten berücksichtigt werden.
-
Somit erlaubt die vorliegende Lösung eine Strategie für das Zusammenarbeiten bzw. für den Austausch von Dokumenten insbesondere im organisationsbasierten Dokumentenmanagement.
-
Weitere Ausführungen zum Vektorraummodell
-
Nachfolgendes Beispiel soll die Vorgehensweise bei der Abstandsberechnung zwischen Dokumenten veranschaulichen.
-
2 zeigt ein Dokument einer Rechnung von ”Telekom” an ”Hofmeier” mit mehreren Textblöcken, dessen obere linke Ecke jeweils mit einer Koordinate des Dokuments verknüpft ist. Damit ist die Position des jeweiligen Textblocks in dem Dokument festgelegt. Beispielhaft ist der Koordinatenursprung (0,0) in der oberen linken Ecke. Die Rechnung weist u. a. zwei Rechnungspositionen ”Festnetz” und ”Internet” auf. 3 zeigt ein Dokument einer Rechnung von ”Telekom” an ”Hofmeier”, das im Gegensatz zu 2 drei Rechnungspositionen ”Festnetz”, ”Internet” und ”Entertain” aufweist. 4 zeigt ein weiteres beispielhaftes Dokument einer Kündigung von ”Hofmeier” an ”Telekom”.
-
Die in den 2 bis 4 gezeigten Dokumente weisen jeweils ca. 12 Wörter auf. Die Wörter mit ihrer oberen linken Koordinatenangabe sind z. B. das Ergebnis einer OCR-Vorverarbeitung, beispielsweise nach einem Scanvorgang der Dokumente. Zur Vereinfachung des vorliegenden Beispiels treten die Wörter pro Dokument höchstens einmal auf.
-
Die Dokumente der 2 und 3 sind einander ähnlich, da beide Rechnungen vom gleichen Rechnungssteller an den gleichen Adressaten gerichtet sind. Das Dokument gemäß 3 ist ein ”Kündigungsschreiben”, das bis auf einen recht ähnlichen Wortschatz nur geringe Ähnlichkeit zu den Dokumenten der 2 und 3 aufweist.
-
Nachfolgend wird erläutert, wie ein Wert für Ähnlichkeiten zwischen Dokumenten bestimmt werden kann. Beispielsweise kann der Wert zwischen 0 (Dokumente sind grundsätzlich voneinander verschieden) und 1 (Dokumente sind identisch) variieren.
-
Abstandsberechnung zwischen Dokument 1 (Fig. 2) und Dokument 2 (Fig. 3):
-
Schritt 1: Bestimmen von Wortvektoren
-
Für jedes der beiden Dokumente wird ein Vektor erstellt. Die Anzahl der Dimensionen der beiden Vektoren ist identisch und entspricht jeweils der Anzahl unterschiedlicher Wörter, die in den beiden Dokumenten insgesamt vorkommen.
-
Im Beispiel sind dies die Wörter: ”Rechnung”, ”Von”, ”Telekom”, ”An”, ”Hofmeier”, ”Festnetz”, ”Internet”, ”Entertain”, ”Gesamt”, ”100 €” und ”50 €”. Damit besitzt jeder Vektor 11 Dimensionen.
-
Der Wert einer Dimension in einem Dokument entspricht der Anzahl der Vorkommen des entsprechenden Wortes.
-
Für das Beispiel ergeben sich die folgenden Vektoren (links Dokument 1 gemäß
2, rechts Dokument 2 gemäß
3):
-
Schritt 2: Berechnen der Wortdistanz
-
Die Wortdistanz zwischen den beiden Dokumenten entspricht dem Cosinus zwischen ihren Wortvektoren v
1 und v
2 gemäß:
-
Das Skalarprodukt s zweier Vektoren v
1 = (x
1, ..., x
n) und v
2 = (y
1, ..., y
n) wird dabei wie folgt berechnet:
-
Die Norm eines Vektors v = (x
1, ..., x
n) ist bestimmt durch:
-
Im Beispiel ergibt sich damit als Wortdistanz:
-
Schritt 3: Aufbauen der Koordinatenvektoren
-
Für jedes der beiden Dokumente wird ein Vektor erstellt. Die Anzahl der Dimensionen der beiden Vektoren ist identisch und entspricht jeweils zweimal der Anzahl an Wörtern, die in beiden Dokumenten auftreten.
-
Wenn ein Wort in beiden Dokumenten mehrfach auftritt (ist im Beispiel der Einfachheit halber nicht der Fall), dann wird die Anzahl der Dimensionen entsprechend erhöht. Tritt ein Wort beispielweise im ersten Dokument dreimal und im zweiten Dokument fünfmal auf, dann werden für dieses Wort sechs (zwei mal drei) Dimensionen zu den Vektoren hinzugefügt.
-
Angenommen das Wort ”Hallo” kommt im ersten Dokument fünfmal vor und im zweiten Dokument dreimal, dann werden drei Paare von ”Hallo”-Zuordnungen gebildet, z. B.
- – das erste ”Hallo” aus Dokument 1 und das erste ”Hallo” aus Dokument 2,
- – das dritte ”Hallo” aus Dokument 1, das zweite ”Hallo” aus Dokument 2,
- – das fünfte ”Hallo” aus Dokument 1, das dritte ”Hallo” aus Dokument 2.
-
Da das Dokument 2 nur dreimal das Wort ”Hallo” enthält, werden drei Paare gebildet. Vorzugsweise hat jedes gebildete Wortpaar zwei Dimensionen, nämlich die x- und die y-Koordinate als Positionen in dem jeweiligen Dokument. Es ergeben sich somit für den Vektor sechs zusätzliche Dimensionen.
-
Alternativ ist es möglich, jedes Vorkommen des Wortes ”Hallo” in dem Dokument 1 mit jedem Vorkommen des Wortes ”Hallo” in Dokument 2 in einem eigenen Paar gegenüberzustellen und somit 15 Paare zu bilden (mit je zwei Dimensionen für die Koordinaten).
-
Insbesondere können alle möglichen Paare von in beiden Dokumenten vorkommenden Wörtern unter Verwendung eines Zuordnungsverfahrens gegenübergestellt werden. Im Beispiel sind die Wörter, die in beiden Dokumenten mehrfach auftreten: ”Rechnung”, ”Von”, ”Telekom”, ”An”, ”Hofmeier”, ”Festnetz”, ”Internet” und ”Gesamt”. Damit besitzt jeder Vektor 16 (zwei mal acht, je zwei Koordinaten pro gemeinsamem Wort) Dimensionen.
-
In den beiden Dimensionen eines Wortes werden seine x-Koordinate bzw. seine y-Koordinate als Werte verwendet.
-
Für das Beispiel ergeben sich die folgenden Vektoren (links für das Dokument 1, rechts für das Dokument 2):
-
Schritt 4: Berechnen einer Koordinatendistanz
-
Die Koordinatendistanz zwischen den beiden Dokumenten entspricht dem Cosinus zwischen ihren Koordinatenvektoren. Dieser wird ebenfalls mit der bereits erwähnten Formel berechnet. Im Beispiel ergibt sich dann folgende Koordinatendistanz.
-
-
Schritt 5: Ermittlung der Gesamtdistanz aus Wortdistanz und Koordinatendistanz
-
Die Wortdistanz s und die Koordinatendistanz t werden nun zu einer Gesamtdistanz gemäß der Formel (1 – p)s + p·t verrechnet. Der Parameter p entspricht einer vorgebebenen Konstante kleiner 1.
-
Die Berechnung bedeutet folgendes: Wenn die Wortdistanz einen sehr geringen Wert aufweist (was einer großen Distanz entspricht), dann wird sie stark gewichtet, wenn sie dagegen einen sehr großen Wert aufweist (was einer sehr kleinen Distanz entspricht), darin wird sie gering und die Koordinatendistanz entsprechend stark gewichtet.
-
Im Beispiel ergibt sich folgende Gesamtdistanz: 0.16·0.84 + 0.84·0.99 ≈ 0.96
-
Abstandsberechnung zwischen Dokument 1 (Fig. 2) und Dokument 3 (Fig. 4):
-
Die Abstandsberechnung zwischen Dokument 1 und Dokument 3 erfolgt entsprechend und wird deshalb nur kurz erläutert, um zu erkennen, wie sich das unterschiedliche Layout der beiden Dokumente auf die Distanz auswirkt.
-
Es ergeben sich folgende Wortvektoren:
-
Damit ergibt sich die Wortdistanz zu:
-
Es ergeben sich als Koordinatenvektoren
und damit die Koordinatendistanz zu
-
-
Die Gesamtdistanz beträgt somit ungefähr 0,74.
-
Weitere Variationsmöglichkeiten:
-
Wenn ein Wort in beiden Dokumenten mehrfach vorkommt, sollte entschieden werden, welche Vorkommen einander im Koordinatenvektor ”gegenübergestellt” (bzw. zugeordnet) werden. Hier ergeben sich beispielsweise die folgenden Varianten:
- – Das erste Auftreten des Wortes in dem Dokument 1 wird dem ersten Auftreten des Wortes in Dokument 2 zugeordnet. Entsprechend wird das zweite Auftreten des Wortes in dem Dokument 1 dem zweiten Auftreten des Wortes in dem Dokument 2 zugeordnet, etc.
- – Es wird ein Zuordnungs-Verfahren angewendet, bei dem die Vorkommen des Wortes derart gegenübergestellt werden, dass die Summe der Distanzen zwischen den gegenübergestellten Paaren möglichst klein ist.
- – Es wird ein Zuordnungs-Verfahren angewendet, bei dem die Vorkommen des Wortes derart gegenübergestellt werden, dass die Summe der Distanzen zwischen den gegenüber gestellten Paaren möglichst groß ist.
-
Eine Variation stellt die Wahl des Parameters p bei der Berechnung der Gesamtdistanz aus der Wort- und der Koordinatendistanz dar. Beispielsweise könnte p = 0,5 (oder jede andere Konstante kleiner eins) gewählt werden.
-
Obwohl die Erfindung im Detail durch das mindestens eine gezeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- A. Huang. Similarity Measures for Text Document Clustering. In J. Holland, A. Nicholas, and D. Brignoli, editors, New Zealand Computer Science Research Student Conference, pages 49–56, April 2008. [0006]