DE102012025349A1 - Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten - Google Patents

Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten Download PDF

Info

Publication number
DE102012025349A1
DE102012025349A1 DE102012025349.4A DE102012025349A DE102012025349A1 DE 102012025349 A1 DE102012025349 A1 DE 102012025349A1 DE 102012025349 A DE102012025349 A DE 102012025349A DE 102012025349 A1 DE102012025349 A1 DE 102012025349A1
Authority
DE
Germany
Prior art keywords
document
documents
determined
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102012025349.4A
Other languages
English (en)
Other versions
DE102012025349B4 (de
Inventor
Andreas HOFMEIER
Christoph WEIDLING
Michael Berger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DocuWare GmbH
Original Assignee
DocuWare GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DocuWare GmbH filed Critical DocuWare GmbH
Priority to DE102012025349.4A priority Critical patent/DE102012025349B4/de
Priority to US14/138,407 priority patent/US20140181124A1/en
Publication of DE102012025349A1 publication Critical patent/DE102012025349A1/de
Application granted granted Critical
Publication of DE102012025349B4 publication Critical patent/DE102012025349B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Es wird ein Verfahren zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument vorgeschlagen, bei dem für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmt wird, das Worthäufigkeiten und Koordinaten berücksichtigt, und bei dem anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmt wird. Weiterhin werden entsprechend Vorrichtung, Computerprogrammprodukt sowie Speichermedium angegeben.

Description

  • Die Erfindung betrifft die Bestimmung eines Ähnlichkeitsmaß zwischen zwei Dokumenten sowie eine Verarbeitung von Dokumenten basierend auf einem Ähnlichkeitsmaß.
  • Es sind unterschiedliche Verfahren zur Texterkennung (auch bezeichnet als optische Zeichenerkennung, OCR für ”Optical Character Recognition”) bekannt, anhand derer automatisiert eine Texterkennung innerhalb von Bildern durchgeführt werden kann. Bei den Bildern handelt es sich z. B. um elektronisch eingescannte Dokumente, deren Inhalt weiter analysiert werden soll.
  • Bei den Dokumenten kann es sich um elektronische Dokumente, z. B. um elektronisch verarbeitete, vorverarbeitete oder verarbeitbare Dokumente handeln. Der Ansatz ist z. B. anwendbar bei Anwendungen, die ein Dokumentenmanagement bzw. der Dokumentenarchivierung z. B. von Geschäftsdokumenten betreffen, kann aber auch für andere Arten der Datenextraktion, z. B. eine Extraktion von Informationen aus abfotografierten Kassenbons und anderen Kleindokumenten angewendet werden.
  • Im Dokumentenmanagement spielen Indexdaten eines Dokuments, beispielsweise Sender, Empfänger, Rechnungsnummer oder Rechnungsbetrag eine zentrale Rolle. Ein Dokumentenmanagementsystem bietet beispielsweise Suchfunktionen anhand von Indexdaten an oder archiviert ein Dokument anhand seiner Indexdaten.
  • Eine Indexdatenextraktion (auch bezeichnet als ”Extraktion”) bezeichnet ein automatisches Ermitteln von Indexdaten eines Dokuments. Neben regelbasierten Methoden kommen auch lernende Verfahren zum Einsatz, welche die Indexdaten eines Dokuments anhand von ähnlichen Dokumenten (sogenannten Trainingsdokumenten), deren Indexdaten bereits von einem Nutzer bestätigt oder korrigiert wurden, ermitteln.
  • Ein Ähnlichkeitsmaß zum Vergleich von Dokumenten ist bekannt. So werden Methoden zur Abstandsbestimmung (Euklidische Distanz, Vektorraum-Modelle gemäß und probabilistische Methoden gemäß) auf das Problem der Abstandsbestimmung zwischen Dokumenten angewendet. Ein Überblick über die verschiedenen Methoden findet sich beispielsweise in [A. Huang. Similarity Measures for Text Document Clustering. In J. Holland, A. Nicholas, and D. Brignoli, editors, New Zealand Computer Science Research Student Conference, pages 49–56, April 2008.]. Hierbei werden in der Regel die Menge der Worte der beiden Dokumente verglichen (”bag of words”-Ansatz) und/oder semantische Analysen vorgenommen.
  • Die bekannten Ansätze weisen jedoch Nachteile auf, wenn es um die Bestimmung der Ähnlichkeit von Dokumenten geht, deren Text und Layout zu berücksichtigen ist.
  • Die Aufgabe der Erfindung besteht darin, die vorstehend genannten Nachteile zu vermeiden und insbesondere eine effiziente Lösung zur Bestimmung der Ähnlichkeit zwischen elektronischen Dokumenten anzugeben sowie Möglichkeiten zur Verarbeitung von Dokumenten zu schaffen, die eine derartig bestimmte Ähnlichkeit zwischen Dokumenten nutzen.
  • Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesondere den abhängigen Ansprüchen entnehmbar.
  • Zur Lösung der Aufgabe wird ein Verfahren zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument vorgeschlagen,
    • – bei dem für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmt wird, das Worthäufigkeiten und Koordinaten berücksichtigt,
    • – bei dem anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmt wird.
  • Der vorliegende Ansatz hat den Vorteil, dass für die Ähnlichkeitsbestimmung der Text und das Layout der zu vergleichenden Dokumente berücksichtigt wird. Ein zusätzlicher Vorteil ist es, dass neben der Ähnlichkeit der Dokumente auch die Ähnlichkeit der Indexdaten der Dokumente berücksichtigt werden kann. Somit ist es beispielsweise möglich, ein von einem Nutzer irrtümlicherweise oder bewusst mit inkorrekten Indexdaten versehenes Dokument schnell zu identifizieren.
  • Die vorliegende Lösung erlaubt es, ein geeignetes Maß für die Ähnlichkeit zweier Dokumente zu bestimmen, z. B. eine Funktion, die jedem Tupel aus zwei Dokumenten einen Wert zwischen 0 und 1 zuordnet. Dieser Wert ist dabei umso größer, je ähnlicher sich die beiden Dokumente im Hinblick auf Inhalt (d. h. Vokabular) und Layout sind und den Wert 1 z. B. dann annehmen, wenn die beiden Dokumente identisch sind.
  • Eine Weiterbildung ist es, dass die Koordinaten derjenigen Wörter berücksichtigt werden, die in beiden Dokumenten gemeinsam vorkommen.
  • Eine andere Weiterbildung ist es, dass das Vektorraum-Modell bestimmt wird, indem für das erstes Dokument ein erster Vektor und für ein zweites Dokument ein zweiter Vektor bestimmt wird.
  • Insbesondere ist es eine Weiterbildung, dass das Maß für die Ähnlichkeit bestimmt wird, indem ein Cosinus zwischen dem ersten und dem zweiten Vektor bestimmt wird.
  • Auch ist es eine Weiterbildung, dass
    • – je ein Wortvektor für das erste Dokument und das zweite Dokument bestimmt wird, wobei Elemente der Wortvektoren angeben, ob ein Wort in dem jeweiligen Dokument vorkommt oder nicht;
    • – eine Wortdistanz zwischen den Dokumenten bestimmt wird,
    • – je ein Koordinatenvektor für das erste Dokument und das zweite Dokument bestimmt wird, wobei Elemente der Wortvektoren Koordinaten angeben für Wörter, die gemeinsam in den beiden Dokumenten vorkommen,
    • – eine Koordinatendistanz zwischen den Dokumenten bestimmt wird,
    • – eine Gesamtdistanz basierend auf der Wortdistanz und der Koordinatendistanz bestimmt wird.
  • Beispielsweise bezeichnet ein Element ”1”, dass das Wort in dem jeweiligen Dokument vorkommt (ein Element ”0” bezeichnet entsprechend, dass das Wort nicht vorkommt und ein Element ”4” bezeichnet beispielsweise, dass das Wort viermal vorkommt); die Position des Elements innerhalb des Wortvektors ist hierbei mit einem bestimmten Wort verknüpft. Der Koordinatenvektor umfasst z. B. pro gemeinsam vorkommendem Wort je Dokument zwei Einträge, z. B. für x- und y-Koordinaten innerhalb des jeweiligen Dokuments.
  • Eine Weiterbildung besteht darin, dass die Wortdistanz bestimmt wird mittels eines Cosinus zwischen den Wortvektoren.
  • Ferner ist es eine Weiterbildung, dass die Koordinatendistanz bestimmt wird mittels eines Cosinus zwischen den Koordinatenvektoren.
  • Eine nächste Weiterbildung besteht darin, dass die Gesamtdistanz bestimmt wird gemäß (1 – p)s + p·t wobei s die Wortdistanz, t die Koordinatendistanz und p einen vorgebbaren Parameter bezeichnen.
  • Eine Ausgestaltung ist es, dass in beiden Dokumenten mehrfach vorkommende Wörter in dem Koordinatenvektor einander gegenübergestellt werden nach einem der folgenden Mechanismen:
    • – entsprechend ihres Auftretens,
    • – unter Verwendung eines Zuordnungsverfahrens, bei dem diejenigen Wörter gegenübergestellt werden, bei denen die Summe der Abstände zwischen den gegenübergestellten Paaren möglichst klein ist,
    • – unter Verwendung eines Zuordnungsverfahrens, bei dem diejenigen Wörter gegenübergestellt werden, bei denen die Summe der Abstände zwischen den gegenübergestellten Paaren möglichst groß ist.
  • Hierbei bezeichnet das Gegenüberstellen die Verwendung gleicher Positionen innerhalb der beiden Vektoren.
  • Die vorstehende Aufgabe wird auch gelöst mittels eines Verfahrens zur Verarbeitung eines elektronischen Dokuments,
    • – bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen basierend auf einem elektronischen Dokument angepasst wird, falls keine zu dem elektronischen Dokument ausreichend ähnlichen Dokumente in der übergeordneten Datenbasis vorhanden sind,
    • – wobei die Ähnlichkeit zwischen dem elektronischen Dokument und in der übergeordneten Datenbank vorhandenen Dokumenten gemäß dem vorstehend genannten Verfahren bestimmt wird.
  • Dieser Ansatz kann mehrfach angewandt werden für mehrere Ebenen übergeordneter Modellräume (Modellraum entspricht hierbei der vorstehend genannten Datenbasis).
  • Hierbei ist es von Vorteil, dass durch den organisationsübergreifenden Ansatz ein Austausch von Dokumentinformationen zwischen einzelnen Nutzern ermöglicht wird.
  • Bei einem organisations- oder unternehmensbasierten Dokumentenmanagement stellen Nutzer (z. B. Unternehmen) ihre bereits mit korrekten Indexdaten versehenen Dokumente beispielsweise (auch) einem übergeordneten Modellraum (auch bezeichnet als übergeordnete Datenbasis) bzw. einer mehrstufigen Hierarchie umfassend derartige übergeordnete Modellräume zur Verfügung. Führt nun ein anderer Nutzer eine Extraktion für ein Dokument durch, können ähnliche Dokumente aus den übergeordneten Modellräumen zur Ermittlung der Indexdaten herangezogen werden.
  • Hierbei können die übergeordneten Modellräume auf unterschiedliche Art und Weise nutzbar gemacht werden.
  • Zunächst stellt sich die Frage, welche Dokumente eines Nutzers den übergeordneten Modellräumen bis zu welcher Stufe der Hierarchie zur Verfügung gestellt werden sollen. Einerseits ist im Hinblick auf eine effiziente Speicherplatznutzung erstrebenswert, nur eine geringe Anzahl an Dokumenten zur Verfügung zu stellen. Andererseits erhöht eine große Anzahl von bereitgestellten Dokumenten die Wahrscheinlichkeit, dass ein aktuelles Dokument erfolgreich indexiert wird (d. h. das eine Indexdatenextraktion für das aktuelle Dokument erfolgreich ist), indem eine ausreichende Anzahl an ähnlichen Dokumenten zur Verfügung gestellt werden kann.
  • Gesucht ist also eine Dokumentenmenge, die möglichst klein ist, wobei aber die Gesamtmenge die zu verarbeitenden Dokumente aller Nutzer im Hinblick auf deren Ähnlichkeit möglichst gut repräsentiert.
  • Eine alternative Ausführungsform besteht darin, dass die übergeordnete Datenbasis angepasst wird, indem das elektronische Dokument oder Merkmale des elektronischen Dokuments der übergeordneten Datenbasis hinzugefügt wird/werden.
  • Beispielsweise können Indexdaten oder sonstige für das Dokument charakteristische Daten der übergeordneten Datenbasis hinzugefügt werden.
  • Auch wird ein Verfahren zur Verarbeitung eines elektronischen Dokuments vorgeschlagen,
    • – bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird,
    • – wobei nur diejenigen Dokumente der übergeordneten Datenbasis verwendet werden, die eine vorgegebene Ähnlichkeit zu dem elektronischen Dokument aufweisen,
    • – wobei die Ähnlichkeit zwischen dem elektronischen Dokument und in der übergeordneten Datenbank vorhandenen Dokumenten gemäß dem hier erläuterten Verfahren bestimmt wird.
  • Eine nächste Ausgestaltung ist es, dass die vorgegebene Ähnlichkeit durch einen Schwellwertvergleich mit einem vorgegebenen Mindest-Ähnlichkeitsmaß bestimmt wird.
  • Auch ist es eine Ausgestaltung, dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, sofern die übergeordnete Datenbasis ähnlichere Dokumente aufweist als eine lokale Datenbasis.
  • Bei der lokalen Datenbasis kann es sich um einen lokalen Modellraum, insbesondere realisiert als eine Datenbank, handeln. Die lokale sowie die übergeordnete Datenbasis kann bereits klassifizierte Dokumente, Dokumenttypen, Rückmeldungen des Benutzers, Datenfelder, Werte zu Datenfeldern, etc. umfassen.
  • Die übergeordnete Datenbasis kann eine Datenbasis einer weiteren physikalischen oder logischen Einheit sein, die von einer ersten Einheit, die die lokale Datenbasis umfasst, getrennt ausgeführt sein kann.
  • Insbesondere können mehrere übergeordnete Datenbasen vorgesehen sein, die hierarchisch angeordnet sind; dementsprechend kann der vorliegende Vorschlag mehrfach hintereinander ausgeführt werden, um über mehrere Hierarchieebenen hinweg ein ausreichend gutes Extraktionsergebnis für das Dokument zu erhalten.
  • Ein besonderer Vorteil der vorgestellten Lösung besteht darin, dass in einem ersten Schritt die lokale Datenbasis genutzt wird und somit das bereits lokal vorhandene Material (Dokumente, Klassifikationen, Felder, Werte, Koordinaten, etc.) genutzt wird, um ein möglichst gutes Klassifikationsergebnis zu erzeugen; dies ist vor allem für solche Dokumenttypen zu erwarten, die schon oft extrahiert wurden und für die dementsprechend in der lokalen Datenbasis umfangreiches Extraktionswissen gespeichert ist. Wenn kein ausreichendes Extraktionswissen lokal gefunden wird, nutzt die Eskalation in der übergeordneten Datenbasis die dort vorrätigen Informationen, die ggf. von einer anderen Organisationsstruktur und/oder von einem anderen Extraktionsdienst stammen.
  • Die vorliegende Lösung ermöglicht es, dass ein aktueller Nutzer insbesondere von bereits durchgeführten Extraktionsergebnissen, z. B. veranlasst oder durchgeführt von anderen Nutzern oder Prozessen, profitiert, indem dadurch die Extraktionsergebnisse für den aktuellen Nutzer verbessert oder eben erst ermöglicht werden.
  • Beispielsweise können Dienste zur Extraktion in elektronischen Dokumenten (Datenextraktionsdienste und/oder durch die Datenextraktionsdienste verwaltete Modellräume mit Trainingsdokumenten) in einer frei definierbaren Hierarchie zusammengeschaltet werden, insbesondere ohne dass der aktuelle Nutzer Rückschlüsse auf die Inhalte der Dokumente der anderen Nutzer ziehen kann. Damit ist die Vertraulichkeit der Inhalte gewährleistet und es können dennoch die bereits durchgeführten Extraktionsergebnisse verwendet werden.
  • Die vorstehend genannte Aufgabe wird auch gelöst durch eine Vorrichtung zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass
    • – bei dem für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmbar ist, das Worthäufigkeiten und Koordinaten berücksichtigt,
    • – bei dem anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmbar ist.
  • Weiterhin wird die Aufgabe gelöst mittels einer Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass die Schritte des hierin beschriebenen Verfahrens durchführbar sind.
  • Die hier genannte Verarbeitungseinheit kann insbesondere als eine Prozessoreinheit, ein Computer oder ein verteiltes System von Prozessoreinheiten oder Computer ausgeführt sein. Insbesondere kann die Verarbeitungseinheit Rechner aufweisen, die über eine Netzwerkverbindung, z. B. über das Internet, miteinander verbunden sind.
  • Die Datenbasis kann eine Datenbank oder ein Datenbankmanagementsystem sein oder umfassen.
  • Insbesondere kann die Verarbeitungseinheit jede Art von Prozessor oder Rechner oder Computer mit entsprechend notwendiger Peripherie (Speicher, Input/Output-Schnittstellen, Ein-Ausgabe-Geräte, etc.) sein oder umfassen.
  • Die vorstehenden Erläuterungen betreffend das Verfahren gelten für die Vorrichtung entsprechend. Die Vorrichtung kann in einer Komponente oder verteilt in mehreren Komponenten ausgeführt sein.
  • Eine Ausgestaltung besteht darin, dass die Vorrichtung die lokale Datenbasis und/oder die übergeordnete Datenbasis umfasst.
  • Auch wird die oben genannte Aufgabe gelöst mittels eines Systems umfassend mindestens eine der hier beschriebenen Vorrichtungen.
  • Die hier vorgestellte Lösung umfasst ferner ein Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen.
  • Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z. B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z. B. in Form von Programmcode), die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt.
  • Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit den Zeichnungen näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleichwirkende Elemente mit gleichen Bezugszeichen versehen sein.
  • Es zeigen:
  • 1 eine schematische Darstellung für eine Propagations-Strategie von Dokumenten über Modellräume hinweg;
  • 2 ein schematisches Bild einer Rechnung als ein beispielhaftes Dokument mit Blöcken, Koordinaten und erkannten Wörtern;
  • 3 ein zu 2 ähnliches aber alternatives Bild einer Rechnung mit Blöcken, Koordinaten und erkannten Wörtern;
  • 4 ein schematisches Bild eines Anschreibens mit Blöcken, Koordinaten und erkannten Wörtern.
  • Ähnlichkeitsmaß zwischen Dokumenten
  • Als Ähnlichkeitsmaß zwischen Dokumenten wird ein Ansatz basierend auf zwei Vektorraum-Modellen vorgeschlagen. So werden die Dokumente in einen mehrdimensionalen Vektor transformiert und zwischen zwei Vektoren wird der Cosinus berechnet.
  • Bei den Vektorraum-Modellen können die Worthäufigkeiten als auch Koordinaten der gemeinsamen Worte, die sofern sie mehrfach vorkommen mit Hilfe eines heuristischen Matching-Verfahrens gegenübergestellt werden, verwendet werden.
  • Beispielsweise wird ein zweites Vektorraum-Modell genutzt, mit dem das Verfahren für die Indexdaten der Dokumente durchgeführt wird. Die Ergebnisse der beiden Vektorraum-Modelle werden anschließend zu einem Gesamtergebnis verarbeitet.
  • Propagations-Strategie
  • Ein von einem Nutzer mit Indexdaten versehenes Dokument kann einer Hierarchie der übergeordneten Modellräume hinzugefügt werden. Dabei wird die Hierarchie von unten nach oben durchlaufen und es werden in jedem übergeordneten Modellraum die ähnlichsten Dokumente ermittelt, wobei die Ähnlichkeit der Dokumente mit Hilfe der vorstehend genannten Vektorraum-Modelle gemessen wird.
  • Solange sich in einem übergeordneten Modellraum keine ausreichende Anzahl von ausreichend ähnlichen Dokumenten befindet, wird das Dokument diesem übergeordneten Modellraum hinzugefügt. Wann eine Anzahl von ähnlichen Dokumenten ausreichend ist hängt beispielsweise von den lernenden Verfahren ab bzw. von einer (vorgegeben oder vorgebbaren) Anzahl an ähnlichen Dokumenten, die diese benötigen, um eine ausreichende Qualität der Indexdatenextraktion sicherzustellen. Die Qualität kann z. B. über ein Gütemaß einer Extraktion ermittelt werden, z. B. durch Vergleich des Gütemaßes mit einem vorgegebenen Schwellwert.
  • Wann ein Dokument ausreichend ähnlich ist, um als ”ähnliches Dokument” zu gelten, kann auch anhand eines Schwellwerts festgelegt werden. Das Durchlaufen der Hierarchie wird beendet, sobald ein übergeordneter Modellraum gefunden wird, dem das Dokument nicht mehr hinzugefügt werden soll oder sobald kein übergeordneter Modellraum mehr existiert.
  • 1 zeigt eine schematische Darstellung für die vorstehend genannte Propagations-Strategie. Aus einem Modellraum 101 werden zwei Dokumente 102 und 103 mit Indexdaten versehen.
  • Ein übergeordneter Modellraum 104 (erste Hierarchieebene) umfasst vier Dokumente 105 bis 108 und ein weiterer übergeordneter Modellraum 109 (zweite Hierarchieebene) umfasst vier Dokumente 110 bis 113.
  • Für das Dokument 102 existieren bereits in dem übergeordneten Modellraum 104 ähnliche Dokumente 105 und 106. Das Dokument 102 wird daher nicht dem übergeordneten Modellraum 104 hinzugefügt. Die weiteren übergeordneten Modellräume werden für das Dokument 102 nicht mehr geprüft.
  • Für das Dokument 103 existieren in dem übergeordneten Modellraum 104 keine ähnlichen Dokumente 105 bis 108. Das Dokument 103 wird dem übergeordneten Modellraum 104 hinzugefügt. Für das Dokument 103 existiert ein ähnliches Dokument 112 in dem übergeordneten Modellraum 109. Das Dokument 103 wird somit dem übergeordneten Modellraum 109 nicht hinzugefügt.
  • Abfragestrategie
  • Es existieren zwei Abfragestrategien:
    • (1) In der ersten Abfragestrategie wird jeder übergeordnete Modellraum zur Indexdatenextraktion herangezogen. Dies stellt die größtmögliche Sicherheit dar bei der Indexdatenextraktion tatsächlich ähnliche Dokumente zu erhalten, ist allerdings laufzeitintensiv.
    • (2) In der zweiten Abfragestrategie werden die übergeordneten Modellräume nicht grundsätzlich zur Indexdatenextraktion herangezogen. Stattdessen werden aus jedem übergeordneten Modellraum nur die ähnlichsten Dokumente ermittelt (was wesentlich weniger laufzeitintensiv ist als eine komplette Indexdatenextraktion). Die Ähnlichkeit wird wieder anhand der Vektorraum-Modelle bestimmt. Die Indexdatenextraktion wird nun auf denjenigen übergeordneten Modellraum ausgedehnt, der die ähnlichsten Dokumente enthält und dies auch nur dann, wenn diese eine höhere Ähnlichkeit aufweisen, als die bereits im eigentlichen Modellraum zur Verfügung stehenden Dokumente.
  • Weitere Ausführungsformen und Vorteile:
  • Es wird eine erste Strategie zur Verwendung einer Hierarchie von übergeordneten Modellräumen in einem organisationsbasierten Dokumentenmanagement vorgeschlagen. Hierbei wird der Abstand zwischen Dokumenten bestimmt, wobei sowohl die Ähnlichkeit des Layouts, des Wortschatzes als auch der Indexdaten berücksichtigt werden.
  • Somit erlaubt die vorliegende Lösung eine Strategie für das Zusammenarbeiten bzw. für den Austausch von Dokumenten insbesondere im organisationsbasierten Dokumentenmanagement.
  • Weitere Ausführungen zum Vektorraummodell
  • Nachfolgendes Beispiel soll die Vorgehensweise bei der Abstandsberechnung zwischen Dokumenten veranschaulichen.
  • 2 zeigt ein Dokument einer Rechnung von ”Telekom” an ”Hofmeier” mit mehreren Textblöcken, dessen obere linke Ecke jeweils mit einer Koordinate des Dokuments verknüpft ist. Damit ist die Position des jeweiligen Textblocks in dem Dokument festgelegt. Beispielhaft ist der Koordinatenursprung (0,0) in der oberen linken Ecke. Die Rechnung weist u. a. zwei Rechnungspositionen ”Festnetz” und ”Internet” auf. 3 zeigt ein Dokument einer Rechnung von ”Telekom” an ”Hofmeier”, das im Gegensatz zu 2 drei Rechnungspositionen ”Festnetz”, ”Internet” und ”Entertain” aufweist. 4 zeigt ein weiteres beispielhaftes Dokument einer Kündigung von ”Hofmeier” an ”Telekom”.
  • Die in den 2 bis 4 gezeigten Dokumente weisen jeweils ca. 12 Wörter auf. Die Wörter mit ihrer oberen linken Koordinatenangabe sind z. B. das Ergebnis einer OCR-Vorverarbeitung, beispielsweise nach einem Scanvorgang der Dokumente. Zur Vereinfachung des vorliegenden Beispiels treten die Wörter pro Dokument höchstens einmal auf.
  • Die Dokumente der 2 und 3 sind einander ähnlich, da beide Rechnungen vom gleichen Rechnungssteller an den gleichen Adressaten gerichtet sind. Das Dokument gemäß 3 ist ein ”Kündigungsschreiben”, das bis auf einen recht ähnlichen Wortschatz nur geringe Ähnlichkeit zu den Dokumenten der 2 und 3 aufweist.
  • Nachfolgend wird erläutert, wie ein Wert für Ähnlichkeiten zwischen Dokumenten bestimmt werden kann. Beispielsweise kann der Wert zwischen 0 (Dokumente sind grundsätzlich voneinander verschieden) und 1 (Dokumente sind identisch) variieren.
  • Abstandsberechnung zwischen Dokument 1 (Fig. 2) und Dokument 2 (Fig. 3):
  • Schritt 1: Bestimmen von Wortvektoren
  • Für jedes der beiden Dokumente wird ein Vektor erstellt. Die Anzahl der Dimensionen der beiden Vektoren ist identisch und entspricht jeweils der Anzahl unterschiedlicher Wörter, die in den beiden Dokumenten insgesamt vorkommen.
  • Im Beispiel sind dies die Wörter: ”Rechnung”, ”Von”, ”Telekom”, ”An”, ”Hofmeier”, ”Festnetz”, ”Internet”, ”Entertain”, ”Gesamt”, ”100 €” und ”50 €”. Damit besitzt jeder Vektor 11 Dimensionen.
  • Der Wert einer Dimension in einem Dokument entspricht der Anzahl der Vorkommen des entsprechenden Wortes.
  • Für das Beispiel ergeben sich die folgenden Vektoren (links Dokument 1 gemäß 2, rechts Dokument 2 gemäß 3):
    Figure DE102012025349A1_0002
  • Schritt 2: Berechnen der Wortdistanz
  • Die Wortdistanz zwischen den beiden Dokumenten entspricht dem Cosinus zwischen ihren Wortvektoren v1 und v2 gemäß:
    Figure DE102012025349A1_0003
  • Das Skalarprodukt s zweier Vektoren v1 = (x1, ..., xn) und v2 = (y1, ..., yn) wird dabei wie folgt berechnet:
    Figure DE102012025349A1_0004
  • Die Norm eines Vektors v = (x1, ..., xn) ist bestimmt durch:
    Figure DE102012025349A1_0005
  • Im Beispiel ergibt sich damit als Wortdistanz:
    Figure DE102012025349A1_0006
  • Schritt 3: Aufbauen der Koordinatenvektoren
  • Für jedes der beiden Dokumente wird ein Vektor erstellt. Die Anzahl der Dimensionen der beiden Vektoren ist identisch und entspricht jeweils zweimal der Anzahl an Wörtern, die in beiden Dokumenten auftreten.
  • Wenn ein Wort in beiden Dokumenten mehrfach auftritt (ist im Beispiel der Einfachheit halber nicht der Fall), dann wird die Anzahl der Dimensionen entsprechend erhöht. Tritt ein Wort beispielweise im ersten Dokument dreimal und im zweiten Dokument fünfmal auf, dann werden für dieses Wort sechs (zwei mal drei) Dimensionen zu den Vektoren hinzugefügt.
  • Angenommen das Wort ”Hallo” kommt im ersten Dokument fünfmal vor und im zweiten Dokument dreimal, dann werden drei Paare von ”Hallo”-Zuordnungen gebildet, z. B.
    • – das erste ”Hallo” aus Dokument 1 und das erste ”Hallo” aus Dokument 2,
    • – das dritte ”Hallo” aus Dokument 1, das zweite ”Hallo” aus Dokument 2,
    • – das fünfte ”Hallo” aus Dokument 1, das dritte ”Hallo” aus Dokument 2.
  • Da das Dokument 2 nur dreimal das Wort ”Hallo” enthält, werden drei Paare gebildet. Vorzugsweise hat jedes gebildete Wortpaar zwei Dimensionen, nämlich die x- und die y-Koordinate als Positionen in dem jeweiligen Dokument. Es ergeben sich somit für den Vektor sechs zusätzliche Dimensionen.
  • Alternativ ist es möglich, jedes Vorkommen des Wortes ”Hallo” in dem Dokument 1 mit jedem Vorkommen des Wortes ”Hallo” in Dokument 2 in einem eigenen Paar gegenüberzustellen und somit 15 Paare zu bilden (mit je zwei Dimensionen für die Koordinaten).
  • Insbesondere können alle möglichen Paare von in beiden Dokumenten vorkommenden Wörtern unter Verwendung eines Zuordnungsverfahrens gegenübergestellt werden. Im Beispiel sind die Wörter, die in beiden Dokumenten mehrfach auftreten: ”Rechnung”, ”Von”, ”Telekom”, ”An”, ”Hofmeier”, ”Festnetz”, ”Internet” und ”Gesamt”. Damit besitzt jeder Vektor 16 (zwei mal acht, je zwei Koordinaten pro gemeinsamem Wort) Dimensionen.
  • In den beiden Dimensionen eines Wortes werden seine x-Koordinate bzw. seine y-Koordinate als Werte verwendet.
  • Für das Beispiel ergeben sich die folgenden Vektoren (links für das Dokument 1, rechts für das Dokument 2):
    Figure DE102012025349A1_0007
  • Schritt 4: Berechnen einer Koordinatendistanz
  • Die Koordinatendistanz zwischen den beiden Dokumenten entspricht dem Cosinus zwischen ihren Koordinatenvektoren. Dieser wird ebenfalls mit der bereits erwähnten Formel berechnet. Im Beispiel ergibt sich dann folgende Koordinatendistanz.
  • Figure DE102012025349A1_0008
  • Schritt 5: Ermittlung der Gesamtdistanz aus Wortdistanz und Koordinatendistanz
  • Die Wortdistanz s und die Koordinatendistanz t werden nun zu einer Gesamtdistanz gemäß der Formel (1 – p)s + p·t verrechnet. Der Parameter p entspricht einer vorgebebenen Konstante kleiner 1.
  • Die Berechnung bedeutet folgendes: Wenn die Wortdistanz einen sehr geringen Wert aufweist (was einer großen Distanz entspricht), dann wird sie stark gewichtet, wenn sie dagegen einen sehr großen Wert aufweist (was einer sehr kleinen Distanz entspricht), darin wird sie gering und die Koordinatendistanz entsprechend stark gewichtet.
  • Im Beispiel ergibt sich folgende Gesamtdistanz: 0.16·0.84 + 0.84·0.99 ≈ 0.96
  • Abstandsberechnung zwischen Dokument 1 (Fig. 2) und Dokument 3 (Fig. 4):
  • Die Abstandsberechnung zwischen Dokument 1 und Dokument 3 erfolgt entsprechend und wird deshalb nur kurz erläutert, um zu erkennen, wie sich das unterschiedliche Layout der beiden Dokumente auf die Distanz auswirkt.
  • Es ergeben sich folgende Wortvektoren:
    Figure DE102012025349A1_0009
  • Damit ergibt sich die Wortdistanz zu:
    Figure DE102012025349A1_0010
  • Es ergeben sich als Koordinatenvektoren
    Figure DE102012025349A1_0011
    und damit die Koordinatendistanz zu
  • Figure DE102012025349A1_0012
  • Die Gesamtdistanz beträgt somit ungefähr 0,74.
  • Weitere Variationsmöglichkeiten:
  • Wenn ein Wort in beiden Dokumenten mehrfach vorkommt, sollte entschieden werden, welche Vorkommen einander im Koordinatenvektor ”gegenübergestellt” (bzw. zugeordnet) werden. Hier ergeben sich beispielsweise die folgenden Varianten:
    • – Das erste Auftreten des Wortes in dem Dokument 1 wird dem ersten Auftreten des Wortes in Dokument 2 zugeordnet. Entsprechend wird das zweite Auftreten des Wortes in dem Dokument 1 dem zweiten Auftreten des Wortes in dem Dokument 2 zugeordnet, etc.
    • – Es wird ein Zuordnungs-Verfahren angewendet, bei dem die Vorkommen des Wortes derart gegenübergestellt werden, dass die Summe der Distanzen zwischen den gegenübergestellten Paaren möglichst klein ist.
    • – Es wird ein Zuordnungs-Verfahren angewendet, bei dem die Vorkommen des Wortes derart gegenübergestellt werden, dass die Summe der Distanzen zwischen den gegenüber gestellten Paaren möglichst groß ist.
  • Eine Variation stellt die Wahl des Parameters p bei der Berechnung der Gesamtdistanz aus der Wort- und der Koordinatendistanz dar. Beispielsweise könnte p = 0,5 (oder jede andere Konstante kleiner eins) gewählt werden.
  • Obwohl die Erfindung im Detail durch das mindestens eine gezeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • A. Huang. Similarity Measures for Text Document Clustering. In J. Holland, A. Nicholas, and D. Brignoli, editors, New Zealand Computer Science Research Student Conference, pages 49–56, April 2008. [0006]

Claims (19)

  1. Verfahren zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument, – bei dem für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmt wird, das Worthäufigkeiten und Koordinaten berücksichtigt, – bei dem anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmt wird.
  2. Verfahren nach Anspruch 1, bei dem die Koordinaten derjenigen Wörter berücksichtigt werden, die in beiden Dokumenten gemeinsam vorkommen.
  3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Vektorraum-Modell bestimmt wird, indem für das erstes Dokument ein erster Vektor und für ein zweites Dokument ein zweiter Vektor bestimmt wird.
  4. Verfahren nach Anspruch 3, bei dem das Maß für die Ähnlichkeit bestimmt wird, indem ein Cosinus zwischen dem ersten und dem zweiten Vektor bestimmt wird.
  5. Verfahren nach einem der Ansprüche 1 oder 2, – bei dem je ein Wortvektor für das erste Dokument und das zweite Dokument bestimmt wird, wobei Elemente der Wortvektoren angeben, ob ein Wort in dem jeweiligen Dokument vorkommt oder nicht; – bei dem eine Wortdistanz zwischen den Dokumenten bestimmt wird, – bei dem je ein Koordinatenvektor für das erste Dokument und das zweite Dokument bestimmt wird, wobei Elemente der Wortvektoren Koordinaten angeben für Wörter, die gemeinsam in den beiden Dokumenten vorkommen, – bei dem eine Koordinatendistanz zwischen den Dokumenten bestimmt wird, – bei dem eine Gesamtdistanz basierend auf der Wortdistanz und der Koordinatendistanz bestimmt wird.
  6. Verfahren nach Anspruch 5, bei dem die Wortdistanz bestimmt wird mittels eines Cosinus zwischen den Wortvektoren.
  7. Verfahren nach einem der Ansprüche 5 oder 6, bei dem die Koordinatendistanz bestimmt wird mittels eines Cosinus zwischen den Koordinatenvektoren.
  8. Verfahren nach einem der Ansprüche 5 bis 7, bei dem die Gesamtdistanz bestimmt wird gemäß (1 – p)s + p·t wobei s die Wortdistanz, t die Koordinatendistanz und p einen vorgebbaren Parameter bezeichnen.
  9. Verfahren nach einem der Ansprüche 5 bis 8, bei dem in beiden Dokumenten mehrfach vorkommende Wörter in dem Koordinatenvektor einander gegenübergestellt werden nach einem der folgenden Mechanismen: – entsprechend ihres Auftretens, – unter Verwendung eines Zuordnungsverfahrens, bei dem diejenigen Wörter gegenübergestellt werden, bei denen die Summe der Abstände zwischen den gegenübergestellten Paaren möglichst klein ist, – unter Verwendung eines Zuordnungsverfahrens, bei dem diejenigen Wörter gegenübergestellt werden, bei denen die Summe der Abstände zwischen den gegenübergestellten Paaren möglichst groß ist.
  10. Verfahren zur Verarbeitung eines elektronischen Dokuments, – bei dem eine übergeordneten Datenbasis zur Extraktion von Informationen basierend auf einem elektronischen Dokument angepasst wird, falls keine zu dem elektronischen Dokument ausreichend ähnlichen Dokumente in der übergeordneten Datenbasis vorhanden sind, – wobei die Ähnlichkeit zwischen dem elektronischen Dokument und in der übergeordneten Datenbank vorhandenen Dokumenten gemäß dem Verfahren nach einem der Ansprüche 1 bis 9 bestimmt wird.
  11. Verfahren nach Anspruch 10, bei dem die übergeordnete Datenbasis angepasst wird, indem das elektronische Dokument oder Merkmale des elektronischen Dokuments der übergeordneten Datenbasis hinzugefügt wird/werden.
  12. Verfahren zur Verarbeitung eines elektronischen Dokuments, – bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, – wobei nur diejenigen Dokumente der übergeordneten Datenbasis verwendet werden, die eine vorgegebene Ähnlichkeit zu dem elektronischen Dokument aufweisen, – wobei die Ähnlichkeit zwischen dem elektronischen Dokument und in der übergeordneten Datenbank vorhandenen Dokumenten gemäß dem Verfahren nach einem der Ansprüche 1 bis 9 bestimmt wird.
  13. Verfahren nach Anspruch 0, bei dem die vorgegebene Ähnlichkeit durch einen Schwellwertvergleich mit einem vorgegebenen Mindest-Ähnlichkeitsmaß bestimmt wird.
  14. Verfahren nach einem der Ansprüche 0 oder 13, bei dem die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, sofern die übergeordnete Datenbasis ähnlichere Dokumente aufweist als eine lokale Datenbasis.
  15. Vorrichtung zur Bestimmung eines Ähnlichkeitsmaßes zwischen einem ersten Dokument und einem zweiten Dokument mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass – für das erste Dokument und für das zweite Dokument ein Vektorraum-Modell bestimmbar ist, das Worthäufigkeiten und Koordinaten berücksichtigt, – anhand des Vektorraum-Modells ein Maß für die Ähnlichkeit zwischen dem ersten und dem zweiten Dokument bestimmbar ist.
  16. Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass die Schritte des Verfahrens gemäß einem der Ansprüche 1 bis 14 durchführbar sind.
  17. System zur Verarbeitung eines elektronischen Dokuments mit mindestens einer Vorrichtung nach einem der Ansprüche 15 oder 16.
  18. Computerprogrammprodukt, das in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des Verfahrens nach einem der Ansprüche 1 bis 14 durchzuführen.
  19. Computerlesbares Speichermedium umfassend von einem Computer ausführbare Anweisungen, die dazu geeignet sind, dass der Computer Schritte des Verfahrens nach einem der Ansprüche 1 bis 14 durchführt.
DE102012025349.4A 2012-12-21 2012-12-21 Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten Active DE102012025349B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102012025349.4A DE102012025349B4 (de) 2012-12-21 2012-12-21 Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
US14/138,407 US20140181124A1 (en) 2012-12-21 2013-12-23 Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102012025349.4A DE102012025349B4 (de) 2012-12-21 2012-12-21 Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten

Publications (2)

Publication Number Publication Date
DE102012025349A1 true DE102012025349A1 (de) 2014-06-26
DE102012025349B4 DE102012025349B4 (de) 2024-05-23

Family

ID=50878364

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102012025349.4A Active DE102012025349B4 (de) 2012-12-21 2012-12-21 Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten

Country Status (2)

Country Link
US (1) US20140181124A1 (de)
DE (1) DE102012025349B4 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208217A1 (en) 2006-03-03 2007-09-06 Acorn Cardiovascular, Inc. Self-adjusting attachment structure for a cardiac support device
JP6301345B2 (ja) 2012-10-12 2018-03-28 マーディル, インコーポレイテッド 心臓治療システムおよび方法
CN109299459B (zh) * 2018-09-17 2023-08-22 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置
US11875112B2 (en) * 2019-03-27 2024-01-16 Robert Bosch Gmbh Method and device for analyzing elements of a text collection, method and device for searching for information in digital data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660819B1 (en) * 2000-07-31 2010-02-09 Alion Science And Technology Corporation System for similar document detection
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
AU2003245016A1 (en) * 2002-07-23 2004-02-09 Quigo Technologies Inc. System and method for automated mapping of keywords and key phrases to documents
JPWO2008053910A1 (ja) * 2006-10-31 2010-02-25 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 語彙空間での語彙の相対位置を求める装置・方法・プログラム
WO2008143116A1 (ja) * 2007-05-17 2008-11-27 So-Ti, Inc. 文書検索装置及び文書検索方法
US7925602B2 (en) * 2007-12-07 2011-04-12 Microsoft Corporation Maximum entropy model classfier that uses gaussian mean values
US20130006996A1 (en) * 2011-06-22 2013-01-03 Google Inc. Clustering E-Mails Using Collaborative Information
US8650196B1 (en) * 2011-09-30 2014-02-11 Google Inc. Clustering documents based on common document selections

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A. Huang. Similarity Measures for Text Document Clustering. In J. Holland, A. Nicholas, and D. Brignoli, editors, New Zealand Computer Science Research Student Conference, pages 49-56, April 2008.
BERRY, Michael W.; DRMAC, Zlatko; JESSUP, Elizabeth R. Matrices, vector spaces, and information retrieval. SIAM review, 1999, 41. Jg., Nr. 2, S. 335-362. [online] doi: 10.1137/S0036144598347035 *
ESSER, Daniel, et al. Automatic Indexing of Scanned Documents-a Layout-based Approach. Document Recognition and Retrieval XIX (DRR). In: Proc. SPIE 8297 (January 23, 2012) [online] doi: 10.1117/12.908542. *
HU, Jianying; KASHI, Ramanujan; WILFONG, Gordon. Document image layout comparison and classification. In: Document Analysis and Recognition, 1999. ICDAR'99. Proceedings of the Fifth International Conference on. IEEE, 1999. S. 285-288. doi: 10.1109/ICDAR.1999.791780 *

Also Published As

Publication number Publication date
DE102012025349B4 (de) 2024-05-23
US20140181124A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
DE60221153T2 (de) Verfahren und vorrichtung für ähnlichkeitssuche und gruppenbildung
DE69617515T2 (de) Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE102017006558A1 (de) Semantische lnstanzebenensegmentierung
DE60127889T2 (de) Verfahren zur Erkennung Doppelbildern in einem automatischen Albensystem
DE102017011262A1 (de) Themenverknüpfung und Markierung für dichte Bilder
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE10134899A1 (de) Themenbezogenes System und Verfahren zur Klassifizierung von Dokumentationseinheiten
DE102014204827A1 (de) Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank
WO1998001808A1 (de) Datenbanksystem
DE60004507T2 (de) Schnelle gruppierung durch spärlich bestückte datensätze
DE60217748T2 (de) Verfahren und Gerät zur Anzeige eines Bildraumes
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE202022002901U1 (de) Text-Bild-Layout Transformer (TILT)
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE112021001743T5 (de) Vektoreinbettungsmodelle für relationale tabellen mit null- oder äquivalenten werten
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
DE102014207874A1 (de) Verfahren zur automatisierten Erstellung eines eine technische Zeichnung charakterisierenden Datensatzes
EP2601594A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE102014116117A1 (de) Verfahren und System zum Mining von Mustern in einem Datensatz
DE102012025351B4 (de) Verarbeitung eines elektronischen Dokuments
DE102019127622B4 (de) Abwehrgenerator, Verfahren zur Verhinderung eines Angriffs auf eine KI-Einheit und computerlesbares-Speichermedium
EP2642749B1 (de) Vorrichtung und Verfahren zur Optimierung der Bestimmung von Aufnahmebereichen
DE102019217952A1 (de) Verfahren und Vorrichtung zum Bereitstellen eines Trainingsdatensatzes zum Trainieren einer KI-Funktion auf eine unbekannte Datendomäne

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017270000

Ipc: G06F0040200000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0040200000

Ipc: G06F0016350000

R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division