DE102012025351B4 - Verarbeitung eines elektronischen Dokuments - Google Patents

Verarbeitung eines elektronischen Dokuments Download PDF

Info

Publication number
DE102012025351B4
DE102012025351B4 DE102012025351.6A DE102012025351A DE102012025351B4 DE 102012025351 B4 DE102012025351 B4 DE 102012025351B4 DE 102012025351 A DE102012025351 A DE 102012025351A DE 102012025351 B4 DE102012025351 B4 DE 102012025351B4
Authority
DE
Germany
Prior art keywords
document
extraction
database
quality
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102012025351.6A
Other languages
English (en)
Other versions
DE102012025351A1 (de
Inventor
Daniel Schuster
Klemens Muthmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DocuWare GmbH
Original Assignee
DocuWare GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DocuWare GmbH filed Critical DocuWare GmbH
Priority to DE102012025351.6A priority Critical patent/DE102012025351B4/de
Priority to US14/138,401 priority patent/US10255357B2/en
Publication of DE102012025351A1 publication Critical patent/DE102012025351A1/de
Application granted granted Critical
Publication of DE102012025351B4 publication Critical patent/DE102012025351B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general

Abstract

Es wird ein Verfahren zur Verarbeitung eines elektronischen Dokuments vorgeschlagen, bei dem eine lokale Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird und bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls eine vorgegebene Bedingung erfüllt ist. Weiterhin werden entsprechend Vorrichtung, Computerprogrammprodukt sowie Speichermedium angegeben.

Description

  • Die Erfindung betrifft die Verarbeitung eines elektronischen Dokuments, insbesondere die Extraktion von Informationen aus einem elektronischen Dokument.
  • [Hanke, M.; et al.: „Continuous user feedback learning for data capture from business documents"; In: Hybrid Artificial Intelligent Systems, 7th International Conference, HAIS 2012, Salamanca, Spain, March 28-30th, 2012; Proceedings, Part II. Springer Berlin Heidelberg, 2012; S. 538-549] beschreibt kontinuierliches Lernen von Benutzer-Feedback zur Datenerfassung aus Geschäftsdokumenten.
  • [Hu, J.; et al.: „Document image layout comparison and classification"; In: Document Analysis and Recognition, 1999, ICDAR'99; Proceedings of the Fifth International Conference on. IEEE, 1999; S. 285-288] betrifft Funktionen und Methoden für den Vergleich und die Klassifizierung von Dokumentbildern auf der Ebene des räumlichen Layouts.
  • [Leymann, F.; et al.: „Web services and business process management"; IBM systems Journal, 2002, Vol. 41(2): 198-211] bezieht sich auf die Verwaltung von Webdiensten und Geschäftsprozessen.
  • US 7,609 889 B2 betrifft auf Webdienstanwendungen basierendes optisches Zeichenerkennungssystem und -verfahren.
  • [Goto, H.: „OCRGrid: A platform for distributed and cooperative OCR systems“; In: 18th International Conference on Pattern Recognition (ICPR'06); IEEE, 2006, S. 982-985] beschreibt eine Plattform für verteilte und kooperative OCR-Systeme.
  • Es sind unterschiedliche Verfahren zur Texterkennung (auch bezeichnet als optische Zeichenerkennung, OCR für „Optical Character Recognition“) bekannt, anhand derer automatisiert eine Texterkennung innerhalb von Bildern durchgeführt werden kann. Bei den Bildern handelt es sich z.B. um elektronisch eingescannte Dokumente, deren Inhalt weiter analysiert werden soll.
  • Bei den Dokumenten kann es sich um elektronische Dokumente, z.B. um elektronisch verarbeitete, vorverarbeitete oder verarbeitbare Dokumente handeln. Der Ansatz ist z.B. anwendbar bei Anwendungen, die ein Dokumentenmanagement bzw. eine Dokumentenarchivierung z.B. von Geschäftsdokumenten betreffen, kann aber auch für andere Arten der Datenextraktion, z.B. eine Extraktion von Informationen aus abfotografierten Kassenbons und anderen Kleindokumenten angewendet werden.
  • Insbesondere basiert der vorliegende Ansatz auf einer Extraktion von Daten aus elektronischen Dokumenten, deren Genauigkeit anhand von Rückmeldungen (auch bezeichnet als Feedback) von mindestens einem Benutzer verbessert werden kann.
  • Existierende Dienste zur Datenextraktion oder Informationsextraktion aus Dokumenten arbeiten entweder mit globalen oder lokalen Modellräumen. Lokale Modellräume haben den Vorteil, dass sie domänenspezifisch angelernt werden können und somit genau auf den jeweiligen Nutzer zugeschnittene Ergebnisse liefern. Allerdings erfordert ein lokaler Ansatz vor allem in der Startphase bei einer geringen Anzahl vorhandener Trainingsdokumente einen hohen Trainingsaufwand. Bei einem globalen Modellraum für alle Nutzer profitieren andere Nutzer vor allem am Anfang, sofern sie noch wenige eigene Dokumente extrahiert haben, von der bereits geleisteten manuellen Indexierungsarbeit (auch bezeichnet als Training) anderer Nutzer. Allerdings bietet der globale Ansatz langfristig eine niedrigere Extraktionsrate, da die Trennungsunschärfe zwischen den verschiedenen Trainingsdokumenten zunimmt. Eine Clusterung bzw. Typklassifikation der Dokumente wird dadurch schwieriger. Des Weiteren steigt mit der Anzahl der Trainingsdokumente unter Umständen (je nach eingesetzter Extraktionsmethode) die Antwortzeit des Systems. Auch ist es ein Nachteil, dass die Trainingsdaten der anderen Nutzer einem aktuellen Nutzer zur Verfügung gestellt werden und somit die Vertraulichkeit der Extraktionsdaten anderer Nutzer nicht gewährleistet ist.
  • Die Aufgabe der Erfindung besteht darin, die vorstehend genannten Nachteile zu vermeiden und es insbesondere zu ermöglichen, Datenextraktionsdienste vorteilhaft so zu nutzen, dass verbesserte Extraktionsergebnisse erreicht werden.
  • Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesondere den abhängigen Ansprüchen entnehmbar.
  • Zur Lösung der Aufgabe wird ein Verfahren angegeben zur Verarbeitung eines elektronischen Dokuments,
    • - bei dem eine lokale Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird und
    • - bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls eine vorgegebene Bedingung erfüllt ist.
  • Bei der lokalen Datenbasis kann es sich um einen lokalen Modellraum, insbesondere realisiert als eine Datenbank, handeln. Die lokale sowie die übergeordnete Datenbasis kann bereits klassifizierte Dokumente, Dokumenttypen, Rückmeldungen des Benutzers, Datenfelder, Werte zu Datenfeldern, etc. umfassen.
  • Die übergeordnete Datenbasis kann eine Datenbasis einer weiteren physikalischen oder logischen Einheit sein, die von einer ersten Einheit, die die lokale Datenbasis umfasst, getrennt ausgeführt sein kann.
  • Insbesondere können mehrere übergeordnete Datenbasen vorgesehen sein, die hierarchisch angeordnet sind; dementsprechend kann der vorliegende Vorschlag mehrfach hintereinander ausgeführt werden, um über mehrere Hierarchieebenen hinweg ein ausreichend gutes Extraktionsergebnis für das Dokument zu erhalten.
  • Ein besonderer Vorteil der vorgestellten Lösung besteht darin, dass in einem ersten Schritt die lokale Datenbasis genutzt wird und somit das bereits lokal vorhandene Material (Dokumente, Klassifikationen, Felder, Werte, Koordinaten, etc.) genutzt wird, um ein möglichst gutes Klassifikationsergebnis zu erzeugen; dies ist vor allem für solche Dokumenttypen zu erwarten, die schon oft extrahiert wurden und für die dementsprechend in der lokalen Datenbasis umfangreiches Extraktionswissen gespeichert ist. Wenn kein ausreichendes Extraktionswissen lokal gefunden wird, nutzt die Eskalation in der übergeordneten Datenbasis die dort vorrätigen Informationen, die ggf. von einer anderen Organisationsstruktur und/oder von einem anderen Extraktionsdienst stammen.
  • Zusätzlich oder alternativ ist es möglich, eine der Datenbasen abzufragen und anhand der Extraktionsergebnisse (Trustwerte) zu entscheiden, welches Ergebnis verwendet werden soll.
  • Die vorliegende Lösung ermöglicht es, dass ein aktueller Nutzer insbesondere von bereits durchgeführten Extraktionsergebnissen, z.B. veranlasst oder durchgeführt von anderen Nutzern oder Prozessen, profitiert, indem dadurch die Extraktionsergebnisse für den aktuellen Nutzer verbessert oder eben erst ermöglicht werden.
  • Beispielsweise können Dienste zur Extraktion in elektronischen Dokumenten (Datenextraktionsdienste und/oder durch die Datenextraktionsdienste verwaltete Modellräume mit Trainingsdokumenten) in einer frei definierbaren Hierarchie zusammengeschaltet werden, insbesondere ohne dass der aktuelle Nutzer Rückschlüsse auf die Inhalte der Dokumente der anderen Nutzer ziehen kann. Damit ist die Vertraulichkeit der Inhalte gewährleistet und es können dennoch die bereits durchgeführten Extraktionsergebnisse verwendet werden.
  • Bei der Bildung der Hierarchien können beispielsweise Organisationsstrukturen repräsentiert werden als auch technische Gegebenheiten (datenschutzrechtliche Bestimmungen, etc.).
  • Eine Weiterbildung ist es, dass die vorgegebene Bedingung umfasst, dass die Extraktion von Informationen mittels der lokalen Datenbasis keine oder keine ausreichend guten Ergebnisse liefert.
  • Soll ein Dokument verarbeitet werden, für das die Extraktion mittels der lokalen Datenbasis keine befriedigenden Ergebnisse liefert, so wird in einem nächsten Schritt die übergeordnete Datenbasis zur Extraktion genutzt.
  • Eine andere Weiterbildung ist es, dass die vorgegebene Bedingung umfasst, dass in der lokalen Datenbasis nicht ausreichend viele oder nicht ausreichend ähnliche Trainingsdokumente zur Verfügung stehen.
  • Beispielsweise können solche Trainingsdokumente bereits extrahierte und in der lokalen Datenbasis gespeicherte Trainingsinformationen, z.B. Dokumente, Merkmale, Feedback von Nutzern, Felder, Inhalte von Feldern, Dokumenttypen, etc. umfassen. Sind für das zu extrahierende elektronische Dokument nicht ausreichend Trainingsdokumente in der lokalen Datenbasis verfügbar, wird somit die übergeordnete Datenbasis genutzt.
  • Insbesondere ist es eine Weiterbildung, dass die vorgegebene Bedingung umfasst,
    • - dass eine Güte bestimmt wird für die Extraktion von Informationen mittels der lokalen Datenbasis,
    • - dass die Güte mit einem vorgegebene Schwellwert verglichen wird und
    • - dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls die Güte nicht den vorgegebenen Schwellwert erreicht.
  • Falls somit die mittels der lokalen Datenbasis durchgeführte Extraktion schlechter ist als sie aufgrund der vorgegebenen Güte sein sollte, wird die übergeordnete Datenbasis genutzt.
  • Auch ist es eine Weiterbildung, dass die übergeordnete Datenbasis zur Extraktion genutzt wird, indem das elektronische Dokument an die übergeordnete Datenbasis übermittelt und die extrahierte Information von der übergeordneten Datenbasis zurückgeliefert wird.
  • Die Nutzung der übergeordneten Datenbasis kann erfolgen, indem eine Nachricht umfassend z.B. das Dokument an die weitere Einheit geschickt wird. Auch kann die Nachricht Merkmale oder Teile des Dokuments umfassen.
  • Ferner ist es eine Weiterbildung, dass mindestens ein Extraktionsalgorithmus zur Extraktion von Informationen des Dokuments genutzt wird.
  • Im Rahmen einer zusätzlichen Weiterbildung wird für jeden Extraktionsalgorithmus eine Güte für jeden Extraktionsvorschlag bestimmt.
  • Beispielsweise liefert jeder Extraktionsalgorithmus für jeden Extraktionsvorschlag eine Wertzahl zwischen 0 und 1 (0: Sicherheit der Extraktion ist gering; 1: Sicherheit der Extraktion ist hoch), die die Sicherheit des Algorithmus für das jeweilige Extraktionsergebnis angibt.
  • Eine nächste Weiterbildung besteht darin, dass eine Gesamtgüte ermittelt wird unter Berücksichtigung der zu extrahierenden Felder und unter Berücksichtigung der Güte für jeden Extraktionsvorschlag.
  • Insbesondere kann eine Mittelwertbildung über die Güten der Extraktionsvorschläge erfolgen.
  • Eine Ausgestaltung ist es, dass
    • - ein Dokumenttyp mittels eines Verfahrens zur Dokumenttyperkennung bestimmt wird,
    • - mindestens ein Trainingsdokument basierend auf dem erkannten Dokumenttyp ermittelt wird und
    • - die Extraktion von Informationen des Dokuments mittels des mindestens einen Trainingsdokuments durchgeführt wird.
  • Falls der Dokumenttyp nicht bekannt ist, kann entweder eine reduzierte Liste häufig verwendeter Felder über alle Dokumenttypen genutzt werden oder es kann die Eskalationsstrategie genutzt werden, ggf. die übergeordnete Datenbasis (den übergeordneten Modellraum) zur Extraktion einzusetzen.
  • Eine alternative Ausführungsform besteht darin, dass zur Extraktion von Informationen aus dem Dokument Informationen darüber genutzt werden, welche Felder extrahiert werden sollen.
  • Eine nächste Ausgestaltung ist es, dass die Informationen darüber, welche Felder extrahiert werden sollen, anhand von mindestens einem Trainingsdokument bestimmt werden.
  • Beispielsweise kann für jeden Dokumententyp (Rechnung, Lieferschein, etc.) die Häufigkeit des Auftretens einzelner Felder in den Trainingsdokumenten erfasst werden. Anhand dieser Informationen kann für jeden Dokumententyp eine aktuelle Liste der gebräuchlichsten Datenfelder bestimmt werden. Anhand der gebräuchlichsten Datenfelder kann bestimmt werden, welche Felder bzw. Informationen aus dem Dokument anhand der Datenbasis gefunden und/oder extrahiert werden können.
  • Auch ist es eine Ausgestaltung, dass eine manuelle Klassifikation durch einen Nutzer durchgeführt wird, falls die Extraktion durch die übergeordnete Datenbasis nicht eine erforderliche Gesamtextraktionsgüte erreicht hat.
  • Eine Weiterbildung besteht darin, dass die Klassifikation durch den Benutzer eine Markierung mindestens eines alphanumerischen Zeichens, insbesondere mindestens eines Wortes, in dem elektronischen Dokument umfasst.
  • Eine zusätzliche Ausgestaltung ist es, dass die lokale Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
  • Eine andere Ausgestaltung ist es, dass die übergeordnete Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
  • Auch ist es eine Möglichkeit, dass die lokale Datenbasis und/oder die übergeordnete Datenbasis einen Verdrängungsmechanismus aufweist, anhand dessen eine Bereinigung durchgeführt wird, falls eine Vielzahl von gleichartigen Trainingsdokumenten vorhanden ist.
  • Beispielsweise können ähnliche oder gleiche Trainingsdokumente bis auf eines gelöscht werden.
  • Die vorstehend genannte Aufgabe wird auch gelöst durch eine Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass
    • - eine lokale Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist und
    • - eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist, falls eine vorgegebene Bedingung erfüllt ist.
  • Die hier genannte Verarbeitungseinheit kann insbesondere als eine Prozessoreinheit, ein Computer oder ein verteiltes System von Prozessoreinheiten oder Computern ausgeführt sein. Insbesondere kann die Verarbeitungseinheit Rechner aufweisen, die über eine Netzwerkverbindung, z.B. über das Internet, miteinander verbunden sind.
  • Die Datenbasis kann eine Datenbank oder ein Datenbankmanagementsystem sein oder umfassen.
  • Insbesondere kann die Verarbeitungseinheit jede Art von Prozessor oder Rechner oder Computer mit entsprechend notwendiger Peripherie (Speicher, Input/Output-Schnittstellen, Ein-Ausgabe-Geräte, etc.) sein oder umfassen.
  • Die vorstehenden Erläuterungen betreffend das Verfahren gelten für die Vorrichtung entsprechend. Die Vorrichtung kann in einer Komponente oder verteilt in mehreren Komponenten ausgeführt sein.
  • Eine Ausgestaltung besteht darin, dass die Vorrichtung die lokale Datenbasis und/oder die übergeordnete Datenbasis umfasst.
  • Auch wird die oben genannte Aufgabe gelöst mittels eines Systems umfassend mindestens eine der hier beschriebenen Vorrichtungen.
  • Die hier vorgestellte Lösung umfasst ferner ein Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen.
  • Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z.B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z.B. in Form von Programmcode), die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt.
  • Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit den Zeichnungen näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleichwirkende Elemente mit gleichen Bezugszeichen versehen sein.
  • Es zeigen:
    • 1 ein schematisches Diagramm, das beispielhaft hierarchisch angeordnete Modellräume veranschaulicht;
    • 2 ein Diagramm, das exemplarisch eine mehrstufige Hierarchie von Modellräumen darstellt;
    • 3 ein Diagramm, dass eine weiterer mehrstufige Hierarchie veranschaulicht unter Einbeziehung der Hierarchie von 2.
  • Der hier vorgestellte Ansatz umfasst bzw. nutzt insbesondere einen Teil der nachfolgend erläuterten Schritte:
    • (1) Vorzugsweise wird eine Architektur, z.B. in Form einer Softwareschnittstelle, angeboten, die einen Dienst (z.B. umfassend einen Datenextraktionsdienst) bereitstellt, der über eine Schnittstelle (z.B. REST, SOAP oder TCP-Sockets) aufgerufen werden kann. Die Schnittstelle akzeptiert als Eingabe z.B. ein elektronisches Dokument (z.B. nach einer OCR-Vorverarbeitung und/oder in Form einer textuellen und/oder grafischen Repräsentation). Bei REST kann eine URL (Uniform Resource Locator, z.B. Link) genau einen Seiteninhalt als Ergebnis einer serverseitigen Aktion (etwa das Anzeigen einer Trefferliste nach einer Suche) darstellen (gemäß Internetstandard HTTP für statische Inhalte, Permalink). Vorteilhaft lassen sich URLs aus dem Webbrowser als Lesezeichen ablegen und zu einem beliebigen späteren Zeitpunkt wieder aufrufen. Die URLs können auch an Dritte weitergegeben werden und von diesen aufgerufen werden, um dieselbe Aktion, z.B. eine Suche, auszulösen (vergleiche z.B.: http://de.wikipedia.org/wiki/Representational_State_Transfer, http://de.wikipedia.org/wiki/SOAP bzw. http://de.wikipedia.org/wiki/Socket_%28Software%29). Eine Programmierschnittstelle (API: Application Programming Interface) kann auch mit SOAP oder TCP-Sockets realisiert werden.
    • (2) Der unter (1) genannte Dienst führt für mindestens ein elektronisches Dokument mindestens einen Datenextraktionsalgorithmus aus und gibt als Ergebnis Datenfelder mit den aus dem Dokument extrahierten Werten zurück (z.B. Sender: „Firma ABC“, Datum: „31.12.2011“, etc.).
    • (3) Jeder Dienst kann mindestens einen Modellraum zur Verfügung stellen, in dem durch den Nutzer Trainingsbeispiele (z.B. in Form von bereits klassifizierten elektronischen Dokumenten) für eine nutzerspezifische Anpassung und Verbesserung der Datenextraktion abgelegt werden können. Allgemein kann der Modellraum durch eine Datenbasis, z.B. in Form einer Datenbank, realisiert bzw. bereitgestellt werden. Ein Trainingsbeispiel umfasst z.B.
      • - ein Trainingsdokument in mindestens einer Repräsentation (z.B. als ein OCR-vorverarbeitetes Dokument, dessen Inhalt zumindest teilweise in Form elektronisch erkennbarer und verarbeitbarer Zeichen vorliegt, grafisch, etc.),
      • - von dem Nutzer eingegebene Datenfelder,
      • - Werte dieser Datenfelder und/oder
      • - Positionen der Datenfelder oder der die Datenfelder umgebenden Rechtecke.
      Die Positionen beziehen sich beispielsweise auf Koordinaten innerhalb der grafischen Repräsentation des Trainingsdokuments.
    • (4) Vorzugsweise erfolgt eine Zusammenschaltung in Hierarchien, indem ausgewählte Dokumente (und/oder Teile davon, insbesondere Informationen betreffend mindestens ein Dokument) und/oder Feedback des Nutzers (bzw. mehrerer Nutzer) über den aktuellen Modellraum hinaus an mindestens einen übergeordneten Modellraum weitergebenen werden. Die Weitergabe erfolgt beispielsweise über eine der in (1) bezeichneten Schnittstellen. Vorzugsweise werden Dokumente einer Hierarchie an die darüber liegende nächsthöhere Hierarchieebene (Sammelstufe, übergeordneter Modellraum) weitergegeben. An eine darunterliegende Hierarchieebene werden auf Anfrage von dieser Hierarchieebene beispielsweise die unter (2) genannten Ergebnisse des Dienstes für ein Testdokument gegeben. Dadurch ist sichergestellt, dass zwischen Organisationen keine Dokumente bzw. Inhalte der Dokumente ausgetauscht werden und dennoch verschiedene Organisationen einen gemeinsamen übergeordneten Modellraum nutzen können.
    • (5) Beispielsweise kann im Anschluss an die Datenextraktion, z.B. eine lokale Datenextraktion in einer lokalen Datenbasis oder der (wenig erfolgreiche oder erfolglose) Versuch einer solchen lokalen Datenextraktion, eine Eskalationsstrategie für Dokumente eingesetzt werden. Dies ist besonders dann von Vorteil, wenn für einen Modellraum ein in der Hierarchie übergeordneter Modellraum vorhanden ist. Gemäß der Eskalationsstrategie wird beispielsweise zunächst entschieden, ob das Dokument zusätzlich in der Hierarchie nach oben gegeben wird, um dort eine Datenextraktion durchzuführen. Dies ist besonders dann von Vorteil, wenn die nächsthöhere Hierarchieebene über eine größere Menge an Trainingsdokumenten (ggf. von verschiedenen Organisationen) verfügt und somit ggf. bessere Extraktionsergebnisse liefern kann. Bei der Entscheidung wird z.B. ein Kompromiss zwischen einer Verbesserung der Extraktionsergebnisse (indem das Dokumente an die nächsthöhere Hierarchieebene weitergegeben wird) und einer Vermeidung unnötiger Systembelastung bzw. eine verkürzte Antwortzeit bis das Extraktionsergebnis bereitgestellt werden kann (für den Fall dass das Dokument nicht an die nächsthöhere Hierarchieebene weitergegeben wird) berücksichtigt.
    • (6) Die Eskalationsstrategie für Dokumente beruht z.B. auf einer Qualität der von dem lokalen Extraktionsprozess gelieferten Ergebnisse. Beispielsweise liefert jeder Extraktionsalgorithmus für jeden Extraktionsvorschlag eine Wertzahl zwischen 0 und 1 (0: Sicherheit der Extraktion ist gering; 1: Sicherheit der Extraktion ist hoch), die die Sicherheit des Algorithmus für das jeweilige Extraktionsergebnis angibt.
    • (7) Neben den Wertzahlen für die einzelnen extrahierten Felder (bzw. die extrahierten Werte der Felder) werden Informationen darüber genutzt, welche Felder aus dem Dokument überhaupt extrahiert werden sollen. Hierzu wird beispielsweise eine Datenbank geführt, die für jeden Dokumententyp (Rechnung, Lieferschein, etc.) die Häufigkeit des Auftretens einzelner Felder in den Trainingsdokumenten erfasst. Anhand dieser Informationen kann für jeden Dokumententyp eine aktuelle Liste der gebräuchlichsten Datenfelder bestimmt werden.
    • (8) Es wird beispielsweise eine Gesamtextraktionsgüte bestimmt, indem anhand der lokal durchgeführten Datenextraktion die Informationen aus den Schritten (6) und (7) kombiniert werden. Es wird eine Gesamtwertzahl berechnet, die eine durchschnittliche Konfidenz für die Liste der Felder aus Schritt (7) durch Mittelwertbildung der jeweiligen Wertzahlen für die Felder aus Schritt (6) bestimmt.
    • (9) Der Schritt (8) basiert auf einer möglichst guten Erkennung des Dokumententyps. Es sind Verfahren bekannt, anhand derer eine Dokumenttyp-Klassifikation mit hoher Sicherheit durchführbar ist. Diesbezüglich sei beispielsweise verwiesen auf [Hu, J., Kashi, R., and Wilfong, G., „Comparison and classification of documents based on layout similarity", Information Retrieval 2 (2), 227-243 (2000)] oder [Daniel Esser, Daniel Schuster, Klemens Muthmann, Michael Berger and Alexander Schill, „Automatic Indexing of Scanned Documents - a Layout-based Approach", IS&T/SPIE Document Recognition and Retrieval XIX (DRR 2012), San Francisco, CA, USA, 2012]. Falls der Dokumenttyp nicht bekannt ist, kann entweder eine reduzierte Liste häufig verwendeter Felder über alle Dokumenttypen genutzt werden oder es kann die Eskalationsstrategie durchgeführt oder abgewiesen werden.
    • (10) Die Entscheidung für oder gegen die Eskalationsstrategie des Dokuments kann z.B. getroffen werden, indem die in Schritt (8) ermittelte Gesamtextraktionsgüte mit einem vorab definierten Schwellwert verglichen wird. Dieser Schwellwert kann z.B. durch automatisierte Tests mit einem klassifizierten Dokumentenkorpus ermittelt werden oder auf eine sonstige Art vorgegeben sein. Alternativ oder zusätzlich könnte eine Eskalationsstrategie eingesetzt werden, indem z.B. dann, wenn die Ähnlichkeit der Trainingsdokumente im lokalen Modellraum zum aktuellen Dokument (Extraktionsdokument) zu gering ist, das Dokument an den übergeordneten Modellraum übergeben wird.
    • (11) Soll die Eskalation angewandt werden, so wird das Dokument an den übergeordneten Modellraum zur Datenextraktion übergeben. Die Ergebnisse der Datenextraktion werden an den lokalen Modellraum zurückgeliefert. Bei mehrstufigen Hierarchien erfolgt ggf. eine Weiterleitung über mehrere Hierarchieebenen.
    • (12) Für den Fall, dass die vom übergeordneten Modellraum gelieferten Ergebnisse immer noch nicht der erforderlichen Gesamtextraktionsgüte gemäß (8) bzw. (10) entsprechen, wird das Dokument dem Nutzer zur manuellen Beurteilung bzw. Klassifikation vorgelegt. Hierbei sei angemerkt, dass auch in den sonstigen Fällen das Dokument dem Nutzer zur manuellen Beurteilung bzw. Klassifikation vorgelegt werden kann. Der Nutzer kann daraufhin ein Trainingsbeispiel gemäß (3) erstellen, das an den lokalen Modellraum übergeben wird. Das Trainingsbeispiel wird gemäß einer Strategie zur Eskalation betreffend die Rückmeldung des Nutzers (siehe (14)) bewertet und ggf. an den übergeordneten Modellraum übergeben.
    • (13) Für den Fall, dass nach (11) und der erneuten Prüfung der Ergebnisse des übergeordneten Modellraums gemäß (8) bzw. (10) festgestellt wird, dass die Ergebnisse die geforderte Gesamtextraktionsgüte erfüllen, werden diese an den Nutzer zurückgegeben. Jetzt kann entschieden werden, ob die Ergebnisse des übergeordneten Modellraums zusammen mit dem lokal vorliegenden Testdokument als Trainingsdaten in den lokalen Modellraum aufgenommen werden sollen. Diese Entscheidung kann von verschiedenen Einflussfaktoren, z.B. von einer Anzahl gleichartiger Trainingsdokumente, einer Gesamtzahl Trainingsdokumente, einer durchschnittlichen Extraktionsgüte, etc. abhängig sein
    • (14) Die Eskalationsentscheidung für das Einholen von (ggf. zusätzlichem) Nutzerfeedback nach (12) ist ähnlich wie die Entscheidung gemäß (13) von einer Vielzahl von Faktoren abhängig, z.B. einer Häufigkeit gleichartiger Trainingsdokumente, einer Gesamtextraktionsgüte des übergeordneten Modellraums für das vorliegende Testdokument, etc. Ein möglicher Ansatz ist es, das Nutzerfeedback gemäß (12) immer an den übergeordneten Modellraum weiterzuleiten, wobei der übergeordnete Modellraum ggf. eigenständig mittels geeigneter Verdrängungsmechanismen eine Bereinigung durchführt, wenn zu viele gleichartige Trainingsdokumente vorhanden sind.
  • 1 zeigt beispielhaft zwei hierarchisch angeordnete Modellräume. Das Verfahren lässt sich auf eine beliebige Hierarchie von Modellräumen entsprechend den Darstellungen gemäß 2 bzw. 3 erweitern. Vorzugsweise werden dann in den übergeordneten Modellräumen Verdrängungsstrategien eingesetzt, um für die Extraktion selten genutzte Trainingsdokumente zu entfernen. Insbesondere kann Schritt (11) dahingehend erweitert werden, dass eine Aufrufkette mit mehreren übergeordneten Modellräumen entsteht. Auf diese Weise ergibt sich ein selbstregulierendes System, dass es ermöglicht, dass verschiedene Nutzer gegenseitig von manuellen Klassifikationen profitieren, ohne dass die Trainingsdokumente selbst ausgetauscht werden müssten.
  • Gemäß 1 wird ein Dokument 102 beispielhaft zur Extraktion bzw. Klassifikation einem Modellraum 103 der Firma A zugeführt. Der Modellraum 103 leitet das Dokument 102 an einen übergeordneten Modellraum 101 weiter, in dem die Extraktion durchgeführt werden soll. In einem Schritt 105 wird kein passendes Dokument zu dem Dokument 102 gefunden und dies als „kein Ergebnis“ 106 über den Modellraum 103 an den Nutzer zurückgemeldet. Der Nutzer gibt Feedback 108 zu dem Dokument 102, indem er z.B. eine manuelle oder teilweise automatisierte Klassifikation von Datenfeldern und Werten vornimmt und an den Modellraum 103 übermittelt. Der Modellraum 103 leitet das Feedback 108 an den übergeordneten Modellraum 101 weiter, dort wird das Dokument 102 sowie das Feedback 108 z.B. einer Datenbank hinzugefügt, damit nachfolgende Extraktionsmechanismen auch basierend auf diesem Dokument 102 eine automatische oder automatisierte Informationsextraktion durchführen können.
  • Weiterhin wird ein Dokument 111, das vom Typ des Dokuments 102 ist (z.B. können beide Rechnungen des gleichen Rechnungsstellers sein), zur Extraktion bzw. Klassifikation einem Modellraum 112 der Firma B zugeführt. Der Modellraum 112 leitet das Dokument 111 an den übergeordneten Modellraum 101 weiter, in dem die Extraktion durchgeführt werden soll. In einem Schritt 114 wird ein passendes Dokument zu dem Dokument 111 gefunden, nämlich das zuvor gespeicherte Dokument 102 und ein darauf basierendes Extraktionsergebnis 115 über den Modellraum 112 an den Nutzer zurückgemeldet. Der Nutzer akzeptiert das Ergebnis in einem Schritt 117. Optional kann daraufhin in einem Schritt 118 auch das Dokument 111 an den übergeordneten Modellraum 101 weitergeleitet und dort - ggf. zusammen mit dem Extraktionsergebnis 115 - dem Modellraum 101 hinzugefügt werden.
  • Hierbei sei angemerkt, dass hier beispielhaft die Modellräume 103 und 112 selbst zur Veranschaulichung der Zusammenarbeit mit dem übergeordneten Modellraum 101 keine Extraktion durchführen, z.B. weil lokal keine verwertbaren Dokumente oder Dokumenttypen vorliegen. Die Modellräume werden auch als Datenbasen bezeichnet.
  • 2 zeigt ein Beispiel einer mehrstufigen Hierarchie 201 einer Firma A mit mehreren Modellräumen 202 bis 207, wobei die Modellräume durch ihre hierarchische Anordnung unterschiedliche Eskalationsmechanismen bereitstellen. Der Modellraum 206 betrifft einen Standort I und der Modellraum 207 betrifft einen Standort II der Firma A, beide können als übergeordneten Modellraum 205 den Modellraum der Firma A für Deutschland nutzen. Weiterhin sind der Modellraum 203, die (weltweite) Buchhaltung der Firma A, und der Modellraum 204 der Firma A für Italien vorgesehen, die zusammen mit dem Modellraum 205 den übergeordneten Modellraum 202 der Firma A (auf internationaler Ebene) nutzen können. Somit kann die Eskalationsstrategie berücksichtigen, dass für den Fall, dass ein Dokument lokal nicht automatisch (mit einer vorgegebenen Güte) extrahiert werden kann, der jeweils übergeordnete Modellraum genutzt wird. Dies kann mehrfach hintereinander erfolgen, solange noch ein übergeordneter Modellraum existiert und das Extraktionsergebnis nicht ausreichend gut war bzw. kein Ergebnis liefern konnte.
  • 3 zeigt beispielhaft ein Diagramm mit einer weiteren Eskalationsstufe. Die mehrstufige Hierarchie 210 ist hier Teil der Darstellung und parallel zu einem (ggf. mehrstufigen) Modellraum 302 einer Firma B sowie zu einem (ggf. mehrstufigen) Modellraum 303 einer Universität angeordnet. Weiterhin ist ein zu den Modellräumen 201, 302 und 303 übergeordneter Modellraum oder Extraktionsservice 301 dargestellt, wie er beispielsweise von einem Anbieter einer Extraktionsdienstleistung bereitgestellt werden kann. Der Extraktionsservice 301 kann z.B. sicherstellen, dass die Firma A eine Extraktion von Informationen durchführt unter Ausnutzung bereits extrahierter Informationen aus Dokumenten der Firma B, wobei die Inhalte der Dokumente der Firma B für die Firma A (und umgekehrt) nicht sichtbar sind. Damit kann die Vertraulichkeit der Inhalte von dem Extraktionsservice 301 gewährleistet werden. Die Mechanismen der Extraktion umfassend z.B. die Datenfelder mit zugehörigen Positionen der zugeordneten Werte können jedoch über die Firmengrenzen bzw. Organisationsgrenzen hinweg zugänglich und nutzbar gemacht werden.
  • Die vorgestellte Lösung ermöglicht es somit, übergeordnete Modellräume nach ihrem Wissen zu bestimmten Dokumenten zu befragen. Lokal kann mittels eines Vergleichs mit einer vorgegeben bzw. zu erreichenden Extraktionsgüte bestimmt werden, ob eine Eskalationsstrategie greifen soll oder nicht: Ist die lokal erzielbare Extraktionsgüte beispielsweise nicht gut genug, kann auf übergeordnete Modellräume mittels Anfragen zugegriffen werden. Andererseits wird durch Einstellung der zu erreichenden Extraktionsgüte wirksam sichergestellt, dass die übergeordneten Modellräume nicht durch einer Vielzahl von Anfragen überlastet werden. Die Einstellung der Extraktionsgüte kann z.B. dynamisch erfolgen und somit die Belastbarkeit und/oder eine Belastbarkeitsvorgabe des Systems berücksichtigen. Damit ist im Ergebnis eine effektive kooperative Datenextraktion in einem verteilten Ansatz möglich.
  • Der Ansatz ermöglicht eine kontinuierliche Anpassung des für die Datenextraktion benötigten Wissens in einem Verbund von Datenextraktionsdiensten. Dadurch kann sich ein System einerseits schnell auf geänderte oder neue Dokumenttypen oder Häufigkeiten bestimmter Dokumenttypen einstellen und andererseits bietet das System weiterhin die Vorteile lokaler Datenextraktion durch eine hohe Extraktionsgüte bei geringen Antwortzeiten und die Möglichkeit des domänenabhängigen Trainings.
  • Obwohl die Erfindung im Detail durch das mindestens eine gezeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.

Claims (20)

  1. Verfahren zur Verarbeitung eines elektronischen Dokuments, - bei dem eine lokale Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird und - bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls eine vorgegebene Bedingung erfüllt ist, wobei die vorgegeben Bedingung umfasst: - dass eine Güte bestimmt wird für die Extraktion von Informationen mittels der lokalen Datenbasis, - dass die Güte mit einem vorgegebenen Schwellwert verglichen wird und - dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls die Güte nicht den vorgegebenen Schwellwert erreicht. - wobei die übergeordnete Datenbasis und die lokale Datenbasis voneinander getrennte physikalische Einheiten darstellen.
  2. Verfahren nach Anspruch 1, bei dem die vorgegebene Bedingung umfasst, dass die Extraktion von Informationen mittels der lokalen Datenbasis keine Ergebnisse oder keine ausreichend guten Ergebnisse liefert.
  3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die vorgegebene Bedingung umfasst, dass in der lokalen Datenbasis nicht ausreichend viele oder nicht ausreichend ähnliche Trainingsdokumente zur Verfügung stehen.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die übergeordnete Datenbasis zur Extraktion genutzt wird, indem das elektronische Dokument an die übergeordnete Datenbasis übermittelt und die extrahierte Information von der übergeordneten Datenbasis zurückgeliefert wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem mindestens ein Extraktionsalgorithmus zur Extraktion von Informationen des Dokuments genutzt wird.
  6. Verfahren nach Anspruch 5, bei dem für jeden Extraktionsalgorithmus eine Güte für jeden Extraktionsvorschlag bestimmt wird.
  7. Verfahren nach Anspruch 6, bei dem eine Gesamtgüte ermittelt wird unter Berücksichtigung der zu extrahierenden Felder und unter Berücksichtigung der Güte für jeden Extraktionsvorschlag.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem - ein Dokumenttyp mittels eines Verfahrens zur Dokumenttyperkennung bestimmt wird, - mindestens ein Trainingsdokument basierend auf dem erkannten Dokumenttyp ermittelt wird und - die Extraktion von Informationen des Dokuments mittels des mindestens einen Trainingsdokuments durchgeführt wird.
  9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem zur Extraktion von Informationen aus dem Dokument Informationen darüber genutzt werden, welche Felder extrahiert werden sollen.
  10. Verfahren nach Anspruch 9, bei dem die Informationen darüber, welche Felder extrahiert werden sollen, anhand von mindestens einem Trainingsdokument bestimmt werden.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine manuelle Klassifikation durch einen Nutzer durchgeführt wird, falls die Extraktion durch die übergeordnete Datenbasis nicht eine erforderliche Gesamtextraktionsgüte erreicht hat.
  12. Verfahren nach Anspruch 11, bei dem die Klassifikation durch den Benutzer eine Markierung mindestens eines alphanumerischen Zeichens, insbesondere mindestens eines Wortes, in dem elektronischen Dokument umfasst.
  13. Verfahren nach einem der Ansprüche 11 oder 12, bei dem die lokale Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
  14. Verfahren nach einem der Ansprüche 11 bis 13, bei dem die übergeordnete Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
  15. Verfahren nach einem der Ansprüche 13 oder 14, bei dem die lokale Datenbasis und/oder die übergeordnete Datenbasis einen Verdrängungsmechanismus aufweist, anhand dessen eine Bereinigung durchgeführt wird, falls eine Vielzahl von gleichartigen Trainingsdokumenten vorhanden sind.
  16. Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass - eine lokale Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist und - eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist, falls eine vorgegebene Bedingung erfüllt ist, wobei die vorgegeben Bedingung umfasst: - dass eine Güte bestimmt wird für die Extraktion von Informationen mittels der lokalen Datenbasis, - dass die Güte mit einem vorgegebenen Schwellwert verglichen wird und - dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls die Güte nicht den vorgegebenen Schwellwert erreicht - wobei die übergeordnete Datenbasis und die lokale Datenbasis voneinander getrennte physikalische Einheiten darstellen.
  17. Vorrichtung nach Anspruch 16, bei dem die Vorrichtung die lokale Datenbasis und/oder die übergeordnete Datenbasis umfasst.
  18. System zur Verarbeitung eines elektronischen Dokuments mit mindestens einer Vorrichtung nach einem der Ansprüche 16 oder 17.
  19. Computerprogrammprodukt, das in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des Verfahrens nach einem der Ansprüche 1 bis 15 durchzuführen.
  20. Computerlesbares Speichermedium umfassend von einem Computer ausführbare Anweisungen, die dazu geeignet sind, dass der Computer Schritte des Verfahrens nach einem der Ansprüche 1 bis 15 durchführt.
DE102012025351.6A 2012-12-21 2012-12-21 Verarbeitung eines elektronischen Dokuments Active DE102012025351B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102012025351.6A DE102012025351B4 (de) 2012-12-21 2012-12-21 Verarbeitung eines elektronischen Dokuments
US14/138,401 US10255357B2 (en) 2012-12-21 2013-12-23 Processing of an electronic document, apparatus and system for processing the document, and storage medium containing computer executable instructions for processing the document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102012025351.6A DE102012025351B4 (de) 2012-12-21 2012-12-21 Verarbeitung eines elektronischen Dokuments

Publications (2)

Publication Number Publication Date
DE102012025351A1 DE102012025351A1 (de) 2014-06-26
DE102012025351B4 true DE102012025351B4 (de) 2020-12-24

Family

ID=50878366

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102012025351.6A Active DE102012025351B4 (de) 2012-12-21 2012-12-21 Verarbeitung eines elektronischen Dokuments

Country Status (2)

Country Link
US (1) US10255357B2 (de)
DE (1) DE102012025351B4 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012025351B4 (de) * 2012-12-21 2020-12-24 Docuware Gmbh Verarbeitung eines elektronischen Dokuments
KR20200111270A (ko) 2018-02-17 2020-09-28 웨스팅하우스 일렉트릭 컴퍼니 엘엘씨 암 치료를 위한 치료 전자 방사장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7609889B2 (en) * 2004-04-08 2009-10-27 Canon Kabushiki Kaisha Web service application based optical character recognition system and method

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366714B2 (en) * 2000-03-23 2008-04-29 Albert Krachman Method and system for providing electronic discovery on computer databases and archives using statement analysis to detect false statements and recover relevant data
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US7065532B2 (en) * 2002-10-31 2006-06-20 International Business Machines Corporation System and method for evaluating information aggregates by visualizing associated categories
CN1629838A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览以及信息提取的方法、装置及系统
US20060004627A1 (en) * 2004-06-30 2006-01-05 Shumeet Baluja Advertisements for devices with call functionality, such as mobile phones
US20060053174A1 (en) * 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for data extraction and management in multi-relational ontology creation
US7499591B2 (en) * 2005-03-25 2009-03-03 Hewlett-Packard Development Company, L.P. Document classifiers and methods for document classification
US8688671B2 (en) * 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US8812526B2 (en) * 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US8156128B2 (en) * 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US7734554B2 (en) * 2005-10-27 2010-06-08 Hewlett-Packard Development Company, L.P. Deploying a document classification system
GB2448275A (en) * 2006-01-03 2008-10-08 Kyos Systems Inc Document analysis system for integration of paper records into a searchable electronic database
US20090089315A1 (en) * 2007-09-28 2009-04-02 Tractmanager, Inc. System and method for associating metadata with electronic documents
JP4998219B2 (ja) * 2007-11-09 2012-08-15 富士通株式会社 帳票認識プログラム、帳票認識装置および帳票認識方法
US20090144277A1 (en) * 2007-12-03 2009-06-04 Microsoft Corporation Electronic table of contents entry classification and labeling scheme
US8239387B2 (en) * 2008-02-22 2012-08-07 Yahoo! Inc. Structural clustering and template identification for electronic documents
DK176834B1 (da) * 2008-03-07 2009-11-23 Jala Aps Fremgangsmåde til skanning
US8538941B2 (en) * 2008-07-31 2013-09-17 Adobe Systems Incorporated Visual information search tool
JP5283478B2 (ja) * 2008-10-23 2013-09-04 株式会社日立ソリューションズ 検索システム
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
US20100331043A1 (en) * 2009-06-23 2010-12-30 K-Nfb Reading Technology, Inc. Document and image processing
US8589877B2 (en) * 2009-10-07 2013-11-19 International Business Machines Corporation Modeling and linking documents for packaged software application configuration
US20110258195A1 (en) * 2010-01-15 2011-10-20 Girish Welling Systems and methods for automatically reducing data search space and improving data extraction accuracy using known constraints in a layout of extracted data elements
US8620305B2 (en) * 2010-06-23 2013-12-31 Salesforce.Com, Inc. Methods and systems for a mobile device testing framework
US20140163963A2 (en) * 2010-09-24 2014-06-12 National University Of Singapore Methods and Systems for Automated Text Correction
US8370328B2 (en) * 2011-01-31 2013-02-05 Comsort, Inc. System and method for creating and maintaining a database of disambiguated entity mentions and relations from a corpus of electronic documents
US20130085908A1 (en) * 2011-10-01 2013-04-04 Oracle International Corporation Image entry for mobile expense solutions
US20130226934A1 (en) * 2012-02-27 2013-08-29 Microsoft Corporation Efficient Electronic Document Ranking For Internet Resources in Sub-linear Time
DE102012025351B4 (de) * 2012-12-21 2020-12-24 Docuware Gmbh Verarbeitung eines elektronischen Dokuments

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7609889B2 (en) * 2004-04-08 2009-10-27 Canon Kabushiki Kaisha Web service application based optical character recognition system and method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GOTO, Hideaki. OCRGrid: A platform for distributed and cooperative OCR systems. In: 18th International Conference on Pattern Recognition (ICPR'06). IEEE, 2006. S. 982-985. - DOI: 10.1109/ICPR.2006.892 *
HANKE, Marcel, et al. Continuous user feedback learning for data capture from business documents. In: Hybrid Artificial Intelligent Systems, 7th International Conference, HAIS 2012, Salamanca, Spain, March 28-30th, 2012. Proceedings, Part II. Springer Berlin Heidelberg, 2012. S. 538-549. doi: 10.1007/978-3-642-28931-6_51 *
HU, Jianying; KASHI, Ramanujan; WILFONG, Gordon. Document image layout comparison and classification. In: Document Analysis and Recognition, 1999. ICDAR'99. Proceedings of the Fifth International Conference on. IEEE, 1999. S. 285-288. doi: 10.1109/ICDAR.1999.791780 *
LEYMANN, Frank; ROLLER, Dieter; SCHMIDT, M.-T. Web services and business process management. IBM systems Journal, 2002, Vol. 41(2): 198-211. doi: 10.1147/sj.412.0198 *

Also Published As

Publication number Publication date
US20140181114A1 (en) 2014-06-26
US10255357B2 (en) 2019-04-09
DE102012025351A1 (de) 2014-06-26

Similar Documents

Publication Publication Date Title
EP3744068B1 (de) Verfahren zur automatisierten erstellung eines an eine vorgegebene person gerichteten phishing-dokuments
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE102005058110B4 (de) Verfahren zum Ermitteln möglicher Empfänger
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE602005001940T2 (de) Verfahren und system zur erzeugung einer für eine menge von benutzern eines kommunikationsnetzes repräsentativen population
EP1178409A1 (de) Cookiemanager zur Kontrolle des Cookietransfers in Internet-Client-Server Computersystem
DE102005032744A1 (de) Indexextraktion von Dokumenten
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
DE202011110895U1 (de) Echtzeitsynchronisierte Bearbeitung von Dokumenten durch mehrere Benutzer für das Bloggen
EP1665132A1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE112015005985T5 (de) Klassifizierung und speicherung von dokumenten
CH704497B1 (de) Verfahren zum Benachrichtigen, Speichermedium mit Prozessoranweisungen für ein solches Verfahren.
DE112016005374T5 (de) Identifizieren von Abfragemustern und zugeordneten aggregierten Statistikdaten unter Suchabfragen
DE202013005812U1 (de) System zum indexieren elektronischer Inhalte
EP1620810B1 (de) Verfahren und anordnung zur einrichtung und aktualisierung einer benutzeroberfl che zum zugriff auf informationsseiten in ein em datennetz
DE112012005307T5 (de) Verfahren, Computerprogramm und Computer zum Erkennen von Gemeinschaften in einem sozialen Medium
DE102012025351B4 (de) Verarbeitung eines elektronischen Dokuments
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE60302165T2 (de) System und Verfahren zur Übertragung, Speicherung und Nutzung von Datenmustern in einem mobilen Kommunikationsgerät
EP2221735A2 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
DE102005032733A1 (de) Indexextraktion von Dokumenten
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
DE112012005344T5 (de) Verfahren, Computerprogramm und Computer zum Erkennen von Trends in sozialen Medien

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016000000

Ipc: G06F0016930000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final