DE102012025351B4

DE102012025351B4 - Verarbeitung eines elektronischen Dokuments

Info

Publication number: DE102012025351B4
Application number: DE102012025351.6A
Authority: DE
Inventors: Daniel Schuster; Klemens Muthmann
Original assignee: DocuWare GmbH
Current assignee: DocuWare GmbH
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2020-12-24
Anticipated expiration: 2032-12-22
Also published as: US20140181114A1; US10255357B2; DE102012025351A1

Abstract

Es wird ein Verfahren zur Verarbeitung eines elektronischen Dokuments vorgeschlagen, bei dem eine lokale Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird und bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls eine vorgegebene Bedingung erfüllt ist. Weiterhin werden entsprechend Vorrichtung, Computerprogrammprodukt sowie Speichermedium angegeben.

Description

Die Erfindung betrifft die Verarbeitung eines elektronischen Dokuments, insbesondere die Extraktion von Informationen aus einem elektronischen Dokument.
[Hanke, M.; et al.: „Continuous user feedback learning for data capture from business documents"; In: Hybrid Artificial Intelligent Systems, 7th International Conference, HAIS 2012, Salamanca, Spain, March 28-30th, 2012; Proceedings, Part II. Springer Berlin Heidelberg, 2012; S. 538-549] beschreibt kontinuierliches Lernen von Benutzer-Feedback zur Datenerfassung aus Geschäftsdokumenten.
[Hu, J.; et al.: „Document image layout comparison and classification"; In: Document Analysis and Recognition, 1999, ICDAR'99; Proceedings of the Fifth International Conference on. IEEE, 1999; S. 285-288] betrifft Funktionen und Methoden für den Vergleich und die Klassifizierung von Dokumentbildern auf der Ebene des räumlichen Layouts.
[Leymann, F.; et al.: „Web services and business process management"; IBM systems Journal, 2002, Vol. 41(2): 198-211] bezieht sich auf die Verwaltung von Webdiensten und Geschäftsprozessen.
US 7,609 889 B2 betrifft auf Webdienstanwendungen basierendes optisches Zeichenerkennungssystem und -verfahren.
[Goto, H.: „OCRGrid: A platform for distributed and cooperative OCR systems“; In: 18^th International Conference on Pattern Recognition (ICPR'06); IEEE, 2006, S. 982-985] beschreibt eine Plattform für verteilte und kooperative OCR-Systeme.
Es sind unterschiedliche Verfahren zur Texterkennung (auch bezeichnet als optische Zeichenerkennung, OCR für „Optical Character Recognition“) bekannt, anhand derer automatisiert eine Texterkennung innerhalb von Bildern durchgeführt werden kann. Bei den Bildern handelt es sich z.B. um elektronisch eingescannte Dokumente, deren Inhalt weiter analysiert werden soll.
Bei den Dokumenten kann es sich um elektronische Dokumente, z.B. um elektronisch verarbeitete, vorverarbeitete oder verarbeitbare Dokumente handeln. Der Ansatz ist z.B. anwendbar bei Anwendungen, die ein Dokumentenmanagement bzw. eine Dokumentenarchivierung z.B. von Geschäftsdokumenten betreffen, kann aber auch für andere Arten der Datenextraktion, z.B. eine Extraktion von Informationen aus abfotografierten Kassenbons und anderen Kleindokumenten angewendet werden.
Insbesondere basiert der vorliegende Ansatz auf einer Extraktion von Daten aus elektronischen Dokumenten, deren Genauigkeit anhand von Rückmeldungen (auch bezeichnet als Feedback) von mindestens einem Benutzer verbessert werden kann.
Existierende Dienste zur Datenextraktion oder Informationsextraktion aus Dokumenten arbeiten entweder mit globalen oder lokalen Modellräumen. Lokale Modellräume haben den Vorteil, dass sie domänenspezifisch angelernt werden können und somit genau auf den jeweiligen Nutzer zugeschnittene Ergebnisse liefern. Allerdings erfordert ein lokaler Ansatz vor allem in der Startphase bei einer geringen Anzahl vorhandener Trainingsdokumente einen hohen Trainingsaufwand. Bei einem globalen Modellraum für alle Nutzer profitieren andere Nutzer vor allem am Anfang, sofern sie noch wenige eigene Dokumente extrahiert haben, von der bereits geleisteten manuellen Indexierungsarbeit (auch bezeichnet als Training) anderer Nutzer. Allerdings bietet der globale Ansatz langfristig eine niedrigere Extraktionsrate, da die Trennungsunschärfe zwischen den verschiedenen Trainingsdokumenten zunimmt. Eine Clusterung bzw. Typklassifikation der Dokumente wird dadurch schwieriger. Des Weiteren steigt mit der Anzahl der Trainingsdokumente unter Umständen (je nach eingesetzter Extraktionsmethode) die Antwortzeit des Systems. Auch ist es ein Nachteil, dass die Trainingsdaten der anderen Nutzer einem aktuellen Nutzer zur Verfügung gestellt werden und somit die Vertraulichkeit der Extraktionsdaten anderer Nutzer nicht gewährleistet ist.
Die Aufgabe der Erfindung besteht darin, die vorstehend genannten Nachteile zu vermeiden und es insbesondere zu ermöglichen, Datenextraktionsdienste vorteilhaft so zu nutzen, dass verbesserte Extraktionsergebnisse erreicht werden.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesondere den abhängigen Ansprüchen entnehmbar.
Zur Lösung der Aufgabe wird ein Verfahren angegeben zur Verarbeitung eines elektronischen Dokuments,

- bei dem eine lokale Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird und
- bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls eine vorgegebene Bedingung erfüllt ist.

Bei der lokalen Datenbasis kann es sich um einen lokalen Modellraum, insbesondere realisiert als eine Datenbank, handeln. Die lokale sowie die übergeordnete Datenbasis kann bereits klassifizierte Dokumente, Dokumenttypen, Rückmeldungen des Benutzers, Datenfelder, Werte zu Datenfeldern, etc. umfassen.
Die übergeordnete Datenbasis kann eine Datenbasis einer weiteren physikalischen oder logischen Einheit sein, die von einer ersten Einheit, die die lokale Datenbasis umfasst, getrennt ausgeführt sein kann.
Insbesondere können mehrere übergeordnete Datenbasen vorgesehen sein, die hierarchisch angeordnet sind; dementsprechend kann der vorliegende Vorschlag mehrfach hintereinander ausgeführt werden, um über mehrere Hierarchieebenen hinweg ein ausreichend gutes Extraktionsergebnis für das Dokument zu erhalten.
Ein besonderer Vorteil der vorgestellten Lösung besteht darin, dass in einem ersten Schritt die lokale Datenbasis genutzt wird und somit das bereits lokal vorhandene Material (Dokumente, Klassifikationen, Felder, Werte, Koordinaten, etc.) genutzt wird, um ein möglichst gutes Klassifikationsergebnis zu erzeugen; dies ist vor allem für solche Dokumenttypen zu erwarten, die schon oft extrahiert wurden und für die dementsprechend in der lokalen Datenbasis umfangreiches Extraktionswissen gespeichert ist. Wenn kein ausreichendes Extraktionswissen lokal gefunden wird, nutzt die Eskalation in der übergeordneten Datenbasis die dort vorrätigen Informationen, die ggf. von einer anderen Organisationsstruktur und/oder von einem anderen Extraktionsdienst stammen.
Zusätzlich oder alternativ ist es möglich, eine der Datenbasen abzufragen und anhand der Extraktionsergebnisse (Trustwerte) zu entscheiden, welches Ergebnis verwendet werden soll.
Die vorliegende Lösung ermöglicht es, dass ein aktueller Nutzer insbesondere von bereits durchgeführten Extraktionsergebnissen, z.B. veranlasst oder durchgeführt von anderen Nutzern oder Prozessen, profitiert, indem dadurch die Extraktionsergebnisse für den aktuellen Nutzer verbessert oder eben erst ermöglicht werden.
Beispielsweise können Dienste zur Extraktion in elektronischen Dokumenten (Datenextraktionsdienste und/oder durch die Datenextraktionsdienste verwaltete Modellräume mit Trainingsdokumenten) in einer frei definierbaren Hierarchie zusammengeschaltet werden, insbesondere ohne dass der aktuelle Nutzer Rückschlüsse auf die Inhalte der Dokumente der anderen Nutzer ziehen kann. Damit ist die Vertraulichkeit der Inhalte gewährleistet und es können dennoch die bereits durchgeführten Extraktionsergebnisse verwendet werden.
Bei der Bildung der Hierarchien können beispielsweise Organisationsstrukturen repräsentiert werden als auch technische Gegebenheiten (datenschutzrechtliche Bestimmungen, etc.).
Eine Weiterbildung ist es, dass die vorgegebene Bedingung umfasst, dass die Extraktion von Informationen mittels der lokalen Datenbasis keine oder keine ausreichend guten Ergebnisse liefert.
Soll ein Dokument verarbeitet werden, für das die Extraktion mittels der lokalen Datenbasis keine befriedigenden Ergebnisse liefert, so wird in einem nächsten Schritt die übergeordnete Datenbasis zur Extraktion genutzt.
Eine andere Weiterbildung ist es, dass die vorgegebene Bedingung umfasst, dass in der lokalen Datenbasis nicht ausreichend viele oder nicht ausreichend ähnliche Trainingsdokumente zur Verfügung stehen.
Beispielsweise können solche Trainingsdokumente bereits extrahierte und in der lokalen Datenbasis gespeicherte Trainingsinformationen, z.B. Dokumente, Merkmale, Feedback von Nutzern, Felder, Inhalte von Feldern, Dokumenttypen, etc. umfassen. Sind für das zu extrahierende elektronische Dokument nicht ausreichend Trainingsdokumente in der lokalen Datenbasis verfügbar, wird somit die übergeordnete Datenbasis genutzt.
Insbesondere ist es eine Weiterbildung, dass die vorgegebene Bedingung umfasst,

- dass eine Güte bestimmt wird für die Extraktion von Informationen mittels der lokalen Datenbasis,
- dass die Güte mit einem vorgegebene Schwellwert verglichen wird und
- dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls die Güte nicht den vorgegebenen Schwellwert erreicht.

Falls somit die mittels der lokalen Datenbasis durchgeführte Extraktion schlechter ist als sie aufgrund der vorgegebenen Güte sein sollte, wird die übergeordnete Datenbasis genutzt.
Auch ist es eine Weiterbildung, dass die übergeordnete Datenbasis zur Extraktion genutzt wird, indem das elektronische Dokument an die übergeordnete Datenbasis übermittelt und die extrahierte Information von der übergeordneten Datenbasis zurückgeliefert wird.
Die Nutzung der übergeordneten Datenbasis kann erfolgen, indem eine Nachricht umfassend z.B. das Dokument an die weitere Einheit geschickt wird. Auch kann die Nachricht Merkmale oder Teile des Dokuments umfassen.
Ferner ist es eine Weiterbildung, dass mindestens ein Extraktionsalgorithmus zur Extraktion von Informationen des Dokuments genutzt wird.
Im Rahmen einer zusätzlichen Weiterbildung wird für jeden Extraktionsalgorithmus eine Güte für jeden Extraktionsvorschlag bestimmt.
Beispielsweise liefert jeder Extraktionsalgorithmus für jeden Extraktionsvorschlag eine Wertzahl zwischen 0 und 1 (0: Sicherheit der Extraktion ist gering; 1: Sicherheit der Extraktion ist hoch), die die Sicherheit des Algorithmus für das jeweilige Extraktionsergebnis angibt.
Eine nächste Weiterbildung besteht darin, dass eine Gesamtgüte ermittelt wird unter Berücksichtigung der zu extrahierenden Felder und unter Berücksichtigung der Güte für jeden Extraktionsvorschlag.
Insbesondere kann eine Mittelwertbildung über die Güten der Extraktionsvorschläge erfolgen.
Eine Ausgestaltung ist es, dass

- ein Dokumenttyp mittels eines Verfahrens zur Dokumenttyperkennung bestimmt wird,
- mindestens ein Trainingsdokument basierend auf dem erkannten Dokumenttyp ermittelt wird und
- die Extraktion von Informationen des Dokuments mittels des mindestens einen Trainingsdokuments durchgeführt wird.

Falls der Dokumenttyp nicht bekannt ist, kann entweder eine reduzierte Liste häufig verwendeter Felder über alle Dokumenttypen genutzt werden oder es kann die Eskalationsstrategie genutzt werden, ggf. die übergeordnete Datenbasis (den übergeordneten Modellraum) zur Extraktion einzusetzen.
Eine alternative Ausführungsform besteht darin, dass zur Extraktion von Informationen aus dem Dokument Informationen darüber genutzt werden, welche Felder extrahiert werden sollen.
Eine nächste Ausgestaltung ist es, dass die Informationen darüber, welche Felder extrahiert werden sollen, anhand von mindestens einem Trainingsdokument bestimmt werden.
Beispielsweise kann für jeden Dokumententyp (Rechnung, Lieferschein, etc.) die Häufigkeit des Auftretens einzelner Felder in den Trainingsdokumenten erfasst werden. Anhand dieser Informationen kann für jeden Dokumententyp eine aktuelle Liste der gebräuchlichsten Datenfelder bestimmt werden. Anhand der gebräuchlichsten Datenfelder kann bestimmt werden, welche Felder bzw. Informationen aus dem Dokument anhand der Datenbasis gefunden und/oder extrahiert werden können.
Auch ist es eine Ausgestaltung, dass eine manuelle Klassifikation durch einen Nutzer durchgeführt wird, falls die Extraktion durch die übergeordnete Datenbasis nicht eine erforderliche Gesamtextraktionsgüte erreicht hat.
Eine Weiterbildung besteht darin, dass die Klassifikation durch den Benutzer eine Markierung mindestens eines alphanumerischen Zeichens, insbesondere mindestens eines Wortes, in dem elektronischen Dokument umfasst.
Eine zusätzliche Ausgestaltung ist es, dass die lokale Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
Eine andere Ausgestaltung ist es, dass die übergeordnete Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
Auch ist es eine Möglichkeit, dass die lokale Datenbasis und/oder die übergeordnete Datenbasis einen Verdrängungsmechanismus aufweist, anhand dessen eine Bereinigung durchgeführt wird, falls eine Vielzahl von gleichartigen Trainingsdokumenten vorhanden ist.
Beispielsweise können ähnliche oder gleiche Trainingsdokumente bis auf eines gelöscht werden.
Die vorstehend genannte Aufgabe wird auch gelöst durch eine Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass

- eine lokale Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist und
- eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist, falls eine vorgegebene Bedingung erfüllt ist.

Die hier genannte Verarbeitungseinheit kann insbesondere als eine Prozessoreinheit, ein Computer oder ein verteiltes System von Prozessoreinheiten oder Computern ausgeführt sein. Insbesondere kann die Verarbeitungseinheit Rechner aufweisen, die über eine Netzwerkverbindung, z.B. über das Internet, miteinander verbunden sind.
Die Datenbasis kann eine Datenbank oder ein Datenbankmanagementsystem sein oder umfassen.
Insbesondere kann die Verarbeitungseinheit jede Art von Prozessor oder Rechner oder Computer mit entsprechend notwendiger Peripherie (Speicher, Input/Output-Schnittstellen, Ein-Ausgabe-Geräte, etc.) sein oder umfassen.
Die vorstehenden Erläuterungen betreffend das Verfahren gelten für die Vorrichtung entsprechend. Die Vorrichtung kann in einer Komponente oder verteilt in mehreren Komponenten ausgeführt sein.
Eine Ausgestaltung besteht darin, dass die Vorrichtung die lokale Datenbasis und/oder die übergeordnete Datenbasis umfasst.
Auch wird die oben genannte Aufgabe gelöst mittels eines Systems umfassend mindestens eine der hier beschriebenen Vorrichtungen.
Die hier vorgestellte Lösung umfasst ferner ein Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen.
Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z.B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z.B. in Form von Programmcode), die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt.
Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit den Zeichnungen näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleichwirkende Elemente mit gleichen Bezugszeichen versehen sein.
Es zeigen:

1 ein schematisches Diagramm, das beispielhaft hierarchisch angeordnete Modellräume veranschaulicht;
2 ein Diagramm, das exemplarisch eine mehrstufige Hierarchie von Modellräumen darstellt;
3 ein Diagramm, dass eine weiterer mehrstufige Hierarchie veranschaulicht unter Einbeziehung der Hierarchie von 2.

Der hier vorgestellte Ansatz umfasst bzw. nutzt insbesondere einen Teil der nachfolgend erläuterten Schritte:

(1) Vorzugsweise wird eine Architektur, z.B. in Form einer Softwareschnittstelle, angeboten, die einen Dienst (z.B. umfassend einen Datenextraktionsdienst) bereitstellt, der über eine Schnittstelle (z.B. REST, SOAP oder TCP-Sockets) aufgerufen werden kann. Die Schnittstelle akzeptiert als Eingabe z.B. ein elektronisches Dokument (z.B. nach einer OCR-Vorverarbeitung und/oder in Form einer textuellen und/oder grafischen Repräsentation). Bei REST kann eine URL (Uniform Resource Locator, z.B. Link) genau einen Seiteninhalt als Ergebnis einer serverseitigen Aktion (etwa das Anzeigen einer Trefferliste nach einer Suche) darstellen (gemäß Internetstandard HTTP für statische Inhalte, Permalink). Vorteilhaft lassen sich URLs aus dem Webbrowser als Lesezeichen ablegen und zu einem beliebigen späteren Zeitpunkt wieder aufrufen. Die URLs können auch an Dritte weitergegeben werden und von diesen aufgerufen werden, um dieselbe Aktion, z.B. eine Suche, auszulösen (vergleiche z.B.: http://de.wikipedia.org/wiki/Representational_State_Transfer, http://de.wikipedia.org/wiki/SOAP bzw. http://de.wikipedia.org/wiki/Socket_%28Software%29). Eine Programmierschnittstelle (API: Application Programming Interface) kann auch mit SOAP oder TCP-Sockets realisiert werden.
(2) Der unter (1) genannte Dienst führt für mindestens ein elektronisches Dokument mindestens einen Datenextraktionsalgorithmus aus und gibt als Ergebnis Datenfelder mit den aus dem Dokument extrahierten Werten zurück (z.B. Sender: „Firma ABC“, Datum: „31.12.2011“, etc.).
(3) Jeder Dienst kann mindestens einen Modellraum zur Verfügung stellen, in dem durch den Nutzer Trainingsbeispiele (z.B. in Form von bereits klassifizierten elektronischen Dokumenten) für eine nutzerspezifische Anpassung und Verbesserung der Datenextraktion abgelegt werden können. Allgemein kann der Modellraum durch eine Datenbasis, z.B. in Form einer Datenbank, realisiert bzw. bereitgestellt werden. Ein Trainingsbeispiel umfasst z.B.
- - ein Trainingsdokument in mindestens einer Repräsentation (z.B. als ein OCR-vorverarbeitetes Dokument, dessen Inhalt zumindest teilweise in Form elektronisch erkennbarer und verarbeitbarer Zeichen vorliegt, grafisch, etc.),
- - von dem Nutzer eingegebene Datenfelder,
- - Werte dieser Datenfelder und/oder
- - Positionen der Datenfelder oder der die Datenfelder umgebenden Rechtecke.
Die Positionen beziehen sich beispielsweise auf Koordinaten innerhalb der grafischen Repräsentation des Trainingsdokuments.
(4) Vorzugsweise erfolgt eine Zusammenschaltung in Hierarchien, indem ausgewählte Dokumente (und/oder Teile davon, insbesondere Informationen betreffend mindestens ein Dokument) und/oder Feedback des Nutzers (bzw. mehrerer Nutzer) über den aktuellen Modellraum hinaus an mindestens einen übergeordneten Modellraum weitergebenen werden. Die Weitergabe erfolgt beispielsweise über eine der in (1) bezeichneten Schnittstellen. Vorzugsweise werden Dokumente einer Hierarchie an die darüber liegende nächsthöhere Hierarchieebene (Sammelstufe, übergeordneter Modellraum) weitergegeben. An eine darunterliegende Hierarchieebene werden auf Anfrage von dieser Hierarchieebene beispielsweise die unter (2) genannten Ergebnisse des Dienstes für ein Testdokument gegeben. Dadurch ist sichergestellt, dass zwischen Organisationen keine Dokumente bzw. Inhalte der Dokumente ausgetauscht werden und dennoch verschiedene Organisationen einen gemeinsamen übergeordneten Modellraum nutzen können.
(5) Beispielsweise kann im Anschluss an die Datenextraktion, z.B. eine lokale Datenextraktion in einer lokalen Datenbasis oder der (wenig erfolgreiche oder erfolglose) Versuch einer solchen lokalen Datenextraktion, eine Eskalationsstrategie für Dokumente eingesetzt werden. Dies ist besonders dann von Vorteil, wenn für einen Modellraum ein in der Hierarchie übergeordneter Modellraum vorhanden ist. Gemäß der Eskalationsstrategie wird beispielsweise zunächst entschieden, ob das Dokument zusätzlich in der Hierarchie nach oben gegeben wird, um dort eine Datenextraktion durchzuführen. Dies ist besonders dann von Vorteil, wenn die nächsthöhere Hierarchieebene über eine größere Menge an Trainingsdokumenten (ggf. von verschiedenen Organisationen) verfügt und somit ggf. bessere Extraktionsergebnisse liefern kann. Bei der Entscheidung wird z.B. ein Kompromiss zwischen einer Verbesserung der Extraktionsergebnisse (indem das Dokumente an die nächsthöhere Hierarchieebene weitergegeben wird) und einer Vermeidung unnötiger Systembelastung bzw. eine verkürzte Antwortzeit bis das Extraktionsergebnis bereitgestellt werden kann (für den Fall dass das Dokument nicht an die nächsthöhere Hierarchieebene weitergegeben wird) berücksichtigt.
(6) Die Eskalationsstrategie für Dokumente beruht z.B. auf einer Qualität der von dem lokalen Extraktionsprozess gelieferten Ergebnisse. Beispielsweise liefert jeder Extraktionsalgorithmus für jeden Extraktionsvorschlag eine Wertzahl zwischen 0 und 1 (0: Sicherheit der Extraktion ist gering; 1: Sicherheit der Extraktion ist hoch), die die Sicherheit des Algorithmus für das jeweilige Extraktionsergebnis angibt.
(7) Neben den Wertzahlen für die einzelnen extrahierten Felder (bzw. die extrahierten Werte der Felder) werden Informationen darüber genutzt, welche Felder aus dem Dokument überhaupt extrahiert werden sollen. Hierzu wird beispielsweise eine Datenbank geführt, die für jeden Dokumententyp (Rechnung, Lieferschein, etc.) die Häufigkeit des Auftretens einzelner Felder in den Trainingsdokumenten erfasst. Anhand dieser Informationen kann für jeden Dokumententyp eine aktuelle Liste der gebräuchlichsten Datenfelder bestimmt werden.
(8) Es wird beispielsweise eine Gesamtextraktionsgüte bestimmt, indem anhand der lokal durchgeführten Datenextraktion die Informationen aus den Schritten (6) und (7) kombiniert werden. Es wird eine Gesamtwertzahl berechnet, die eine durchschnittliche Konfidenz für die Liste der Felder aus Schritt (7) durch Mittelwertbildung der jeweiligen Wertzahlen für die Felder aus Schritt (6) bestimmt.
(9) Der Schritt (8) basiert auf einer möglichst guten Erkennung des Dokumententyps. Es sind Verfahren bekannt, anhand derer eine Dokumenttyp-Klassifikation mit hoher Sicherheit durchführbar ist. Diesbezüglich sei beispielsweise verwiesen auf [Hu, J., Kashi, R., and Wilfong, G., „Comparison and classification of documents based on layout similarity", Information Retrieval 2 (2), 227-243 (2000)] oder [Daniel Esser, Daniel Schuster, Klemens Muthmann, Michael Berger and Alexander Schill, „Automatic Indexing of Scanned Documents - a Layout-based Approach", IS&T/SPIE Document Recognition and Retrieval XIX (DRR 2012), San Francisco, CA, USA, 2012]. Falls der Dokumenttyp nicht bekannt ist, kann entweder eine reduzierte Liste häufig verwendeter Felder über alle Dokumenttypen genutzt werden oder es kann die Eskalationsstrategie durchgeführt oder abgewiesen werden.
(10) Die Entscheidung für oder gegen die Eskalationsstrategie des Dokuments kann z.B. getroffen werden, indem die in Schritt (8) ermittelte Gesamtextraktionsgüte mit einem vorab definierten Schwellwert verglichen wird. Dieser Schwellwert kann z.B. durch automatisierte Tests mit einem klassifizierten Dokumentenkorpus ermittelt werden oder auf eine sonstige Art vorgegeben sein. Alternativ oder zusätzlich könnte eine Eskalationsstrategie eingesetzt werden, indem z.B. dann, wenn die Ähnlichkeit der Trainingsdokumente im lokalen Modellraum zum aktuellen Dokument (Extraktionsdokument) zu gering ist, das Dokument an den übergeordneten Modellraum übergeben wird.
(11) Soll die Eskalation angewandt werden, so wird das Dokument an den übergeordneten Modellraum zur Datenextraktion übergeben. Die Ergebnisse der Datenextraktion werden an den lokalen Modellraum zurückgeliefert. Bei mehrstufigen Hierarchien erfolgt ggf. eine Weiterleitung über mehrere Hierarchieebenen.
(12) Für den Fall, dass die vom übergeordneten Modellraum gelieferten Ergebnisse immer noch nicht der erforderlichen Gesamtextraktionsgüte gemäß (8) bzw. (10) entsprechen, wird das Dokument dem Nutzer zur manuellen Beurteilung bzw. Klassifikation vorgelegt. Hierbei sei angemerkt, dass auch in den sonstigen Fällen das Dokument dem Nutzer zur manuellen Beurteilung bzw. Klassifikation vorgelegt werden kann. Der Nutzer kann daraufhin ein Trainingsbeispiel gemäß (3) erstellen, das an den lokalen Modellraum übergeben wird. Das Trainingsbeispiel wird gemäß einer Strategie zur Eskalation betreffend die Rückmeldung des Nutzers (siehe (14)) bewertet und ggf. an den übergeordneten Modellraum übergeben.
(13) Für den Fall, dass nach (11) und der erneuten Prüfung der Ergebnisse des übergeordneten Modellraums gemäß (8) bzw. (10) festgestellt wird, dass die Ergebnisse die geforderte Gesamtextraktionsgüte erfüllen, werden diese an den Nutzer zurückgegeben. Jetzt kann entschieden werden, ob die Ergebnisse des übergeordneten Modellraums zusammen mit dem lokal vorliegenden Testdokument als Trainingsdaten in den lokalen Modellraum aufgenommen werden sollen. Diese Entscheidung kann von verschiedenen Einflussfaktoren, z.B. von einer Anzahl gleichartiger Trainingsdokumente, einer Gesamtzahl Trainingsdokumente, einer durchschnittlichen Extraktionsgüte, etc. abhängig sein
(14) Die Eskalationsentscheidung für das Einholen von (ggf. zusätzlichem) Nutzerfeedback nach (12) ist ähnlich wie die Entscheidung gemäß (13) von einer Vielzahl von Faktoren abhängig, z.B. einer Häufigkeit gleichartiger Trainingsdokumente, einer Gesamtextraktionsgüte des übergeordneten Modellraums für das vorliegende Testdokument, etc. Ein möglicher Ansatz ist es, das Nutzerfeedback gemäß (12) immer an den übergeordneten Modellraum weiterzuleiten, wobei der übergeordnete Modellraum ggf. eigenständig mittels geeigneter Verdrängungsmechanismen eine Bereinigung durchführt, wenn zu viele gleichartige Trainingsdokumente vorhanden sind.

1 zeigt beispielhaft zwei hierarchisch angeordnete Modellräume. Das Verfahren lässt sich auf eine beliebige Hierarchie von Modellräumen entsprechend den Darstellungen gemäß 2 bzw. 3 erweitern. Vorzugsweise werden dann in den übergeordneten Modellräumen Verdrängungsstrategien eingesetzt, um für die Extraktion selten genutzte Trainingsdokumente zu entfernen. Insbesondere kann Schritt (11) dahingehend erweitert werden, dass eine Aufrufkette mit mehreren übergeordneten Modellräumen entsteht. Auf diese Weise ergibt sich ein selbstregulierendes System, dass es ermöglicht, dass verschiedene Nutzer gegenseitig von manuellen Klassifikationen profitieren, ohne dass die Trainingsdokumente selbst ausgetauscht werden müssten.
Gemäß 1 wird ein Dokument 102 beispielhaft zur Extraktion bzw. Klassifikation einem Modellraum 103 der Firma A zugeführt. Der Modellraum 103 leitet das Dokument 102 an einen übergeordneten Modellraum 101 weiter, in dem die Extraktion durchgeführt werden soll. In einem Schritt 105 wird kein passendes Dokument zu dem Dokument 102 gefunden und dies als „kein Ergebnis“ 106 über den Modellraum 103 an den Nutzer zurückgemeldet. Der Nutzer gibt Feedback 108 zu dem Dokument 102, indem er z.B. eine manuelle oder teilweise automatisierte Klassifikation von Datenfeldern und Werten vornimmt und an den Modellraum 103 übermittelt. Der Modellraum 103 leitet das Feedback 108 an den übergeordneten Modellraum 101 weiter, dort wird das Dokument 102 sowie das Feedback 108 z.B. einer Datenbank hinzugefügt, damit nachfolgende Extraktionsmechanismen auch basierend auf diesem Dokument 102 eine automatische oder automatisierte Informationsextraktion durchführen können.
Weiterhin wird ein Dokument 111, das vom Typ des Dokuments 102 ist (z.B. können beide Rechnungen des gleichen Rechnungsstellers sein), zur Extraktion bzw. Klassifikation einem Modellraum 112 der Firma B zugeführt. Der Modellraum 112 leitet das Dokument 111 an den übergeordneten Modellraum 101 weiter, in dem die Extraktion durchgeführt werden soll. In einem Schritt 114 wird ein passendes Dokument zu dem Dokument 111 gefunden, nämlich das zuvor gespeicherte Dokument 102 und ein darauf basierendes Extraktionsergebnis 115 über den Modellraum 112 an den Nutzer zurückgemeldet. Der Nutzer akzeptiert das Ergebnis in einem Schritt 117. Optional kann daraufhin in einem Schritt 118 auch das Dokument 111 an den übergeordneten Modellraum 101 weitergeleitet und dort - ggf. zusammen mit dem Extraktionsergebnis 115 - dem Modellraum 101 hinzugefügt werden.
Hierbei sei angemerkt, dass hier beispielhaft die Modellräume 103 und 112 selbst zur Veranschaulichung der Zusammenarbeit mit dem übergeordneten Modellraum 101 keine Extraktion durchführen, z.B. weil lokal keine verwertbaren Dokumente oder Dokumenttypen vorliegen. Die Modellräume werden auch als Datenbasen bezeichnet.
2 zeigt ein Beispiel einer mehrstufigen Hierarchie 201 einer Firma A mit mehreren Modellräumen 202 bis 207, wobei die Modellräume durch ihre hierarchische Anordnung unterschiedliche Eskalationsmechanismen bereitstellen. Der Modellraum 206 betrifft einen Standort I und der Modellraum 207 betrifft einen Standort II der Firma A, beide können als übergeordneten Modellraum 205 den Modellraum der Firma A für Deutschland nutzen. Weiterhin sind der Modellraum 203, die (weltweite) Buchhaltung der Firma A, und der Modellraum 204 der Firma A für Italien vorgesehen, die zusammen mit dem Modellraum 205 den übergeordneten Modellraum 202 der Firma A (auf internationaler Ebene) nutzen können. Somit kann die Eskalationsstrategie berücksichtigen, dass für den Fall, dass ein Dokument lokal nicht automatisch (mit einer vorgegebenen Güte) extrahiert werden kann, der jeweils übergeordnete Modellraum genutzt wird. Dies kann mehrfach hintereinander erfolgen, solange noch ein übergeordneter Modellraum existiert und das Extraktionsergebnis nicht ausreichend gut war bzw. kein Ergebnis liefern konnte.
3 zeigt beispielhaft ein Diagramm mit einer weiteren Eskalationsstufe. Die mehrstufige Hierarchie 210 ist hier Teil der Darstellung und parallel zu einem (ggf. mehrstufigen) Modellraum 302 einer Firma B sowie zu einem (ggf. mehrstufigen) Modellraum 303 einer Universität angeordnet. Weiterhin ist ein zu den Modellräumen 201, 302 und 303 übergeordneter Modellraum oder Extraktionsservice 301 dargestellt, wie er beispielsweise von einem Anbieter einer Extraktionsdienstleistung bereitgestellt werden kann. Der Extraktionsservice 301 kann z.B. sicherstellen, dass die Firma A eine Extraktion von Informationen durchführt unter Ausnutzung bereits extrahierter Informationen aus Dokumenten der Firma B, wobei die Inhalte der Dokumente der Firma B für die Firma A (und umgekehrt) nicht sichtbar sind. Damit kann die Vertraulichkeit der Inhalte von dem Extraktionsservice 301 gewährleistet werden. Die Mechanismen der Extraktion umfassend z.B. die Datenfelder mit zugehörigen Positionen der zugeordneten Werte können jedoch über die Firmengrenzen bzw. Organisationsgrenzen hinweg zugänglich und nutzbar gemacht werden.
Die vorgestellte Lösung ermöglicht es somit, übergeordnete Modellräume nach ihrem Wissen zu bestimmten Dokumenten zu befragen. Lokal kann mittels eines Vergleichs mit einer vorgegeben bzw. zu erreichenden Extraktionsgüte bestimmt werden, ob eine Eskalationsstrategie greifen soll oder nicht: Ist die lokal erzielbare Extraktionsgüte beispielsweise nicht gut genug, kann auf übergeordnete Modellräume mittels Anfragen zugegriffen werden. Andererseits wird durch Einstellung der zu erreichenden Extraktionsgüte wirksam sichergestellt, dass die übergeordneten Modellräume nicht durch einer Vielzahl von Anfragen überlastet werden. Die Einstellung der Extraktionsgüte kann z.B. dynamisch erfolgen und somit die Belastbarkeit und/oder eine Belastbarkeitsvorgabe des Systems berücksichtigen. Damit ist im Ergebnis eine effektive kooperative Datenextraktion in einem verteilten Ansatz möglich.
Der Ansatz ermöglicht eine kontinuierliche Anpassung des für die Datenextraktion benötigten Wissens in einem Verbund von Datenextraktionsdiensten. Dadurch kann sich ein System einerseits schnell auf geänderte oder neue Dokumenttypen oder Häufigkeiten bestimmter Dokumenttypen einstellen und andererseits bietet das System weiterhin die Vorteile lokaler Datenextraktion durch eine hohe Extraktionsgüte bei geringen Antwortzeiten und die Möglichkeit des domänenabhängigen Trainings.
Obwohl die Erfindung im Detail durch das mindestens eine gezeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.

Claims

Verfahren zur Verarbeitung eines elektronischen Dokuments, - bei dem eine lokale Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird und - bei dem eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls eine vorgegebene Bedingung erfüllt ist, wobei die vorgegeben Bedingung umfasst: - dass eine Güte bestimmt wird für die Extraktion von Informationen mittels der lokalen Datenbasis, - dass die Güte mit einem vorgegebenen Schwellwert verglichen wird und - dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls die Güte nicht den vorgegebenen Schwellwert erreicht. - wobei die übergeordnete Datenbasis und die lokale Datenbasis voneinander getrennte physikalische Einheiten darstellen.
Verfahren nach Anspruch 1, bei dem die vorgegebene Bedingung umfasst, dass die Extraktion von Informationen mittels der lokalen Datenbasis keine Ergebnisse oder keine ausreichend guten Ergebnisse liefert.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die vorgegebene Bedingung umfasst, dass in der lokalen Datenbasis nicht ausreichend viele oder nicht ausreichend ähnliche Trainingsdokumente zur Verfügung stehen.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die übergeordnete Datenbasis zur Extraktion genutzt wird, indem das elektronische Dokument an die übergeordnete Datenbasis übermittelt und die extrahierte Information von der übergeordneten Datenbasis zurückgeliefert wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem mindestens ein Extraktionsalgorithmus zur Extraktion von Informationen des Dokuments genutzt wird.
Verfahren nach Anspruch 5, bei dem für jeden Extraktionsalgorithmus eine Güte für jeden Extraktionsvorschlag bestimmt wird.
Verfahren nach Anspruch 6, bei dem eine Gesamtgüte ermittelt wird unter Berücksichtigung der zu extrahierenden Felder und unter Berücksichtigung der Güte für jeden Extraktionsvorschlag.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem - ein Dokumenttyp mittels eines Verfahrens zur Dokumenttyperkennung bestimmt wird, - mindestens ein Trainingsdokument basierend auf dem erkannten Dokumenttyp ermittelt wird und - die Extraktion von Informationen des Dokuments mittels des mindestens einen Trainingsdokuments durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem zur Extraktion von Informationen aus dem Dokument Informationen darüber genutzt werden, welche Felder extrahiert werden sollen.
Verfahren nach Anspruch 9, bei dem die Informationen darüber, welche Felder extrahiert werden sollen, anhand von mindestens einem Trainingsdokument bestimmt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine manuelle Klassifikation durch einen Nutzer durchgeführt wird, falls die Extraktion durch die übergeordnete Datenbasis nicht eine erforderliche Gesamtextraktionsgüte erreicht hat.
Verfahren nach Anspruch 11, bei dem die Klassifikation durch den Benutzer eine Markierung mindestens eines alphanumerischen Zeichens, insbesondere mindestens eines Wortes, in dem elektronischen Dokument umfasst.
Verfahren nach einem der Ansprüche 11 oder 12, bei dem die lokale Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
Verfahren nach einem der Ansprüche 11 bis 13, bei dem die übergeordnete Datenbasis anhand der manuellen Klassifikation, des Ergebnisses der manuellen Klassifikation und/oder des elektronische Dokuments angepasst wird.
Verfahren nach einem der Ansprüche 13 oder 14, bei dem die lokale Datenbasis und/oder die übergeordnete Datenbasis einen Verdrängungsmechanismus aufweist, anhand dessen eine Bereinigung durchgeführt wird, falls eine Vielzahl von gleichartigen Trainingsdokumenten vorhanden sind.
Vorrichtung zur Verarbeitung eines elektronischen Dokuments mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass - eine lokale Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist und - eine übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments nutzbar ist, falls eine vorgegebene Bedingung erfüllt ist, wobei die vorgegeben Bedingung umfasst: - dass eine Güte bestimmt wird für die Extraktion von Informationen mittels der lokalen Datenbasis, - dass die Güte mit einem vorgegebenen Schwellwert verglichen wird und - dass die übergeordnete Datenbasis zur Extraktion von Informationen des Dokuments genutzt wird, falls die Güte nicht den vorgegebenen Schwellwert erreicht - wobei die übergeordnete Datenbasis und die lokale Datenbasis voneinander getrennte physikalische Einheiten darstellen.
Vorrichtung nach Anspruch 16, bei dem die Vorrichtung die lokale Datenbasis und/oder die übergeordnete Datenbasis umfasst.
System zur Verarbeitung eines elektronischen Dokuments mit mindestens einer Vorrichtung nach einem der Ansprüche 16 oder 17.
Computerprogrammprodukt, das in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des Verfahrens nach einem der Ansprüche 1 bis 15 durchzuführen.
Computerlesbares Speichermedium umfassend von einem Computer ausführbare Anweisungen, die dazu geeignet sind, dass der Computer Schritte des Verfahrens nach einem der Ansprüche 1 bis 15 durchführt.