DE69817171T2 - Verfahren und anordnung zur automatischen formulardaten-erfassung - Google Patents

Verfahren und anordnung zur automatischen formulardaten-erfassung Download PDF

Info

Publication number
DE69817171T2
DE69817171T2 DE69817171T DE69817171T DE69817171T2 DE 69817171 T2 DE69817171 T2 DE 69817171T2 DE 69817171 T DE69817171 T DE 69817171T DE 69817171 T DE69817171 T DE 69817171T DE 69817171 T2 DE69817171 T2 DE 69817171T2
Authority
DE
Germany
Prior art keywords
key
line
horizontal
plan
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Revoked
Application number
DE69817171T
Other languages
English (en)
Other versions
DE69817171D1 (de
Inventor
Jan Andersson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ReadSoft AB
Original Assignee
ReadSoft AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=20406387&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69817171(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ReadSoft AB filed Critical ReadSoft AB
Application granted granted Critical
Publication of DE69817171D1 publication Critical patent/DE69817171D1/de
Publication of DE69817171T2 publication Critical patent/DE69817171T2/de
Anticipated expiration legal-status Critical
Revoked legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Anordnung zur automatischen Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt ist, durch Einlesen derselben in die genannten Mittel und Speichern von Mustern derselben.
  • Stand der Technik
  • Für Unternehmen, Organisationen und andere ist es ein Problem, die in verschiedenen Arten von Formularen, Dokumenten usw. enthaltene Information nutzbringend zu verwenden.
  • Mit der neuen, modernen Technologie können diese Materialien mittels eines Scanners eingescannt und über handelsübliche Softwareprogramme in eine Datenbank eingegeben werden. Das Sortieren, die Identifikation und andere routinemässige Prüfungen müssen jedoch zu einem grossen Teil immer noch von Hand über die Anzeige bzw. den Bildschirm des Computers erfolgen.
  • Um beispielsweise eine Rechnung ein und derselben Firma als einzelnes spezifisch gestaltetes Dokument mit einem Schriftzug und anderen visuellen Elementen zu speichern, muss dieses überarbeitet werden, um das Format an die Software anzupassen, und anschliessend in einer Datenbank gespeichert werden. Dieser und andere Vorgänge müssen jedes Mal wiederholt werden, wenn eine Rechnung mit einer neuen Gestaltung mit der Software eingescannt wird.
  • Um eine Rechnung einer bereits registrierten Firma zu identifizieren, wird oft die ganze Rechnung durchsucht, was zeitraubend ist. Bestimmte Softwareprogramme besitzen zwar Suchroutinen, welche den Umfang dieser Suche vermindern. Es ist jedoch schwierig, sich gegen verwischte oder handgeschriebene Textzeilen usw. abzusichern.
  • Bei all jenen, welche mit Rechnungen und anderen Formularen zu tun haben, besteht deshalb ein Bedürfnis, diese schnell identifizieren zu können und/oder neue Muster schnell erfassen und in ihrem Rechnungswesen speichern zu können.
  • Das Patent US-A-4 933 979 beschreibt die herkömmliche Datenerfassung aus Formularen, wobei vordefinierte Vorlagen/Muster benötigt werden, ohne selbsttätige (adaptive) Lernfähigkeit. Zur Identifikation eines Formulars werden vorbestimmte, gespeicherte Rahmen eines Formulars verwendet.
  • Das Patent US-A-5 140 650 erwähnt die Datenerfassung aus Formularen mit der sogenannten "Form-out"-Technologie, bei welcher das Originaldokument abgedeckt wird und nur die "ausgefüllten" Teile übernommen werden. Diese Datenerfassung wird oft kombiniert mit der Datenerfassung gemäss US-A-4 933 979. Dieses Patent bietet keine adaptive Funktion für die Datenerfassung aus unbekannten Formularen.
  • Ein weiteres Patent, nämlich US-A-5 293 429, betrifft die Klassifizierung von Dokumenten anhand von Linien auf den Dokumenten und bezieht sich nicht direkt auf die Datenerfassung oder auf eine adaptive Funktion zu diesem Zweck. US-A-5 293 429 gestattet keine Identifikation von Linien mit Objektbereichen (Bereichen mit Text) und eines "RCG-Werts" (ReCoGnition, d. h. eine Zahl, welche ein Dokument eindeutig identifiziert).
  • In keinem der erwähnten Patente wird ein Formularplan für ein Formular generiert, welches dem System gemäss dem Patent nicht bekannt ist, und der Plan zwecks Erkennung bei der nächsten Gelegenheit zur Identifikation in Echtzeit in einer Formulardatenbank gespeichert. Bei den Erfindungen gemäss diesen Patenten muss das unbekannte Formular deshalb zu einem späteren Zeitpunkt auf andere Art gespeichert werden.
  • Zusammenfassung der Erfindung
  • Ein Ziel vorliegender Erfindung besteht darin, u. a. die oben genannten Probleme bei der sogenannten automatischen Datenerfassung (Interpretation) im Zusammenhang mit der Verarbeitung papiergebundener Informationen zu lösen.
  • Die vorliegende Erfindung betrifft ein System (Verfahren und Anordnung) zur automatischen Datenerfassung aus Formularen, bei welchem das System keine Vorkenntnisse über das Aussehen des Formulars oder über den Ort auf dem Formular besitzt, wo die Informationen zu finden sind. Auf diese Weise müssen Vorlagen von Formularen nicht vorgängig definiert werden, sondern diese werden registriert, wenn sie dem System vorgelegt werden, d. h. in Echtzeit.
  • Um die obigen Ziele zu erreichen, wird erfindungsgemäss ein Verfahren und eine Anordnung zur automatischen Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt sind, durch Einlesen derselben in die genannten Mittel und gleichzeitiges Speichern von Mustern derselben angegeben. Das Verfahren ist adaptiv und beinhaltet somit das Erlernen und die Registrierung von Formularen als Muster ohne eingefügten Text, sowie die folgenden Schritte zur Erzielung der adaptiven Registrierung:
    Erzeugung eines Formularplans auf der Grundlage der Gestaltung des zuvor unbekannten Formulars zwecks Erkennung von im Formular enthaltenen Informationen;
    Suche und Vergleich des Formularplans mit gespeicherten, registrierten Plänen in einem Mittel zum Speichern von Formularplänen;
    Speicherung von erzeugten Formularplänen im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan übereinstimmen;
    Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und
    weiterführende Datenerfassung zur Erkennung des Informationsgehalts des Formulars.
  • In einer Ausführung vorliegender Erfindung kann der Formularplan aus einer Objektbereichsliste von im Formular enthaltenen Objekten bestehen, wobei das Objekt aus Farben und/oder ganz oder teilweise aus Text besteht.
  • In einer Ausführungsvariante bildet der Formularplan einen Linienplan mit Objekten in Form von farbigen Linien auf dem Formular.
  • Waagrechte Linien im Linienplan werden verwendet, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
  • Senkrechte Linien im Linienplan werden verwendet, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
  • Mindestens ein in einem Segment enthaltenes Linienelement wird in der entsprechenden Schlüsselposition markiert, und Segmente ohne Linienelement bleiben in der entsprechenden Schlüsselposition unmarkiert.
  • Ein waagrechter und/oder senkrechter Schlüssel bilden einen Linienschlüssel im Linienplan, wobei der erzeugte Linienschlüssel während der genannten Suche mit im Mittel gespeicherten Linienschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
  • Die Linienschlüssel sind im Speichermittel nach der Anzahl Markierungen sortiert.
  • Die waagrechte Position des Objekts in der Objektbereichsliste wird verwendet, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
  • Die senkrechte Position des Objekts in der Objektbereichsliste wird verwendet, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
  • Mindestens ein in einem Segment enthaltenes Objekt wird in der entsprechenden Schlüsselposition markiert, und Segmente ohne Objekt bleiben in der entsprechenden Schlüsselposition unmarkiert.
  • Ein waagrechter und/oder senkrechter Schlüssel bilden einen Objektschlüssel in der Objektbereichsliste, wobei der erzeugte Objektschlüssel während der genannten Suche mit im Mittel gespeicherten Objektschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
  • Die Objektschlüssel sind im Speichermittel vorzugsweise nach der Anzahl Markierungen sortiert.
  • Die Suche ergibt eine vorbestimmte Anzahl angeforderter wahrscheinlicher Kandidaten für das gerade gesuchte Formular.
  • Nötigenfalls kann die adaptive Registrierung oder Identifikation des neuen Formulars bzw. von registrierten Formularen, falls mehrere Kandidaten gemäss einem Verdienstfaktor wahrscheinlich erscheinen, von einer Bedienungsperson ganz oder teilweise manuell unterstützt werden.
  • Schliesslich wird die Identität des Formulars durch die Datenerfassung eines Erkennungswerts (RCG) bestätigt.
  • Weiter wird eine erfindungsgemässe Anordnung zur Durchführung des obigen Verfahrens angegeben.
  • Die Anordnung gestattet die automatisierte Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt sind, durch Einlesen derselben in die genannte Anordnung und gleichzeitiges Speichern von Mustern derselben. Die Anordnung lernt adaptiv und registriert die Gestaltung des Formulars, und sie beinhaltet einen Computer mit den folgenden Mitteln zur Durchführung der adaptiven Registrierung:
    Mittel zur Erzeugung eines Formularplans auf der Grundlage der Gestaltung des zuvor unbekannten Formulars zwecks Erkennung der im Formular enthaltenen Informationen;
    Mittel zum Durchsuchen und Vergleichen des Formularplans mit gespeicherten, registrierten Plänen in einem Mittel zum Speichern von Formularplänen;
    Mittel zum Speichern erzeugter Formularpläne im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan übereinstimmen;
    Mittel zur Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und
    Mittel zur Erkennung und zur weiterführenden Datenerfassung des Informationsgehalts des Formulars.
  • Zusätzlich kann die Anordnung das oben angegebene erfindungsgemässe Verfahren beinhalten bzw, verkörpern, wie dies aus den nachfolgenden abhängigen Vorrichtungsansprüchen weiter hervorgeht.
  • Kurzbeschreibung der Zeichnungen
  • Die beigefügten Zeichnungen und die zugehörige Beschreibung ermöglichen ein besseres Verständnis der vorliegenden Erfindung.
  • 1 zeigt schematisch, wie aus einer eingescannten Rechnung ein Linienmuster gewonnen wird.
  • 2 zeigt schematisch ein Flussdiagramm für das Scannen, die Identifikation, die Interpretation und die Validierung eines Formulars gemäss vorliegender Erfindung.
  • Ausführliche Beschreibung bevorzugter Ausführungsformen
  • In der weiteren Beschreibung vorliegender Erfindung werden die Formulare als Rechnungen dargestellt. Die Erfindung ist jedoch nicht auf Rechnungsformulare beschränkt, sondern umfasst auch allgemeine Dokumente mit Text, Zahlen usw. als Formulare. Rechnungen werden hier als ein Beispiel eines Formulars verwendet, um die Erfindung beispielhaft darzustellen.
  • 1 zeigt schematisch einen Teil der Rechnung 10, welche in einen Computer eingescannt wird und auf der Anzeige angezeigt wird. Anhand der Rechnung 10 ist ersichtlich, dass diese nach dem Scannen oder Einlesen unklar oder verwischt ist.
  • Die Rechnung 10 besteht teilweise aus einem Schriftzug 12 und aus den senkrechten 14 und waagrechten Linienelementen 15.
  • Es ist zu beachten, dass auch der Schriftzug lange schwarze oder unterschiedlich dunkle Linienelemente 16 aufweist, welche teilweise in einem Linienplan 18 gemäss vorliegender Erfindung aufgezeichnet wurden und auf das Aussehen des ursprünglichen Schriftzugs 12 hindeuten, wodurch die Identifikation erleichtert wird, wenn die Rechnung so zu identifizieren ist wie sie in einer Formularplan-Datenbank registriert ist. Farbige Linien beinhalten ebenfalls Graustufen.
  • Aus dem Formularplan, der in diesem Fall aus dem Linienplan 18 besteht, wurden andere Objekte 19 wie beispielsweise Textobjekte oder farbige Objekte ganz oder teilweise ausgefiltert, und ebenso die erwähnten Linienobjekte, welche Farbe enthalten, was hier nicht darstellbar ist, und welche ebenso wie zahlreiche farbige Felder auf einem Formular 10 vorhanden sein können.
  • Eine Rechnung 10, welche gemäss vorliegender Erfindung vorbereitet wurde – nachfolgend als EH (Eyes & Hands) bezeichnet – muss in einem frühen Stadium identifiziert werden. Für eine erfolgreiche Identifikation muss EH bei einer früheren Gelegenheit gelernt haben, wie die gegenwärtige Rechnung 10 aussieht, was einfach gesagt bedeutet, dass Informationen über die Rechnung in der Formular-Datenbank von EH verfügbar sind.
  • Die Identifikation muss notwendigerweise schnell erfolgen, und zwar in einer Datenbank, welche eine sehr grosse Anzahl von Rechnungsidentitäten 18 enthält. Es ist nicht ungewöhnlich, dass Datenbanken mehr als 10'000 Identitäten 18 enthalten.
  • Bei dem Verfahren und der Anordnung, welche bei EH zur Anwendung kommen, braucht eine Rechnung nicht immer auf genau die gleiche Art durch einen Scanner geführt zu werden, d. h. die Informationen auf der Rechnung können innerhalb eines bestimmten Masses oder Grenzwerts in der X- und der Y-Achse variieren. 1 zeigt schematisch ein kartographisches Koordinatensystem.
  • Erfindungsgemäss beinhaltet (EH) in einer Ausführungsform, dass EH die Rechnung nach allen senkrechten 14 und waagrechten Linienelementen 15 einer bestimmten Länge durchsucht. Die Linien 14, 15 müssen nicht frei stehen und isoliert sein, sondern sie können beispielsweise Teil eines grösseren Schriftzugs 12 wie ReadSoft AB in 1 sein. Der Schriftzug 12 wird im Linienplan 18 als Linienelement 16 dargestellt.
  • Die waagrechten Linien 15 und die senkrechten Linien 14 bilden die Grundlage für die Erzeugung eines waagrechten Schlüssels (H-Schlüssel) bzw. eines senkrechten Schlüssels (V-Schlüssel) wie folgt:
    • – Die Rechnung wird entlang der Y-Achse (nicht dargestellt) in eine grosse Anzahl waagrechte Segmente aufgeteilt. Jedes Segment entspricht einer Position im h-Schlüssel. Wenn ein bestimmtes Segment eines oder mehrere Linienelemente 15 enthält, wird bei der entsprechenden Schlüsselposition eine Markierung (tag) gesetzt. Wenn nicht, wird ein leeres Feld, eine investierte Markierung oder sonst ein Element verwendet, das sich von einer Markierung unterscheidet.
    • – Entlang der X-Achse wird auf ähnliche Weise ein V-Schlüssel für die senkrechten Linienelemente 14 erzeugt.
    • – Die H- und V-Schlüssel erhalten Bezeichnungen und bilden zusammen einen Linienschlüssel. Darauf folgt ein Suchlauf, d. h. der gegenwärtige Linienschlüssel wird mit Linienschlüsseln von bekannten Rechnungen 10 verglichen, welche in der EH-Datenbank vorhanden sind. Bei diesem Vergleich wird berücksichtigt, dass die Position einzelner Linien oder Linienelemente 14, 15 etwas variieren kann, und auch dass das ganze Linienmuster in der X- und Y-Richtung innerhalb bestimmter geeigneter Werte waagrecht bzw. senkrecht verschoben sein kann.
    • – Die Linienschlüssel in der Datenbank werden nach der Anzahl Markierungen (tags) sortiert, die verwendet werden, um die Suche effizienter zu machen.
    • – Die Suche ergibt eine vorbestimmte Anzahl wahrscheinlicher Kandidaten für die Identität der betreffenden Rechnung 10. Allen Kandidaten wird ein Verdienstfaktor zugeordnet bzw. eine Wahrscheinlichkeit, dass es sich um die betreffende Rechnung handelt.
    • – Die Identität der Rechnung wird schliesslich bestätigt, indem eine Interpretation des sogenannten RCG-Werts erfolgt (RCG: ReCoGnition). Der RCG-Wert ist ein Wert an einer bestimmten Stelle, der für die betreffende Rechnung bzw, den Lieferanten oder ein anderes Formular eindeutig ist. Beispiele solcher Werte sind Bankgironummern, Postgironummern, Rechnungsnummern, Totalbeträge etc.
  • Die genannten Segmente können beispielsweise karierte Muster sein, die je nach den relativen Anforderungen an die Suchgeschwindigkeit unterschiedlich fein gerastert sind.
  • Die Linienschlüssel können auch bei Objekten zur Anwendung kommen, welche ganz oder teilweise aus Text und Farben bestehen. Es werden ihnen Linienschlüssel aus einer Objektbereichsliste zugeordnet, welche X- und Y-Schlüssel für das Objekt enthält. Die Objektbereichsliste kann beispielsweise aus Positionen für bestimmte ausgewählte Objekte bestehen. Die oben angegebenen Prinzipien für Linienpläne sind auch geeignet für andere Objekte als Linienelemente zur Identifikation von Formularen.
  • Wenn die Linienschlüssel in der Datenbank nicht auffindbar sind, bedeutet dies, dass die Rechnung nicht bekannt ist, so dass die neuen Linienschlüssel in der Datenbank gespeichert werden, welche auf diese Weise in Echtzeit auf den neuesten Stand gebracht wird.
  • Nötigenfalls kann die adaptive Registrierung und/oder Ldentifikation eines neuen bzw. eines registrierten Formulars, falls gemäss einem Verdienstfaktor mehrere wahrscheinliche Kandidaten angeboten werden, von einer Bedienungsperson über ihren Computer ganz oder teilweise manuell unterstützt werden.
  • Weiterhin beinhaltet die vorliegende Erfindung eine Anordnung zur Durchführung des erfindungsgemässen Verfahrens.
  • Die Anordnung gestattet die automatische Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt sind, durch Einlesen derselben in die genannte Anordnung und gleichzeitiges Speichern von Mustern derselben. Die Anordnung registriert adaptiv und erlernt die Gestaltung von Formularen, und sie beinhaltet einen Computer mit den folgenden Mitteln zur Durchführung der adaptiven Registrierung:
    Mittel zur Erzeugung eines Formularplans auf der Grundlage der Gestaltung des zuvor unbekannten Formulars zwecks Erkennung der im Formular enthaltenen Informationen;
    Mittel zum Durchsuchen und Vergleichen des Formularplans mit gespeicherten, erkannten Plänen in einem Mittel zum Speichern von Formularplänen;
    Mittel zum Speichern erzeugter Formularpläne im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan übereinstimmen;
    Mittel zur Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und
    Mittel zur Erkennung und zur weiterführenden Datenerfassung des Informationsgehalts des Formulars.
  • Die genannten Mittel werden vorzugsweise durch Computerhardware und -Software gesteuert, beispielsweise durch:
  • Einen Scanner zur Erfassung von Daten.
  • Ein elektronisches Speichermedium (Harddisk, CD-ROM, usw.), um mit dem Mittel Informationen zu speichern. Zeichen, Symbole, Signalgeneratoren usw. für Anzeigefunktionen.
  • Filter und Komparatoren für Suchläufe und Vergleiche mit dem Mittel, sowie Filter und Register für die Identifikation.
  • Insgesamt sind alle in der vorliegenden Erfindung verwendeten Mittel dem Fachmann bekannt, aber deren Koordination zur Erreichung des Ziels der Erfindung ist neu.
  • In einer Ausführungsform vorliegender Erfindung gemäss 2 ist ein schematisches Flussdiagramm dargestellt, welches das Scannen, die Identifikation, die Interpretation und die Validierung eines Formulars gemäss vorliegender Erfindung zeigt.
  • 2 ist durch punktierte Linien in Teilbereiche unterteilt, um die verschiedenen Schritte des erfindungsgemässen Verfahrens zu erläutern, wobei diese Schritte das Einscannen des Formulars 200, die Identifikation des Formulars 210, die Interpretation des Formulars 220 und die Validierung des Formulars 230 umfassen.
  • Das Formular wird in EH eingescannt 200, gefolgt von der Identifikation 210. Die Identifikation besteht aus der Erzeugung eines Linienplans 212, oder wahlweise -einer Objektbereichsliste, wobei ein Linienschlüssel erzeugt wird. Daraufhin wird das Formular 10 mit bekannten Schlüsseln in der Formplan-Datenbank verglichen 214, wobei eine Bestätigung der Erkennung durch den RCG-Wert erfolgt. Der nächste Schritt beinhaltet die Entscheidung, ob die Erkennung gemäss den Bedingungen "ja" oder "nein" erfolgreich war 216. Falls die Entscheidung "ja" lautet, wird eine bedingte Nachforschung durchgeführt um festzustellen, ob weitere Kandidaten in Form von Linienschlüsseln 218 vorhanden sind. Falls die Antwort hier "ja" lautet, wird eine Schleife 214, 216, 218 durchlaufen, bis schliesslich eine erfolgreiche Erkennung erfolgt oder bis keine weiteren Linienschlüsselkandidaten mehr angeboten werden 218.
  • Im Fall einer erfolgreichen Erkennung beginnt sodann die Interpretation 220 des Formulars durch Interpretation mit Hilfe des gegenwärtigen Formularplans 222, worauf die Validierung 230 oder die Evaluation 232 der Felder des Formulars 10 erfolgt. Wahlweise kann eine Bedienungsperson die Auswahl unterstützen, falls mehrere Felder in Frage kommen 234.
  • Wenn die Erkennung 210 nicht gelingt und keine weiteren Linienschlüssel angeboten werden 218, erfolgt die Interpretation 220 durch selbsttätiges Lernen mittels einer Formulardefinition 224. Die Formulardefinition besteht aus einer Vorlage oder einer Anzahl Regeln, welche die gemeinsamen Elemente einer bestimmten Gruppe von Formularen beschreiben, beispielsweise schwedische Rechnungen. Daraufhin wird der RCG-Wert interpretiert 226 und eine Entscheidung darüber getroffen 228, ob der gegenwärtige RCG-Wert in der Formulardatenbank vorkommt. Falls die Antwort "ja" lautet, beginnt eine Neuinterpretation 229, gefolgt von einer weiterführenden Interpretation 222, welche zu einer Validierung 232 führt.
  • Falls die Antwort jedoch "nein" lautet, beginnt die Validierung 230, 236, worauf das Formular in der Formularplandatenbank mit dem Linienschlüssel 238 gespeichert wird. Vor den Schritten 236, 238 kann die Bedienungsperson den selbsttätigen Lernprozess unterstützen, wenn mehrere Felder in Frage kommen.
  • Die oben beschriebenen Ausführungsformen vorliegender Erfindung sind mögliche Ausführungen, solten jedoch die Erfindung als solche nicht einschränken, da weitere Ausführungsformen für den Fachmann aus den nachfolgenden Ansprüchen hervorgehen.

Claims (32)

  1. Verfahren zur automatischen Datenerfassung (200) durch ein Mittel zu diesem Zweck, aus Formularen (10), deren Gestaltung und Informationsgehalt (19) zum voraus nicht bekannt ist, durch Einlesen derselben in die genannten Mittel, verbunden mit dem Speichern von Mustern derselben, wobei das Verfahren adaptiv (224) ist und das selbsttätige Erlernen und die Registrierung der Gestaltung von Formularen beinhaltet, welche nicht zum voraus Formularvorlagen definieren, dadurch gekennzeichnet, dass es die folgenden Schritte zur Erzielung der adaptiven Registrierung umfasst: Erzeugung eines Formularplans (18) auf der Grundlage der Gestaltung des zuvor unbekannten Formulars (10) zwecks Erkennung (210) der im Formular enthaltenen Informationen; Suche und Vergleich (210, 220) des Formularplans (18) mit gespeicherten, registrierten Plänen in einem Mittel zum Speichern von Formularplänen; Speicherung (238) von erzeugten Formularplänen (18) im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan zusammenfallen; Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und Weiterführung der Datenerfassung (232) zur Erkennung des Informationsgehalts des Formulars.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Formularplan (18) aus einer Objektbereichsliste von im Formular enthaltenen Objekten (19) besteht.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Objekt (19) aus Farben und/oder ganz oder teilweise aus Text besteht.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Formularplan (18) einen Linienplan mit Linienelementen (14, 15) aus dem Formular (10) bildet.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die waagrechten Linien (15) im Linienplan benutzt werden, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
  6. Verfahren nach den Ansprüchen 4 und 5, dadurch gekennzeichnet, dass die senkrechten Linien (14) im Linienplan benutzt werden, um einen senkrechten Schlüssel zu erzeugen, indem das Formular (10) in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
  7. Verfahren nach den Ansprüchen 5 und 6, dadurch gekennzeichnet, dass mindestens ein Linienelement (14, 15), das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Linienelement in der entsprechenden Schlüsselposition unmarkiert bleiben.
  8. Verfahren nach den Ansprüchen 4 bis 7, dadurch gekennzeichnet, dass der waagrechte und/oder der senkrechte Schlüssel einen Linienschlüssel im Linienplan (18) bilden, wobei der erzeugte Linienschlüssel während der genannten Suche mit im Speichermittel gespeicherten Linienschlüsseln verglichen wird (214), um eine Übereinstimmung zu überprüfen.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Linienschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
  10. Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, dass die waagrechte Position des Objekts in der Objektbereichsliste benutzt wird, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
  11. Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, dass die senkrechte Position des Objekts in der Objektbereichsliste benutzt wird, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
  12. Verfahren nach den Ansprüchen 10 und 11, dadurch gekennzeichnet, dass mindestens ein Objekt, das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Objekt in der entsprechenden Schlüsselposition unmarkiert bleiben.
  13. Verfahren nach den Ansprüchen 10 bis 12, dadurch gekennzeichnet, dass ein waagrechter und/oder senkrechter Schlüssel einen Objektschlüssel in der Objektbereichsliste (18) bilden, wobei der erzeugte Objektschlüssel während der genannten Suche mit im Speichermittel gespeicherten Objektschlüsseln verglichen wird, um eine Obereinstimmung zu überprüfen.
  14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass die Objektschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
  15. Verfahren nach den Ansprüchen 1 bis 14, dadurch gekennzeichnet, dass die Suche (210, 218) eine vorbestimmte Anzahl angeforderter wahrscheinlicher Kandidaten für das gerade gesuchte Formular ergibt.
  16. Verfahren nach den Ansprüchen 1 bis 15, dadurch gekennzeichnet, dass die Identität des Formulars durch die Datenerfassung eines Erkennungswerts (RCG)(214) bestätigt wird, der ein Formular eindeutig kennzeichnet.
  17. Anordnung zur automatischen Datenerfassung durch ein Mittel zu diesem Zweck, aus Formularen (10), deren Gestaltung und Informationsgehalt (19) zum voraus nicht bekannt ist, durch Einlesen derselben in die genannten Mittel, verbunden mit dem Speichern von Mustern derselben, wobei die Anordnung adaptiv lernt und die Gestaltung von Formularen registriert, welche nicht zum voraus eine Formularvorlage definieren und einen Computer beinhaltet, gekennzeichnet durch die folgenden Mittel zur Durchführung der adaptiven Registrierung (238): Mittel zur Erzeugung eines Formularplans (18) auf der Grundlage der Gestaltung des zuvor unbekannten Formulars (10) zwecks Erkennung der im Formular enthaltenen Informationen; Mittel zum Suchen und Vergleichen des Formularplans mit gespeicherten, erkannten Plänen in einem Mittel zum Speichern von Formularplänen; Mittel zum Speichern (238) erzeugter Formularpläne (18) im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan zusammenfallen; Mittel zur Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und Mittel zur Erkennung und zur weiterführenden Datenerfassung (232) des Informationsgehalts des Formulars.
  18. Anordnung nach Anspruch 17, dadurch gekennzeichnet, dass der Formularplan (18) aus einer Objektbereichsliste von im Formular (10) enthaltenen Objekten (19) besteht.
  19. Anordnung nach Anspruch 18, dadurch gekennzeichnet, dass das Objekt (19) aus Farben und/oder ganz oder teilweise aus Text besteht.
  20. Anordnung nach Anspruch 17, dadurch gekennzeichnet, dass der Formularplan (18) einen Linienplan mit Linienelementen (14, 15) aus dem Formular bildet.
  21. Anordnung nach Anspruch 20, dadurch gekennzeichnet, dass die waagrechten Linien (15) im Linienplan benutzt werden, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
  22. Anordnung nach den Ansprüchen 20 und 21, dadurch gekennzeichnet, dass die senkrechten Linien (14) im Linienplan benutzt werden, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
  23. Anordnung nach den Ansprüchen 21 und 22, dadurch gekennzeichnet, dass mindestens ein Linienelement (14, 15), das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Linienelement in der entsprechenden Schlüsselposition unmarkiert bleiben.
  24. Anordnung nach den Ansprüchen 21 bis 23, dadurch gekennzeichnet, dass der waagrechte und/oder der senkrechte Schlüssel einen Linienschlüssel im Linienplan bilden, wobei der erzeugte Linienschlüssel während der genannten Suche mit im Speichermittel gespeicherten Linienschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
  25. Anordnung nach Anspruch 24, dadurch gekennzeichnet, dass die Linienschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
  26. Anordnung nach den Ansprüchen 17 und 18, dadurch gekennzeichnet, dass die waagrechte Position des Objekts (19) in der Objektbereichsliste benutzt wird, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
  27. Anordnung nach den Ansprüchen 17 und 18, dadurch gekennzeichnet, dass die senkrechte Position des Objekts (19) in der Objektbereichsliste benutzt wird, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
  28. Anordnung nach den Ansprüchen 26 und 27, dadurch gekennzeichnet, dass mindestens ein Objekt, das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Objekt in der entsprechenden Schlüsselposition unmarkiert bleiben.
  29. Anordnung nach den Ansprüchen 26 bis 28, dadurch gekennzeichnet, dass ein waagrechter und/oder ein senkrechter Schlüssel einen Objektschlüssel in der Objektbereichsliste (18) bilden, wobei der erzeugte Objektschlüssel während der genannten Suche mit im Speichermittel gespeicherten Objektschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
  30. Anordnung nach Anspruch 29, dadurch gekennzeichnet, dass die Objektschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
  31. Anordnung nach den Ansprüchen 17 bis 30, dadurch gekennzeichnet, dass die Suche eine vorbestimmte Anzahl angeforderter wahrscheinlicher Kandidaten für das gerade gesuchte Formular ergibt.
  32. Anordnung nach den Ansprüchen 17 bis 31, dadurch gekennzeichnet, dass die Identität des Formulars durch die Datenerfassung eines Erkennungswerts (RCG)(214) bestätigt wird, der ein Formular eindeutig kennzeichnet.
DE69817171T 1997-04-01 1998-04-01 Verfahren und anordnung zur automatischen formulardaten-erfassung Revoked DE69817171T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9701183 1997-04-01
SE9701183A SE511242C2 (sv) 1997-04-01 1997-04-01 Förfarande och anordning för automatisk datafångst hos formulär
PCT/SE1998/000602 WO1998047098A1 (en) 1997-04-01 1998-04-01 Method and arrangement for automatic data acquisition of forms

Publications (2)

Publication Number Publication Date
DE69817171D1 DE69817171D1 (de) 2003-09-18
DE69817171T2 true DE69817171T2 (de) 2004-06-17

Family

ID=20406387

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69817171T Revoked DE69817171T2 (de) 1997-04-01 1998-04-01 Verfahren und anordnung zur automatischen formulardaten-erfassung

Country Status (9)

Country Link
EP (1) EP0976092B1 (de)
AT (1) ATE247306T1 (de)
AU (1) AU6861798A (de)
DE (1) DE69817171T2 (de)
DK (1) DK0976092T3 (de)
ES (1) ES2207824T3 (de)
PT (1) PT976092E (de)
SE (1) SE511242C2 (de)
WO (1) WO1998047098A1 (de)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2801997A1 (fr) 1999-12-02 2001-06-08 Itesoft Technologie adaptative d'analyse automatique de document
DE10342594B4 (de) * 2003-09-15 2005-09-15 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE10345526A1 (de) 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US8885229B1 (en) 2013-05-03 2014-11-11 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US8571262B2 (en) 2006-01-25 2013-10-29 Abbyy Development Llc Methods of object search and recognition
RU2006101908A (ru) 2006-01-25 2010-04-27 Аби Софтвер Лтд. (Cy) Структурное описание документа, способ описания структуры графических объектов и способы их распознавания (варианты)
GB0622863D0 (en) 2006-11-16 2006-12-27 Ibm Automated generation of form definitions from hard-copy forms
EP1956517A1 (de) * 2007-02-07 2008-08-13 WinBooks s.a. Computerunterstütztes Verfahren zu Verarbeitung von Buchhaltungsvorgängen und Softwareprodukt zur Umsetzung dieses Verfahrens
US8094976B2 (en) * 2007-10-03 2012-01-10 Esker, Inc. One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data
US8108764B2 (en) 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8345981B2 (en) 2009-02-10 2013-01-01 Kofax, Inc. Systems, methods, and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US8879846B2 (en) 2009-02-10 2014-11-04 Kofax, Inc. Systems, methods and computer program products for processing financial documents
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349063B2 (en) 2010-10-22 2016-05-24 Qualcomm Incorporated System and method for capturing token data with a portable computing device
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10241992B1 (en) 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
US5293429A (en) * 1991-08-06 1994-03-08 Ricoh Company, Ltd. System and method for automatically classifying heterogeneous business forms

Also Published As

Publication number Publication date
WO1998047098A1 (en) 1998-10-22
EP0976092B1 (de) 2003-08-13
DE69817171D1 (de) 2003-09-18
AU6861798A (en) 1998-11-11
ATE247306T1 (de) 2003-08-15
DK0976092T3 (da) 2003-12-08
PT976092E (pt) 2003-12-31
SE511242C2 (sv) 1999-08-30
SE9701183D0 (sv) 1997-04-01
ES2207824T3 (es) 2004-06-01
SE9701183L (sv) 1998-10-02
EP0976092A1 (de) 2000-02-02

Similar Documents

Publication Publication Date Title
DE69817171T2 (de) Verfahren und anordnung zur automatischen formulardaten-erfassung
DE69637073T2 (de) Prozessor und verarbeitungsverfahren für dokumente
DE60116442T2 (de) System zur Zuordnung von Schlüsselwörtern zu Dokumenten
DE4212802C2 (de) Dateisystem
DE60120810T2 (de) Verfahren zur Dokumenterkennung und -indexierung
DE69633809T2 (de) Verarbeitung von maschinell lesbaren Vordrucken
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE4216893C2 (de) Dateneingabeverfahren
DE19547812C2 (de) Lesegerät für Schriftzeichenketten
DE69333431T2 (de) Verfahren zum Erkennen von handgeschriebenen Symbolen
DE69915566T2 (de) Zusammenstellung und Änderung von Fotocollagen durch Bilderkennung
DE19705757C2 (de) Verfahren zum Erkennen eines Eingabemusters und zum Erzeugen einer Datenbank sowie Zeichenerkennungssystem
DE60204005T2 (de) Verfahren und einrichtung zur erkennung eines handschriftlichen musters
DE10162156A1 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle
DE112007001792T5 (de) Verfahren und Vorrichtung zum Vergleichen von Dokumentmerkmalen mittels einer Mustererkennung
DE4311172A1 (de) Verfahren und Einrichtung zum Korrigieren der Schräge eines Vorlagenbildes sowie Vorlagensegmentierungssystem
DE10317234A1 (de) Systeme und Verfahren für eine verbesserte Genauigkeit von einem extrahierten digitalen Inhalt
DE60031502T2 (de) Verfahren und Vorrichtung zur Typbestimmung eines Formblatts
WO2005119580A1 (de) Verfahren und einrichtung zur strukturanalyse eines dokuments
DE69820578T2 (de) Verfahren und Mittel um Dokumente zu Vergleichen auf der Basis des räumlichen Layouts
DE60005706T2 (de) Anpassungfähige technologie zur automatischen dokumentenanalyse
DE60123730T2 (de) Gerät und Verfahren zur Bestimmung des Formats von Dokumenten
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
CH716082A1 (de) Verfahren zur Benutzeridentifikation.
DE102019204602A1 (de) Verfahren und Vorrichtung zur Maskierung von in einem Bild enthaltenen Objekten

Legal Events

Date Code Title Description
8363 Opposition against the patent
8331 Complete revocation