DE69817171T2 - Verfahren und anordnung zur automatischen formulardaten-erfassung - Google Patents
Verfahren und anordnung zur automatischen formulardaten-erfassung Download PDFInfo
- Publication number
- DE69817171T2 DE69817171T2 DE69817171T DE69817171T DE69817171T2 DE 69817171 T2 DE69817171 T2 DE 69817171T2 DE 69817171 T DE69817171 T DE 69817171T DE 69817171 T DE69817171 T DE 69817171T DE 69817171 T2 DE69817171 T2 DE 69817171T2
- Authority
- DE
- Germany
- Prior art keywords
- key
- line
- horizontal
- plan
- vertical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Revoked
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Description
- Technisches Gebiet
- Die vorliegende Erfindung betrifft ein Verfahren und eine Anordnung zur automatischen Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt ist, durch Einlesen derselben in die genannten Mittel und Speichern von Mustern derselben.
- Stand der Technik
- Für Unternehmen, Organisationen und andere ist es ein Problem, die in verschiedenen Arten von Formularen, Dokumenten usw. enthaltene Information nutzbringend zu verwenden.
- Mit der neuen, modernen Technologie können diese Materialien mittels eines Scanners eingescannt und über handelsübliche Softwareprogramme in eine Datenbank eingegeben werden. Das Sortieren, die Identifikation und andere routinemässige Prüfungen müssen jedoch zu einem grossen Teil immer noch von Hand über die Anzeige bzw. den Bildschirm des Computers erfolgen.
- Um beispielsweise eine Rechnung ein und derselben Firma als einzelnes spezifisch gestaltetes Dokument mit einem Schriftzug und anderen visuellen Elementen zu speichern, muss dieses überarbeitet werden, um das Format an die Software anzupassen, und anschliessend in einer Datenbank gespeichert werden. Dieser und andere Vorgänge müssen jedes Mal wiederholt werden, wenn eine Rechnung mit einer neuen Gestaltung mit der Software eingescannt wird.
- Um eine Rechnung einer bereits registrierten Firma zu identifizieren, wird oft die ganze Rechnung durchsucht, was zeitraubend ist. Bestimmte Softwareprogramme besitzen zwar Suchroutinen, welche den Umfang dieser Suche vermindern. Es ist jedoch schwierig, sich gegen verwischte oder handgeschriebene Textzeilen usw. abzusichern.
- Bei all jenen, welche mit Rechnungen und anderen Formularen zu tun haben, besteht deshalb ein Bedürfnis, diese schnell identifizieren zu können und/oder neue Muster schnell erfassen und in ihrem Rechnungswesen speichern zu können.
- Das Patent US-A-4 933 979 beschreibt die herkömmliche Datenerfassung aus Formularen, wobei vordefinierte Vorlagen/Muster benötigt werden, ohne selbsttätige (adaptive) Lernfähigkeit. Zur Identifikation eines Formulars werden vorbestimmte, gespeicherte Rahmen eines Formulars verwendet.
- Das Patent US-A-5 140 650 erwähnt die Datenerfassung aus Formularen mit der sogenannten "Form-out"-Technologie, bei welcher das Originaldokument abgedeckt wird und nur die "ausgefüllten" Teile übernommen werden. Diese Datenerfassung wird oft kombiniert mit der Datenerfassung gemäss US-A-4 933 979. Dieses Patent bietet keine adaptive Funktion für die Datenerfassung aus unbekannten Formularen.
- Ein weiteres Patent, nämlich US-A-5 293 429, betrifft die Klassifizierung von Dokumenten anhand von Linien auf den Dokumenten und bezieht sich nicht direkt auf die Datenerfassung oder auf eine adaptive Funktion zu diesem Zweck. US-A-5 293 429 gestattet keine Identifikation von Linien mit Objektbereichen (Bereichen mit Text) und eines "RCG-Werts" (ReCoGnition, d. h. eine Zahl, welche ein Dokument eindeutig identifiziert).
- In keinem der erwähnten Patente wird ein Formularplan für ein Formular generiert, welches dem System gemäss dem Patent nicht bekannt ist, und der Plan zwecks Erkennung bei der nächsten Gelegenheit zur Identifikation in Echtzeit in einer Formulardatenbank gespeichert. Bei den Erfindungen gemäss diesen Patenten muss das unbekannte Formular deshalb zu einem späteren Zeitpunkt auf andere Art gespeichert werden.
- Zusammenfassung der Erfindung
- Ein Ziel vorliegender Erfindung besteht darin, u. a. die oben genannten Probleme bei der sogenannten automatischen Datenerfassung (Interpretation) im Zusammenhang mit der Verarbeitung papiergebundener Informationen zu lösen.
- Die vorliegende Erfindung betrifft ein System (Verfahren und Anordnung) zur automatischen Datenerfassung aus Formularen, bei welchem das System keine Vorkenntnisse über das Aussehen des Formulars oder über den Ort auf dem Formular besitzt, wo die Informationen zu finden sind. Auf diese Weise müssen Vorlagen von Formularen nicht vorgängig definiert werden, sondern diese werden registriert, wenn sie dem System vorgelegt werden, d. h. in Echtzeit.
- Um die obigen Ziele zu erreichen, wird erfindungsgemäss ein Verfahren und eine Anordnung zur automatischen Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt sind, durch Einlesen derselben in die genannten Mittel und gleichzeitiges Speichern von Mustern derselben angegeben. Das Verfahren ist adaptiv und beinhaltet somit das Erlernen und die Registrierung von Formularen als Muster ohne eingefügten Text, sowie die folgenden Schritte zur Erzielung der adaptiven Registrierung:
Erzeugung eines Formularplans auf der Grundlage der Gestaltung des zuvor unbekannten Formulars zwecks Erkennung von im Formular enthaltenen Informationen;
Suche und Vergleich des Formularplans mit gespeicherten, registrierten Plänen in einem Mittel zum Speichern von Formularplänen;
Speicherung von erzeugten Formularplänen im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan übereinstimmen;
Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und
weiterführende Datenerfassung zur Erkennung des Informationsgehalts des Formulars. - In einer Ausführung vorliegender Erfindung kann der Formularplan aus einer Objektbereichsliste von im Formular enthaltenen Objekten bestehen, wobei das Objekt aus Farben und/oder ganz oder teilweise aus Text besteht.
- In einer Ausführungsvariante bildet der Formularplan einen Linienplan mit Objekten in Form von farbigen Linien auf dem Formular.
- Waagrechte Linien im Linienplan werden verwendet, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
- Senkrechte Linien im Linienplan werden verwendet, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
- Mindestens ein in einem Segment enthaltenes Linienelement wird in der entsprechenden Schlüsselposition markiert, und Segmente ohne Linienelement bleiben in der entsprechenden Schlüsselposition unmarkiert.
- Ein waagrechter und/oder senkrechter Schlüssel bilden einen Linienschlüssel im Linienplan, wobei der erzeugte Linienschlüssel während der genannten Suche mit im Mittel gespeicherten Linienschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
- Die Linienschlüssel sind im Speichermittel nach der Anzahl Markierungen sortiert.
- Die waagrechte Position des Objekts in der Objektbereichsliste wird verwendet, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
- Die senkrechte Position des Objekts in der Objektbereichsliste wird verwendet, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
- Mindestens ein in einem Segment enthaltenes Objekt wird in der entsprechenden Schlüsselposition markiert, und Segmente ohne Objekt bleiben in der entsprechenden Schlüsselposition unmarkiert.
- Ein waagrechter und/oder senkrechter Schlüssel bilden einen Objektschlüssel in der Objektbereichsliste, wobei der erzeugte Objektschlüssel während der genannten Suche mit im Mittel gespeicherten Objektschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
- Die Objektschlüssel sind im Speichermittel vorzugsweise nach der Anzahl Markierungen sortiert.
- Die Suche ergibt eine vorbestimmte Anzahl angeforderter wahrscheinlicher Kandidaten für das gerade gesuchte Formular.
- Nötigenfalls kann die adaptive Registrierung oder Identifikation des neuen Formulars bzw. von registrierten Formularen, falls mehrere Kandidaten gemäss einem Verdienstfaktor wahrscheinlich erscheinen, von einer Bedienungsperson ganz oder teilweise manuell unterstützt werden.
- Schliesslich wird die Identität des Formulars durch die Datenerfassung eines Erkennungswerts (RCG) bestätigt.
- Weiter wird eine erfindungsgemässe Anordnung zur Durchführung des obigen Verfahrens angegeben.
- Die Anordnung gestattet die automatisierte Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt sind, durch Einlesen derselben in die genannte Anordnung und gleichzeitiges Speichern von Mustern derselben. Die Anordnung lernt adaptiv und registriert die Gestaltung des Formulars, und sie beinhaltet einen Computer mit den folgenden Mitteln zur Durchführung der adaptiven Registrierung:
Mittel zur Erzeugung eines Formularplans auf der Grundlage der Gestaltung des zuvor unbekannten Formulars zwecks Erkennung der im Formular enthaltenen Informationen;
Mittel zum Durchsuchen und Vergleichen des Formularplans mit gespeicherten, registrierten Plänen in einem Mittel zum Speichern von Formularplänen;
Mittel zum Speichern erzeugter Formularpläne im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan übereinstimmen;
Mittel zur Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und
Mittel zur Erkennung und zur weiterführenden Datenerfassung des Informationsgehalts des Formulars. - Zusätzlich kann die Anordnung das oben angegebene erfindungsgemässe Verfahren beinhalten bzw, verkörpern, wie dies aus den nachfolgenden abhängigen Vorrichtungsansprüchen weiter hervorgeht.
- Kurzbeschreibung der Zeichnungen
- Die beigefügten Zeichnungen und die zugehörige Beschreibung ermöglichen ein besseres Verständnis der vorliegenden Erfindung.
-
1 zeigt schematisch, wie aus einer eingescannten Rechnung ein Linienmuster gewonnen wird. -
2 zeigt schematisch ein Flussdiagramm für das Scannen, die Identifikation, die Interpretation und die Validierung eines Formulars gemäss vorliegender Erfindung. - Ausführliche Beschreibung bevorzugter Ausführungsformen
- In der weiteren Beschreibung vorliegender Erfindung werden die Formulare als Rechnungen dargestellt. Die Erfindung ist jedoch nicht auf Rechnungsformulare beschränkt, sondern umfasst auch allgemeine Dokumente mit Text, Zahlen usw. als Formulare. Rechnungen werden hier als ein Beispiel eines Formulars verwendet, um die Erfindung beispielhaft darzustellen.
-
1 zeigt schematisch einen Teil der Rechnung10 , welche in einen Computer eingescannt wird und auf der Anzeige angezeigt wird. Anhand der Rechnung10 ist ersichtlich, dass diese nach dem Scannen oder Einlesen unklar oder verwischt ist. - Die Rechnung
10 besteht teilweise aus einem Schriftzug12 und aus den senkrechten14 und waagrechten Linienelementen15 . - Es ist zu beachten, dass auch der Schriftzug lange schwarze oder unterschiedlich dunkle Linienelemente
16 aufweist, welche teilweise in einem Linienplan18 gemäss vorliegender Erfindung aufgezeichnet wurden und auf das Aussehen des ursprünglichen Schriftzugs12 hindeuten, wodurch die Identifikation erleichtert wird, wenn die Rechnung so zu identifizieren ist wie sie in einer Formularplan-Datenbank registriert ist. Farbige Linien beinhalten ebenfalls Graustufen. - Aus dem Formularplan, der in diesem Fall aus dem Linienplan
18 besteht, wurden andere Objekte19 wie beispielsweise Textobjekte oder farbige Objekte ganz oder teilweise ausgefiltert, und ebenso die erwähnten Linienobjekte, welche Farbe enthalten, was hier nicht darstellbar ist, und welche ebenso wie zahlreiche farbige Felder auf einem Formular10 vorhanden sein können. - Eine Rechnung
10 , welche gemäss vorliegender Erfindung vorbereitet wurde – nachfolgend als EH (Eyes & Hands) bezeichnet – muss in einem frühen Stadium identifiziert werden. Für eine erfolgreiche Identifikation muss EH bei einer früheren Gelegenheit gelernt haben, wie die gegenwärtige Rechnung10 aussieht, was einfach gesagt bedeutet, dass Informationen über die Rechnung in der Formular-Datenbank von EH verfügbar sind. - Die Identifikation muss notwendigerweise schnell erfolgen, und zwar in einer Datenbank, welche eine sehr grosse Anzahl von Rechnungsidentitäten
18 enthält. Es ist nicht ungewöhnlich, dass Datenbanken mehr als 10'000 Identitäten18 enthalten. - Bei dem Verfahren und der Anordnung, welche bei EH zur Anwendung kommen, braucht eine Rechnung nicht immer auf genau die gleiche Art durch einen Scanner geführt zu werden, d. h. die Informationen auf der Rechnung können innerhalb eines bestimmten Masses oder Grenzwerts in der X- und der Y-Achse variieren.
1 zeigt schematisch ein kartographisches Koordinatensystem. - Erfindungsgemäss beinhaltet (EH) in einer Ausführungsform, dass EH die Rechnung nach allen senkrechten
14 und waagrechten Linienelementen15 einer bestimmten Länge durchsucht. Die Linien14 ,15 müssen nicht frei stehen und isoliert sein, sondern sie können beispielsweise Teil eines grösseren Schriftzugs12 wie ReadSoft AB in1 sein. Der Schriftzug12 wird im Linienplan18 als Linienelement16 dargestellt. - Die waagrechten Linien
15 und die senkrechten Linien14 bilden die Grundlage für die Erzeugung eines waagrechten Schlüssels (H-Schlüssel) bzw. eines senkrechten Schlüssels (V-Schlüssel) wie folgt: - – Die Rechnung wird entlang
der Y-Achse (nicht dargestellt) in eine grosse Anzahl waagrechte Segmente
aufgeteilt. Jedes Segment entspricht einer Position im h-Schlüssel. Wenn
ein bestimmtes Segment eines oder mehrere Linienelemente
15 enthält, wird bei der entsprechenden Schlüsselposition eine Markierung (tag) gesetzt. Wenn nicht, wird ein leeres Feld, eine investierte Markierung oder sonst ein Element verwendet, das sich von einer Markierung unterscheidet. - – Entlang
der X-Achse wird auf ähnliche
Weise ein V-Schlüssel für die senkrechten
Linienelemente
14 erzeugt. - – Die
H- und V-Schlüssel
erhalten Bezeichnungen und bilden zusammen einen Linienschlüssel. Darauf
folgt ein Suchlauf, d. h. der gegenwärtige Linienschlüssel wird
mit Linienschlüsseln
von bekannten Rechnungen
10 verglichen, welche in der EH-Datenbank vorhanden sind. Bei diesem Vergleich wird berücksichtigt, dass die Position einzelner Linien oder Linienelemente14 ,15 etwas variieren kann, und auch dass das ganze Linienmuster in der X- und Y-Richtung innerhalb bestimmter geeigneter Werte waagrecht bzw. senkrecht verschoben sein kann. - – Die Linienschlüssel in der Datenbank werden nach der Anzahl Markierungen (tags) sortiert, die verwendet werden, um die Suche effizienter zu machen.
- – Die
Suche ergibt eine vorbestimmte Anzahl wahrscheinlicher Kandidaten
für die
Identität
der betreffenden Rechnung
10 . Allen Kandidaten wird ein Verdienstfaktor zugeordnet bzw. eine Wahrscheinlichkeit, dass es sich um die betreffende Rechnung handelt. - – Die Identität der Rechnung wird schliesslich bestätigt, indem eine Interpretation des sogenannten RCG-Werts erfolgt (RCG: ReCoGnition). Der RCG-Wert ist ein Wert an einer bestimmten Stelle, der für die betreffende Rechnung bzw, den Lieferanten oder ein anderes Formular eindeutig ist. Beispiele solcher Werte sind Bankgironummern, Postgironummern, Rechnungsnummern, Totalbeträge etc.
- Die genannten Segmente können beispielsweise karierte Muster sein, die je nach den relativen Anforderungen an die Suchgeschwindigkeit unterschiedlich fein gerastert sind.
- Die Linienschlüssel können auch bei Objekten zur Anwendung kommen, welche ganz oder teilweise aus Text und Farben bestehen. Es werden ihnen Linienschlüssel aus einer Objektbereichsliste zugeordnet, welche X- und Y-Schlüssel für das Objekt enthält. Die Objektbereichsliste kann beispielsweise aus Positionen für bestimmte ausgewählte Objekte bestehen. Die oben angegebenen Prinzipien für Linienpläne sind auch geeignet für andere Objekte als Linienelemente zur Identifikation von Formularen.
- Wenn die Linienschlüssel in der Datenbank nicht auffindbar sind, bedeutet dies, dass die Rechnung nicht bekannt ist, so dass die neuen Linienschlüssel in der Datenbank gespeichert werden, welche auf diese Weise in Echtzeit auf den neuesten Stand gebracht wird.
- Nötigenfalls kann die adaptive Registrierung und/oder Ldentifikation eines neuen bzw. eines registrierten Formulars, falls gemäss einem Verdienstfaktor mehrere wahrscheinliche Kandidaten angeboten werden, von einer Bedienungsperson über ihren Computer ganz oder teilweise manuell unterstützt werden.
- Weiterhin beinhaltet die vorliegende Erfindung eine Anordnung zur Durchführung des erfindungsgemässen Verfahrens.
- Die Anordnung gestattet die automatische Datenerfassung durch ein Mittel zu diesem Zweck aus Formularen, deren Gestaltung und Informationsgehalt zum Voraus nicht bekannt sind, durch Einlesen derselben in die genannte Anordnung und gleichzeitiges Speichern von Mustern derselben. Die Anordnung registriert adaptiv und erlernt die Gestaltung von Formularen, und sie beinhaltet einen Computer mit den folgenden Mitteln zur Durchführung der adaptiven Registrierung:
Mittel zur Erzeugung eines Formularplans auf der Grundlage der Gestaltung des zuvor unbekannten Formulars zwecks Erkennung der im Formular enthaltenen Informationen;
Mittel zum Durchsuchen und Vergleichen des Formularplans mit gespeicherten, erkannten Plänen in einem Mittel zum Speichern von Formularplänen;
Mittel zum Speichern erzeugter Formularpläne im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan übereinstimmen;
Mittel zur Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und
Mittel zur Erkennung und zur weiterführenden Datenerfassung des Informationsgehalts des Formulars. - Die genannten Mittel werden vorzugsweise durch Computerhardware und -Software gesteuert, beispielsweise durch:
- Einen Scanner zur Erfassung von Daten.
- Ein elektronisches Speichermedium (Harddisk, CD-ROM, usw.), um mit dem Mittel Informationen zu speichern. Zeichen, Symbole, Signalgeneratoren usw. für Anzeigefunktionen.
- Filter und Komparatoren für Suchläufe und Vergleiche mit dem Mittel, sowie Filter und Register für die Identifikation.
- Insgesamt sind alle in der vorliegenden Erfindung verwendeten Mittel dem Fachmann bekannt, aber deren Koordination zur Erreichung des Ziels der Erfindung ist neu.
- In einer Ausführungsform vorliegender Erfindung gemäss
2 ist ein schematisches Flussdiagramm dargestellt, welches das Scannen, die Identifikation, die Interpretation und die Validierung eines Formulars gemäss vorliegender Erfindung zeigt. -
2 ist durch punktierte Linien in Teilbereiche unterteilt, um die verschiedenen Schritte des erfindungsgemässen Verfahrens zu erläutern, wobei diese Schritte das Einscannen des Formulars200 , die Identifikation des Formulars210 , die Interpretation des Formulars220 und die Validierung des Formulars230 umfassen. - Das Formular wird in EH eingescannt
200 , gefolgt von der Identifikation210 . Die Identifikation besteht aus der Erzeugung eines Linienplans212 , oder wahlweise -einer Objektbereichsliste, wobei ein Linienschlüssel erzeugt wird. Daraufhin wird das Formular10 mit bekannten Schlüsseln in der Formplan-Datenbank verglichen214 , wobei eine Bestätigung der Erkennung durch den RCG-Wert erfolgt. Der nächste Schritt beinhaltet die Entscheidung, ob die Erkennung gemäss den Bedingungen "ja" oder "nein" erfolgreich war 216. Falls die Entscheidung "ja" lautet, wird eine bedingte Nachforschung durchgeführt um festzustellen, ob weitere Kandidaten in Form von Linienschlüsseln218 vorhanden sind. Falls die Antwort hier "ja" lautet, wird eine Schleife214 ,216 ,218 durchlaufen, bis schliesslich eine erfolgreiche Erkennung erfolgt oder bis keine weiteren Linienschlüsselkandidaten mehr angeboten werden218 . - Im Fall einer erfolgreichen Erkennung beginnt sodann die Interpretation
220 des Formulars durch Interpretation mit Hilfe des gegenwärtigen Formularplans222 , worauf die Validierung230 oder die Evaluation232 der Felder des Formulars10 erfolgt. Wahlweise kann eine Bedienungsperson die Auswahl unterstützen, falls mehrere Felder in Frage kommen234 . - Wenn die Erkennung
210 nicht gelingt und keine weiteren Linienschlüssel angeboten werden218 , erfolgt die Interpretation220 durch selbsttätiges Lernen mittels einer Formulardefinition224 . Die Formulardefinition besteht aus einer Vorlage oder einer Anzahl Regeln, welche die gemeinsamen Elemente einer bestimmten Gruppe von Formularen beschreiben, beispielsweise schwedische Rechnungen. Daraufhin wird der RCG-Wert interpretiert226 und eine Entscheidung darüber getroffen228 , ob der gegenwärtige RCG-Wert in der Formulardatenbank vorkommt. Falls die Antwort "ja" lautet, beginnt eine Neuinterpretation229 , gefolgt von einer weiterführenden Interpretation222 , welche zu einer Validierung232 führt. - Falls die Antwort jedoch "nein" lautet, beginnt die Validierung
230 ,236 , worauf das Formular in der Formularplandatenbank mit dem Linienschlüssel238 gespeichert wird. Vor den Schritten236 ,238 kann die Bedienungsperson den selbsttätigen Lernprozess unterstützen, wenn mehrere Felder in Frage kommen. - Die oben beschriebenen Ausführungsformen vorliegender Erfindung sind mögliche Ausführungen, solten jedoch die Erfindung als solche nicht einschränken, da weitere Ausführungsformen für den Fachmann aus den nachfolgenden Ansprüchen hervorgehen.
Claims (32)
- Verfahren zur automatischen Datenerfassung (
200 ) durch ein Mittel zu diesem Zweck, aus Formularen (10 ), deren Gestaltung und Informationsgehalt (19 ) zum voraus nicht bekannt ist, durch Einlesen derselben in die genannten Mittel, verbunden mit dem Speichern von Mustern derselben, wobei das Verfahren adaptiv (224 ) ist und das selbsttätige Erlernen und die Registrierung der Gestaltung von Formularen beinhaltet, welche nicht zum voraus Formularvorlagen definieren, dadurch gekennzeichnet, dass es die folgenden Schritte zur Erzielung der adaptiven Registrierung umfasst: Erzeugung eines Formularplans (18 ) auf der Grundlage der Gestaltung des zuvor unbekannten Formulars (10 ) zwecks Erkennung (210 ) der im Formular enthaltenen Informationen; Suche und Vergleich (210 ,220 ) des Formularplans (18 ) mit gespeicherten, registrierten Plänen in einem Mittel zum Speichern von Formularplänen; Speicherung (238 ) von erzeugten Formularplänen (18 ) im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan zusammenfallen; Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und Weiterführung der Datenerfassung (232 ) zur Erkennung des Informationsgehalts des Formulars. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Formularplan (
18 ) aus einer Objektbereichsliste von im Formular enthaltenen Objekten (19 ) besteht. - Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Objekt (
19 ) aus Farben und/oder ganz oder teilweise aus Text besteht. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Formularplan (
18 ) einen Linienplan mit Linienelementen (14 ,15 ) aus dem Formular (10 ) bildet. - Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die waagrechten Linien (
15 ) im Linienplan benutzt werden, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht. - Verfahren nach den Ansprüchen 4 und 5, dadurch gekennzeichnet, dass die senkrechten Linien (
14 ) im Linienplan benutzt werden, um einen senkrechten Schlüssel zu erzeugen, indem das Formular (10 ) in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht. - Verfahren nach den Ansprüchen 5 und 6, dadurch gekennzeichnet, dass mindestens ein Linienelement (
14 ,15 ), das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Linienelement in der entsprechenden Schlüsselposition unmarkiert bleiben. - Verfahren nach den Ansprüchen 4 bis 7, dadurch gekennzeichnet, dass der waagrechte und/oder der senkrechte Schlüssel einen Linienschlüssel im Linienplan (
18 ) bilden, wobei der erzeugte Linienschlüssel während der genannten Suche mit im Speichermittel gespeicherten Linienschlüsseln verglichen wird (214 ), um eine Übereinstimmung zu überprüfen. - Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Linienschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
- Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, dass die waagrechte Position des Objekts in der Objektbereichsliste benutzt wird, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht.
- Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, dass die senkrechte Position des Objekts in der Objektbereichsliste benutzt wird, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht.
- Verfahren nach den Ansprüchen 10 und 11, dadurch gekennzeichnet, dass mindestens ein Objekt, das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Objekt in der entsprechenden Schlüsselposition unmarkiert bleiben.
- Verfahren nach den Ansprüchen 10 bis 12, dadurch gekennzeichnet, dass ein waagrechter und/oder senkrechter Schlüssel einen Objektschlüssel in der Objektbereichsliste (
18 ) bilden, wobei der erzeugte Objektschlüssel während der genannten Suche mit im Speichermittel gespeicherten Objektschlüsseln verglichen wird, um eine Obereinstimmung zu überprüfen. - Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass die Objektschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
- Verfahren nach den Ansprüchen 1 bis 14, dadurch gekennzeichnet, dass die Suche (
210 ,218 ) eine vorbestimmte Anzahl angeforderter wahrscheinlicher Kandidaten für das gerade gesuchte Formular ergibt. - Verfahren nach den Ansprüchen 1 bis 15, dadurch gekennzeichnet, dass die Identität des Formulars durch die Datenerfassung eines Erkennungswerts (RCG)(
214 ) bestätigt wird, der ein Formular eindeutig kennzeichnet. - Anordnung zur automatischen Datenerfassung durch ein Mittel zu diesem Zweck, aus Formularen (
10 ), deren Gestaltung und Informationsgehalt (19 ) zum voraus nicht bekannt ist, durch Einlesen derselben in die genannten Mittel, verbunden mit dem Speichern von Mustern derselben, wobei die Anordnung adaptiv lernt und die Gestaltung von Formularen registriert, welche nicht zum voraus eine Formularvorlage definieren und einen Computer beinhaltet, gekennzeichnet durch die folgenden Mittel zur Durchführung der adaptiven Registrierung (238 ): Mittel zur Erzeugung eines Formularplans (18 ) auf der Grundlage der Gestaltung des zuvor unbekannten Formulars (10 ) zwecks Erkennung der im Formular enthaltenen Informationen; Mittel zum Suchen und Vergleichen des Formularplans mit gespeicherten, erkannten Plänen in einem Mittel zum Speichern von Formularplänen; Mittel zum Speichern (238 ) erzeugter Formularpläne (18 ) im Speichermittel, falls sie nicht gemäss vorgegebenen Übereinstimmungsgrenzen mit einem gespeicherten Formularplan zusammenfallen; Mittel zur Anzeige der Übereinstimmung gemäss den Übereinstimmungsgrenzen, falls eine Übereinstimmung vorliegt; und Mittel zur Erkennung und zur weiterführenden Datenerfassung (232 ) des Informationsgehalts des Formulars. - Anordnung nach Anspruch 17, dadurch gekennzeichnet, dass der Formularplan (
18 ) aus einer Objektbereichsliste von im Formular (10 ) enthaltenen Objekten (19 ) besteht. - Anordnung nach Anspruch 18, dadurch gekennzeichnet, dass das Objekt (
19 ) aus Farben und/oder ganz oder teilweise aus Text besteht. - Anordnung nach Anspruch 17, dadurch gekennzeichnet, dass der Formularplan (
18 ) einen Linienplan mit Linienelementen (14 ,15 ) aus dem Formular bildet. - Anordnung nach Anspruch 20, dadurch gekennzeichnet, dass die waagrechten Linien (
15 ) im Linienplan benutzt werden, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht. - Anordnung nach den Ansprüchen 20 und 21, dadurch gekennzeichnet, dass die senkrechten Linien (
14 ) im Linienplan benutzt werden, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht. - Anordnung nach den Ansprüchen 21 und 22, dadurch gekennzeichnet, dass mindestens ein Linienelement (
14 ,15 ), das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Linienelement in der entsprechenden Schlüsselposition unmarkiert bleiben. - Anordnung nach den Ansprüchen 21 bis 23, dadurch gekennzeichnet, dass der waagrechte und/oder der senkrechte Schlüssel einen Linienschlüssel im Linienplan bilden, wobei der erzeugte Linienschlüssel während der genannten Suche mit im Speichermittel gespeicherten Linienschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen.
- Anordnung nach Anspruch 24, dadurch gekennzeichnet, dass die Linienschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
- Anordnung nach den Ansprüchen 17 und 18, dadurch gekennzeichnet, dass die waagrechte Position des Objekts (
19 ) in der Objektbereichsliste benutzt wird, um einen waagrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der Y-Achse in eine bestimmte Anzahl waagrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im waagrechten Schlüssel entspricht. - Anordnung nach den Ansprüchen 17 und 18, dadurch gekennzeichnet, dass die senkrechte Position des Objekts (
19 ) in der Objektbereichsliste benutzt wird, um einen senkrechten Schlüssel zu erzeugen, indem das Formular in einem kartographischen Koordinatensystem entlang der X-Achse in eine bestimmte Anzahl senkrechte Segmente aufgeteilt wird, wobei jedes Segment einer Position im senkrechten Schlüssel entspricht. - Anordnung nach den Ansprüchen 26 und 27, dadurch gekennzeichnet, dass mindestens ein Objekt, das zu einem Segment gehört, in der entsprechenden Schlüsselposition markiert wird, und dass Segmente ohne Objekt in der entsprechenden Schlüsselposition unmarkiert bleiben.
- Anordnung nach den Ansprüchen 26 bis 28, dadurch gekennzeichnet, dass ein waagrechter und/oder ein senkrechter Schlüssel einen Objektschlüssel in der Objektbereichsliste (
18 ) bilden, wobei der erzeugte Objektschlüssel während der genannten Suche mit im Speichermittel gespeicherten Objektschlüsseln verglichen wird, um eine Übereinstimmung zu überprüfen. - Anordnung nach Anspruch 29, dadurch gekennzeichnet, dass die Objektschlüssel im Speichermittel nach der Anzahl Markierungen sortiert sind.
- Anordnung nach den Ansprüchen 17 bis 30, dadurch gekennzeichnet, dass die Suche eine vorbestimmte Anzahl angeforderter wahrscheinlicher Kandidaten für das gerade gesuchte Formular ergibt.
- Anordnung nach den Ansprüchen 17 bis 31, dadurch gekennzeichnet, dass die Identität des Formulars durch die Datenerfassung eines Erkennungswerts (RCG)(
214 ) bestätigt wird, der ein Formular eindeutig kennzeichnet.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9701183 | 1997-04-01 | ||
SE9701183A SE511242C2 (sv) | 1997-04-01 | 1997-04-01 | Förfarande och anordning för automatisk datafångst hos formulär |
PCT/SE1998/000602 WO1998047098A1 (en) | 1997-04-01 | 1998-04-01 | Method and arrangement for automatic data acquisition of forms |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69817171D1 DE69817171D1 (de) | 2003-09-18 |
DE69817171T2 true DE69817171T2 (de) | 2004-06-17 |
Family
ID=20406387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69817171T Revoked DE69817171T2 (de) | 1997-04-01 | 1998-04-01 | Verfahren und anordnung zur automatischen formulardaten-erfassung |
Country Status (9)
Country | Link |
---|---|
EP (1) | EP0976092B1 (de) |
AT (1) | ATE247306T1 (de) |
AU (1) | AU6861798A (de) |
DE (1) | DE69817171T2 (de) |
DK (1) | DK0976092T3 (de) |
ES (1) | ES2207824T3 (de) |
PT (1) | PT976092E (de) |
SE (1) | SE511242C2 (de) |
WO (1) | WO1998047098A1 (de) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2801997A1 (fr) | 1999-12-02 | 2001-06-08 | Itesoft | Technologie adaptative d'analyse automatique de document |
DE10342594B4 (de) * | 2003-09-15 | 2005-09-15 | Océ Document Technologies GmbH | Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten |
DE10345526A1 (de) | 2003-09-30 | 2005-05-25 | Océ Document Technologies GmbH | Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
US8885229B1 (en) | 2013-05-03 | 2014-11-11 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
US8571262B2 (en) | 2006-01-25 | 2013-10-29 | Abbyy Development Llc | Methods of object search and recognition |
RU2006101908A (ru) | 2006-01-25 | 2010-04-27 | Аби Софтвер Лтд. (Cy) | Структурное описание документа, способ описания структуры графических объектов и способы их распознавания (варианты) |
GB0622863D0 (en) | 2006-11-16 | 2006-12-27 | Ibm | Automated generation of form definitions from hard-copy forms |
EP1956517A1 (de) * | 2007-02-07 | 2008-08-13 | WinBooks s.a. | Computerunterstütztes Verfahren zu Verarbeitung von Buchhaltungsvorgängen und Softwareprodukt zur Umsetzung dieses Verfahrens |
US8094976B2 (en) * | 2007-10-03 | 2012-01-10 | Esker, Inc. | One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data |
US8108764B2 (en) | 2007-10-03 | 2012-01-31 | Esker, Inc. | Document recognition using static and variable strings to create a document signature |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US8345981B2 (en) | 2009-02-10 | 2013-01-01 | Kofax, Inc. | Systems, methods, and computer program products for determining document validity |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US8879846B2 (en) | 2009-02-10 | 2014-11-04 | Kofax, Inc. | Systems, methods and computer program products for processing financial documents |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9349063B2 (en) | 2010-10-22 | 2016-05-24 | Qualcomm Incorporated | System and method for capturing token data with a portable computing device |
US8989515B2 (en) | 2012-01-12 | 2015-03-24 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9311531B2 (en) | 2013-03-13 | 2016-04-12 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
US9386235B2 (en) | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
US10241992B1 (en) | 2018-04-27 | 2019-03-26 | Open Text Sa Ulc | Table item information extraction with continuous machine learning through local and global models |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63155386A (ja) * | 1986-12-19 | 1988-06-28 | Ricoh Co Ltd | 帳票デ−タ読取装置 |
US5140650A (en) * | 1989-02-02 | 1992-08-18 | International Business Machines Corporation | Computer-implemented method for automatic extraction of data from printed forms |
US5293429A (en) * | 1991-08-06 | 1994-03-08 | Ricoh Company, Ltd. | System and method for automatically classifying heterogeneous business forms |
-
1997
- 1997-04-01 SE SE9701183A patent/SE511242C2/sv unknown
-
1998
- 1998-04-01 ES ES98914210T patent/ES2207824T3/es not_active Expired - Lifetime
- 1998-04-01 DE DE69817171T patent/DE69817171T2/de not_active Revoked
- 1998-04-01 AU AU68617/98A patent/AU6861798A/en not_active Abandoned
- 1998-04-01 EP EP98914210A patent/EP0976092B1/de not_active Revoked
- 1998-04-01 AT AT98914210T patent/ATE247306T1/de active
- 1998-04-01 PT PT98914210T patent/PT976092E/pt unknown
- 1998-04-01 WO PCT/SE1998/000602 patent/WO1998047098A1/en active IP Right Grant
- 1998-04-01 DK DK98914210T patent/DK0976092T3/da active
Also Published As
Publication number | Publication date |
---|---|
WO1998047098A1 (en) | 1998-10-22 |
EP0976092B1 (de) | 2003-08-13 |
DE69817171D1 (de) | 2003-09-18 |
AU6861798A (en) | 1998-11-11 |
ATE247306T1 (de) | 2003-08-15 |
DK0976092T3 (da) | 2003-12-08 |
PT976092E (pt) | 2003-12-31 |
SE511242C2 (sv) | 1999-08-30 |
SE9701183D0 (sv) | 1997-04-01 |
ES2207824T3 (es) | 2004-06-01 |
SE9701183L (sv) | 1998-10-02 |
EP0976092A1 (de) | 2000-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69817171T2 (de) | Verfahren und anordnung zur automatischen formulardaten-erfassung | |
DE69637073T2 (de) | Prozessor und verarbeitungsverfahren für dokumente | |
DE60116442T2 (de) | System zur Zuordnung von Schlüsselwörtern zu Dokumenten | |
DE4212802C2 (de) | Dateisystem | |
DE60120810T2 (de) | Verfahren zur Dokumenterkennung und -indexierung | |
DE69633809T2 (de) | Verarbeitung von maschinell lesbaren Vordrucken | |
EP1665132B1 (de) | Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten | |
DE4216893C2 (de) | Dateneingabeverfahren | |
DE19547812C2 (de) | Lesegerät für Schriftzeichenketten | |
DE69333431T2 (de) | Verfahren zum Erkennen von handgeschriebenen Symbolen | |
DE69915566T2 (de) | Zusammenstellung und Änderung von Fotocollagen durch Bilderkennung | |
DE19705757C2 (de) | Verfahren zum Erkennen eines Eingabemusters und zum Erzeugen einer Datenbank sowie Zeichenerkennungssystem | |
DE60204005T2 (de) | Verfahren und einrichtung zur erkennung eines handschriftlichen musters | |
DE10162156A1 (de) | Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Benutzerschnittstelle | |
DE112007001792T5 (de) | Verfahren und Vorrichtung zum Vergleichen von Dokumentmerkmalen mittels einer Mustererkennung | |
DE4311172A1 (de) | Verfahren und Einrichtung zum Korrigieren der Schräge eines Vorlagenbildes sowie Vorlagensegmentierungssystem | |
DE10317234A1 (de) | Systeme und Verfahren für eine verbesserte Genauigkeit von einem extrahierten digitalen Inhalt | |
DE60031502T2 (de) | Verfahren und Vorrichtung zur Typbestimmung eines Formblatts | |
WO2005119580A1 (de) | Verfahren und einrichtung zur strukturanalyse eines dokuments | |
DE69820578T2 (de) | Verfahren und Mittel um Dokumente zu Vergleichen auf der Basis des räumlichen Layouts | |
DE60005706T2 (de) | Anpassungfähige technologie zur automatischen dokumentenanalyse | |
DE60123730T2 (de) | Gerät und Verfahren zur Bestimmung des Formats von Dokumenten | |
DE102012025350A1 (de) | Verarbeitungn eines elektronischen Dokuments | |
CH716082A1 (de) | Verfahren zur Benutzeridentifikation. | |
DE102019204602A1 (de) | Verfahren und Vorrichtung zur Maskierung von in einem Bild enthaltenen Objekten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8363 | Opposition against the patent | ||
8331 | Complete revocation |