DE69633809T2 - Verarbeitung von maschinell lesbaren Vordrucken - Google Patents

Verarbeitung von maschinell lesbaren Vordrucken Download PDF

Info

Publication number
DE69633809T2
DE69633809T2 DE69633809T DE69633809T DE69633809T2 DE 69633809 T2 DE69633809 T2 DE 69633809T2 DE 69633809 T DE69633809 T DE 69633809T DE 69633809 T DE69633809 T DE 69633809T DE 69633809 T2 DE69633809 T2 DE 69633809T2
Authority
DE
Germany
Prior art keywords
machine
bit
representation
readable form
listed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69633809T
Other languages
English (en)
Other versions
DE69633809D1 (de
Inventor
David Edward Hirsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of DE69633809D1 publication Critical patent/DE69633809D1/de
Application granted granted Critical
Publication of DE69633809T2 publication Critical patent/DE69633809T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0032Apparatus for automatic testing and analysing marked record carriers, used for examinations of the multiple choice answer type
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf das Gebiet der Verarbeitung von maschinenlesbaren Vordrucken, und, insbesondere, auf die Identifizierung von Bereichen auf einem maschinenlesbaren Vordruck, der Markierungen enthalten kann, die für einen erwünschten Vorgang kennzeichnend sind.
  • Ein Verfahren gemäß dem Oberbegriff des Anspruchs 1 und eine Vorrichtung gemäß dem Oberbegriff des Anspruchs 8 sind aus der US-A-5,060,980 bekannt, die nachfolgend diskutiert werden wird.
  • Maschinenlesbare Vordrucke sind seit einiger Zeit üblich geworden. Solche Vordrucke schaffen einen Mechanismus, um zu ermöglichen, dass Vorgänge vorgenommen werden, und zwar basierend auf Markierungen auf einem Papier, ohne dass dabei ein Eingriff durch eine Person erforderlich ist, wie beispielsweise Lesen oder Interpretieren der Vordrucke. Die Markierungen auf solchen Vordrucken werden unter Steuerung einer Vorrichtung extrahiert, üblicherweise bezeichnet als eine Vordruck-Interpretiereinrichtung. Die Vordrucke werden typischerweise durch eine optische Abtasteinrichtung oder dergleichen „gelesen", und die Vordruck-Interpretiereinrichtung lokalisiert und charakterisiert dann die Markierung auf den Vordrucken, und kann dann einen Vorgang vornehmen, z.B. Ausgeben von Steuersignalen zu Hilfsvorrichtungen als eine Funktion des Vorhandenseins, der Lage, der Art, usw., der Markierungen.
  • Eine Vielfalt von Techniken, wie beispielsweise Prüfkästen, Signaturbereiche und Hervorhebung, sind entwickelt worden, um einer Vordruck-Interpretiereinrichtung zu ermöglichen, Markierungen, die auf einem maschinenlesbaren Dokument platziert sind, zu lesen und zu interpretieren. Unter Verwendung der grundlegenden Bildverarbeitungs-Techniken können Markierungen, erstellt in bezeichneten Flächenbereichen (nachfolgend bezeichnet als „aktive Bereiche"), auf dem Vordruck von einem abgetasteten Bild des Vordrucks gelesen werden, was Daten erzeugt, die als Eingabe zu einem Daten-Verarbeitungssystem verwendet werden können. Ein Beispiel eines Produkts, das solche Verarbeitungs-Techniken für einen Vordruck verwendet, ist das Produkt PaperWorks TM, entwickelt durch die Xerox Corporation, Stamford, Connecticut.
  • Bevor die Markierungen gelesen und interpretiert werden können, müssen sie auf dem abgetasteten Bild des Vordrucks lokalisiert werden. Dies kann schwierig sein. Die vorgedruckten Grafiken (falls dort irgendwelche vorhanden sind), verwendet dazu, die aktiven Bereiche zu bezeichnen, sind ausreichend unterscheidungsfähig, um zuverlässig in dem abgetasteten Bild durch die Form alleine identifiziert zu werden. Zum Beispiel sehen kleine, quadratische Kästen, die oftmals als Prüfkästen verwendet werden, sehr ähnlich zu kleinen Zellen in einer Tabelle aus. Aus diesem Grund erfordert eine Vordruck-Interpretiereinrichtung gewöhnlich, dass die Stelle der aktiven Bereiche auf einem maschinenlesbaren Vordruck im Voraus bekannt sind. Allerdings können gerade dann, da das Bild eines Vordrucks, aufgenommen von einer Abtasteinrichtung bzw. einem Scanner, wesentlich in beiden Dimensionen verschoben sein kann, oder sogar gedehnt oder gedreht sein kann, die aktiven Bereiche auf dem abgetasteten Bild sehr weit entfernt von dem erscheinen, wie sie Idealerweise sein sollten. Um dies zu korrigieren, erfordern die meisten existierenden Vordruck-Systeme die Verwendung von Ausrichtungs-Markierungen, die leicht erkennbar sind und an bekannten Stellen innerhalb des Vordrucks platziert sind. Die Vordruck-Interpretiereinrichtung findet zuerst diese Markierungen, und berechnet dann, auf der Basis des Unterschieds zwischen den tatsächlichen Stellen der Ausrichtungs-Markierungen und den Stellen, wo angenommen wird, dass sie sein sollten, eine einfache, geometrische Transformation. Diese Transformation beschreibt eine Auflistung von den idealen Stellen der aktiven Bereiche zu deren tatsächlichen Stellen in dem Fall, dass der Vordruck abgetastet wird, so dass die aktiven Markierungs-Bereiche nun genau lokalisiert werden können.
  • Ein Beispiel eines maschinenlesbaren Vordrucks ist in der US-A-5,060,980 beschrieben. Der beschriebene Vordruck umfasst Felder, die durch einen Benutzer modifizierbar sind, was eine direkte Programmierung einer Vordruck-Interpretiereinrichtung ermöglicht. Andere Informationen, die die Verarbeitung der codierten Daten des Vordrucks, usw., umfassen, können auch in den codierten Informationen umfasst sein. Das beschriebene System zum Erzeugen der beschriebenen Vordrucke, die eine codierte Beschreibung von ausgewählten Attributen der Felder tragen, umfasst Einrichtungen, um Felder und Lagen der Felder auf einem Vordruck auszuwählen oder zu erzeugen, während Felder erzeugt werden und die Felder auf einem Vordruck während einer Erzeugung angeordnet werden, im Wesentlichen gleichzeitig, und zwar der codierten Beschreibung der ausgewählten Attribute. Ein Vordruck-Komposer ermöglicht dann eine Zusammenführung des Vordrucks und seiner codierten Beschreibung zum Drucken oder für eine elektronische Übertragung. Ein System zum Lesen solcher Vordrucke umfasst eine Abtasteinrichtung, eine Decodiervorrichtung und einen Prozessor. Durch Lesen solcher Vordrucke können Daten in ein Daten-Verarbeitungssystem eingegeben oder davon wieder aufgerufen werden, oder eine Vordruck-Interpretiereinrichtung kann, lokal oder entfernt, für eine darauf folgende Handhabung von Vordrucken programmiert werden. Um Lokalisierungsbereiche auf dem beschriebenen Vordruck, markiert für ein Lesen, zu erleichtern, d.h. Felder, umfasst der Vordruck einen Referenz-Punkt in der Form eines Kreuzes, von wo aus das Layout des Rests des Vordrucks berechnet wird. Die Vordruck-Interpretiereinrichtung lokalisiert diesen Punkt und misst die Position der Inhalte der Felder, die davon gelesen werden sollen. Minimal werden die codierten Informationen eine Beschreibung der physikalischen Stelle von einem Feld oder von mehreren Feldern auf dem Vordruck relativ zu dem Referenz-Punkt und eine Beschreibung des Typs von einem Feld oder von mehreren Feldern umfassen.
  • Die US-A-5,140,650 offenbart ein durch einen Computer ausgeführtes Verfahren für ein automatisches Extrahieren von Daten von Vordrucken. Das beschriebene Verfahren umfasst die Schritte eines Abtastens eines leeren Vordrucks, um so ein digitales Bild eines ersten Felds von Pixeln zu erzeugen, und eines Identifizierens der Pixel in dem Feld, die allgemein gerade Linien von verbundenen Linien-Pixeln bilden. Dann werden Daten-Masken in dem Feld an Stellen, getrennt durch die identifizierten Linien, erzeugt, wo die Daten-Masken den Daten-Bereichen in dem gedruckten Vordruck entsprechen. Weiterhin wird ein ausgefüllter Vordruck abgetastet, um so ein digitales Bild eines zweiten Felds von Pixeln zu erzeugen, wodurch die Pixel in dem zweiten Feld, die im Wesentlichen gerade Linien aus verbundenen Pixeln bilden, identifiziert werden. Dann wird der Versatz der Linien in dem zweiten Feld von den Linien in dem ersten Feld berechnet und die Daten-Masken, erzeugt in dem ersten Feld, werden in dem zweiten Feld unter Verwendung des berechneten Versatzes lo kalisiert. Schließlich werden die Daten entsprechend zu den Zeichen-Pixeln von den Daten-Masken in dem zweiten Feld extrahiert. Alle Linien eines Master-Vordruck-Bilds werden durch eine Reihen- und Spalten-Start-Position und Spalten-End-Position identifiziert, um dadurch eine Beschreibung eines Master-Vordrucks zu erzeugen. Weiterhin wird ein ausgefüllter oder Daten-Vordruck abgetastet und Linien werden auch in einer ähnlichen Art und Weise, wie sie vorstehend beschrieben ist, erkannt und identifiziert, um eine Beschreibung eines Daten-Vordrucks zu erzeugen. Die Beschreibung des Daten-Vordrucks wird mit der Beschreibung des Master-Vordrucks durch Berechnen des horizontalen und vertikalen Versatzes und einer Schrägstellung der zwei Vordrucke relativ zueinander verglichen.
  • Die US-A-5,201,011 beschreibt ein Verfahren und eine Vorrichtung für eine Erfassung eines Bilds, das mit der Hand erstellt ist. Gemäß diesem Verfahren können Teile eines Bilds, die einen Text zeigen, durch Zeichnen von Linien mit der Hand markiert werden und der Inhalt der markierten Teile kann extrahiert werden.
  • Die Verwendung von statischen, vordefinierten Ausrichtungs-Markierungen besitzt zwei Einschränkungen. Erstens stören die Ausrichtungs-Markierungen den Vordruck und schränken sein Design ein (sie sind invariabel grafisch sehr intrusiv). Zweitens darf, da diese Markierungen an bekannten Stellen vorhanden sein müssen, der Designer des Vordrucks diese nicht bewegen. Das bedeutet, dass es schwierig ist, Vordrucke aufzubauen, die diese Markierungen enthalten, und zwar in Systemen mit einem Standard-Seiten-Layout, da es schwierig ist, in irgendeinem solchen System die Maßnahmen des Vordruck-Designers einzuschränken, um sicherzustellen, dass sie nicht versehentlich die präzise Positionierung der Ausrichtungs-Markierungen zerstören. Demzufolge wäre es wünschenswert, einen maschinenlesbaren Vordruck zu haben, der keine Platzierung von statischen Ausrichtungs-Markierungen erfordert.
  • Es ist die Aufgabe dieser Erfindung, ein Verfahren und eine Vorrichtung zu schaffen, die dazu geeignet sind, verzerrte, z.B. verschobene, gestreckte oder gedrehte Fälle eines maschinenlesbaren Vordrucks, der eine moderate Anzahl von Ausrichtungs-Markierungen aufweist, zu analysieren.
  • Diese Aufgabe wird durch ein Verfahren nach Anspruch 1 und eine Vorrichtung nach Anspruch 8 gelöst.
  • Bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.
  • Ein System zur Erzeugung und Verarbeitung von Vordrucken, das die aktiven Bereiche eines maschinenlesbaren Vordrucks unter Verwendung von Markierungen des Vordrucks verwendet, identifiziert und lokalisiert, wird offenbart. Die aktiven Bereiche eines maschinenlesbaren Vordrucks, wie beispielsweise ein Prüfkasten oder ein Signatur-Kasten, können eine durch einen Benutzer erzeugte Markierung enthalten. Eine Vordruck-Interpretiereinrichtung wird die aktiven Bereiche eines Vordrucks prüfen, um zu bestimmen, ob eine Markierung darauf platziert worden ist. Um aktive Bereiche zu identifizieren, verwendet die vorliegende Erfindung Vordruck-Ausrichtungs-Informationen (d.h. die Markierungen), die zumindest von den alphabetischen Zeichen abgeleitet sind, die der Vordruck selbst darstellt. Spezielle Ausrichtungs-Markierungen werden nicht benötigt. Dies ermöglicht ein uneingeschränktes Vordruck-Design und die Verwendung eines viel breiteren Bereichs von Software-Tools, um solche maschinenlesbaren Vordrucke aufzubauen. Zusätzlich macht es die vorliegende Erfindung möglich, dass viele existierende Vordrucke maschinenlesbar gestaltet werden können, ohne sie umzugestalten.
  • In der vorliegenden Erfindung wird der Vordruck, nachdem er entworfen ist, voranalysiert. Das Ziel der Voranalyse ist dasjenige, von den wahlweisen Grafiken in dem Vordruck einen Satz von grafischen Charakteristika abzuleiten, d.h. Grenz- bzw. Orientierungs-Markierungen, die auf zukünftig abgetasteten Bildern des Vordrucks unabhängig deren Lage oder Orientierung in dem Bild wieder aufgefunden werden können. Die Analyse sieht nach der geometrischen Verteilung und nach Regularien der grafischen Komponenten des Vordrucks, um einen Satz von Grenzmarkierungen auszuwählen. Beispiele solcher Grenzmarkierungen könnten Absätze eines Textes, stark schwarze Linien oder Grau-Skalierungs-Bereiche sein. Eine Beschreibung jeder Grenzmarkierung (oder ein bestimmter Untersatz davon) wird zusammen mit der Lage und semantischen Informationen über die aktiven Bereiche in eine Vordruck-Steuerdatei geschrieben, die durch eine Vordruck-Interpretiereinrichtung verwendet wird, um den Vordruck zu verarbeiten.
  • Wenn ein Fall des Vordrucks durch die Vordruck-Interpretiereinrichtung interpretiert wird, wird er abgetastet und ein Satz von Grenzmarkierungen wird identifiziert. Unter Verwendung der erzeugten Vordruck-Steuerdatei vergleicht die Vordruck-Interpretiereinrichtung diesen Satz von Grenzmarkierungen mit den originalen Grenz markierungen, spezifiziert in der Vordruck-Steuerdatei. Durch Bestimmen einer Korrespondenz zwischen diesen zwei Sätzen von Grenzmarkierungen ist die Vordruck-Interpretiereinrichtung in der Lage, eine Transformation (Verschiebung und/oder Skalierung) zu bestimmen, die von dem idealen Vordruck-Bild, verwendet in der Voranalyse, zu dem Fall des abgetasteten Vordruck-Bilds stattgefunden hat. Diese Transformations-Informationen werden dann dazu verwendet, die Stellen der aktiven Bereiche, extrahiert von der Vordruck-Steuerdatei, einzustellen, um zu ermöglichen, dass die Vordruck-Interpretiereinrichtung korrekt die aktiven Bereiche des abgetasteten Vordruck-Bilds findet und dann liest.
  • Die vorliegende Erfindung wird weiterhin anhand eines Beispiels, unter Bezugnahme auf die beigefügten Zeichnungen, beschrieben, in denen:
  • 1 zeigt ein Beispiel eines maschinenlesbaren Vordrucks, der aktive Bereiche besitzt, die durch eine derzeit bevorzugte Ausführungsform der vorliegenden Erfindung erzeugt und verarbeitet werden können;
  • 2 zeigt ein Blockdiagramm von funktionalen Komponenten eines Toolkits zum Erzeugen und Interpretieren von maschinenlesbaren Vordrucken der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung;
  • 3 zeigt ein Flussdiagramm, das die Grundschritte einer Vordruck-Analyse, wie sie in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt werden können, darstellt;
  • 4 zeigt ein Flussdiagramm, das die Schritte einer Grenzmarkierungs-Extraktion darstellt, wie sie in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt werden können;
  • 5 zeigt ein Beispiel einer Vordruck-Steuerdatei in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung;
  • 6 zeigt ein Flussdiagramm, das die Schritte für eine Vordruck-Interpretation darstellt, wie sie in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung vorgenommen werden können;
  • 7 zeigt ein Flussdiagramm, das die Schritte zum Bestimmen der Lage der aktiven Bereiche eines Falls eines Vordrucks darstellt, wie sie in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt werden können;
  • 8 zeigt ein Blockdiagramm eines auf einem Computer basierenden Systems, wie es in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung verwendet werden kann;
  • 9 bis 11 werden dazu verwendet, ein Beispiel der Zustände des maschinenlesbaren Vordrucks der 1 zu erläutern, wenn er einer Grenzmarkierungs-Extraktion unterworfen wird, wie sie in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung durchgeführt wird; und
  • 12 zeigt ein Beispiel von Grenzmarkierungen, extrahiert von einem Fall des maschinenlesbaren Vordrucks der 1.
  • Ein Vordruck-Erzeugungs- und -Verarbeitungssystem, das die aktiven Bereiche eines Vordrucks unter Verwendung von Vordruck-Grenzmarkierungen identifiziert und lokalisiert, wird offenbart. In der nachfolgenden Beschreibung werden zahlreiche spezifische Details angegeben, wie beispielsweise Programmier-Techniken zum Spezifizieren von aktiven Bereichen in einem Vordruck-Erzeugungs-Programm, um ein Gesamtverständnis der vorliegenden Erfindung zu vermitteln. Es wird allerdings für einen Fachmann auf dem betreffenden Fachgebiet ersichtlich werden, die Erfindung ohne solche spezifischen Details auszuführen. In anderen Fällen sind spezifische Ausführungs-Details, wie beispielsweise Abtast-Technologien, um eine mittels Bits aufgelistete Darstellung eines Vordrucks zu erzeugen, nicht im Detail dargestellt worden, um nicht in unnötiger Weise die vorliegende Erfindung zu verschleiern.
  • Maschinenlesbarer Vordruck der derzeit bevorzugten Ausführungsform
  • 1 stellt ein einfaches Beispiel eines maschinenlesbaren Vordrucks dar. Wie 1 zeigt, weist ein Vordruck 101 einen eingebetteten Daten-Bereich 102, einen Vordruck-Titel 103, Prüfkästen 104106, die begleitende Textbeschreibungen besitzen, einen ersten Block von textmäßigen Anweisungen 107, die den Text „Mark Only One Box" tragen, einen zweiten Block von textmäßigen Anweisungen 108, der den Text „Choose the Alternative That Satisfies Your Criteria, Sign Below to Authorize Your Selection" trägt, und einen Signatur-Kasten 109 auf.
  • Jedem Prüfkasten 104106 des Vordrucks 101 ist ein rechteckiger Kasten zugeordnet. Dieser Kasten ist ein grafischer Würfel, der anzeigt, wo eine Markierung vorgenommen werden kann, die darauf folgend erkannt und entsprechend verarbeitet werden würde. Es ist anzumerken, dass andere grafische Würfel, z.B. Kreise oder Linien, auch verwendet werden können. Der eingebettete Daten-Bereich 102 kann dazu verwendet werden, verschiedene Informationen über den Vordruck zu liefern. Eine Codier-Technologie für eingebettete Daten, die verwendet werden kann, ist in der US-A-5,168,147 beschrieben.
  • Eine Anwendung, die Fälle des Vordrucks 101 verarbeiten würde, kann eine solche sein, die einfach die Anzahl, für die die Prüfkästen „abgeprüft" worden ist (d.h. enthält eine Markierung), zählt, bestimmt, dass nur ein Prüfkasten pro Vordruck markiert worden ist und dass ein Vordruck, der verarbeitet wird, unterzeichnet worden ist. Die Anwendung kann verifizieren, oder kann nicht verifizieren, dass die Signatur gültig ist. Eine Gültigerklärung von Signaturen geht über den Schutzumfang der vorliegenden Erfindung hinaus, so dass kein weiteres Detail solcher Validierungs-Techniken angegeben wird.
  • Die aktiven Bereiche in dem Vordruck 101 werden durch die rechteckigen Kästen von Prüfkästen 104106 und einem Signatur-Block 109 bezeichnet. Der aktive Bereich bezieht sich auf eine Stelle eines vervollständigten Falls eines Vordrucks, den eine Vordruck-Interpretiereinrichtung prüfen wird, um zu bestimmen, ob sie markiert worden ist.
  • Es sollte auch angemerkt werden, dass der Vordruck 101 verschiedene Grenzmarkierungen besitzt. Mit Grenzmarkierungen ist eine visuell unterscheidbare Komponente des Vordrucks gemeint. Der eingebettete Daten-Bereich 102, der Titel 103 und die Text-Blöcke 107 und 108 werden als Grenzmarkierungen für den Vordruck verwendet (obwohl, aufgrund von Unterschieden in Fällen von Vordrucken, diese Bereiche nicht immer als separate Grenzmarkierungen identifiziert werden können). Es erfolgt über eine Analyse von räumlichen Transformationen zwischen den Grenzmarkierungen des vorliegenden Vordrucks und den Grenzmarkierungen des voranalysierten „originalen" Vordrucks, dass die tatsächliche Stelle von aktiven Bereichen eines Falls eines Vordrucks gefunden werden.
  • Übersicht der derzeit bevorzugten Ausführung
  • Die derzeit bevorzugte Ausführungsform der vorliegenden Erfindung wird als ein Satz von Software-Programmen ausgeführt, die auf einem auf einem Computer basierenden System arbeiten. Die Software-Programme stellen Tools zum Verarbeiten von maschinenlesbaren Vordrucken dar. Ein solcher Satz von Software- Programmen wird üblicherweise als „Toolkit" bezeichnet. Der Toolkit liefert einen Verarbeitungs-Service für Software-Anwendungen, um einen zusammengesetzten, maschinenlesbaren Vordruck vorab zu analysieren. Der „Toolkit" liefert auch einen Verarbeitungs-Service für Software-Anwendungen, die Fälle der erzeugten, maschinenlesbaren Vordrucke verarbeiten. Der Verarbeitungs-Service, der zu der vorliegenden Erfindung in Bezug steht, umfasst eine Software zum Abtasten der Vordrucke und zum Extrahieren von Daten aus den abgetasteten Vordrucken heraus. Andere Verarbeitungs-Möglichkeiten, wie beispielsweise eine Software zum Durchführen verschiedener Bildverarbeitungs-Funktionen oder zum Analysieren von optisch codierten Daten, können auch vorgesehen werden.
  • Die Toolkit-Ausführungsform der vorliegenden Erfindung ist in 2 dargestellt. Der Toolkit ist aus einem Vordruck-Erzeugungs-Teil 201, einem Vordruck-Analyse-Teil 202 und einem Vordruck-Interpretierer-Teil 203 aufgebaut. Der Vordruck-Erzeugungs-Teil 201 wird vorzugsweise in Kombination mit einem Seiten-Layout- oder mit einem anderen Dokumenten-Erzeugungs-Programm 204 arbeiten, z.B. dem Programm Microsoft (TM) Word, erhältlich von der Microsoft (TM) Corporation, Bellevue, Washington, um einen Vordruck 205 zu erzeugen. Alternativ kann der Vordruck-Erzeugungs-Teil ein selbstständiges Programm sein. In jedem Fall wird der Vordruck-Erzeugungs-Teil ein Einsetzen der notwendigen Steuer-Informationen ermöglichen, so dass die „aktiven Bereiche" auf einem Vordruck definiert werden können.
  • Der Vordruck-Analyse-Teil 202 ist vorzugsweise ein Software-Programm, das eine Eingabe, eine Darstellung des Vordrucks 205 und eine Beschreibung der aktiven Bereiche auf einem Vordruck aufnimmt und eine Vordruck-Steuerdatei 206 erzeugt. In der derzeit bevorzugten Ausführungsform enthält die Vordruck-Steuerdatei 206 Informationen über einen aktiven Bereich und Grenzmarkierungs-Informationen für den Vordruck 205.
  • Vorzugsweise wird der Vordruck-Interpretier-Teil 203 durch ein Anwendungs-Programm aufgerufen, um Daten aus einem Fall des Vordrucks zu extrahieren. Solche Daten können die Erfassung des Vorhandenseins oder des Nichtvorhandenseins einer Markierung in den aktiven Bereichen sein.
  • Jeder der vorstehenden Teile wird in größerem Detail nachfolgend beschrieben.
  • Erzeugung eines Vordrucks
  • Wie in dem Stand der Technik angeführt ist, erforderten frühere Systeme zum Lesen von maschinenlesbaren Vordrucken das Vorhandensein von statischen und vordefinierten Ausrichtungs-Markierungen. Die vorliegende Erfindung beseitigt das Erfordernis solcher Ausrichtungs-Markierungen. Der Vordruck-Erzeugungs-Teil der vorliegenden Erfindung kann mit einem geeigneten Seiten-Layout- oder Dokumenten-Editier-Programm arbeiten, um neue, maschinenlesbare Vordrucke zu erzeugen. Der erzeugte, maschinenlesbare Vordruck kann neu zusammengestellt sein oder kann eine Umwandlung eines existierenden, nicht mittels Maschine lesbaren Vordrucks sein.
  • In der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung sind aktive Bereiche über Vordruck-Steuer-Objekte spezifiziert. Ein Vordruck-Steuer-Objekt ist ein Objekt, das an einer spezifischen Stelle eines Vordrucks, der erzeugt wird, eingesetzt wird, typischerweise in Verbindung mit der Verwendung eines Dokumenten-Layout- oder Dokumenten-Erzeugungs-Programms. In der derzeit bevorzugten Ausführungsform wird ein Merkmal des Microsoft Windows TM Betriebssystems, bekannt als Object Linking and Embedding (OLE), dazu verwendet, Vordruck-Steuer-Objekte in einen Vordruck einzubetten. Das OLE-Merkmal wird durch ein Word-Verarbeitungs-Programm, wie beispielsweise Microsoft Word, unterstützt. Wenn der Vordruck erzeugt wird, wird, wenn es erwünscht ist, ein Vordruck-Steuer-Objekt einzusetzen, ein Word-Verarbeitungs-Befehl ausgewählt, der das Einsetzen eines Objekts ermöglicht. Der Typ, der Name und die Größe eines entsprechenden, aktiven Bereichs werden spezifiziert. Wenn einmal das Vordruck-Steuer-Objekt definiert ist, wird ein Text entsprechend zu dem Vordruck-Steuer-Objekt eingegeben. Dieser Vorgang wird für alle erwünschten Vordruck-Steuer-Objekte auf dem Vordruck wiederholt.
  • Verschiedene Techniken können verwendet werden, um einen existierenden Vordruck in einen solchen, der maschinenlesbar ist, umzuwandeln. Falls der existierende Vordruck nur in einer Form einer Hardcopy existiert, ist eine einfach Art und Weise diejenige, ein abgetastetes Bild des existierenden Vordrucks zu erzeugen und dann ein Bild-Editier-Programm zu verwenden, um die aktiven Bereiche zu spezifizieren und zu positionieren. Falls eine Computerdatei für den vorhandenen Vordruck existiert, kann er einfach unter Verwendung eines geeigneten, freigegebenen Dokument- Layout-Programms verwendet werden, um die geeigneten Vordruck-Steuer-Objekte in die Computerdatei einzusetzen.
  • Analyse des Vordrucks
  • Das Ergebnis einer Analyse des Vordrucks ist die Steuerdatei der Vordrucke. Die Steuerdatei der Vordrucke wird durch die Vordruck-Interpretiereinrichtung verwendet, um Daten von einem maschinenlesbaren Vordruck zu extrahieren, und insbesondere dazu, Markierungen zu identifizieren, die innerhalb der aktiven Bereichen eines Vordrucks vorhanden sind. In der derzeit bevorzugten Ausführungsform verarbeitet die Vordruck-Analyse eine „Druck-Datei" Darstellung des Vordrucks. Die Druck-Datei wird durch eine von einem Benutzer initiierte Anforderung an das auf dem Computer basierende System erzeugt, um den Vordruck zu drucken. Das Computer-System wird dann einen Satz von grafischen Befehlen erzeugen, die durch den Drucker interpretiert werden, wenn ein Dokument gedruckt wird. In der derzeit bevorzugten Ausführungsform wird die Druck-Datei auch die Steuer-Objekte der Vordrucke, die die aktiven Bereiche bezeichnen, enthalten. Das Vordruck-Steuer-Objekt wird einen Identifizierer und einen Typ für den aktiven Bereich ebenso wie grafische Befehle zum Gestalten irgendwelcher grafischer Würfel für den aktiven Bereich enthalten. Der Identifizierer ist nur ein Name, durch den auf den aktiven Bereich später Bezug genommen werden kann. Der Typ eines aktiven Bereichs ist ein Indikator dafür, welcher Typ von Daten darin angeordnet sein würde (z.B. ein Prüfkasten würde ein handgeschriebenes Prüfsymbol enthalten und ein Signatur-Kasten würde eine Signatur enthalten). Schließlich wird eine Bit aufgelistete Darstellung des Vordrucks intern erzeugt, die dann dazu verwendet wird, die Vordruck-Analyse anzusteuern. Wie im Detail nachfolgend beschrieben ist, evaluiert die Vordruck-Analyse der vorliegenden Erfindung die erzeugte, Bit aufgelistete Darstellung unter Verwendung von verschiedenen Bildverarbeitungs-Techniken, um Grenzmarkierungen zu identifizieren.
  • 3 stellt in größerem Detail die Schritte dar, die in der Vordruck-Analyse durchgeführt werden. Zuerst wird eine „Druck" Datei empfangen, Schritt 301. Wie vorstehend angeführt ist, ist die Druck-Datei aus einer Liste von grafischen Befehlen und Vordruck-Steuer-Objekten aufgebaut. In der derzeit bevorzugten Ausführungsform wird die „Druck" Datei dazu verwendet, ein Bild mit einer Auflösung von 300 × 300 Punkten pro Inch (dots per Inch – dpi) zu gestalten. Jedes der jeweiligen Elemente der Druck-Datei wird dann verarbeitet, Schritt 302. Eine Bestimmung wird vorgenommen, ob das Element ein grafischer Befehl oder ein Vordruck-Steuer-Objekt ist. Falls es ein grafischer Befehl ist, wird der grafische Befehl ausgeführt, Schritt 303. Durch Ausführen des grafischen Befehls wird ein Bereich des Vordrucks gestaltet. Falls es ein Vordruck-Steuer-Objekt ist, dann wird die gestaltende Stelle für das Vordruck-Steuer-Objekt als ein aktiver Bereich bezeichnet. Das Vordruck-Steuer-Objekt wird dann gestaltet, Schritt 304. Die gestaltete Stelle für das Vordruck-Steuer-Objekt wird dann in der Vordruck-Steuer-Datei gesichert, Schritt 305. Die Stelle wird in Angaben des Abstands von der oberen, linksseitigen Ecke der Vordruck-Seite gespeichert, im Gegensatz zu Angaben von Pixel-Stellen. Eine Prüfung wird dann vorgenommen, um zu bestimmen, ob es das letzte, grafische Element in der Druck-Datei war, Schritt 306. Falls dies nicht der Fall ist, dann wird der nächste Befehl entsprechend Schritt 302 verarbeitet. Falls es das letzte Element ist, dann wird eine Grenzmarkierungs-Extraktion in Bezug auf die sich ergebende, Bit aufgelistete Darstellung des Bilds durchgeführt, Schritt 307. Eine Grenzmarkierungs-Extraktion wird im Detail unter Bezugnahme auf das Flussdiagramm in 4 beschrieben. Wenn einmal die Grenzmarkierungen extrahiert sind, werden sie in der Vordruck-Steuer-Datei gesichert, Schritt 308. Die Grenzmarkierungs-Informationen umfassen Identitäten für Typen von Grenzmarkierungen, die Stelle der Grenzmarkierungen und eine Liste der Grenzmarkierungen. Wie nachfolgend beschrieben werden wird, kann die Vordruck-Steuer-Datei in verschiedenen Stellen für einen Zugriff durch eine Vordruck-Interpretiereinrichtung gespeichert werden.
  • Wie nun 4 zeigt, beginnt die Grenzmarkierungs-Extraktion mit einer Bestimmung, ob die Bit aufgelistete Darstellung des Vordrucks genug Informationen besitzt (z.B. Text oder grafische Daten), so dass sie gerade ausgerichtet werden kann, Schritt 401. Diese Bestimmung wird vorgenommen, um die Integrität der Verarbeitung von darauf folgenden Vordrucken sicherzustellen. Es ist bestimmt worden, dass ein Bit aufgelistetes Bild, das nicht gerade gerichtet werden kann, für Fehler während der Verarbeitung des Vordrucks anfällig ist. Falls bestimmt ist, dass der Vordruck nicht gerade gerichtet werden kann, wird der Vordruck zurückgewiesen, Schritt 402. Ansonsten wird dann die Bit aufgelistete Darstellung zu einer „Standard" Seitendichte umgewandelt, Schritt 403. In der derzeit bevorzugten Ausführungsform wird das Bild mit 300 × 300 dpi des Vordrucks auf ein Bild mit 100 × 100 dpi „verringert". Es ist bestimmt worden, dass eine Verarbeitung unter diesem Niveau einer „Standard" Dichte Fehler verringert, die durch verschiedene Auflösungen, verwendet durch Druck- und Abtast-Elemente, eingeführt werden können. Diese Verringerung tritt über ein Schwellwert-Bildungs-Verfahren auf, bei dem jedes Feld mit 3 × 3 Pixeln auf einen einzelnen Wert basierend auf der Zählung der Ein-Aus-Pixel in dem 3 × 3 Pixel-Feld verringert wird.
  • Unter Verwendung der komprimierten Darstellung des Vordrucks wird eine Analyse von verbundenen Komponenten und begrenzenden Kästen, die erzeugt sind, durchgeführt, und zwar am Schritt 404. Eine Analyse von verbundenen Komponenten bezieht sich auf ein Gruppieren von Pixeln, basierend darauf, ob sich angrenzende Pixel in demselben Zustand befinden (d.h. „ein" oder schwarz). Eine solche Analyse von verbunden Komponenten wird weit verbreitet in vielen Aufgaben einer Dokumenten-Analyse verwendet, z.B. optische Zeichenerkennung (Optical Character Recognition). Das Ergebnis hier wird das sein, Rechtecke auf dem Zeichen-Niveau zu haben. Diese Rechtecke werden mit anderen, nahe dazu liegenden Rechtecken vereinigt, und zwar am Schritt 405. Dies wird zu Rechtecken auf dem Word-Niveau führen. Diese „Nähe" wird durch einen ersten Schwellwert bestimmt. Als nächstes werden überlappende Rechtecke vereinigt, Schritt 406. Dies wird zu einer Zusammenstellung von nicht überlappenden Rechtecken einer Wortgröße führen.
  • An diesem Punkt werden die größeren Charakteristika des Vordrucks identifiziert. Zuerst werden naheliegende Rechtecke vereinigt, dieses Mal entsprechend einem zweiten Schwellwert, und ein Iterationszähler wird erhöht, und zwar am Schritt 407. Wie nachfolgend beschrieben werden wird, kann dieser Schritt in Abhängigkeit von der Anzahl von Rechtecken, die momentan extrahiert sind, wiederholt werden. Sich überlappende Rechtecke werden vereinigt, um eine Anfangs-Grenzmarkierungs-Liste zu erzeugen, Schritt 408. Es wird dann bestimmt, ob eine annehmbare Anzahl von Grenzmarkierungen identifiziert worden ist, Schritt 409. Diese Bestimmung sieht zuerst nach, um festzustellen, ob weniger als eine vorbestimmte Zahl (z.B. 10) identifiziert worden ist, oder falls der Unterschied in den Grenzmarkierungen, erzeugt zwischen Iterationen, geringer als ein anderer, vorbestimmter Schwellwert ist (z.B. geringer als 10%). In jedem Fall findet, falls die Anzahl von Grenzmarkierungen nicht an nehmbar ist, eine weitere Vereinigung von Rechtecken entsprechend Schritt 407 statt. Ansonsten werden die Liste von Grenzmarkierungen und der Wert des Iterationszählers in der Vordruck-Steuerdatei gespeichert, Schritt 410. Grenzmarkierungen in der Vordruck-Steuerdatei werden als die „originalen" Grenzmarkierungen bezeichnet. Der Iterationszähler wird dazu verwendet, Informationen zu dem Vordruck-Interpretationsteil zu liefern, wenn die Anzahl des Schrittes entsprechend zu Schritt 407 durchgeführt werden sollte.
  • 5 stellt die Vordruck-Steuerdatei der vorliegenden Erfindung dar. Die Vordruck-Steuerdatei enthält eine Version-Zahl 501, eine Liste von Vordruck-Steuerobjekten 502 und die Grenzmarkierungs-Informationen 50. Jedes Vordruck-Steuerobjekt wird aus einem Steuerobjekt-Identifizierer, einer Position, einer Größe und einem Typ aufgebaut. Die Grenzmarkierungs-Informationen 503 sind aus einem Spezifikations-Grenzmarkierungs-Typ, dem Iterationszähler und einer Liste von Grenzmarkierungen aufgebaut. Jede der Grenzmarkierungen wird eine Größe und eine Position spezifizieren.
  • Vordruck-Interpretierer
  • Der Vordruck-Interpretierer der derzeit bevorzugten Ausführungsform wird typischerweise innerhalb eines Anwendungs-Programms aufgerufen, das den Vordruck verarbeitet, um irgendwelche Markierungen, die in den aktiven Bereichen des Vordrucks enthalten sind, zu identifizieren. Der Vordruck-Interpretierer wird die Lage von aktiven Bereichen identifizieren, die Existenz von Markierungen in den aktiven Bereichen bestimmen und dann diese Informationen zu dem Anwendungs-Programm weiterführen. 6 zeigt ein Flussdiagramm, das die Schritte beschreibt, die durch den Vordruck-Interpretierer beim „Lesen" von Informationen von einem Vordruck durchgeführt werden. Zuerst wird eine Bit aufgelistete Darstellung des Vordrucks erhalten, Schritt 601. Die Bit aufgelistete Darstellung des Vordrucks ist typischerweise der Ausgang von einer Abtasteinrichtung. Diese Bit aufgelistete Darstellung des Vordrucks wird dann gerade gerichtet, Schritt 602. Mit einem Geradeausrichten ist gemeint, dass irgendwelche schrägen Verzerrungen, eingeführt durch den Abtast-Vorgang, oder bei der Reproduktion des Vordrucks, korrigiert werden. Als nächstes wird die in der Schräge korrigierte Darstellung auf das Standard-Format „reduziert", Schritt 603, und die Vordruck-Steuerdatei wird eingelesen, Schritt 604. Es sollte angemerkt werden, dass die Vordruck-Steuerdatei auf verschiedene alternative Arten und Weisen erhalten werden kann. Zum Beispiel kann die Vordruck-Steuerung innerhalb des Vordrucks selbst codiert werden und dann extrahiert werden, wenn der Vordruck verarbeitet wird. Oder die Vordruck-Steuerdatei kann permanent in einer Speichereinrichtung, verbunden mit einem auf dem Computer basierenden System, das den Vordruck verarbeitet, gespeichert sein. Oder die Vordruck-Steuerdatei könnte über eine bestimmte Netzwerk-Verbindung erhalten werden und könnte kurzzeitig gespeichert werden, während der Vordruck verarbeitet wird. Eine Ausführung solcher verschiedenartiger Techniken liegt nicht außerhalb des Schutzumfangs der vorliegenden Erfindung.
  • Eine Grenzmarkierungs-Extraktion wird dann durchgeführt, um „Fälle" von Grenzmarkierungen zu finden, Schritt 605. Die Identifikation von Grenzmarkierungen erfolgt über einen Prozess, der im Wesentlichen ähnlich zu den Schritten ist, die unter Bezugnahme auf 4 beschrieben sind. Der Schritt eines Auffindens von „nahen" Rechtecken wird für eine solche Anzahl von Malen durchgeführt, die in dem Iterations-Wert spezifiziert ist, und die verschiedenen Schwellwerte sind dieselben wie in der Voranalyse. In jedem Fall ist an diesem Punkt eine Liste von „Fällen" von Grenzmarkierungen und eine Liste von „originalen" Grenzmarkierungen erzeugt worden. Es ist anzumerken, dass hier nicht dieselbe Anzahl von „Grenzmarkierungen" in den Listen für den „momentanen Fall" und die „originalen" Listen vorhanden sein muss. Dies erfolgt aufgrund der potenziellen Unterschiede in der Bit aufgelisteten Darstellung des Vordrucks, wie er analysiert ist, und entsprechend des abgetasteten Vordrucks. In jedem Fall werden die Listen der momentanen und der originalen Grenzmarkierungen basierend auf deren Position in Bezug auf die obere, linke Ecke der Vordruck-Seite gespeichert, Schritt 606. Die Grenzmarkierungen in jeder Liste werden dann „angepasst" oder gepaart, Schritt 607. Die Kriterien, um solche Anpassungen zu erhalten, basiert auf der Form und den Lagen der Grenzmarkierungen. Es ist anzumerken, dass es nicht notwendig ist, dass jede Grenzmarkierung in einer Liste gepaart ist. Solange wie eine geeignete Anzahl von Übereinstimmungen auftritt, kann die Identifikation der aktiven Bereiche über den momentanen Fall eines Vordrucks bestimmt werden. An diesem Punkt können die aktiven Bereiche in dem momentanen Fall eines Vordrucks überprüft werden. In der derzeit bevorzugten Ausführungsform muss eine Prüfung eines aktiven Bereichs explizit durch eine Verarbeitungs-Anwendung eines Vordrucks angefordert werden. Die Verarbeitung jeder Anforderung wird in Bezug auf 7 beschrieben.
  • Wie 7 zeigt, werden zwei Paare von Grenzmarkierungen identifiziert, die „am nächsten" zu dem aktiven Bereich, der geprüft wird, liegen, Schritt 701. Die Bestimmung von „am nächsten" wird durch Vergleichen der räumlichen Lage der aktiven Bereiche und der „originalen" Grenzmarkierungen von der Vordruck-Steuerdatei vorgenommen. Es wird dann bestimmt, ob die ausgewählten Paare von Grenzmarkierungen akzeptierbare Versätze haben, Schritt 702. Nicht akzeptierbare Versetzungen können auftreten, falls die Position der Grenzmarkierung von ihrer originalen Position um einen Betrag viel größer als die durchschnittliche Verschiebung aller Grenzmarkierungen verschoben ist. In jedem Fall wird, falls eine Grenzmarkierung keinen akzeptierbaren Versatz besitzt, die Grenzmarkierung zurückgewiesen und wird nicht darauf folgend verwendet werden, Schritt 703. Die Verarbeitung wird dann zu Schritt 701 zurückgehen unter Verwendung der verbleibenden Grenzmarkierungen. Falls der Versatz akzeptierbar ist, wird eine Bestimmung vorgenommen, ob die Grenzmarkierungen „nahe" zu der Position des originalen, aktiven Bereichs liegen, Schritt 704. Falls sie nahe dazu liegen, wird der Versatz durch Mitteln der erhaltenen Verschiebungen in den Paaren von Grenzmarkierungen erhalten, Schritt 705. Der Versatz-Wert wird dann mit der Lage des originalen, aktiven Bereichs kombiniert, um die Lage, die geprüft werden soll, zu erzeugen, Schritt 706. Falls sie nicht nahe zueinander liegen, wird der Bereich, der geprüft werden soll, durch die Erzeugung einer affinen Transformation von einem Koordinatensystem-Raum, definiert durch den originalen Vordruck, zu einem Koordinatensystem-Raum, definiert durch den gerade abgetasteten Vordruck, bestimmt, Schritt 707. Diese affine Transformation wird dann auf die Informationen des aktiven Bereichs in der Vordruck-Steuerdatei angewandt. In jedem Fall wird der entsprechende Bereich geprüft, Schritt 708. Eine Prüfung kann nur die Erfassung irgendwelcher Markierungen (z.B. „Ein" Pixel) in dem entsprechenden Bereich sein. Dieser Vorgang wird für jeden aktiven Bereich, der geprüft werden soll, wiederholt.
  • Übersicht eines auf einem Computer basierenden Systems in der derzeit bevorzugten Ausführungsform der vorliegenden Erfindung
  • Das auf einem Computer basierende System, auf dem die derzeit bevorzugte Ausführungsform der vorliegenden Erfindung ausgeführt werden kann, wird unter Bezugnahme auf 8 beschrieben. Wie 8 zeigt, ist das auf einem Computer basierende System aus einer Mehrzahl von Komponenten, verbunden über einen Bus 801, aufgebaut. Der Bus 801 ist typischerweise aus einer Mehrzahl von parallelen Bussen (z.B. Adressen-Daten- und Status-Bussen) ebenso wie einer Hierarchie von Bussen (z.B. einem Prozessor-Bus, einem lokalen Bus und einem I/O-Bus) aufgebaut. In jedem Fall ist das auf einem Computer basierende System weiterhin aus einem Prozessor 802 zum Ausführen von Instruktionen, geliefert über den Bus 801 von einem internen Speicher 803, aufgebaut (beachte, dass der interne Speicher 803 typischerweise eine Kombination eines Random Access Memory oder eines Read Only Memory ist). Der Prozessor 802 und der interne Speicher ROM 803 können diskrete Komponenten oder eine einzelne, integrierte Vorrichtung, wie beispielsweise ein Application Specification Integrated Circuit-(ASIC)-Chip, sein.
  • Auch sind mit dem Bus 801 ein Tastenfeld 804 zum Eingeben einer alphanumerischen Eingabe, ein externer Speicher 805 zum Speichern von Daten, eine Cursor-Steuervorrichtung 806 zum Manipulieren eines Cursors, und eine Anzeige 807 zum Anzeigen einer visuellen Ausgabe verbunden. Das Tastenfeld 804 ist typischerweise ein Standard-QWERTY-Tastenfeld, kann allerdings auch ein Telefon ähnliches Tastenfeld sein. Der externe Speicher 805 kann ein fest eingebautes oder ein entfernbares, magnetisches oder optisches Plattenlaufwerk sein. Die Cursor-Steuervorrichtung 806 wird typischerweise eine Taste oder einen Schalter, die dazu zugeordnet sind, haben, mit denen die Funktionsweise bestimmter Funktionen programmiert werden kann. Weiterhin ist mit dem Bus 801 eine Abtasteinrichtung 808 verbunden. Die Abtasteinrichtung 808 bildet eine Einrichtung zum Erzeugen einer Bit aufgelisteten Darstellung einer Hardcopy eines Vordrucks.
  • Optionale Elemente, die mit dem Bus 801 verbunden sein könnten, würden einen Drucker 809 und eine Netzwerk-Verbindung 810 umfassen. Der Drucker 809 könnte dazu verwendet werden, eine Maschine zu drucken, nachdem sie erzeugt worden ist. Die Netzwerk-Verbindung 810 könnte dazu verwendet werden, die Benutzung der vorliegenden Erfindung über ein Netzwerk zu ermöglichen. Zum Beispiel könnte ein abgetastetes Bild einer Art eines Vordrucks zu einem System hin gerichtet werden, das die notwendigen Vordruck-Interpretierer, benötigt für eine Analyse, besitzt.
  • Es sollte angemerkt werden, dass das auf einem Computer basierende System, auf dem ein maschinenlesbarer Vordruck und entsprechende Vordruck-Steuerdateien erzeugt werden, und das auf dem Computer basierende System, auf dem die Vordruck-Interpretiereinrichtung vorhanden ist, nicht dieselben sein müssen.
  • Beispiel
  • Die vorliegende Erfindung wird weiterhin anhand eines Beispiels beschrieben, bei dem die Grenzmarkierungen des maschinenlesbaren Vordrucks der 1 extrahiert sind. Es sollte angemerkt werden, dass die Grenzmarkierungs-Extraktion der vorliegenden Erfindung analog zu verschiedenen Techniken sind, die entwickelt worden sind, um eine Bit aufgelistete Darstellung eines Mediums zu analysieren, um die Struktur des Mediums in Bezug auf Blöcke zu identifizieren. 9 ist eine Darstellung von Rechtecken nach dem Schritt der verbundenen Komponenten, beschrieben in Bezug auf Schritt 404 des Flussdiagramms der 4. An diesem Punkt wird jedes der Rechtecke ein Zeichen, oder mindestens einen Bereich eines Zeichens, darstellen. 10 stellt die Vereinigung von Rechtecken dar, wobei eine Gruppierung, wie beispielsweise Wörter, identifiziert worden ist (wie sie in dem Schritt 405 der 4 erzeugt sein können). Schließlich stellt 11 weitere Gruppierungen dar, bei denen Rechtecke vereinigt worden sind. Die Blöcke der 11 zeigen potenzielle Grenzmarkierungen, angezeigt als Blöcke 11011108, an.
  • 12 stellt einen Fall des maschinenlesbaren Vordrucks der 1 dar, wobei die Grenzmarkierungen identifiziert worden sind. Aus verschiedenen Gründen ist der vorliegende Fall des Vordrucks als ein Satz von Grenzmarkierungen erzeugt worden, die unterschiedlich zu solchen der 11 sind. 12 besitzt nur fünf Grenzmarkierungen (Grenzmarkierungen 12011205). Es sollte angemerkt werden, dass die Grenzmarkierungen unterschiedliche Formen haben können. Weiterhin werden die identifizierten Grenzmarkierungen typischerweise unterschiedliche, räumliche Lagen haben. In 12 sind die Bereiche eines Textes und der Prüfkästen in einer einzelnen Grenzmarkierung vereinigt. Ähnlich ist der Text, der Anweisungen zum Vervollständigen des Vordrucks enthält, in einer Art einer einzelnen Grenzmarkierung vereinigt worden.
  • Eine Paarbildung der Grenzmarkierungen führt zu dem Folgenden: eine Grenzmarkierung 1101 wird mit einer Grenzmarkierung 1201 gepaart, eine Grenzmarkierung 1102 wird mit einer Grenzmarkierung 1202 gepaart, und eine Grenzmarkierung 1108 wird mit einer Grenzmarkierung 1205 gepaart. Es ist anzumerken, dass die Grenzmarkierungen 11031107 der 11 und Grenzmarkierungen 1203 und 1204 nicht gepaart sind. Dies kommt daher, dass sie nicht entsprechende Lage- und Formkriterien für die Anpassungen erfüllen.
  • Unter Verwendung der vorstehenden Informationen werden die Bereiche des vorliegenden Falls des Vordrucks nun geprüft, um zu bestimmen, ob dort irgendwelche Markierungen vorhanden sind. Es wird nun angenommen, dass die räumlichen Informationen für einen aktiven Bereich A, die erste Alternative darstellend, empfangen worden sind. Die zwei nächstliegenden Paare der Grenzmarkierungen sind die Paare 1101/1201 und 1102/1202. Hierbei sind zwei Paare von Grenzmarkierungen „nahe" zueinander, so dass der Versatz durch die Mittelung der Translation, erhalten von den zwei unterschiedlichen Grenzmarkierungen, bestimmt wird. Die Verschiebung durch die Grenzmarkierung 1102 zu 1201 wird mit (dx1, dy1) bezeichnet und die Verschiebung durch die Grenzmarkierung 1102 zu 1202 wird mit (dx2, dy2) bezeichnet. So wird der Versatz (oder die Verschiebung) für den aktiven Bereich A als ((dx1+dx2)/2, (dy1+dy2)/2) berechnet. Ein Kombinieren dieses Versatzes mit der räumlichen Lage, spezifiziert in der Steuerdatei für die Vordrucke, führt zu der Lage des aktiven Bereichs in dem Fall des Vordrucks, der geprüft werden soll. Diese Prüfung wird den gesamten aktiven Bereich, der definiert ist, überspannen.
  • Wie vorstehend angemerkt ist, wird, falls die Grenzmarkierungen weit voneinander entfernt sind, der Bereich, der geprüft werden soll, durch eine affine Transformation bestimmt. Die affine Transformation ist eine mathematische Standardberechnung, die eine Auflistung von einem Koordinatensystem (Raum des originalen Vordrucks) zu einem anderen Koordinatensystem (Raum von einem abgetasteten Vordruck) berechnet. Diese Transformation berücksichtigt die Rotation, Skalierung und Translation von einem Raum zu dem anderen. Wenn einmal diese Transformation berechnet worden ist, kann man sie dazu verwenden, einen Punkt von einem der Koordinatensysteme zu dem anderen aufzulisten. In der vorliegenden Erfindung werden 3 Punkte von ursprünglichen Grenzmarkierungen von den vorliegenden Grenzmarkie rungen verwendet, um zu berechnen, in welcher Form die Translation vorliegt. Basierend auf dieser Translation ist es nur eine Auflistung des ursprünglichen Rechtecks für das aktive Objekt zu dem, wo es in dem abgetasteten Koordinatensystem liegt.

Claims (12)

  1. Verfahren zum Lokalisieren bezeichneter Bereiche (104, 105, 106, 109), die durch einen Benutzer erzeugte Markierungen auf einem maschinenlesbaren Vordruck (101) enthalten können, der ein Vordruck ist, der, verglichen mit einem originalen, maschinenlesbaren Vordruck, verzerrt sein kann, wobei das Verfahren aufweist: (a) Aufnehmen eines originalen, maschinenlesbaren Vordrucks; (b) Analysieren (202) des originalen, maschinenlesbaren Vordrucks, um darin einen ersten Satz von grafischen Charakteristika zu identifizieren, wobei die grafischen Charakteristika zumindest von alphabetischen Zeichen, enthalten auf dem originalen, maschinenlesbaren Vordruck, abgeleitet sind; (c) Erzeugen (206) einer Steuerdatei des Vordrucks, die Informationen aufweist, um den identifizierten ersten Satz von grafischen Charakteristika des originalen, maschinenlesbaren Vordrucks zu beschreiben, wobei die Informationen Positions-Informationen über den identifizierten ersten Satz von grafischen Charakteristika und Positions-Informationen über die bezeichneten Bereiche umfassen; (d) Aufnehmen (207) eines maschinenlesbaren Vordrucks; (e) Abtasten des maschinenlesbaren Vordrucks, um eine bitaufgelistete Darstellung davon zu erzeugen; (f) Lesen (604) der Steuerdatei des Vordrucks; (g) Analysieren (605) der bit-aufgelisteten Darstellung des maschinenlesbaren Vordrucks, um einen zweiten Satz von grafischen Charakteristika zu identifizieren, wobei die zweiten grafischen Charakteristika zumindest von alphabetischen Zeichen, enthalten auf dem maschinenlesbaren Vordruck, abgeleitet werden; (h) Abgleichen (607) von grafischen Charakteristika des ersten Satzes von grafischen Charakteristika an grafische Charakteristika des zweiten Satzes von grafischen Charakteristika, um zusammenpassende Paare von grafischen Charakteristika, basierend auf den Informationen, geliefert durch die Steuerdatei des Vordrucks, zu erzeugen; (i) Bestimmen einer Lage mindestens eines der bezeichneten Bereiche in der bit-aufgelisteten Darstellung basierend auf dem identifizierten, zweiten Satz von grafischen Charakteristika, basierend auf den Positions-Informationen für die bezeichneten Bereiche, die in der Steuerdatei des Vordrucks vorhanden sind, und basierend auf einer räumlichen Transformation, die auf den Ergebnissen des Anpassungsschritts basieren.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Analysierens der bitaufgelisteten Darstellung des maschinenlesbaren Vordrucks, um einen Satz von grafischen Charakteristika zu identifizieren, weiterhin die Schritte aufweist: (b1) Erzeugen von Rechtecken um Bereiche der bit-aufgelisteten Darstellung herum, die angrenzende Pixel enthalten, die denselben binären Wert haben; und (b2) Durchführen der Unterschritte eines Kombinierens von sich überlappenden und nahe zueinander liegenden Rechtecken einer Anzahl von Malen, spezifiziert durch eine Iterations-Zählung, um die grafischen Charakteristika in der bit-aufgelisteten Darstellung zu erzeugen.
  3. Verfahren nach Anspruch 1, wobei das Verfahren weiterhin die Schritte aufweist: (I) Erzeugen des originalen, maschinenlesbaren Vordrucks (101) unter Durchführung der Unterschritte: – Zusammensetzen des originalen, maschinenlesbaren Vordrucks (101), der einen oder mehrere bezeichnete Bereiche) (104, 105, 106, 109) besitzt; – Analysieren eines Bilds des originalen, maschinenlesbaren Vordrucks (101), um ein oder mehrere grafische Charakteristika (102, 103, 107, 108) zu identifizieren; und –Speichern von Lage- und Identifizierungs-Informationen für das eine oder mehrere grafische Charakteristika (102, 103, 107, 108) und den bezeichneten Bereich (104, 105, 106, 109) in der Steuerdatei (206) des Vordrucks; (II) Aufsuchen der Steuerdatei (206) des Vordrucks; und wobei für jeden bezeichneten Bereich in der Steuerdatei (206) des Vordrucks der Anpassungsschritt die Unterschritte aufweist: – Vergleichen des einen oder mehrerer grafischer Charakteristika des originalen Vordrucks von der Vordruck-Steuerdatei mit dem einen oder mehreren grafischen Charakteristika der bit-aufgelisteten Darstellung; – Identifizieren eines Bereichs auf der bit-aufgelisteten Darstellung basierend auf dem Vergleichsschritt; und – Prüfen des Bereichs, identifiziert in dem Identifizierungsschritt als der bezeichnete Bereich.
  4. Verfahren nach Anspruch 3, wobei der Schritt eines Analysierens der bitaufgelistenden Darstellung, um den Satz von grafischen Charakteristika zu identifizieren, weiterhin umfasst: b1) Verwenden eines ersten Verfahrens, um die grafischen Charakteristika für den maschinenlesbaren Vordruck von der bit-aufgelisteten Darstellung zu identifizieren; und b2) Speichern von ersten Lage-Informationen für die grafischen Charakteristika in der Steuerdatei (206) des Vordrucks.
  5. Verfahren nach Anspruch 3 oder Anspruch 4, wobei, vor dem Schritt eines Analysierens der bit-aufgelisteten Darstellung, um den Satz von grafischen Charakteristika zu identifizieren, die Schritte durchgeführt werden: – Bestimmen, ob die bit-aufgelistete Darstellung gerade gerichtet werden kann; und – Zurückweisen der bit-aufgelisteten Darstellung, falls der maschinenlesbare Vordruck nicht gerade gerichtet werden kann.
  6. Verfahren nach einem der Ansprüche 1 bis 5, wobei der Schritt eines Bestimmens der Lage von bezeichneten Bereichen der bit-aufgelisteten Darstellung auf einer translatorischen Transformation von angepassten Paaren von grafischen Charakteristika und der Positions-Informationen für bezeichnete Bereiche in der Steuerdatei des Vordrucks durch Mittelung erhaltener Verschiebungen in den Paaren von grafischen Charakteristika basiert.
  7. Verfahren nach einem der Ansprüche 1 bis 5, wobei der Schritt eines Bestimmens der Lage von bezeichneten Bereichen der bit-aufgelisteten Darstellung auf einer affinen Transformation von angepassten Paaren von grafischen Charakteristika und den Positions-Informationen für bezeichnete Bereiche in der Steuerdatei des Vordrucks basiert.
  8. Vorrichtung zum Verarbeiten eines maschinenlesbaren Vordrucks (101), der, verglichen mit einem originalen, maschinenlesbaren Vordruck, verzerrt sein kann und durch einen Benutzer erzeugte Markierungen enthalten kann, wobei die Vorrichtung aufweist: (a) eine Steuerdatei-Speichereinrichtung (803, 805) zum Speichern einer Steuerdatei eines Vordrucks für den originalen, maschinenlesbaren Vordruck, wobei die Steuerdatei für den Vordruck Informationen aufweist, um einen identifizierten ersten Satz von grafischen Charakteristika des originalen, maschinenlesbaren Vordrucks zu beschreiben, wobei der erste Satz von grafischen Charakteristika zumindest von alphabetischen Zeichen, enthalten auf dem originalen, maschinenlesbaren Vordruck, abgeleitet ist und wobei die Informationen Positions-Informationen über den identifizierten ersten Satz von grafischen Charakteristika und Positions-Informationen über die bezeichneten Bereiche umfassen; (b) eine Abtasteinrichtung (808) zum Erzeugen einer bit-aufgelisteten Darstellung eines maschinenlesbaren Vordrucks; (c) eine Bildspeichereinrichtung (803, 805), gekoppelt mit der Abtasteinrichtung, wobei die Bildspeichereinrichtung zum Speichern der erzeugten, bit-aufgelisteten Darstellung dient; (d) eine Extraktionseinrichtung für grafische Charakteristika, gekoppelt mit der Bildspeichereinrichtung, wobei die Extraktionseinrichtung für grafische Charakteristika zum Extrahieren eines zweiten Satzes von grafischen Charakteristika der bit-aufgelisteten Darstellung dient, wobei der zweite Satz von grafischen Charakteristika zumindest von alphabetischen Zeichen abgeleitet ist, die auf dem maschinenlesbaren Vordruck enthalten sind; (d) eine Abgleicheinrichtung, gekoppelt mit der Extraktionseinrichtung für grafische Charakteristika, wobei die Abgleicheinrichtung zum Abgleichen von grafischen Charakteristika des ersten Satzes von grafischen Charakteristika an grafische Charakteristika des zweiten Satzes von grafischen Charakteristika dient, um zusammenpassende Paare von grafischen Charakteristika, basierend auf den Informationen, geliefert durch die Steuerdatei für den Vordruck, zu erzeugen; (e) eine Identifikationseinrichtung für bezeichnete Bereiche, gekoppelt mit der Extraktionseinrichtung für grafische Charakteristika und der Speichereinrichtung, wobei die Identifikationseinrichtung für bezeichnete Bereiche eine Einrichtung zum Identifizieren einer Lage mindestens eines der bezeichneten Bereiche in der bit-aufgelisteten Darstel lung, basierend auf dem identifizierten zweiten Satz von grafischen Charakteristika, basierend auf den Positions-Informationen für die bezeichneten Bereiche, vorhanden in der Steuerdatei für den Vordruck, und basierend auf einer räumlichen Transformation, die auf den Ergebnissen des Anpassungsschritts basiert, aufweist; und (f) eine Leseeinrichtung, gekoppelt mit der Identifikationseinrichtung für die bezeichneten Bereiche, wobei die Leseeinrichtung den bezeichneten Bereich von der Identifikationseinrichtung für die bezeichneten Bereiche prüft, um zu bestimmen, ob Benutzer-Markierungen darauf vorhanden sind.
  9. Vorrichtung nach Anspruch 8, die weiterhin eine Einrichtung zum Geraderichten der bit-aufgelisteten Darstellung aufweist.
  10. Vorrichtung nach Anspruch 8, die weiterhin aufweist: eine einen Vordruck erzeugende Einrichtung zum Erzeugen des originalen, maschinenlesbaren Vordrucks, wobei die Vordruck-Erzeugungseinrichtung eine Einrichtung zum Spezifizieren von einem oder von mehreren Steuerobjekt(en) umfasst; eine Vordruck-Analyse-Einrichtung, gekoppelt mit der Vordruck-Erzeugungseinrichtung, wobei die Vordruck-Analyse-Einrichtung grafische Charakteristika in dem originalen, maschinenlesbaren Vordruck identifiziert, wobei die Vordruck-Analyse-Einrichtung aufweist: eine Render-Einrichtung zum Rendern des originalen, maschinenlesbaren Vordrucks zu einer zweiten bit-aufgelisteten Bilddarstellung; eine Einrichtung zum Erfassen eines Vorhandenseins eines Steuerobjekts und zum Speichern einer Lage eines entsprechenden, bezeichneten Bereichs in der Vordruck-Steuerdatei; und eine erste Bildverarbeitungs-Einrichtung zum Identifizieren von einem oder von mehreren grafischen Charakteristika in dem originalen, maschinenlesbaren Vordruck basierend auf der zweiten bit-aufgelisteten Bild-Darstellung; eine Einrichtung zum Speichern des einen oder von mehreren grafischen Charakteristika in der Vordruck-Steuerdatei, die dem originalen, maschinenlesbaren Vordruck zugeordnet ist; wobei das System weiterhin aufweist: eine Vordruck-Interpretiereinrichtung zum Extrahieren von Informationen von einem maschinenlesbaren Vordruck, wobei die Vordruck-Interpretiereinrichtung dazu geeignet ist, durch eine Vordruck-Verarbeitungs-Anwendung verwendet zu werden, wobei die Vordruck-Interpretiereinrichtung aufweist: eine Aufnahmeeinrichtung zum Aufnehmen einer bit-aufgelisteten Darstellung des maschinenlesbaren Vordrucks und einer Vordruck-Steuerdatei für den maschinenlesbaren Vordruck; die Bildspeichereinrichtung; die Steuerdatei-Speichereinrichtung; die Extraktionseinrichtung für grafische Charakteristika; die Identifikationseinrichtung für den bezeichneten Bereich, gekoppelt mit der Aufnahmeeinrichtung und der Extraktionseinrichtung für die grafischen Charakteristika; und wobei die Leseeinrichtung weiterhin die Ergebnisse der Prüfung ausgibt.
  11. Vorrichtung nach Anspruch 10, wobei die Vordruck-Analyseeinrichtung weiterhin eine erste Kompressionseinrichtung zum Komprimieren der zweiten bitaufgelisteten Bilddarstellung in eine vorbestimmte Auflösung aufweist und wobei die Vordruck-Interpretiereinrichtung weiterhin eine zweite Komprimiereinrichtung zum Komprimieren der bit-aufgelisteten Darstellung eines maschinenlesbaren Vordrucks in die vorbestimmte Auflösung aufweist und/oder wobei die erste Bildverarbeitungseinrichtung weiterhin eine Einrichtung zum Erzeugen von Rechtecken, die Bereiche definieren, die angrenzende Pixel enthalten, die denselben binären Wert haben, eine Einrichtung zum Kombinieren von überlappenden Rechtecken und eine Einrichtung zum Kombinieren von Rechtecken, die innerhalb eines vorbestimmten Abstands liegen, aufweist.
  12. Vorrichtung nach Anspruch 11, wobei die Extraktionseinrichtung für grafische Charakteristika weiterhin eine Einrichtung zum Erzeugen von Rechtecken, die Bereiche definieren, die angrenzende Pixel enthalten, die denselben binären Wert haben, eine Einrichtung zum Kombinieren von überlappenden Rechtecken und eine Einrichtung zum Kombinieren von Rechtecken, die innerhalb des vorbestimmten Abstands liegen, aufweist.
DE69633809T 1995-04-21 1996-04-12 Verarbeitung von maschinell lesbaren Vordrucken Expired - Lifetime DE69633809T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US42635495A 1995-04-21 1995-04-21
US426354 1995-04-21

Publications (2)

Publication Number Publication Date
DE69633809D1 DE69633809D1 (de) 2004-12-16
DE69633809T2 true DE69633809T2 (de) 2005-03-17

Family

ID=23690457

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69633809T Expired - Lifetime DE69633809T2 (de) 1995-04-21 1996-04-12 Verarbeitung von maschinell lesbaren Vordrucken

Country Status (4)

Country Link
US (1) US5748809A (de)
EP (1) EP0738987B1 (de)
JP (2) JPH08305778A (de)
DE (1) DE69633809T2 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6201894B1 (en) * 1996-01-23 2001-03-13 Canon Kabushiki Kaisha Method and apparatus for extracting ruled lines or region surrounding ruled lines
US6236463B1 (en) * 1997-01-17 2001-05-22 Moore U.S.A., Inc. Generating high speed variable information printed multiple page documents
BR9809252A (pt) * 1997-05-09 2000-06-27 Neomedia Tech Inc Método e sistema para acessar recursos eletrônicos através dos dados que podem ser lidos por máquina em documentos inteligentes
JP3580670B2 (ja) * 1997-06-10 2004-10-27 富士通株式会社 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
US6351559B1 (en) * 1998-12-22 2002-02-26 Matsushita Electric Corporation Of America User-enclosed region extraction from scanned document images
US7170499B1 (en) * 1999-05-25 2007-01-30 Silverbrook Research Pty Ltd Handwritten text capture via interface surface
US6760119B1 (en) 1999-05-25 2004-07-06 Silverbrook Research Pty Ltd Relay device
US6816274B1 (en) * 1999-05-25 2004-11-09 Silverbrook Research Pty Ltd Method and system for composition and delivery of electronic mail
AUPQ291299A0 (en) * 1999-09-17 1999-10-07 Silverbrook Research Pty Ltd A self mapping surface and related applications
US6640010B2 (en) * 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US6741738B2 (en) 2000-03-13 2004-05-25 Tms, Inc. Method of optical mark recognition
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
US6816630B1 (en) * 2000-05-22 2004-11-09 Electro-Sensors, Inc. System and method for creating and processing data forms
US6832349B1 (en) * 2001-01-08 2004-12-14 Cardiff Software, Inc. Remote activation of enhanced functionality features in locally created documents
DE60204066T2 (de) * 2001-02-22 2006-02-02 Oce Print Logic Technologies S.A. Automatische Lokalisierung von Tabellen in Dokumenten
US6810232B2 (en) * 2001-03-05 2004-10-26 Ncs Pearson, Inc. Test processing workflow tracking system
US6961482B2 (en) * 2001-03-05 2005-11-01 Ncs Pearson, Inc. System for archiving electronic images of test question responses
US7561734B1 (en) 2002-03-02 2009-07-14 Science Applications International Corporation Machine learning of document templates for data extraction
US7142728B2 (en) * 2002-05-17 2006-11-28 Science Applications International Corporation Method and system for extracting information from a document
US20040008212A1 (en) * 2002-07-11 2004-01-15 Sun Microsystems, Inc., A Delaware Corporation Reshaping irregularly-shaped images for improved compression
US9224040B2 (en) 2003-03-28 2015-12-29 Abbyy Development Llc Method for object recognition and describing structure of graphical objects
RU2003108434A (ru) * 2003-03-28 2004-09-27 "Аби Софтвер Лтд." (CY) Способ предварительной обработки изображения машиночитаемой формы нефиксированного формата
US9015573B2 (en) 2003-03-28 2015-04-21 Abbyy Development Llc Object recognition and describing structure of graphical objects
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
US20060187466A1 (en) * 2005-02-18 2006-08-24 Timbre Technologies, Inc. Selecting unit cell configuration for repeating structures in optical metrology
US7916972B2 (en) * 2006-07-31 2011-03-29 Xerox Corporation Landmark-based form reading with declarative language
US8233714B2 (en) 2006-08-01 2012-07-31 Abbyy Software Ltd. Method and system for creating flexible structure descriptions
US9740692B2 (en) 2006-08-01 2017-08-22 Abbyy Development Llc Creating flexible structure descriptions of documents with repetitive non-regular structures
US20090015875A1 (en) * 2007-06-20 2009-01-15 Ctb/Mcgraw-Hill Companies, Inc. Image manipulation of digitized images of documents
US9917975B2 (en) * 2013-05-29 2018-03-13 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Facsimile requirements monitoring
US10067926B2 (en) 2015-12-21 2018-09-04 Xerox Corporation Image processing system and methods for identifying table captions for an electronic fillable form
US10025766B2 (en) * 2015-12-21 2018-07-17 Xerox Corporation Relational database for assigning orphan fillable fields of electronic fillable forms with associated captions
US10002291B2 (en) 2016-05-25 2018-06-19 Xerox Corporation Method and system of identifying fillable fields of an electronic form

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
US5060980A (en) * 1990-05-30 1991-10-29 Xerox Corporation Form utilizing encoded indications for form field processing
US5452379A (en) * 1991-09-13 1995-09-19 Meadowbrook Industries, Ltd. Image capture and storage techniques in association with optical mark reading
US5201011A (en) * 1991-11-19 1993-04-06 Xerox Corporation Method and apparatus for image hand markup detection using morphological techniques
US5282052A (en) * 1992-03-20 1994-01-25 Xerox Corporation Techniques for automatic form creation by combining partial operations
US5317646A (en) * 1992-03-24 1994-05-31 Xerox Corporation Automated method for creating templates in a forms recognition and processing system
TW274597B (de) * 1992-04-27 1996-04-21 Philips Electronics Nv
US5481621A (en) * 1992-05-28 1996-01-02 Matsushita Electric Industrial Co., Ltd. Device and method for recognizing an image based on a feature indicating a relative positional relationship between patterns
US5416849A (en) * 1992-10-21 1995-05-16 International Business Machines Corporation Data processing system and method for field extraction of scanned images of document forms
US5428694A (en) * 1993-10-14 1995-06-27 International Business Machines Corporation Data processing system and method for forms definition, recognition and verification of scanned images of document forms

Also Published As

Publication number Publication date
JP3996579B2 (ja) 2007-10-24
EP0738987A2 (de) 1996-10-23
EP0738987A3 (de) 1999-04-07
EP0738987B1 (de) 2004-11-10
DE69633809D1 (de) 2004-12-16
JPH08305778A (ja) 1996-11-22
JP2004158036A (ja) 2004-06-03
US5748809A (en) 1998-05-05

Similar Documents

Publication Publication Date Title
DE69633809T2 (de) Verarbeitung von maschinell lesbaren Vordrucken
EP0144361B1 (de) Vorrichtung und verfahren zum handhaben und wiederauffinden von belegen und daten
DE60312572T2 (de) Verfahren und Gerät zum Konvertieren digitaler Bilder von Handzeichnungen zur weiteren Verwendung in einem strukturierten Text/Graphik Editor.
DE69932167T2 (de) Zeichenerkennung
DE19960555B4 (de) Verfahren zum Auffinden und Lesen eines zweidimensionalen Strichcodes
DE10162156B4 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE69723220T2 (de) Gerät und Verfahren zur Extrahierung von Tabellengeraden innerhalb normaler Dokumentbilder
DE19953608B4 (de) Vorrichtung und Verfahren zum Erkennen eines Fonts eines Textes in einem Dokumentenverarbeitungssystem
DE60036661T2 (de) Bildverarbeitungsvorrichtung und Bildeingabevorrichtung, die mit einer Datensy ntheseeinheit ausgestattet sind.
DE69838579T2 (de) Bildverarbeitungsvorrichtung und -verfahren
DE69728546T2 (de) Automatisierte Bildqualitätsanalyse und -verbesserung beim Abtasten und Reproduzieren von Dokumentvorlagen
DE4311172A1 (de) Verfahren und Einrichtung zum Korrigieren der Schräge eines Vorlagenbildes sowie Vorlagensegmentierungssystem
EP2220590A1 (de) Verfahren zur verarbeitung von daten der optischen zeichenerkennung (ocr), wobei die ausgabe visuell beeinträchtigte zeichenbilder umfasst
DE69629173T2 (de) Automatisches Plazieren eines graphischen Musters
DE19705757A1 (de) Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems
WO2005119580A1 (de) Verfahren und einrichtung zur strukturanalyse eines dokuments
DE69732213T2 (de) Informationseingabeverfahren, -platte und -gerät
WO2020239867A1 (de) Verfahren zur authentifizierung eines produktes mittels fourier-mustern
DE102019119138B4 (de) Bestimmen einer Verteil- und/oder Sortierinformation zum automatisierten Verteilen und/oder Sortieren einer Sendung
DE60217450T2 (de) Verfahren und Anordnung zur vorherigen Anmerkung von Dokumente und zur Erstellung einer Zusammenfassung anhand von Dokumentbilddaten
WO2008040810A2 (de) Verfahren und system zum automatischen aufbereiten von druckdaten für einen druckvorgang
DE3414455C2 (de) Verfahren und Vorrichtung zum Lesen und Verarbeiten von Information, die aus dekodierbarer Schriftinformation und/oder nichtdekodierbarer Graphikinformation besteht
DE10023759A1 (de) Verfahren zum Einbringen verborgener Information in einen Notensatz
DE60005400T2 (de) Computervorrichtung, verfahren und programmprodukt zum ausfüllen von drucksachen per computer

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition