DE68922998T2 - Verfahren zur Digitalisierung von in Formblättern eingetragenen Informationen mittels Vergleich mit sehr grossen Symbolen. - Google Patents

Verfahren zur Digitalisierung von in Formblättern eingetragenen Informationen mittels Vergleich mit sehr grossen Symbolen.

Info

Publication number
DE68922998T2
DE68922998T2 DE68922998T DE68922998T DE68922998T2 DE 68922998 T2 DE68922998 T2 DE 68922998T2 DE 68922998 T DE68922998 T DE 68922998T DE 68922998 T DE68922998 T DE 68922998T DE 68922998 T2 DE68922998 T2 DE 68922998T2
Authority
DE
Germany
Prior art keywords
pixel
information
digitized representation
representation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE68922998T
Other languages
English (en)
Other versions
DE68922998D1 (de
Inventor
Dan Shmuel Dr Chevion
Ehud Dov Dr Karnin
Eugeniusz Dr Walach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE68922998D1 publication Critical patent/DE68922998D1/de
Application granted granted Critical
Publication of DE68922998T2 publication Critical patent/DE68922998T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • H04N1/411Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures
    • H04N1/4115Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures involving the recognition of specific patterns, e.g. by symbol matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Digitalisieren von Bildinformationen, insbesondere in Fällen, in denen ein Teil des Bildes aus unveränderlichen d.i. Standardinformationen, wie z.B. in Vordrucken, besteht und somit nichts zum Informationsgehalt beiträgt. Das erfindungsgemäße Verfahren benutzt den Vergleich zwischen voraufgenommenen Daten, die die genannte Standardinformation darstellen, und den Bildinformationen, die durch Abtasten aus dem betreffenden Bild erhalten wurden.
  • Der Umgang mit Papierdokumenten gehört heutzutage in Büros zur täglichen Routine. Überlegungen, die mit einer gewissen Sorge um die natürlichen Quellen des für die Herstellung des für die Dokumente verbrauchten Papiers, mit der Schnelligkeit der Herstellung und der Bearbeitung der Dokumente, so daß sie ihrer Aufgabe gerecht werden, mit ihrer Archivierung und späterem Wiederauffinden zu tun haben, haben zu Bemühungen Anlaß gegeben, die Anzahl der umlaufenden Dokumente zu verringern und das Arbeiten mit den Dokumenten automatischen Bearbeitungsgeräten zu überlassen. Die materielle Handhabung der Dokumente ist in dieser Beziehung ein wichtiger Aspekt. Der andere, vielleicht noch wichtigere Aspekt, ist die Verarbeitung der Informationen, die in den Dokumenten enthalten sind.
  • Die Verarbeitung der in den Dokumenten enthaltenen Informationen beinhaltet im allgemeinen die Erfassung der Informationen durch irgendein Lesegerät, die Umwandlung der erfaßten Informationen in einen maschinenlesbaren Code, die Abspeicherung der codierten Information für spätere und möglicherweise wiederholte Weiterverarbeitung, die aktuelle Verarbeitung der Informationen und schließlich Ausgabe der Ergebnisse der Verarbeitung. Diese Ausgabe kann eine sichtbare Form annehmen, wie z.B. in einer Bildschirmausgabeeinheit oder als Druck, oder kann auch rein elektronisch sein.
  • Die Erfassung der Informationen durch ein Lesegerät, wie z.B. durch einen optischen Scanner, muß mit einer angemessen hohen Auflösung erfolgen, sonst wird der Informationsgehalt verstümmelt oder geht teilweise verloren. Dementsprechend erzeugt das Ablesegerät eine große Menge Abtastdaten, die ihrerseits eine große Speicherkapazität voraussetzen. Als typisches Beispiel wird eine DIN-A4-Seite (279 x 210 mm), die mit 100 pel/cm (pel ist ein "Picture element" [Bildelement] und ist entweder ein weißer oder ein schwarzer Punkt) abgetastet wird, etwa 700 Kilobyte Speicherplatz benötigen. Sogar eine verhältnismäßig bescheidene Anzahl Dokumente, sagen wir ein paar Tausend, würde einen unmöglich großen Speicher erfordern.
  • Zwecks Vereinfachung dieses Problem sind herkömmliche Dokumentabtastsysteme mit Datenkompressionsroutinen versehen, die etwa eine Größenordnung einsparen, so daß die komprimierten Daten einer abgetasteten A4-Seite in 25 bis 75 kByte Speicherplatz abgespeichert werden können, natürlich in Abhängigkeit vom Inhalt des abgetasteten Bildes. Sehr ausgefeilte Algorithmen auf der Grundlage einer arithmetischen Codierung können eine weitere Reduktion um etwa 16% erzielen. Selbstverständlich muß jedes Kompressionssystem die Möglichkeit vorsehen, die spätere Dekomprimierung der Informationen zuzulassen, sei es zur Verarbeitung, sei es zur Ausgabe.
  • In einer ganzen Reihe von Anwendungen, bei denen große Mengen Dokumente bearbeitet werden müssen, wie z.B. im Zusammenhang mit einer Volkszählung, ist es wesentlich, das Kompressionsverhältnis sehr signifikant noch weiter zu steigern, sagen wir um eine weitere Größenordnung.
  • Eine mögliche Lösung dieses Problems wird in "Combined Symbol Matching Facsimile Data Compression System" von W.K. Pratt, P.J. Capitant, W. Chen, E.R. Hamilton und R.H. Wallis, Proc. IEEE, Bd. 68, Nr. 7, Juli 1980 beschrieben. Dort wurde vorgeschlagen, digitalisierte Bilder in einen Zeichenvergleichsprozeß einzuspeisen. Erkannte Zeichen werden sehr effizient durch ihre alphanumerische Form ausgedrückt. Dann wird die bleibende Restinformation als ein herkömmliches digitalisiertes Bild gesondert komprimiert. Das bewirkt eine etwa zweifache Steigerung des Kompressionsverhältnisses, obwohl die Wirksamkeit dieses Schemas weitgehend vom Prozentsatz der erkannten Zeichen und vom Grad des Digitalisierungsrauschens abhängt.
  • Eine verbesserte Technik wird in US-A-4,499,499 von Brickman et al. geoffenbart, wo anstatt des Erkennens einzelner Zeichen das Vergleichen großer Symbole, wie z.B. einzelner Wörter im Text, in Betracht gezogen wird. Es wird jedoch kein Versuch vorgeschlagen, größere Symbole als Wörter zur Kornpression heranzuziehen. Dementsprechend zeigt diese Vergleichsschrift kein Verfahren, das eine Kompression bis zu einem zufriedenstellenden Verhältnis ermöglichen würde.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Digitalisierung von Dokumenten vorzuschlagen, insbesondere solcher, die eine definierte Struktur haben, wie sie z.B. bei Vordrucken auftreten. Ein großer Prozentsatz der bei der Geschäftsabwicklung auftretenden Dokumente besteht aus Vordrucken verschiedener Aufmachung und Anordnung, u.a. Verwaltungsfragebögen, Schecks, Strafmandate und geographische Karten, um nur einige Beispiele zu erwähnen.
  • Jeder Originalvordruck (O), d.h. der zur Weiterverarbeitung vorgelegte Vordruck, setzt sich zusammen aus einem Standard- oder konstanten Teil (CP), der in jedem Vordruck dieser Art wiederkehrt, und einem veränderbaren Teil (VP), d.i. die Information, die in Ergänzung der vorgedruckten Teile eingeschrieben wird. In mathematischer Notation,
  • O = CP VP,
  • wobei sowohl CP als auch VP Zweiebenenbilder sind und eine bildschirmelementweise Vereinigungsoperation darstellt, so daß ein Pixel in O schwarz ist, wenn das entsprechende Pixel entweder in CP oder in VP (oder in beiden) schwarz ist.
  • Der veränderbare Teil VP ist je nach Vordruck unterschiedlich. Wenn man nun die in einer großen Anzahl Vordrucken mit dem gleichen konstanten Teil (CP) enthaltenen Informationen ansieht, ist es unmittelbar offensichtlich, daß es genügt, eine einzige Kopie dieses konstanten Teils des Vordrucks zu haben, und eine Kopie von jedem veränderbaren Teil (VP), d.h. so viele veränderbare Teile wie einzelne Vordrucke dieses besonderen Vordrucktyps vorliegen. Dementsprechend kann jeder Vordrucktyp wirksam durch Abspeichern seines CP gespeichert werden, und die Menge der Einzelvordrucke dieses Vordrucktyps kann abgespeichert werden durch Abspeichern nur ihrer veränderbaren Teile (VP). Dieses Verfahren wird in der Tat häufig bei der Verwaltung elektronischer Vordrucke angewandt.
  • Das ist nun eine sehr einfache Idee, die Frage dabei ist, wie läßt sich dieses Verfahren anwenden auf die riesige Menge Papiervordrucke, die als digitalisierte Bilder behandelt werden müssen. Eine mögliche Lösung wäre es, die grundlegenden Muster an Zeilen, Kästchen und Text in diesen Vordrucken unter Verwendung einer Spezialdruckfarbe aufzubringen, die für herkömmliche Scanner durchsichtig ist. Wenn ein ausgefüllter Vordruck dieser Art abgetastet wird, wäre das Grundmuster (d.i. CP) für den Scanner unsichtbar und nur der veränderbare Teil VP würde in den Rechner eingegeben werden. Auf die Entwicklung einer praktischen Implementierung dieser Lösung wurde viel Mühe verwandt, wie von D.E. Nielsen, R.B. Arps und T.H. Morin in "Evaluation of Scanner Spectral Response for Insurance Industry Documents", 16/A44 NCI Program, Arbeitspapier Nr. 2, Mai 1973, und F.B. Woods und R.B. Arp in "Evaluation of Scanner Spectral Response for Insurance Industry Documents", 16/A44 NCI Program, Arbeitspapier Nr. 4, September 1973 mitgeteilt wurde. Der offensichtliche Nachteil dieser Lösung ist, daß die Verwendung eines für Spezialdruckfarbe empfindlichen Scanners die Anwendung dieser Lösung auf vorhandene Archive ausschließt. Auch ist die Anwendung einer Spezialdruckfarbe sicher umständlich und teuer.
  • Es ist daher eine Aufgabe der Erfindung, eine wirksame Methode zur Digitalisierung des Informationsgehalts von Vordrucken bereitzustellen, einschließlich derer, die bereits in Ablagen archiviert sind.
  • Die grundlegende Idee ist, zunächst das Abtasten eines leeren Vordrucks vorzunehmen, um den konstanten Teil CP zu erfassen und in einem Speicher abzuspeichern. Auf diese Weise läßt sich eine Bibliothek aller möglichen leeren Vordrucke, die für eine bestimmte Anwendung in Frage kommen, generieren. Wenn dann dem System ein ausgefüllter Vordruck vorgelegt wird, wird er abgetastet, digitalisiert und die sich ergebende digitalisierte Information wird abgespeichert. Dann wird der entsprechende CP des Vordrucks identifiziert und von der abgespeicherten digitalen Information des ausgefüllten Vordrucks "subtrahiert". Die auf diese Weise ermittelte Differenz ist der veränderbare Teil VP, d.i. die interessierende Information. Diese umfaßt in der Regel nur einen Bruchteil der Daten des gesamten ausgefüllten Vordrucks.
  • Eine weitere Kompression durch herkömmliche Mittel ist möglich und die endgültige Abspeicherung ist sehr effizient.
  • Zur Wiederherstellung des Vordrucks werden die komprimierten Daten aus dem Speicher abgerufen, wie üblich dekomprimiert und dann mit den Daten, die den CP darstellen, verkettet. In den meisten Fällen wird jedoch die Weiterverarbeitung nur den veränderbaren Teil VP betreffen.
  • In der Europäischen Patentanmeldung EP-A-0202671 wird ein Verfahren zur Komprimierung der in ausgefüllten Vordrucken (O) enthaltenen Informationen für Speicherungs- oder Übertragungszwecke durch gesonderte Behandlung der entsprechenden leeren Vordrucke (CP) und der in diese geschriebenen Informationen (VP) beschrieben und beinhaltet die Schritte Vorababtasten der leeren Vordrucke (CP), Digitalisieren der erfaßten Daten und Abspeichern der digitalisierten Darstellungen, die sich jeweils auf den leeren Vordruck (CP) beziehen, in einem Rechnerspeicher, um eine Vordruckbibliothek zu schaffen, Abtasten des ausgefüllten Originalvordrucks (O), der komprimiert werden soll, Digitalisieren der erfaßten Daten, Identifizieren des betreffenden leeren Vordrucks (CP) in der Vordruckbibliothek und Abrufen der betreffenden digitalen Darstellung derselben, Vergleichen des betreffenden leeren Vordrucks (CP) mit der digitalisierten Darstellung des ausgefüllten Vordrucks (O), Abspeichern einer digitalisierten Darstellung der eingeschriebenen Informationen (VP) in einem Speicher und Komprimierung der in den Vordruck eingeschriebenen Informationen (VP) durch herkömmliche Methoden.
  • Zur Subtraktion der digitalisierten Pixel des leeren Vordrucks (EP) von den Pixeln des ausgefüllten Vordrucks (O) wird ein verbreitertes oder erweitertes Bild des EP generiert und von O subtrahiert. Der Nachteil dieser groben Subtraktionsmethode wird nachstehend im Zusammenhang mit dem Verfahren von Duda und Hart diskutiert.
  • Im Hinblick auf die EP-A-0202671 ist es daher eine Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Subtrahieren der Informationen des leeren Vordrucks (EP) vom ausgefüllten Vordruck (O) bereitzustellen. Die Erfindung gemäß den Ansprüchen soll die obigen Aufgaben lösen. Einzelheiten des erfindungsgemäßen Verfahrens werden nachstehend beispielhaft beschrieben unter Bezugnahme auf die Zeichnungen, in denen:
  • Fig. 1 einen Teil eines ausgefüllten Originalvordrucks darstellt, wie er abgetastet und (im vergrößerten Maßstab) in einem Rechner abgespeichert wurde;
  • Fig. 2 stellt den entsprechenden Teil des leeren Vordrucks dar;
  • Fig. 3 zeigt das Ergebnis des Prozesses zur Herstellung der Deckungsgleichheit;
  • Fig. 4 zeigt das Ergebnis der einfachen Subtraktion der Bilder in Fig. 1 und Fig. 2;
  • Fig. 5 zeigt den ausgefüllten Teil des Originalvordrucks, wobei alle Spuren des leeren Vordrucks gelöscht sind;
  • Fig. 6 zeigt die Wiederzusammenstellung der eingetragenen Information der Fig. 5 und des leeren Vordrucks der Fig. 2;
  • Fig. 7 zeigt einen kompletten ausgefüllten Vordruck;
  • Fig. 8 stellt das Ergebnis des Abtastens des entsprechenden leeren Vordrucks C dar;
  • Fig. 9 zeigt das Ergebnis einer einfachen Subtraktion der Bilder der Fig. 7 und 8;
  • Fig. 10 zeigt das Ergebnis der Anwendung des erfindungsgemäßen Verfahrens auf Fig. 7 und 8;
  • Fig. 11 stellt eine Rekonstruktion des ausgefüllten Vordrucks aus Fig. 8 und 10 dar.
  • Das offenbarte Verfahren umfaßt im wesentlichen vier Stufen, nämlich das Erfassen der Informationen, die Herstellung der Deckungsgleichheit der vorabgespeicherten Daten mit den abgetasteten Daten, der "Subtraktionsprozeß" und die Komprimierung. Eine zusätzliche Stufe wäre die Rekonstruktion des ursprünglichen ausgefüllten Vordrucks.
  • Das Erfassen der Bildinformationen muß berücksichtigen, daß sich die Helligkeitsparameter für den konstanten und den veränderlichen Teil des Vordrucks signifikant unterscheiden können. Der handgeschriebene veränderbare Teil ist üblicherweise dicker als die gedruckten Linien und der Text des konstanten Teils CP. Somit sollten die Abtastparameter für den CP- und den VP-Teil gesondert optimiert werden. Der Abtastvorgang selbst ist Standard; die Abtastvorrichtung kann ein herkömmlicher Scanner oder eine digitalisierende Videokamera sein. Das Abtasten erfolgt Zeile um Zeile mit einer Auflösung in der Größenordnung von 100 Bildelementen per Zentimeter Zeilenlänge, d.i. eine Punktgröße von etwa 0,1 mm Durchmesser.
  • Das Abtasten ergibt zwei Binärdatenketten, wobei eine Kette den konstanten Teil CP (d.i. der leere Vordruck) und die andere den vollständigen oder ursprünglich abgetasteten Vordruck O = CP + VP darstellt, der den konstanten Teil CP und die eingeschriebene Information VP enthält. Die Aufgabe besteht dann einfach darin, den VP aus den Daten, die den ursprünglichen Vordruck O darstellen, zu extrahieren.
  • Wenn in praktischen Scannervorrichtungen der gleiche Vordruck zweimal abgetastet wird, unterscheiden sich die Daten, die den abgetasteten Vordruck darstellen, geringfügig aufgrund winziger Verschiebungen, die zu kleinen linearen oder winkligen Fehlausrichtungen und damit zu Abweichungen in ihren binären Abtastsignalen führen. Auch kann der Digitalisierungsprozeß eine leichte Skalierung einführen. Die Beobachtung betrifft auch die Ausrichtung des leeren Vordrucks beim Abtasten zum Abspeichern der CP-Daten und den Originalvordruck O, wenn er zur Gewinnung der VP-Daten abgetastet wird. Es ist also erforderlich, den Originalvordruck O in Bezug auf den vorabgespeicherten Vordruck mit dem CP-Inhalt zur Deckung zu bringen. Das geschieht durch Optimierung der Parameter einer geometrischen Transformation, die in der Lage ist, ein Bild in das andere umzusetzen. Die Optimierung zielt darauf ab, etwaige Fehler bei Abschluß des Umwandlungsprozesses zu minimieren.
  • Auf dem Stand der Technik sind verschiedene Techniken der Datendeckungsgleichheit auf einer Anzahl technischer Gebiete bekannt, wie Mustererkennung, Prüfung, Änderungserfassung, Zeichenerfassung usw. Diese Techniken sind in den folgenden Unterlagen offenbart: US-A-4,028,531; US-A-4,441,207; US-A- 4,644,582; US-A-4,651,341; US-A-4,654,873; US-A-4,672,676; US-A-4,706,296; US-A-4,815,146; H.S.Raganath: "Hardware Implementation of Image Registration Algorithms", Image Vision Compute, Bd. 4, Nr. 3, August 1986, Seite 151-158, und W.K. Pratt, P.J. Capitant, W. Chen, E.R. Hamilton und R.H. Wallis: "Combined Symbol Matching Facsimile Data Compression Systems", Proc. IEEE, Bd. 68, Nr. 7, Juli 1980; B. Silverman: "Algorithm for Fast Digital Image Registration", IBM Technical Disclosure Bulletin, 1971, S. 1291-1294. Einige der bekannten Techniken sollen hier kurz zusammengefaßt werden.
  • Gemäß der Lösung nach der Methode der Kleinsten Quadrate (LS) oder nach der Methode des Kleinsten Absolutwerts (LAV) der letzten vorgenannten Unterlage muß man entweder das Quadrat oder den Absolutwert der Differenz zwischen einem umgeformten augenblicklichen Bild und einem Bibliotheksbild nehmen und das Minimum im Satz aller zulässigen Transformationen suchen.
  • Unter der Kreuzkorrelation maximiert man auf dem Satz der zulässigen Transformationen die Kreuzkorrelation eines umgeformten augenblicklichen Bildes und eines Bibliothekbildes. Unter dem Moment-Invarianz-Konzept nimmt man an, daß das erste und das zweite Moment eines Bilds invariant gegenüber der Seitenverschiebung und der Rotation sind, und man berechnet die Eigenvektoren einer gegeben Verteilung, und bestimmt von diesen aus die relative Rotation der zwei digitalisierten Bilder.
  • Ein einfaches und doch nützliches Verfahren zum Berechnen der Transformationsparameter ist die Lösung eines Gleichungssystems, das aus einer gegebenen Übereinstimmung zwischen einem Punktesatz in einem Bild und dem entsprechenden Punktesatz im Bezugsbild entsteht. Dieses Schema unterteilt sich in einen automatischen Punkteauszug- und einen manuellen Punkteauszugprozeß.
  • Leider sind alle obigen Lösungen rechnerisch umständlich, aus dem Grund, weil die Deckungsgleichheit ein zweidimensionales Problem ist und die Anzahl der Operationen proportional zur Anzahl der Bildpixel steigt. Bei der Behandlung ganzer Vordrucke, wie im Zusammenhang mit der vorliegenden Erfindung, wo riesige Datenfelder zur Deckung gebracht werden müssen, sind die Verfahren auf dem Stand der Technik unter einem rechnerischen Gesichtspunkt ausgeschlossen. Betrachten wir z.B. einen Vordruck der Größe A4 (297 x 210 mm). Das Abtasten dieses Vordrucks würde bei einer Standarddichte von 100 Pixel/cm ein digitalisiertes Bild von über 5 Millionen Pixel ergeben. Der Deckungsgleichprozeß mit Vorrichtungen auf dem Stand der Technik würde eine Anzahl Berechnungen in der gleichen Größenordnung erforderlich machen. Das ist für Personalcomputer der derzeitigen Konstruktion nicht praktikabel.
  • Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird vorgeschlagen, das Problem der Deckungsgleichheit mittels einer Dimensionalitätsreduktion zu lösen. Das geschieht durch Projizieren des Bildes auf die x- und y-Achse und unter Verwendung der Lösung durch den kleinsten Absolutwert die sich ergebenden eindimensionalen Histogramme zur Deckungsgleichheit zu bringen. Somit wird ein eindimensionales Histogramm definiert als ein Datenfeld, das nur eine Dimension aufweist, d.h. als ein Vektor, im Gegensatz zu einem Datenfeld mit zwei oder mehr Dimensionen, wie z.B. eine Matrix. Diese Dimensionalitätsreduktion ermöglicht es, daß die erforderliche Anzahl Berechnungen proportional der Höhe und der Breite des Bilds (weniger als 5000 Pixel für eine A4- Seite) ist. Gleichzeitig kommt es zur drastischen Steigerung der Geschwindigkeit des Prozesses der Deckungsgleichheit.
  • Damit der erfindungsgemäße Deckungsgleichprozeß richtig arbeitet, auch wenn die Bilder leicht verdreht und skaliert sind, wird das ursprüngliche Bild in eine Anzahl relativ kleiner, überlappender Segmente aufgeteilt. Für jedes Segment ist nur eine einfache Verschiebungstransformation zulässig. Die Transformation des Gesamtbildes kann als eine Kombination der Verschiebungen aller individueller Segmente dargestellt werden. Natürlich, je kleiner die Segmente sind, desto besser kann der Plan komplizierte Transformationen wie Drehungen behandeln. Empirisch wurde gefunden, daß es für einen typischen A4 Vordruck und einen Standardscanner ausreicht, 16 Blöcke je Seite in einer 4 x 4 Anordnung zu haben.
  • Ein bestimmter Grad einer Zwischenblocküberlappung ist erforderlich, damit die Ausbildung unerwünschter weißer Trennstreifen zwischen den Blöcken vermieden wird, die sonst durch Unterschiede der Verschiebung zwischen den Segmenten bewirkt werden können. Andererseits reduziert eine Verbreiterung der Uberlappungsränder die Flexibilität der Transformation. Experimentell wurde gefunden, daß eine Überlappung von zwei Pixeln bei den meisten praktischen Anwendungen gut arbeitet.
  • Jetzt soll die Generierung der x- und y-Histogramme erklärt werden. Zum Generieren des y-Histogramms wird für jedes Segment ein Vektor konstruiert, der in seiner iten Komponente die Anzahl der schwarzen Pixel der entsprechenden Zeile enthält. Das geschieht wirksam durch Abtasten jeder Zeile Byte für Byte, ohne Entpacken der Bytes in ihre Pixel. Die Anzahl der "1"er im augenblicklichen Byte wird erhalten mittels einer geeigneten Nachschlagtabelle z.B. mit 256 Einträgen und 9 Ausgängen, und Addieren zur laufenden Summe. Dieser Prozeß ergibt die Anzahl der schwarzen Pixel in jeder Zeile.
  • Das y-Histogramm wird dann eindimensional unter Verwendung der kleinsten absoluten Differenz registriert wie folgt: Der augenblickliche Vektor, der wie oben berechnet wurde, wird verschoben bis er mit dem Bibliotheksvektor übereinstimmt, (der auf ähnliche Weise aus der vorabgespeicherten Darstellung des leeren Vordrucks erhalten wurde). Die Verschiebung des augenblicklichen Vektors wird vom Maschinenverschiebungsbefehl entweder nach links oder nach rechts ausgeführt, um so viele Stellen als nötig. Für jede Verschiebung wird die absolute Differenz berechnet. Diejenige Differenz, die ein Minimum ist, zeigt die optimale Verschiebung, die anschließend als relative Verschiebung der entsprechenden Segmente benutzt wird.
  • Die Generierung des x-Histogramms erfolgt auf ähnliche Weise. Für jedes Segment wird ein Vektor konstruiert, der in seiner iten Komponente die Anzahl der schwarzen Pixel der entsprechenden Spalte enthält. Das geschieht effektiv durch byteweises Abtasten jeder Zeile, ohne Entpacken der Bytes in ihre Pixel. Offensichtlich muß für jedes Byte eine andere Aktion vorgenommen werden. Für jedes der 2&sup8; mögliche Bytes wird im Voraus ein geeignetes Kurzprogramm vorbereitet. Auch wird eine Nachschlagtabelle mit 256 Einträgen und einem Ausgang je Eintrag vorgesehen, der die Adresse des entsprechenden Teils des Programms enthält. Für jedes Byte geht man auf einen der 256 Programmabschnitte der Nachschlagtabelle über, wobei der richtige Abschnitt auf der Basis des Binärwerts des gegebenen Byte so gewählt wird, daß die ite Komponente des Histogrammvektors nur dann vergrößert wird, wenn das entsprechende Pixel schwarz ist.
  • Das kann anhand des folgenden Beispiels illustriert werden: Nehmen wir an, das aktuelle Byte ist 10000000. Es ist klar, daß eine 1 zum Histogramm an der Stelle, die dem ersten Pixel entspricht, hinzugezählt werden muß, wobei die restlichen sieben Pixel unbetroffen bleiben. Wenn wir in die Nachschlagtabelle auf die Zeile gehen, die dem Byte 10000000 entspricht, finden wir die richtige Adresse. An dieser Adresse finden wir das erforderlich Kurzprogramm, das ausgeführt wird, und wir gehen auf das nächste Byte über. Dieses Verfahren stellt sicher, daß die erforderliche Anzahl Operationen proportional zur Anzahl der schwarzen Pixel ist (das ist in der Regel weniger als 10% der Gesamtanzahl der Pixel).
  • Das x-Histogramm wird dann eindimensional zur Deckung gebracht unter Verwendung der kleinsten absoluten Mittelwertdifferenz, ziemlich auf die gleiche Weise wie oben im Zusammenhang mit der Indeckungbringung des y-Histogramms.
  • Dieses oben beschriebene Verfahren zur Berechnung der optimalen Translationsparameter wird für jedes Bildsegment wiederholt. Es besteht jedoch das Bedürfnis, die Konsistenz der erhaltenen Resultate, die für die verschiedenen Blöcke berechnet wurden, zu überprüfen. Diese Aufgabe wird erfüllt durch ein Verschiebungssteuermodul, das eine doppelte Aufgabe erfüllt: (1) Feststellen etwaiger Deckungsfehler. Das kann z.B. bewirkt werden durch Berechnen des Durchschnittswerts der Verschiebungen der acht nächstliegenden Segmente. Wenn die Differenz zwischen zwei beliebigen Resultaten einen bestimmten Schwellenwert, z.B. 4, überschreitet, dann kann angenommen werden, daß die normale Überdeckung nicht gelungen ist, und die Verschiebungssteuereinheit die Aufgabe übernimmt. (2) Abschätzen der Verschiebungsparameter für Blöcke, bei denen das normale Verfahren wegen fehlender Informationen versagt. Das kann geschehen, wenn ein Vordruck in einem gegebenen Segment kein schwarzes Pixel aufweist. In diesem Fall wird die geeignete Verschiebung geschätzt auf der Grundlage der Verschiebungsparameter, die für die nächsten Nachbarn berechnet wurden.
  • Sobald die optimalen Verschiebungen festgestellt sind, wird jedes Segment in den geeigneten Bereich des Ausgangsbildfelds gelegt. Das Ausgangsbildfeld ist der Ort im Speicher, wo das Ergebnis des Deckungsgleichprozesses erzeugt wird. Die Segmente des abgetasteten Bildes werden an ihre zugeordneten Stellen gelegt, nachdem die entsprechenden Verschiebungen ausgeführt wurden.
  • Die Plazierung in der Richtung der y-Achse kann durch eine einfache Wahl des Verschiebungsindex gesteuert werden. Nehmen wir an, z.B., daß das betrachtete Segment auf Zeile 100 des abgetasteten Bildes anfängt, und daß nach Vergleich mit dem entsprechenden Segment in der Vordruckbibliothek festgestellt wird, daß eine Aufwärtsverschiebung von 5 vorgenommen werden soll. Das heißt, das betrachtete Segment muß zur Ausgangsbildanordnung ab Zeile 95 angefügt werden. Angesichts der Tatsache, daß praktisch alle Rechner in Indexiermodus arbeiten (d.h., alle Speicheradressen werden relativ zu einem bestimmten Verschiebungsindex geschrieben, wobei die absolute Speicherstelle durch Summieren der relativen Adresse und des Verschiebungsindex erhalten wird), läßt sich eine Verschiebung des gesamten Segments in y-Richtung durchführen durch Verändern eines einzigen Registerwerts, nämlich des Werts des Index.
  • Etwas schwieriger ist es, die Plazierung in Richtung der x- Achse zu steuern. Hier kann es erforderlich werden, die Daten tatsächlich um die geeignete Anzahl der Plätze (von 1 bis 7) zu verschieben. Auf diese Weise wird es möglich, das Ausgangsfeld zu erhalten, ohne die Daten in die Bitform entpacken und wieder in die Byteform rückführen zu müssen.
  • Wie bereits oben erklärt, wird die Segmentierung des abgetasteten Bildes mit einer kleinen Überlappung durchgeführt. Auch die gegenseitige Verschiebung der individuellen Segmente kann zu einer kleinen Überlappung führen. Wir sind aber interessiert an einem glatt ausgegebenen Bild ohne sichtbare Spuren des Segmentierungsverfahrens. Offensichtlich bedürfen diejenigen Pixel im Ausgangsbildfeld, die zu mehr als einem Segment des abgetasteten Bildes gehören, einer gesonderten Behandlung. Die bevorzugte Lösung ist die Durchführung einer Booleschen ODER-Operation an allen betroffenen Segmenten. Das empfohlene Verfahren besteht darin, zunächst das Ausgangsbildfeld zu klären und dann das abgetastete Bild Segment für Segment zu verarbeiten. Jedes neue Segment wird am geeigneten Ort durch Durchführung einer ODER-Operation für jedes Pixel zum Ausgangsfeld addiert.
  • Wie oben gesagt, einer der Schritte des erfindungsgemäßen Verfahrens verlangt die Deckungsgleichheit von zwei eindimensionalen Feldern, nämlich des x- und des y-Histogramms. Eine Möglichkeit zur Implementierung ist mittels des bekannten Verfahrens des kleinsten Absolutwerts (Least Absolute Value - LAV). Es gibt aber auch noch andere Verfahren, die, in Abhängigkeit von den näheren Umständen, vielleicht noch vorteilhafter sind, wie z.B. die herkömmliche Kreuzkorrelation (Cross Correlation - CC). Diese letztere ist in der Tat vorteilhaft unter dem Gesichtspunkt der Leistung, ist aber auch sehr viel komplexer unter dem Gesichtspunkt der Berechnung.
  • Diese rechenbedingte Komplexität läßt sich häufig reduzieren durch einen Vergleich der relativen Orte der Spitzen in den beiden betroffenen Histogramme, d.h. wo die Histogramme ein Maximum annehmen. Wenn z.B. das erste Histogramm einen Maximalwert 100 bei Ort 10 annimmt, und das zweite Histogramm sein Maximum am Ort 20 annimmt, dann würde eine Verschiebung um 10 eine akzeptable Übereinstimmung zwischen den beiden Histogrammen unter sehr geringem Rechenaufwand erzeugen.
  • Vorstehend wurde das Verfahren zur Feststellung der Deckungsgleichheit im Zusammenhang mit digitalisierten Bildern beschrieben, d.h. mit Bildern, die nur schwarze und weiße Komponenten aufweisen, es läßt sich jedoch auch auf Grautöne übertragen. Zu diesem Zweck wird das aus Grautönen bestehende Bild in sein digitalisiertes Gegenstück umgewandelt durch Bestimmen der Schwellenwerte des Bildes oder seiner Gradientenversion, und dann Berechnen der Transformationsparameter auf die oben erklärte Weise. Die Histrogrammprojektionen können direkt aus dem Graustufenbild errechnet werden durch Summieren aller Grautöne der Pixel in einer gegebenen Zeile (bzw. Spalte).
  • Nehmen wir nun an, daß die Deckungsgleichheit des abgetasteten Bildes O mit den vorabgespeicherten Bild CP erfolgreich abgeschlossen wurde, dann wäre der nächste durchzuführende Schritt die Subtraktion des konstanten Teils CP vom Originalbild O. Leider erzeugt das Abtasten des Originalbildes O sowie auch das Abrufen der vorabgespeicherten Daten, die den konstanten Teil CP repräsentieren, in den meisten praktischen Fällen ein Rauschen (zusätzlich zu dem Rauschen, das z.B. durch Unsauberkeit oder Verknitterung des Vordrucks entsteht). Demgemäß würde eine einfache Subtraktion nicht das erwünschte Resultat erbringen, wie man aus einem Vergleich der Fig. 1, 2 und 3 ersieht, die den ursprünglichen ausgefüllten Vordruck O, den leeren Vordruck CP und die einfache Differenz zwischen beiden zeigen. Das Ziel ist natürlich, das Abtastrauschen auszuschalten, im Fall der Fig. 4 ist das der schwache Überrest des Kastens, der den handschriftlichen Eintrag umgibt.
  • Ein Verfahren zur Lösung dieser Aufgabe ist: (1) Entfernen möglichst vieler schwarzer (d.i. gleich 1) Pixel des konstanten Teils CP aus dem Original O; und (2) unverändertes Belassen aller Pixel, die zum veränderbaren Teil VP gehören.
  • Selbstverständlich ist es verhältnismäßig einfach, eines dieser Ziele auf Kosten des anderen zu erreichen. Herkömmliche Lösungen sind nicht in der Lage, beide Ziele gleichzeitig zu erreichen. Das Verfahren der vorliegenden Erfindung geht aus von der Arbeit von W.K. Pratt, P.J. Capitant, W. Chen, E.R. Hamilton und R.H. Wallis "Combined Symbol Matching Facsimile Data Compression System" Proc. IEEE, Bd. 68, Nr. 7, s. 786-796, Juli 1980. Ihre Lösung war das Erzielen eines Schätzwerts Pv des veränderbaren Teils VP durch
  • Pv =O - (Pc ) [1]
  • oder anders ausgedrückt,
  • Pv = O (Pc )', [2]
  • wobei den Durchschnitt und das Symbol ' die logische Negierung bedeuten. In diesem Fall wäre Ziel (2) voll erreicht. Da aber in der Nähe von Pc eine Menge schwarzer CP- Pixel liegen, jedoch nicht auf Pc selbst, verbleiben eine beträchtliche Anzahl Pixel, die zu CP gehören, in Pv . Daraus ergibt sich, daß Pv "breiter" als VP ist. Dieser Effekt ist natürlich unerwünscht, weil das im Zusammenhang mit unserer Bildkompression bedeutet, daß die Kompression von Pv viel mehr Codebits beansprucht als zur Darstellung von VP erforderlich ist.
  • Wegen dieses Nachteils schlugen Duda und Hart in "Pattern Classification and Scene Analysis", Wiley & Sons, 1976, vor, zunächst Pc zu verbreitern. In dieser verbreiterten Version, BCP, setzt man dann alle Pixel auf "1", so daß in ihrer Umgebung wenigstens ein schwarzes Pixel von Pc zu finden ist. Mit diesem Verbreiterungsverfahren wird Pv erhalten als:
  • Pv = O - BCP = O BCP' [3]
  • Mit dieser Lösung, vorausgesetzt, der Verbreiterungsprozeß war breit genug, ist es möglich, den gesamten CP-Bereich zu entfernen. Diese Lösung ist auch Teil der "Method of storing and retrieving image data", offenbart in EP-A-0 202 671. Leider werden dabei auch einige Teile von VP mit entfernt. Das geschieht immer da, wo sich CP und VP schneiden. In der Nähe des Schnittbereichs wird Pv weiß, d.h. die entsprechenden Pixel werden 0, auch wenn VP schwarz war, mit einer dementsprechenden Verschlechterung der Bildqualität.
  • Das erfindungsgemäße Verfahren vermeidet die genannten Nachteile, d.h. es ermöglicht, daß eine gute Annäherung von VP erreicht wird, ohne unzulässige Kompromisse zwischen den beiden obigen Zielen, und mit einer Effizienz, die das Verfahren sogar für Personalcomputer anwendbar macht. Gleichzeitig bietet sich das erfindungsgemäße Verfahren an für eine leichte Rekonstruktion des ursprünglichen Bildes O aus Pc und Pv . Zu diesem Zweck wird mit der erfindungsgemäßen Methode Gleichung 1 (bzw. 2) benutzt, wenn immer das keine Verzerrung bewirkt, nämlich, wenn Pc schwarz ist. Die Gleichung 3 wird benutzt, wenn die verbreiterte Version BCP weiß ist, und Sondertests werden gemacht, um die optimale Lösung in Fällen zu finden, in denen sich CP und VP überschneiden (Problembereiche).
  • Das Originalbild O wird Pixel für Pixel abgetastet. Für jedes Pixel P wird auch seine unmittelbare Umgebung (nxn Quadrat) betrachtet. Aus O werden möglichst viele schwarze Pixel (1) des CP entfernt. Wenn im leeren Bild CP ein Pixel schwarz ist, kann es im Differenzbild durchaus weiß sein. Wenn im Originalbild O ein schwarzes Pixel weit weg von einem schwarzen Pixel gefunden wird, das zum leeren Vordruck gehört, dann muß dieses Pixel auch im Differenzbild schwarz sein. Wenn keine dieser beiden Alternativen zutrifft, müssen kompliziertere Tests durchgeführt werden.
  • Bezeichnen wir mit No die Nachbarschaft von P in O, mit Nc die entsprechende Nachbarschaft von P in C , und mit Nv die gleiche Nachbarschaft im endgültigen Feld V (das ursprünglich auf 0 gesetzt war). Die möglichen Werte des Pixel P in den verschiedenen Feldern können dann sein wie folgt:
  • a. Po (der Wert des Pixel P in O) ist 0.
  • In diesem Falle muß natürlich nichts unternommen werden (d.h. keine zusätzlichen Berechnungen sind erforderlich) und wir können zum nächsten Pixel übergehen.
  • b. Po = Pc = 1
  • Hier muß das Pixel P auf 0 gesetzt werden, d.h. in der Annäherung VP ist der Wert von Pv gleich 0, jedoch muß in der Praxis keine weitere Maßnahme ergriffen werden weil die Anordnung V auf 0 initialisiert wird, und man kann zum nächsten Pixel übergehen.
  • c. Po = 1 und Pc = 0
  • In diesem Problemfall müssen jedoch nicht nur die Werte von P sondern auch die Werte der Pixel betrachtet werden, die in seiner Nähe gefunden werden. Die Bestimmung des gewünschten Wertes Pv kann auf den folgenden Tests beruhen:
  • 1. Nachprüfen, ob P zu CP gehören kann. Wenn nein, dann wird Pv = 1 gesetzt, zum nächsten Pixel übergehen. Wenn ja, dann zum nächsten Test (c.2) übergehen.
  • Dieses Nachprüfen kann ausgeführt werden durch Überprüfen, ob das gesamte Fenster Nc verschwindet oder im allgemeinen, ob die Anzahl der schwarzen Pixel in Nc einen vorgegebenen Schwellenwert überschreitet. Wenn die Nachbarschaft von P in C leer ist, dann kann nämlich das schwarze Pixel in O nicht von der Verzerrung von C herrühren und muß dementsprechend zu VP gehören.
  • 2. Prüfen, ob P mit VP zusammenhängt. Wenn die Antwort ja ist, dann gehört P selbst zu VP, und Pv muß auf "1" gesetzt werden. Wenn die Antwort nein ist, dann ist daraus zu schließen, daß P zu CP gehört und Pv = 0 ist.
  • Um festzustellen, ob P mit VP zusammenhängt, muß man Nv kennen. Mit anderen Worten, um Pv berechnen zu können, muß man V für alle Pixel in der Umgebung von P kennen. Natürlich ist in praktischen Fällen nur ein Teil von Nv bekannt, nämlich der Teil, der vorher bereits überstrichen wurde, so daß seine entsprechende Abschätzung VP bereits bekannt ist. Dementsprechend muß im Bilderkennungstest anstatt der wahren Nv ein Feld benutzt werden, das seinerseits eine Annäherung "der ersten Ornung" an Nv ist. Das kann wie folgt durchgeführt werden:
  • a. Ausdehnen (Erweitern) der Nachbarschaft Nc um einen Faktor m.
  • Das läßt sich seinerseits bewerkstelligen durch Verschieben von NcP nach links, nach rechts, nach oben und nach unten. Dann wird die verbreiterte Version BN1c erhalten durch Boolesche Aufsummierung aller fünf obenerwähnter Felder, das ursprüngliche Feld und vier verschobene Felder. Diese Verbreiterung wird über das Feld BN1c wiederholt und ergibt BN2c . Dieser Prozeß wird fortgesetzt, bis das endgültige Feld BNmc erhalten wird.
  • b. Berechnen der örtlichen Annäherung von VP als:
  • N&sub0; - BNmc = N&sub0; (BNmc )'
  • c. Finden von durch Kombination der oben berechneten Annäherung mit "bekannten" Werten von Nv .
  • Nehmen wir z.B. an, daß das Bild von links nach rechts und von oben nach unten überstrichen wird, und daß die Fenstergröße n = 5 ist. Dann wird jedes der obigen Nachbarschaftsfelder organisiert wie folgt:
  • 11 12 13 14 15
  • 21 22 23 24 25
  • 31 32 33 34 35
  • 41 42 43 44 45
  • 51 52 53 54 55
  • wobei die Zahl ij den Ort des Pixels in der iten Zeile und in der iten Spalte definiert. Unter diesen Annahmen sind die Pixel 11, 12, 13, 14, 15, 21, 22, 23, 24, 25, 31, 32 des Feldes 0 bereits analysiert worden und daher sind die geeigneten Werte für V bereits berechnet. Die Werte an den restlichen Orten (33, 34, 35, 41, 42, 43, 44, 45, 51, 52, 53, 54, 55) werden dem Feld entnommen, das unter dem vorstehenden Punkt b) berechnet wurde.
  • Sobald bekannt ist, ist die Feststellung leicht, ob das Pixel P im Mittelpunkt mit VP zusammenhängt. Ein sehr einfaches Kriterium kann angewandt werden: Wenn die Anzahl der schwarzen Pixel in einen vorgegebenen Schwellenwert überschreitet, dann gehört das betrachtete Pixel P zu V .
  • Betrachten wir jetzt z.B. ein schwarzes Pixel P mit einer Nachbarschaft N&sub0; in einem ausgefüllten Feld, und eine Nachbarschaft Nc im Feld des leeren Vordrucks:
  • Das ist eindeutig der erste der oben betrachteten Fälle, und im Ausgangsfeld muß P weiß (0) sein. Wenn aber das folgende eintritt (zweiter Fall):
  • dann muß P schwarz gelassen werden. Wenn andererseits die Nachbarschaft so aussieht:
  • dann ist ein komplizierterer Test erforderlich, um festzustellen, ob P vom Rauschen unten in Nc herrührt (und also im Ausgangsfeld auf 0 gesetzt werden muß) oder ob P schwarz ist, weil es zu einer Zeile gehört, die ausgefüllt wurde (und daher im Ausgangsbild auf 1 gesetzt werden muß). Im letzteren obigen Beispiel wäre die Entscheidung, P auf 0 zu setzen. Aber im folgenden Beispiel, wäre es näherliegend, sich für P = 1 zu entscheiden:
  • Jetzt soll das erfindungsgemäße Verfahren anhand der Zeichnungen beschrieben werden. Beispielhaft wird ein kleiner Teil des ursprünglichen Vordrucks O in vergrößertem Maßstab in Fig. 1 gezeigt. Er umfaßt einen Kasten aus dem Kastenmuster, das den Vordruck ausmacht, und einen handschriftlichen Eintrag in diesen Kasten. Nachdem der richtige leere Vordruck im Speicher identifiziert wurde, wird seine digitalisierte Form abgerufen. Der entsprechende Ausgang wird in Fig. 2 gezeigt. Neben einigen Abweichungen in der Dicke und Durchgängigkeit der Linien erscheint die Darstellung des leeren Vordrucks grob fehlausgerichtet gegenüber der Darstellung des ursprünglichen Vordrucks der Fig. 1. Nach der Durchführung der Deckungsgleichheit erscheinen die Bilder fast genau übereinanderliegend, wie in Fig. 3 dargestellt ist.
  • Jetzt werden die Daten, die den leeren Vordruck CP darstellen, von den Daten des Originalvordrucks O subtrahiert. Das Ergebnis der einfachen Subtraktion wird in Fig. 4 gezeigt. Wie bereits erwähnt, neigt der Abtastvorgang dazu, ein gewisses Rauschen einzuführen, und das macht sich in Fig. 4 als restliche Silhouette bzw. Schatten des Kastens aus Fig. 2 bemerkbar. Hier muß angemerkt werden, daß die Fig. 4 nur zur Verdeutlichung der Subtraktion gezeigt wird, im Normalfall wird sie nicht generiert. Die Anwendung des erfindungsgemäßen Subtraktionsprozesses führt zu dem Ergebnis, das in Fig. 5 gezeigt wird, in dem keine Spur des konstanten Teils CP des ursprünglich abgetasteten Vordrucks O bleibt.
  • Fig. 6 ist das Ergebnis, das man am Ende des Prozesses sehen würde, d.h., es stellt eine Rekombination des leeren Vordrucks CP aus Fig. 2 mit dem Eintrag des Vordrucks in Fig. 5 dar. Wie gewünscht, sieht das Bild in Fig. 6 im wesentlichen genau so aus wie das Original in Fig. 1, obwohl sich natürlich auf einer Pixel-um-Pixel-Basis die Bilder unterscheiden.
  • Fig. 7 ist eine Darstellung des gesamten Originalvordrucks (C ), dem der Teil in Fig. 1 entnommen wurde. Dieser Vordruck mit hebräisch geschriebenem Text wurde mit Absicht gewählt, so daß die Leser, von denen die meisten vermutlich nicht hebräisch lesen können, das als ein Beispiel eines abstrakten digitalen Bildes ansehen können. Dieses Bild wird abgetastet und von den sich ergebenden Daten werden auf einfache Weise, d.h. gemäß Gleichung [1], die Daten abgezogen, die für den entsprechenden leeren Vordruck der Fig. 8 abgespeichert wurden, nachdem der richtige Überdeckungsprozeß abgeschlossen wurde. Das Ergebnis zeigt sich in Fig. 9. Selbstverständlich wäre im Rahmen der vorliegenden Erfindung das nicht akzeptabel, weil das Bild einen großen Teil unerwünschter Informationen enthält, wie z.B. schwarze Pixel, die aus dem unvollständigen Entfernen des CP herrühren. Das zeigt, wie bereits erwähnt, daß die einfache Subtraktion keine akzeptablen Ergebnisse liefert.
  • Mit der Subtraktionsmethode gemäß der vorliegenden Erfindung sieht das Ergebnis der Subtraktion aus wie Fig. 10: Der Informationsgehalt des leeren Vordrucks CP wurde vollständig entfernt. Wo schwarze Pixel des leeren Vordrucks CP zufällig ein schwarzes Pixel aus der handgeschriebenen Information überlagern, kann es vorkommen, daß das schwarze Pixel durch ein weißes Pixel ersetzt wird, was in der Fig. 10 als "Leerstellen" sichtbar wird. Um nachzuprüfen, ob der Änderungserfassungsprozeß ein Rauschen eingeführt hat, wie z.B. eine Verzerrung des VP, könnte man möglicherweise wünschen, den leeren Vordruck der Fig. 8 und das "Änderungsbild" der Fig. 10 zu kombinieren. Das Ergebnis zeigt sich in Fig. 11. Zwar bleiben ein paar sichtbare Diskontinuitätsstellen, aber die Übereinstimmung kann als nahezu perfekt angesehen werden, weil die Lesbarkeit des Textes nicht betroffen ist.
  • Das erfindungsgemäße Verfahren erlaubt somit das komplette Entfernen des konstanten Teils CP des ursprünglichen Bildes und ergibt ein unverzerrtes Bild des variablen Teils VP des ursprünglichen Bildes. Es ist daher nicht erforderlich, den gesamten ursprüngliche Vordruck mit einem Informationsgehalt in der Größenordnung von 30 kByte abzuspeichern. Es genügt, das Bild in Fig. 8 abzuspeichern, das einen Informationsgehalt von nur etwa 6 kByte aufweist, was ein 5faches Verdichtungsverhältnis mit praktisch keiner Qualitätsverschlechterung ergibt. Die Kompression des veränderbaren Teils VP kann mit herkömmlichen Methoden durchgeführt werden.
  • Der Kompressionsschritt läßt sich auch mit einer eleganteren Methode durchführen, als sie auf dem Stand der Technik bekannt sind. Die bevorzugte Methode beinhaltet die Anwendung von mindestens zwei unterschiedlichen Kompressionsverhältnissen in Abhängigkeit von der "Dichte" der zu verdichtenden Informationen. Wenn wir z.B. ein Kompressionsverfahren mit zwei Verhältnissen annehmen, kann das erste Verhältnis als "verlustlos" und das zweite als "verlustbehaftet" angesprochen werden. Dementsprechend werden dann diejenigen Teile der zu verdichtenden Daten, die sehr dicht liegen, d.h. die eine verhältnismäßig große Anzahl schwarzer Pixel enthalten, mit dem kleinen Verhältnis behandelt, so daß beim Komprimieren kein schwarzes Pixel verlorengeht, während die Teile der zu verdichtenden Daten, die verhältnismäßig wenig schwarze Pixel enthalten, mit dem gröberen Kompressionsverhältnis behandelt werden, wobei die Möglichkeit akzeptiert wird, daß einige wenige Pixel, die für den Informationsgehalt wirklich von Bedeutung sind, verloren gehen.
  • Diese Methode erfordert daher einen Vorfilterschritt, um die dichten und weniger dichten Teile des Bildes festzulegen, um so die Anwendung des verlustlosen bzw. verlustbehafteten Kompressionsverhältnisses zu bestimmen. Angewandt auf die Verarbeitung von Vordrucken mit darin enthaltenen Informationen einer konstanten, d.i. vorgedruckten Natur, und einer variablen, d.i. handgeschriebenen Natur, läßt sich eine sehr beträchtliche Einsparung in Bandbreite und Speicherplatz erzielen, da sich der handgeschriebenen Teil im allgemeinen für ein größeres Kompressionsverhältnis eignet.

Claims (10)

1. Verfahren zur Digitalisierung von in Formblättern (O) eingetragenen Informationen durch gesondertes Behandeln der Informationen im entsprechenden leeren Formblatt (CP) und der in dasselbe eingetragenen Informationen (VP) mittels
- Vorababtasten des leeren Vordrucks (CP) unter Digitalisieren der für jedes einzelne Pixel erhaltenen Daten und Abspeichern derselben als eine digitalisierte Darstellung des leeren Vordrucks (CP) in einem Speicher,
- Abtasten des ausgefüllten Vordrucks (O) unter Digitalisieren der für jedes einzelne Pixel erhaltenen Daten und Abspeichern derselben als eine digitalisierte Darstellung des ausgefüllten Vordrucks (O) in einem Speicher, und
- Subtrahieren der digitalisierten Darstellung des leeren Vordrucks (CP) von der digitalisierten Darstellung des ausgefüllten Vordrucks (O), um eine digitalisierte Darstellung der eingetragenen Information (VP) zu erhalten,
wobei dieser Subtraktionsschritt dadurch gekennzeichnet ist, daß
wenn ein Pixel (P) in der digitalisierten Darstellung des ausgefüllten Vordrucks (O) durch eine digitalisierten Wert "1", und in der digitalisierten Darstellung des leeren Vordrucks (CP) durch einen Wert "O" dargestellt ist, dann wird eine "1" von der digitalisierten Darstellung des ausgefüllten Vordrucks (O) nur dann abgezogen, wenn die Anzahl der "1" bewerteten Pixel in einer Nachbarschaft (Nc ) des Pixels (P) in der digitalisierten Darstellung des leeren Vordrucks (CP) einen vorgegebenen Schwellenwert überschreitet und wenn die Anzahl der "1" bewerteten Pixel in einer Nachbarschaft (Nv ) des Pixels (P) in der digitalisierten Darstellung der eingetragenen Informationen (VP) einen vorgegebenen Schwellenwert nicht überschreitet, wobei diese Nachbarschaft (Nv ) in der digitalisierten Darstellung der eingetragenen Informationen (VP) bestimmt wird durch Berechnen der Differenz einer Nachbarschaft (N ) des Pixels (P) in der digitalisierten Darstellung des ausgefüllten Vordrucks (O) und einer mit Faktors erweiterter Nachbarschaft (BNmc ) des Pixels (P) in der digitalisierten Darstellung des leeren Vordrucks (CP), und ferner durch Kombinieren dieser Differenz mit der digitalen Darstellung aller vorher analysierten Pixel dieser Nachbarschaft (Nv ) in der digitalisierten Darstellung der eingetragenen Information (VP).
2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die Abtastparameter wie Helligkeit und Schwellenwerthöhe, für den leeren Vordruck (CP) und für den ausgefüllten Vordruck (O) gesondert bestimmt werden.
3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß vor dem Subtraktionsschritt eine Überdeckungsgenauigkeit der ausgefüllten Vordrucke (O) gegenüber dem leeren Vordruck (CP) ausgeführt wird.
4. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, daß die Überdeckungsgenauigkeitsinformation durch eine Größenreduktion bestimmt wird, vorzugsweise durch Projizieren zweidimensionaler Bilder als eindimensionale Histogramme auf die x- und die y-Achse.
5. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, daß die Überdeckungsgenauigkeit durch die nachstehende Schrittfolge durchgeführt wird:
- Partitionieren des abgetasteten Vordrucks (O) in kleine Segmente,
- für jedes Segment Abschätzen der optimalen Verschiebungen, die im Hinblick auf den vorabgetasteten leeren Vordruck (CP) in x- und y-Richtung durchgeführt werden müssen,
- Plazieren jedes Segments des ausgefüllten Vordrucks (O) am geeigneten Bereich einer Ausgabebild-Anordnung unter Verwendung der vorher festgestellten Verschiebeinformation, so daß ein komplettes, verschobenes Bild erhalten wird, wenn die Plazierungen für alle Segmente abgeschlossen sind.
6. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß der ausgefüllte Vordruck (O) in wenigstens 16 Segmente je Seite von 210 x 297 mm Größe partitioniert wird.
7. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß die Partitionierung so durchgeführt, daß sich die Segmente an ihren Rändern um einen Abstand von je zwei Pixel überlappen.
8. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß die geschätzten optimalen Verschiebungen je Paar benachbarter Segmente auf Konsistenz geprüft werden durch Sicherstellen, daß ihre Differenz einen vorgegebenen Schwellenwert nicht übersteigt, und wenn doch, daß automatisch ein Verschiebungssteuerungsverfahren zur Abschätzung einer geeigneten Verschiebung aufgerufen wird.
9. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die digitale Darstellung der eingetragenen Informationen (VP) durch geeignete Verfahren komprimiert wird.
10. Verfahren gemäß irgendeinem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß alle Schritte mit den genannten binären Darstellungen in einem Byte-Format ohne Entpacken der einzelnen Bytes in ihre Pixelkomponenten ausgeführt werden.
DE68922998T 1989-08-04 1989-10-10 Verfahren zur Digitalisierung von in Formblättern eingetragenen Informationen mittels Vergleich mit sehr grossen Symbolen. Expired - Fee Related DE68922998T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IL9122089A IL91220A (en) 1989-08-04 1989-08-04 Compression of information

Publications (2)

Publication Number Publication Date
DE68922998D1 DE68922998D1 (de) 1995-07-13
DE68922998T2 true DE68922998T2 (de) 1995-12-14

Family

ID=11060247

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68922998T Expired - Fee Related DE68922998T2 (de) 1989-08-04 1989-10-10 Verfahren zur Digitalisierung von in Formblättern eingetragenen Informationen mittels Vergleich mit sehr grossen Symbolen.

Country Status (7)

Country Link
US (1) US5182656A (de)
EP (1) EP0411231B1 (de)
JP (1) JPH03119486A (de)
CA (1) CA2019134C (de)
DE (1) DE68922998T2 (de)
ES (1) ES2074480T3 (de)
IL (1) IL91220A (de)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5363214A (en) * 1990-05-30 1994-11-08 Xerox Corporation Facsimile transmission system
JP3170299B2 (ja) * 1991-01-31 2001-05-28 株式会社リコー 画像読取処理装置
JPH04343190A (ja) * 1991-05-21 1992-11-30 Hitachi Ltd 文字データ入力方式
EP0594901A1 (de) * 1992-10-27 1994-05-04 International Business Machines Corporation Bildkompressionsverfahren
JP2918064B2 (ja) * 1993-11-16 1999-07-12 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン テンプレート除去のため画像を位置合せするための方法および装置
CA2134255C (en) * 1993-12-09 1999-07-13 Hans Peter Graf Dropped-form document image compression
US5668897A (en) * 1994-03-15 1997-09-16 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression merge/purge techniques for document image databases
JPH08207380A (ja) * 1994-11-25 1996-08-13 Xerox Corp オリジナルフォームに自動的に記入する方法及び装置
JPH0981763A (ja) * 1995-07-07 1997-03-28 Oki Data:Kk 文字・イメージ混在データの圧縮方法及び装置
US5894525A (en) * 1995-12-06 1999-04-13 Ncr Corporation Method and system for simultaneously recognizing contextually related input fields for a mutually consistent interpretation
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
US6072598A (en) * 1996-02-27 2000-06-06 Intel Corporation Method for enhancing usability of fax on small device
AU2116397A (en) * 1996-02-27 1997-09-16 Intel Corporation Method for enhancing usability of fax on small devices
US6519046B1 (en) * 1997-03-17 2003-02-11 Fuji Photo Film Co., Ltd. Printing method and system for making a print from a photo picture frame and a graphic image written by a user
JP3558493B2 (ja) * 1997-06-10 2004-08-25 富士通株式会社 用紙位置合わせ装置、用紙位置合わせ方法及び用紙位置合わせプログラムを記録したコンピュータ読み取り可能な記録媒体
US6564319B1 (en) * 1997-12-29 2003-05-13 International Business Machines Corporation Technique for compressing digital certificates for use in smart cards
US6507662B1 (en) * 1998-09-11 2003-01-14 Quid Technologies Llc Method and system for biometric recognition based on electric and/or magnetic properties
US6507671B1 (en) 1998-12-11 2003-01-14 International Business Machines Corporation Method and system for dropping template from a filled in image
JP3581265B2 (ja) * 1999-01-06 2004-10-27 シャープ株式会社 画像処理方法およびその装置
US6728426B1 (en) 1999-08-23 2004-04-27 International Business Machines Corporation Compression of form images in gray-level
JP4424845B2 (ja) 1999-12-20 2010-03-03 本田 正 イメージデータ圧縮方法及び復元方法
JP4078009B2 (ja) * 2000-02-28 2008-04-23 東芝ソリューション株式会社 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
US6351566B1 (en) 2000-03-02 2002-02-26 International Business Machines Method for image binarization
US6658166B1 (en) 2000-03-08 2003-12-02 International Business Machines Corporation Correction of distortions in form processing
US6778703B1 (en) 2000-04-19 2004-08-17 International Business Machines Corporation Form recognition using reference areas
US7917844B1 (en) 2000-07-14 2011-03-29 International Business Machines Corporation Directory service for form processing
US6760490B1 (en) 2000-09-28 2004-07-06 International Business Machines Corporation Efficient checking of key-in data entry
US6640009B2 (en) 2001-02-06 2003-10-28 International Business Machines Corporation Identification, separation and compression of multiple forms with mutants
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
US20110188759A1 (en) * 2003-06-26 2011-08-04 Irina Filimonova Method and System of Pre-Analysis and Automated Classification of Documents
US9015573B2 (en) 2003-03-28 2015-04-21 Abbyy Development Llc Object recognition and describing structure of graphical objects
US9224040B2 (en) 2003-03-28 2015-12-29 Abbyy Development Llc Method for object recognition and describing structure of graphical objects
RU2003108433A (ru) * 2003-03-28 2004-09-27 Аби Софтвер Лтд. (Cy) Способ предварительной обработки изображения машиночитаемой формы
RU2003108434A (ru) * 2003-03-28 2004-09-27 "Аби Софтвер Лтд." (CY) Способ предварительной обработки изображения машиночитаемой формы нефиксированного формата
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
RU2635259C1 (ru) 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US8233714B2 (en) 2006-08-01 2012-07-31 Abbyy Software Ltd. Method and system for creating flexible structure descriptions
US9740692B2 (en) 2006-08-01 2017-08-22 Abbyy Development Llc Creating flexible structure descriptions of documents with repetitive non-regular structures
US8108764B2 (en) * 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
JP2010033360A (ja) * 2008-07-29 2010-02-12 Canon Inc 情報処理装置、ジョブ処理方法、記憶媒体及びプログラム
JP5420363B2 (ja) * 2009-09-28 2014-02-19 大日本スクリーン製造株式会社 画像検査装置および画像検査方法、画像記録装置
US8285074B2 (en) * 2010-09-01 2012-10-09 Palo Alto Research Center Incorporated Finding low variance regions in document images for generating image anchor templates for content anchoring, data extraction, and document classification
US8825409B2 (en) * 2010-09-08 2014-09-02 International Business Machines Corporation Tracing seismic sections to convert to digital format
JP5703898B2 (ja) * 2011-03-30 2015-04-22 富士通株式会社 帳票管理システム、帳票画像管理方法、及びプログラム
US9082007B2 (en) * 2013-02-15 2015-07-14 Bank Of America Corporation Image recreation using templates
US11830605B2 (en) * 2013-04-24 2023-11-28 Koninklijke Philips N.V. Image visualization of medical imaging studies between separate and distinct computing system using a template
US10395133B1 (en) * 2015-05-08 2019-08-27 Open Text Corporation Image box filtering for optical character recognition
US10437880B2 (en) 2016-02-08 2019-10-08 Bank Of America Corporation Archive validation system with data purge triggering
US10460296B2 (en) 2016-02-08 2019-10-29 Bank Of America Corporation System for processing data using parameters associated with the data for auto-processing
US9823958B2 (en) 2016-02-08 2017-11-21 Bank Of America Corporation System for processing data using different processing channels based on source error probability
US10437778B2 (en) 2016-02-08 2019-10-08 Bank Of America Corporation Archive validation system with data purge triggering
US10067869B2 (en) 2016-02-12 2018-09-04 Bank Of America Corporation System for distributed data processing with automatic caching at various system levels
US9952942B2 (en) 2016-02-12 2018-04-24 Bank Of America Corporation System for distributed data processing with auto-recovery

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5776969A (en) * 1980-10-30 1982-05-14 Canon Inc Image editing device
DE3107521A1 (de) * 1981-02-27 1982-09-16 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von bild- und text- oder graphikbereichen auf druckvorlagen
US4430526A (en) * 1982-01-25 1984-02-07 Bell Telephone Laboratories, Incorporated Interactive graphics transmission system employing an adaptive stylus for reduced bandwidth
JPS58148565A (ja) * 1982-02-26 1983-09-03 Mitsubishi Electric Corp 多階調画像信号の符号化方法
JPS58207184A (ja) * 1982-05-27 1983-12-02 Ricoh Co Ltd 記録情報認識装置
JPH0750483B2 (ja) * 1985-05-22 1995-05-31 株式会社日立製作所 文書画像追加情報の蓄積方法
GB2190560B (en) * 1986-05-08 1990-06-20 Gen Electric Plc Data compression
US4754487A (en) * 1986-05-27 1988-06-28 Image Recall Systems, Inc. Picture storage and retrieval system for various limited storage mediums
EP0262462A3 (de) * 1986-09-30 1991-02-27 Siemens Aktiengesellschaft Verfahren zum Interpretieren formularhafter Dokumente
JPS63115267A (ja) * 1986-10-31 1988-05-19 Nippon I C S Kk 伝票等の記載事項復元処理装置
US5001769A (en) * 1988-12-20 1991-03-19 Educational Testing Service Image processing system

Also Published As

Publication number Publication date
EP0411231A3 (en) 1991-07-31
EP0411231B1 (de) 1995-06-07
DE68922998D1 (de) 1995-07-13
CA2019134A1 (en) 1991-02-04
IL91220A0 (en) 1990-03-19
IL91220A (en) 1995-03-30
JPH03119486A (ja) 1991-05-21
EP0411231A2 (de) 1991-02-06
US5182656A (en) 1993-01-26
ES2074480T3 (es) 1995-09-16
CA2019134C (en) 1996-04-09

Similar Documents

Publication Publication Date Title
DE68922998T2 (de) Verfahren zur Digitalisierung von in Formblättern eingetragenen Informationen mittels Vergleich mit sehr grossen Symbolen.
DE68925281T2 (de) Verfahren zur Hochqualitätskomprimierung von binären Textbildern
DE19814075B4 (de) Verfahren zum Abtasten und Erkennen mehrerer Fotografien und zum Beseitigen von Randfehlern
DE69738515T2 (de) Vorrichtung und verfahren für hybride kompression von rasterdaten
DE69635512T2 (de) Verfahren zum Lesen eines zweidimensionalen Strichcodes ohne Taktsignal
DE69432585T2 (de) Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument
DE69026041T2 (de) Identifikation, Kennzeichnung und Segmentierung der halbtongerasterten oder punktierten Bereiche eines Binärbildes
DE69730109T2 (de) Verfahren und Vorrichtung zum Herstellen von Wasserzeichen
DE69014213T2 (de) Bit-Planmodifikation.
DE3689416T2 (de) Mustermerkmalextraktion.
DE19530829C2 (de) Verfahren zum elektronischen Wiederauffinden von einem Dokument hinzugefügter Information
DE68922772T2 (de) Verfahren zur Zeichenkettenermittlung.
DE3687211T2 (de) Verfahren und vorrichtung zur datenuebertragung.
DE3538639C2 (de)
DE19958553A1 (de) Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten
EP0067244A2 (de) Verfahren zum automatischen Erkennen von Weissblöcken sowie Text-, Graphik- und/oder Graubildbereichen auf Druckvorlagen
DE10311715A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Speichermedium für das Bildverarbeitungsprogramm
DE102007040070B4 (de) Bilddichteumwandlungsverfahren, Bildverbesserungsverarbeitungseinrichtung und dafür geeignetes Programm
DE3523042A1 (de) Bildverarbeitungssystem
DE69728724T2 (de) Bildbereichs-Erkennungsverfahren und Bildverarbeitungsvorrichtung
DE19956158A1 (de) Bild-Binärisierungsverfahren auf Bereichsbasis
DE112010001320T5 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren, Bilderverarbeitungsprogramm und Speichermedium
DE19904997A1 (de) Automatische Farbausfällung unter Verwendung von Luminanz/Chrominanz-Zwischenraumverarbeitung
DE60219918T2 (de) Klassifikation von bildblöcken basierend auf der entropie von pixeldifferenzen
DE102008013789A1 (de) Vorrichtung, Verfahren und Programm zum Eliminieren von Zeichenstörungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee