DE68922998T2

DE68922998T2 - Verfahren zur Digitalisierung von in Formblättern eingetragenen Informationen mittels Vergleich mit sehr grossen Symbolen.

Info

Publication number: DE68922998T2
Application number: DE68922998T
Authority: DE
Inventors: Dan Shmuel Dr Chevion; Ehud Dov Dr Karnin; Eugeniusz Dr Walach
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-08-04
Filing date: 1989-10-10
Publication date: 1995-12-14
Anticipated expiration: 2009-10-11
Also published as: EP0411231A3; EP0411231B1; DE68922998D1; CA2019134A1; IL91220A0; IL91220A; JPH03119486A; EP0411231A2; US5182656A; ES2074480T3; CA2019134C

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Digitalisieren von Bildinformationen, insbesondere in Fällen, in denen ein Teil des Bildes aus unveränderlichen d.i. Standardinformationen, wie z.B. in Vordrucken, besteht und somit nichts zum Informationsgehalt beiträgt. Das erfindungsgemäße Verfahren benutzt den Vergleich zwischen voraufgenommenen Daten, die die genannte Standardinformation darstellen, und den Bildinformationen, die durch Abtasten aus dem betreffenden Bild erhalten wurden.
Der Umgang mit Papierdokumenten gehört heutzutage in Büros zur täglichen Routine. Überlegungen, die mit einer gewissen Sorge um die natürlichen Quellen des für die Herstellung des für die Dokumente verbrauchten Papiers, mit der Schnelligkeit der Herstellung und der Bearbeitung der Dokumente, so daß sie ihrer Aufgabe gerecht werden, mit ihrer Archivierung und späterem Wiederauffinden zu tun haben, haben zu Bemühungen Anlaß gegeben, die Anzahl der umlaufenden Dokumente zu verringern und das Arbeiten mit den Dokumenten automatischen Bearbeitungsgeräten zu überlassen. Die materielle Handhabung der Dokumente ist in dieser Beziehung ein wichtiger Aspekt. Der andere, vielleicht noch wichtigere Aspekt, ist die Verarbeitung der Informationen, die in den Dokumenten enthalten sind.
Die Verarbeitung der in den Dokumenten enthaltenen Informationen beinhaltet im allgemeinen die Erfassung der Informationen durch irgendein Lesegerät, die Umwandlung der erfaßten Informationen in einen maschinenlesbaren Code, die Abspeicherung der codierten Information für spätere und möglicherweise wiederholte Weiterverarbeitung, die aktuelle Verarbeitung der Informationen und schließlich Ausgabe der Ergebnisse der Verarbeitung. Diese Ausgabe kann eine sichtbare Form annehmen, wie z.B. in einer Bildschirmausgabeeinheit oder als Druck, oder kann auch rein elektronisch sein.
Die Erfassung der Informationen durch ein Lesegerät, wie z.B. durch einen optischen Scanner, muß mit einer angemessen hohen Auflösung erfolgen, sonst wird der Informationsgehalt verstümmelt oder geht teilweise verloren. Dementsprechend erzeugt das Ablesegerät eine große Menge Abtastdaten, die ihrerseits eine große Speicherkapazität voraussetzen. Als typisches Beispiel wird eine DIN-A4-Seite (279 x 210 mm), die mit 100 pel/cm (pel ist ein "Picture element" [Bildelement] und ist entweder ein weißer oder ein schwarzer Punkt) abgetastet wird, etwa 700 Kilobyte Speicherplatz benötigen. Sogar eine verhältnismäßig bescheidene Anzahl Dokumente, sagen wir ein paar Tausend, würde einen unmöglich großen Speicher erfordern.
Zwecks Vereinfachung dieses Problem sind herkömmliche Dokumentabtastsysteme mit Datenkompressionsroutinen versehen, die etwa eine Größenordnung einsparen, so daß die komprimierten Daten einer abgetasteten A4-Seite in 25 bis 75 kByte Speicherplatz abgespeichert werden können, natürlich in Abhängigkeit vom Inhalt des abgetasteten Bildes. Sehr ausgefeilte Algorithmen auf der Grundlage einer arithmetischen Codierung können eine weitere Reduktion um etwa 16% erzielen. Selbstverständlich muß jedes Kompressionssystem die Möglichkeit vorsehen, die spätere Dekomprimierung der Informationen zuzulassen, sei es zur Verarbeitung, sei es zur Ausgabe.
In einer ganzen Reihe von Anwendungen, bei denen große Mengen Dokumente bearbeitet werden müssen, wie z.B. im Zusammenhang mit einer Volkszählung, ist es wesentlich, das Kompressionsverhältnis sehr signifikant noch weiter zu steigern, sagen wir um eine weitere Größenordnung.
Eine mögliche Lösung dieses Problems wird in "Combined Symbol Matching Facsimile Data Compression System" von W.K. Pratt, P.J. Capitant, W. Chen, E.R. Hamilton und R.H. Wallis, Proc. IEEE, Bd. 68, Nr. 7, Juli 1980 beschrieben. Dort wurde vorgeschlagen, digitalisierte Bilder in einen Zeichenvergleichsprozeß einzuspeisen. Erkannte Zeichen werden sehr effizient durch ihre alphanumerische Form ausgedrückt. Dann wird die bleibende Restinformation als ein herkömmliches digitalisiertes Bild gesondert komprimiert. Das bewirkt eine etwa zweifache Steigerung des Kompressionsverhältnisses, obwohl die Wirksamkeit dieses Schemas weitgehend vom Prozentsatz der erkannten Zeichen und vom Grad des Digitalisierungsrauschens abhängt.
Eine verbesserte Technik wird in US-A-4,499,499 von Brickman et al. geoffenbart, wo anstatt des Erkennens einzelner Zeichen das Vergleichen großer Symbole, wie z.B. einzelner Wörter im Text, in Betracht gezogen wird. Es wird jedoch kein Versuch vorgeschlagen, größere Symbole als Wörter zur Kornpression heranzuziehen. Dementsprechend zeigt diese Vergleichsschrift kein Verfahren, das eine Kompression bis zu einem zufriedenstellenden Verhältnis ermöglichen würde.
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Digitalisierung von Dokumenten vorzuschlagen, insbesondere solcher, die eine definierte Struktur haben, wie sie z.B. bei Vordrucken auftreten. Ein großer Prozentsatz der bei der Geschäftsabwicklung auftretenden Dokumente besteht aus Vordrucken verschiedener Aufmachung und Anordnung, u.a. Verwaltungsfragebögen, Schecks, Strafmandate und geographische Karten, um nur einige Beispiele zu erwähnen.
Jeder Originalvordruck (O), d.h. der zur Weiterverarbeitung vorgelegte Vordruck, setzt sich zusammen aus einem Standard- oder konstanten Teil (CP), der in jedem Vordruck dieser Art wiederkehrt, und einem veränderbaren Teil (VP), d.i. die Information, die in Ergänzung der vorgedruckten Teile eingeschrieben wird. In mathematischer Notation,
O = CP VP,
wobei sowohl CP als auch VP Zweiebenenbilder sind und eine bildschirmelementweise Vereinigungsoperation darstellt, so daß ein Pixel in O schwarz ist, wenn das entsprechende Pixel entweder in CP oder in VP (oder in beiden) schwarz ist.
Der veränderbare Teil VP ist je nach Vordruck unterschiedlich. Wenn man nun die in einer großen Anzahl Vordrucken mit dem gleichen konstanten Teil (CP) enthaltenen Informationen ansieht, ist es unmittelbar offensichtlich, daß es genügt, eine einzige Kopie dieses konstanten Teils des Vordrucks zu haben, und eine Kopie von jedem veränderbaren Teil (VP), d.h. so viele veränderbare Teile wie einzelne Vordrucke dieses besonderen Vordrucktyps vorliegen. Dementsprechend kann jeder Vordrucktyp wirksam durch Abspeichern seines CP gespeichert werden, und die Menge der Einzelvordrucke dieses Vordrucktyps kann abgespeichert werden durch Abspeichern nur ihrer veränderbaren Teile (VP). Dieses Verfahren wird in der Tat häufig bei der Verwaltung elektronischer Vordrucke angewandt.
Das ist nun eine sehr einfache Idee, die Frage dabei ist, wie läßt sich dieses Verfahren anwenden auf die riesige Menge Papiervordrucke, die als digitalisierte Bilder behandelt werden müssen. Eine mögliche Lösung wäre es, die grundlegenden Muster an Zeilen, Kästchen und Text in diesen Vordrucken unter Verwendung einer Spezialdruckfarbe aufzubringen, die für herkömmliche Scanner durchsichtig ist. Wenn ein ausgefüllter Vordruck dieser Art abgetastet wird, wäre das Grundmuster (d.i. CP) für den Scanner unsichtbar und nur der veränderbare Teil VP würde in den Rechner eingegeben werden. Auf die Entwicklung einer praktischen Implementierung dieser Lösung wurde viel Mühe verwandt, wie von D.E. Nielsen, R.B. Arps und T.H. Morin in "Evaluation of Scanner Spectral Response for Insurance Industry Documents", 16/A44 NCI Program, Arbeitspapier Nr. 2, Mai 1973, und F.B. Woods und R.B. Arp in "Evaluation of Scanner Spectral Response for Insurance Industry Documents", 16/A44 NCI Program, Arbeitspapier Nr. 4, September 1973 mitgeteilt wurde. Der offensichtliche Nachteil dieser Lösung ist, daß die Verwendung eines für Spezialdruckfarbe empfindlichen Scanners die Anwendung dieser Lösung auf vorhandene Archive ausschließt. Auch ist die Anwendung einer Spezialdruckfarbe sicher umständlich und teuer.
Es ist daher eine Aufgabe der Erfindung, eine wirksame Methode zur Digitalisierung des Informationsgehalts von Vordrucken bereitzustellen, einschließlich derer, die bereits in Ablagen archiviert sind.
Die grundlegende Idee ist, zunächst das Abtasten eines leeren Vordrucks vorzunehmen, um den konstanten Teil CP zu erfassen und in einem Speicher abzuspeichern. Auf diese Weise läßt sich eine Bibliothek aller möglichen leeren Vordrucke, die für eine bestimmte Anwendung in Frage kommen, generieren. Wenn dann dem System ein ausgefüllter Vordruck vorgelegt wird, wird er abgetastet, digitalisiert und die sich ergebende digitalisierte Information wird abgespeichert. Dann wird der entsprechende CP des Vordrucks identifiziert und von der abgespeicherten digitalen Information des ausgefüllten Vordrucks "subtrahiert". Die auf diese Weise ermittelte Differenz ist der veränderbare Teil VP, d.i. die interessierende Information. Diese umfaßt in der Regel nur einen Bruchteil der Daten des gesamten ausgefüllten Vordrucks.
Eine weitere Kompression durch herkömmliche Mittel ist möglich und die endgültige Abspeicherung ist sehr effizient.
Zur Wiederherstellung des Vordrucks werden die komprimierten Daten aus dem Speicher abgerufen, wie üblich dekomprimiert und dann mit den Daten, die den CP darstellen, verkettet. In den meisten Fällen wird jedoch die Weiterverarbeitung nur den veränderbaren Teil VP betreffen.
In der Europäischen Patentanmeldung EP-A-0202671 wird ein Verfahren zur Komprimierung der in ausgefüllten Vordrucken (O) enthaltenen Informationen für Speicherungs- oder Übertragungszwecke durch gesonderte Behandlung der entsprechenden leeren Vordrucke (CP) und der in diese geschriebenen Informationen (VP) beschrieben und beinhaltet die Schritte Vorababtasten der leeren Vordrucke (CP), Digitalisieren der erfaßten Daten und Abspeichern der digitalisierten Darstellungen, die sich jeweils auf den leeren Vordruck (CP) beziehen, in einem Rechnerspeicher, um eine Vordruckbibliothek zu schaffen, Abtasten des ausgefüllten Originalvordrucks (O), der komprimiert werden soll, Digitalisieren der erfaßten Daten, Identifizieren des betreffenden leeren Vordrucks (CP) in der Vordruckbibliothek und Abrufen der betreffenden digitalen Darstellung derselben, Vergleichen des betreffenden leeren Vordrucks (CP) mit der digitalisierten Darstellung des ausgefüllten Vordrucks (O), Abspeichern einer digitalisierten Darstellung der eingeschriebenen Informationen (VP) in einem Speicher und Komprimierung der in den Vordruck eingeschriebenen Informationen (VP) durch herkömmliche Methoden.
Zur Subtraktion der digitalisierten Pixel des leeren Vordrucks (EP) von den Pixeln des ausgefüllten Vordrucks (O) wird ein verbreitertes oder erweitertes Bild des EP generiert und von O subtrahiert. Der Nachteil dieser groben Subtraktionsmethode wird nachstehend im Zusammenhang mit dem Verfahren von Duda und Hart diskutiert.
Im Hinblick auf die EP-A-0202671 ist es daher eine Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Subtrahieren der Informationen des leeren Vordrucks (EP) vom ausgefüllten Vordruck (O) bereitzustellen. Die Erfindung gemäß den Ansprüchen soll die obigen Aufgaben lösen. Einzelheiten des erfindungsgemäßen Verfahrens werden nachstehend beispielhaft beschrieben unter Bezugnahme auf die Zeichnungen, in denen:
Fig. 1 einen Teil eines ausgefüllten Originalvordrucks darstellt, wie er abgetastet und (im vergrößerten Maßstab) in einem Rechner abgespeichert wurde;
Fig. 2 stellt den entsprechenden Teil des leeren Vordrucks dar;
Fig. 3 zeigt das Ergebnis des Prozesses zur Herstellung der Deckungsgleichheit;
Fig. 4 zeigt das Ergebnis der einfachen Subtraktion der Bilder in Fig. 1 und Fig. 2;
Fig. 5 zeigt den ausgefüllten Teil des Originalvordrucks, wobei alle Spuren des leeren Vordrucks gelöscht sind;
Fig. 6 zeigt die Wiederzusammenstellung der eingetragenen Information der Fig. 5 und des leeren Vordrucks der Fig. 2;
Fig. 7 zeigt einen kompletten ausgefüllten Vordruck;
Fig. 8 stellt das Ergebnis des Abtastens des entsprechenden leeren Vordrucks C dar;
Fig. 9 zeigt das Ergebnis einer einfachen Subtraktion der Bilder der Fig. 7 und 8;
Fig. 10 zeigt das Ergebnis der Anwendung des erfindungsgemäßen Verfahrens auf Fig. 7 und 8;
Fig. 11 stellt eine Rekonstruktion des ausgefüllten Vordrucks aus Fig. 8 und 10 dar.
Das offenbarte Verfahren umfaßt im wesentlichen vier Stufen, nämlich das Erfassen der Informationen, die Herstellung der Deckungsgleichheit der vorabgespeicherten Daten mit den abgetasteten Daten, der "Subtraktionsprozeß" und die Komprimierung. Eine zusätzliche Stufe wäre die Rekonstruktion des ursprünglichen ausgefüllten Vordrucks.
Das Erfassen der Bildinformationen muß berücksichtigen, daß sich die Helligkeitsparameter für den konstanten und den veränderlichen Teil des Vordrucks signifikant unterscheiden können. Der handgeschriebene veränderbare Teil ist üblicherweise dicker als die gedruckten Linien und der Text des konstanten Teils CP. Somit sollten die Abtastparameter für den CP- und den VP-Teil gesondert optimiert werden. Der Abtastvorgang selbst ist Standard; die Abtastvorrichtung kann ein herkömmlicher Scanner oder eine digitalisierende Videokamera sein. Das Abtasten erfolgt Zeile um Zeile mit einer Auflösung in der Größenordnung von 100 Bildelementen per Zentimeter Zeilenlänge, d.i. eine Punktgröße von etwa 0,1 mm Durchmesser.
Das Abtasten ergibt zwei Binärdatenketten, wobei eine Kette den konstanten Teil CP (d.i. der leere Vordruck) und die andere den vollständigen oder ursprünglich abgetasteten Vordruck O = CP + VP darstellt, der den konstanten Teil CP und die eingeschriebene Information VP enthält. Die Aufgabe besteht dann einfach darin, den VP aus den Daten, die den ursprünglichen Vordruck O darstellen, zu extrahieren.
Wenn in praktischen Scannervorrichtungen der gleiche Vordruck zweimal abgetastet wird, unterscheiden sich die Daten, die den abgetasteten Vordruck darstellen, geringfügig aufgrund winziger Verschiebungen, die zu kleinen linearen oder winkligen Fehlausrichtungen und damit zu Abweichungen in ihren binären Abtastsignalen führen. Auch kann der Digitalisierungsprozeß eine leichte Skalierung einführen. Die Beobachtung betrifft auch die Ausrichtung des leeren Vordrucks beim Abtasten zum Abspeichern der CP-Daten und den Originalvordruck O, wenn er zur Gewinnung der VP-Daten abgetastet wird. Es ist also erforderlich, den Originalvordruck O in Bezug auf den vorabgespeicherten Vordruck mit dem CP-Inhalt zur Deckung zu bringen. Das geschieht durch Optimierung der Parameter einer geometrischen Transformation, die in der Lage ist, ein Bild in das andere umzusetzen. Die Optimierung zielt darauf ab, etwaige Fehler bei Abschluß des Umwandlungsprozesses zu minimieren.
Auf dem Stand der Technik sind verschiedene Techniken der Datendeckungsgleichheit auf einer Anzahl technischer Gebiete bekannt, wie Mustererkennung, Prüfung, Änderungserfassung, Zeichenerfassung usw. Diese Techniken sind in den folgenden Unterlagen offenbart: US-A-4,028,531; US-A-4,441,207; US-A- 4,644,582; US-A-4,651,341; US-A-4,654,873; US-A-4,672,676; US-A-4,706,296; US-A-4,815,146; H.S.Raganath: "Hardware Implementation of Image Registration Algorithms", Image Vision Compute, Bd. 4, Nr. 3, August 1986, Seite 151-158, und W.K. Pratt, P.J. Capitant, W. Chen, E.R. Hamilton und R.H. Wallis: "Combined Symbol Matching Facsimile Data Compression Systems", Proc. IEEE, Bd. 68, Nr. 7, Juli 1980; B. Silverman: "Algorithm for Fast Digital Image Registration", IBM Technical Disclosure Bulletin, 1971, S. 1291-1294. Einige der bekannten Techniken sollen hier kurz zusammengefaßt werden.
Gemäß der Lösung nach der Methode der Kleinsten Quadrate (LS) oder nach der Methode des Kleinsten Absolutwerts (LAV) der letzten vorgenannten Unterlage muß man entweder das Quadrat oder den Absolutwert der Differenz zwischen einem umgeformten augenblicklichen Bild und einem Bibliotheksbild nehmen und das Minimum im Satz aller zulässigen Transformationen suchen.
Unter der Kreuzkorrelation maximiert man auf dem Satz der zulässigen Transformationen die Kreuzkorrelation eines umgeformten augenblicklichen Bildes und eines Bibliothekbildes. Unter dem Moment-Invarianz-Konzept nimmt man an, daß das erste und das zweite Moment eines Bilds invariant gegenüber der Seitenverschiebung und der Rotation sind, und man berechnet die Eigenvektoren einer gegeben Verteilung, und bestimmt von diesen aus die relative Rotation der zwei digitalisierten Bilder.
Ein einfaches und doch nützliches Verfahren zum Berechnen der Transformationsparameter ist die Lösung eines Gleichungssystems, das aus einer gegebenen Übereinstimmung zwischen einem Punktesatz in einem Bild und dem entsprechenden Punktesatz im Bezugsbild entsteht. Dieses Schema unterteilt sich in einen automatischen Punkteauszug- und einen manuellen Punkteauszugprozeß.
Leider sind alle obigen Lösungen rechnerisch umständlich, aus dem Grund, weil die Deckungsgleichheit ein zweidimensionales Problem ist und die Anzahl der Operationen proportional zur Anzahl der Bildpixel steigt. Bei der Behandlung ganzer Vordrucke, wie im Zusammenhang mit der vorliegenden Erfindung, wo riesige Datenfelder zur Deckung gebracht werden müssen, sind die Verfahren auf dem Stand der Technik unter einem rechnerischen Gesichtspunkt ausgeschlossen. Betrachten wir z.B. einen Vordruck der Größe A4 (297 x 210 mm). Das Abtasten dieses Vordrucks würde bei einer Standarddichte von 100 Pixel/cm ein digitalisiertes Bild von über 5 Millionen Pixel ergeben. Der Deckungsgleichprozeß mit Vorrichtungen auf dem Stand der Technik würde eine Anzahl Berechnungen in der gleichen Größenordnung erforderlich machen. Das ist für Personalcomputer der derzeitigen Konstruktion nicht praktikabel.
Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung wird vorgeschlagen, das Problem der Deckungsgleichheit mittels einer Dimensionalitätsreduktion zu lösen. Das geschieht durch Projizieren des Bildes auf die x- und y-Achse und unter Verwendung der Lösung durch den kleinsten Absolutwert die sich ergebenden eindimensionalen Histogramme zur Deckungsgleichheit zu bringen. Somit wird ein eindimensionales Histogramm definiert als ein Datenfeld, das nur eine Dimension aufweist, d.h. als ein Vektor, im Gegensatz zu einem Datenfeld mit zwei oder mehr Dimensionen, wie z.B. eine Matrix. Diese Dimensionalitätsreduktion ermöglicht es, daß die erforderliche Anzahl Berechnungen proportional der Höhe und der Breite des Bilds (weniger als 5000 Pixel für eine A4- Seite) ist. Gleichzeitig kommt es zur drastischen Steigerung der Geschwindigkeit des Prozesses der Deckungsgleichheit.
Damit der erfindungsgemäße Deckungsgleichprozeß richtig arbeitet, auch wenn die Bilder leicht verdreht und skaliert sind, wird das ursprüngliche Bild in eine Anzahl relativ kleiner, überlappender Segmente aufgeteilt. Für jedes Segment ist nur eine einfache Verschiebungstransformation zulässig. Die Transformation des Gesamtbildes kann als eine Kombination der Verschiebungen aller individueller Segmente dargestellt werden. Natürlich, je kleiner die Segmente sind, desto besser kann der Plan komplizierte Transformationen wie Drehungen behandeln. Empirisch wurde gefunden, daß es für einen typischen A4 Vordruck und einen Standardscanner ausreicht, 16 Blöcke je Seite in einer 4 x 4 Anordnung zu haben.
Ein bestimmter Grad einer Zwischenblocküberlappung ist erforderlich, damit die Ausbildung unerwünschter weißer Trennstreifen zwischen den Blöcken vermieden wird, die sonst durch Unterschiede der Verschiebung zwischen den Segmenten bewirkt werden können. Andererseits reduziert eine Verbreiterung der Uberlappungsränder die Flexibilität der Transformation. Experimentell wurde gefunden, daß eine Überlappung von zwei Pixeln bei den meisten praktischen Anwendungen gut arbeitet.
Jetzt soll die Generierung der x- und y-Histogramme erklärt werden. Zum Generieren des y-Histogramms wird für jedes Segment ein Vektor konstruiert, der in seiner iten Komponente die Anzahl der schwarzen Pixel der entsprechenden Zeile enthält. Das geschieht wirksam durch Abtasten jeder Zeile Byte für Byte, ohne Entpacken der Bytes in ihre Pixel. Die Anzahl der "1"er im augenblicklichen Byte wird erhalten mittels einer geeigneten Nachschlagtabelle z.B. mit 256 Einträgen und 9 Ausgängen, und Addieren zur laufenden Summe. Dieser Prozeß ergibt die Anzahl der schwarzen Pixel in jeder Zeile.
Das y-Histogramm wird dann eindimensional unter Verwendung der kleinsten absoluten Differenz registriert wie folgt: Der augenblickliche Vektor, der wie oben berechnet wurde, wird verschoben bis er mit dem Bibliotheksvektor übereinstimmt, (der auf ähnliche Weise aus der vorabgespeicherten Darstellung des leeren Vordrucks erhalten wurde). Die Verschiebung des augenblicklichen Vektors wird vom Maschinenverschiebungsbefehl entweder nach links oder nach rechts ausgeführt, um so viele Stellen als nötig. Für jede Verschiebung wird die absolute Differenz berechnet. Diejenige Differenz, die ein Minimum ist, zeigt die optimale Verschiebung, die anschließend als relative Verschiebung der entsprechenden Segmente benutzt wird.
Die Generierung des x-Histogramms erfolgt auf ähnliche Weise. Für jedes Segment wird ein Vektor konstruiert, der in seiner iten Komponente die Anzahl der schwarzen Pixel der entsprechenden Spalte enthält. Das geschieht effektiv durch byteweises Abtasten jeder Zeile, ohne Entpacken der Bytes in ihre Pixel. Offensichtlich muß für jedes Byte eine andere Aktion vorgenommen werden. Für jedes der 2&sup8; mögliche Bytes wird im Voraus ein geeignetes Kurzprogramm vorbereitet. Auch wird eine Nachschlagtabelle mit 256 Einträgen und einem Ausgang je Eintrag vorgesehen, der die Adresse des entsprechenden Teils des Programms enthält. Für jedes Byte geht man auf einen der 256 Programmabschnitte der Nachschlagtabelle über, wobei der richtige Abschnitt auf der Basis des Binärwerts des gegebenen Byte so gewählt wird, daß die ite Komponente des Histogrammvektors nur dann vergrößert wird, wenn das entsprechende Pixel schwarz ist.
Das kann anhand des folgenden Beispiels illustriert werden: Nehmen wir an, das aktuelle Byte ist 10000000. Es ist klar, daß eine 1 zum Histogramm an der Stelle, die dem ersten Pixel entspricht, hinzugezählt werden muß, wobei die restlichen sieben Pixel unbetroffen bleiben. Wenn wir in die Nachschlagtabelle auf die Zeile gehen, die dem Byte 10000000 entspricht, finden wir die richtige Adresse. An dieser Adresse finden wir das erforderlich Kurzprogramm, das ausgeführt wird, und wir gehen auf das nächste Byte über. Dieses Verfahren stellt sicher, daß die erforderliche Anzahl Operationen proportional zur Anzahl der schwarzen Pixel ist (das ist in der Regel weniger als 10% der Gesamtanzahl der Pixel).
Das x-Histogramm wird dann eindimensional zur Deckung gebracht unter Verwendung der kleinsten absoluten Mittelwertdifferenz, ziemlich auf die gleiche Weise wie oben im Zusammenhang mit der Indeckungbringung des y-Histogramms.
Dieses oben beschriebene Verfahren zur Berechnung der optimalen Translationsparameter wird für jedes Bildsegment wiederholt. Es besteht jedoch das Bedürfnis, die Konsistenz der erhaltenen Resultate, die für die verschiedenen Blöcke berechnet wurden, zu überprüfen. Diese Aufgabe wird erfüllt durch ein Verschiebungssteuermodul, das eine doppelte Aufgabe erfüllt: (1) Feststellen etwaiger Deckungsfehler. Das kann z.B. bewirkt werden durch Berechnen des Durchschnittswerts der Verschiebungen der acht nächstliegenden Segmente. Wenn die Differenz zwischen zwei beliebigen Resultaten einen bestimmten Schwellenwert, z.B. 4, überschreitet, dann kann angenommen werden, daß die normale Überdeckung nicht gelungen ist, und die Verschiebungssteuereinheit die Aufgabe übernimmt. (2) Abschätzen der Verschiebungsparameter für Blöcke, bei denen das normale Verfahren wegen fehlender Informationen versagt. Das kann geschehen, wenn ein Vordruck in einem gegebenen Segment kein schwarzes Pixel aufweist. In diesem Fall wird die geeignete Verschiebung geschätzt auf der Grundlage der Verschiebungsparameter, die für die nächsten Nachbarn berechnet wurden.
Sobald die optimalen Verschiebungen festgestellt sind, wird jedes Segment in den geeigneten Bereich des Ausgangsbildfelds gelegt. Das Ausgangsbildfeld ist der Ort im Speicher, wo das Ergebnis des Deckungsgleichprozesses erzeugt wird. Die Segmente des abgetasteten Bildes werden an ihre zugeordneten Stellen gelegt, nachdem die entsprechenden Verschiebungen ausgeführt wurden.
Die Plazierung in der Richtung der y-Achse kann durch eine einfache Wahl des Verschiebungsindex gesteuert werden. Nehmen wir an, z.B., daß das betrachtete Segment auf Zeile 100 des abgetasteten Bildes anfängt, und daß nach Vergleich mit dem entsprechenden Segment in der Vordruckbibliothek festgestellt wird, daß eine Aufwärtsverschiebung von 5 vorgenommen werden soll. Das heißt, das betrachtete Segment muß zur Ausgangsbildanordnung ab Zeile 95 angefügt werden. Angesichts der Tatsache, daß praktisch alle Rechner in Indexiermodus arbeiten (d.h., alle Speicheradressen werden relativ zu einem bestimmten Verschiebungsindex geschrieben, wobei die absolute Speicherstelle durch Summieren der relativen Adresse und des Verschiebungsindex erhalten wird), läßt sich eine Verschiebung des gesamten Segments in y-Richtung durchführen durch Verändern eines einzigen Registerwerts, nämlich des Werts des Index.
Etwas schwieriger ist es, die Plazierung in Richtung der x- Achse zu steuern. Hier kann es erforderlich werden, die Daten tatsächlich um die geeignete Anzahl der Plätze (von 1 bis 7) zu verschieben. Auf diese Weise wird es möglich, das Ausgangsfeld zu erhalten, ohne die Daten in die Bitform entpacken und wieder in die Byteform rückführen zu müssen.
Wie bereits oben erklärt, wird die Segmentierung des abgetasteten Bildes mit einer kleinen Überlappung durchgeführt. Auch die gegenseitige Verschiebung der individuellen Segmente kann zu einer kleinen Überlappung führen. Wir sind aber interessiert an einem glatt ausgegebenen Bild ohne sichtbare Spuren des Segmentierungsverfahrens. Offensichtlich bedürfen diejenigen Pixel im Ausgangsbildfeld, die zu mehr als einem Segment des abgetasteten Bildes gehören, einer gesonderten Behandlung. Die bevorzugte Lösung ist die Durchführung einer Booleschen ODER-Operation an allen betroffenen Segmenten. Das empfohlene Verfahren besteht darin, zunächst das Ausgangsbildfeld zu klären und dann das abgetastete Bild Segment für Segment zu verarbeiten. Jedes neue Segment wird am geeigneten Ort durch Durchführung einer ODER-Operation für jedes Pixel zum Ausgangsfeld addiert.
Wie oben gesagt, einer der Schritte des erfindungsgemäßen Verfahrens verlangt die Deckungsgleichheit von zwei eindimensionalen Feldern, nämlich des x- und des y-Histogramms. Eine Möglichkeit zur Implementierung ist mittels des bekannten Verfahrens des kleinsten Absolutwerts (Least Absolute Value - LAV). Es gibt aber auch noch andere Verfahren, die, in Abhängigkeit von den näheren Umständen, vielleicht noch vorteilhafter sind, wie z.B. die herkömmliche Kreuzkorrelation (Cross Correlation - CC). Diese letztere ist in der Tat vorteilhaft unter dem Gesichtspunkt der Leistung, ist aber auch sehr viel komplexer unter dem Gesichtspunkt der Berechnung.
Diese rechenbedingte Komplexität läßt sich häufig reduzieren durch einen Vergleich der relativen Orte der Spitzen in den beiden betroffenen Histogramme, d.h. wo die Histogramme ein Maximum annehmen. Wenn z.B. das erste Histogramm einen Maximalwert 100 bei Ort 10 annimmt, und das zweite Histogramm sein Maximum am Ort 20 annimmt, dann würde eine Verschiebung um 10 eine akzeptable Übereinstimmung zwischen den beiden Histogrammen unter sehr geringem Rechenaufwand erzeugen.
Vorstehend wurde das Verfahren zur Feststellung der Deckungsgleichheit im Zusammenhang mit digitalisierten Bildern beschrieben, d.h. mit Bildern, die nur schwarze und weiße Komponenten aufweisen, es läßt sich jedoch auch auf Grautöne übertragen. Zu diesem Zweck wird das aus Grautönen bestehende Bild in sein digitalisiertes Gegenstück umgewandelt durch Bestimmen der Schwellenwerte des Bildes oder seiner Gradientenversion, und dann Berechnen der Transformationsparameter auf die oben erklärte Weise. Die Histrogrammprojektionen können direkt aus dem Graustufenbild errechnet werden durch Summieren aller Grautöne der Pixel in einer gegebenen Zeile (bzw. Spalte).
Nehmen wir nun an, daß die Deckungsgleichheit des abgetasteten Bildes O mit den vorabgespeicherten Bild CP erfolgreich abgeschlossen wurde, dann wäre der nächste durchzuführende Schritt die Subtraktion des konstanten Teils CP vom Originalbild O. Leider erzeugt das Abtasten des Originalbildes O sowie auch das Abrufen der vorabgespeicherten Daten, die den konstanten Teil CP repräsentieren, in den meisten praktischen Fällen ein Rauschen (zusätzlich zu dem Rauschen, das z.B. durch Unsauberkeit oder Verknitterung des Vordrucks entsteht). Demgemäß würde eine einfache Subtraktion nicht das erwünschte Resultat erbringen, wie man aus einem Vergleich der Fig. 1, 2 und 3 ersieht, die den ursprünglichen ausgefüllten Vordruck O, den leeren Vordruck CP und die einfache Differenz zwischen beiden zeigen. Das Ziel ist natürlich, das Abtastrauschen auszuschalten, im Fall der Fig. 4 ist das der schwache Überrest des Kastens, der den handschriftlichen Eintrag umgibt.
Ein Verfahren zur Lösung dieser Aufgabe ist: (1) Entfernen möglichst vieler schwarzer (d.i. gleich 1) Pixel des konstanten Teils CP aus dem Original O; und (2) unverändertes Belassen aller Pixel, die zum veränderbaren Teil VP gehören.
Selbstverständlich ist es verhältnismäßig einfach, eines dieser Ziele auf Kosten des anderen zu erreichen. Herkömmliche Lösungen sind nicht in der Lage, beide Ziele gleichzeitig zu erreichen. Das Verfahren der vorliegenden Erfindung geht aus von der Arbeit von W.K. Pratt, P.J. Capitant, W. Chen, E.R. Hamilton und R.H. Wallis "Combined Symbol Matching Facsimile Data Compression System" Proc. IEEE, Bd. 68, Nr. 7, s. 786-796, Juli 1980. Ihre Lösung war das Erzielen eines Schätzwerts Pv des veränderbaren Teils VP durch
Pv =O - (Pc ) [1]
oder anders ausgedrückt,
Pv = O (Pc )', [2]
wobei den Durchschnitt und das Symbol ' die logische Negierung bedeuten. In diesem Fall wäre Ziel (2) voll erreicht. Da aber in der Nähe von Pc eine Menge schwarzer CP- Pixel liegen, jedoch nicht auf Pc selbst, verbleiben eine beträchtliche Anzahl Pixel, die zu CP gehören, in Pv . Daraus ergibt sich, daß Pv "breiter" als VP ist. Dieser Effekt ist natürlich unerwünscht, weil das im Zusammenhang mit unserer Bildkompression bedeutet, daß die Kompression von Pv viel mehr Codebits beansprucht als zur Darstellung von VP erforderlich ist.
Wegen dieses Nachteils schlugen Duda und Hart in "Pattern Classification and Scene Analysis", Wiley & Sons, 1976, vor, zunächst Pc zu verbreitern. In dieser verbreiterten Version, BCP, setzt man dann alle Pixel auf "1", so daß in ihrer Umgebung wenigstens ein schwarzes Pixel von Pc zu finden ist. Mit diesem Verbreiterungsverfahren wird Pv erhalten als:
Pv = O - BCP = O BCP' [3]
Mit dieser Lösung, vorausgesetzt, der Verbreiterungsprozeß war breit genug, ist es möglich, den gesamten CP-Bereich zu entfernen. Diese Lösung ist auch Teil der "Method of storing and retrieving image data", offenbart in EP-A-0 202 671. Leider werden dabei auch einige Teile von VP mit entfernt. Das geschieht immer da, wo sich CP und VP schneiden. In der Nähe des Schnittbereichs wird Pv weiß, d.h. die entsprechenden Pixel werden 0, auch wenn VP schwarz war, mit einer dementsprechenden Verschlechterung der Bildqualität.
Das erfindungsgemäße Verfahren vermeidet die genannten Nachteile, d.h. es ermöglicht, daß eine gute Annäherung von VP erreicht wird, ohne unzulässige Kompromisse zwischen den beiden obigen Zielen, und mit einer Effizienz, die das Verfahren sogar für Personalcomputer anwendbar macht. Gleichzeitig bietet sich das erfindungsgemäße Verfahren an für eine leichte Rekonstruktion des ursprünglichen Bildes O aus Pc und Pv . Zu diesem Zweck wird mit der erfindungsgemäßen Methode Gleichung 1 (bzw. 2) benutzt, wenn immer das keine Verzerrung bewirkt, nämlich, wenn Pc schwarz ist. Die Gleichung 3 wird benutzt, wenn die verbreiterte Version BCP weiß ist, und Sondertests werden gemacht, um die optimale Lösung in Fällen zu finden, in denen sich CP und VP überschneiden (Problembereiche).
Das Originalbild O wird Pixel für Pixel abgetastet. Für jedes Pixel P wird auch seine unmittelbare Umgebung (nxn Quadrat) betrachtet. Aus O werden möglichst viele schwarze Pixel (1) des CP entfernt. Wenn im leeren Bild CP ein Pixel schwarz ist, kann es im Differenzbild durchaus weiß sein. Wenn im Originalbild O ein schwarzes Pixel weit weg von einem schwarzen Pixel gefunden wird, das zum leeren Vordruck gehört, dann muß dieses Pixel auch im Differenzbild schwarz sein. Wenn keine dieser beiden Alternativen zutrifft, müssen kompliziertere Tests durchgeführt werden.
Bezeichnen wir mit No die Nachbarschaft von P in O, mit Nc die entsprechende Nachbarschaft von P in C , und mit Nv die gleiche Nachbarschaft im endgültigen Feld V (das ursprünglich auf 0 gesetzt war). Die möglichen Werte des Pixel P in den verschiedenen Feldern können dann sein wie folgt:
a. Po (der Wert des Pixel P in O) ist 0.
In diesem Falle muß natürlich nichts unternommen werden (d.h. keine zusätzlichen Berechnungen sind erforderlich) und wir können zum nächsten Pixel übergehen.
b. Po = Pc = 1
Hier muß das Pixel P auf 0 gesetzt werden, d.h. in der Annäherung VP ist der Wert von Pv gleich 0, jedoch muß in der Praxis keine weitere Maßnahme ergriffen werden weil die Anordnung V auf 0 initialisiert wird, und man kann zum nächsten Pixel übergehen.
c. Po = 1 und Pc = 0
In diesem Problemfall müssen jedoch nicht nur die Werte von P sondern auch die Werte der Pixel betrachtet werden, die in seiner Nähe gefunden werden. Die Bestimmung des gewünschten Wertes Pv kann auf den folgenden Tests beruhen:
1. Nachprüfen, ob P zu CP gehören kann. Wenn nein, dann wird Pv = 1 gesetzt, zum nächsten Pixel übergehen. Wenn ja, dann zum nächsten Test (c.2) übergehen.
Dieses Nachprüfen kann ausgeführt werden durch Überprüfen, ob das gesamte Fenster Nc verschwindet oder im allgemeinen, ob die Anzahl der schwarzen Pixel in Nc einen vorgegebenen Schwellenwert überschreitet. Wenn die Nachbarschaft von P in C leer ist, dann kann nämlich das schwarze Pixel in O nicht von der Verzerrung von C herrühren und muß dementsprechend zu VP gehören.
2. Prüfen, ob P mit VP zusammenhängt. Wenn die Antwort ja ist, dann gehört P selbst zu VP, und Pv muß auf "1" gesetzt werden. Wenn die Antwort nein ist, dann ist daraus zu schließen, daß P zu CP gehört und Pv = 0 ist.
Um festzustellen, ob P mit VP zusammenhängt, muß man Nv kennen. Mit anderen Worten, um Pv berechnen zu können, muß man V für alle Pixel in der Umgebung von P kennen. Natürlich ist in praktischen Fällen nur ein Teil von Nv bekannt, nämlich der Teil, der vorher bereits überstrichen wurde, so daß seine entsprechende Abschätzung VP bereits bekannt ist. Dementsprechend muß im Bilderkennungstest anstatt der wahren Nv ein Feld benutzt werden, das seinerseits eine Annäherung "der ersten Ornung" an Nv ist. Das kann wie folgt durchgeführt werden:
a. Ausdehnen (Erweitern) der Nachbarschaft Nc um einen Faktor m.
Das läßt sich seinerseits bewerkstelligen durch Verschieben von NcP nach links, nach rechts, nach oben und nach unten. Dann wird die verbreiterte Version BN1c erhalten durch Boolesche Aufsummierung aller fünf obenerwähnter Felder, das ursprüngliche Feld und vier verschobene Felder. Diese Verbreiterung wird über das Feld BN1c wiederholt und ergibt BN2c . Dieser Prozeß wird fortgesetzt, bis das endgültige Feld BNmc erhalten wird.
b. Berechnen der örtlichen Annäherung von VP als:
N&sub0; - BNmc = N&sub0; (BNmc )'
c. Finden von durch Kombination der oben berechneten Annäherung mit "bekannten" Werten von Nv .
Nehmen wir z.B. an, daß das Bild von links nach rechts und von oben nach unten überstrichen wird, und daß die Fenstergröße n = 5 ist. Dann wird jedes der obigen Nachbarschaftsfelder organisiert wie folgt:
11 12 13 14 15
21 22 23 24 25
31 32 33 34 35
41 42 43 44 45
51 52 53 54 55
wobei die Zahl ij den Ort des Pixels in der iten Zeile und in der iten Spalte definiert. Unter diesen Annahmen sind die Pixel 11, 12, 13, 14, 15, 21, 22, 23, 24, 25, 31, 32 des Feldes 0 bereits analysiert worden und daher sind die geeigneten Werte für V bereits berechnet. Die Werte an den restlichen Orten (33, 34, 35, 41, 42, 43, 44, 45, 51, 52, 53, 54, 55) werden dem Feld entnommen, das unter dem vorstehenden Punkt b) berechnet wurde.
Sobald bekannt ist, ist die Feststellung leicht, ob das Pixel P im Mittelpunkt mit VP zusammenhängt. Ein sehr einfaches Kriterium kann angewandt werden: Wenn die Anzahl der schwarzen Pixel in einen vorgegebenen Schwellenwert überschreitet, dann gehört das betrachtete Pixel P zu V .
Betrachten wir jetzt z.B. ein schwarzes Pixel P mit einer Nachbarschaft N&sub0; in einem ausgefüllten Feld, und eine Nachbarschaft Nc im Feld des leeren Vordrucks:
Das ist eindeutig der erste der oben betrachteten Fälle, und im Ausgangsfeld muß P weiß (0) sein. Wenn aber das folgende eintritt (zweiter Fall):
dann muß P schwarz gelassen werden. Wenn andererseits die Nachbarschaft so aussieht:
dann ist ein komplizierterer Test erforderlich, um festzustellen, ob P vom Rauschen unten in Nc herrührt (und also im Ausgangsfeld auf 0 gesetzt werden muß) oder ob P schwarz ist, weil es zu einer Zeile gehört, die ausgefüllt wurde (und daher im Ausgangsbild auf 1 gesetzt werden muß). Im letzteren obigen Beispiel wäre die Entscheidung, P auf 0 zu setzen. Aber im folgenden Beispiel, wäre es näherliegend, sich für P = 1 zu entscheiden:
Jetzt soll das erfindungsgemäße Verfahren anhand der Zeichnungen beschrieben werden. Beispielhaft wird ein kleiner Teil des ursprünglichen Vordrucks O in vergrößertem Maßstab in Fig. 1 gezeigt. Er umfaßt einen Kasten aus dem Kastenmuster, das den Vordruck ausmacht, und einen handschriftlichen Eintrag in diesen Kasten. Nachdem der richtige leere Vordruck im Speicher identifiziert wurde, wird seine digitalisierte Form abgerufen. Der entsprechende Ausgang wird in Fig. 2 gezeigt. Neben einigen Abweichungen in der Dicke und Durchgängigkeit der Linien erscheint die Darstellung des leeren Vordrucks grob fehlausgerichtet gegenüber der Darstellung des ursprünglichen Vordrucks der Fig. 1. Nach der Durchführung der Deckungsgleichheit erscheinen die Bilder fast genau übereinanderliegend, wie in Fig. 3 dargestellt ist.
Jetzt werden die Daten, die den leeren Vordruck CP darstellen, von den Daten des Originalvordrucks O subtrahiert. Das Ergebnis der einfachen Subtraktion wird in Fig. 4 gezeigt. Wie bereits erwähnt, neigt der Abtastvorgang dazu, ein gewisses Rauschen einzuführen, und das macht sich in Fig. 4 als restliche Silhouette bzw. Schatten des Kastens aus Fig. 2 bemerkbar. Hier muß angemerkt werden, daß die Fig. 4 nur zur Verdeutlichung der Subtraktion gezeigt wird, im Normalfall wird sie nicht generiert. Die Anwendung des erfindungsgemäßen Subtraktionsprozesses führt zu dem Ergebnis, das in Fig. 5 gezeigt wird, in dem keine Spur des konstanten Teils CP des ursprünglich abgetasteten Vordrucks O bleibt.
Fig. 6 ist das Ergebnis, das man am Ende des Prozesses sehen würde, d.h., es stellt eine Rekombination des leeren Vordrucks CP aus Fig. 2 mit dem Eintrag des Vordrucks in Fig. 5 dar. Wie gewünscht, sieht das Bild in Fig. 6 im wesentlichen genau so aus wie das Original in Fig. 1, obwohl sich natürlich auf einer Pixel-um-Pixel-Basis die Bilder unterscheiden.
Fig. 7 ist eine Darstellung des gesamten Originalvordrucks (C ), dem der Teil in Fig. 1 entnommen wurde. Dieser Vordruck mit hebräisch geschriebenem Text wurde mit Absicht gewählt, so daß die Leser, von denen die meisten vermutlich nicht hebräisch lesen können, das als ein Beispiel eines abstrakten digitalen Bildes ansehen können. Dieses Bild wird abgetastet und von den sich ergebenden Daten werden auf einfache Weise, d.h. gemäß Gleichung [1], die Daten abgezogen, die für den entsprechenden leeren Vordruck der Fig. 8 abgespeichert wurden, nachdem der richtige Überdeckungsprozeß abgeschlossen wurde. Das Ergebnis zeigt sich in Fig. 9. Selbstverständlich wäre im Rahmen der vorliegenden Erfindung das nicht akzeptabel, weil das Bild einen großen Teil unerwünschter Informationen enthält, wie z.B. schwarze Pixel, die aus dem unvollständigen Entfernen des CP herrühren. Das zeigt, wie bereits erwähnt, daß die einfache Subtraktion keine akzeptablen Ergebnisse liefert.
Mit der Subtraktionsmethode gemäß der vorliegenden Erfindung sieht das Ergebnis der Subtraktion aus wie Fig. 10: Der Informationsgehalt des leeren Vordrucks CP wurde vollständig entfernt. Wo schwarze Pixel des leeren Vordrucks CP zufällig ein schwarzes Pixel aus der handgeschriebenen Information überlagern, kann es vorkommen, daß das schwarze Pixel durch ein weißes Pixel ersetzt wird, was in der Fig. 10 als "Leerstellen" sichtbar wird. Um nachzuprüfen, ob der Änderungserfassungsprozeß ein Rauschen eingeführt hat, wie z.B. eine Verzerrung des VP, könnte man möglicherweise wünschen, den leeren Vordruck der Fig. 8 und das "Änderungsbild" der Fig. 10 zu kombinieren. Das Ergebnis zeigt sich in Fig. 11. Zwar bleiben ein paar sichtbare Diskontinuitätsstellen, aber die Übereinstimmung kann als nahezu perfekt angesehen werden, weil die Lesbarkeit des Textes nicht betroffen ist.
Das erfindungsgemäße Verfahren erlaubt somit das komplette Entfernen des konstanten Teils CP des ursprünglichen Bildes und ergibt ein unverzerrtes Bild des variablen Teils VP des ursprünglichen Bildes. Es ist daher nicht erforderlich, den gesamten ursprüngliche Vordruck mit einem Informationsgehalt in der Größenordnung von 30 kByte abzuspeichern. Es genügt, das Bild in Fig. 8 abzuspeichern, das einen Informationsgehalt von nur etwa 6 kByte aufweist, was ein 5faches Verdichtungsverhältnis mit praktisch keiner Qualitätsverschlechterung ergibt. Die Kompression des veränderbaren Teils VP kann mit herkömmlichen Methoden durchgeführt werden.
Der Kompressionsschritt läßt sich auch mit einer eleganteren Methode durchführen, als sie auf dem Stand der Technik bekannt sind. Die bevorzugte Methode beinhaltet die Anwendung von mindestens zwei unterschiedlichen Kompressionsverhältnissen in Abhängigkeit von der "Dichte" der zu verdichtenden Informationen. Wenn wir z.B. ein Kompressionsverfahren mit zwei Verhältnissen annehmen, kann das erste Verhältnis als "verlustlos" und das zweite als "verlustbehaftet" angesprochen werden. Dementsprechend werden dann diejenigen Teile der zu verdichtenden Daten, die sehr dicht liegen, d.h. die eine verhältnismäßig große Anzahl schwarzer Pixel enthalten, mit dem kleinen Verhältnis behandelt, so daß beim Komprimieren kein schwarzes Pixel verlorengeht, während die Teile der zu verdichtenden Daten, die verhältnismäßig wenig schwarze Pixel enthalten, mit dem gröberen Kompressionsverhältnis behandelt werden, wobei die Möglichkeit akzeptiert wird, daß einige wenige Pixel, die für den Informationsgehalt wirklich von Bedeutung sind, verloren gehen.
Diese Methode erfordert daher einen Vorfilterschritt, um die dichten und weniger dichten Teile des Bildes festzulegen, um so die Anwendung des verlustlosen bzw. verlustbehafteten Kompressionsverhältnisses zu bestimmen. Angewandt auf die Verarbeitung von Vordrucken mit darin enthaltenen Informationen einer konstanten, d.i. vorgedruckten Natur, und einer variablen, d.i. handgeschriebenen Natur, läßt sich eine sehr beträchtliche Einsparung in Bandbreite und Speicherplatz erzielen, da sich der handgeschriebenen Teil im allgemeinen für ein größeres Kompressionsverhältnis eignet.

Claims

1. Verfahren zur Digitalisierung von in Formblättern (O) eingetragenen Informationen durch gesondertes Behandeln der Informationen im entsprechenden leeren Formblatt (CP) und der in dasselbe eingetragenen Informationen (VP) mittels

- Vorababtasten des leeren Vordrucks (CP) unter Digitalisieren der für jedes einzelne Pixel erhaltenen Daten und Abspeichern derselben als eine digitalisierte Darstellung des leeren Vordrucks (CP) in einem Speicher,

- Abtasten des ausgefüllten Vordrucks (O) unter Digitalisieren der für jedes einzelne Pixel erhaltenen Daten und Abspeichern derselben als eine digitalisierte Darstellung des ausgefüllten Vordrucks (O) in einem Speicher, und

- Subtrahieren der digitalisierten Darstellung des leeren Vordrucks (CP) von der digitalisierten Darstellung des ausgefüllten Vordrucks (O), um eine digitalisierte Darstellung der eingetragenen Information (VP) zu erhalten,

wobei dieser Subtraktionsschritt dadurch gekennzeichnet ist, daß

wenn ein Pixel (P) in der digitalisierten Darstellung des ausgefüllten Vordrucks (O) durch eine digitalisierten Wert "1", und in der digitalisierten Darstellung des leeren Vordrucks (CP) durch einen Wert "O" dargestellt ist, dann wird eine "1" von der digitalisierten Darstellung des ausgefüllten Vordrucks (O) nur dann abgezogen, wenn die Anzahl der "1" bewerteten Pixel in einer Nachbarschaft (Nc ) des Pixels (P) in der digitalisierten Darstellung des leeren Vordrucks (CP) einen vorgegebenen Schwellenwert überschreitet und wenn die Anzahl der "1" bewerteten Pixel in einer Nachbarschaft (Nv ) des Pixels (P) in der digitalisierten Darstellung der eingetragenen Informationen (VP) einen vorgegebenen Schwellenwert nicht überschreitet, wobei diese Nachbarschaft (Nv ) in der digitalisierten Darstellung der eingetragenen Informationen (VP) bestimmt wird durch Berechnen der Differenz einer Nachbarschaft (N ) des Pixels (P) in der digitalisierten Darstellung des ausgefüllten Vordrucks (O) und einer mit Faktors erweiterter Nachbarschaft (BNmc ) des Pixels (P) in der digitalisierten Darstellung des leeren Vordrucks (CP), und ferner durch Kombinieren dieser Differenz mit der digitalen Darstellung aller vorher analysierten Pixel dieser Nachbarschaft (Nv ) in der digitalisierten Darstellung der eingetragenen Information (VP).

2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die Abtastparameter wie Helligkeit und Schwellenwerthöhe, für den leeren Vordruck (CP) und für den ausgefüllten Vordruck (O) gesondert bestimmt werden.

3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß vor dem Subtraktionsschritt eine Überdeckungsgenauigkeit der ausgefüllten Vordrucke (O) gegenüber dem leeren Vordruck (CP) ausgeführt wird.

4. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, daß die Überdeckungsgenauigkeitsinformation durch eine Größenreduktion bestimmt wird, vorzugsweise durch Projizieren zweidimensionaler Bilder als eindimensionale Histogramme auf die x- und die y-Achse.

5. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, daß die Überdeckungsgenauigkeit durch die nachstehende Schrittfolge durchgeführt wird:

- Partitionieren des abgetasteten Vordrucks (O) in kleine Segmente,

- für jedes Segment Abschätzen der optimalen Verschiebungen, die im Hinblick auf den vorabgetasteten leeren Vordruck (CP) in x- und y-Richtung durchgeführt werden müssen,

- Plazieren jedes Segments des ausgefüllten Vordrucks (O) am geeigneten Bereich einer Ausgabebild-Anordnung unter Verwendung der vorher festgestellten Verschiebeinformation, so daß ein komplettes, verschobenes Bild erhalten wird, wenn die Plazierungen für alle Segmente abgeschlossen sind.

6. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß der ausgefüllte Vordruck (O) in wenigstens 16 Segmente je Seite von 210 x 297 mm Größe partitioniert wird.

7. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß die Partitionierung so durchgeführt, daß sich die Segmente an ihren Rändern um einen Abstand von je zwei Pixel überlappen.

8. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß die geschätzten optimalen Verschiebungen je Paar benachbarter Segmente auf Konsistenz geprüft werden durch Sicherstellen, daß ihre Differenz einen vorgegebenen Schwellenwert nicht übersteigt, und wenn doch, daß automatisch ein Verschiebungssteuerungsverfahren zur Abschätzung einer geeigneten Verschiebung aufgerufen wird.

9. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die digitale Darstellung der eingetragenen Informationen (VP) durch geeignete Verfahren komprimiert wird.

10. Verfahren gemäß irgendeinem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß alle Schritte mit den genannten binären Darstellungen in einem Byte-Format ohne Entpacken der einzelnen Bytes in ihre Pixelkomponenten ausgeführt werden.