DE3414455C2

DE3414455C2 - Verfahren und Vorrichtung zum Lesen und Verarbeiten von Information, die aus dekodierbarer Schriftinformation und/oder nichtdekodierbarer Graphikinformation besteht

Info

Publication number: DE3414455C2
Application number: DE3414455A
Authority: DE
Inventors: Peter-Michael Wollang
Original assignee: WOLLANG PETER MICHAEL
Current assignee: WOLLANG PETER MICHAEL
Priority date: 1983-04-26
Filing date: 1984-04-17
Publication date: 1996-04-25
Anticipated expiration: 2004-04-18
Also published as: DE3414455A1

Description

Die Erfindung betrifft ein Verfahren sowie eine entsprechende Vorrichtung zum Lesen und Verarbeiten von Information, die aus dekodierbarer Schriftinformation und/oder nichtdekodierbarer Graphikinformation besteht und als optisches Kon trastmuster auf einer Vorlage oder dergleichen angeordnet ist; bei dem die Vorlage oder vorbestimmte Teile davon in einem zeilenförmigen Punktraster abgetastet und ein entsprechendes Videosignal erzeugt und anschließend digitalisiert wird, wobei während jedes Abtastvorganges jeder Rasterpunkt (x_i, y_j) durch die laufende Koordinate x_i, i = 0, 1, 2, . . . M innerhalb der Rasterzeile y_j, j = 0, 1, 2, . . . N, bestimmt ist; und bei dem auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft wird, welches das Vorhandensein einer Schriftinformation meldet, dieses als Schriftfeld kennzeichnet und eine Positionskennung der Lage auf der Vorlage angibt. Ein solches Verfahren ist aus der DE 31 07 655 A1 bekannt.

Allgemein sind Verfahren und Vorrichtungen zum Beleglesen bekannt, bei denen ausgerichtete, vorzugsweise in Normgrößen vorgelegte Belege, Schriftstücke oder der gleichen maschinell gelesen werden können, wenn eine maschinenlesbare Schrift in vorgegebenen Erwartungs feldern auftritt. Als maschinenlesbare Schrift wird insbesondere eine oder mehrere der bekannten Klar schriften, zum Beispiel OCR-A oder OCR-B oder übliche Schreibmaschinenschriften verstanden. Im Decoder des Lesers zuvor nicht festgelegte Zeichenklassen werden ignoriert und gehen als Information verloren. Das Gleiche gilt für jede Art von Graphik- oder Bildin formationen, insbesondere auch von Unterschriften oder dergleichen, die ebenfalls von derartigen Klar schriftlesern nicht erkannt werden.

Ferner sind Verfahren und Vorrichtungen zum Lesen von Graphik/Bildinformationen und von Schriftinformationen bekannt, welche das auf einer Vorlage befindliche Kontrastmuster ausschließlich im Graphik-Mode, d. h. lediglich unter Zuhilfenahme, bekannter Informationen- Kompressionsverfahren komprimieren und abspeichern, bei diesen bekannten Verfahren/Vorrichtungen wird auch Schriftinformation auf diese Weise digitalisiert, wo durch insbesondere beim Auftreten größerer Mengen von Schriftinformationen ein unerwünscht großer Speicher bedarf erforderlich ist.

Aus der Literaturstelle IEEE Catalog: 6th International Conference on Pattern Recognition, Oktober 1992, Seiten 31 bis 33; 184 bis 187 und 339 bis 342 sind bereits Verfahren bekannt, die sich mit der Zeichenerkennung in OCR-Systemen bei linearer Abtastung befassen. Außerdem werden theoretische Betrachtungen der Bildtransformation und Blockkodierverfahren für die Datenkompression beschrie ben.

Aus der anfangs genannten DE 31 07 655 A1 ist ein Verfahren zum Auffinden und Abgrenzen von Textbereichen auf einer Vorlage, die Text-, Graphik- und/oder Bildbereiche enthalten kann, bekannt. Es werden Verfahrensschritte beschrieben, die sich mit dem Auffinden und dem Abgrenzen der Textbereiche beschäftigen. In einem ersten Schritt erfolgt eine optoelektronische Abtastung der Vorlage, in einem zweiten Schritt wird das enthaltene Videosignal digitalisiert, in einem dritten Schritt werden die Schwarz-Werte repräsentierenden Punkte nach einer vorgegebenen Regel vervielfacht, also zu einer Linie verlängert, in einem vierten Schritt werden in umgekehrter Richtung die Weiß-Werte repräsentierenden Punkte nach einem gleichartigen Verfahren zu einem Strich vorbestimmter Länge ausgedehnt, in einem fünften Schritt werden geringfügige Unstetigkeiten durch entsprechende Maßnah men unterdrückt, in einem sechsten Schritt wird geprüft, ob für Textbereiche charakteristische Merkmale vorhanden sind, in einem siebten Schritt werden mittels eines Flächenverfolgungsverfahrens die linksseitigen und rechtsseitigen Extrem koordinaten bestimmt und zu einer Liste zusammengefaßt, und schließlich in einem achten Schritt werden mittels statistischer Prüfverfahren diese Extremkoordinaten daraufhin untersucht, ob sie tatsächlich einen Textteil begrenzen. Es geht bei dieser Literaturstelle also nur um ein Verfahren zum Auffinden und Abgrenzen von Text bereichen.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung der eingangs genannten Art derart auszubilden, daß die Schriftinforma tion an einer beliebigen Stelle der Vorlage automatisch als solche erkannt und dekodiert wird und als Schriftcode-Signale mit der zugehörigen Positionskennung abspeicherbar ist, während alle anderen Bereiche als Graphik verarbeitet und abgespeichert werden.

Diese Aufgabe wird bei einem Verfahren der eingangs genannten Art gemäß der vorliegenden Erfindung dadurch gelöst, daß die zeilenförmige Abtastung in an sich bekannter Weise bei gegenüber der Abtastrichtung ausgerichteter Vorlage erfolgt; daß

a) die Prüfung, ob Schriftinformation vorliegt, anhand von l jeweils um eine oder mehrere Zeilen versetzten Rastersegmenten des digitalen Videosignals R_l (x_i, y_j; i = 0, 1, 2, . . . M; j = l, l + 1, . . . l+H-1)
mit l = 0, 1, 2, 3, . . . (N-H);
oder l = 0, 2, 4, 6, . . .;
oder l = 0, 3, 6, 9 . . .; etc.
und H = die einer Schriftzeile entsprechende Anzahl an Rasterzeilen erfolgt und
b) bei Erfüllung des Bewertungskriteriums für ein solches Rastersegment ein Schrift-Statuswort S_l gebildet wird, welches das betreffende Rasterseg ment als Schriftelement kennzeichnet und die eine Positionskennung (z. B. Koordinaten x₁, y_l) des Rastersegments R_l auf der Vorlage angibt; und daß
c) anschließend das digitale Videosignal der durch ein Schrift-Statuswort S_l gekennzeichneten Rastersegmente R_l dekodiert und in einem Schriftcode, alle anderen Bereiche des Rasters in einem Graphikcode unter Adressen abgespeichert werden, die den zugeordneten Rasterkoordinaten entspre chen.

Die Vorteile der Erfindung liegen insbesondere darin, daß Schriftinformation, die in beliebiger Position auf der Vor lage angeordnet ist, bei der um jeweils nur eine Raster zeile versetzten Rastersegment-Bildung erkannt wird, und daß für ein schriftenthaltendes Rastersegment eine Posi tions-Kennung und eine Schrift-Kennung zur Bildung eines entsprechenden Schrift-Statuswortes herangezogen werden, so daß dann ein an sich bekannter Klarschriftdekoder diese Schriftinformation dekodieren und diese Information in ei nem der bekannten Schriftcodes weiterverarbeiten und spei chern kann. Diejenigen Bereiche der Vorlage, die bei der Rasterelement-Bildung und der daran anschließenden Be wertungsprüfung nicht als Schrift erkannt werden, denen also kein Schrift-Statuswort zugeordnet wird, werden als Graphik behandelt und mit einer üblichen Graphik-Kompres sion digitalisiert und dann gespeichert. Mittels der Er findung wird daher Schriftinformation auf einer Vorlage stets als solche erkannt und dekodiert, während nur die tatsächlich mit Graphik belegten Bereiche der Vorlage in einem der bekannten Graphik-Digitalisierungen digi talisiert und abgespeichert werden. Die Lesegeschwindig keit ist bei diesem Verfahren/Vorrichtung insbesondere dann, wenn die Vorlage im wesentlichen Schriftinforma tion enthält, gegenüber den bekannten Graphik-Lesege räten wesentlich erhöht. Da Schriftinformation in ei nem Schriftzeichen-Code gespeichert wird, ist der ge samte Bedarf an Speicherplatz stark reduziert, wodurch eine aktenarme Belegverarbeitung erstmalig wirtschaft lich vernünftig möglich ist.

Bei dem alternativen Verfahren, bei welchem Klarschrift zeichen nur in vorgegebenen Zeilenfeldern auf der Vorlage zugelassen sind, wobei die Zeilenfelder einen vorgegebenen Zeilenabstand bzw. ein mehrfaches dieses Zeilenabstandes besitzen, werden erfindungsgemäß nur diese vorgegebenen Zeilenfelder als Rastersegmente gebildet und der Bewer tungsprüfung unterzogen. Die außerhalb der vorgegebenen Zeilenfelder liegenden Bereiche der Vorlage werden als Graphik behandelt; die vorgegebenen Zeilenfelder werden dagegen nur dann als Graphik behandelt, wenn bei der Be wertungsprüfung innerhalb des betreffenden Zeilenfeldes keine Schriftinformation erkannt wird. Auf diese Weise wird der erfindungsgemäße Bewertungsschritt zeitlich ab gekürzt.

Bevorzugt erfolgt die Abtastung der Vorlage parallel zu einer der Vorlagenkanten in Richtung der Schriftzeilen über die gesamte Breite der Vorlage hinweg. Sofern zur Bildung der Rastersegmente jeweils die volle Länge der Rasterzeilen verwendet wird, können auch nur volle Schriftzeilen als Schriftinformation erkannt werden. Befindet sich dagegen innerhalb einer Schriftzeile ein kurzer Teilabschnitt, welcher Graphik enthält, so wird die volle Schriftzeile als Graphik gewertet und ent sprechend verarbeitet.

Gemäß einer bevorzugten Ausführungsform der Erfindung werden daher die Rastersegmente aus R_l in Zeilenrich tung in mehrere Rasteruntersegmente R_Al, R_Bl, R_Cl, . . . unterteilt, wobei

R_El = R_Bl (x_i, y_j; i = A, A+1, . . . B; j = l, l+1 . . . l+H)

wobei A + B + C + . . . = M, d. h. die volle Zeilenlänge. Jedes Rasteruntersegment wird dann wie ein Rastersegment behandelt, insbesondere einzeln der Bewertungsprüfung unterzogen, um das Vorhandensein bzw. Nichtvorhandensein von Schriftinformationen zu prüfen. Dadurch ist es mög lich, die Grenze zwischen Schriftinformation und Graphik genauer zu detektieren; es lassen sich Teilstücke einer vollen Zeilenlänge als Schrift, andere Teilstücke als Graphik feststellen. Bei einer ausreichend feinen Unter teilung der Rastersegmente sind diejenigen Untersegmente, welche sowohl Graphik als auch Schrift enthalten und daher vollständig als Graphik behandelt werden, recht klein, so daß ein hoher Prozentsatz der Schriftzeichen tatsächlich als Schrift erkannt und entsprechend speicherplatzarm ver arbeitet werden kann.

Es kann zweckmäßig sein, den bei der Bewertungsprüfung ver worfenen Rasterzeilen oder Rasterzeilenstücke, die daher nicht Bestandteil einer Schriftzeichen-Zeile sind, mit je einem Graphik-Statuswort zu bezeichnen, welches eben falls eine Positionskennung und eine Graphik-Kennung ent hält. Diejenigen Rasterzeilen oder Rasterzeilenstücke, die bei der Bewertungsprüfung verworfen wurden, bei denen die Bewertungsprüfung jedoch keine Schwärzung innerhalb des zugehörigen Videosignals ergeben hat, werden vorteil hafter Weise mit einer Sonderkennung in ihrem Graphik- Statuswort versehen, welche diese Zeile als Leerzeile kennzeichnet, die der Graphik-Kompremierung gar nicht erst unterworfen werden muß. Umgekehrt läßt sich diese Sonderkennung beim Ausdrucken der abgespeicherten Vor lage dazu verwenden, um direkt ein Zeilenfortschaltsig nal beim Drucker zu erzeugen, welches diese Leerzeile direkt reproduziert.

Das Bewertungskriterium muß Bedingungen enthalten, wel che von der zu lesenden Klarschrift eingehalten werden. So enthält das Bewertungskriterium bevorzugt die Vor schrift, daß eine vorgegebener Anzahl oberer und unterer Leerzeilen schwärzungsfrei sind, und daß die zwischen den Leerzeilen vorhandenen Rasterzeilen eine über ihre Länge aufsummierte vorgegebene Mindestschwärzungssumme besitzt. Das Kriterium kann gewünschtenfalls dadurch ver feinert werden, daß für jede Rasterzeile zwischen diesen Leerzeilen der Schwärzungssummenwert jeweils in einem charakteristischen Bereich vorgegeben wird. Das Kriterium ist dabei so auszulegen, daß mit der gewünschten sehr hohen Wahrscheinlichkeit Klarschrift das Kriterium er füllt. In den Fällen, in welchen das Kriterium nicht er füllt wird, gleichwohl jedoch Zeicheninformation über die Länge des Rastersegments oder -untersegments vorhan den ist, wird dann auch die Zeicheninformation als Graphik digitalisiert und steht dann nachteilhafterweise nicht mehr als Schriftcode-Signal zur Verfügung. Neben dem hö heren Informationsanfall, der durch die Graphik-Verar beitung bedingt ist, kann nachteilhafterweise auf die so abgelegten Zeichen bei maschineller Weiterverarbei tung der Textinformationen nicht mehr zurückgegriffen werden. Der umgekehrte Fall, daß auf Schriftinforma tion erkannt wird obgleich Graphikinformation vorliegt, ist insofern unschädlich als der dann aktivierte Klar schriftdekoder die Dekodierung verweigert und erfin dungsgemäß die Verarbeitung automatisch dann an den Graphik-Kompressor abgibt.

Das Bewertungskriterium kann so ausgelegt werden, daß es spezifisch für jeweils eine bestimmte Schrifttype ist. Werden daher mehrere Schrifttypen auf einer oder aufeinanderfolgenden Vorlagen eingesetzt, so wird er findungsgemäß - bei Verwendung Schrifttypen spezifischer Bewertungskriterien - jeweils noch eine Schrifttypen-Ken nung in das Schrift-Statuswort eingegeben, welches be wirkt, daß jeweils der richtige aus mehreren Klarschrift dekodern die Dekodierung vornimmt.

Die Statuswörter können neben der Positionskennung, der Schrift- bzw. Graphik-Kennung und gegebenenfalls der Schrifttypen-Kennung noch weitere Elemente enthalten, welche zur Steuerung von Baueinheiten des Lesers dienen.

Beim Lesen und Speichern der Vorlagen werden bevorzugt die zur Erzeugung des Abtastrasters benötigten Raster- Koordinatensignale auch als den jeweiligen Ortkoordina ten zugeordnete Adressen verwendet. Mit dem Durchlauf des Punktrasters wird daher auch eine volle Durchadres sierung vorgenommen, die bei bestimmten Positionsken nungen, d. h. bei bestimmten Adressen, zur Bildung von Schrift-Statuswörtern führt, welche unter diesen Adres sen speicherbar sind. Mit einem Rasterdurchlauf werden unter den jeweils zugeordneten Adressen die Schrift- Statuswörter und - sofern vorhanden - die Graphik-Sta tuswörter - und ebenfalls das zugeordnete dekodierte oder als Graphik digitalisierte Videosignal abgespei chert. Wird ein Auslesevorgang oder ein Ausdruckvor gang der gelesenen Information gewünscht, so erzeugt ein Durchlauf durch die Adressen eine Auslesung der Statuswörter sowie eine Auslesung der dekodierten bzw. als Graphik digitalisierten Video-Information, die dann unter der Steuerung durch die Statuswörter ent weder als Schriftzeichen oder als Graphik angezeigt oder ausgedruckt wird.

Eine Vorrichtung zur Durchführung des Verfahrens ist durch die Merkmale des Anspruches 18 gekennzeichnet.

Der Zeilen-Stapel Speicher ist bevorzugt über die Länge der Rasterzeile in mehrere Speicheruntersegmente unter teilt, für die jeweils separat die Erfüllung des Bewertungs kriteriums geprüft wird, wobei jedem Speicheruntersegment ein eigenes Koordinatenregister zugeordnet ist, welches die Positionskennung der jeweils in den Speicherunterseg menten enthaltenen Rasteruntersegmente speichert und zur Bildung des zugehörigen Statuswortes an das Status- Bildungsregister abgibt. Als Positionskennung speichert jedes Koordinatenregister bevorzugt die Koordinate des Anfangspunktes der im Zeilen-Stapelspeicher jeweils obersten oder untersten Rasterzeile.

Der Zeilen-Stapelspeicher besteht bevorzugt aus mehreren einzelnen Zeilenregistern, deren Speicherplätze gleich der Zahl der in einer Rasterzeile liegenden Rasterpunkte ist, und denen Information seriell vom ersten Speicher platz am Anfang jedes Zeilenregisters bis zum letzten Speicherplatz am Ende des Zeilenregisters eintaktbar ist. Der Anfang jedes Zeilenregisters ist mit dem Ende des nächsten Zeilenregisters verbunden. Zwischen dem Ende einer Zeile und dem Anfang der nächst höheren Zeile be findet sich jeweils ein Teil der Bewertungsschaltung, welche das Videosignal des betreffenden Zeilenregisters beim Übertrag in das nächsthöhere Zeilenregister durchläuft. Während des Durchlaufs des Videosignals aus einem Zeilen register addiert eine Summierschaltung alle eine Schwärzung kennzeichnende Amplituden auf und bildet auf diese Weise das Schwärzungssummensignal der in das nächst höhere Zeilenregister eingetaktete Zeile. Auf diese Weise erzeugt die Bewertungsschaltung für jede Zeile des Zeilenstapels das Schwärzungssummensignal des gerade in der betreffenden Zeile eingetakteten Videosignals. Die Bewertungsschaltung ermittelt also jeweils die Verteilung der Schwärzungssummensignale als Funktion der Zeilen inner halb des gerade abgespeicherten Rastersegments. Sofern diese Verteilung der Schwärzungssummensignale einer vorge gebenen Verteilung entspricht, erkennt die Bewertungs schaltung auf "Schriftinformation" und gibt ein Schrift- Kennungssignal an das Steuerwort-Bildungsregister ab. Das Bewertungskriterium ist dabei so ausgewählt, daß die Schriftzeile mittig im Zeilen-Stapelregister angeordnet ist. Wird auf diese Weise Schriftinformation erkannt, so wird der Inhalt des Zeilen-Stapelregisters in einem parallelen Transfer an einen Arbeitspuffer übertragen, aus dem ein Klarschriftdekoder dann dekodiert.

Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der Unteransprüche gekennzeichnet.

Im folgenden wird ein Ausführungsbeispiel der Erfindung anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1 eine Vorlage mit aufgedruckter Schrift- und Graphikinformation;

Fig. 2 eine Maske einer herkömmlichen maschinen lesbaren Schrift mit einem Zeichen;

Fig. 3 eine schematische Darstellung, welche die Bewertung und die Statuswort-Bildung des erfindungsgemäßen Verfahrens während der Abtastung einer Vorlage erläutert;

Fig. 4 das digitale Videosignal längs einer Raster zeile;

Fig. 5 ein schematisches Blockschaltbild einer er findungsgemäßen Vorrichtung;

Fig. 6 ein Blockschaltbild des Leseteils der Vor richtung der Fig. 5;

Fig. 7 ein Blockschaltbild des Auswerte- und Spei cherteils gemäß Fig. 5;

Fig. 8 eine schematische Darstellung des Zeilen- Stapelspeichers;

Fig. 9 eine schematische Darstellung der Bewertung eines Rasteruntersegments;

Fig. 10 a-c schematische Darstellungen der Bewertung ver schiedener Rasteruntersegmente;

Fig. 11 eine schematische Darstellung zur Untersegmen tierung von Rastersegmenten;

Fig. 12 eine schematische Darstellung der Arbeitsweise eines Zeilen-Stapelspeichers;

Fig. 13 eine schematische Darstellung des Arbeits puffers;

Fig. 14 eine schematische Darstellung der Graphik- Kompression.

Fig. 15 ein Blockschaltbild einer Erweiterung des Auswerte- und Speicherteils gemäß Fig. 7.

Fig. 1 zeigt eine Vorlage 2, die sich kantenparallel auf einem Lesefenster eines Lesegerätes befindet. Die Vorlage, z. B. ein bedrucktes Papierblatt od. dgl., ent hält Schrift-Zonen 4, die ausschließlich mit Maschinen lesbarem Klartext, z. B. einer OCR-A- oder OCR-B-Schrift bedruckt sind. Daneben sind auf der Vorlage Grafik-Zonen 6 vorhanden, die ein nichtdekodierbares Kontrastmuster, z. B. einen handgeschriebenen Text, eine Zeichnung, mathe matische Formeln, Signatur od. dgl. enthalten. Außerdem sind Freizonen 8 vorhanden, die weder Grafik- noch Schriftinformation enthalten. Diese Vorlage wird von einem Bildsensor, z. B. einem Vidikon oder einem Flying- Spot-Abtaster bzw. einer Diodenmatrix in einem zeilen förmigen Raster abgetastet, wobei die Rasterzeilen in Richtung der Schriftzeilen, d. h. parallel zur oberen Kante der Vorlage 2 verlaufen. Die Rasterzeilen ver laufen also in dem eingezeichneten Koordinatensystem in x-Richtung, äquidistante Punkte längs einer Rasterzeile werden als Rasterpunkte x_i bezeichnet, wobei i = 0, 1, 2, . . . M. Die Rasterzeilen sind mit je einer Koordinate y_j be zeichnet, wobei j = 0, 1, 2, . . . N, wobei die oberste Zeile mit y_o bezeichnet ist. Jeder Rasterpunkt ist auf diese Weise durch laufende Koordinaten x_i, y_j gekennzeichnet. Der Koordinatenursprung x_o, y_o muß dabei nicht, wie in Fig. 1 dargestellt, mit einer Ecke oder einem anderen Punkt der Vorlage zusammenfallen, er kann alternativ auch außerhalb der Vorlage 2 liegen.

Fig. 2 zeigt ein Zeichenfeld, auch Maske genannt, eines Zeichens einer herkömmlichen Maschinen lesbaren Schrift, z. B. der OCR-A oder OCR-B. Ein solches Zeichen feld besteht aus H Rasterzeilen, wobei z. B. H = 40 ist. In jeder Rasterzeile befinden sich L-Bildpunkte, wobei z. B. L = 32. Die Zeichen sind ein vorgegebenes Maß kleiner als ein Zeichenfeld, so daß über und unter je dem Zeichen einheitlich eine vorgegebene Anzahl an nichtbedruckten Rasterzeilen vorhanden sind.

Fig. 3 zeigt schematisch die Erzeugung von Statuswörtern S, G während der Abtastung der Vorlage mittels des Bild sensors. Nach dem vorliegenden Verfahren wird das digi tale Videosignal von 1 jeweils um eine, in Sonderfällen auch um mehrere Zeilen versetzten Rastersegmente R_l (x_i, y_j) zwischengespeichert, wobei jedes Rastersegment jeweils H-Rasterzeilen enthält. Das nullte Rastersegment R_o (x_i, y_j) besteht somit aus den Rasterzeilen y_o, y₁, y₂ . . . y_H-1. Das erste Rastersegment R₁ (x_i, y_j) besteht aus den Zeilen y₁, y₂, y₃ . . . y_H. Das zweite Raster segment R₂ (x_i, y_j) enthält die Zeilen y₂, y₃ . . . y_H+1, das l-te Rasterelement R_l besteht aus den Zeilen y_l, y_l+1 . . . y_l+H-1, etc. Wenn also in den Zwischenspeicher eine neue untere Rasterzeilen y_l+H eingelesen wird, gibt der Zwischenspeicher die obere Zeile y_l ab. Der artig segmentiert, d. h. mit um jeweils eine, in Sonder fällen um mehrere Zeilen sich überlappende Rastersegmente wird die gesamte Vorlage zwischengespeichert, wobei die Rastersegmente R_l, mit 1 = 0, 1, 2, . . . (N-H) in Zeilen richtung selbst in mehrere Raster-Untersegmente unter teilt sein können, wobei das erste Untersegment die Rasterpunkte 0, 1, 2 . . . A-1, das zweite Rasterunter segment anschließend die Rasterpunkte A, A + 1, . . . D-1, etc. enthält und die in Zeilenrichtung aneinan der grenzenden Rasteruntersegmente mit R_Al, R_Bl, R_Cl bezeichnet sind und jeweils gleichzeitig in entsprechen den Speicheruntersegmenten zwischengespeichert werden.

Die nacheinander gespeicherten Rastersegmente bzw. die Rasteruntersegmente werden auf die Erfüllung min destens eines Bewertungskriteriums hin geprüft, welches das Vorhandensein einer Schriftinformation innerhalb des jeweiligen Rastersegments bzw. -untersegments meldet, wie noch näher in Verbindung mit Fig. 9 und 10 er läutert wird. Bei Erfüllung des Bewertungskriteriums wird für das betreffende Rastersegment bzw. -unterseg ment ein Schrift-Status-Wort S_l bzw. S_Al S_Bl, etc. ge bildet, welches das betreffende Rastersegment bzw. -un tersegment als Schriftelement kennzeichnet und eine Positionskennung enthält, die die Position des betref fenden Rastersegments bzw. -untersegments auf der Vorlage angibt. Die Positionskennung wird z. B. durch ausgezeichnete Koordinaten der im Rastersegment enthal tenen Rasterpunkte, insbesondere durch den ersten Rasterpunkt der zu oberst gespeicherten Rasterzeile an gegeben. Wird dagegen das Bewertungskriterium nicht er füllt, so wird aus dem Zwischenspeicher die jeweils oberste Rasterzeile bzw. aus den Speicheruntersegmenten die betreffenden Rasterzeilenstücke abgegeben und bei ihrer Abgabe ein Grafik-Statuswort G_l bzw. G_Al, G_Bl etc. erzeugt, welches die Zustandskennung und die Positions kennung der betreffenden Rasterzeile bzw. des betreffen den Rasterzeilenstücks enthält.

Werden also Rasterzeilen oder Rasterzeilenstücke aus dem Zwischenspeicher abgegeben, weil in dem zwischenge speicherten Rastersegment bzw. Rasteruntersegment das Bewertungskriterium für Schrift nicht erfüllt ist, so wird jeweils ein entsprechendes Grafik-Statuswort er zeugt und ist den betreffenden Rasterzeilen bzw. -zeilen stücken zugeordnet. Wird dagegen von einem Rastersegment oder -untersegment das Bewertungskriterium für Schrift erfüllt, so wird ein Schrift-Statuswort erzeugt, wel ches eine Zustandskennung ("Schrift vorhanden") und eine Positionskennung für das betreffende Rasterseg ment bzw. -untersegment enthält, wie in Fig. 3 darge stellt ist. Je nach Statuswort wird das zugehörige digitale Videosignal entweder als Schrift dekodiert, andernfalls als Grafik komprimiert und dann zusammen mit den zugeordneten Rasterpunkt-Koordinaten und den zugeordneten Statuswörtern in einem Ausgabespeicher ab gespeichert.

Fig. 4 zeigt das Kontrastmuster auf der Vorlage längs einer Rasterzeile. Unmittelbar darunter ist das entsprechende Videosignal in digitaler Form ebenfalls längs der Raster zeile, als Funktion der Rasterpunkt-Koordinate x_i auf ge tragen. Dunklen Bereichen innerhalb einer Rasterzeile ist im vorliegenden Beispiel die Amplitude "1" zugeord net, hellen Bereichen die Amplitude "0". Für die nächste Rasterzeile schließt sich ein entsprechender weiterer Abschnitt dem Videosignals an.

Fig. 5 zeigt ein Blockschaltbild einer Vorrichtung zur Durchführung des anhand Fig. 3 erläuterten Verfahrens. Die Vorrichtung enthält einen Leseteil 12, der eine Sensoreinheit zum Abtasten der Vorlage 2 in dem zeilen förmigen Raster, sowie die zugehörige Ablenkelektronik, und die Umsetzung des Videosignals in ein digitales Videosignal enthält, vergleiche auch Fig. 6. Über eine Lese- Schnittstelle 13 ist ein Auswerteteil 14 angeschlossen, der einen Prozessor für die Ablaufsteuerung und einen weiteren Prozessor für die Bedienung einer Ausgabe- Schnittstelle enthält, welche den Auswerteteil 14 mit einem Ausgabe-Gerät, z. B. einem Drucker oder einem Bild schirm verbindet. Der Auswerteteil 14 ist ferner mit der Bedienungskonsole 16 und gegebenenfalls mit einem Korrekturarbeitsplatz 18 verbunden.

In Fig. 6 ist der Leseteil 12 als Blockschaltbild dar gestellt. Als Sensor ist im dargestellten Beispiel eine Flying-Spot-Abtaströhre vorgesehen , deren Abtaststrahl mittels einer Ablenkelektronik 26 in dem zeilensequen tiellen Raster x, y und durch eine Optik 22 auf die Lesefläche 20 gerichtet wird. Der reflektierte Abtast strahl trifft auf einen Photomultiplier 28, welcher das reflektierte optische Hell/Dunkel-Signal in ein elektrisches analoges Videosignal umsetzt. Das analoge Videosignal wird vom Videoverstärker 30 verstärkt und anschließend in einem Analog/Digital-Wandler 36 in das digitale Videosignal umgewandelt. Die Ablenkelektro nik 26 gibt zu jedem Zeitpunkt die Rasterpunkt-Koor dinaten x_i, y_j zusammen mit der jeweils zugeordneten Amplitude des digitalen Videosignals an die weitere Schaltung ab. Vorgesehen ist ferner zwischen dem Video verstärker 30 und dem Analog/Digital-Wandler 36 eine Kontrastautomatik 34, die das analoge Videosignal auch bei verringertem Hell/Dunkel-Kontrast der Druckvorlage die zur Digitalisierung erforderlichen ausreichenden Amplitudenwerte zuordnet.

Fig. 7 zeigt ein Blockschaltbild des Auswerteteils 14 der Fig. 5. Der Auswerteteil 14 enthält einen Graphik- Digitalisierer 54 und einen Klarschriftdekoder 52, die abwechselnd das vom Leseteil 12 gelieferte digitale Videosignal empfangen und digitalisiert bzw. als de kodierte Schriftsignale an einen Ausgabespeicher 56 abgeben.

Vorgesehen ist ferner eine zentrale Steuereinheit 40, zur Steuerung des zeitlichen Ablaufs der Gewinnung sowie der Verarbeitung des Videosignales.

Der Video-Ausgang des Leseteils 12 ist mit dem Graphik- Digitalisierer 54 verbunden, dessen Ausgang in den Ausgabespeicher 56 führt. Der Videoausgang des Leseteils 12 ist ferner mit einem Zeilen-Stapelspeicher 44 ver bunden, dessen Ausgang in einen Arbeitspufferspeicher 47 führt, der über den Klarschriftdekoder 52 ebenfalls an den Ausgabespeicher 56 angeschlossen ist. Der Inhalt des Zeilen-Stapelspeichers 44 besteht jeweils aus einer vorgegebenen Anzahl H an aufeinanderfolgenden Raster zeilen, die zusammen als Rastersegmente R_l bezeichnet sind und jeweils zusammen in einer Bewertungsschaltung 46 einer Bewertung unterzogen werden, die Auskunft darüber gibt, ob in dem betreffenden Rastersegment aus schließlich Schriftinformation enthalten ist. Der Aus gang der Bewertungsschaltung 46 ist mit einem Steuer wort-Bildungsregister 48 verbunden, das seinerseits mit einer Zustandssteuerung 50 verbunden ist, die den Klarschriftdekoder 52 steuert.

Die Rasterpunkt-Koordinaten werden vom Leseteil 12 an ein Koordinatenregister 42 abgegeben, welches den Zeilen- Stapelspeicher 44 adressiert, und dessen Ausgang mit dem Steuerwort-Bildungsregister 48 und mit dem Ausgangs speicher 56 verbunden ist. Die Zustandssteuerung 50 ist ferner mit dem Grafik-Digitalisierer 54 verbunden und steuert je nach dem Inhalt des von dem Steuerwort- Bildungsregister 48 erhaltenen Steuerwort entweder den Klarschriftdekoder 52 oder den Grafik-Digitalisierer 54 in einen aktiven Zustand.

Die Rasterpunkt-Koordinaten werden auch zur Adressie rung bzw. zum Eintakten des digitalen Videosignals in dem Zeilen-Stapelregister 44 verwendet. Erkennt die Bewertungsschaltung 46, welche das jeweils im Zeilen- Stapelregister 44 enthaltene Videosignal der H-Raster- Zeilen auf "Schrift" bzw. "Grafik" bewertet, daß in dem bewerteten Rastersegment ausschließlich Schriftinfor mation enthalten ist, so werden die das gerade bewertete Rastersegment kennzeichnende Koordinaten, z. B. die An fangskoordinaten des betreffenden Rastersegments, im Koordinatenregister 42 gespeichert und als Positions kennung an das Steuerwort-Bildungsregister 48 abgegeben, welches von der Bewertungsschaltung 46 eine Status- Kennung "Schrift" enthält. Das Steuerwort-Bildungsregi ster 48 bildet dann ein Schrift-Statuswort S_l, l = 0, 1, 2, . . ., welches die Positionskennung und die Status kennung für das betreffende Rastersegment R_l enthält. Das Statuswort wird an die Zustandssteuerung 50 abgegeben, die daraufhin das im Zeilen-Stapelspeicher 44 enthaltene Videosignal in dem nachgeschalteten Arbeitspuffer 47 abspeichert, woraufhin der Klarschriftdekoder 52 akti viert und der Grafik-Digitalisierer 54, welcher auch das entsprechende Videosignal empfangen hat, deaktiviert wird. Im Klarschriftdekoder 52 wird das empfangene Video signal dekodiert und als Schriftzeichen-Signal im Aus gabespeicher 56 unter den vom Koordinatenregister 42 bestimmten Adressen abgespeichert. Ebenfalls wird unter diesen Adressen das jeweilige Statuswort abgespeichert. Wird dagegen im aktuellen Rastersegment in der Bewer tungsschaltung 46 nicht auf "Schrift" erkannt, so gibt der Zeilen-Stapelspeicher 44 seine oberste bzw. unterste Zeile 1 ab und erhält eine neue unterste bzw. oberste l + H zugeführt, woraufhin das neue Rastersegment R_l+1 bewertet wird. Bei Abgabe einer Rasterzeile, d. h. bei Nichterkennung von Schrift gibt die Bewertungsschaltung 46 ein den Zustand "Grafik" kennzeichnendes Signal an die Zustandssteuerung 50 ab, die vom Koordinatenregister 42 die zugehörigen Koordinaten erhält und damit ein Grafik-Statuswort G_l bildet.

Fig. 8 zeigt schematisch einen Zeilen-Stapelspeicher 44, der über die Länge einer Rasterzeile in mehrere aneinan der angrenzende Untersegmente 43A, 43B, 43C etc. unter teilt ist, wobei die Untersegmente in Zeilenrichtung alle dieselbe Anzahl an Rasterpunkten aufnehmen, d. h. die selbe Länge besitzen. Als Positionskennung der einzelnen in den Untersegmenten 43A, 43B, 43C jeweils gespeicher ten Raster-Untersegmente R_Al, R_Bl, R_Cl etc. wird je weils der erste Rasterpunkt x_A, x_B, x_C und jeweils die oberste gespeicherte Zeilennummer y_l im Koordinatenre gister 42 gespeichert und verfügbar gehalten. Die ein zelnen Rasteruntersegmente in den Speicher-Untersegmen ten werden parallel oder nacheinander in der Bewertungs schaltung 46 bewertet, und für jedes Raster-Untersegment bzw. für jedes aus einem Speicher-Untersegment verworfene Teilstück einer Rasterzeile wird ein eigenes Statuswort S, G gebildet, und zusammen mit Koordinateninformation sowie mit dem digitalisierten Videosignal (Grafik) bzw. dem Schrift-Codesignal (Schrift) gespeichert.

Die Fig. 9 und 10 zeigen je ein Raster-Untersegment mit der in diesem Segment enthaltenen Schrift- oder Grafik-Information. Dargestellt ist ferner für jedes Zeilenstück dieses Raster-Untersegments ein Schwärzungs- Summensignal, welches sich durch Summation der in der betreffenden Zeile enthaltenen Dunkel-Amplituden ergibt. Befinden sich z. B. in einem Rasterzeilen-Teilstück vier Dunkel-Amplituden, wie z. B. in der Zeile x₃, so hat das Schwärzungs-Summensignal für diese Zeile den Wert 4. Befinden sich dagegen in der Zeile x₁₀ nur zwei Dunkel- Amplituden, so besitzt das Schwärzungs-Summensignal für diese Zeile den Wert 2 etc. Deutlich erkennbar ist es, daß - je nach der Norm der verwendeten Schrift zeichen - jeweils eine Anzahl oberer und unterer Zeilen keine Schwärzung enthält, sofern nur Schriftinfor mation in diesem Raster-Untersegment vorhanden ist. Das Schwärzungs-Summensignal ist für diese Randzeilen dann Null. Als Bewertungskriterium für "Schrift" wird nun eine bestimmte Verteilung des Schwärzungs-Summensignals als Funktion der Zeilennummern des betreffenden Raster- Untersegments vorgeschrieben. Im dargestellten Beispiel ist das Kriterium dann erfüllt, wenn in den oberen und unteren vier Zeilen jeweils das Schwärzungs-Summensignal 0, in den restlichen mittleren Zeilen dagegen ein vorgegebener Mindestwert vom Schwärzungs-Summensignal überschritten wird. Das Bewertungskriterium läßt sich verfeinern. Insbesondere läßt sich eine Verteilung der Schwärzungs-Summen als Funktion der Zeilennummern ange ben, die überschritten werden muß und/oder eine weitere Verteilung, die nicht überschritten werden darf, damit die Information als "Schrift" erkannt werden soll.

Die Fig. 10a bis 10c zeigen weitere Beispiele der Verteilung des Schwärzungs-Summensignals in Raster-Unter segmenten als Funktion der Zeilennummer. Fig. 10a gibt eine Verteilung für "Grafik" wieder, deren Kennzeichen es ist, daß auch die oberen und unteren Randzeilen Schwärzung besitzen, und daß darüber hinaus die Vertei lung der Schwärzungssumme als Funktion der Zeilennummer stark schwankt. Fig. 10b zeigt eine weitere Vertei lung des Schwärzungs-Summensignals als Funktion der Zeilennummer bei einem Raster-Untersegment, welches sowohl Grafik- als auch Schriftinformation enthält. Da im unteren Bereich eine Schwärzung vorhanden ist, wird das Kriterium für Schrift nicht erfüllt, es wird viel mehr auf "Grafik" erkannt. Fig. 10c zeigt einen Sonder fall, nämlich ein Raster-Untersegment, bei dem keiner lei Schwärzung auftritt. Das Schwärzungs-Summensignal bleibt daher für alle Zeilen unter seinem bestimmten Mindestwert. Es wird auf "Leerfeld" erkannt und ein entsprechendes Statuswort erzeugt, welches z. B. eine Leer-Information unter Umgehung des Grafik-Digitalisie rers 54 und des Klarschrift-Dekoders 52 in den Ausgabe speicher schreibt.

Allerdings läßt sich mit derartigen Bewertungskriterien nicht mit 100%iger Sicherheit ausschließen, daß Grafik information bei entsprechender Anordnung der Grafik als "Schrift" bewertet wird. In diesem Fall wird das Videosignal über den Arbeitspuffer 47 dem Klarschrift- Dekoder 52 zugeführt, der dann keine Schriftzeichen erkennen kann und die Dekodierung beendet. Für diesen Fall wird dann automatisch der Grafik-Digitalisierer aktiviert. Umgekehrt ist es möglich, daß vorhandene Schrift als Grafik bewertet wird und dann über den Grafik-Digi talisierer digitalisiert und abgespeichert wird. Die auf diese Weise gespeicherte Information ist zwar auf eine Vorlage oder einen Bildschirm auswerfbar, sie steht jedoch nicht in einem üblichen Schriftcode zur Datenfernübertragung zur Verfügung und könnte nur im Grafik-Mode übertragen werden.

Fig. 11 zeigt den Sonderfall, daß bei zwei aufeinan derfolgenden Raster-Untersegmenten, z. B. R_Dl, R_El, die gemeinsame Grenze ein Schriftzeichen in zwei Teile teilt. Ein Teil dieses Zeichens liegt im Rasterunter segment R_Dl, welches bei der Bewertung das Kriterium für "Schrift" erkennt. Der andere Teil liegt im Raster- Untersegment R_El, welches im dargestellten Beispiel ebenfalls bei der Bewertung das Kriterium "Schrift" erfüllt. Um zu verhindern, daß der Klarschrift-Dekoder 52 am Ende des Raster-Untersegments R_Dl bei Ankunft an dem geteilten Zeichen die Dekodierung beendet und auf Grafik-Komprimierung umschaltet, und um ferner zu verhindern, daß der Klarschrift-Dekoder beim Raster- Untersegment R_El den zu Anfang stehenden Zeichenteil nicht erkennt und damit die Dekodierung nicht anfängt, sondern sofort den Grafik-Digitalisierer 54 aktiviert, werden zweckmäßigerweise mehrere aufeinanderfolgende Raster-Untersegmente, die alle mit "Schrift" bewertet sind, zu einem Schriftfeld zusammengefaßt, das durch ein Schriftfeld-Statuswort SF_l gekennzeichnet wird. Der artige Schriftfeld-Rastersegmente werden als Einheit in dem Arbeitspuffer 47 abgespeichert, so daß die von benachbarten Rastersegmenten erfaßten Teile von Schrift zeichen im Arbeitspuffer wieder zu einem vollständigen Zeichen zusammengesetzt werden, welches vom Dekoder 52 auch dekodiert wird. Auf diese Weise wird verhindert, daß der Dekodiervorgang an einer Grenze benachbarter Raster-Untersegmente, die beide ein Schrift-Status wort S_Dl, S_El besitzen, beendet wird.

Fig. 12 zeigt die Organisation eines Zeilen-Stapel registers, welches aus H Zeilenregistern 60 besteht. Der Anfang jedes Zeilenregisters 60 ist mit dem Ende des nächsten Zeilenregisters verbunden. Vor dem ersten Zeilenregister 60 liegt ein Einlese-Zeilenregister 62. Die Zeilenregister 60, 62 sind z. B. als Schieberegister ausgebildet und erhalten die Rasterpunkt-Koordinaten x_i, y_j vom Leseteil als Taktsignal, und sie erhalten am Eingang des Einlese-Zeilenregisters 62 das digitale Videosignal vom Leseteil 12 zugeführt. Bei Abtastung einer Rasterzeile wird das dabei erhaltene digitale Videosignal in die Einlesezeile des Zeilen-Stapel speichers 44 eingetaktet. Beim Abtasten der nächsten Zeile wird die zuvor eingelesene Zeile in das nächst höhere Zeilenregister 60 übertragen und die neue Raster zeile in die Einlesezeile 62 eingelesen, etc. Dieser Arbeitszyklus hat zur Folge, daß bei jedem Einlesen einer neuen Rasterzeile der Inhalt der obersten Raster zeile des Zeilen-Stapelspeichers 44 abgegeben wird.

Neben dem Zeilen-Stapelspeicher 44 ist die Bewertungs schaltung 46 dargestellt, die so an die einzelnen Zei lenregister 60 angeschlossen ist, daß der Inhalt jedes Zeilenregisters bei seinem Übertrag in das nächsthöhere Zeilenregister die Bewertungs-Schaltung 46 durchläuft, die an jedem Eingang ein Summierglied enthält, welches beim Durchtakten des Videosignals aus dem davor liegen den Zeilenregister die Dunkel-Amplituden aufsummiert und auf diese Weise das Schwärzungs-Summensignal für die Rasterzeile bildet, welche in dem davor liegenden Zeilenregister jeweils gespeichert ist. In der Bewer tungs-Schaltung sind auf diese Weise stets die Schwär zungs-Summen aller im Zeilen-Stapelspeicher 44 aktuell gespeicherten Rasterzeilen bzw. Rasterzeilen-Stücke gebildet, und es läßt sich mittels den einzelnen Zeilen zugeordneter Hardware leicht feststellen, ob ein Be wertungskriterium, d. h. eine Verteilung der Schwärzungs- Summen eingehalten wird.

Die Bewertungsschaltung 46 entscheidet über die Art der Weiterverarbeitung der im Stapelspeicher 44 - und parallel auch im Grafik-Digitalisierer - enthaltenen Information. Wird ein Rastersegment bzw. Rasterunter segment als "Schrift" bewertet, so werden alle Zeilen parallel in den Arbeitspuffer 47 eingelesen, dessen Organisation in Fig. 13 dargestellt ist. In dem Ar beitspuffer 47 werden dann vom Klarschrift-Dekoder 52 mittels einer Auslesesteuerung die einzelnen Schrift zeichen auf bekannte Weise dekodiert. Z.B. wird der Inhalt des Arbeitspuffers 47 Zeichen für Zeichen mit der genormten Feldgröße ausgelesen, vergleiche auch Fig. 2, und im Dekoder mit einem bekannten Dekodier-Algo rithmus in einen bekannten Schrift-Code umgesetzt, der an den Ausgabespeicher 56 abgegeben wird.

Erkennt dagegen die Bewertungsschaltung 46, Fig. 12, keine Schrift, so wird die oberste Zeile des Stapel speichers 44 ausgegeben, eine neue Rasterzeile einge lesen, die Inhalte der Zeilenregister werden in das nächsthöhere Zeilenregister übertragen. Gleichzeitig wird ein Grafik-Statuswort G_l für diese Rasterzeile ge bildet, und es wird der Grafik-Digitalisierer 54 ak tiviert, der die abgegebene Zeile digitalisiert, die der Grafik-Digitalisierer entweder direkt vom Leseteil 12 erhalten hat (wie dargestellt) bzw. die dem Grafik- Digitalisierer von dem Stapelspeicher zugeführt wird (nicht dargestellt).

Der Grafik-Digitalisierer 54 enthält einen der bekann ten Grafik-Kompressionsschaltungen, welche nach einem der bekannten Kompressionsverfahren arbeitet, so z. B. nach dem sogenannten Lauflängen-Kompressionsverfahren, welches in Fig. 14 an einem Beispiel dargestellt ist. Das Kontrastmuster innerhalb der zu digitalisierenden Rasterzeile wird bei diesem Verfahren dadurch eindeu tig festgelegt, daß jeweils der Beginn und die Länge bzw. das Ende auftretender Dunkel-Amplituden koordina tenmäßig erfaßt und im Ausgabespeicher abgespeichert werden. Jede Zeile wird dabei unabhängig von benach barten Zeilen komprimiert.

In den Fig. 6 und 12 sind Anschlüsse an die zen trale Steuereinheit 40 jeweils mit eingetragen. Derartige Verbindungen an die zentrale Steuerein heit sind je nach dem zeitlichen Ablauf eines Ge samtlesevorganges vorgesehen. Neben den dargestellten Anschlüssen sind je nach Organisation dieser Steuerung noch weitere, nicht dargestellte Anschlüsse möglich.

Wünscht der Benutzer, abgelegte Dokumente ohne Kennt nis der speziellen Dokumenten-Kennung, z. B. der Doku menten-Nummer oder dergleichen, aus dem Ausgabespeicher 56 auszulesen und zu diesem Zweck einem hierfür geeig neten Drucker oder Bildschirm zuzuführen, so muß bei Vorgabe eines bekannten Vergleichsdokumentes ein assozia tives Suchen nach ähnlichen abgelegten Dokumenten durch geführt werden. Es soll dann möglich sein, nach Dokumen ten bzw. Klassen von Dokumenten zu suchen, welche be stimmte vorgegebene Merkmale aufweisen, die durch das bestimmte Vergleichsdokument vorgegeben sind. Auf diese Weise wird die Menge, unter der sich das gesuchte Doku ment befinden kann, eingegrenzt. Soll zum Beispiel ein bestimmtes Dokument gesucht werden, welches in einer nach Größe und Lage vorgegebenen Teilfläche eine Unter schrift enthält, so können alle diejenigen abgelegten Dokumente ermittelt werden, die in diesem Feld mit hoher Wahrscheinlichkeit ein ähnliches Unterschriftsfeld auf weisen.

Assoziative Speicher sind bekannt, die dazu dienen, be stimmte Muster oder Dokumente aufzufinden, von denen Teile bekannt sind. Das abgespeicherte Dokument wird durch Vergleich mit dem - mindestens "ähnlichen" - Ver gleichsmuster bestimmt und ausgegeben. Der Vergleich er folgt durch Korrelation des abgespeicherten Dokumentes mit dem Vergleichsdokument. Nur für ähnliche Muster ergibt die Korrelation einen Korrelationswert, der bei identischen Mustern den Wert "1" annimmt und mit zunehmender Abweichung der verglichenen Muster kleiner wird.

Grundsätzlich läßt sich der assoziative Suchvorgang nach Textteilen und/oder nach Grafik durchführen. Bei einem assoziativen Vergleich von Textteilen werden die digitalen Code-Äquivalente der Zeichen, zum Bei spiel das binäre, oktale oder hexadezimale Äquivalent eines Buchstabens z. B. als ASCII-Zeichen miteinander korreliert, und der dabei erhaltene Korrelationswert wird bewertet und als Maß für die Ahnlichkeit der Ver gleichszeichen abgegeben.

Bei einem assoziativen Suchvorgang nach Grafik erstreckt sich die hierbei durchzuführende Korrelation auf die di gitalisierten Elemente der Grafik, also auf die Gesamt heit der Bildpunkte. Komprimierte Grafik - zum Beispiel in der oben angeführten Lauflängencodierung komprimierte Grafik - läßt sich ebenfalls korrelieren. Vom Vergleichs bild muß zu diesem Zweck das lauflängencodierte Signal gebildet werden, welches dann mit dem lauflängencodier ten Signal des gesuchten Bildes korreliert wird.

Bei der Korrelation wird das Videosignal sich entsprechen der Abtastzeilen oder Abtastspalten miteinander korreliert, wodurch sich, für jede Abtastzeile oder -spalte ein Zeilen bzw. Spalten-Korrelationswert ergibt. Um ein bequemes Maß für die Ähnlichkeit von Vergleichsdokument und gesuchtem Dokument herzustellen, lassen sich alle Zeilen- bzw. Spalten-Korrelationswerte zu einem sogenannten Dokumenten- Korrelationswert aufsummieren. Anschließend läßt sich der Dokumenten-Korrelationswert als ein Eingrenzungs kriterium dem Benutzer zur Verfügung stellen.

In Fig. 15 ist eine Erweiterung der Schaltung gemäß Fig. 7 dargestellt, die zum assoziativen Aufsuchen von im Ausgabespeicher 15 abgelegten Dokumenten dient. Ein dem gesuchten Dokument entsprechendes Vergleichsdokument wird auf den Leseteil 12 aufgelegt und nach dem erfin dungsgemäßen Verfahren erfaßt. Das Koordinatenregister 42, der Klarschriftdecoder 52, das Steuerbildungsregister 48 und der Grafik-Digitalisierer 54 werden vom Benutzer vor dem Einlesen des Vergleichsdokumentes gemeinsam von dem Ausgabespeicher auf einen Vergleichsdokument-Speicher 70 umgeschaltet. Dadurch wird das dem Leseteil 12 zuge führte Vergleichsdokument in derselben Weise erfaßt wie die zuvor in den Ausgabespeicher 56 abgelegten Dokumente, die normalerweise dem Ausgabespeicher zugeführte Informa tion wird jedoch beim Erfassen des Vergleichsdokumentes in den Vergleichsdokument-Speicher 17 abgelegt. An schließend wird im Ausgabespeicher 56 abgespeicherte Information der einzelnen Dokumente sequentiell jeweils in einen Suchspeicher 72 eingelesen. Der Vergleichsdoku ment-Speicher 70 und der Suchspeicher 72 sind mit einem Korrelator 74 verbunden, der den Inhalt sich entsprechen der Rasterzeilen oder Rastenspalten des Suchspeichers 72 und des Vergleichsdokument-Speichers 70 korreliert und die Summe aller Zeilen- bzw. Spalten-Korrelationswerte als sogenannten Dokumenten-Korrelationswert zusammen mit einer das verglichene Dokument kennzeichnenden Dokumenten- Kennung als sogenannten Dokumenten-Korrelationswert in einen Ergebnisspeicher 76 abgibt.

Vorgesehen ist ferner eine Auswerteschaltung 78, welche die Dokumenten-Kennungen nach der Größe der zugeordneten Dokumenten-Korrelationswerte ordnet und dem Benutzer auf Wunsch zur Verfügung stellt, um dem Benutzer die jenigen Dokumente anzuzeigen, welche mit dem vorgege benen Vergleichsdokument die größte Ähnlichkeit be sitzen. Dadurch ist die Menge eingegrenzt, unter der der Benutzer das zu suchende Dokument mit hoher Wahr scheinlichkeit findet.

Claims

1. Verfahren zum Lesen und Verarbeiten von Information, die aus dekodierbarer Schriftinformation und/oder nichtdekodierbarer Graphikinformation besteht und als optisches Kontrastmuster auf einer Vorlage oder dergleichen angeordnet ist;
bei dem die Vorlage oder vorbestimmte Teile davon in einem zeilenförmigen Punkt raster abgetastet und ein entsprechendes Videosignal erzeugt und anschließend digitalisiert wird, wobei während jedes Abtastvorganges jeder Rasterpunkt (x_i, y_j) durch die laufende Koordinate x_i, i = 0, 1, 2, . . . M innerhalb der Rasterzeile y_j, j = 0, 1, 2, . . . N, bestimmt ist; und
bei dem auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft wird, welches das Vorhandensein einer Schriftinformation meldet, dieses als Schriftfeld kennzeichnet und eine Positionskennung der Lage auf der Vorlage angibt; dadurch gekennzeichnet, daß die zeilenförmige Abtastung in an sich bekannter Weise bei gegenüber der Abtastrichtung ausgerichteter Vorlage erfolgt; daß

a) die Prüfung, ob Schriftinformation vorliegt, anhand von l jeweils um eine oder mehrere Zeilen versetzten Rastersegmenten des digitalen Videosignals
R_l (x_i, y_j; i = 0, 1, 2, . . . M; j = l, l+1, . . . l+H-1)
mit l = 0, 1, 2, 3, . . . (N-H);
oder l = 0, 2, 4, 6, . . .;
oder l = 0, 3, 6, 9 . . .; etc.
und H = die einer Schriftzeile entsprechende Anzahl an Rasterzeilen erfolgt und
b) bei Erfüllung des Bewertungskriteriums für ein solches Rastersegment ein Schrift-Statuswort S_l gebildet wird, welches das betreffende Rasterseg ment als Schriftelement kennzeichnet und die eine Positionskennung (z. B. Koordinaten x_i, y_l) des Rastersegments R_l auf der Vorlage angibt; und daß
c) anschließend das digitale Videosignal der durch ein Schrift-Statuswort S_l gekennzeichneten Rastersegmente R_l dekodiert und in einem Schriftcode, alle anderen Bereiche des Rasters in einem Graphikcode unter Adressen abgespeichert werden, die den zugeordneten Rasterkoordinaten entspre chen.

2. Verfahren nach Anspruch 1, wobei Zeichen nur in vorgegebenen Zeilenfeldern auf der Vorlage zugelassen sind und einen vorgegebenen Zeilenabstand oder ein mehrfaches dieses Zeilenabstandes besitzen, dadurch ge kennzeichnet, daß das digitale Videosignal von jeweils l jeweils um H Zeilen versetzten Rastersegmenten R_l (x_i, y_j; i = 0, 1, 2, . . . M; j = lH, lH+1, . . . (l+1)H)mit l = 0, 1, 2, 3, . . .
H = die einer Schriftzeile entsprechende Anzahl an Abtastzeilen
beginnend mit dem ersten Zeilenfeld auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft wird, welches das Vorhandensein einer Schriftinformation innerhalb des Rastersegments meldet.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn zeichnet, daß die Rastersegmente R_l in Zeilenrichtung in mehrere Rasteruntersegmente R_Al, R_Bl, R_Cl, . . . unter teilt sind, wobei gilt: R_Al = R_Al (x_i, y_j; i = 0, 1, 2, . . . A-1; j = l, l+1, . . . l+H^-1)R_Bl = R_Bl (x_i, y_j; i = A, A+1, . . . B; j = l, l+1, . . . l+H^-1)A + B + C + . . . = M,die jedes für sich wie ein Rastersegment behandelt wer den.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß alle Rasteruntersegmente R_Al, R_Bl, R_Cl dieselbe Länge besitzen, d. h. daß gilt: A = B = C . . .

5. Verfahren nach Anspruch 3 oder 4, dadurch gekenn zeichnet, daß die nebeneinanderliegenden Rasterunter segmente zeitlich gleichzeitig auf Erfüllung des Bewer tungskriteriums geprüft werden.

6. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die Schrift-Statuswörter S_l aufeinanderfolgender Rastersegmente oder Rasterunter segmente alle zu einem Schriftfeld-Statuswort unter ei ner Adresse zusammengefaßt werden, welches eine Informa tion über die Form und Größe des Schriftfeldes enthält.

7. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die bei der Bewertungsprü fung verworfenen Rasterzeilen oder Rasterzeilenstücke mit je einem Graphik-Statuswort G_l bezeichnet werden, welches eine Positionskennung enthält und die betreffende Rasterzeile oder das Rasterzeilenstück als Graphik kennzeichnet.

8. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Graphik-Statuswörter G_l aufeinanderfolgender Rasterzeilen und/oder Rasterzeilenstücke zu einem Graphikfeld-Statuswort unter einer Adresse zusammenge faßt werden, welches eine Information über die Form und Größe des Graphikfelds enthält.

9. Verfahren nach Anspruch 7 oder 8, dadurch gekenn zeichnet, daß bei Prüfung auf Schrift/Graphikinformation die als Graphik erkannten Rasterzeilen oder Rasterzeilen stücke eine Sonderkennung in ihrem Graphik-Statuswort erhalten, wenn die Rasterzeile oder das Rasterzeilenstück keine Schwärzung enthält.

10. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das Bewertungskriterium innerhalb der Rastersegmente oder -untersegmente eine vorgegebene Anzahl oberer und unterer schwärzungs freier Leerzeilen und eine Schwärzung in den Zeilen zwischen den Leerzeilen vorschreibt.

11. Verfahren nach Anspruch 10, dadurch gekennzei chnet, daß das Bewertungskriterium für jede zwischen den Leerzeilen befindliche Zeile einen vorgegebenen Schwärzungssummenwert vorschreibt, welcher die längs einer Zeile aufsummierte Schwärzung angibt.

12. Verfahren nach 10 oder 11, dadurch gekennzeichnet, daß das Bewertungskriterium in Abhängigkeit von der je weils verwendeten Schrifttype vorgebbar ist.

13. Verfahren nach Anspruch 12, dadurch gekennzeich net, daß zur Erkennung der verwendeten Schrifttype das Bewertungskriterium verschiedener Schrifttypen auf die Rastersegmente oder -untersegmente angewendet werden, und daß bei Erfüllung eines der Bewertungskriterien eine Schrifttypen-Kennung in das Schrift-Statuswort auf ge nommen wird.

14. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß nach der Bewertungsprüfung das digitale Videosignal und die Statuswörter zwischengespeichert werden, und daß mit dem Auslesen des Videosignals in vorgegebener Adreßfolge jeweils auch die Schrift- und Graphik-Sta tuswörter ausgelesen werden und zur Steuerung der Wei terverarbeitung (Schriftdekodierung oder Graphikkompres sion) verfügbar sind.

15. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß bei der Graphikverarbeitung eine Informationskompression erfolgt.

16. Verfahren nach Anspruch 15, dadurch gekennzeich net, daß die Informationskompression eine Lauflängen- Kompression ist.

17. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß innerhalb eines Rasterseg ments oder -untersegments die Schriftkodierung endet, und die Graphikverarbeitung einsetzt, sobald eine nicht dekodierbare Information auftritt, und daß für den be treffenden Teilbereich des Rastersegments oder -unter segments ein Graphik-Statuswort erzeugt, und das Schrift- Statuswort des Rastersegments entsprechend abgeändert wird.

18. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1 oder 2,

a) mit einem Leseteil (12), welcher die Vorlage (2) ausgerichtet in dem zeilenförmigen Punktraster ab tastet und das den Rasterpunkten zugeordnete digitale Videosignal abgibt,
b) mit einem Graphik-Digitalisierer (54), der das digitale Videosignal komprimiert und anschließend an
c) einen Ausgabespeicher (56) abgibt, wobei die Adressen der Speicherplätze den Ortkoordinaten der zugeordneten Rasterpunkte auf der Vorlage ent sprechen,
d) und mit einer zentralen Steuereinheit (40) zur Steuerung der Gewinnung und Verarbeitung des Video signals,
gekennzeichnet durch
e) einen Zeilen-Stapelspeicher (44) zur Speicherung des Videosignals der Rastersegmente aus jeweils gleichzeitig H Rasterzeilen, der beim Eintritt der (l+H)ten Zeile jeweils die l-te Zeile abgibt, wobei l = 0, 1, 2, . . .,
f) eine Bewertungsschaltung (46), welche prüft, ob das jeweils im Zeilen-Stapelspeicher (44) enthaltene Videosignal das Bewertungskriterium erfüllt, welches das Vorhandensein von Schriftinformationen in den gespeicherten H Rasterzeilen meldet,
g) ein Koordinatenregister (42) , welches die Koordi naten einer Adresse speichert (zum Beispiel Koor dinaten x_k, y_l), die das gerade im Zeilen-Stapel speicher (44) gespeicherte aktuelle Rastersegment kennzeichnet,
h) ein Steuerwort-Bildungsregister (48), welches bei Erfüllung des Bewertungskriteriums aus der im Ko ordinatenregister gespeicherten Adresse (x_k, y_l) und aus einem Kennsignal der Bewertungsschaltung (46) ein Schrift-Statuswort S_l bildet und an
i) eine Zustandssteuerung (50) abgibt, die daraufhin das im Zeilen-Stapelspeicher (44) enthaltene Vi deosignal statt an den Graphik-Digitalisierer (54) an
j) einen Klarschriftdecoder (52) abgibt, welcher das empfangene Videosignal dekodiert und das erhaltene Schriftzeichen-Signal im Ausgabespeicher (56) an durch den Inhalt des Koordinatenregisters (42) be stimmten Adressen speichert.

19. Vorrichtung nach Anspruch 18, dadurch gekennzeich net, daß der Zeilen-Stapelspeicher (44) über die Länge der Rasterzeile in Stapelspeicher-Untersegmente (43A, B, C . . .) unterteilt ist, daß der Inhalt (Rasteruntersegmente) jedes Speicheruntersegments (43A, B, C . . .) jeweils separat in der Bewertungsschaltung (46) auf Erfüllung des Bewer tungskriteriums geprüft wird, und daß für jedes Speicher untersegment (43A, B, C . . .) ein Koordinatenregister vor gesehen ist.

20. Vorrichtung nach Anspruch 18 oder 19, dadurch gekennzeichnet, daß das Koordinatenregister (42) je weils die Koordinate des Anfangspunkts (x_k, y_l) der im Zeilen-Stapelspeicher jeweils zu oberst oder zu unterst befindlichen Rasterzeile speichert.

21. Vorrichtung nach Anspruch 18, 19 oder 20, dadurch gekennzeichnet, daß für jede l-te Zeile, welche nach Nichterfüllung des Bewertungskriteriums vom Zei chen-Stapelspeicher (44) abgegeben wird während die (l+H)-te Zeile eingetastet wird, in dem Steuerwort- Bildungsregister (48) ein Graphik-Statuswort G_l unter der zugeordneten Adresse aus dem Koordinatenregister (42) gebildet wird.

22. Vorrichtung nach einem der Ansprüche 18 bis 21, dadurch gekennzeichnet, daß der Zeilen-Stapelspeicher (44) eine zusätzliche Einlesezeile (62) besitzt und aus einzelnen seriell einlesbaren Zeilenregistern (60) besteht, wobei der Anfang jedes Zeilenregisters (60) mit dem Ende des nächsten Zeilenregisters (60) ver bunden ist, und daß der Inhalt jedes Zeilenregisters bei Übertrag in das nächste Zeilenregister die Bewer tungsschaltung (46) durchläuft, welche vor dem Ende jedes Zeilenregisters ein Summierglied enthält, welches beim Durchtakten des Videosignals des davor liegenden Zeilenregisters die Schwärzungsamplituden aufsummiert und dabei das Schwärzungssummensignal dieser Zeile bildet und hält.

23. Vorrichtung nach Anspruch 22, dadurch gekennzei chnet, daß die Bewertungsschaltung (46) prüft, ob das Schwärzungssummensignal einer vorgegebenen Anzahl oberer und unterer Leerzeilen unter einem vorgegebenen geringen Schwellwert bleibt, und für die zwischen den Leerzeilen liegenden Zeilen über einem vorgegebenen Mindestwert liegen.

24. Vorrichtung nach einem der Ansprüche 18 bis 23, dadurch gekennzeichnet, daß ein Arbeitspuffer (47) dem Zeilen-Stapelspeicher (44) nachgeschaltet ist, der in einem parallelen Transfer alle Zeilen des Zeilen-Sta pelspeichers (44) erhält, wenn das aktuelle Rasterseg ment das Bewertungskriterium erfüllt, und daß der Klarschriftdekoder (52) bei seiner Aktivierung durch ein Schrift-Statuswort die zu dekodierende Schriftinfor mation aus dem Arbeitspuffer (47) holt.

25. Vorrichtung nach einem der Ansprüche 18 bis 24, dadurch gekennzeichnet, daß der erste Klarschriftde koder (52) zur Dekodierung einer ersten Schrifttype dient, daß ein zweiter Klarschriftdekoder zum Deko dieren einer zweiten Schrifttype vorgesehen ist, und daß die Bewertungsschaltung bei Bewertungsprüfung erkennt, ob Informationen der ersten oder zweiten Schrifttype vorliegen und dem Schrift-Statuswort eine entsprechende Kennung einschreibt, und daß bei Vor handensein der ersten Schrifttype der erste Klarschrift dekoder, bei Vorhandensein der zweiten Schrifttype der zweite Klarschriftdekoder aktiviert wird.

26. Vorrichtung nach einem der Ansprüche 18 bis 25, dadurch gekennzeichnet, daß der Graphik-Digitalisierer (54) eine Kompressionsschaltung zur Komprimierung der Graphik-Information enthält.

27. Vorrichtung nach einem der Ansprüche 18 bis 26, dadurch gekennzeichnet, daß zum assoziativen Auf suchen von im Ausgabespeicher (56) abgelegten Dokumen ten ein dem gesuchten Dokument entsprechendes Vergleichs dokument auf den Leseteil (12) als Vorlage einlesbar ist, daß das Koordinatenregister (42), der Klarschrift decoder (52), das Steuerwort-Bildungsregister (48) und der Grafik-Digitalisierer (54) beim Lesen eines Ver gleichsdokumentes gemeinsam von dem Ausgabespeicher (56) auf einen Vergleichsdokument-Speicher (70) umschaltbar sind, daß im Aus gabespeicher (56) die abgespeicherten Dokumente sequentiell in einen Suchspeicher (72) einles bar sind, und daß ein Korrelator (74) vorgesehen ist, der den Inhalt sich entsprechender Rasterzeilen oder Raster spalten des Suchspeichers (72) und des Vergleichsdokument- Speichers (70) korreliert und die Summe aller Zeilen- bzw. Spalten-Korrelationswerte als ein Maß für die Ähnlichkeit zwischen Vergleichsdokument und verglichenem Dokument bildet und als Dokumenten-Korrelationswert abgibt.

28. Vorrichtung nach Anspruch 27, dadurch gekennzeich net, daß der Korrelator (74) die Dokumenten-Korrelations werte zusammen mit einer das zugehörige Dokument kenn zeichnenden Dokumenten-Kennung in einen Ergebnis-Speicher (76) lädt, und daß eine Auswerteschaltung (78) die Dokumenten-Kennungen nach der Größe der zugeordneten Dokumenten-Korrelationswerte geordnet sequentiell aus liest und dem Benutzer anzeigt.

29. Vorrichtung nach Anspruch 27 oder 28, dadurch ge kennzeichnet, daß der Korrelator (74) ausgewählte Teil flächen des Vergleichsdokuments mit entsprechenden Teil flächen der aus dem Ausgabespeicher (56) in den Such speicher eingelesenen Dokumente korreliert.

30. Vorrichtung nach Anspruch 29, dadurch gekennzeich net, daß die ausgewählten Teilflächen des Vergleichs dokuments nur Text oder nur Grafik enthalten.