DE3414455A1

DE3414455A1 - Verfahren und vorrichtung zum lesen und speichern von information

Info

Publication number: DE3414455A1
Application number: DE19843414455
Authority: DE
Inventors: Peter-Michael 6057 Dietzenbach Wollang
Original assignee: WOLLANG PETER MICHAEL
Current assignee: WOLLANG PETER MICHAEL
Priority date: 1983-04-26
Filing date: 1984-04-17
Publication date: 1984-10-31
Anticipated expiration: 2004-04-18
Also published as: DE3414455C2

Description

Beschreibung
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Lesen und Speichern von Informationen, die aus dekodierbarer Schriftinformation und/oder nichtdekodierbarer Graphikinformation besteht und als optisches Kontrastmuster auf einer Vorlage oder dergleichen angeordnet ist, wobei die Vorlage oder vorbestimmte Teile davon ausgerichtet in einem zeilenförmigen Punktraster abgetastet und ein entsprechendes Videosignal erzeugt wird, welches digitalisiert, und dann abgespeichert wird, Bei einer wichtigen Alternative dieses Verfahrens und dieser Vorrichtung werden Zeichen nur in Zeilenfeldern auf der Vorlage zugelassen, wobei dze Zeilenfelder voneinander einen vorgegebenen Zeilenabstand bzw. ein Mehrfaches dieses Zeilenabstandes besitzen.
Es sind Verfahren und Vorrichtungen zum Beleglesen bekannt, bei der/ddm ausgerichtete, vorzugsweise in Normgrößen vorgelegte Belege, Schriftstücke oder dergleichen maschinell gelesen werden können, wenn eine maschinenlesbare Schrift in vorgegebenen Erwartungsfeldern auftritt. Als maschinenlesbare Schrift wird insbesondere eine oder mehrere der bekannten Klarschriften, zum Beispiel OCR-A oder OCR-B oder übliche Schreibmaschienenschriften verstanden. Im Decoder des Lesers zuvor nicht festgelegte Zeichenklassen werden ignoriert und gehen als Information verloren. Das Gleiche gilt für jede Art von Graphik- oder Bildinformationen, insbesondere auch von Unterschriften oder dergleichen, die ebenfalls von derartigen Klarschriftlesern nicht erkannt werden.
Ferner sind Verfahren und Vorrichtungen zum Lesen von Graphik/Bildinformationen und von Schriftinformationen bekannt, welche das auf einer Vorlage befindliche Kontrastmuster ausschließlich im Graphik-'lode, d.h.
lediglich unter Zuhilfenahme bekannter Informationen-Kompressionsverfahren kompremieren und abspeichern, bei diesen bekannten Verfadren/Vorrichtungen wird auch Schriftinformation auf diese Weise digitalisiert, wodurch insbesondere beim Auftreten größerer 4engen von Schriftinformationen ein unerwünscht großer Speicherbedarf erforderlich ist.
Aufgabe der Erfindung ist es daher, ein Verfahren und eine Vorrichtung der eingangs genannten Art derart weiterzubilden, daß die Schriftinformation an einer beliebigen Stelle der Vorlage automatisch als solche erkannt, und dekodiert wird und als Schriftcode-Signale mit der zugehörigen Positionskennung abspeicherbar ist, während alle anderen Bereiche als Graphik verarbeitet und abgespeichert werden.
Diese Aufgabe wird bei einem Verfahren der eingangs genannten Art erfindungsgemäß dadurch gelöst, daß a) während jedes Abtastvorganges jeder Rasterpunkt (Xr y.) durch die laufende Koordinate xi, i = 3 innerhalb der Rasterzeile yj, j = 112...nu bestimmt ist, b) das digitale Videosignal von 1 jeweils um eine Zeile versetzten Rastersegmenten R1 (xi, yj; i = 1,2 ... t4; j = 1, 1+1, ... 1+H) mit 1 = 0, 1, 2, 3, ... (N - H) und H = die einer Schriftzeile entsprechende Anzahl an Rasterzeilen auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft wird, welches das Vorhandensein einer Schriftinformation innerhalb des jeweiligen Rastersegments meldet, c) bei Erfüllung des Bewertungskriteriums ein Schrift-Statuswort S1 gebildet wird, welches das betreffende Rastersegment als Schriftelement kennzeichnet und seine Position (zum Beispiel Koordinaten Xkr Y1) auf der Vorlage angibt d) und anschließend das digitale Videosignal des durch ein Schrift-Statuswort S1 gekennzeichneten Rastersegments R1 dekodiert und in einem Schriftcode, alle anderen Bereiche des Rasters in einem Graphikcode unter Adressen abgespeichert werden, die den zugeordneten Rasterkoordinaten entsprechen.
Die Vorteile der Erfindung liegen insbesondere darin, daß Schriftinformation, die in beliebiger Position auf der Vorlage angeordnet ist, bei der um jeweils nur eine Rasterzeile versetzten Rastersegment-Bildung erkannt wird, und daß für ein schriftenthaltendes Rastersegment eine Positions-Kennung und eine Schrift-Kennung zur Bildung eines entsprechenden Schrift-Statuswortes herangezogen werden, so daß dann ein an sich bekannter Klarschriftdekoder diese Schriftinformation dekodieren und diese Information in einem der bekannten Schriftcodes weiterverarbeiten und speichern kann. Diejenigen Bereite der Vorlage, die bei der Rasterelement-Bildung und der daran anschließenden Bewertungsprüfung nicht als Schrift erkannt werden, denen also kein Schrift-Statuswort zugeordnet wird, werden als Graphik behandelt und mit einer üblichen Graphik-Kompression digitalisiert und dann gespeichert. Mittels der Erfindung wird daher Schriftinformation auf einer Vorlage stets als solche erkannt und dekodiert, während nur die tatsächlich mit Graphik belegten Bereiche der Vorlage in einem der bekannten Graphik-Digitalisierungen digitalisiert und abgespeichert werden. Die Lesegeschwindigkeit ist bei diesem Verfahren/Vorrichtung insbesondere dann, wenn die Vorlage im wesentlichen Schriftinformation enthält, gegenüber den bekannten Graphik-Lesegeräten wesentlich erhöht. Da Schriftinformation in einem Schriftzeichen-Code gespeichert wird, ist der gesamte Bedarf an Speicherplatz stark reduziert, wodurch eine aktenarme Belegverarbeitung erstmalig wirtschaftlich vernünftig möglich ist.
Bei dem alternativen Verfahren, bei welchem Klarschriftzeichen nur in vorgegebenen Zeilenfeldern auf der Vorlage zugelassen sind, wobei die Zeilenfelder einen vorgegebenen Zeilenabstand bzw. ein ehrfaches dieses Zeilenabstandes besitzen, werden erfindungsgemäß nur diese vorgegebenen Zeilenfelder als Rastersegmente gebildet und der Bewertungsprüfung unterzogen. Die außerhalb der vorgegebenen Zeilenfelder liegenden Bereiche der Vorlage werden als Graphik behandelt; die vorgegebenen Zeilenfelder werden dagegen nur dann als Graphik behandelt, wenn bei der Bewertungsprfung innerhalb des betreffenden Zeilenfeldes keine Schriftinformation erkannt wird. Auf diese Weise wird der erfindungsgemäße Bewertungsschritt zeitlich abgekürzt.
Bevorzugt erfolgt die Abtastung der Vorlage parallel zu einer der Vorlagenkanten in Richtung der Schriftzeilen über die gesamte Breite der Vorlage hinweg. Sofern zur Bildung der Rastersegmente jeweils die volle Länge der Rasterzeilen verwendet wird, können auch nur volle Schriftzeilen als Schriftinformation erkannt werden.
Befindet sich dagegen innerhalb einer Schriftzeile ein kurzer Teilabschnitt, welcher Graphik enthält, so wird die volle Schriftzeile als Graphik gewertet und entsprechend verarbeitet.
Gemaß einer bevorzugten Ausführungsform der Erfindung werden daher die Rastersegmente aus R1 in Zeilenrichtung in mehrere Rasterunterseginente R RB1, Rg1 unterteilt, wobei RE1 =RBl (xi y.; i = A, A+1,...B; j = 1,1+1...1+H) wobei A + B + C + ... = M, d. h. die volle Zeilenlänge.
Jedes Rasteruntersegment wird dann wie ein Rastersegment behandelt, insbesondere einzeln der Bewertungsprüfung unterzogen, um das Vorhandensein bzw. Nichtvorhandensein von Schriftinformationen zu prüfen. Dadurch ist es möglich, die Grenze zwischen Schriftinformation und Graphik genauer zu detektieren; es lassen sich Teilstücke einer vollen Zeilenlänge als Schrift, andere Teilstücke als Graphik feststellen. Bei einer ausreichend feinen Unterteilung der Rastersegmente sind diejenigen Untersegmente, welche sowohl Graphik als auch Schrift enthalten und daher vollständig als Graphik behandelt werden, recht klein, so daß ein hoher Prozentsatz der Schriftzeichen tatsächlich als Schrift erkannt und entsprechend speicherplatzarm verarbeitet werden kann.
Es kann zweckmäßig sein, den bei der Bewertungsprüfung verworfenen Rasterzeilen oder Rasterzeilenst:cke, die daher nicht Bestandteil einer Schriftzeichen-Zeile sind, mit je einem Graphik-Statuswort zu bezeichnen, welches ebenfalls eine Positionskennung und eine Graphik-Kennung enthält. Diejenigen Rasterzeilen oder RasterzeilenstÜcke, die bei der Bewertungsprüfung verworfen wurden, bei denen die Bewertungsprüfung jedoch keine Schwärzung innerhalb des zugehörigen Videosignals ergeben hat, werden vorteilhafter Weise mit einer Sonderkennung in ihrem Graphik-Statuswort versehen, welche diese Zeile als leerzeile kennzeichnet, die der Graphik-Kompremierung garnicht erst unterworfen werden muß. Umgekehrt läßt sich diese Sonderkennung beim Ausdrucken der abgespeicherten Vorlage dazu verwenden, um direkt ein Zeilenfortschaltsignal beim Drucker zu erzeugen, welches diese Leerzeile direkt reproduziert.
Das Bewertungskriterium muß Bedingungen enthalten, welche von der zu lesenden Klarschrift eingehalten werden.
So enthält das Bewertungskriterium bevorzugt die Vorschrift, daß eine vorgegebener Anzahl oberer und unterer Leerzeilen schwärzungsfrei sind, und daß die zwischen den leerzeilen vorhandenen Rasterzeilen eine über ihre Länge aufsummierte vorgegebene Mindestschwärzungssumme besitzt. Das Kriterium kann gewünschtenfalls dadurch verfeinert werden, daß für jede Rasterzeile zwischen diesen Leerzeilen der Schwärzungssummenwert jeweils in einem charakteristischen Bereich vorgegeben wird. Das Kriterium ist dabei so auszulegen, daß mit der gew-anschten sehr hohen Wahrscheinlichkeit Klarschrift das Kriterium erfüllt. In den Fällen, in welchen das Kriterium nicht erfüllt wird, gleichwohl jedoch Zeicheninformation über die Länge des Rastersegments oder -untersegments vorhanden ist, wird dann auch die Zeicheninformation als Graphik digitalisiert und steht dann nachteilhafterweise nicht mehr als Schriftcode-Signal zur Verfügung. Neben dem höheren Informationsanfall, der durch die Graphik-Verarbeitung bedingt ist, kann nachteilhafterweise auf die so abgelegten Zeichen bei maschineller eiterverarbeitung der Textinformationen nicht mehr zurückgegriffen werden. Der umgekehrte Fall, daß auf Schriftinformation erkannt wird obgleich Graphikinformation vorliegt, ist insofern unschädlich als der dann aktivierte Klarschriftdekoder die Dekodierung verweigert und erfindungsgemäß die Verarbeitung automatisch dann an den Graphik-Kompressor abqibt.
Das Bewertungskriterium kann so ausqelegt werden, daß es spezifisch für jeweils eine bestimmte Schrifttype ist. Werden daher mehrere Schrifttypen auf einer oder aufeinanderfolgenden Vorlagen eingesetzt, so wird erfindunqsgemäß - bei Verwendung SchrifttyDen stezifischer Bewertungskriterien - jeweils noch eine Schrifttypen-Kennunq in das Schrift-Statuswort einqegeben, welches bewirkt, daß jeweils der richtige aus mehreren Klarschriftdekodern die Dekodierung vornimmt.
Die Statuswörter können neben der Positionskennung, der Schrift- bzw. Graohik-Kennung und geqebenenfalls der Schrifttypen-Kennung noch weitere Elemente enthalten, welche zur Steuerung von Baueinheiten des Lesers dienen.
Beim Lesen und Speichern der Vorlagen werden bevorzugt die zur Erzeugung des Abtastrasters benötigten Raster-Koordinatensignale auch als den jeweiligen Ortkoordinaten zugeordnete Adressen verwendet. ?4it dem Durchlauf des Punktrasters wird daher auch eine volle Durchadressierung vorgenommen, die bei bestimmten Positionskennunqen, d. h. bei bestimmten Adressen, zur Bildunq von Schrift-Statuswörtern führt, welche unter diesen Adressen speicherbar sind. Mit einem Rasterdl hlauf werden unter den jeweils zugeordneten Adressen die Schrift-Statuswörter und - sofern vorhanden - die Graphik-Statuswörter - und ebenfalls das zugeordnete dekodierte oder als Graphik digitalisierte Videosignal abgespeichert. Wird ein Auslesevorgang oder ein Ausdruckvorgang der gelesenen Information gewünscht, so erzeugt ein Durchlauf durch die Adressen eine Auslesung der Statuswörter sowie eine Auslesung der dekodierten bew.
als Graphik diqitalisierten Video-Information, die dann unter der Steuerunq durch die Statuswörter entweder als Schriftzeichen oder als Graphik anqezeigt oder ausgedruckt wird.
Eine Vorrichtung zur Durchführung des Verfahrens ist durch die merkmale des Anspruches 18 gekennzeichnet.
Der Zeilen-Stapel speicher ist bevorzugt über die Länge der Rasterzeile in mehrere Speicheruntersegmente unterteilt, für die jeweils separat die Erfüllung des Bewertungskriteriums geprüft wird, wobei jedem Speicheruntersegment ein eigenes Koordinatenregister zugeordnet ist, welches die Positionskennung der jeweils in den Speicheruntersegmenten enthaltenen Rasteruntersegmente speichert und zur Bildung des zugehörigen Statuswortes an das Status-Bildungsregister abgibt. Als Positionskennung speichert jedes Koordinatenregister bevorzugt die Koordinate des Anfangspunktes der im Zeilen-Stapelspeicher jeweils obersten oder untersten Rasterzeile.
Der Zeilen-Stapel speicher besteht bevorzugt aus mehreren einzelnen Zeilenregistern, deren Speicherplätze gleich der Zahl der in einer Rasterzeile liegenden Rasterpunkte ist, und denen Information seriell vom ersten Speicherplatz am Anfang jedes Zeilenregisters bis zum letzten Speicherplatz am Ende des Zeilenregisters eintaktbar ist.
Der Anfang jedes Zeilenregisters ist mit dem Ende des nächsten Zeilenregisters verbunden. Zwischen dem Ende einer Zeile und dem Anfang der nächst höheren Zeile befindet siph.jeweils ein Teil der Bewertungsschaltung, welche das Videosignal des betreffenden Zeilenregisters beim Übertrag in das nächsthöhere Zeilenregister durchläuft.
Während des Durchlaufs des Videosignals aus einem Zeilenregister addiert eine Summierschaltung alle eine Schwärzung kennzeichnende Amplituden auf und bildet auf diese Weise das Schwärzungssummsignal der in das nächst höhere Zeilenregister eingetaktete Zeile. Auf diese Weise erzeugt die Bewertungsschaltung für jede Zeile des Zeilenstapels das Schwärzungssummensignal des gerade in der betreffenden Zeile eingetakteten Videosignals. Die Bewertungsschaltung ermittelt also jeweils die Verteilung der Schwärzungssummensignale als Funktion der Zeilen innerhalb des gerade abgespeicherten Rastersegments. Sofern diese Verteilung der Schwärzungssummensignale einer vorgegebenen Verteilung entspricht, erkennt die Bewertungsschaltung auf "Schriftinformation" und gibt ein Schrift-Kennungssignal an das Steuerwort-Bildungsregister ab.
Das Bewertungskriterium ist dabei so ausgewählt, daß die Schrift zeile mittig im Zeilen-Stapelregister angeordnet ist. Wird auf diese Weise Schriftinformation erkannt, so wird der Inhalt des Zeilen-Stapelregisters in einem parallelen Transfer an einen Arbeitspuffer übertragen, aus dem ein Klarschriftdekoder dann dekodiert.
Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der Unteransprüche geknnzeichnet.
Im folgenden wird ein Ausführungsbeispiel der Erfindung anhand der Zeichnung näher erläutert. Es zeigen: Fig. 1 eine Vorlage mit aufgedruckter Schrift-und Graphikinformation; Fig. 2 eine Maske einer herkömmlichen maschinenlesbaren Schrift mit einem Zeichen; Fig. 3 eine schematische Darstellung, welche die Bewertung und die Statuswort-Bildung des erfindungsgemäßen Verfahrens während der Abtastung einer Vorlage erläutert; Fig. 4 das digitale Videosignal längs einer Rasterzeile; Fig. 5 ein schematisches Blockschaltbild einer erfindungsgemäßen Vorrichtung; Fig. 6 ein Blockschaltbild des Leseteils der Vorrichtung der Fig. 5; Fig. 7 ein Blockschaltbild des Auswerte- und Speicherteils gemäß Fig. 5; Fig. 8 eine schematische Darstellung des Zeilen-Stapelspeichers; Fig. 9 eine schematische Darstellung der Bewertung eines Rasteruntersegments; Fig. 10 schematische Darstellungen der Bewertung vera-c schiedener Pasteruntersegmente; Fig. 11 eine schemtische Darstellung zur Untersegmentierung von Rastersegmenten; Fig. 12 eine schematische Darstellung der Arbeitsweise eines Zeilen-Stapelspeichers; Fig. 13 eine schematische Darstellung des Arbeitspuffers; Fig. 14 eine schematische Darstellung der Graphik-Kompression.
Fig. 15 ein Blockschaltbild einer Erweiterung des Auswerte- und Speicherteils gemäss Fig. 7.
Figur 1 zeigt eine Vorlage 2, die sich kantenparallel auf einem Lesefenster eines Lesegerätes befindet. Die Vorlage, z.B. ein bedrucktes Papierblatt od. dgl., enthält Schrift-Zonen 4, die ausschließlich mit Maschinen lesbarem Klartext, z.B. einer OCR-A- oder OCR-B-Schrift bedruckt sind. Daneben sind auf der Vorlage Grafik-Zonen 6 vorhanden, die ein nichtdekodierbares Kontrastmuster, z.B. einen handgeschriebenen Text, eine Zeichnung, mathematische Formeln, Signatur od. dgl. enthalten. Außerdem sind Freizonen 8 vorhanden, die weder Grafik- noch Schriftinformation enthalten. Diese Vorlage wird von einem Bildsensor, z.B. einem Vidikon oder einem Flying-Spot-Abtaster bzw. einer Diodenmatrix in einem zeilenförmigen Raster abgetastet, wobei die Rasterzeilen in richtung der Schriftzeilen, d.h. parallel zur oberen Kante der Vorlage 2 verlaufen. Die Rasterzeilen verlaufen also in dem eingezeichneten Koordinatensystem in x-Richtung, äquidistante Punkte längs einer Rasterzeile werden als Rasterpunkte xi bezeichnet, wobei i = 0,1,2,...
M. Die Rasterzeilen sind mit je einer Koordinate yj bezeichnet, wobei j = 0,1,2,... N, wobei die oberste Zeile mit yO bezeichnet ist. Jeder Rasterpunkt ist auf diese Weise durch laufende Koordinaten xi, yj gekennzeichnet.
Der Koordinatenursprung xO, y0 muß dabei nicht, wie in Figur 1 dargestellt, mit einer Ecke oder einem anderen Punkt der Vorlage zusammenfallen, er kann alternativ auch außerhalb der Vorlage 2 liegen.
Figur 2 zeigt ein Zeichenfeld, auch Maske genannt, eines Zeichens einer herkömmlichen Maschinen lesbaren Schrift, z.B. der OCR-A oder OCR-B. Ein solches Zeichenfeld besteht aus H Rasterzeilen, wobei z.B. H = 40 ist.
In jeder Rasterzeile befinden sich L-Bildpunkte, wobei z.B. L = 32. Die Zeichen sind ein vorgegebenes Maß kleiner als ein Zeichenfeld, so daß über und unter jedem Zeichen einheitlich eine vorgegebene Anzahl an nichtbedruckten Rasterzeilen vorhanden sind.
Figur 3 zeigt schematisch die Erzeugung von Statuswörtern S, G während der Abtastung der Vorlage mittels des Bildsensors. Nach dem vorliegenden Verfahren wird das digitale Videosignal von 1 jeweils um eine, in Sonderfällen auch um mehrere Zeilen versetzten Rastersegmente R1 (xi, yj) zwischengespeichert, wobei jedes Rastersegment 3 jeweils H-Rasterzeilen enthält. Das nullte Rastersegment Ro (xi, y.) besteht somit aus den Rasterzeilen Yoty1ty2 3 n-i Das erste Rastersegment R1 (x., y.) besteht 1 3 aus den Zeilen y1, Y2, y3 ..... yH. Das zweite Rastersegment R2( Xi, yj) enthält die Zeilen y2, y3 - ...
3 das l-te Rasterelement R1 besteht aus den Zeilen Y1 yl+1 .. Y1+H 1 etc. enn also in den Zwischenspeicher eine neue untere Rasterzeilen Y1+H eingelesen wird, gibt der Zwischenspeicher die obere Zeile y1 ab. Derartig segmentiert, d.h. mit um jeweils eine, in Sonderfällen um mehrere Zeilen sich überlappende Rastersegmente wird die gesamte Vorlage zwischengespeichert, wobei die Rastersegmente R1, mit 1 = 0,1,2,... (N-H) in Zeilenrichtung selbst in mehrere Raster-Untersegmente unterteilt sein können, wobei das erste Untersegment die Rasterpunkte 0, 1, 2 ... A - 1, das zweite Rasteruntersegment anschließend die Rasterpunkte A, A + 1, D - 1, etc. enthält und die in Zeilenrichtung aneinander grenzenden Rasteruntersegmente mit RA1, RBl, RCl bezeichnet sind und jeweils gleichzeitig in entsprechenden Speicheruntersegmenten zwischengespeichert werden.
Die nacheinander gespeicherten Rastersegmente bzw.
die Rasteruntersegmente werden auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft, welches das Vorhandensein einer Schriftinformation innerhalb des jeweiligen Rastersegments bzw. -untersegments meldet, wie noch näher in Verbindung mit Figuren 9 und 10 erläutert wird. Bei Erfüllung des Bewertungskriteriums wird für das betreffende Rastersegment bzw. -untersegment ein Schrift-Status-Wort S1 bzw. SA1, SB1' etc. gebildet, welches das betreffende Rastersegment bzw. -untersegment als Schriftelement kennzeichnet und eine Positionskennung enthält, die die Position des betreffenden Rastersegments bzw. -untersegments auf der Vorlage angibt. Die Positionskennung wird z.B. durch ausgezeichnete Koordinaten der im Rastersegment enthaltenen Rasterpunkte, insbesondere durch den ersten Rasterpunkt der zu oberst gespeicherten Rasterzeile angegeben. Wird dagegen das Bewertungskriterium nicht erfüllt, so wird aus dem Zwischenspeicher die jeweils oberste Rasterzeile bzw. aus den Speicheruntersegmenten die betreffenden Rasterzeilenstücke abgegeben und bei ihrer Abgabe ein Grafik-Statuswort G1 bzw. G G GB1 etc.
Al, Bl erzeugt, welches die Zustandskennung und die Positionskennung der betreffenden Rasterzeile bzw. des betreffenden Rasterzeilenstücks enthält.
Werden also Rasterzeilen oder Rasterzeilenstücke aus dem Zwischenspeicher abgegeben, weil in dem zwischengespeicherten Rastersegment bzw. Rasteruntersegment das Bewertungskriterium für Schrift nicht erfüllt ist, so wird jeweils ein entsprechendes Grafik-Statuswort erzeugt und ist den betreffenden Rasterzeilen bzw. -zeilenstück zugeordnet. Wird dagegen von einem Rastersegment oder -untersegment das Bewertungskriterium für Schrift erfüllt, so wird ein Schrift-Statuswort erzeugt, welches eine Zustandskennung ("Schrift vorhanden") und eine Positionskennung für das betreffende Rastersegment bzw. -untersegment enthält, wie in Figur 3 dargestellt ist. Je nach Statuswort wird das zugehörige digitale Videosignal entweder als Schrift dekodiert, andernfalls als Grafik komprimiert. und dann zusammen mit den zugeordneten Rasterpunkt-Koordinaten und den zugeordneten Statuswörtern in einem Ausgabe speicher abgespeichert.
Fig.4zeigt das Kontrastmuster auf der Vorlage längs einer Rasterzeile. Unmittelbar darunter ist das entsprechende Videosignal in digitaler Form ebenfalls längs der Rasterzeile, als Funktion der Rasterpunkt-Koordinate xi aufgetragen. Dunklen Bereichen innerhalb einer Rasterzeile ist im vorliegenden Beispiel die Amplitude 1 zugeordnet, hellen Bereichen die Amplitude "O". Für die nächste Rasterzeile schließt sich ein entsprechender weiterer Abschnitt des Videosignals an.
Fig. 5 zeigt ein Blockschaltbild einer Vorrichtung zur Durchführung des anhand Fig. 3 erläuterten Verfahrens.
Die Vorrichtung enthält einen Leseteil 12, der eine Sensoreinheit zum Abtasten der Vorlage 2 in dem zeilenförmigen Raster, sowie die zugehörige Ablenkelektronik, und die Umsetzung des Videosignals in ein digitales Videosignal enthält, vergl. auch Fig. 6. Über eine Lese-Schnittstelle 13 ist ein Auswerteteil 14 angeschlossen, der einen Prozessor für die Ablaufsteuerung und einen weiteren Prozessor für die Bedienung einer Ausgabe-Schnittstelle enthält, welche den Auswerteteil 14 mit einem Ausgabe-Gerät, z.B. einem Drucker oder einem Bildschirm verbindet. Der Auswerteteil 14 ist ferner mit der Bedienungskonsole 16 und gegebenenfalls mit einem Korrekturarbeitsplatz 18 verbunden.
In Fig. 6 ist der Leseteil 12 als Blockschaltbild dargestellt. Als Sensor ist im dargestellten Beispiel eine Flying-Spot-Abtaströhre vorgesehen, deren Abtaststrahl mittels einer Ablenkelektronik 26 in dem zeilensequentiellen Raster x, y und durch eine Optik 22 auf die Lesefläche 20 gerichtet wird. Der reflektierte Abtaststrahl trifft auf einen Photomultiplier 28, welcher das reflektierte optische Hell/Dunkel-Signal in ein elektrisches analoges Videosignal umsetzt. Das analoge Videosignal wird vom Videoverstärker 30 verstärkt und anschließend in einem Analog/Digital-Wandler 36 in das digitale Videosignal umgewandelt. Die Ablenkelektronik 26 gibt zu jedem Zeitpunkt die Rasterpunkt-Koordinaten xi, yj zusammen mit der..jeweils zugeordneten Amplitude des digitalen Videosignals an die weitere Schaltung ab. Vorgesehen ist ferner zwischen dem Videoverstärker 30 und dem Analog/Digital-Wandler 36 eine Kontrastautomatik 34, die das analoge Videosignal auch bei verringertem Hell/Dunkel-Kontrast der Druckvorlage die zur Digitalisierung erforderlichen ausreichenden Amplitudenwerte zuordnet.
Fig. 7 zeigt ein Blockschaltbild des Auswerteteils 14 der Fig. 5. Der Auswerteteil 14 enthält einen Graphik-Digitalisierer 54 und einen Klarschriftdekoder 52, die abwechselnd das vom Leseteil 12 gelieferte digitale Videosignal empfangen und digitalisiert bzw. als dekodierte Schriftsignale an einen Ausgabespeicher 56 abgeben.
Vorgesehen ist ferner eine zentrale Steuereinheit 40, zur Steuerung des zeitlichen Ablaufs der Gewinnung sowie der Verarbeitung des Videosignales.
Der Video-Ausgang des Leseteils 12 ist mit dem Graphik-Digitalisierer 54 verbunden, dessen Ausgang in den Ausgabespeicher 56 führt. Der Videoausgang des Leseteils 12 ist ferner mit einem Zeilen-Stapelspeicher 44 verbunden, dessen Ausgang in einen Arbeitspufferspeicher 47 führt, der über den Klarschriftdekoder 52 ebenfalls an den Ausgabespeicher 56 angeschlossen ist. Der Inhalt des Zeilen-Stapelspeichers 44 besteht jeweils aus einer vorgegebenen Anzahl H an aufeinanderfolgenden Rasterzeilen, die zusammen als Rastersegmente R1 bezeichnet sind und jeweils zusammen in einer Bewertungsschaltung 46 einer Bewertung unterzogen werden, die Auskunft darüber gibt, ob in dem betreffenden Rastersegment ausschließlich Schriftinformation enthalten ist. Der Ausgang der Bewertungsschaltung 46 ist mit einem Steuerwort-Bildungsregister 48 verbunden, das seinerseits mit einer Zustandssteuerung 50 verbunden ist, die den Klarschriftdekoder 52 steuert.
Die Rasterpunkt-Koordinaten werden vom Leseteil 12 an ein Koordinatenregister 42 abgegeben, welches den Zeilen-Stapelspeicher 44 adressiert, und dessen Ausgang mit dem Steuerwort-Bildungsregister 48 und mit dem Ausgangsspeicher 56 verbunden ist. Die Zustands steuerung 50 ist ferner mit dem Grafik-Digitalisierer 54 verbunden und steuert je nach dem Inhalt des von dem Steuerwort-Bildungsregister 4 8 erhaltenen Steuerwort entweder den Klarschriftdekoder 52 oder den Grafik-Digitalisierer 54 in einen aktiven Zustand.
Die Rasterpunkt-Koordinaten werden auch zur Adressierung bzw. zum Eintakten des digitalen Videosignals in dem Zeilen-Stapelregister 44 verwendet. Erkennt die Bewertungsschaltung 46, welche das jeweils im Zeilen-Stapelregister 44 enthaltene Videosignal der H-Raster- Zeilen auf "schrift"bzw."Grafik"bewertett daß in dem bewerteten Rastersegment ausschließlich Schriftinformation enthalten ist, so werden die das gerade bewertete Rastersegment kennzeichnende Koordinaten, z.B. die Anfangskoordinaten des betreffenden Rastersegments, im Koordinatenregister 42 gespeichert und als Positionskennung an das Steuerwort-Bildungsregister 48 abgegeben, welches von der Bewertungsschaltung 46 eine Status-Kennung 1,Schrift" enthält. Das Steuerwort-Bildungsregister 48 bildet dann ein Schrift-Statuswort S1, 1 = 0, 1, 2, ..., welches die Positionskennunt und die Statuskennung für das betreffende Rastersegment R1 enthält. Das Statuswort wird an die Zustandssteuerung 50 abgegeben, die daraufhin das im Zeilen-Stapelspeicher 44 enthaltene Videosignal in dem nachgeschalteten Arbeitspuffer 47 abspeichert, woraufhin der Klarschriftdekoder 52 aktiviert und der Grafik-Digitalisierer 54, welcher auch das entsprechende Videosignal empfangen hat, deaktiviert wird. Im Klarschriftdekoder 52 wird das empfangene Videosignal dekodiert und als Schriftzeichen-Signal im Ausgabespeicher 56 unter den vom Koordinatenregister 42 bestimmten Adressen abgespeichert. Ebenfalls wird unter diesen Adressen das jeweilige Statuswort abgespeichert.
Wird dagegen im aktuellen Rastersegment in der Bewertungsschaltung 46 nicht auf "Schrift" erkannt, so gibt der Zeilen-Stapelspeicher 44 seine oberste bzw. unterste Zeile 1 ab und erhält eine neue unterste bzw. oberste 1 + H zugeführt, woraufhin das neue Rastersegment R bewertet wird. Bei Abgabe einer Rasterzeile, d.h. bei Nichterkennung von Schrift gibt die Bewertungsschaltung 46 ein den Zustand "Grafik" kennzeichnendes Signal an die Zustandssteuerung 50 ab, die vom Koordinatenregister 42 die zugehörigen Koordinaten erhält und damit ein Grafik-Statuswort G1 bildet.
Figur 8 zeigt schematisch einen Zeilen-Stapelspeicher 44, der über die Länge einer Rasterzeile in mehrere aneinander angrenzende Untersegmente 43A, 43B, 43C etc unterteilt ist, wobei die Untersegmente in Zeilenrichtung alle dieselbe Anzahl an Rasterpunkten aufnehmen, d.h. dieselbe Länge besitzen. Als Positionskennung der einzelnen in den Untersegmenten 43A, 43B, 43C jeweils gespeicherten Raster-Untersegmente RA1, RB1, RCl etc. wird jeweils der erste Rasterpunkt XA, XB, Xc und jeweils die oberste gespeicherte Zeilennummer y1 im Koordinatenregister 42 gespeichert und verfügbar gehalten. Die einzelnen Rasteruntersegmente in den Speicher-Untersegmenten werden parallel oder nacheinander in der Bewertungsschaltung 46 bewertet, und für jedes Raster-Untersegment bzw. für jedes aus einem Speicher-Untersegment verworfene Teilstück einer Rasterzeile wird ein eigenes Statuswort S, G gebildet, und zusammen mit Koordinateninformation sowie mit dem digitalisierten Videosignal (Grafik) bzw.
dem Schrift-Codesignal (Schrift) gespeichert.
Die Figuren 9 und 10 zeigen je ein Raster-Untersegment mit der in diesem Segment enthaltenen Schrift- oder Grafik-Information. Dargestellt ist ferner für jedes Zeilenstück dieses Raster-Untersegments ein Schwärzungs-Summensignal, welches sich durch Summation der in der betreffenden Zeile enthaltenen Dunkel-Amplituden ergibt.
Befinden sich z.B. in einem Rasterzeilen-Teilstück vier Dunkel-Amplituden, wie z.B. in der Zeile x3, so hat das Schwärzungs-Summensignal für diese Zeile den Wert 4.
Befinden sich dagegen in der Zeile X10 nur zwei Dunkel-Amplituden, so besitzt das Schwärzungs-Summensignal für diese Zeile den Wert 2 etc. Deutlich erkennbar ist es, daß - je nach der Norm der verwendeten Schriftzeichen - jeweils eine Anzahl oberer und unterer Zeilen keine Schwärzung enthält, sofern nur Schriftinformation in diesem Raster-Untersegment vorhanden ist. Das Schwärzungs-Summensignal ist für diese Randzeilen dann Null. Als Bewertungskriterium für "Schrift" wird nun eine bestimmte Verteilung des Schwärzungs-Summensignals als Funktion der Zeilennummern des betreffenden Raster-Untersegments vorgeschrieben. Im dargestellten Beispiel ist das Kriterium dann erfüllt, wenn in den oberen und unteren vier Zeilen jeweils das Schwärzungs-Summensignal 0 , in den restlichen mittleren Zeilen dagegen ein vorgegebener Mindestwert vom Schwärzungs-Summensignal überschritten wird. Das Bewertungskriterium läßt sich verfeinern. Insbesondere läßt sich eine Verteilung der Schwärzungs-Summen als Funktion der Zeilennummern angeben, die überschritten werden muß und/oder eine weitere Verteilung, die nicht überschritten werden darf, damit die Information als "Schrift" erkannt werden soll.
Die Figuren 1Oa bis 10c zeigen weitere Beispiele der Verteilung des Schwärzungs-Summensignals in Raster-Untersegmenten als Funktion der Zeilennummer. Figur 10a gibt eine Verteilung für "Grafik" wieder, deren Kennzeichen es ist, daß auch die oberen und unteren Randzeilen Schwärzung besitzen, und daß darüber hinaus die Verteilung der Schwärzungssumme als Funktion der Zeilennummer stark schwankt. Figur 1Ob zeigt eine weitere Verteilung des Schwärzungs-Summensignals als Funktion der Zeilennummer. bei einem Raster-Untersegment, welches sowohl Grafik- als auch Schriftinformation enthält. Da im unteren Bereich eine Schwärzung vorhanden ist, wird das Kriterium für Schrift nicht erfüllt, es wird vielmehr auf "Grafik" erkannt. Figur 10c zeigt einen Sonderfall, nämlich ein Raster-Untersegment,bei dem keinerlei Schwärzung auftritt. Das Schwärzungs-Summensignal bleibt daher für alle Zeilen unter seinem bestimmten Mindestwert. Es wird auf "Leerfeld" erkannt und ein entsprechendes Statuswort erzeugt, welches z.B. eine Leer-Information unter Umgehung des Grafik-Digitalisierers 54 und des Klarschrift-Dekoders 52 in den Ausgabespeicher schreibt.
Allerdings läßt sich mit derartigen Bewertungskriterien nicht mit 100%-iger Sicherheit ausschließen, daß Grafikinformation bei entsprechender Anordnung der Grafik als "Schrift" bewertet wird. In diesem Fall wird das Videosignal über den Arbeitspuffer 47 dem Klarschrift-Dekoder 52 zugeführt, der dann keine Schriftzeichen erkennen kann und die Dekodierung beendet. Für diesen Fall wird dann automatisch der Grafik-Digitalisierer daß aktiviert. Umgekehrt ist es möglich,/Vorhandene Schrift als Grafik bewertet wird und dann über den Grafik-Digitalisierer digitalisiert und abgespeichert wird. Die auf diese Weise gespeicherte Information ist zwar auf eine Vorlage oder einen Bildschirm auswerfbar, sie steht jedoch nicht in einem üblichen Schriftcode zur Datenfernübertragung zur Verfügung und könnte nur im Grafik-Mode übertragen werden.
Figur 11 zeigt den Sonderfall, daß bei zwei aufeinanderfolgenden Raster-Untersegmenten, z.B. RD1, RE1, die gemeinsame Grenze ein Schriftzeichen in zwei Teile teilt. Ein Teil dieses Zeichens liegt im Rasteruntersegment RD1, welches bei der Bewertung das Kriterium für "Schrift" erkennt. Der andere Teil liegt im Raster-Untersegment RE1, welches im dargestellten Beispiel ebenfalls bei der Bewertung das Kriterium "Schrift" erfüllt. Um zu verhindern, daß der Klarschrift-Dekoder 52 am Ende des Raster-Untersegments RD1 bei Ankunft an dem geteilten Zeichen die Dekodierung beendet und auf Grafik-Komprimierung umschaltet, und um ferner zu verhindern, daß der Klarschrift-Dekoder beim Raster-Untersegment RE1 den zu Anfang stehenden Zeichenteil nicht erkennt und damit die Dekodierung nicht anfängt, sondern sofort den Grafik-Digitalisierer 54 aktiviert, werden zweckmäßigerweise mehrere aufeinanderfolgende Raster-Untersegmente, die alle mit "Schrift" bewertet sind, zu einem Schriftfeld zusammengefaßt, das durch ein Schriftfeld-Statuswort SF1 gekennzeichnet wird. Derartige Schriftfeld-Rastersegmente werden als Einheit in dem Arbeitspuffer 47 abgespeichert, so daß die von benachbarten Rastersegmenten erfaßten Teile von Schriftzeichen im Arbeitspuffer wieder zu einem vollständigen Zeichen zusammengesetzt werden, welches vom Dekoder 52 auch dekodiert wird. Auf diese Weise wird verhindert, daß der Dekodiervorgang an einer Grenze benachbarter Raster-Untersegmente, die beide ein Schrift-Statuswort SD1' SE1 besitzen, beendet wird.
Figur 12 zeigt die Organisation eines Zeilen-Stapelregisters, welches aus H Zeilenregistern 60 besteht.
Der Anfang jedes Zeilenregisters 60 ist mit dem Ende des nächsten Zeilenregisters verbunden. Vor dem ersten Zeilenregister 60 liegt ein Einlese-Zeilenregister 62.
Die Zeilenregister 60, 62 sind z.B. als Schieberegister ausgebildet und erhalten die Rasterpunkt-Koordinaten y. yj vom Leseteil als Taktsignal, und sie erhalten am 3 Eingang des Einlese-Zeilenregisters 62 das digitale Videosignal vom Leseteil 12 zugeführt. Bei Abtastung einer Rasterzeile wird das dabei erhaltene digitale Videosignal in die Einlesezeile des Zeilen-Stapelspeichers 44 eingetaktet. Beim Abtasten der nächsten Zeile wird die zuvor eingelesene Zeile in das nächsthöhere Zeilenregister 60 übertragen und die neue Rasterzeile in die Einlesezeile 62 eingelesen, etc. Dieser Arbeitszyklus hat zur Folge, daß bei jedem Einlesen einer neuen Rasterzeile der Inhalt der obersten Rasterzeile des Zeilen-Stapelspeichers 44 abgegeben wird.
Neben dem Zeilen-Stapelspeicher 44 ist die Bewertungsschaltung 46 dargestellt, die so an die einzelnen Zeilenregister 60 angeschlossen ist, daß der Inhalt jedes Zeilenregisters bei seinem Übertrag in das nächsthöhere Zeilenregister die Bewertungs-Schaltung 46 durchläuft, die an jedem Eingang ein Summierglied enthält, welches beim Durchtakten des Videosignals aus dem davor liegenden Zeilenregister die Dunkel-Amplituden aufsummiert und auf diese Weise das Schwärzungs-Summensignal für die Rasterzeile bildet, welche in dem davor liegenden Zeilenregister jeweils gespeichert ist. In der Bewertungs-Schaltung sind auf diese Weise stets die Schwäzungs-Summen aller im Zeilen-Stapelspeicher 44 aktuell gespeicherten Rasterzeilen bzw. Rasterzeilen-Stücke gebildet, und es läßt sich mittels den einzelnen Zeilen zugeordneter Hardware leicht feststellen, ob ein Bewertungskriterium, d.h. eine Verteilung der Schwärzungs-Summen eingehalten wird.
Die Bewertungsschaltung 46 entscheidet über die Art der Weiterverarbeitung der im Stapelspeicher 44 - und parallel auch im Grafik-Digitalisierer - enthaltenen Information. Wird ein Rastersegment bzw. Rasteruntersegment als "Schrift" bewertet, so werden alle Zeilen parallel in den Arbeitspuffer 47 eingelesen, dessen Organisation in Figur 13 dargestellt ist. In dem Arbeitspuffer 47 werden dann vom Klarschrift-Dekoder 52 mittels einer Auslesesteuerung die einzelnen Schriftzeichen auf bekannte Weise dekodiert. Z.B. wird der Inhalt des Arbeitspuffers 47 Zeichen für Zeichen mit der genormten Feldgröße ausgelesen, vergl. auch Fig.
2, und im Dekoder mit einem bekannten Dekodier-Algorithmus in einen bekannten Schrift-Code umgesetzt, der an den Ausgabespeicher 56 abgegeben wird.
Erkennt dagegen die Bewertungsschaltung 46, Figur 12, keine Schrift, so wird die oberste Zeile des Stapelspeichers 44 ausgegeben, eine neue Rasterzeile eingelesen, die Inhalte der Zeilenregister werden in das nächsthöhere Zeilenregister übertragen. Gleichzeitig wird ein Grafik-Statuswort G1 für diese Rasterzeile gebildet, und es wird der Grafik-Digitalisierer 54 aktiviert, der die abgegebene Zeile digitalisiert, die der Grafik-Digitalisierer entweder direkt vom Leseteil 12 erhalten hat (wie dargestellt) bzw. die dem Grafik-Digitalisierer von dem Stapelspeicher zugeführt wird (nicht dargestellt).
Der Grafik-Digitalisierer 54 enthält einen der bekannten Grafik-Kompressionsschaltungen, welche nach einem der bekannten Kompressionsverfahren arbeitet, so z.B.
nach dem sogenannten Lauflängen-Kompressionsverfahren, welches in Figur 14 an einem Beispiel dargestellt ist.
Das Kontrastmuster innerhalb der zu digitalisierenden Rasterzeile wird bei diesem Verfahren dadurch eindeutig festgelegt, daß jeweils der Beginn und die Länge bzw. das Ende auftretender Dunkelimplituden koordinatenmäßig erfaßt und im Ausgabespeicher abgespeichert werden. Jede Zeile wird dabei unabhängig von benachbarten Zeilen komprimiert.
In den Figuren 6 und 12 sind Anschlüsse an die zentrale Steuereinheit 40 jeweils mit öc eingetragen.
Derartige Verbindungen an die zentrale Steuereinheit sind je nach dem zeitlichen Ablauf eines Gesamtlesevorganges vorgesehen. Neben den dargestellten Anschlüssen zu sind je nach Organisation dieser Steuerung noch weitere, nicht dargestellte Anschlüsse möglich.
Wünscht der Benutzer, abgelegte Dokumente ohne Kenntnis der speziellen Dokumenten-Kennung, z.B. der Dokumenten-Nummer oder dergleichen, aus dem Ausgäbespeicher 56 auszulesen und zu diesem Zweck einem hierfür geeigneten Drucker oder Bildschirm zuzuführen, so muss bei Vorgabe eines bekannten Vergleichsdokumentes ein assoziatives Suchen nach ähnlichen abgelegten Dokumenten durchgeführt werden. Es soll dann möglich sein, nach Dokumenten bzw. Klassen von Dokumenten zu suchen, welche bestimmte vorgegebene Merkmale aufweisen, die durch das bestimmte Vergleichsdokument vorgegeben sind. Auf diese Weise wird die Menge, unter der sich das gesuchte Dokument befinden kann, eingegrenzt. Soll zum Beispiel ein bestimmtes Dokument gesucht werden, welches in einer nach Grösse und Lage vorgegebenen Teilfläche eine Unterschrift enthält, so können alle diejenigen abgelegten Dokumente ermittelt werden, die in diesem Feld mit hoher Wahrscheinlichkeit ein ähnliches Unterschriftsfeld aufweisen.
Assoziative Speicher sind bekannt, die dazu dienen, bestimmte Muster oder Dokumente aufzufinden, von denen Teile bekannt sind. Das abgespeicherte Dokument wird durch Vergleich mit dem - mindestens "ähnlichen" -Vergleichsmuster bestimmt und ausgegeben. Der Vergleich erfolgt durch Korrelation des abgespeicherten Dokumentes mit dem Vergleichsdokument. Nur für ähnliche Muster ergibt die Korrelation einen Korrelationswert, der bei identischen Mustern den Wert 1 annimmt und mit zunehmender Abweichung der verglichenen Muster kleiner wird.
Grundsätzlich lässt sich der assoziative Suchvorgang nach Textteilen und/oder nach Grafik durchführen. Bei einem assoziativen Vergleich von Textteilen werden die digitalen Code-Aquivalente der Zeichen, zum Beispiel das binäre, oktale oder hexadezimale Aquivalent eines Buchstabens z.B. als ASCII-Zeichen miteinander korreliert, und der dabei erhaltene Korrelationswert wird bewertet und als Maß für die Ähnlichkeit der Vergleichszeichen abgegeben.
Bei einem assoziativen Suchvorgang nach Grafik erstreckt sich die hierbei durchzuführende Korrelation auf die digitalisierten Elemente der Grafik, also auf die Gesamtheit der Bildpunkte. Komprimierte Grafik - zum Beispiel in der oben angeführten Lauflängencodierung komprimierte Grafik - lässt sich ebenfalls korrelieren. Vom Vergleichsbild muss zu diesem Zweck das lauflängencodierte Signal gebildet werden, welches dann mit dem lauflängencodierten Signal des gesuchten Bildes korreliert wird.
Bei der Korrelation wird das Videosignal sich entsprechender Abtastzeilen oder Abtastspalten miteinander korreliert, wodurch sich für jede Abtastzeile oder -spalte ein Zeilen-bzw. Spalten-Korrelationswert ergibt. Um ein bequemes Maß für die Ähnlichkeit von Vergleichs dokument und gesuchtem Dokument herzustellen, lassen sich alle Zeilen- bzw.
Spalten-Korrelationswerte zu einem sogenannten Dokumenten-Korrelationswert aufsummieren. Anschliessend lässt sich der Dokumenten-Korrelationswert als ein Eingrenzungskriterium dem Benutzer zur Verfügung stellen.
In Fig. 15 ist eine Erweiterung der Schaltung gemäss Fig. 7 dargestellt, die zum assoziativen Aufsuchen von im Ausgabespeicher 15 abgelegten Dokumenten dient. Ein dem gesuchten Dokument entsprechendes Vergleiichsdokument wird auf den Leseteil 12 aufgelegt und nach dem erfindungsgemässen Verfahren erfasst. Das Koordinatenregister 42, der Klarschriftdecoder 52, das Steuerbildungsregister 48 und der Grafik-Digitalisierer 54 werden vom Benutzer vor dem Einlesen des Vergleichsdokumentes gemeinsam von dem Ausgabespeicher auf einen Vergleichsdokument-Speicher 70 umgeschaltet. Dadurch wird das dem Leseteil 12 zugeführte Vergleichsdokument in derselben Weise erfasst wie die zuvor in den Ausgabespeicher 56 abgelegten Dokumente, die normalerweise dem Ausgabespeicher zugeführte Information wird jedoch beim Erfassen des Vergleichsdokumentes in den Vergleichsdokument-Speicher 17 abgelegt. Anschliessend wird im Ausgabespeicher 56 abgespeicherte Information der einzelnen Dokumente sequentiell jeweils in einen Suchspeicher 72 eingelesen. Der Vergleichsdokument-Speicher 70 und der Suchspeicher 72 sind mit einem Korrelator 74 verbunden, der den Inhalt sich entsprechender Rasterzeilen oder Rastenspalten des Suchspeichers 72 und des Vergleichsdokument-Speichers 70 korreliert und die Summe aller Zeilen- bzw. Spalten-Korrelationswerte als sogenannten Dokumenten-Korrelationswert zusammen mit einer das verglichene Dokument kennzeichnenden Dokumenten-Kennung als sogenannten Dokumenten-Korrelationswert in einen Ergebnisspeicher 76 abgibt.
Vorgesehen ist ferner eine Auswerteschaltung 78, welche die Dokumenten-Kennungen nach der Grösse der zugeordneten Dokumenten-Korrelationswerte ordnet und dem Benutzer auf Wunsch zur Verfügung stellt, um dem Benutzer diejenigen Dokumente anzuzeigen, welche mit dem vorgegebenen Vergleichsdokument die grösste Ähnlichkeit besitzen. Dadurch ist die Menge eingegrenzt, unter der der Benutzer das zu suchende Dokument mit hoher Wahrscheinlichkeit findet.
- Leerseite -

Claims

Verfahren und Vorrichtung zum Lesen und Speichern von Information Patentansprüche: 1. Verfahren zum Lesen und Speichern von Information, aus dekodierbarer Schriftinformation und/oder nichtdekodierbarer Graphikinformation besteht und als optisches Kontrastmuster auf einer Vorlage oder dergleichen angeordnet ist, wobei die Vorlage oder vorbestimmte Teile davon ausgerichtet in einem zeilenförmigen Punktraster abgetastet und ein entsprechendes Videosignal erzeugt wird, welches digitalisiert, und dann abgespeichert wird, dadurch gekennzeichnet, daß a) während jedes Abtastvorganges jeder Rasterpunkt (xi, y.) durch die laufende Koordinate xi, i=0,1,2, ... M j innerhalb der Rasterzeile Yj j=0,1,2, ... N, bestimmt ist, b) das digitale Videosignal von 1 jeweils um eine oder mehrere Zeilen versetzten Rastersegmenten R1 (x., yj i = 0,1,2, ... M; j = l, l+1,...l+H-1) 1 1 3 mit 1 = 0, 1, 2, 3, ... (N -oder 1 = 0, 2, 4, 6, oder 1 = 0, 3, 6, 9, ...; etc.

und H = die einer Schriftzeile entsprechende Anzahl an Rasterzeilen auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft wird, welches das Vorhandensein einer Schriftinformation innerhalb des jeweiligen Rastersegments meldet, c) bei Erfüllung des Bewertungskriteriums ein Schrift-Statuswort Sl gebildet wird, welches das betreffende Rastersegment als Schriftelement kennzeichnet und eine Positionskennung (zum Beispiel Koordinaten xi,yl) auf der Vorlage angibt d) und anschließend das digitale Videosignal des durch ein Schrift-Statuswort Sl gekennzeichneten Rastersegments R1 dekodiert und in einem Schriftcode, alle anderen Bereiche des Rasters in einem Graphikcode unter Adressen abgespeichert werden, die den zugeordneten Rasterkoordianten entsprechen.
2. Verfahren nach Anspruch 1, wobei Zeichen nur in vorgegebenen Zeilenfeldern auf der Vorlage zugelassen sind und einen vorgegebenen Zeilenabstand oder ein mehrfaches dieses Zeilenabstandes besitzen, dadurch gekennzeichnet, daß das digitale Videosignal von jeweils 1 jeweils um H Zeilen versetzten Rastersegmenten R1 (X'' Yj; i = 0,1,2,...M; j = lH, lH+1,...(1+1)H) mit 1 = 0, 1, 2, 3, H = die einer Schriftzeile entsprechende Anzahl an Abtastzeilen beginnend mit dem ersten Zeilenfeld auf die Erfüllung mindestens eines Bewertungskriteriums hin geprüft wird, welches das-Vorhandensein einer Schriftinformation innerhalb des Rastersegments meldet.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Rastersegmente R1 in Zeilenrichtung in mehrere Rasteruntersegmente RA1, RB1, RCl, ... unterteilt sind, wobei gilt: RAl = RAl(xi,yj; i = 0,1,2,...A-1; j = 1, l+1,...l+H1) RB1 = RBl(xi,yj; i = A, A+1,...B; j = 1, 1+1,...1+H ) A + B + C + ... = die jedes für sich wie ein Rastersegment behandelt werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß alle Rasteruntersegmente RA1, RBlr RC1 dieselbe Länge besitzen, d.h. daß gilt: A = B = C ...
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die nebeneinanderliegenden Rasteruntersegmente zeitlich gleichzeitig auf Erfüllung des Bewertungskriteriums geprüft werden.
6. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die Schrift-Statuswörter S1 aufeinangerfolgender Rastersegmente oder Rasteruntersegmente alle zu einem Schriftfeld-Statuswort unter einer Adresse zusammengefaßt werden, welches eine Information über die Form und Größe des Schriftfeldes enthält.
7. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die bei der Bewertungsprüfung verworfenen Rasterzeilen oder Rasterzeilenstücke mit je einem Graphik-Statuswort G1 bezeichnet werden, welches eine Positionskennung enthält und die betreffende Rasterzeile oder das Rasterzeilenstück als Graphik kennzeichnet.
8. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Graphik-Statuswörter G1 aufeinanderfolgender Rasterzeilen und/oder Rasterzeilenstücke zu einem Graphikfeld-Statuswort unter einer Adresse zusammengefaßt werden, welches eine Information über die Form und GröBe des Graphikfelds enthält.
9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß bei Prüfung auf Schrift/Graphikinformation die als Graphik erkannten Rasterzeilen oder Rasterzeilenstücke eine-Sonderkennung in ihrem Graphik-Statuswort erhalten, wenn die Rasterzeile oaer Rasterzeilenstück keine Schwärzung enthält.
10. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß das Bewertungskriterium innerhalb der Raster segmente oder -untersegmente eine vorgegebene Anzahl oberer und unterer schwärzungsfreier Leerzeilen und eine Schwärzung in den Zeilen zwischen den Leerzeilen vorschreibt.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das Bewertungskriterium für jede zwischen den Leerzeilen befindliche Zeile einen vorgegebenen Schwärzungssummenwert vorschreibt, welcher die längs einer Zeile aufsummierte Schwärzung angibt.
12. Verfahren nach 10 oder 11, dadurch gekennzeichnet, daß das Bewertungskriterium in Abhängigkeit von der jeweils verwendeten Schrifttype vorgebbar ist.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß zur Erkennung der verwendeten Schrifttype das Bewertungskriterium verschiedener Schrifttypen auf die Rastersegmente oder -untersegmente angewendet werden, und daß bei Erfüllung eines der Bewertungskriterien eine Schrifttypen-Kennung in das Schrift-Statuswort auf genommen wird.
14. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß nach der Bewertungsprüfung das digitale Videosignal und die Statuswörter zwischengespeichert werden, und daß mit dem Auslesen des Videosignals in vorgegebener Adressfolge jeweils auch die Schrift- und Graphik-Statuswörter ausgelesen werden und zur Steuerung der Weiterverarbeitung (Schriftdekodierung oder Graphikkompression) verfügbar sind.
15. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß bei der Graphikverarbeitung eine Informationskompression erfolgt.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die Informationskompression eine Lauflängen-Kompression ist.
17. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß innerhalb eines Rastersegments oder -untersegments die Schriftkodierung endet, und die Graphikverarbeitung einsetzt, sobald eine nicht dekodierbare Information auftritt, und daß für den betreffenden Teilbereich des Rastersegments oder -untersegments ein Graphik-Statuswort erzeugt, und das Schrift-Statuswort des Rastersegments entsprechend abgeändert wird.
18. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1 oder 2, a) mit einem Leseteil (12), welcher die Vorlage (2) ausgerichtet in dem zeilenförmigen Punktraster abtastet und das den Rasterpunkten zugeordnete digitale Videosignal abgibt, b) mit einem Graphik-Digitalisierer (54), der das digitale Videosignal komprimiert und anschließend an c) einen Ausgabespeicher (56) abgibt, wobei die Adressen der Speicherplätze den Ortkoordinaten der zugeordneten Rasterpunkte auf der Vorlage entsprechen., d) und mit einer zentralen Steuereinheit (40) zur Steuerung der Gewinnung und Verarbeitung des Videosignals, gekennzeichnet durch e) einen Zeilen-Stapelspeicher (44) zur Speicherung des Videosignals der Rastersegmente aus jeweils gleichzeitig H Rasterzeilen, der beim Eintritt der <l+H)ten Zeile jeweils die l-te Zeile abgibt, wobei 1 = 0, 1, 2, f) eine Bewertungsschaltung (46), welche prüft, ob das jeweils im Zeilen-Stapelspeicher (44) enthaltene Videosignal das Bewertungskriterium erfüllt, welches das Vorhandensein von Schriftinformationen in den gespeicherten H Rasterzeilen meldet, g) ein Koordinatenregister (42), welches die Koordinaten einer Adresse speichert (zum Beispiel Koordinaten xkt Y1), die das gerade im Zeilen-Stapelspeicher (44) gespeicherte aktuelle Rastersegment kennezeichnet, h) ein Steuerwort-Bildungsregister (48), welches bei Erfüllung des Bewertungskriteriums aus der im Koordinatenregister gespeicherten Adresse (Xkr Y1) und aus einem Kennsignal der Bewertungsschaltung (46) ein Schrift-Statuswort S1 bildet und an i) eine Zustandssteuerung (50) abgibt, die daraufhin das im Zeilen-Stapelspeicher (44) enthaltene Videosignal statt an den Graphik-Digitalisierer (54) an j) einen Klaschriftdecoder (52) abgibt, welcher das empfangene Videosignal dekodiert und das erhaltene Schriftzeichen-Signal im Ausgabespeicher (56) an durch den Inhalt des Koordinatenregisters (42) bestimmten Adressen speichert.
19. Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, daß der Zeilen-Stapelspeicher (44) über die Länge der Rasterzeile in Stapelspeicher-Untersegmente (43A,B,C.. -) unterteilt ist, daß der Inhalt (Rasteruntersegmente) jedes Speicheruntersegments (43A, B, C...) jeweils separat in der Bewertungsschaltung (46) auf Erfüllung des Bewertungskriteriums geprüft wird, und daß für jedes Speicheruntersegment (43A, B, C...) ein Koordinatenregister vorgesehen ist.
20. Vorrichtung nach Anspruch 18 oder 19, dadurch gekennzeichnet, daß das Koordinatenregister (42) jeweils die Koordinate des Anfangspunkts (Xkr y1) der im Zeilen-Stapelspeicher jeweils zu oberst oder zu unterst befindlichen Raster zeile speichert.
21. Vorrichtung nach Anspruch 18, 19 oder 20, dadurch gekennzeichnet, daß für jede l-te Zeile, welche nach Nichterfüllung des Bewertungskriteriums vom Zeichen-Stapelspeicher (44) abgegeben wird während die (l+H)-te Zeile eingetastet wird, in dem Steuerwort-Bildungsregister (48) ein Graphik-Statuswort G1 unter der zugeordneten Adresse aus dem Koordinatenregister (42) gebildet wird.
22. Vorrichtung nach einem der Ansprüche 18 bis 21, dadurch gekennzeichnet, daß der Zeilen-Stapelspeicher (44) eine zusätzliche Einlesezeile (62) besitzt und aus einzinen seriell einlesbaren Zeilenregistern (60) besteht, wobei der Anfang jedes Zeilenregisters (60) mit dem Ende des nächsten Zeilenregisters (60) verbunden ist, und daß der Inhalt jedes Zeilenregisters bei Übertrag in das nächste Zeilenregister die Bewertungsschaltung (46) durchläuft, welche vor dem Ende jedes Zeilenregisters ein Summierglied enthält, welches beim Durchtakten des Videosignals des davorliegenden Zeilenregisters die Schwärzungsamplituden aufsummiert und dabei das Schwärzungssummensignal dieser Zeile bildet und hält.
23. Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, daß die Bewertungsschaltung (46) prüft, ob das Schwärzungssummensignal einer vorgegebenen Anzahl oberer und unterer Leerzeilen unter einem vorgegebenen geringen Schwellwert bleibt, und für die zwischen den Leerzeilen liegenden Zeilen über einem vorgegebenen Mindestwert liegen.
24. Vorrichtung nach einem der Ansprüche 18 bis 23, dadurch gekennzeichnet, daß ein Arbeitspuffer (47) dem Zeilen-Stapelspeicher (44) nachgeschaltet ist, der in einem parallelen Transfer alle Zeilen des Zeilen-Stapelspeichers (44) erhält, wenn das aktuelle Rastersegment das Bewertungskriterium erfüllt, und daß der Klarschriftdekoder (52) bei seiner Aktivierung durch ein Schrift-Statuswort die zu dekodierende Schriftinformation aus dem Arbeitspuffer (47) holt.
25. Vorrichtung nach einem der Ansprüche 18 bis 24, dadurch gekennzeichnet, daß der erste Klarschriftdekoder (52) zur Dekodierung einer ersten Schrifttype dient, daß ein zweiter Klarschriftdekoder zum Dekodieren einer zweiten Schrifttype vorgesehen ist, und daß die Bewertungsschaltung bei Bewertungsprüfung erkennt, ob Informationen der ersten oder zweiten Schrifttype vorliegen und dem Schrift-Statuswort eine entsprechende Kennung einschreibt, und daß bei Vorhandensein der ersten Schrifttype der erste Klarschriftdekoder, das Vorhandensein der zweiten Schrifttype der zweite Klarschriftdekoder aktiviert wird.
26. Vorrichtung nach einem der Ansprüche 18 bis 25, dadurch gekennzeichnet, daß der Graphik-Digitalisierer (54) eine Kompressionsschaltung zur Komprimierung der Graphik-Information enthält.
27. Vorrichtung nach einem der Ansprüche 18 bis 26, dadurch gekennzeichnet, dass zum assoziåtiven Auf& suchen von im Ausgabespeicher (56) abgelegten Dokumenten ein dem gesuchten Dokument entsprechendes Vergleichsdokument auf den Leseteil (12) als Vorlage einlesbar ist, dass das Koordinatenregister (42), der Klarschriftdecoder (52), das Steuerwort-Bildungsregister (48) und der Grafik-Digitalisierer (54) beim Lesen eines Vergleichsdokumentes gemeinsam von dem Ausgabespeicher (56) auf einen Vergleichsdokument-Speicher (7>0) umschaltbar sind, dass im Ausgabespeicher (56) die abgespeicherten Dokumente sequentiell in einen Suchspeicher (72) einlesbar ist, und dass ein Korrelator (74) vorgesehen ist, der den Inhalt sich entsprechender Rasterzeilen oder Rasterspalten es Suchspeichers (72) und des Vergleichsdokument-Speichers (70) korreliert und die Summe aller Zeilen- bzw.

Spalten-Korrelationswerte als ein Maß für die Shnlichkeit zwischen Vergleichsdokument und verglichenem Dokument bildet und als Dokumenten-Korrelationswert abgibt.
28. Vorrichtung nach Anspruch 27, dadurch gekennzeichnet, dass der Korrelator (74) die Dokumenten-Korrelationswerte zusammen mit einer das zugehörige Dokument kennzeichnenden Dokumenten-Kennung in einen Ergebnis-Speicher (76) lädt, und dass eine Auswerteschaltung (78) die Dokumenten-Kennungen nach der Grösse der zugeordneten Dokumenten-Korrelationswerte geordnet sequentiell ausliest und dem Benutzer anzeigt.
29. Vorrichtung nach Anspruch 27 oder 28, dadurch gekennzeichnet, dass der Korrelator (74) ausgewählte Teilflächen des Vergleichs dokuments mit entsprechenden Teilflächen der aus dem Ausgabespeicher (56) in den Suchspeicher eingelesenen Dokumente korreliert.
30. Vorrichtung nach Anspruch 29, dadurch gekennzeichnet, dass die ausgewählten Teilflächen des Vergleichsdokuments nur Text oder nur Grafik enthalten.