DE3128794A1 - Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann. - Google Patents

Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.

Info

Publication number
DE3128794A1
DE3128794A1 DE19813128794 DE3128794A DE3128794A1 DE 3128794 A1 DE3128794 A1 DE 3128794A1 DE 19813128794 DE19813128794 DE 19813128794 DE 3128794 A DE3128794 A DE 3128794A DE 3128794 A1 DE3128794 A1 DE 3128794A1
Authority
DE
Germany
Prior art keywords
list
black
entry
areas
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19813128794
Other languages
English (en)
Inventor
Wolfgang Dipl.-Ing. 8000 München 83 Scherl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19813128794 priority Critical patent/DE3128794A1/de
Publication of DE3128794A1 publication Critical patent/DE3128794A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Description

  • Verfahren zum Auffinden und Abgrenzen von Buchstaben und
  • Buchstabengruppen oder Wörtern in Textbereichen einer Vorlage, die außer Textbereichen auch Graphik- und/oder Bildbereiche enthalten kann Die vorliegende Erfindung betrifft ein Verfahren zum Auffinden und Abgrenzen von Buchstaben und Buchstabengruppen oder Wörtern in Textbereichen einer Vorlage, die außer Textbereichen auch Graphik und/oder Bildbereiche enthalten kann.
  • In einem typischen Büro werden Schriftstücke erstellt, modifiziert und abgespeichert. Um diese Aufgaben möglichst wirtschaftlich lösen zu können, wurden Textbearbeitungsautomaten entwickelt, die auf einfachem Wege Fehlerkorrekturen, Einfügungen neuer Textteile, Zusammensetzungen von Texten mit unterschiedlichem Ursprung, beliebige Wiedergabe und eine elektronische Speicherung der die Textteile repräsentierenden Daten ermöglichen. Der Vorteil eines derartigen Textbearbeitungsautomaten gegenüber einer herkömmlichen Schreibmaschine liegt in seiner Flexibilität und Zeitersparnis beim Erstellen von Schriftstücken und der dadurch bedingten höheren Effektivität.
  • Ein wichtiges Kriterium bei der Entscheidung für einen Textbearbeitungsautomaten ist der Aufwand zum Speichern und/oder Ubertragen von bereits auf Papier bestehender Information in und/oder auf den Textbearbeitungsautomaten. Eine manuelle Übertragung großer Textmengen ist sehr aufwendig. Von Vorteil wäre eine automatische Übertragung.
  • Eine Betrachtung von in Frage kommenden Vorlagen ergibt, daß diese im wesentlichen aus Text-, Graphik- und/oder Bildteilen bestehen. Um eine optimale Codierung der diese Vorlagenteile repräsentierenden Daten sowie eine getrennte Manipulation dieser genannten Komponenten erreichen zu können, muß ein Verfahren geschaffen werden, das in der Lage ist, die Komponenten automatisch zu trennen und als solche zu klassifizieren.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mittels dessen die obengenannten Vorgänge auf einfache, schnelle und zuverlässige Art und Weise ausgeführt werden können.
  • Die genannte Aufgabe wird durch ein Verfahren nach dem Oberbegriff des Hauptanspruchs gelöst, das durch die im kennzeichnenden Teil des Hauptanspruchs angegebenen Merkmale charakterisiert ist.
  • Die Erfindung bietet den Vorteil, daß ein verhältnismäßig einfaches Verfahren, das demzufolge auch - insbesondere durch die Verfügbarkeit preisgünstiger und raumsparender Datenverarbeitungs-Hilfsmittel, wie beispielsweise Mikrocomputer - eine verhältnismäßig einfache Anordnung zur Durchführung dieses Verfahrens voraussetzt, geschaffen wird, mittels dessen die genannte Aufgabe gelöst werden kann.
  • Weiterbildungen der Erfindung sind durch die in den Unteransprüchen angegebenen Merkmale gekennzeichnet.
  • Im folgenden wird die Erfindung an Hand mehrerer, ein Ausführungsbeispiel für die Erfindung bzw. die Problematik betreffender Figuren im einzelnen erläutert.
  • Fig. 1 zeigt eine schematische Ubersicht eines Verfahrensablauf s gemäß einem bevorzugten Ausführungsbeispiel für die vorliegende Erfindung.
  • Fig. 2 zeigt ein willkürlich gewähltes Schwarz-/WeiBmuster zur späteren Erläuterung des für das erfindungsgemäße Verfahren benutzten Flächenverfolgungsverfahrens.
  • Fig. 3 zeigt ein Ergebnismuster entsprechend Fig. 2 bei dem die Schwarzbereiche im Zuge des Flächenverfolgungsverfahrens alphanumerisch gekennzeichnet worden sind.
  • Fig. 4 zeigt einen Ausdruck einer abgetasteten Schriftprobe, bei dem an den betreffenden, durch Koordinaten bestimmten Stellen jeweils für einen ermittelten Schwarzwert ein Punktund jeweils für eine(n) als Schwarzwert ermittelte(n) Oberkante oder Oberpunkt bzw. Unterkante oder Unterpunkt ein 0 bzw. ein U ausgedruckt sind.
  • Fig. 5 zeigt einen Ausdruck wie Fig. 4, jedoch mit jeweils nur den sog. peripheren Oberkanten oder Oberpunkten bzw. Unterkanten oder Unterpunkten O bzw.
  • U.
  • Bei dem erfindungsgemäßen Verfahren wird eine Vorlage, vgl. beispielsweise Fig. 2, zunächst optoelektronisch, vorzugsweise mittels einer Videokamera, in an sich bekannter Weise abgetastet. Die in analoger Form entstehznden, die optoelektronische Abbildung der Vorlage repräsentierenden Signale werden in einem folgenden Schritt mittels eines Entscheidungsvorganges jeweils entweder einer einen Weißwert" repräsentierenden Binärzahl, vorzugsweise 1, oder einer einen "Schwarzwert" repräsentierenden Binärzahl, vorzugsweise 0, zugeordnet.
  • Die von dem Schwarz/Weiß-Bild gelieferte Aüsgangszeile wird auf Schwarzanteile hin untersucht. Jeweils jeder neu beginnende Schwarzbereich wird in einem Flächenverfolgungs- verfahren abgetastet, wobei seine Extremkoordinaten errechnet werden. Dazu wird jeder neu beginnende Schwarzbereich mit einer Nummer, die um 1 erhöht ist, numeriert. Innerhalb eines ununterbrochenen Schwarzbereiches innerhalb einer Abtastzeile wird ein derartiger Schwarzbereich mit derselben Nummer durchnumeriert. Bei Feststellen einer Berührung eines bereits in der Vorzeile numerierten Schwarzbereiches mit dem gerade neu-zu numerierenden Schwarzbereich wird die Numerierung des in der Vorzeile bereits numerierten Schwarzbereiches übernommen, so daß eine bereits bestehende Numerierung zeilenweise über den Gesamt-Schwarzbereich fortgesetzt wird. Bei Berührung eines Schwarzbereiches der neuen Zeile mit mehreren Schwarzbereichen der alten Zeile wird jeweils die Numerierung des am weitesten links stehenden Bereiches fortgeführt. Es wird geprüft, ob die weiter rechts stehenden berührenden Numerierungen in weiter links stehenden Schwarzbereichen der Zeile bereits existieren. Für den Fall, daß diese Bedingung erfüllt ist, wird diese Numerierung für den neu zu numerierenden Bereich verwendet. Für jede ermittelte Numerierung wird ein Listeneintrag vorgenommen, in dem die unter dieser Numerierung auftretenden, noch näher zu beschreibenden, extrahierten Merkmale festgehalten werden. Bei Übergehen eines Numerierungsbereichs in einen neuen Numerierungsbereich werden die interessierenden Merkmale im Listeneintrag der neuen Numerierung nachgetragen. Die bei Uberlappung verschwindenden Listeneinträge werden nach dem Eintrag der Merkmalsdaten aus der Liste gelöscht. Bei Abschluß eines Schwarzbereiches und somit Verschwinden der Numerierung wird der entsprechende Listeneintrag in eine Ausgabeliste übertragen und der Schwarzbereich als abgeschlossen betrachtet.
  • Ein willkürlich gewähltes Schwarz-/Weißmuster zur Erläuterung dieses Flächenverfolgungsverfahrens und des Prinzips der Numerierung ist anhand der Figuren 2 und 3 verdeutlich.
  • Eine Ausführungsform der Erfindung sieht vor, daß die in analoger Form entstehenden, die optoelektronische Abbildung repräsentierenden Signale in einem Analogverfahren in nWeiBwerte" und t'Schwarzwerte" eingeteilt werden.
  • Eine andere vorteilhafte Ausführungsform für die Erfindung sieht vor, daß die in analoger Form entstehenden, die optoelektreonische Abbildung repräsentierenden Signale in an sich bekannter Weise digitalisiert Werden und daß die derart gewonnenen Digitalwerte mittels eines der an sich bekannten Verfahren, vorzugsweise durch Vergleich mit einem vorgegebenen digitalen Schwellwert, in "WeiBwerte" und "Schwarzwerte" eingeteilt werden.
  • Zum Einteilen in "Weißwerte" und "Schwarzwerte" kann auf einfache Weise ein fest vorgegebener Bezugswert, vorzugsweise ein Schwellwert, verwendet werden. Es kann jedoch vorteilhaft sein, daß zum Einteilen in "Weißwerte" und "Schwarzwerte" ein adaptierbarer Bezugswert, vorzugsweise ein Schwellwert, verwendet wird. Um Nichtlinearitäten in der Arbeitsweise der Einrichtung zum optoelseRtrQ=ischen Abtasten der Vorlage zu berücksichtigen, ist es vorteilhaft, die Kenndaten dieser Einrichtung dazu zu benutzen, den Bezugswert zu adaptieren.
  • Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, daß ständig während des Abtastvorganges ein ein Einstellkriterium repräsentierendes Signal aus den Abtastsignalen abgeleitet wird, das dazu benutzt wird, den Bezugswert zu adaptieren.
  • Fig. 1 zeigt, wie'bereits erläutert, eine schematische Übersicht eines Verfahrensablaufes gemäß einem bevorzugten Ausführungsbeispiel für die vorliegende Erfindung. Es sind mehrere Verarbeitungsmoduln (M1, M2 ... M10, M11, HM) vorgesehen, die in Fig. 1 ihrer zeitlichen Aufeinanderfolge entsprechend untereinander angeordnet dargestellt sind.
  • Außerdem sind ein Eingangslistensystem, bestehend aus einer ersten Eingangsliste L1, einer zweiten Eingangsliste L2 und einer dritten Eingangsliste L3, wobei der Listenname L1 für eine Gruppe von Unterlisten steht, welche die Ereignisse innerhalb einer Bildseite beschreiben, dieselbe Anzahl von Einträgen besitzen und bei denen der Index einer Unterliste Schlüssel für alle anderen Unterlisten ist, der Listenname L2 in gleicher Weise für eine Gruppe von Unterlisten steht, welche die Ereignisse innerhalb der vorhergehenden Bildzeile beschreiben, und der Listenname L3 in gleicher Weise für eine Gruppe von Unterlisten steht, die die Übergänge zwischen alter und neuer Bildzeile beschreiben, ein Objektlistensystem, bestehend aus einer Objektdatenliste LD und einer ersten Hilfsliste L6, wobei der Listenname L6 für eine Gruppe von Unterlisten steht, die die Objektnummern, Basisadressen und Eintragslängen in der Objektdatenliste LD enthalten und bei denen der Index einer Unterliste Schlüssel für alle anderen Unterlisten ist, ein Wortlistensystem, bestehend aus einer Koordinatenliste LK, einer Worteintragsliste LW und einer zweiten Hilfsliste L7, wobei der Listenname L7 für eine Gruppe von Unterlisten steht, die Wortnummern, Basisadressen in den:Li sten LW und LK sowie Eintragslängen in der Liste LK enthalten, und bei denen der Index einer Unterliste Schlüssel für alle anderen Unterlisten ist, eine erste Eintragsliste L4, die Informationsdaten über Oberpunkte bzw. Oberkanten enthält, und eine zweite Eintragsliste L5, die Informationsdaten über Unterpunkte bzw. Unterkanten enthält, vorgesehen. Diese Listen L4 und L5 bestehen ebenfalls wiederum aus Unterlisten.
  • Dem ersten Verarbeitungsmodul M1 werden die bei der Abtastung einer Vorlage Abtastzeile für Abtastzeile entstehenden zunächst analog dargestellten und durch ein geeignetes Schwellenverfahren in Schwarz- und Weißwerte eingeteilten Abtastsignale zugeführt. Der erste Verarbeitungsmodul M1 errechnet einen Teil der Zeileninformation der Liste Ll.
  • Die Ergebnisse des ersten Verarbeitungsmoduls MI werden dem zweiten Verarbeitungsmodul M2, nämlich dem Flächenverfolgungsmodul zuge"führt. Die Ergebnisse der Moduln M1 und M2 werden in den Eingangslisten L1, L2 und L3 für die weitere Verarbeitung zur Verfügung gestellt.
  • Der dritte Verarbeitungsmodul M3 ist für die Ermittlung bzw. Erzeugung der Daten für die aus der abgetasteten Vorlage erkannten Oberkanten erforderlich. Als Informationsquelle-benutzt dieser Verarbeitungsmodul die erste und die dritte Eingangsliste L1 und L3. Der dritte VerarbeItungsmodul M3 gibt die erzeugten Informationsdaten in die erste Eintragsliste L4 ein. Der vierte Verarbeitungsmodul M4 dient zur Generierung eines Dateneintrages in die Objektdatenliste LD und in die erste Hilfsliste L6. Dieser Verarbeitungsmodul benutzt als Informationsquellen die erste Eintragsliste L4 und die erste Hilfsliste L6-und schreibt die neu einzutragenden Daten sowohl in die erste Hilfsliste L6 als auch in die Objektdatenliste LD ein. In die erste Hilfsliste L6 wird hierbei eine neue Objektnummer eingetragen. Außerdem werden eine neue Basisadresse für die Objektdatenliste LD sowie der Zähler für die Längen der Extremwerteinträge in der Objektdatenliste LD auf einen definierten Zählwert voreingestellt. Die Zähler der Eintragslängen für die Einträge der Ober- und Unterpunkte in der Objektdatenliste LD werden auf Null gesetzt Der fünfte Verarbeitungsmodul M5 dient zum Eintrag neuer Koordinaten in die Objektdatenliste LD. Dieser Verarbeitungsmodul kann sowohl zum-Eintrag von Oberkantenkoordinaten als auch zum Eintrag von Unterkantenkoordinaten verwendet werden. Beim Eintrag von Oberkantenkoordinaten sind die erste Eintragsliste L4 und die erste Hilfsliste L6 die Informationsquellen. Die Verarbeitungsergebnisse des fünften Verarbeitungsmoduls M5 werden sodann in die erste Hilfsliste L6 und die Objektdatenliste LD eingegeben. Für den Fall, daß Unterkantenkoordinaten einzutragen sind, wird als Informationssenke anstelle der ersten Eintragsliste L4 die zweite Eintragsliste L5 benutzt. Aus der Eintragsliste L4 bzw. der Eintragsliste L5 bezieht der fünfte Verarbeitungsmodul M5 Information über die Objektnummer der einzutragenden Ober- und Unterkantendaten sowie deren Adressen innerhalb der Zeile und Anzahl. In der ersten Hilfsliste L6 wird nach der bereits generierten bzw. vorhandenen Objektnummer gesucht, und es wird dann anhand der weiteren Information aus der ersten Hilfsliste L6 ein Nachtrag oder ein weiterer Eintrag in der Objektdatenliste LD vorgenommen.
  • Die erste Hilfsliste L6 enthält die bereits in der Objektdatenliste LD gespeicherten Objektnummern, ihre Datenbasisadressen sowie die zugehörigen Eintragslängenangaben für Extremwerte, Ober- und Unterkantenkoordinaten. Im Falle eines Neueintrages von Ober- bzw. Unterkantenkoordinaten sucht der Verarbeitungsmodul mit Hilfe-der Objektnummer den bereits vorhandenen Eintrag der Objektnummer in der ersten Hilfsliste L6 und kann anhand der zugehörigen Datenbasisadresse und der Längeninformation über die bisher abgespeicherten Extremwerte, Ober- und Unterpunkte den neu einzutragenden Ober- oder Unterpunkt in der Objektdatenliste LD nachtragen. Der entsprechende Eintrag in der ersten Kilfsliste L6 wird korrigiert, d. h. es werden - wenn erforderlich - die höherwertigen Datenbasisadressen entsprechend dem neuen Eintrag korrigiert. Ebenso wird die jeweilige Längenangabe des Ober- oder Unterpunkteintrages je nachdem, welche Angabe dazu zuvor eingetragen wurde, um einen Eintrag höhergezählt.
  • Der sechste Verarbeitungsmodul M6 extrahiert die Unterkantenkoordinaten eines Objekts. Als Informationsquellen benötigt er die zweite und dritte Eingangsliste L2 und L3.
  • Das Verarbeitungsergebnis wird in die zweite Eintragsliste L5 eingegeben. Hierbei handelt es sich um die Objektnummer und die Zeilenadresse der Unterkante.
  • Der siebte Verarbeitungsmodul M7 dient der Bereinigung der Listen für den Fall, daß zwei Objekte zu einem Objekt mit einer einzigen Objektnummer zusammenfließen. Informationsquellen für diesen Verarbeitungsmodul sind die dritte Eingangsliste L3 und die erste Hilfsliste L6. Informationssenken für den Verarbeitungsmodul sind die erste Hilfsliste L6 und die Objektdatenliste LD. Die dritte Eingangsliste L3, die eine Übergangsliste darstellt, welche die Übergänge zwischen einer alten und einer neuen Zeile enthält, wird hierbei auf die Übereinstimmung alter und neuer Objektnummern hin überprüft. Ist der Übergang von alter Objektnummer auf neue Objektnummer nicht gleich, so muß die Information der walten Objektnummer umgeschrieben werden, und die alte Objektnummer muß aus der ersten Hilfsliste L6 sowie aus der Objektdatenliste LD entfernt werden.
  • Der achte Verarbeitungsmodul M8 dient zum Nachtragen der Extremwerte eines Objekts. Er bedient sich als Informationsquellen der ersten Eingangsliste L1 und der-ersten Hilfsliste L6 sowie der Objektdatenliste LD. Mit Hilfe der ersten Hilfsliste L6 werden die bereits besthhenden Extremwerte eines Objekts in der Objektdatenliste LD gesucht und mit aktuellen Zeilengrenzen aus der ersten Eingangsliste L1 verglichen.
  • Wenn sich Änderungen ergeben, nämlich dadurch, daß andere Extremwerte ermittelt werden, so werden diese in der Objektdatenliste LD nachgetragen.
  • Der neunte Verarbeitungsmodul M9 dient zur Überprüfung der Objektnummern, und zwar dahingehend, daß geprüft wird, ob das Objekt abgeschlossen ist und ob die Information des Eintrages an das Wortlistensystem weitergegeben werden kann. Dem neunten Verarbeitungsmodul M9 dienen die erste Eingangsliste L1 und die erste Hilfsliste L6 als Informationsquelle und die Hilfsliste L6 anschließend auch als Informationssenke. Bei dem Verarbeitungsvorgang wird geprüft, ob jede Objektnummer der aktuellen Einträge in der ersten Hilfsliste L6 auch noch in den Zeilendatenangaben der ersten Eingangsliste L1 vorhanden ist. Ist eine Objektnummer nicht mehr vorhanden, so gilt das Objekt als abgeschlossen.
  • Die dieses Objekt betreffende Information kann daraufhin an das Wortlistensystem weitergegeben werden. Die erste Hilfsliste L6 wird dann entsprechend bereinigt..
  • Die Verarseitungsmoduln M10 und MII, sind mit der Informationsverarbeitung bereits abgeschlossener Objekte befaßt.
  • Sie fUhren Vorverarbeitungsschritte für das Wortlistensystem aus. In dem zehnten Verarbeitungsmodul MlO werden aus den ermittelten Objektoberkanten und den Objektunterkanten die peripheren Objektoberkanten und die peripheren Objektunterkanten 0 bzw. U, vgl. Fig. 4 u. Fig. 5, extrahiert.
  • Dies geschieht mit Winkelbereichen, deren Bedeutung noch zu erläutern sein wird. Aus den Verarbeitungsergebnissen des zehnten Verarbeitungsmoduls M10, d. h. aus den Angaben zu den peripheren Objektoberkanten und den peripheren Objektunterkanten ermittelt der elfte Verarbeitungsmodul MII das jeweils äußerste linke und das jeweils äußerste rechte Ober-/Unterkantenpaar. Diese beiden-Paare stellen die Anschlußstelle zu benachbarten Objekten dar.
  • -Die Extraktion peripherer Ober- bzw. Unterpunkte geht so vor sich, daß von jedem Oberpunkt aus geprüft wird, ob einer der anderen Oberpunkte des Objekts in einem von betrachteten Oberpunkt ausgehenden Winkelbereich von vorzugsweise + 450,nach unten weisend, liegt. Ist dies für einen Oberpunkt der Fall, so wird dieser als nicht peripher -betrachtet. Entsprechendes gilt für betrachtete Unterpunkte, für die jedoch der angesprochende Winkelbereich nach oben weist.
  • Dem Hauptverarbeitungsmodul HM wird schließlich die Information aus dem elften Verarbeitungsmodul M17 zusammen mit den Extremwerten zur Verfügung gestellt. Diese Information, die mit EBE 3 bezeichnet ist, dient der sog. Anlagerung von Objekten. Mit dieser Information wird versucht, das Ob-Objekt linksseitig oder rechtsseitig an bereits existierende Worte in dem Wortlistensystem anzulagern. Abhängig von.
  • etwaigen Anlageruhgsergebnissen wird bei einem vergeblichen Anlagerungsversuch ein Neueintrag in dem Wortlistensystem- vorgenommen. Bei einem Neueint'tag wird die Wortnummer sowie eine Wortbasisadresse in, der zweiten Hilfsliste L7 festgehalten. Die Informatiot EBE 3 wira komplett in die Worteintragsliste LW übernomme,. Die peripheren Koordinaten, die in einer Information EBE 2 enthalten sind, werden in de Koordinatenliste LK einsgegeben. Abhängig von der Anwendung des Verfahrens kann hierbei auch die Information EBE 1 eingegeben werden. Bei linksseitiger oder rechtsseitiger Anlagerung wird die gespeicherte Information EBE 3 des Objekts dazu benutzt, die gespeicherte Information EBE 3 des Wortes des Vorherigen Worteintrages zu erneuern, d. h. die die linksseitige oder rechtsseitige Anlagerung betreffende Information zu erneuern.
  • Die mit dem anzulagernden Objekt verbundene Information EBE 2 bzw.. EBE 1 betreffend die peripheren Koordinaten oder alle Koordinaten wird in der Koordinatenliste LK nachgetragen. Die Basisadressen in der Koordinatenliste LK und der zweiten Hilfsliste L7 müssen ebenfalls korrigiert werden. Für den Fall, daß eine linksseitige und rechtsseitige Anlagerungsmöglichkeit durch den Hauptverarbeitungsmodul HM festgestellt werden, liegen zwei Wortteile vor, die durch das aktuelle Objekt zu einem Gesamtwort zusammenzufassen sind. In diesem Falle werden die Einträge der beiden Wortteile in den Listen L7 und LW zu ein einem einzigen Eintrag zusammengefaßt. Die zugehörigen Informationsteile der Koordinatenliste LK, d. h. die bereits existierenden peripheren Koordinaten, werden hierzu ebenfalls zusammengefaßt. Zu diesen Koordinaten wird zusätzlich noch die Information EBE 2 bzw. EBE 1, d. h. die bereits existierenden Koordinaten des neu einzutragenden Objekts, hinzugefUgt.
  • Die in der Übersicht gemäß Fig. 1 angedeutete Information EBE 1 besteht aus den Extrem-, Oberkanten- und Unterkantenkoordinatenangaben. Aus dieser Information extrahiert der zehnte Verarbeitungsmodul MlO die peripheren Objektober- u. -unterkantenkoordinaten sowie die Extremkoordinaten. Die daraus entstehende Information ist die mit.
  • EBE 2 bezeichnete. Aus der Information EBE 2 selektiert der elfte Verarbeitungsmodul Mli das jeweils äußerste linke und rechte Ober-/Unterkantenkoordinatenpaar. Diese Information wird zusammen mit den Extremkoordinaten EBE 3 des Objekts genannt und in dem Hauptverarbeitungsmodul HM zur Anlagerung an bereits bestehende Worte verwendet. Das Verarbeitungsergebnis des Hauptverarbeitungsmoduls HM ist die mit EBE 3 bezeichnete Information des Wortes und ist in der Worteintragsliste LW gespeichert. Sie besteht aus den äußersten linken bzw. rechten Ober/Unterkantenkoordinaten sowie'den linken bzw. rechten Extremkoordinaten des Wortes.
  • Bei den Anlagerungsversuchen sind folgende Möglichkeiten gegeben: -Keine Anlagerung möglich ... (Neueintrag in das Wortlistensystem erforderlich); -linksseitige Anlagerung möglich ... (linksseitige An- -lagerung an eiie bereits bestehendes Wort); -rechtsseitige Anlagerung möglich ,.. (rechtsseitige Anlagerung an in bereits bestehendes Wort); -links- u. rechtsseitige Anlagerung möglich ... (Zusammenfassung von zwei Wortteilen im Wortlistensystem).
  • Die Anlagerung wird mit drei größenunabhängigen Merkmalen geprüft: -Merkmal 1 ... Verhältnis Objektgröße : Objektgröße; merkmal 2 ... Verhältnis ObjektgröBe:0berlappung der Extremwerte der Objekte in vertikaler Richtung; -Merkmal 3 ... Verhältnis Obektgröße : Distanz der Objekte in horizontaler Richtung. Die Objektgröße errechnet sich aus dem Abstand der jeweils linken bzw. rechten Ober-/ Unterkantenkoordinaten aus der Information EBE 3. Die Distanz und die vertikale Überlappung der Objekte errechnen sich aus den Differenzen der jeweils linksseitigen bzw.
  • rechtsseitigen Koordinaten. Hierbei ist zu verstehen, daß jeweils eines der Objekte ein bereits in das.Wortlistensystem eingetragenes Wort ist.
  • In dem Wortlistensystem haben die einzelnen Listen folgende Bedeutungen: Die zweite Hilfsliste L7 enthält die Liste der Wortnummern, die Liste der Basisadressen in der Wortliste LW und der Koordinatenliste LK, sowie die Liste der Eintragslängeninformation für die Koordinatenliste LK und die Anzahl der Einträge in<der zweiten Hilfsliste L7 selbst; die Worteintragsliste LW enthält von jedem Eintrag die Information EBE 3 des Wortes; die Koordinatenliste LK enthält von jedem Eintrag die Information EBE 2 bzw. EBE 1.
  • Die Verarbeitungsmoduln sind vorzugsweise als Mikrocomputer realisiert. Die Listen sind vorzugsweise als Halbleiterspeicher ausgebildet. Bei zeitkritischen Einheiten des Verarbeitungssystems können vorteilhafterweise auch festverdrahtete Logikschaltkreise zur Anwendung kommen.
  • Die Mikrocomputer bzw. die festverdrahteten Logikschaltkreise sind nach einem bevorzugten Ausführungsbeispiel für ein System zur Durchführung.des erfindungsgemäßen Verfahrens Bestandteile eines durch einen diesen übergeordneten Steuerrechner gesteuerten Vielrechnersystems.
  • 14 Patentansprüche 5 Figuren Leerseite

Claims (14)

  1. Patentansprüche Verfahren zum Auffinden und Abgrenzen von Buchstaben und Buchstabengruppen oder Wörtern in Textbereichen einer Vorlage, die außer Textbereichen auch Graphik- und/oder Bildbereiche enthalten kann, bei dem die Vorlage optoelektronisch, vorzugsweise mittels einer Videokamera, Abtastzeile für Abtastzeile abgetastet wird, wonach die in analoger Form entstehenden, die optoelektronische Abbildung der Vorlage repräsentierenden Signale mittels eines Entscheidungsvorganges jeweils entweder einer einen 11Weißwert repräsentierenden Binärzahl, vorzugsweise 1, oder einer einen Schwarzwert repräsentierenden Binärzahl, vorzugsweise 0, zugeordnet werden, d a d u r c h g e k e n n z e i c h n e t , daß in einem ersten Schritt mittels eines an sich bekannten Flächenverfolgungsverfahrens von durch zusammenhängende Schwarzflächen dargestellten Objekten, nämlich Buchstaben, zusammenhängende Buchstabengruppen, zusammenhängende Graphikteile und/oder zusammenhängende Bildbereiche, jeweils die Extremkoordinaten der linksseitigen und rechtsseitigen Begrenzungen dieser ObJekte ermittelt werden, daß in einem zweiten Schritt und einem dritten Schritt zusätzlich die Koordinaten der zugehörigen Oberpunkte bzw. der zugehörigen Unterpunkte ermittelt werden, daß den in dem ersten, zweiten und dritten Schritt ermittelten Koordinaten aus dem Flächenverfolgungsverfahren eine Objektnummer zugeordnet wird, daß die errechneten Koordinaten unter dieser Objektnummer in einem Objektlistensystem (LD, L6) abgespeichert und jeweils bei Bearbeitung einer neuen Abtastzeile aktualisiert werden, daß die Beendigung der flächenmäßigen Ausdehnung eines Objekts dadurch festgestellt wird, daß eine Objektnummer in dem Eintrag des Objektlistensystems (LD, L6) bei der gerade stattfindenden Abtastung einer neuen Abtastzeile nicht mehr ermittelt wird, daß in einem weiteren Schritt eine Extraktion von peripheren Ober- und Unterkanten (O, U) des Objektes aus den bis. dahin ermittelten Ober- und Unterkanten für das beendete Objekt vorgenommen wird, daß das äußere linke und das äußere rechte Ober- /Unterkantenpaar aus den peripheren Ober- und Unterkanten (O, U) ermittelt werden und daß aufgrund der ermittelten äußeren linken und rechten Ober- /Unterkantenpaare in einem Wortlistensystem (LK, LW, L7) entweder ein Neueintrag, eine links- oder rechtsseitige Anlagerung an ein bereits existierendes Wort oder eine Zusammenfassung zweier bereits existierender Wortteile vorgenommen wird.
  2. 2. Verfahren nach Anspruch 1, d a d u r c h g e -k e n n z e i c h n e t , daß die von dem Schwarz/Weiß-Bild gelieferte Ausgangszeile auf Schwarzanteile hin untersucht wird, daß jeweils jeder neu beginnende Schwarzbereich mit um 1 erhöhter Numerierung neu numeriert wird, daß innerhalb eines ununterbrochenen schwarzen Bereiches innerhalb einer Abtastzeile mit derselben Nummer weiter numeriert wird, daß bei Feststellen einer Berührung eines bereits in der Vorzeile numerierten Schwarzbereiches mit dem gerade neu zu numerierenden Schwarzberebch'dieNumerierung des in der Vorzeile bereits numerierten Schwarzbereiches übernommen wird, so daß ein über diese beiden Zeilen reichender Gesamt-Schwarzbereich mit gleicher Numerierung entsteht, daß bei Berührung eines Schwarzbereiches der neuen Zeile mit mehreren Schwarzbereichen der alten Zeile jeweils die Numerierung des am weitesten links stehenden Bereiches fortgeführt wird, daß geprüft wird, ob die weiter rechts stehenden berührenden Numerierungen in anderen weiter links stehenden Schwarzbereichen der Zeile bereits existieren und für den Fall, daß diese Bedingung erfüllt ist, diese Numerierung für den neu zu numerierenden Bereich verwendet wird und daß für jede ermittelte Numerierung ein Tabelleneintrag vorgenommen wird.
  3. 3. Verfahren nach Anspruch 1, d a d u r c h g e -k e n n z e i c h n e t , daß die in analoger Form entstehenden, die optoelektronische Abbildung repräsentieren- den Signale in einem Analogverfahren in "Weißwerte" und "Schwarzwerte" eingeteilt werden.
  4. 4. Verfahren nach Anspruch 1, d a d u r c h g e -k e n n z e i c h n e t , daß die in analoger Form entstehenden, die optoelektronische Abbildung repräsentierenden Signale in an sich bekannter Weise digitalisiert werden und daß ie derart gewonnenen Digigalwerte mittels eines der an sich bekannten Verfahren, vorzugsweise durch Vergleich mit einem vorgegebenen digitale Schwellwert, in 'Weißwerte" und "Schwarzwerte" eingeteilt werden.
  5. 5. Verfahren nach Anspruch 3 oder 4, d a d u r c h g e k e n n z e i c h n e t , daß zum-Einteilen in 'tWeiBwerten und "Schwarzwertel' ein fest vorgegebener Bezugswert, vorzugsweise ein Schwellwert, verwendet wird.
  6. 6. Verfahren nach Anspruch 3 oder 4, d a d u r c h g e k e n n- z e i c h n e t , daß zum Einteilen in 11Weißwerte und "Schwarzwerte'1 ein adaptierbarer Bezugswert, der aus seiner Umgebung berechnet wird, vorzugsweise ein Schwellwert, verwendet wird.
  7. 7. Verfahren nach Anspruch 6, d a d u r c h g e -k e n n z e i c h n e t , daß die Kenndaten der Einrichtung zum optoelektronischen Abtasten der Vorlage dazu benutzt werden, den Bezugswert zu adaptieren.
  8. 8. Verfahren nach Anspruch 6, d a d u r c h g e -k e n n z e i c h n e t , daß ständig während des Abtastvorganges ein ein Einstellkriterium repräsentierendes Signal aus den Abtastsignalen abgeleitet wird, das dazu benutzt wird, den Bezugswert zu adaptieren.
  9. 9. Verarbeitungssystem zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß eine Vielzahl von zumindest teilweise zeitlich aufeinanderfolgenden Verarbeitungsmoduln (M1, M2 ... M10, MII, HM) vorgesehen sind und daß ein Eingangslistensystem (L1, L2, L3), ein Objektlistensystem (LD, L6), ein Wortlistensystem- (LK, LW, L7), eine erste Eintragsliste (L4) sowie eine zweite Eintragsliste (L5) vorgesehen sind.
  10. 10. Verarbeitungssystem nach Anspruch 9, d a d u r c h g e k e n n z e i c h n e t , daß die Verarbeitungsmoduln (M1, M2 ... M10, MII, HM) Rechner, vorzugsweise Mikrocomputer, sind.
  11. 11. Verarbeitungssystem nach Anspruch 9, d a d u r c h g e k e n n z e i c h n e t, daß die Verarbeitungdmoduln (M1, M2 ... M10, MII, HM) festverdrahtete Logikschaltkreise sind=
  12. 12. Verarbeitungssystem nach Anspruch 9, d a d u r c h g e k e n n z e i c h n e t , daß die Listen (L1 ... L7, LD, LK, LW) als Halbleiterspeicher realisiert sind.
  13. 13. Verarbeitungssystem nach Anspruch 10, d a -d u r c h g e,k e n n z e i c h n e t , daß die Rechner Bestandteil-eines durch einen diesen übergeordneten Steuerrechner gesteuerten Vielrechnersystems sind.
  14. 14. Verarbeitungssystem nach einen der Ansprüche 9 - 12, d a d u r c h g e k e n n z e i c h n e t , daß ein Index in einer beliebigen der Unterlisten-jeweils den Schlüssel zu jeder anderen betreffenden Unterliste rin der übergeordneten Liste darstellt.
DE19813128794 1981-07-21 1981-07-21 Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann. Withdrawn DE3128794A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19813128794 DE3128794A1 (de) 1981-07-21 1981-07-21 Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19813128794 DE3128794A1 (de) 1981-07-21 1981-07-21 Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.

Publications (1)

Publication Number Publication Date
DE3128794A1 true DE3128794A1 (de) 1983-05-05

Family

ID=6137389

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19813128794 Withdrawn DE3128794A1 (de) 1981-07-21 1981-07-21 Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.

Country Status (1)

Country Link
DE (1) DE3128794A1 (de)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0113471A2 (de) * 1983-01-07 1984-07-18 International Business Machines Corporation Verfahren und Anlage für die Lagebestimmung von Einzelbildern in einer Fläche mit mehreren Bildern
DE3406817A1 (de) * 1983-02-25 1984-08-30 Canon K.K., Tokio/Tokyo Bildaufbereitungseinrichtung
FR2552605A1 (fr) * 1983-09-22 1985-03-29 Darmon Claude Dispositif de telecopie rapide avec reconnaissance de branches pour images contenant des symboles repetitifs
DE3439827A1 (de) * 1983-11-02 1985-05-09 Canon K.K., Tokio/Tokyo Bildreproduktionsgeraet
DE3418278A1 (de) * 1984-05-17 1985-11-21 Roland Smyczek Bestückung von Leiterplatten, 4815 Schloß Holte-Stukenbrock Arbeitsweise zum umsetzen der bildelemente einer vorlage in eine vielzahl abrufbar gespeicherter signale, wobei die signale zusammenhaengender bildelemente eine gemeinsame speicheradresse aufweisen
EP0201909A2 (de) * 1985-05-14 1986-11-20 Intersoftware, S.A. Verfahren und Vorrichtung zum automatischen Lesen von Bildern
EP0279157A2 (de) * 1987-02-19 1988-08-24 GTX Corporation Methode und Vorrichtung zum Vereinfachen von Lauflängedaten beim Abtasten von Bildern
DE4216893A1 (de) * 1991-05-21 1992-11-26 Hitachi Ltd Verfahren zur eingabe von zeichendaten
EP0516576A2 (de) * 1991-05-28 1992-12-02 Scitex Corporation Ltd. Verfahren zum Unterscheiden zwischen Text und graphischen Darstellungen

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2053818A1 (de) * 1969-10-31 1972-05-31 Image Analysing Computers Ltd Bildanalysiersystem
DE2445138A1 (de) * 1974-09-20 1976-04-08 Siemens Ag Verfahren zum spaltenweisen abtasten von automatisch zu erkennenden schriftzeichen
DE2626051A1 (de) * 1975-06-10 1976-12-16 Sofermo Verfahren zum erkennen der form von einzelnen dreidimensionalen gegenstaenden und vorrichtung zur ausuebung des verfahrens
DE2817341A1 (de) * 1978-04-20 1979-10-25 Computer Ges Konstanz Optisches handlesegeraet fuer maschinelle zeichenerkennung

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2053818A1 (de) * 1969-10-31 1972-05-31 Image Analysing Computers Ltd Bildanalysiersystem
DE2445138A1 (de) * 1974-09-20 1976-04-08 Siemens Ag Verfahren zum spaltenweisen abtasten von automatisch zu erkennenden schriftzeichen
DE2626051A1 (de) * 1975-06-10 1976-12-16 Sofermo Verfahren zum erkennen der form von einzelnen dreidimensionalen gegenstaenden und vorrichtung zur ausuebung des verfahrens
DE2817341A1 (de) * 1978-04-20 1979-10-25 Computer Ges Konstanz Optisches handlesegeraet fuer maschinelle zeichenerkennung

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DE-Z: ELEKTRONIK 1979, Heft 17, Seiten 25 bis 34 *
DE-Z: Elektronische Rechenanlagen 15, 1973, Heft 6, Seiten 269 bis 274 *
DE-Z: Elektronische Rechenanlagen 21, 1979, Heft 4, Seiten 171 bis 183 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0113471A3 (en) * 1983-01-07 1986-12-03 International Business Machines Corporation Method and apparatus for locating individual images in a field containing multiple images
EP0113471A2 (de) * 1983-01-07 1984-07-18 International Business Machines Corporation Verfahren und Anlage für die Lagebestimmung von Einzelbildern in einer Fläche mit mehreren Bildern
US4786976A (en) * 1983-02-25 1988-11-22 Canon Kabushiki Kaisha Image processing apparatus
DE3406817A1 (de) * 1983-02-25 1984-08-30 Canon K.K., Tokio/Tokyo Bildaufbereitungseinrichtung
FR2552605A1 (fr) * 1983-09-22 1985-03-29 Darmon Claude Dispositif de telecopie rapide avec reconnaissance de branches pour images contenant des symboles repetitifs
DE3439827A1 (de) * 1983-11-02 1985-05-09 Canon K.K., Tokio/Tokyo Bildreproduktionsgeraet
DE3418278A1 (de) * 1984-05-17 1985-11-21 Roland Smyczek Bestückung von Leiterplatten, 4815 Schloß Holte-Stukenbrock Arbeitsweise zum umsetzen der bildelemente einer vorlage in eine vielzahl abrufbar gespeicherter signale, wobei die signale zusammenhaengender bildelemente eine gemeinsame speicheradresse aufweisen
EP0201909A2 (de) * 1985-05-14 1986-11-20 Intersoftware, S.A. Verfahren und Vorrichtung zum automatischen Lesen von Bildern
EP0201909A3 (de) * 1985-05-14 1987-08-26 Intersoftware, S.A. Verfahren und Vorrichtung zum automatischen Lesen von Bildern
EP0279157A2 (de) * 1987-02-19 1988-08-24 GTX Corporation Methode und Vorrichtung zum Vereinfachen von Lauflängedaten beim Abtasten von Bildern
EP0279157A3 (de) * 1987-02-19 1989-11-23 GTX Corporation Methode und Vorrichtung zum Vereinfachen von Lauflängedaten beim Abtasten von Bildern
DE4216893A1 (de) * 1991-05-21 1992-11-26 Hitachi Ltd Verfahren zur eingabe von zeichendaten
EP0516576A2 (de) * 1991-05-28 1992-12-02 Scitex Corporation Ltd. Verfahren zum Unterscheiden zwischen Text und graphischen Darstellungen
EP0516576A3 (de) * 1991-05-28 1994-01-12 Scitex Corp Ltd

Similar Documents

Publication Publication Date Title
DE3346816C2 (de)
DE3629104C2 (de)
EP0059239A2 (de) Verfahren zum Auffinden und Abgrenzen von Textbereichen auf einer Vorlage, die Text-, Graphik- und/oder Bildbereiche enthalten kann
DE2909153C2 (de) Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern
EP0067244A2 (de) Verfahren zum automatischen Erkennen von Weissblöcken sowie Text-, Graphik- und/oder Graubildbereichen auf Druckvorlagen
DE2144596A1 (de) Video-Anzeigevorrichtung
DE2642027A1 (de) Verfahren zur automatischen umwandlung einer rohskizze in eine fertige zeichnung
DE3416939A1 (de) Verfahren zur steuerung von betriebseinrichtungen
EP0301384B1 (de) Schaltungsanordnung zur Aufbereitung von schrägstehenden, insbesondere handgeschriebenen Zeichen
DE3441640A1 (de) Streifenfeldspeichercontroller
DE3128794A1 (de) Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.
DE2435889A1 (de) Verfahren und einrichtung zum unterscheiden von zeichengruppen
EP1036352A1 (de) Verfahren zur bildschirmgestützten definition und parametrierung von schnittstellen
DE3209187A1 (de) Verfahren zur darstellung eines textes auf einer einzeiligen anzeigevorrichtung eines texterstellungsgeraetes
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
EP0107083A2 (de) Belegverarbeitungseinrichtung mit Korrekturschaltung und Datensichtgerät
DE19538448B4 (de) Datenbankmanagementsystem sowie Datenübertragungsverfahren
DE3714011A1 (de) Verfahren und anordnung zum bildvergleich
EP0206214B1 (de) Verfahren zur einheitlichen symbolischen Beschreibung von Dokumentenmustern in Form von Datenstrukturen in einem Automaten
EP0107789A2 (de) Verfahren zur Darstellung von Druckvorlagen in Form von grössen- und drehlagenunabhängigen Bogenstrukturen zum Zwecke einer Dokumentenanalyse, insbesondere zur Schriftzeichenerkennung
EP0106354A2 (de) Verfahren zur Extraktion von Deskriptoren, vorzugsweise zur Darstellung von Druckvorlagen in Form von grössen- und drehlagenunabhängigen Bogenstrukturen zum Zwecke einer Dokumentenanalyse, insbesondere zur Schriftzeichenerkennung
DE2300340C2 (de) Verfahren zur Analyse von auf einem Speicher mit Relativbewegung zwischen Speicherfläche und Lese- bzw. Schreibköpfen gespeicherten Informationen und Vorrichtung zur Durchführung des Verfahrens
DE2613703C2 (de) Schaltungsanordnung zum Übersetzen von Programmtexten
EP0220467B1 (de) Verfahren zur einheitlichen symbolischen Beschreibung von Dokumentmustern in einem Automat
DE3830990A1 (de) Zeichenaufbereitungssystem

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee