DE3916323A1 - Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem - Google Patents

Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem

Info

Publication number
DE3916323A1
DE3916323A1 DE3916323A DE3916323A DE3916323A1 DE 3916323 A1 DE3916323 A1 DE 3916323A1 DE 3916323 A DE3916323 A DE 3916323A DE 3916323 A DE3916323 A DE 3916323A DE 3916323 A1 DE3916323 A1 DE 3916323A1
Authority
DE
Germany
Prior art keywords
character
discrete
area
component
rectangular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE3916323A
Other languages
English (en)
Inventor
Keiko Abe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE3916323A1 publication Critical patent/DE3916323A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Description

Die Erfindung bezieht sich auf ein Zeichenerkennungssystem und insbesondere auf ein Zeichenerkennungssystem, bei dem ein Zeichenbereich wirksam extrahiert werden kann.
Es ist ein besonderes Problem, beispielsweise hinsichtlich japanischer Zeichen, einschließlich der Kanji- und Kana- Zeichen, diskrete Zeichen genau unterscheiden zu können, um individuelle Zeichen aus horizontal oder vertikal geschriebenen Zeichenreihen bzw. Zeichenzeilen zu erkennen.
Eine beispielsweise Lösung des Problems ist in der DE-OS 36 32 832 angegeben. Bei dieser Lösung werden rechteckförmige Bereiche imaginär aus Projektionsdaten gebildet, die aus einer horizontalen oder vertikalen Zeichenlinie bzw. Zeichenzeile erhalten werden, derart, daß jeder rechteckförmige Bereich ein einziges vollständiges Zeichen oder eine Komponente eines Zeichens umschreiben kann, wobei benachbarte rechteckförmige Bereiche so lange integriert werden, bis das Höhe-zu-Breite-Verhältnis der so jeweils integrierten Bereiche weitgehend gleich 1 wird. Dadurch werden individuelle diskrete Zeichen extrahiert.
In diesem Zusammenhang weisen die meisten japanischen Zeichen in Form von vorliegenden em-Zeichen bei Umschreibung durch einen rechteckförmigen Rahmen ein Höhe-zu-Breite- Verhältnis von weitgehend gleich 1 auf. Im Falle diskreter Zeichen, wie "" und "", bei denen die ein einzelnes Zeichen darstellenden Zeichenkomponenten horizontal getrennt und diskret voneinander vorgesehen sind, ist zu berücksichtigen, daß bei Integration von zwei oder mehr benachbarten Zeichenkomponenten ein die betreffenden Zeichenkomponenten umschreibender rechteckförmiger Bereich ein Höhe-zu-Breite-Verhältnis von weitgehend gleich 1 haben kann. Sodann können die Zeichenkomponenten als einzelnes diskretes Zeichen extrahiert werden.
Falls das Höhe-zu-Breite-Verhältnis eines derartigen rechteckförmigen Bereiches praktisch gesehen jedoch streng darauf überprüft wird, ob diskrete Zeichen durch die Integration erhalten sind, können die Höhe-zu-Breite-Verhältnisse nicht bezüglich sämtlicher diskreter Zeichen gleichmäßig sein. Deshalb genügt das oben beschriebene Verfahren nicht bei der praktischen Anwendung hinsichtlich der Genauigkeit der Extrahierung diskreter Zeichen.
Der Erfindung liegt demgemäß die Aufgabe zugrunde, ein neues Zeichenerkennungssystem zu schaffen, welches die den konventionellen Systemen, wie zuvor beschrieben, anhaftenden Nachteile eliminiert.
Darüber hinaus soll ein Zeichenerkennungssystem geschaffen werden, welches hinsichtlich der Genauigkeit der Integration diskreter Zeichen verbessert ist.
Gelöst wird die vorstehend aufgezeigte Aufgabe gemäß einem Aspekt der vorliegenden Erfindung durch ein Vefahren zum Erkennen eines Zeichens in Übereinstimmung mit einer Zeicheninformation, die aus einem Zeichen-Reihen-Signal extrahiert ist, wozu ein rechteckförmiger Bereich verwendet ist, der aus dem Zeichen-Reihen-Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens beschreibt. Dieses Verfahren umfaßt den Schritt der Entscheidung, daß ein rechteckförmiger Bereich eine Komponente eines diskreten Zeichens in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer Vertikal-Extraktionsposition des rechteckförmigen Zeichens ist.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist ein Verfahren zum Erkennen eines Zeichens in Übereinstimmung mit einer Zeicheninformation geschaffen, die aus einem Zeichen-Reihen-Signal extrahiert ist, wozu ein rechteckförmiger Bereich verwendet wird, der aus dem Zeichen-Reihen- Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens beschreibt. Dieses Verfahren umfaßt den Schritt der Entscheidung, daß ein Zeichenbereich eine Komponente eines diskreten Zeichens in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer Vertikal-Extraktionsposition des Zeichenbereiches ist. Ferner umfaßt dieses Verfahren die Entscheidung darüber, wenn entschieden wird, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, daß ein zweiter benachbarter Zeichenbereich eine weitere Komponente des diskreten Zeichens ist, daß der zweite Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert wird, daß die Zeichenteilung der integrierten Zeichenbereiche eine mittlere Zeichenteilung nicht überschreitet, und daß die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert bzw. unterschieden wird.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist ein Zeichenerkennungssystem geschaffen, welches ein Zeichen in Übereinstimmung mit einer Zeicheninformation erkennt, die aus einem Zeichen-Reihen-Signal unter Verwendung eines rechteckförmigen Bereiches extrahiert worden ist, welcher aus dem Zeichen-Reihen-Signal gebildet ist und welcher ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens umschreibt. Dieses System umfaßt eine Einrichtung zur Entscheidung, ob bzw. daß ein rechteckförmiger Bereich eine Komponente eines diskreten Zeichens in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer Vertikal- Extraktionsposition des rechteckförmigen Bereiches ist.
Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung ist ein Zeichenerkennungssystem geschaffen, welches ein Zeichen in Übereinstimmung mit einer Zeicheninformation erkennt, die aus einem Zeichen-Reihen-Signal extrahiert worden ist, wozu ein rechteckförmiger Bereich verwendet wird, der aus dem Zeichen-Reihen-Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens beschreibt. Dieses System umfaßt eine Einrichtung zur Entscheidung darüber, ob bzw. daß ein rechteckförmiger Bereich eine Komponente eines diskreten Zeichens in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer Vertikal-Extraktions-Position des rechteckförmigen Bereiches ist. Ferner ist eine Entscheidungseinrichtung vorgesehen, die eine Entscheidung trifft, wenn entschieden wird, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, wobei entschieden wird, daß ein zweiter benachbarter Zeichenbereich eine weitere Komponente des diskreten Zeichens ist. Ferner ist eine Integrationseinrichtung vorgesehen, welche den zweiten Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert, daß die Zeichenteilung der integrierten Zeichenbereiche eine mittlere Zeichenteilung nicht überschreitet. Schließlich ist eine Diskreminierungseinrichtung vorgesehen, welche die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert bzw. unterscheidet.
Mit Hilfe der Zeichenerkennungsverfahren und Systeme gemäß der vorliegenden Erfindung wird eine Komponente irgendeines diskreten Zeichens in Übereinstimmung mit einem Höhe-zu- Breite-Verhältnis und einer Vertikal-Extraktionsposition des rechteckförmigen Bereiches diskriminiert bzw. unterschieden. Demgemäß ist die Extraktionsgenauigkeit eines diskreten Zeichens verbessert.
Außerdem sei angemerkt, daß in dem Fall, daß zu integrierende rechteckförmige Bereiche oder Zeichenbereiche einer Entscheidung in Übereinstimmung mit einer mittleren Zeichenteilung im Quadrat oder em-Zeichen unterzogen werden, die Extraktionsgenauigkeit jeglichen diskreten Zeichens in einem großen Ausmaß verbessert ist.
Darüber hinaus ist es möglich, einen erleichterten bzw. förderlichen Betrieb beim Zeichenerkennungsprozeß und beim System als Ganzem zu realisieren.
Anhand von Zeichnungen wird die Erfindung nachstehend beispielsweise näher erläutert.
Fig. 1 veranschaulicht in einem Blockdiagramm ein Zeichenerkennungssystem gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
Fig. 2 veranschaulicht in einem schematischen Diagramm die Extraktion einer Zeichenreihe;
Fig. 3, 4A, 4B, 4C und 5 veranschaulichen in schematischen Diagrammen die Extraktion von Zeichen;
Fig. 6 veranschaulicht in einem Flußdiagramm die Prozedur eines Extraktionsprozesses mittels des in Fig. 1 dargestellten Zeichenerkennungssystems;
Fig. 7 sowie 8A, 8B und 8C veranschaulichen in schematischen Diagrammen einen Integrationsprozeß bezüglich eines diskreten Zeichens.
Nunmehr wird die bevorzugte Ausführungsform der Erfindung detailliert beschrieben. Dazu sei zunächst auf Fig. 1 Bezug genommen, gemäß der ein Zeichenerkennungssystem 1 mit einem Dokumentenbildleser 2 verbunden ist und ein durch den Dokumentenleser 2 erzeugten Bildsignal S 1 aufnimmt. Das Zeichenerkennungssystem 1 weist einen Vorverarbeitungsabschnitt mit einer Stör- bzw. Rauscheleminierungseinrichtung 3 und einer Rotationskorrektureinrichtung 4, einen Zeichenbereichs-Verarbeitungsabschnitt mit einer Zeichenreihen-Extraktionseinrichtung 5 und einer Zeichen-Extraktionseinrichtung 6 sowie einen Zeichen-Diskriminator 7 auf. Die Störungs-Eleminierungseinrichtung 3 empfängt ein Eingangs-Bildsignal S 1 von dem Dokumentenbildleser 2 und beseitigt aus dem Eingangs-Bildsignal S 1 Störbilder, wie isolierte Punkte, die in dem Dokumentenbild enthalten sind, welches durch den Dokumentenbildleser 2 gelesen ist, so daß verhindert werden kann, daß isolierte Punkte oder dergleichen als Teil eines Zeichens oder von Zeichen in fehlerhafter Weise erkannt werden. Die Störungs-Eliminierungseinrichtung 3 gibt somit ein störungsfreies Bildsignal S 2 an die Rotations-Korrektureinrichtung 4 ab.
Auf die Aufnahme eines derartigen störungsfreien Bildsignals S 2 korrigiert die Rotations-Korrektureinrichtung 4 die Drehung des gelesenen Dokuments in einer Ebene und gibt ein korrigiertes Bildsignal S 3 an die Zeichenreihen- Extraktionseinrichtung 5 ab.
Die Zeichenreihen-Extraktionseinrichtung 5 trennt das gedruckte Dokument in einen Zeichenbereich und in andere Bereiche auf (z. B. Fotografie, Zeichen, und so weiter), und extrahiert sodann lediglich die in dem Zeichenbereich enthaltenen Bildzeichendaten. Sodann bestätigt die Zeichenreihen-Extraktionseinrichtung 5, daß die in dem Zeichenbereich enthaltenen Zeichenzeilen seitlich angeordnete Reihen sind, extrahiert die Zeichenzeilen und gibt ein für die Zeichenreihen kennzeichnendes Signal S 4 ab.
Die Zeichen-Extraktionseinrichtung 6 nimmt das Zeichenreihen- Signal S 4 von der Zeichenreihen-Extraktionseinrichtung 5 herauf und extrahiert aus dem Zeichenreihen-Signal S 4 nicht- diskrete gewöhnliche Zeichen und spezielle Zeichen in Form von em-Zeichen, während sie außerdem diskrete Zeichen extrahiert, wozu von einer Integrationstechnik Gebrauch gemacht wird, wie sie erforderlich ist. Die Zeichen-Extraktionseinrichtung 6 gibt Daten der so extrahierten Zeichen als Eingabe-Zeichendaten S 5 an den Zeichen-Diskriminator 7 ab.
Der Zeichen-Diskriminator 7 weist ein Wörterbuch der Standard-Zeichen bezüglich sämtlicher Gegenstands- bzw. Objekt-Zeichen für eine Diskriminierung auf und wählt ein Standard-Zeichen mit den meisten ähnlichen Merkmalen als jenes der Eingangs-Zeichendaten S 5 aus. Der Zeichen-Diskriminator 7 gibt somit Daten S 6 des somit erkannten Zeichens als Ausgangssignal des Zeichenerkennungssystems 1 ab.
Das Extrahieren der Zeichenreihen durch die Zeichenreihen- Extraktionseinrichtung 5 wird in folgender Weise ausgeführt. Gemäß Fig. 2 ist die Position jedes Punktes in einem Zeichenbereich AR durch x-y-Koordinaten gegeben, wobei die x-Achse sich in der horizontalen Richtung erstreckt, während die y-Achse sich in der vertikalen Richtung erstreckt. Die Summen der Punkte des "1"-Verknüpfungspegels in Form von schwarze Zeichen bildenden Punkten, die in dem Zeichenbereich AR enthalten sind, werden in Richtungen parallel zu der x-Achse aufgenommen und auf die y-Achse projiziert, um ein y-Projektionssignal Sy zu erzeugen, welches nachstehend als y-Projektion bezeichnet wird.
Der Signalpegel des y-Projektionssignals Sy ist "0" an jeder Position zwischen benacbarten Zeichenreihen AR 1, AR 2, . . ., da kein schwarzer Zeichenbereich vorhanden ist.
Demgegenüber entspricht in jeder Position auf der y-Achse, entsprechend den Zeichenreihen AR 1, AR 2 und so weiter der Signalpegel einer Gesamtzahl von Punkten der Reihe bzw. Linie, die durch den Punkt in der y-Achse verläuft und parallel zu der x-Achse sich erstreckt. Demgemäß wird das y-Projektionssignal Sy mit einem vorbestimmten Schwellwertpegel verglichen, um demgemäß Zeichenreihen-Extraktionsdaten DL zu erhalten, die "1"-Verknüpfungspegel in irgendeinem Bereich kennzeichnen, in welchem der Pegel des Signals Sy höher ist als der Schwellwert.
Unter Verwendung derartiger Zeichenreihen-Extraktionsdaten CL extrahiert die Zeichenreihen-Extraktionseinrichtung 5 jene Teile des korrigierten Bildsignals S 3, welches von der Rotationskorrektureinrichtung 4 abgegeben ist und den Zeitpunkten entspricht, zu denen die Zeichenreihen-Extraktionsdaten CL kennzeichnend sind für den "H"-Verknüpfungspegel. Die Zeichenreihen-Extraktionseinrichtung 5 gibt somit die extrahierten Signalanteile als Zeichenreihensignal S 4 ab, welches kennzeichnend ist für die individuellen Zeichenreihen AR 1, AR 2 und so weiter.
Demgemäß weist jeder Bereich, in welchem die Zeichenreihen- Extraktionsdaten CL kennzeichnend sind für den "1"-Verknüpfungspegel, eine maximale Höhe HL (HL 1, HL 2, . . .) der Zeichenreihe AR 1, AR 2, . . . auf, und jede vertikale Position in der y-Achsen-Richtung eines in irgendeiner Zeichenreihe enthaltenen Zeichens liegt innerhalb der maximalen Höhe HL der relevanten Zeichenreihe.
Die Zeichenextraktionseinrichtung 6 nimmt das Zeichenreihensignal S 4 auf und führt eine solche Verarbeitung durch, daß sie in bezug auf die x-Achsen-Richtung und die y-Achsen- Richtung die Positionen und die Bereiche ermittelt, in denen die Zeichen und Komponenten diskreter Zeichen in den individuellen Zeichenreihen AR 1, AR 2 und so weiter existieren, um jede der Positionen und Bereiche als einen rechteckförmigen Bereich XHR zu extrahieren, der von einem umschreibenden Rahmen FRAME umgeben ist, welcher ein vollständiges Zeichen oder eine Komponente eines Zeichens umgibt, wie dies in Fig. 3 veranschaulicht ist.
Praktisch wird ein derartiger Extraktionsprozeß so ausgeführt, daß die x-Projektion in der y-Achsen-Richtung entsprechend der Zeichenhöhenrichtung ausgeführt wird und daß die y-Projektion in der x-Achsen-Richtung entsprechend der Zeichenreihen-Richtung ausgeführt wird, um ein x-Projektionssignal Sx und ein y-Projektionssignal Sy zu erhalten, wobei die x- und y-Projektionssignale Sx und Sy mit einem bestimmten Schwellwertpegel verglichen werden, um Positionen der umschreibenden Rahmen FRAME in den beiden x- und y-Achsen- Richtungen zu ermitteln.
Wenn die japanischen Zeichen durch ein derartiges, vorstehend gerade beschriebenes Verfahren extrahiert werden, wobei sie in Übereinstimmung mit dem Höhe-zu-Breite-Verhältnis h/w sortiert sind, werden drei verschiedene Arten von rechteckförmigen Zeichen CHR (=CHR H , CHR B , CHR T ) erhalten, wie dies in Fig. 4A, 4B bzw. 4C veranschaulicht ist.
Der erste rechteckförmige Bereich CHR H veranschaulicht ein Höhe-zu-Breite-Verhältnis h H /w H , welches weitgehend gleich 1 ist, wie dies durch folgende Beziehung veranschaulicht ist:
Ein derartiger rechteckförmiger Bereich CHR H ist mit gewöhnlichen Zeichen des nicht-diskreten Quadrates oder vom em-Zeichentyp ausgestattet, die keine solche Diskontinuität aufweisen wie bei einem diskreten Zeichen und die kein spezielles festliegendes Merkmal bezüglich ihrer Größe und Form haben. Derartige gewöhnliche Zeichen werden nachstehend als nicht-diskrete gewöhnliche Zeichen bezeichnet werden; die meisten japanischen Zeichen gehören zu derartigen nicht- diskreten gewöhnlichen Zeichen.
Der rechteckförmige Bereich CHR B bildet eine Komponente eines diskreten Zeichens und kennzeichnet ein Höhen-zu- Breite-Verhältnis h B /w B , welches größer ist als 1, welches entsprechend folgender Beziehung genügt:
Ein derartiger rechteckförmiger Bereich CHR B ist für Komponenten diskreter Zeichen und vertikal verlängerter Spezialzeichen vorgesehen; er weist eine Neigung dafür auf, daß die Position des betreffenden Zeichens in der Zeichenhöhenrichtung weitgehend in der Mitte bezogen auf die maximale Höhe HL liegt.
Der dritte rechteckförmige Bereich CHR T weist kein besonderes festliegendes Merkmal hinsichtlich seines Höhe-zu- Breite-Verhältnisses h T /w T auf; die Höhe h T und die Breite w T des betreffenden Bereiches sind jedoch verhältnismäßig klein, und die Position des betreffenden Bereiches in der Zeichenhöhenrichtung ist nicht in der vertikalen Mitte bezogen auf die mayimale Höhe HL. Einige spezielle Zeichen, wie "", "", "" und so weiter gehören zu der betreffenden dritten Art.
Tatsächlich stellen die rechteckförmigen Bereiche CHR (Fig. 3), die durch eine Extraktion von Zeichen aus jeder der Zeichenreihen AR 1, AR 2 und so weiter erhalten werden, eine zufällige Anordnung innerhalb der maximalen Höhe HL der relevanten Zeichenreihen dar. Im besonderen können die rechteckförmigen Bereiche CHR H der nicht-diskreten gewöhnlichen Zeichen, die rechteckförmigen Bereiche CHR B einiger spezieller Zeichen oder Komponenten von diskreten Zeichen und die rechteckförmigen Bereiche CHR T von speziellen Zeichen in der x-Achsen-Richtung in jeder Zeichenreihe beliebig aufeinanderfolgend angeordnet sein.
Die Zeichen-Extraktionseinrichtung 6 unterscheidet richtig zwischen den Typen derartiger normaler Zeichen und spezieller Zeichen aus der Anordnung der pro Zeile erhaltenen rechteckförmigen Bereiche CHR. Falls irgendein diskretes Zeichen existiert, wird sodann eine mittlere Zeichenteilung P, die durch folgende Gleichung gegeben ist:
zum Zwecke der exakten Extrahierung eines derartigen Zeichens benutzt.
Wie in Fig. 5 veranschaulicht, sind die Teilungen P i-1, P i , P i+1, . . ., aus denen die mittlere Zeichenteilung P zu berechnen ist, durch solche quadratischen bzw. viereckigen Zeichen gegeben, bei denen das Höhe-zu-Breite-Verhältnis h/w weitgehend gleich 1 ist, wie bei einem nicht- diskreten gewöhnlichen Zeichen (h H /w H =1). Unterdessen sind die anderen Teilungen der speziellen Zeichen und Komponenten von diskreten Zeichen, bei denen das Höhe-zu-Breite-Verhältnis h/w nicht weitgehend gleich 1 ist (h B /w B ≠1 und h T /w T ≠1) oder von speziellen Zeichen, bei denen das Höhe-zu-Breite- Verhältnis h T /w T weigehend gleich 1 ist, während ihre Größe klein ist, aus der Berechnung einer mittleren Zeichenteilung P in Übereinstimmung mit der obigen Gleichung (3) ausgenommen.
Damit ist beabsichtigt, einen passenden Integrationsvorgang bezüglich eines diskreten Zeichens in einer solchen Art und Weise auszuführen, daß die Teilung des als Ergebnis des Integrationsvorgangs erhaltenen diskreten Zeichens weitgehend gleich der mittleren Zeichenteilung des Quadrats oder der em-Zeichen sein kann.
Es sei darauf hingewiesen, daß in dem Fall, daß ein Zwischenraum d zwischen benachbarten Rechtecken kleiner ist als ein vorbestimmte Schwellwert, die betreffenden Rechtecke als Rchtecke eines einzelnen quadratischen Zeichens verarbeitet werden, und zwar durch einen sogenannten Verwischungs-Auslöschungsprozeß.
Im Falle der vorliegenden Ausführungsform wird dann, wenn der Integrationsprozeß in der ersten Zeichenreihe AR 1 innerhalb des Zeichenbereiches AR (Fig. 2) durchgeführt wird, die Zeichen-Extraktionseinrichtung 6 eine maximale Höhe HL 1 bezüglich der ersten Zeichenreihe annehmen, da die mittlere Zeichenteilung P durch die obige Gleichung (3) gegeben ist. Sodann wird bei der Verarbeitung irgendeiner der folgenden Zeichenreihen die Zeichenextraktionseinrichtung 6 eine Berechnung bezüglich der Gleichung (3) ausführen, wozu eine Quadrat-Zeichen-Teilung Pi der vorangehenden Zeichenreihe benutzt ist, um eine mittlere Zeichenteilung P herauszufinden. Die obige Prozedur basiert auf dem Grund, daß es im Hinblick auf die erste Zeichenreihe unmöglich ist, durch Berechnung eine mittlere Zeichenteilung zu erhalten.
Die Zeichenextraktionseinrichtung 6 führt ein Extraktionsverarbeitungsprogramm RTO aus, wie es in Fig. 6 veranschaulicht ist, um Zeichen aus jeder der Zeichenreihen AR 1, AR 2 und so weiter zu extrahieren. Nach Eintritt in das Extraktionsverarbeitungsprogramm RTO führt die Zeichenextraktionseinrichtung 6 einen Grund-Quadrat- bzw. Grund-Viereck- Extraktionsprozeß bezüglich jeder der Zeichenreihen AR 1, AR 2 und so weiter beim Schritt SP 1 aus, um eine Reihe derartiger Rechtecke zu erzeugen, wie sie in Fig. 4A, 4B und 4C veranschaulicht sind, wobei die rechteckigen Bereiche CHR aufeinanderfolgend in der x-Achsen-Richtung so angeordnet sind, daß rechteckförmige Zwischenräume d zwischen den betreffenden Bereichen verbleiben, wie dies in Fig. 3 veranschaulicht ist. Danach führt die Zeichenextraktionseinrichtung 6 einen solchen Integrationsprozeß aus, wie er in Fig. 7 und 8A bis 8C aufeinanderfolgend veranschaulicht ist, und zwar bezüglich der ersten, zweiten und aufeinanderfolgenden rechteckförmigen Bereiche CHR, die die relevante Rechteck-Reihe bilden.
Im besonderen wird bei einem Schritt SP 2 die Zeichenextraktionseinrichtung 6 eine Entscheidung darüber treffen, ob das Höhe-zu-Breite-Verhältnis h/w eines rechteckförmigen Bereiches CHR, des ersten rechteckförmigen Bereiches der relevanten Rechteck-Reihe bei diesem Beispiel, größer ist als 1. Wenn das Ergebnis einer derartigen Entscheidung negativ ist, zeigt dies an, daß der relevante Bereich CHR zu einem Zeichen gehört, welches ein Höhe-zu-Breite-Verhältnis h/w aufweist, das weitgehend gleich 1 ist, wie dies für ein nicht-diskretes viereckiges Zeichen oder ein spezielles Zeichen geringer Größe zutrifft. In diesem Falle beendet die Zeichenextraktionseinrichtung 6 das Extraktionsverabeitungsprogramm beim Schritt SP 3 und gibt die Zeichendaten des so verarbeiteten rechteckförmigen Bereiches CHR als Eingangs-Zeichendaten S 5 an den Zeichen-Diskriminator 7 ab.
Wenn im Unterschied dazu die Entscheidung beim Schritt SP 2 positiv beantwortet wird, zeigt dies an, daß das Höhe-zu- Breite-Verhältnis h/w des rechteckförmigen Bereiches CHR größer ist als 1, womit der betreffende Bereich CHR möglicherweise eine Komponente eines diskreten Zeichens, wie dies oben in Verbindung mit der Gleichung (2) beschrieben worden ist, sein kann. In diesem Fall geht die Zeichen- Extraktionseinrichtung 6 weiter zum Schritt SP 4 und trifft eine Entscheidung drüber, ob die vertikale Position des extrahierten rechteckförmigen Bereiches CHR in der Mitte liegt oder nicht.
Beim Schritt SP 4 ist eine Entscheidung darüber vorgesehen, ob der relevante rechteckförmige Bereich CHR zu einem diskreten Zeichen oder einem speziellen Zeichen gehört.
Wenn das Ergebnis einer solchen Entscheidung negativ ist, zeigt dies an, daß der rechteckförmige Bereich CHR oberhalb oder unterhalb einer Mittellinie L CHR liegt, welche durch die Mittenposition der maximalen Höhe HL der relevanten Zeichenreihe verläuft,wie dies bei einem rechteckförmigen Bereich CHR X 1 oder CHR X 2 gemäß Fig. 7 veranschaulicht ist.
Eine derartige Bedingung ist nicht durch ein diskretes Zeichen, sondern vielmehr durch ein spezielles Zeichen erfüllt, wie durch "", "" und "".
Wenn die Bedingung erfüllt ist, geht die Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 3, um das Verarbeitungsprogramm zu beenden; sie gibt die Zeichendaten des verarbeiteten rechteckförmigen Bereiches CHR als Eingangs-Zeichendaten S 5 an den Zeichen-Diskriminator 7 ab.
Im Unterschied dazu zeigt dies in dem Fall, daß das Ergebnis der Entscheidung beim Schritt SP 4 positiv bzw. bejahend ist, an, daß der rechteckförmige Bereich CHR in einer Position zu beiden Seiten der Mittellinie L CTR ist, wie dies bezüglich eines rechteckförmigen Bereiches CHR X 3 in Fig. 7 veranschaulicht ist.
Ein derartiges Zeichen wird als eine Komponente eines diskreten Zeichens betrachtet. In diesem Falle geht die Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 5.
Auf diese Weise ist die Zeichenextraktionseinrichtung 6 imstande, genau eine Komponente eines diskreten Zeichens von irgendeinem anderen speziellen Zeichen zu unterscheiden. Die Prozedur geht dann weiter zum Schritt SP 5.
Beim Schritt SP 5 wird eine Entscheidung darüber getroffen, ob das Höhe-zu-Breite-Verhältnis eines nächsten rechteckförmigen Bereiches neben dem rechteckförmigen Bereich CHR größer ist als 1 oder nicht. In dem Fall, daß das Ergebnis einer derartigen Entscheidung negativ ist, zeigt dies an, daß der rechteckförmige Bereich, wie der in Fig. 8A dargestellte rechteckförmige Bereich CAR 11, von einem rechteckförmigen Bereich gefolgt wird, dessen Höhe-zu-Breite-Verhältnis h/w weitgehend gleich 1 ist, wie dies für den rechteckförmigen Bereich CHR 12 zutrifft, der in Fig. 8(A) dargestellt ist.
In diesem Falle genügt der nächste rechteckförmige Bereich CHR 12 nicht, die für eine Komponente irgendeines diskreten Zeichens erforderliche Bedingung zu erfüllen, was anzeigt, daß der rechteckförmige Bereich CHR 11, der die für eine Komponente eines diskreten Zeichens erforderliche Bedingung erfüllt, von dem rechteckförmigen Bereich CHR 12 gefolgt wird, welcher nicht mit dem vorhergehenden Zeichenbereich CHR 11 integriert werden kann.
Demgemäß beendet die Zeichenextraktionseinrichtung 6 das Verarbeitungsprogramm beim Schritt SP 3 und gibt die Eingangs-Zeichendaten S 5, die kennzeichnend sind für den rechteckförmigen Bereich CHR 11, an den Zeichen-Diskrimintor 7 ab. Wenn im Unterschied dazu das Ergebnis der zuvor erwähnten Entscheidung beim Schritt SP 5 positiv bzw. bejahend ist, zeigt dies an, daß ein rechteckförmiger Bereich, wie der rechteckförmige Bereich CHR 22 oder CHR 24, der in Fig. 8B dargestellt ist, von einem weiteren rechteckförmigen Bereich, wie dem in Fig. 8 dargestellten rechteckförmigen Bereich CHR 21 oder CHR 23, gefolgt wird, welcher eine Forderung bezüglich einer Komponente eines diskreten Zeichens erfüllt. Die Zeichenextraktionseinrichtung 6 geht dann weiter zum Schritt SP 6.
Beim Schritt SP 6 wird eine Entscheidung darüber getroffen, ob die Extraktionsposition des folgenden benachbarten rechteckförmigen Bereiches in der Mitte liegt oder nicht. Dies stellt eine Bestätiung für eine zweite Bedingung dar, wonach der folgende rechteckförmige Bereich eine Komponente eines diskreten Zeichens ausmacht bzw. bildet.
Falls das Ergebnis einer derartigen Entscheidung negativ ist beim Schritt SP 6, zeigt dies an, daß der folgende benachbarte rechteckförmige Bereich nicht beiderseits der Mittellinie L CTR liegt, wie dies oben in Verbindung mit Fig. 7 beschrieben worden ist. Damit wird angezeigt, daß der relevante rechteckförmige Bereich zu einem speziellen Zeichen gehört, nicht jedoch zu einer Komponente eines diskreten Zeichens. In diesem Falle geht die Zeichenextraktionseinrichtung 6 anschließend weiter zum Schritt SP 3, um das Verarbeitungsprogramm zu beenden; sie gibt die für den verarbeiteten rechteckförmigen Bereich CHR 21 oder CHR 23 kennzeichnenden Zeichendaten für eine Extraktion zum vorliegenden Zeitpunk im Falle der Fig. 8(B) als Eingangs- Zeicheninformation S 5 an den Zeichen-Diskriminator 7 ab.
Wenn demgegenüber das beim Schritt SP 6 erhaltene Ergebnis positiv bzw. bejahend ist, zeigt dies an, daß die Extraktionsposition des folgenden rechteckförmigen Bereiches beiderseits der Mittellinie L CTR liegt, wie dies oben in Verbindung mit Fig. 7 erwähnt worden ist. Damit wird angezeigt, daß der folgende benachbarte rechteckförmige Bereich die zweite Bedingung bezüglich einer Komponente eines diskreten Zeichens erfüllt. Im Falle der Fig. 8B ist beispielsweise der folgende rechteckförmige Bereich CHR 22 oder CHR 24 dem rechteckförmigen Bereich CHR 21 oder CHR 23 benachbart, der zum vorliegenden Zeitpunkt verarbeitet wird, womit ebenfalls die zweite Bedingung bezüglich einer Komponente eines diskreten Zeichens erfüllt ist.
In diesem Falle geht die Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 7, bei dem sie eine Entscheidung darüber trifft, ob der mit dem folgenden rechteckförmigen Bereich integrierte rechteckförmige Bereich eine kleinere Teilung mit sich bringt oder nicht als die mittlere Zeichenteilung. Dies stellt eine Bestätigung bezüglich einer dritten Bedingung dar, wonach der Zeichenbereich, der gerade verarbeitet wird, eine Komponente eines diskreten Zeichens ausmacht.
In dem Fall, daß das Ergebnis einer derartigen Entscheidung negativ ist, zeigt dies an, daß ein diskretes Zeichen, das als Ergebnis einer Integration des rechteckförmigen Bereiches mit dem folgenden rechteckförmigen Bereich gebildet worden ist, eine Teilung bzw. einen Abstand haben würde, der größer wäre als der mittlere Zeichenabstand. Dies zeigt an, daß das integrierte Zeichen nach allem nicht die Endbedingung bezüglich eines diskreten Zeichens erfüllen würde.
Wie oben in Verbindung mit der Gleichung (3) beschrieben worden ist, wird die mittlere Zeichenteilung bzw. der mittlere Zeichenabstand P auf der Grundlage der quadratischen bzw. viereckigen oder em-Zeichen berechnet, die in der vorhergehenden Zeile bis zu der Zeile enthalten sind, die den nunmehr verarbeiteten rechteckförmigen Bereich aufweist. Praktisch ist jedoch ein Zeichen, dessen Teilung bzw. Abstand größer ist als jener eines quadratischen oder em-Zeichens, nicht in einem gedruckten Dokument enthalten. Demgemäß muß eine derartige Integration von Zeichenbereichen, die zu einem Zeichenabstand führen würde, der größer ist als der mittlere Zeichenabstand P, verhindert werden.
Wenn das Ergebnis der Entscheidung beim Schritt SP 7 auf diese Weise negativ ist, geht die Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 3, um das Verarbeitungsprogramm zu beenden und dem Zeichen-Diskriminator 7 Eingangs-Zeichendaten S 5 zuzuführen, die kennzeichnend sind dafür, daß der nunmehr verarbeitete rechteckförmige Bereich zu einem unabhängigen Zeichen gehört, nicht jedoch zu einer Komponente irgendeines diskreten Zeichens.
Wenn demgegenüber das beim Schritt SP 7 erhaltene Ergebnis positiv bzw. bejahend ist, zeigt dies an, daß die integrierten Zeichenbereiche die dritte Bedingung bezüglich einer Komponente eines diskreten Zeichens erfüllen. Demgemäß geht die Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 8, um tatsächlich einen Integrationsprozeß bezüglich des rechteckförmigen Bereiches mit folgenden rechteckförmigen Bereichen auszuführen, woraufhin zum zuvor erwähnten Schritt SP 5 zurückgekehrt wird.
Beim Schritt SP 8 integriert die Zeichenextraktionseinrichtung 6 im Falle der Fig. 8(B) beispielsweise den nunmehr verarbeiteten rechteckförmigen Bereich CHR 21 oder CHR 23 mit dem folgenden Zeichenbereich CHR 22 bzw. CHR 24, und zwar aus dem Grund, daß ein diskretes Zeichen, welches durch Integration des nunmehr verarbeiteten rechteckförmigen Bereiches CHR 21 oder CHR 23 mit dem folgenden rechteckförmigen Bereich CHR 22 oder CHR 24 gebildet werden kann, eine Zeichenteilung bzw. einen Zeichenabstand haben würde, der kleiner ist als der mittlere Zeichenabstand P.
Danach führt die Zeichenextraktionseinrichtung 6 die zuvor erwähnten Entscheidungen bei den Schritten SP 5, SP 6 und SP 7 bezüglich eines weiteren folgenden rechteckförmigen Bereiches durch, der dem integrierten rechteckförmigen Bereich benachbart ist. Wenn die bei den betreffenden Schritten erhaltenen Ergebnisse alle positiv bzw. bejahend sind, ird die Integrationsverarbeitung erneut beim Schritt SP 8 ausgeführt. Wenn demgegenüber eines der erhaltenen Ergebnisse negativ ist, wird das Extraktionsverarbeitungsprogramm beim Schritt SP 3 beendet, und aus zwei oder mehr integrierten rechteckförmigen Bereichen bestehende diskrete Zeichendaten werden als Eingangs-Zeichendaten S 5 dem Zeichen-Diskriminator 7 zugeführt.
Im übrigen sei angemerkt, daß dann, wenn die Zeichenextraktionseinrichtung 6 die rechteckförmigen Bereiche CHR 21 und CHR 22 gemäß Fig. 8 miteinander integriert, ein positives bzw. bejahendes Ergebnis bei jedem der Schritte SP 5 und SP 6 bezüglich des nächsten rechteckförmigen Bereiches CHR 23 erhalten wird. Falls jedoch der rechteckförmige Bereich CHR 23 weiter integriert wird, dann wird die resultierende Zeichenteilung bzw. der resultierende Zeichenabstand größer sein als der mittlere Zeichenabstand P. Demgemäß wird beim Schritt SP 7 ein negatives Ergebnis erzielt werden.
Dies zeigt an, daß die rechteckförmigen Bereiche CHR 21 und CHR 22, wie sie in Fig. 8B veranschaulicht sind, nicht mit dem folgenden rechteckförmigen Bereich CHR 23 integriert werden können. In diesem Falle werden die durch Integration der rechteckförmigen Bereiche CHR 21 und CHR 22 erhaltenen diskreten Zeichen-Daten als Eingangs-Zeichendaten S 5 dem Zeichen-Diskriminator 7 von der Zeichenextraktionseinrichtung 6 her zugeführt.
Im Unterschied dazu wird in dem Fall, daß die Zeichenextraktionseinrichtung 6 zum Schritt SP 5 zurückkehrt, nachdem eine Integration des rechteckförmigen Bereiches CHR 24 mit dem Bereich CHR 23 gemäß Fig. 8B durchgeführt worden ist, beim Schritt SP 5 eine Entscheidung bezüglich eines Höhe-zu- Breite-Verhältnisses eines folgenden rechteckförmigen Bereiches CHR 25 getroffen. In dem dargestellten speziellen Falle ist das Höhe-zu-Breite-Verhältnis des rechteckförmigen Bereiches CHR 25 weitgehend gleich 1, und demgemäß erhält die Zeichenextraktionseinrichtung 6 beim Schritt SP 5 ein negatives Ergebnis. In diesem Falle geht die Zeichenextraktionseinrichtung 6 zum Schritt SP 3 weiter, ohne eine Integrationsverarbeitung bezüglich des rechteckförmigen Bereiches CHR 25 auszuführen; damit werden die diskreten Zeichendaten der rechteckförmigen Bereiche CHR 23 und CHR 24 als Eingangs-Zeichendaten S 5 dem Zeichen-Diskriminator 7 zugeführt.
Wenn demgegenüber die Zeichenextraktionseinrichtung 6 zum Schritt SP 5 zurückkehrt, nachdem aufeinanderfolgende Integrationen der rechteckförmigen Bereiche CHR 31 und CHR 32 und weiter der rechteckförmigen Bereiche CHR 33 und CHR 34 ausgeführt worden sind, wie die in Fig. 8C veranschaulicht sind, wird bei jedem der Schritte SP 5, SP 6 und SP 7 ein positives bzw. bejahendes Ergebnis erzielt, falls die Bedingungen erfüllt sind, wonach ein folgender rechteckförmiger Bereich CHR 35 vertikal langgestreckt ist (das heißt ein Höhe-zu-Breite-Verhältnis von h/w<1 hat) und an einer Stelle beiderseits der Mittellinie L CTR (Fig. 7) extrahiert wird, und wonach der Zeichenabstand nach der Integration mit dem rechteckförmigen Bereich CHR 35 kleiner wäre als der mittlere Zeichenabstand P. Demgemäß wird der Integrationsprozeß erneut beim Schritt SP 8 ausgeführt. Somit werden die diskreten Zeichendaten, welche durch eine derartige Integration der drei rechteckförmigen Bereiche CHR 33, CHR 34 und CHR 35 unter Bildung eines einzigen diskreten Zeichens erhalten worden sind, als Eingangs-Zeichendaten dem Zeichen-Diskriminator 7 von der Zeichenextraktionseinrichtung 6 her zugeführt.
In Übereinstimmung mit dem oben erwähnten beispielhaften Aufbau ist bei der Ausführung des Prozesses zur Extrahierung eines diskreten Zeichens durch Integration der rechteckförmigen Bereiche von Komponenten derartiger diskreter Zeichen die Extraktionsposition zusätzlich zu dem Höhe-zu- Breite-Verhältnis als eine Bedingung für die Entscheidung angenommen bzw. ausgewählt, daß der zu verarbeitende rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist. Demgemäß kann die Extraktionsgenauigkeit irgendeines diskreten Zeichens weiter gesteigert werden.
Darüber hinaus wird beim Prozeß der Integration eines folgenden rechteckförmigen Bereiches die Integration in einer solchen Art und Weise ausgeführt, daß das Höhe-zu-Breite- Verhältnis und die Extraktionsposition des nächsten rechteckförmigen Bereiches festgelegt werden, während die Bedingung aufrechterhalten wird, daß der Zeichenabstand bzw. die Zeichenteilung nach einem derartigen Integrationsprozeß niemals den mittleren Zeichenabstand P überschreitet. Demgemäß kann die Extraktionsgenauigkeit eines diskreten Zeichens weiter verbessert werden.
Das obige Ausführungseispiel ist im Hinblick auf einen beispielhaften Fall der Berechnung der mittleren Zeichenteilung bzw. des mittleren Zeichenabstands P in jeder Zeichenreihe beschrieben worden, wobei die Integration eines diskreten Zeichens dadurch ausgeführt wird, daß der mittlere Zeichenabstand P herangezogen wird, der in einer vorangehenden Zeichenreihe erhalten worden ist. Es kann jedoch eine solche Modifikation angewandt werden, daß die quadratischen Zeichen in einer Zeichenreihe insgesamt oder teilweise als Daten des mittleren Zeichenabstands P für die jeweiligen Zeichenreihe benutzt werden, oder ein sonstiger mittlerer Zeichenabstand wird im Hinblick auf einen Teil der viereckigen Zeichen oder em-Zeichen in der vorangehenden Reihe berechnet und als mittlere Zeichenabstands-Daten in der relevanten Zeichenreihe benutzt. Ferner können die mittleren Zeichenabstands-Daten im Hinblick auf die viereckigen bzw. quadratischen Zeichen in einer Vielzahl von Zeichenreihen berechnet werden.
Unter Ausschluß irgendeines Zeichenabstands, der verschieden ist von dem Abstand bzw. der Teilung des quadratischen Zeichens, und zwar zur Berechnung eines mittleren Zeichenabstands in jeder Zeichenreihe für den Fall, daß ein Zeichenabstand in einer neuen Zeichenreihe extrem verschieden ist von dem mittleren Zeichenabstand in der vorangehenden Zeichenreihe, kann die neue Zeichenreihe als erste Zeichenreihe betrachtet werden, und der Vorgang eines derartigen Ausschlusses kann dadurch ausgeführt werden, daß die maximale Höhe der neuen Zeichenreihe herangezogen wird.
In dem Fall, daß lediglich eine gewisse Anzahl von Reihen von Zeichen eine unterschiedliche Zeichengröße hat, wie in einem eingefügten Anschnitt innerhalb eines gedruckten Dokuments (beispielsweise dann, wenn ein oder mehr Zeichenreihen enthaltender Abschnitt mit Zeichen der 8-Punkt-Zeichengröße in ein gedrucktes Dokument eingesetzt ist, welches Zeichenreihen mit Zeichen der 12-Punkt-Zeichengröße aufweist), können die aus der Berechnung eines mittleren Zeichenabstands auszuschließenden Zeichen unter Bezugnahme auf die maximale Höhe der ersten Zeichenreihe des eingefügten Absatzes der 8-Punkt-Zeichenreihen ausgewählt werden. Dadurch wird die Ausführung der erwünschten Extraktion diskreter Zeichen mit einer hinreichend hohen Genauigkeit bei der praktischen Anwendung gewährleistet.
Während vorstehend lediglich die Extraktion von horizontal geschriebenen Zeichen im Zuge der Erläuterung der bevorzugten Ausführungsform der vorliegenden Erfindung beschrieben worden ist, sei angemerkt, daß die Extraktionsprozedur in entsprechender bzw. ähnlicher Weise bei der Extraktion von vertikal geschriebenen Zeichen angewandt werden kann. In diesem Falle kann ein rechteckförmiger Bereich mit einer Höhe-zu-Breite kleiner als 1 als Komponente eines diskreten Zeichens betrachtet werden.
Darüber hinaus können die Schritte SP 2 und SP 4 miteinander ausgetauscht werden, was auch für die Schritte SP 5 und SP 6 zutrifft.

Claims (4)

1. Verfahren zum Erkennen eines Zeichens entsprechend einer Zeichen-Information, welche aus einem Zeichenreihen-Signal unter Verwendung eines rechteckförmigen Bereiches extrahiert worden ist, der aus dem Zeichenreihen-Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens umgibt, dadurch gekennzeichnet, daß in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer vertikalen Extraktionsposition des rechteckförmigen Bereiches entschieden wird, daß bzw. ob der betreffende rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist.
2. Verfahren zum Erkennen eines Zeichens in Übereinstimmung mit einer Zeichen-Information, welche aus einem Zeichenreihen-Signal unter Verwendung eines rechteckförmigen Bereiches extrahiert worden ist, der aus dem Zeichenreihen-Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens umgibt, dadurch gekennzeichnet,
daß in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer vertikalen Extraktionsposition eines Zeichenbereiches entschieden wird, ob bzw. daß ein Zeichenbereich eine Komponente eines diskreten Zeichens ist,
daß dann, wenn entschieden worden ist, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, entschieden wird, ob bzw. daß ein zweiter benachbarter Zeichenbereich eine weitere Komponente eines diskreten Zeichens ist,
daß der zweite Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert wird, daß der Zeichenabstand (P) der integrierten Zeichenbereiche einen mittleren Zeichenabstand (P) nicht überschreitet,
und daß die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert wird.
3. Zeichenerkennungssystem, insbesondere zur Durchführung des Verfahrens nach Anspruch 1 oder 2, zum Erkennen eines Zeichens in Übereinstimmung mit einer Zeicheninformation, welche aus einem Zeichenreihen-Signal unter Verwendung eines rechteckförmigen Bereiches extrahiert worden ist, der aus dem Zeichenreihen-Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens umgibt, dadurch gekennzeichnet, daß eine Entscheidungseinrichtung vorgesehen ist, die in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und in Übereinstimmung mit einer vertikalen Extraktionsposition eines rechteckförmigen Bereiches bestimmt, ob bzw. daß der rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist.
4. Zeichenerkennungssystem, insbesondere zur Durchführung des Verfahrens nach Anspruch 1 oder 2, zum Erkennen eines Zeichens in Übereinstimmung mit einer Zeicheninformation, welche aus einem Zeichenreihen-Signal unter Verwendung eines rechteckförmigen Bereiches extrahiert worden ist, der aus dem Zeichenreihen-Signal gebildet ist und der ein vollständiges Zeichen oder eine Komponente eines diskreten Zeichens umschreibt, dadurch gekennzeichnet,
daß eine Entscheidungseinrichtung vorgesehen ist, die in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und in Übereinstimmung mit einer vertikalen Extraktionsposition eines rechteckförmigen Bereiches bestimmt, ob bzw. daß der rechteckförmige Bereich eine Komponente eines diskreten Zeichens is,
daß eine Entscheidungseinrichtung vorgesehen ist, die in dem Fall, daß entschieden worden ist, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, entscheidet, daß bzw. ob ein zweiter benachbarter Zeichenbereich eine weitere Komponente des diskreten Zeichens ist,
daß eine Integrationseinrichtung (6) vorgesehen ist, welche den zweiten Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert, daß der Zeichenabstand (P) der integrierten Zeichenbereiche einen mittleren Zeichenabstand nicht überschreitet,
und daß eine Diskriminierungseinrichtung (7) vorgesehen ist, welche die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert.
DE3916323A 1988-05-19 1989-05-19 Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem Withdrawn DE3916323A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63122272A JP2822189B2 (ja) 1988-05-19 1988-05-19 文字認識装置及び方法

Publications (1)

Publication Number Publication Date
DE3916323A1 true DE3916323A1 (de) 1989-11-30

Family

ID=14831855

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3916323A Withdrawn DE3916323A1 (de) 1988-05-19 1989-05-19 Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem

Country Status (6)

Country Link
US (1) US5138668A (de)
JP (1) JP2822189B2 (de)
KR (1) KR890017630A (de)
DE (1) DE3916323A1 (de)
FR (1) FR2631723A1 (de)
GB (1) GB2218839B (de)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
CA2037173C (en) * 1990-03-30 1996-01-09 Hirofumi Kameyama Character recognizing system
DE69132789T2 (de) * 1990-05-14 2002-05-23 Canon Kk Verfahren und Gerät zur Bildverarbeitung
EP0457546B1 (de) * 1990-05-15 1998-12-02 Canon Kabushiki Kaisha Verfahren und Gerät zur Bildverarbeitung
JP2868134B2 (ja) * 1990-09-03 1999-03-10 キヤノン株式会社 画像処理方法及び装置
US5825920A (en) * 1991-01-28 1998-10-20 Hitachi, Ltd. Method and unit for binary processing in image processing unit and method and unit for recognizing characters
EP0831418B1 (de) * 1991-10-21 2002-03-13 Canon Kabushiki Kaisha Verfahren und Gerät zur Zeichenerkennung
US5757979A (en) * 1991-10-30 1998-05-26 Fuji Electric Co., Ltd. Apparatus and method for nonlinear normalization of image
US5343537A (en) * 1991-10-31 1994-08-30 International Business Machines Corporation Statistical mixture approach to automatic handwriting recognition
US5848187A (en) * 1991-11-18 1998-12-08 Compaq Computer Corporation Method and apparatus for entering and manipulating spreadsheet cell data
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JPH0619439A (ja) * 1992-06-30 1994-01-28 Fujitsu Ltd 画面表示の変更方式
US5321768A (en) * 1992-09-22 1994-06-14 The Research Foundation, State University Of New York At Buffalo System for recognizing handwritten character strings containing overlapping and/or broken characters
US6005976A (en) * 1993-02-25 1999-12-21 Fujitsu Limited Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions
JP2951814B2 (ja) * 1993-02-25 1999-09-20 富士通株式会社 画像抽出方式
US5396566A (en) * 1993-03-04 1995-03-07 International Business Machines Corporation Estimation of baseline, line spacing and character height for handwriting recognition
JP2800633B2 (ja) * 1993-04-30 1998-09-21 富士ゼロックス株式会社 画像符号化装置
US6651221B1 (en) 1993-05-20 2003-11-18 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
US5517578A (en) * 1993-05-20 1996-05-14 Aha! Software Corporation Method and apparatus for grouping and manipulating electronic representations of handwriting, printing and drawings
JP2933801B2 (ja) * 1993-06-11 1999-08-16 富士通株式会社 文字の切り出し方法及びその装置
EP0632402B1 (de) * 1993-06-30 2000-09-06 International Business Machines Corporation Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung
JP3042945B2 (ja) * 1993-07-07 2000-05-22 富士通株式会社 画像抽出装置
US5596350A (en) * 1993-08-02 1997-01-21 Apple Computer, Inc. System and method of reflowing ink objects
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
US6256408B1 (en) * 1994-04-28 2001-07-03 International Business Machines Corporation Speed and recognition enhancement for OCR using normalized height/width position
US5600735A (en) * 1994-05-10 1997-02-04 Motorola, Inc. Method of recognizing handwritten input
JPH08194780A (ja) * 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
IL112420A (en) * 1995-01-23 1999-05-09 Advanced Recognition Tech Handwriting recognition with reference line estimation
JPH08249422A (ja) * 1995-03-08 1996-09-27 Canon Inc 文字処理装置及び方法
US5991439A (en) * 1995-05-15 1999-11-23 Sanyo Electric Co., Ltd Hand-written character recognition apparatus and facsimile apparatus
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US7721948B1 (en) * 1999-05-25 2010-05-25 Silverbrook Research Pty Ltd Method and system for online payments
USD705787S1 (en) 2012-06-13 2014-05-27 Microsoft Corporation Display screen with animated graphical user interface
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN105095890B (zh) * 2014-04-25 2019-02-26 广州市动景计算机科技有限公司 图像中字符分割方法及装置
KR102256667B1 (ko) 2020-03-23 2021-05-26 주식회사 신한디에스 문서 인식 방법 및 그 장치

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3526876A (en) * 1965-10-24 1970-09-01 Ibm Character separation apparatus for character recognition machines
US3662341A (en) * 1970-09-25 1972-05-09 Ibm Video-derived segmentation-gating apparatus for optical character recognition
US3846752A (en) * 1972-10-02 1974-11-05 Hitachi Ltd Character recognition apparatus
NL160408C (nl) * 1973-02-21 1979-10-15 Nederlanden Staat Inrichting voor het lezen van tekens, bij voorkeur van cijfers.
JPS5156139A (en) * 1974-11-13 1976-05-17 Hitachi Ltd Mojomitorisochi niokeru kiridashihoshiki
US4193056A (en) * 1977-05-23 1980-03-11 Sharp Kabushiki Kaisha OCR for reading a constraint free hand-written character or the like
US4162482A (en) * 1977-12-07 1979-07-24 Burroughs Corporation Pre-processing and feature extraction system for character recognition
JPS5580183A (en) * 1978-12-12 1980-06-17 Nippon Telegr & Teleph Corp <Ntt> On-line recognition processing system of hand-written character
JPS5827551B2 (ja) * 1979-05-18 1983-06-10 日本電信電話株式会社 オンライン手書き文字認識方式
US4379282A (en) * 1979-06-01 1983-04-05 Dest Corporation Apparatus and method for separation of optical character recognition data
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
US4365234A (en) * 1980-10-20 1982-12-21 Hendrix Electronics, Inc. Segmentation system and method for optical character scanning
DE3480667D1 (de) * 1983-03-01 1990-01-11 Nec Corp System zum bestimmen des zeichenabstandes.
US4562594A (en) * 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPS6118079A (ja) * 1984-07-05 1986-01-25 Fujitsu Ltd パタ−ン分離装置
DE3538639A1 (de) * 1984-10-31 1986-04-30 Canon K.K., Tokio/Tokyo Bildverarbeitungssystem
JPS61117670A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文字切り出し処理方式
JPH0782525B2 (ja) * 1985-07-09 1995-09-06 松下電器産業株式会社 文字認識装置
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
JPS6316392A (ja) * 1986-07-08 1988-01-23 Matsushita Electric Ind Co Ltd 文字認識装置
JP2619429B2 (ja) * 1987-11-05 1997-06-11 グローリー工業株式会社 接触文字の分離方法
US4932065A (en) * 1988-11-16 1990-06-05 Ncr Corporation Universal character segmentation scheme for multifont OCR images

Also Published As

Publication number Publication date
GB2218839A (en) 1989-11-22
JP2822189B2 (ja) 1998-11-11
GB2218839B (en) 1992-04-29
JPH01292486A (ja) 1989-11-24
GB8911303D0 (en) 1989-07-05
FR2631723B1 (de) 1995-04-28
FR2631723A1 (fr) 1989-11-24
KR890017630A (ko) 1989-12-16
US5138668A (en) 1992-08-11

Similar Documents

Publication Publication Date Title
DE3916323A1 (de) Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem
DE3716787C2 (de)
DE3632832A1 (de) Zeichenerkennungssystem
DE3322443C2 (de)
DE69723220T2 (de) Gerät und Verfahren zur Extrahierung von Tabellengeraden innerhalb normaler Dokumentbilder
DE3806223C2 (de) Verfahren zur Erzeugung von Zeichenmustern
DE69721941T2 (de) Gerät und Verfahren zum Extrahieren von Mustern
DE2909153C2 (de) Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern
DE4427992C2 (de) Verfahren zum Erzeugen einer Dokumenten-Darstellung aus einem Bitmap-Bild eines Dokuments
DE19614975A1 (de) Gesichtsbildverarbeitungssystem
DE3926327A1 (de) Verfahren und system zur erkennung von zeichen auf einem medium
DE2147896C3 (de) Gerät zum Erkennen normaler Schriftzeichen
DE19634768A1 (de) Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild
DE2740483A1 (de) Merkmal-detektor
EP0312905A1 (de) Verfahren zur automatischen Zeichenerkennung
EP0550511B1 (de) Verfahren zur extrahierung von einzelzeichen aus rasterbildvorlagen einer gelesenen hand- oder maschinenschriftlichen zeichenfolge freier teilung
DE4119091C2 (de) Verfahren zum Erkennen von Zeichen, insbesondere Schriftzeichen und Einrichtung zur Durchführung des Verfahrens
DE3326583A1 (de) Verfahren zur datenkomprimierung
EP0301384B1 (de) Schaltungsanordnung zur Aufbereitung von schrägstehenden, insbesondere handgeschriebenen Zeichen
DE3241673C2 (de) Verfahren zum Verdichten von Daten Zwei-wertiger Bilddarstellungen
DE60024535T2 (de) Verfahren zur Zeichentrennung
DE60208817T2 (de) Verfahren und Vorrichtung zur Buchstabenseparation für deren Erkennung
DE102006059659A1 (de) Vorrichtung, Verfahren und Computerprogramm zur Erkennung von Schriftzeichen in einem Bild
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
DE3238300A1 (de) Verfahren und vorrichtung zur muster- oder zeichenerkennung

Legal Events

Date Code Title Description
8141 Disposal/no request for examination