DE19705757C2

DE19705757C2 - Verfahren zum Erkennen eines Eingabemusters und zum Erzeugen einer Datenbank sowie Zeichenerkennungssystem

Info

Publication number: DE19705757C2
Application number: DE19705757A
Authority: DE
Inventors: Yea-Shuan Huang
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1996-10-31
Filing date: 1997-02-14
Publication date: 1999-12-02
Anticipated expiration: 2017-02-15
Also published as: US5940535A; DE19705757A1

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erkennen eingegebener, handgeschriebener oder gedruckter Zeichen durch Vergleich von Prototyp-Zeichen- Daten, die in einer Datenbank vorab zusammengestellt sind und bereitgehalten werden. Ferner bezieht sich die Erfindung auf ein Verfahren zum Erzeugen einer solchen Daten bank sowie auf ein entsprechendes Zeichenerkennungssystem.

Eine Zeichenerkennung wird oftmals während des Eingebens von Informationen ver wendet, die in einer durch Personen lesbaren Form vorliegen (d. h. maschinengedruckte oder handgeschriebene Form) im Gegensatz zu einer elektronischen, digitalen Form. Zum Beispiel besitzen, während viele Computer ein Tastenfeld zum Aufnehmen von einer Tastatur-Eingabe besitzen, andere Computersysteme einen optischen Scanner bzw. eine Abtasteinrichtung zum Aufnehmen einer dokumentenmäßigen Eingabe. Noch andere Computersysteme besitzen einen stiftähnlichen Schreibstift und einen Tafel- Digitalisierer zum Aufnehmen einer handgeschriebenen Eingabe. Solche Vorrichtungen für eine handgeschriebene Eingabe können aus einer Anzahl von Gründen vorgesehen werden. Zum Beispiel sind es viele Benutzer mehr gewohnt, Daten über ein Schreiben per Hand als entgegengesetzt dazu über eine Tastatur einzugeben. Zusätzlich erfordert ein Tastenfeld einen großen Raumbedarf, der nicht in einem kleinen, portablen Compu ter, wie beispielsweise einem digitalen Personal-Assistent oder PDA (Personal Digital Assistant) aufgenommen werden kann.

Fig. 6 stellt ein herkömmliches Zeichenerkennungssystem 10 dar. Das Zeichenerken nungssystem kann eine Tafel und einen Schreibstift 18, eine optische Abtasteinrichtung 16, oder beides, umfassen. In dem Fall der Tafel und des Schreibstifts 18 bewegt der Benutzer den Schreibstift über die Tafeloberfläche. Die Tafel und der Schreibstift 18 konvertieren die Bewegung des Schreibstift-Benutzers in bezug auf die Tafel in digitale, binäre Daten, die graphisch die Bewegung darstellen. Das bedeutet, daß dann, wenn der Benutzer einen Stift und Papier benutzt hätte, die Bewegung Markierungen auf dem Papier erzeugt hätte. Der Schreibstift und die Tafel 18 produzieren in Pixel umgesetzte Abbildungen solcher Markierungen in der Form von digitalen Daten.

In dem Fall einer optischen Abtasteinrichtung 16 werden Blätter, auf denen handge schriebene oder maschinengedruckte Zeichen zuvor gebildet sind, in die optische Abta steinrichtung 16 zugeführt. Die optische Abtasteinrichtung 16 erzeugt digitale, binäre Daten, die graphisch die Zeichen auf den Blättern darstellen.

Der Schreibstift und die Tafel 18 oder die optische Abtasteinrichtung 16 übertragen die Daten zu einer I/O-Schnittstelle 14. Die I/O-Schnittstelle 14 überträgt wiederum die Daten auf einen Bus 12 des Systems 10. Das Zeichenerkennungs-System 10 umfaßt auch einen Prozessor oder eine CPU 20, einen Hauptspeicher 22, einen Plattenspeicher 24 und eine Audio/Video-Ausgabevorrichtung 26. Jede dieser Vorrichtungen 20, 22, 24 und 26 ist mit dem Bus 12 zu Zwecken einer Übertragung von Daten zu einer der anderen Vorrichtungen oder der I/O-Schnittstelle 14 und zum Empfang von Daten davon verbun den. Die Audio/Video-Ausgabevorrichtung 26 dient zum Befördern von Informationen zu einem Benutzer in der Form von Abbildungen und Klängen. Hierbei kann die Au dio/Video-Ausgabevorrichtung 26 eine Kathodenstrahlröhre oder eine LCD-Anzeige und Lautsprecher umfassen. Der Hauptspeicher 22 und der Plattenspeicher 24 dienen zum Speichern von Daten und Programmen. Der Prozessor 20 dient zum Verarbeiten von Daten. Insbesondere führt der Prozessor 20 Schritte in Verbindung mit den anderen Vorrichtungen 12, 14, 16, 18, 22, 24 und 26 zum Erkennen von Zeichen von den einge gebenen Daten aus.

Fig. 7 stellt einen herkömmlichen Prozeß für eine Handschrifterkennung dar, der durch das Zeichenerkennungs-System 10 der Fig. 6 ausgeführt werden kann. In einem ersten Schritt 32 werden die eingegebenen, handgeschriebenen oder maschinengedruckten Zeichen aufgenommen. Zum Beispiel schreibt der Benutzer, unter Verwendung des Schreibstifts und der Tafel 18, manuell ein oder mehrere Zeichen. Der Schreibstift und die Tafel 18 übertragen Zeichendaten, die graphisch die geschriebenen Zeichen darstel len, zu der I/O-Schnittstelle 14. Alternativ führt der Benutzer Blätter, auf denen handge schriebene oder maschinengedruckte Zeichen zuvor handgeschrieben oder aufgedruckt worden sind, in die optische Abtasteinrichtung bzw. den Scanner 16 zu. Die optische Abtasteinrichtung 16 wiederum überträgt Zeichendaten, die graphisch die handgeschrie benen oder maschinengedruckten Zeichen darstellen, zu der I/O-Schnittstelle 14. Die I/O-Schnittstelle überträgt die Zeichendaten über den System-Bus 12, zum Beispiel zu dem Hauptspeicher 22.

Als nächstes verarbeitet in einem Schritt 34 der Prozessor 20 die eingegebenen Zei chendaten, die in dem Hauptspeicher 22 gespeichert sind, vor. Zum Beispiel kann der Prozessor 20 ein Rauschen durch Aussondieren bzw. Löschen von Clustern verbunde ner, gefüllter Pixel entfernen, die weniger als einen minimalen Schwellwertflächenbereich besitzen. Der Prozessor 20 kann auch die graphischen Abbildungen der eingegebenen Zeichen glätten. Als nächstes bildet in einem Schritt 36 der Prozessor 20 optional eine Skelett-Abbildung jedes eingegebenen Zeichens und konvertiert dann die Skelett- Abbildungen in Abbildungen mit vergrößerter Kontur (d. h. verdickt die Linien der Skelett- Abbildung). Dann segmentiert in einem Schritt 38 der Prozessor 20 die Abbildungen der Zeichen (d. h. unterteilt die Zeichen in Unter-Bilder oder Unter-Zonen) zu Zwecken eines Extrahierens von Merkmals-Werten von den Zeichenabbildungen. Hier bedeutet "Merkmal" irgendein quantifizierbares, graphisches Zeichen einer Abbildung, das zur Unterscheidung des Bilds eines oder mehrerer Zeichen voneinander nützlich ist. Eine Segmentations-Technik ist beispielsweise in der nachveröffentlichten US 5,841,902 beschrieben, wo die Segmentierung von den Merkmals-Werten abhängt, die von den eingegebenen Zeichen extrahiert werden sollen. Zum Beispiel wird angenommen, daß das eingegebene Zeichen eine handgeschriebene Zahl "8" ist. Die graphische Abbildung des eingegebenen Zeichens "8" kann so segmentiert werden, wie dies in den Fig. 8, 9 und 10 dargestellt ist. In Fig. 8 werden acht Zonen 321, 322, 323, 324, 341, 342, 343 und 344 so gebildet, wie dies dargestellt ist. In Fig. 9 werden acht Zonen 352, 354, 356, 358, 372, 374, 376 und 378 so gebildet, wie dies dargestellt ist. In Fig. 10 werden vier Zonen 332, 334, 336 und 338 so gebildet, wie dies dargestellt ist.

Als nächstes extrahiert in einem Schritt 40 (Fig. 7) der Prozessor 20 einen Vektor von Merkmals-Werten für jedes eingegebene Zeichen. Die US 5,841,902 liefert Beispiele von Merkmalen, die aus Zeichen extrahiert werden können, die so segmentiert sind, wie dies in den Fig. 8-10 dargestellt ist. Diese illustrativen Merkmale werden kurz nachfolgend beschrieben. Zur Erläuterung werden Merkmals-Wert-Vektoren für dieselben Merkmale für jedes Zeichen extrahiert.

Wie die Fig. 11 zeigt, ist dort die Extraktion von Hub-Dichte-Funktions- (Stroke Density Function - SDF) Merkmals-Werten dargestellt. Beim Berechnen der SDF projiziert der Prozessor 20 eine Zahl von Inspektionslinien in jede Zone, in der die SDF abgeschätzt wird. Der Prozessor 20 zählt dann die Anzahlen, mit denen die graphische Abbildung des Zeichens eine Inspektionslinie innerhalb der Zone überquert. Die Gesamtzahl der Überquerungen wird durch die Gesamtzahl der Inspektionslinien dividiert, um das Er gebnis der SDF-Funktion zu produzieren (die wiederum der SDF-Merkmals-Wert ist). Zur Erläuterung berechnet der Prozessor 20 nicht die SDF in jeder Zone, sondern vielmehr in acht vertikalen Zonen 321, 322, 326, 327, 341, 342, 346 und 347 und in vier horizonta len Zonen 332, 334, 336 und 338, um 12 Merkmals-Werte zu produzieren.

Unter Bezugnahme auf Fig. 12 wird die Extraktion von Merkmals-Werten eines periphe ren Hintergrundbereichs (Peripheral Background Area - PBA) beschrieben. Beim Be stimmen des PBA berechnet der Prozessor 20 die folgende Funktion:

wobei n' ein Index von Punkten auf irgendeiner der horizontalen (x') oder vertikalen (y') Achse ist, die aufeinanderfolgend jeden Wert von 1 bis zu der maximalen Dimension N' des Zeichen-Abbildungs-Rechtecks auf dieser Achse annimmt. λ'_n' ist der Abstand in Pixeln von der n'-ten Stelle zu einem gefüllten Pixel der Zeichen-Abbildung. Wie in Fig. 12 dargestellt ist, mißt der Prozessor 20 λ'_n' senkrecht von der entsprechenden Achse. Die Variable m' nimmt einen Wert an, der die bestimmte Zone anzeigt, für die die PBA- Funktion berechnet ist. X'_m' stellt die horizontale Breite der m'-ten Zone dar und Y'_m' stellt die vertikale Höhe der m'-ten Zone dar.

Der Prozessor 20 berechnet den PBA in der vertikalen Richtung für jede der Zonen 321, 322, 326, 327, 341, 342, 346 und 347. Der PBA wird in der horizontalen Richtung für die Zonen 352, 354, 356, 358, 372, 374, 376 und 378 berechnet. Demzufolge werden 16 Merkmals-Werte extrahiert.

Unter Bezugnahme auf Fig. 13 wird die Extraktion der Merkmals-Werte der Kontur- Linien-Länge (Contour Line Length - CLL) beschrieben. Beim Bestimmen der CLL- Merkmals-Werte berechnet der Prozessor 20 die nachfolgenden Formeln:

Die Variablen m, n', X'_m', Y'_m' und λ'_n', sind so, wie sie vorstehend beschrieben sind. Der Prozessor 20 erhält zwei CLL-Merkmals-Werte, nämlich CLL₁ und CLL₂, für sowohl die vertikalen als auch die horizontalen Zonen 324, 328, 344 und 348. Dies produziert 16 Merkmals-Werte.

Wie die Fig. 14 zeigt, werden Gradienten-Merkmals-Werte extrahiert. Zuerst ordnet der Prozessor 20 einen Richtungs-Code Dir_i'j' jedem Pixel der Zeichen-Abbildung in der i'-ten Spalte und der j'-ten Reihe der Zeichen-Abbildung zu. Die Variablen i' und j' sind Indizes in der horizontalen (x') bzw. der vertikalen (y') Richtung. Der Richtungs-Code entspricht einer Richtung, die normal zu einer Tangentenlinie an dem Pixel liegt. Wie in Fig. 14 dargestellt ist, sind acht mögliche Richtungs-Code vorhanden, die zugeordnet werden können, wobei jeder einer Winkelrichtung von 45° entspricht, d. h. 0 für 337,5° bis 22,5°, 1 für 22,5° bis 67,5°, 2 für 67,5° bis 112,5°, 3 für 112,5° bis 157,5°, 4 für 157,5° bis 202,5°, 5 für 202,5° bis 247,5°, 6 für 247,5° bis 292,5° und 7 für 292,5° bis 337,5°. Da nach erzeugt der Prozessor 20 einen Vektor von Längen Len(Dir_i'j') in jeder Zone, unter Verwendung der nachfolgenden Formeln:

wobei Bdd_m' (Dir_i'j') die Grenzenbreite der m'-ten Zone darstellt, deren Richtung normal zu (Dir_i'j') liegt, und wobei X' und Y' Werte sind, die unter Verwendung der folgenden Kerne, Kernel bzw. Kernsysteme erzeugt sind:

Der Prozessor 20 wendet die Kerne auf jedes Pixel der Zeichnungs-Abbildung vor einer Bestimmung der Länge Len in der geeigneten Richtung Dir_i'j' an. Die Längen Len_i'j' wer den dann entsprechend der Gleichung (3c) kombiniert, um einen einzelnen Wert für jede der acht Richtungen Dir_i'j' zu produzieren. Demzufolge produziert der Prozessor 20 acht Gradienten-Merkmals-Werte für jede Zone. Es werden die Gradienten-Merkmals-Werte von jeder der acht Zonen 352, 354, 356, 358, 372, 374, 376 und 378 extrahiert, um dadurch vierundsechzig Merkmals-Werte zu erzeugen.

Nach Extrahieren eines Merkmals-Wert-Vektors für ein eingegebenes Zeichen führt der Prozessor 20 einen Schritt 42 (Fig. 7) durch. In dem Schritt 42 vergleicht der Prozessor 20 den Merkmals-Wert-Vektor für jedes eingegebene Zeichen mit Merkmals-Wert- Vektoren, die in einer Datenbank vorbestimmter Merkmals-Wert-Vektoren enthalten sind. Beispielsweise kann diese Datenbank in dem Plattenspeicher 24 oder dem Haupt speicher 22 gespeichert werden. Die Datenbank enthält mindestens einen vorbestimm ten Merkmals-Wert-Vektor für jedes Modell-Zeichen eines Satzes von Modell-Zeichen, die durch das System 10 erkannt werden können. Zum Beispiel wird angenommen, daß das System 10 die Buchstaben des englischen Alphabets erkennen kann. In einem solchen Fall wird mindestens ein vorbestimmter Merkmals-Wert-Vektor in der Datenbank für jeden Buchstaben des Alphabets gehalten. Basierend auf diesen Vergleichen be stimmt der Prozessor 20 den vorbestimmten Merkmals-Wert-Vektor, der am besten den Merkmals-Wert-Vektor des eingegebenen Zeichens anpaßt. In einem Schritt 44 (Fig. 7) gibt der Prozessor 20 das Modell-Zeichen aus, dem der am besten anpassende, vor bestimmte Merkmals-Wert-Vektor entspricht. Zum Beispiel kann der Prozessor 20 den ASCII -Code des Modell-Zeichens, eine vorbestimmte Zeichen-Abbildung des Modell- Zeichens, usw., ausgeben.

Viele Modifikationen und Verbesserungen nach dem Stand der Technik sind für eine Zeichenerkennung vorgesehen worden. Siehe US-Patent-Nr.'n 5,151,950; 5,050,219; 5,034,989; 4,903,312; 4,731,857; 4,718,103; 4,685,142; 4,284,975 und 4,773,099 und D. Lee & N. Srihari, Handprinted Digital Recognition: A Comparison of Algorithms THIRD INTERNATIONAL WORKSHOP ON FRONTIERS IN HANDWRITING RECOGNITION, Seiten 153-162 (1993), G. Srikantan, Gradient Representation for Handwritten Character Recognition THIRD INTERNATION WORKSHOP ON FRONTIERS IN HANDWRITING RECOGNITION, Seiten 318-23 (1993), und L. Tu, W. Lin, Y. Chan & I. Shyu, A PC Based Handwritten Chinese Character Recognition System, THIRD INTERNATIONAL WORKSHOP ON FRONTIERS IN HANDWRITING RECOGNITION, Seiten 349-54 (1993). Weitere Zeichenerkennungssysteme werden in den nachveröffentlichten Patent schriften US 5,802,207 und US 5,841,902 beschrieben.

Wie vorstehend angeführt ist, vergleicht ein typisches Zeichenerkennungs-System 10 die Merkmals-Werte, die von eingegebenen Zeichen extrahiert sind, gegen eine vorbe stimmte Datenbank aus Merkmals-Wert-Vektoren der Modell-Zeichen. Eine solche Da tenbank kann in einer Anzahl von Arten und Weisen organisiert werden. Zum Beispiel lehrt das US-Patent Nr. 5,050,219 (Maury) eine Zeichen-Erkennungs-Datenbank, die gemäß einer Baumstruktur organisiert ist. Jeder Blatt-Knoten des Baums enthält ein Zeichen, das erkannt werden kann. Jeder Nicht-Blatt-Knoten des Baums enthält einen bestimmten einer Vielzahl von vorbestimmten Merkmals-Vergleichen, die in bezug auf die eingegebenen Zeichen-Merkmals-Werte ausgeführt werden sollten. Basierend auf den Ergebnissen des Vergleichs an einem solchen Nicht-Blatt-Knoten wird die Daten bank zu einem bestimmten, angehängten Kind-Knoten überquert. In dem Vergleichs schritt wird der Baum überquert, bis ein Blatt-Knoten erreicht wird. Das Zeichen wird dann als das Zeichen erkannt, das dem Blatt-Knoten entspricht.

Andere Zeichen-Erkennungs-Datenbanken sind "flach", d. h. nicht hierarchisch struktu riert. Solche Zeichen-Erkennungs-Datenbanken enthalten mindestens einen Vektor von Merkmals-Werten für jedes Modell-Zeichen, das erkannt werden soll. Die eingegebenen Zeichen-Merkmals-Werte werden mit jedem Vektor der Merkmals-Werte verglichen. Das eingegebene Zeichen wird dann als das Modell-Zeichen erkannt, das dem Vektor der Merkmals-Werte entspricht, die am besten den Merkmals-Wert-Vektor des eingegebe nen Zeichens anpassen.

Eine flache Zeichen-Erkennungs-Datenbank, wie sie vorstehend verwendet wird, wird herkömmlich wie folgt generiert. Vielfache Trainings-Zeichen-Proben werden in das System 10 der Fig. 6 für jedes Modell-Zeichen eingegeben, das erkannt werden kann. Merkmals-Werte werden dann für jedes Trainings-Zeichen-Beispiel extrahiert. Typi scherweise führt dies zu zu vielen Merkmals-Wert-Vektoren, um sie praktisch zu spei chern oder um auf sie für die Zwecke, Vergleiche zu erstellen, zuzugreifen. Deshalb wird die Merkmals-Wert-Vektor-Datenbank kompaktiert. Hierbei organisiert der Prozessor 20 die Zeichen in Klassen. Zum Beispiel bildet der Prozessor 20 anfänglich eine oder meh rere Klassen für jedes Modell-Zeichen und plaziert jede Trainings-Zeichen-Probe jedes Modell-Zeichens in eine entsprechende Klasse. Danach ordnet der Prozessor 20 einen oder mehrere Prototyp-Merkmals-Wert-Vektoren zum Darstellen jeder Klasse zu. Zum Beispiel kann der Prozessor den Haupt-Merkmals-Wert-Vektor in jeder Klasse bilden und den jeweiligen Haupt-Merkmals-Wert-Vektor zu der Klasse als ein Prototyp- Merkmals-Wert-Vektor zuordnen. Dieser Prototyp-Merkmals-Wert-Vektor ist derjenige, der ein Prototyp- oder virtuell repräsentatives Zeichen der Klasse ist (US 5,841,902 A schlägt ein alternatives Schema zum Klassifizieren und Auswählen von Prototyp-Merkmals-Wert-Vektoren für jede Klasse vor).

In dem US-Patent Nr. 4,773,099 offenbart Bokser ein Verfahren zum Organisieren einer Erkennungs-Datenbank in sogenannte "verringte Kluster" ("Ringed Clusters"). Diese verringten Kluster umfassen "Sicherheits-Sphären" ("Certainty Spheres") für eine Zei chen-Identifikation mit einer Sicherheit bzw. Bestimmtheit, "Zuversichts-Sphären" ("Confidence Spheres") für eine Zeichen-Identifikation ohne eine Sicherheit, allerdings mit einem gewissen Zuversichts-Niveau, und "Möglichkeits-Sphären" ("Possibility Sphe res") zur Klassifikation von unbekannten Zeichen.

Bokser skizziert weiterhin die verringten Kluster in "grob" ("coarse"), "medium" ("medium") und "feine" ("fine") Kategorien, und zwar in Abhängigkeit von dem erwünsch ten Grad einer Genauigkeit beim Klassifizieren der Eingabe-Zeichen.

Unter Berücksichtigung des vorstehend beschriebenen Stands der Technik im allgemei nen kann die Basis für ein Akzeptieren oder Zurückweisen unbekannter Eingabe-Daten durch Vergleich mit einem Merkmals-Wert-Vektor-Typ der Datenbank wie folgt zusam mengefaßt werden:

x soll den Merkmals-Wert-Vektor eines unbekannten Eingabe-Musters/ Zeichens bezeichnen.
r_k soll den Merkmals-Wert-Vektor eines Prototyps der Klasse k bezeichnen.
M soll die zu dem Merkmals-Wert-Vektor x nächstliegende Klasse bezeichnen, d. h. die Klasse, die einen Prototyp-Merkmals-Wert-Vektor besitzt, der dem Merkmals-Wert-Vektor x am nächsten kommt.
S soll die zweitnächste Klasse zu dem Merkmals-Wert-Vektor x bezeichnen.
CR soll einen Klassen-Bereichs-Schwellwert für eine präzise Erkennung bezeichnen.
DA soll einen Dis-Ambiguity-(Mehrdeutigkeits-) Schwellwert für eine maßgebende Klassifikation bezeichnen.
D soll eine Abstandsfunktion bezeichnen, wo das minimale Abstands kriterium ausgedrückt wird als

Dann gilt für eine Muster/Zeichen-Erkennung

und für die Muster/Zeichen-Mehrdeutigkeit

Idealerweise wird von einem Erkennungs-System erwartet, daß es in der Lage ist, so wohl mehrdeutige als auch Nicht-Zeichen-Muster zu erkennen. Demgemäß ist ein Krite rium zum Zurückweisen beider davon eine kombinierte Gleichung:

Kurz ausgeführt gibt die Gleichung (7) an, daß M, die nächstliegende Klasse zu x, die Klasse des Eingabe-Musters mit einem Merkmals-Wert-Vektor x ist, vorausgesetzt, daß der Abstand von M zu x nicht mehr als der Schwellwert CR ist, und daß der Abstand von S, die zweitnächstliegende Klasse, zu x mindestens um den Schwellwert DA größer als der Abstand von M zu x ist.

In Gleichung (7) ist ein Haupt-Nachteil enthalten. Insbesondere verwendet Gleichung (7) nur einen DA und CR, so daß die zwei Schwellwerte nicht für unterschiedliche Klassen sensitiv sind. Dies führt entweder zu einer zu starken Zurückweisung oder einer zu star ken Fehlerkennung. Zum Beispiel können, falls DA klein ist, dann mehrdeutige Abta stungen fehlerhaft erkannt werden. Andererseits tendieren, falls DA groß ist, Abtastun gen dazu, daß sie zurückgewiesen werden, gerade wenn sie nicht mehrdeutig sind. Gemäß eines anderen Beispiels werden, falls CR klein ist, ein paar Abtastungen, die zu einer verstreuten Klasse gehören, zurückgewiesen werden. Allerdings werden, falls CR groß ist, Nicht-Zeichen-Muster, nahe zu einer Kompakt-Klasse, in bezug auf diese Klas se fehlerhaft erkannt werden.

Fig. 15 stellt eine Muster-Verteilung für vier Klassen in einem Merkmals-Wert-Raum dar. In Fig. 15 ist jedes Mitglied einer Klasse k (k ∈ {A, B, C, D}) durch ein Symbol k bezeich net. Die Klassen A und B sind Nachbarn zueinander und die Klasse A ist mehr verstreut als die Klasse B. Die Klassen C und D überlappen sich gegenseitig derart, daß Abta stungen der zwei Klassen dahingehend unmöglich sind, daß sie vollständig separiert werden. Unter der Annahme, daß alle Muster der beiden Klassen A und B korrekt unter einer momentanen Abstandsmessung erkannt werden, werden einige Mitglieder entwe der der Klasse C oder der Klasse D fehlerhaft erkannt werden, wenn DA klein ist. Wenn allerdings DA groß ist, werden ein paar Muster, die zu entweder der Klasse A oder der Klasse B gehören, unnötigerweise zurückgewiesen werden. Unter Betrachtung von Nicht-Zeichen-Mustern werden, wenn CR klein ist, ein paar Abtastungen der Klasse A zurückgewiesen werden. Wenn allerdings CR groß ist, werden einige Nicht-Zeichen- Muster nahe zu der Klasse B dazu tendieren, daß sie fehlerhaft zu Klasse B erkannt werden.

Die US 5 572 604 A beschreibt ein Verfahren zur Mustererkennung unter Verwendung von Transformationen von Prototypen. Das Erkennungsverfahren verwendet Abstan messungen in einem mehrdimensionalen Raum von Merkmalswertvektoren, wobei die Merkmalswerte durch die Graustufen eines jeden Pixels der eingegebenen Grafik gege ben sind. Es werden verschiedene Abstandsfunktionen verwendet. Neben dem Euklidi schen Abstand wird eine Hyperfläche berechnet, um Translationen, Rotationen, Skalie rungen und hyperbolische Deformationen zu kompensieren. Die Einstufung des Einga bemusters wird stufenweise vollzogen, wobei die Abstandsfunktionen der jeweils folgen den Stufe an Komplexität zunimmt (Abstandshierarchie). Dabei wird die Anzahl der überprüften Prototypen zunehmend geringer (hierarchisches Filtern). Dieses Verfahren endet, wenn eine bestimmte Anzahl von Stufen erreicht ist. Alternativ dazu kann das Einstufungsverfahren auch abgebrochen werden, wenn die Differenz der Abstände zwischen der nächstliegenden und der zweitnächsten Klasse einen bestimmten Schwellwert überschreitet, der grafisch optimiert wird.

Die US 5 058 182 A betrifft ebenfalls ein Verfahren und eine Vorrichtung zur Erkennung handgeschriebener Zeichen unter Verwendung einer hierarchischen Einstufung. Nach der Eingabe eines grafischen Eingabemusters als Graustufenbild wird ein Zweiniveaubild gewonnen, um strichbasierte Merkmale abzuleiten, die nachfolgend unter Verwendung eines Satzes vorbestimmter Regeln eingestuft werden. Die Gewinnung der Merkmale wird durchgeführt, indem das Zweiniveaubild horizontal zeilenweise gescannt wird, um verschiedene Profile und Verteilungen zu erhalten. Das Einstufungsverfahren ist hierar chisch, da es in jeder Stufe lediglich einen Teil der Regeln anwendet.

In dem Artikel C. Y. Suen et al., "Computer Recognition of Unconstrained Handwritten Numerals", Proc. of the IEEE, Vol. 80, Nr. 7, 1992, Seiten 1162-1180 werden vier Ver fahren (Experten) zur Erkennung handgeschriebener Zahlzeichen durch einen Compu ter beschrieben. Alle vier Verfahren gewinnen Merkmale unter Verwendung von Skelett strukturen oder Konturen. Ein unbekanntes Zeichen wird parallel auf alle Zahlenklassen hin oder mittels einer Abfolge von Abfragen (Baumstruktur) untersucht. Ferner ist eine Kombination von zwei oder mehr dieser Verfahren möglich.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Erkennen eines Eingabemusters, ein Ver fahren zum Erzeugen einer Datenbank eines Zeichenerkennungssystems und ein Zei chenerkennungssystem anzugeben, die eine erhöhte Zuverlässigkeit besitzen.

Diese Aufgabe wird durch die Gegenstände der Patentansprüche 1, 2 und 10 gelöst.

Bevorzugte Ausgestaltungen der Erfindung sind in den Unteransprüchen definiert.

Gemäß einer Ausführungsform wird ein Verfahren für eine bestimmungsmäßige Muster- Erkennung mit einer hohen Zuverlässigkeit für Systeme geschaffen, die eine Merkmals- Wert-Vektor-Anpassung zwischen unbekannten Eingabe-Daten und Prototypen der Klassen von Modell-Zeichen, die in der System-Datenbank gespeichert sind, verwendet. Das erfindungsgemäße Verfahren berechnet jeweils einen Klassen-Bereichs- Schwellwert CR_k und einen Mehrdeutigkeits-Schwellwert DA_k für jede Modell-Klasse k. Ein neuartiges Verfahren zum Berechnen von Schwellwerten CR_k und DA_k wird offen bart, das auf einem Darstellen jedes Schwellwerts als eine Kosten-Funktion basiert. Die Kosten-Funktion wird dann minimiert, um die optimalen Werte für CR_k und DA_k abzulei ten.

Wenn ein unbekanntes Eingabe-Daten-Muster, oder Zeichen, aufgenommen wird, wird ein Merkmals-Wert-Vektor x davon abgeleitet. Der Merkmals-Wert-Vektor x wird dann mit den gespeicherten Merkmals-Wert-Vektoren der Prototypen für jede Klasse vergli chen, um die nächstliegende und die zweitnächstliegende Klasse (M bzw. S) zu bestim men. Eine entscheidungsmäßige bzw. bestimmungsgemäße Erkennung oder Zurück weisung wird dann gemäß der folgenden Gleichung vorgenommen:

wobei D eine Abstands-Funktion bezeichnet,
r_M den anpassenden Prototyp-Merkmals-Wert-Vektor der nächstliegenden Klasse M bezeichnet,
r_k einen Prototyp-Merkmals-Wert-Vektor einer Klasse k bezeichnet,
r_S den anpassenden Prototyp-Merkmals-Wert-Vektor der zweitnächstliegenden Klasse S darstellt,
CR_M den Klassen-Bereichs-Schwellwert für die nächstliegende Klasse M darstellt, und
DA_M den Mehrdeutigkeits-Schwellwert für die nächstliegende Klasse M darstellt.

Eine erläuternde Ausführungsform des erfindungsgemäßen Verfahrens wird vollständi ger nachfolgend in Verbindung mit den beigefügten Zeichnungen beschrieben.

Fig. 1 stellt ein System zum Erkennen von Zeichen gemäß einer Ausführungsform der vorliegenden Erfindung dar.

Fig. 2 stellt einen Prozeß zum Konstruieren einer Datenbank gemäß einer Ausführungs form der vorliegenden Erfindung dar.

Fig. 3 stellt einen Prozeß zum Optimieren von Prototyp-Klassen gemäß einer Ausfüh rungsform der vorliegenden Erfindung dar.

Fig. 4 stellt eine Verteilung der erfindungsgemäßen Kosten-Funktion mit a = 50 dar.

Fig. 5 stellt einen Erkennungs-Funktions- bzw. Leistungs-Vergleich zwischen dem erfin dungsgemäßen Verfahren und dem Stand der Technik dar.

Fig. 6 stellt ein herkömmliches Zeichen-Erkennungs-System dar.

Fig. 7 zeigt ein Flußdiagramm, das schematisch einen herkömmlichen Zeichen- Erkennungs-Prozeß darstellt.

Fig. 8-10 stellen eine Zeichen-Segmentierung dar.

Fig. 11-14 stellen Beispiele einer Zeichen-Merkmals-Extraktion dar.

Fig. 15 stellt eine Muster-Verteilung für vier Klassen dar.

Fig. 1 stellt ein System 100 zum Erkennen von Zeichen, die darin eingegeben werden, dar. Ähnlich dem System 10 der Fig. 6 besitzt das System 100 eine I/O-Schnittstelde 114, die mit einer Zeichen-Eingabe-Vorrichtung, wie beispielsweise einer optischen Abtasteinrichtung 116 oder einem Schreibstift und einer Schreibtafel 118, oder beiden, verbunden ist. Die optische Abtasteinrichtung 116 ist dazu in der Lage, Blätter abzuta sten, auf denen maschinengedruckte oder handgeschriebene Zeichen zuvor gebildet wurden, und zum Erzeugen graphischer Abbildungs-Daten der eingegebenen Zeichen davon. Der Schreibstift und die Schreibtafel 118 sind zum Aufnehmen handgeschriebe ner Zeichen geeignet, die manuell damit eingegeben werden, und zum Erzeugen gra phischer Abbildungs-Daten der eingegebenen Zeichen davon. Die erzeugten Daten können über eine I/O-Schnittstelle 114 und einen Bus 112 zu einem Hauptspeicher 122 oder einem Plattenspeicher 124 übertragen werden. Ein Prozessor 120 kann die Daten verarbeiten, insbesondere kann er jedes eingegebene Zeichen mit einer Datenbank aus Prototypen vergleichen, um den am besten anpassenden Prototyp zu bestimmen. Die eingegebenen Zeichen werden als das Modell-Zeichen entsprechend den am besten anpassenden Prototypen erkannt. Die erkannten Modell-Zeichen müssen dann über die Audio/Video-Ausgabevorrichtung 126 ausgegeben werden.

Das System 100, oder ein anderes, geeignetes, ähnliches System, ist zum Erzeugen der Datenbank aus Prototypen geeignet. Illustrativ wird dies unter Verwendung eines Pro zesses erreicht, der schematisch in Fig. 2 dargestellt ist. Entsprechend einem ersten Schritt 202 werden Trainings-Zeichen-Abtastungen über die optische Abtasteinrichtung 116 der Fig. 1 oder über die Tafel und den Schreibstift 118 eingegeben. Graphische Abbildungs-Daten der Trainings-Zeichen-Abtastungen werden in dem Speicher 122 oder 124 gespeichert. Die Trainings-Zeichen-Abtast-Daten werden dann vorverarbeitet, um Rauschen, usw., zu entfernen, und zwar durch den Prozessor 120 in dem Schritt 204. In dem Schritt 206 formt der Prozessor 120 Skelett-Abbildungen jeder Trainings-Zeichen- Abtastung und konvertiert dann die Skelett-Abbildungen in Abbildungen mit vergrößerter Kontur. In einem Schritt 208 segmentiert der Prozessor 120 die Trainings-Zeichen- Abtastungen. In einem Schritt 210 extrahiert der Prozessor 120 Merkmals-Wert- Vektoren von jeder segmentierten Trainings-Zeichen-Abtastung. In einem Schritt 212 organisiert der Prozessor 120 die Trainings-Zeichen-Abtastungen in Klassen. Dies kann in einer Anzahl von Arten und Weisen erreicht werden, wie dies in der nachveröffentlich ten US 5,841,902 vorgeschlagen wird. Danach werden die Trainings-Zeichen- Abtastungen jedes Modell-Zeichens in eine Vielzahl von Klassen unterteilt, um so besser die Trainings-Zeichen-Abtastungen zu organisieren, die typischerweise nicht gleichförmig verteilt sind. Als nächstes wählt in einem Schritt 214 der Prozessor 120 einen oder meh rere Prototyp(en) für jede Klasse aus. Diese Prototypen können unter Bildung des Haupt-Merkmals-Wert-Vektors für jede Klasse und Zuordnen des Prototyp-Merkmals- Wert-Vektors dazu ausgewählt werden. Alternativ kann jede Klasse in Unterklassen unterteilt werden und ein Haupt-Merkmals-Wert-Vektor kann für jede Unterklasse gebil det werden. Jeder Haupt-Merkmals-Wert-Vektor, der für jede Unterklasse gebildet ist, definiert einen Prototyp der Klasse.

Nach einem Auswählen der Prototypen (und Prototyp-Merkmals-Wert-Vektoren) führt der Prozessor 120 einen Schritt 216 aus, wobei eine Class Region (CR_k) (Klassenbereich) und ein Dis-Ambiguity Schwellwert (DA_k) (Mehrdeutigkeits-Schwellwert) jeder Klasse zugeordnet werden. Dies wird ausführlich nachfolgend besprochen. Nach einer Zuordnung jeweiliger Schwellwerte zu jeder Klasse führt der Prozessor 120 einen Schritt 218 aus, worin der Prozessor die Datenbank der Protypen bildet, die Klassen mit optimierten Schwellwerten für jede Klasse besitzen. Die Datenbank, die in dem Schritt 218 gebildet ist, kann eine flache Datenbank sein, kann in einer Baum-Struktur organi siert sein, usw.. Die optimierte Datenbank wird dann in dem Ausführungsbeispiel in dem Hauptspeicher 122 oder dem Plattenspeicher 124 gespeichert.

Fig. 3 stellt den erfindungsgemäßen Erkennungs-Prozeß für Handschrift dar, der durch das Zeichen-Erkennungs-System 100 der Fig. 1 ausgeführt werden kann. In einem er sten Schritt 432 werden die eingegebenen handschriftlichen oder maschinengedruckten Zeichen von dem Schreibstift und der Tafel 118 oder von Blättern, auf denen handge schriebene oder maschinengedruckte Zeichen zuvor per Hand gebildet oder gedruckt worden sind, in die optische Abtasteinrichtung 116 aufgenommen. Der Schreibstift und die Tafel 118, oder die optische Abtasteinrichtung 116, übertragen wiederum die Zei chen-Daten, die graphisch die handgeschriebenen oder maschinengedruckten Zeichen darstellen, zu der I/O-Schnittstelle 114. Die I/O-Schnittstelle 114 überträgt die Zeichen- Daten über den System-Bus 112 zu, zum Beispiel, dem Hauptspeicher 122.

Als nächstes verarbeitet, in einem Schritt 434, der Prozessor 120 die eingegebenen Zeichen-Daten, die in dem Hauptspeicher 122 gespeichert sind, vor. Dann bildet, in einem Schritt 436, der Prozessor 120 optional eine Skelett-Abbildung für jedes eingege bene Zeichen und konvertiert die Skelett-Abbildungen in vergrößerte Kontur- Abbildungen. In einem Schritt 438 segmentiert der Prozessor 120 die Abbildungen der Zeichen zu Zwecken eines Extrahierens von Merkmals-Werten aus den Zeichen- Abbildungen. Als nächstes extrahiert, in einem Schritt 440, der Prozessor 120 einen Vektor der Merkmals-Werte für jedes eingegebene Zeichen. Die US 5,841,902 liefert Beispiele von Merkmalen, die aus Zeichen extrahiert werden können, die so segmentiert sind, wie dies in den Fig. 11-14 dargestellt ist.

Nach einem Extrahieren eines Merkmals-Wert-Vektors für ein eingegebenes Zeichen führt der Prozessor 120 einen Schritt 442 durch. In dem Schritt 442 vergleicht der Pro zessor 120 den Merkmals-Wert-Vektor für jedes eingegebene Zeichen mit Merkmals- Wert-Vektoren, die in einer Datenbank für vorbestimmte Merkmals-Wert-Vektoren ent halten sind. In einer Ausgestaltung kann diese Datenbank in dem Plattenspeicher 124 oder in dem Hauptspeicher 122 gespeichert werden. Basierend auf diesen Vergleichen bestimmt der Prozessor 120 den vorbestimmten Merkmals-Wert-Vektor, der am besten den Merkmals-Wert-Vektor des eingegebenen Zeichens anpaßt. In einem Schritt 444 bestimmt der Prozessor 120 die nächstliegende oder zweitnächstliegende Klasse zu dem eingegebenen Zeichen. Dann testet, in einem Schritt 446, der Prozessor 120 das eingegebene Zeichen gegenüber dem vorbestimmten Klassen-Bereichs-Schwellwert und dem Mehrdeutigkeits-Schwellwert der nächstliegenden Klasse. Schließlich erkennt, in einem Schritt 448, der Prozessor 120 nur solche Zeichen, die beide Schwellwert-Tests passieren, und gibt dann solche Zeichen aus.

Um den vorstehenden Schritt 446 mit einer hohen Zuverlässigkeit auszuführen, verwen det der Prozessor 120 ein erfindungsgemäßes Erkennungs-Kriterium wie folgt:

In dieser Näherung ist jeder Klasse k ihr eigener Mehrdeutigkeits-Schwellwert DA_k und Klassen-Bereichs-Schwellwert CR_k zugeordnet. Allgemein wird, je mehr eine Klasse verstreut ist, desto größer deren Bereichs-Schwellwert CR_k sein. Auch sollte, je mehr deutiger eine Klasse zu anderen Klassen ist, desto größer deren Mehrdeutigkeits- Schwellwert DA_k sein. In der vorliegenden Erfindung wird ein Prozeß, um DA_k und CR_k effektiv für jede Klasse k zu berechnen, offenbart. Zuerst wird eine Kosten-Funktion, die den Schwellwerten DA_k und CR_k für 1 ≦ k ≦ K entspricht, abgeleitet, wie dies nachfolgend beschrieben ist.

In dem Entscheidungssystem ist das ultimative Ziel dasjenige, eine korrekte Entschei dung in jedem Fall vorzunehmen. Allerdings sind, ohne daß das einbezogene Problem ziemlich einfach ist, immer einige Fälle vorhanden, die schwierig sind oder sogar unmög lich sind, sie korrekt zu entscheiden. Deshalb ist es für solche Fälle für das System bes ser, diesen zurückzuweisen, oder durch einen Experten in Form einer Person diesen manuell zu behandeln. Demzufolge werden zusätzliche Kosten erforderlich, um zurück gewiesene Fälle zu verarbeiten. Andererseits wird, falls das System nicht einen mehr deutigen Fall zurückweist, sondern anstelle davon eine falsche Entscheidung vornimmt, dieser Fehler wahrscheinlich einen signifikanten Schaden in bezug auf die entsprechen de Anwendung verursachen. Demgemäß führt entweder eine Zurückweisung oder eine falsche Entscheidung zu zusätzlichen Kosten im Hinblick auf Zeit, Geld oder eine Be schädigung. Deshalb sollten die Kosten, die einem Entscheidungsprozeß zugeordnet sind, so niedrig wie möglich sein.

Es wird angenommen, daß die Kosten einer nicht korrekten Entscheidung das α-fache derjenigen einer Zurückweisung betragen. Das bedeutet,

cost_of (Fehler) = α . cost_of (Zurückweisung).

Für ein Erkennungssystem wird die Kostenfunktion dann definiert als

E = die gesamte Abtast-Zahl der zurückgewiesenen Muster + α . der gesamten abgetasteten Zahl der fehlerkannten Muster (9)

Die zurückgewiesenen Muster können in zwei Gruppen unterteilt werden: die reject-from right Gruppe und die reject-from-wrong Gruppe. Die reject-from-right/reject-from-wrong Gruppen bestehen aus den Mustern, die durch das System zurückgewiesen sind. Falls das System eine entscheidungsmäßige Entscheidung vornimmt, wird die Entscheidung entweder korrekt oder falsch sein. Demzufolge wird die definierte Kosten-Funktion

E = die gesamte Abtast-Zahl für die reject-from-right Gruppe + die gesamte Abtast-Zahl der reject-from-wrong Gruppe + α . die gesamte Abtast-Zahl der fehlerkannten Muster. (10)

M, S und I sollen jeweils die nächstliegende Klasse zu einem Eingabe-Muster mit dem Merkmals-Wert x, die zweitnächstliegende Klasse zu dem Eingabe-Muster und die Grund-Wahrheitsklasse des Eingabe-Musters sein. O_k soll der Abstand D(x, r_k) für alle 1 ≦ k ≦ K sein. Das bedeutet:

O_k = D(x, r_k) (11)

Bei weiterer Analyse der zurückgewiesenen Muster wird festgestellt, daß dort, zwei Schwellwert-Bedingungen vorhanden sind, die zu einer Muster-Zurückweisung führen, unabhängig davon, ob das Muster zu der reject-from-right Gruppe oder der reject-from wrong Gruppe gehört. Gemäß der ersten Bedingung wird das Eingabe-Muster zurück gewiesen, wenn der Abstand zwischen einem Eingabe-Muster und seiner nächstliegen den Klasse M größer als der Klassen-Bereichs-Schwellwert der Klasse M ist. Das bedeu tet:

falls D(x, r_M) < CR_M, dann wird x zurückgewiesen.

Gemäß der zweiten Bedingung wird das Eingabe-Muster zurückgewiesen, wenn der Abstand von dem Eingabe-Muster zu seiner zweitnächstliegenden Klasse S. vermindert um den Abstand von dem Eingabe-Muster zu seiner nächstliegenden Klasse M, kleiner als der Mehrdeutigkeits-Schwellwert der Klasse M ist. Das bedeutet:

falls D(x, r_s) - D(x, r_M) < DA_M, dann wird x zurückgewiesen.

Demgemäß wird ein Muster zurückgewiesen, wenn es irgendeiner der nachfolgenden zwei Situationen entspricht:

Situation 1: D(x, r_M) < CR_M;
Situation 2: D(x, r_M) < CR_M und D(x, r_s) - D(x, r_M) < DA_M.

Deshalb kann die Kosten-Funktion weiter definiert werden als:
E = die gesamte Abtast-Zahl der reject-from-right Gruppe, verursacht durch Situation 1 + die gesamte Abtast-Zahl der reject-from-right Gruppe, verursacht durch Situation 2 + die gesamte Abtast-Zahl der reject-from-wrong Gruppe, verursacht durch Situation 1 + die gesamte Abtast-Zahl der reject-from-wrong Gruppe, verursacht durch Situation 2 + α . die gesamte Abtast-Zahl der fehlerkannten Muster. (12)

Die Kosten-Funktion E kann nun in einer mathematischen Formel so ausgedrückt wer den, daß die Minimierung der Kosten-Funktion E systematisch abgeleitet werden kann. Ein neuer mathematischer Ausdruck, der die Kosten-Funktion eines Eingabe-Musters mit einem Merkmals-Wert-Vektor x darstellt, lautet:

wobei A ein Bandbreiten-Parameter ist, gelegentlich als die Breite des "respective field" der sigmoiden bzw. Σ-Funktion bezeichnet, der die Größe des aktiven Flächenbereichs dieser Funktion angibt. Im wesentlichen ist A eine monoton abfallende Funktion mit ei nem beträchtlich großen Anfangswert und einem sehr kleinen, positiven Endwert.

Um Gleichung (13) für die Kosten-Funktion E(x) abzuleiten, wird angenommen, daß A ein sehr kleiner, positiver Wert ist (z. B. 0,0000001). Zuerst wird die Funktion exp[(O_M- O_I)/A)] verwendet, um abzuschätzen, ob ein Muster x korrekt erkannt ist oder nicht. Das bedeutet:

Wenn das Eingabe-Muster korrekt erkannt ist, wird der Wert dieser Funktion 1 (da O_M = O_I). Ansonsten wird das Eingabe-Muster fehlerhaft erkannt und der Wert dieser Funktion ist 0 (da O_M ≠ O_I und O_M < O_I). Demgemäß kann die Funktion 1 - exp[(O_M - O_I)/A] dazu verwendet werden, abzuschätzen, ob das Eingabe-Muster korrekt erkannt ist oder nicht korrekt erkannt ist. Das bedeutet:

Wenn das Eingabe-Muster korrekt erkannt ist, wird der Wert dieser Funktion 0. Wenn das Eingabe-Muster falsch erkannt ist, wird der Wert dieser Funktion 1. Zwei zusätzliche Funktionen werden verwendet, um die beiden vorstehenden Zurückweisungs- Situationen abzuschätzen.

Das bedeutet für die Situation 1:

und für die Situation 2:

Für Situation 1 ist, wenn der Abstand O_M zwischen dem Eingabe-Muster und seiner nächstliegenden Klasse M größer als oder gleich zu den Klassen-Bereichs-Schwellwert CR_M der Klasse M ist, der Wert der ersten Funktion 1, was die Zurückweisung des Ein gabe-Musters mit dem Merkmals-Wert-Vektor x anzeigt. Ansonsten ist der Wert 0, was das Passieren des Eingabe-Musters durch das erste Kriterium anzeigt.

Wenn CR_M ≧ O_M ist, passiert das Eingabe-Muster die erste Situation. Zusätzlich ist, falls die Differenz des Abstands zwischen dem Eingabe-Muster und seiner zweitnächstlie genden Klasse S (O_S) und demjenigen zwischen dem Eingabe-Muster und seiner nächstliegenden Klasse M (O_M) kleiner als der Mehrdeutigkeits-Schwellwert (DA_M) ist, dann der Wert der zweiten Funktion 1, was anzeigt, daß das Muster mehrdeutig ist, und wird zurückgewiesen. Ansonsten ist der Wert der zweiten Funktion 0, was anzeigt, daß das Eingabe-Muster mit dem Merkmals-Wert-Vektor x das zweite Kriterium ebenso wie das erste passiert.

Kombinieren der Gleichungen (14), (15), (16) und (17) ergibt:

und

Falls A und α der Gleichung (13) für E(x) gegeben sind, wird E(x) nur von CR_I, DA_I, CR_M und DA_M abhängen. Deshalb wird ein Minimieren der Kosten-Funktion E(x) die optimalen Schwellwerte CR_k und DA_k für alle Klassen k(1 ≦ k ≦ K) ableiten.

Um diese Diskussion weiter zu vereinfachen, gilt

Dann kann die Kosten-Funktion umgeschrieben werden als

Unter Verwendung eines den Schwellwert aktualisierenden Verfahrens, hier als der "Gradienten-Abfall-Algorithmus" bezeichnet (der nachfolgend beschrieben werden wird), werden optimale Schwellwerte für CR_k und DA_k iterativ während aufeinanderfolgender Iterationen aktualisiert mit

und

Der vorstehend erwähnte, aktualisierende Gradienten-Abfall-Algorithmus wird wie folgt umrissen.

SCHRITT 1 richtet einen monoton abfallenden Funktions-Wert A ein und initialisiert Werte der Schwellwerte CR_k und DA_k mit den folgenden Gleichungen:

wobei:

N_k die gesamte Trainings-Abtast-Zahl der Klasse k ist
x^k _i der i-te Trainings-Merkmals-Vektor der Klasse k ist
r_iM der nächstliegende Prototyp-Merkmals-Vektor ist
r_iS der zweitnächstliegende Prototyp-Merkmals-Vektor ist

SCHRITT 2 für alle Eingabe-Muster-Abtastungen:

a) berechne alle Abstands-Werte D_k = D(x, r_k),
b) (b) identifiziere die nächstliegende Klasse M, die einem Abstand D_M = min_1<k<KD_K entspricht,
c) identifiziere die zweitnächstliegende Klasse S entsprechend dem Abstand D_S = min_k≠_MD_k,
d) berechne die akkumulierten Kosten unter Verwendung der Kosten- Funktion E(x), Gleichung (13),
e) aktualisiere Schwellwert CR_k und DA_k unter Verwendung von Gleichung (20),

SCHRITT 3
FALLS (IF) die akkumulierten Kosten kleiner als der Kosten-Beendigungs-Schwellwert oder die Zahl der Iterationen gleich der maximalen Iterations-Zahl ist
DANN (THEN) stoppe den iterativen Prozeß
ANSONSTEN (ELSE) reduziere A und wiederhole SCHRITT 2.

Das Verfahren, das hier offenbart ist, kann in einem Sun Microsystems^TM Computer, der in der Sprache C programmiert ist, umgesetzt werden. Eine experimentelle Datenbank wurde verwendet, die 6092 handgeschriebene, chinesische Zeichen enthielt. Allerdings wurden nur die am häufigsten verwendeten 400 chinesischen Zeichen in das Experiment eingeschlossen. Zweihundert Zeichen-Abtastungen wurden pro Modell eines chinesi schen Zeichens vorgesehen, wobei die Abtastungen mit einer ungeraden Zahl verwen det wurden, um die optimierte Mehrdeutigkeits- und Klassen-Bereichs-Schwellwerte jeder Klasse abzuleiten, und die mit einer geraden Anzahl, um die Klassifikations- Funktion bzw. -Leistung zu testen. Die gesamte Epochen-Zahl α wird auf 50 gesetzt. Fig. 4 stellt die Kosten-Verteilung von 50 Iterationen mit α = 50 dar. Wie in Fig. 4 dargestellt ist, wird für die Trainings-Daten-Einstellung die Kosten-Funktion kontinuierlich erniedrigt, bis sie eine bestimmte, stabile Situation erreicht. Die Tabellen 1 und 2 listen die Erken nungs-Funktion der Trainings- und der Test-Daten-Sätze (PTrain und PTest jeweils) mit unterschiedlichen Werten von α auf

Tabelle 1

Tabelle 2

Offensichtlich wird die Zuverlässigkeit einer Erkennung erhöht, wenn α erhöht wird. Des halb wurden unter Verwendung unterschiedlicher Werte für α unterschiedliche Grade einer Erkennungs-Zuverlässigkeit erhalten.

Fig. 5 stellt die entsprechende graphische Darstellung der Zurückweisungs-Fehler- Funktion der Tabellen 1 und 2 dar. Für einen Vergleich wurde ein anderes Experiment unter Verwendung konstanter Werte CR und DA und der Gleichung (7) nach dem Stand der Technik durchgeführt, wobei CR der Durchschnitt CR aller Zeichen ist, die durch den erfindungsgemäßen Algorithmus abgeleitet sind, und DA proportional zu dem durch schnittlichen DA aller Zeichen ist, die durch den erfindungsgemäßen Algorithmus abge leitet sind. Das bedeutet

wobei η ein Zuverlässigkeits-Kontroll-Parameter ist, der sich mit einem Zuverlässigkeits- Erfordernis erhöht. Diese letztere Erkennungs-Funktion der Test-Abtastungen (PA) ist auch in Fig. 5 angezeigt, anhand der deutlich wird, daß das erfindungsgemäße Verfah ren Ergebnisse mit höheren Erkennungs-Zuverlässigkeits-Ergebnissen als das Verfah ren gemäß Gleichung (7) nach dem Stand der Technik liefert.

Kurz gesagt wird ein neuartiger Algorithmus offenbart, der jede Prototyp-Klasse einer Muster-Erkennungs-Datenbank mit individuell optimiertem Klassen-Bereich und Mehr deutigkeits-Schwellwerten vorsieht. Als Folge wird eine Erkennungszuverlässigkeit ge genüber dem Stand der Technik verbessert, wobei ein Klassenbereichs-Schwellwert und ein Mehrdeutigkeits-Schwellwert für alle Klassen verwendet wurden.

Claims

1. Verfahren zum Erkennen eines Eingabemusters durch Vergleich mit einer Vielzahl von Prototypmustern, denen jeweils ein vorbestimmter Merkmalswertvektor zugeordnet ist, wobei die Gesamtheit der Merkmalswertvektoren in eine Vielzahl von Klassen (k) aufgeteilt ist, denen jeweils ein Klassenbereichsschwellwert CR_k und ein Mehrdeutigkeitsschwellwert DA_k zugeordnet ist, wobei das Verfahren die Schritte umfaßt:
Eingeben (432) des Eingabemusters,
Bestimmen (434-440) eines Merkmalswertvektors (x) des Eingabemusters,
Ermitteln (442-444) der nächstliegenden und zweitnächsten Klasse (M, S) durch Anwenden einer Abstandsfunktion (D) auf den Merkmalswertvektor des Eingabemusters und den Merkmalswertvektor (r_k) wenigstens eines Prototypmusters jeder Klasse, und
Einstufen (446-448) des Eingabemusters in die ermittelte nächstliegende Klasse, wenn die folgende Bedingung erfüllt ist:
D(x, r_M) < CR_M und D(x, r_S) - D(x, r_M) < DA_M,
worin D(x, r_M) und D(x, r_S) die Abstandsfunktionswerte zwischen dem Merkmalswertvektor des Eingabemusters und dem Merkmalswertvektor der ermittelten nächstliegenden beziehungsweise zweitnächsten Klasse und CR_M und DA_M den Klassenbereichsschwellwert beziehungsweise den Mehrdeutigkeitsschwellwert der ermittelten nächstliegenden Klasse bezeichnen.

2. Verfahren zum Erzeugen einer Datenbank eines Zeichenerkennungssystems zum Erkennen eines Eingabemusters durch Vergleich mit einer Vielzahl von Prototypmustern, denen Merkmalswertvektoren zugeordnet sind, wobei die Gesamtheit der Merkmalswertvektoren in eine Vielzahl von Klassen aufgeteilt ist und das Verfahren die Schritte umfaßt:
Eingeben (202) einer Vielzahl von Trainingsmustern,
Bestimmen (204-210) der Merkmalswertvektoren der Trainingsmuster,
Zuordnen (212) der Merkmalswertvektoren der Trainingsmuster zu Klassen, und
Berechnen und Zuordnen (214-216) eines Klassenbereichsschwellwertes CR_k und eines Mehrdeutigkeitsschwellwertes DA_k zu jeder Klasse (k).

3. Verfahren nach Anspruch 2, wobei der Schritt des Berechnens und Zuordnens der Schwellwerte den Schritt des Auswertens einer Kostenfunktion der Trainingsmuster umfaßt, die gegeben ist durch
Gesamtzahl der Trainingsmuster, die einer Klasse richtig zugeordnet worden sind und eine erste Bedingung erfüllen + Gesamtzahl der Trainingsmuster, die einer Klasse richtig zugeordnet worden sind und eine zweite Bedingung erfüllen + Gesamtzahl der Trainingsmuster, die einer Klasse falsch zugeordnet worden sind und die erste Bedingung erfüllen + Gesamtzahl der Trainingsmuster, die einer Klasse falsch zugeordnet worden sind und die zweite Bedingung erfüllen + α . Gesamtzahl der Trainingsmuster, die einer Klasse falsch zugeordnet worden sind und weder die erste noch die zweite Bedingung erfüllen,
wobei die erste Bedingung durch
D(x, r_M) < CR_M
und die zweite Bedingung durch
D(x, r_M) < CR_M und D(x, r_S) - D(x, r_M) < DA_M
gegeben ist, worin D(x, r_M) und D(x, r_S) die Abstandsfunktionswerte zwischen dem Merkmalswertvektor des jeweiligen Trainingsmusters und dem Merkmalswertvektor der ermittelten jeweiligen nächstliegenden beziehungsweise zweitnächsten Klasse bezeichnen, und α ein Kostenfaktor für eine falsche Erkennung eines Musters ist.

4. Verfahren nach Anspruch 3, wobei die Kostenfunktion zu folgendem Ausdruck proportional ist
worin I die wahre Klasse des jeweiligen Trainingsmusters und A einen Parameter bezeichnen und O_k = D(x, r_k) ist.

5. Verfahren nach Anspruch 4, wobei der Schritt des Auswertens der Kostenfunktion einen Schritt des Minimierens von E(x) umfaßt, um optimale Werte von CR_k und DA_k abzuleiten, unter Verwendung der Gleichungen
und
worin

6. Verfahren nach Anspruch 5, worin das Ableiten der optimalen Werte von CR_k und DA_k iterativ erfolgt und folgende Schritte umfaßt:

a) Initialisieren des Parameters A,
b) Initialisieren der Schwellwerte CR_k und DA_k gemäß

worin N_k die Gesamtzahl der Trainingsmuster der Klasse k, x_i ^k der Merkmalswertvektor des i-ten Trainingsmusters der Klasse k, r_iM der Merkmalswertvektor eines Prototypmusters der nächstliegenden Klasse und r_is der Merkmalswertvektor eines Prototypmusters der zweitnächsten Klasse bezeichnen,

a) Setzen eines Kostenschwellwertes und einer maximalen Iterationszahl,
b) Durchführen folgender Schritte für jedes Trainingsmuster:
- 1. Berechnen der Abstandsfunktionswerte D_k = D(x, r_k),
- 2. Ermitteln der nächstliegenden Klasse M gemäß
- 3. Ermitteln der zweitnächsten Klasse S gemäß
- 4. Berechnung der Kosten unter Verwendung von E(x),
- 5. Berechnen der Schwellwerte CR_k und DA_k durch Minimieren von E(x),
c) Verringern des Wertes des Parameters A und Wiederholen der Schritte (d1)- (d5), wenn die berechneten Kosten größer als der Kostenschwellwert sind oder die Zahl der Iterationen kleiner als die maximale Iterationszahl ist.

7. Verfahren nach Ansprüchen 3 bis 6, wobei die Zuordnung zu einer Klasse als richtig oder falsch erkannt wird gemäß:

8. Verfahren nach Ansprüchen 3 bis 7, wobei die erste Bedingung geprüft wird gemäß

9. Verfahren nach Ansprüchen 3 bis 8, wobei die zweite Bedingung geprüft wird gemäß

10. Zeichenerkennungssystem (100) zum Erkennen eines Eingabemusters durch Vergleich mit einer Vielzahl von Prototypmustern, die in eine Vielzahl von Klassen (k) aufgeteilt sind, wobei das Zeichenerkennungssystem die Einrichtungen aufweist:
einen Speicher (122, 124) zum Speichern jeweils eines Klassenbereichsschwellwertes CR_k und eines Mehrdeutigkeitsschwellwertes DA_k für jede Klasse,
eine Zeicheneingabe-Vorrichtung (116, 118) zum Eingeben eines Eingabemusters, das erkannt werden soll, und
einen Prozessor (120) zum Bestimmen eines Merkmalswertvektors des Eingabemusters, zum Ermitteln der dem Eingabemuster nächstliegenden und zweitnächsten Klasse und zum Entscheiden unter Verwendung des Klassenbereichsschwellwertes CR_M und des Mehrdeutigkeitsschwellwertes D_AM der nächstliegenden Klasse, ob das Eingabemuster in die ermittelte nächstliegende Klasse eingestuft werden soll.