DE19820353C2

DE19820353C2 - Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage

Info

Publication number: DE19820353C2
Application number: DE19820353A
Authority: DE
Inventors: Udo Maier; Werner Ruppert
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-05-07
Filing date: 1998-05-07
Publication date: 2001-06-13
Anticipated expiration: 2018-05-08
Also published as: EP0955600A2; EP0955600B1; CN1235319A; DE69928320T2; US6373982B1; DE19820353A1; DE69928320D1; EP0955600A3; JPH11345283A; CN1163847C

Description

Gebiet der Erfindung

Die Erfindung betrifft allgemein ein Verfahren zur Erkennung eines Musters auf einer Vorlage. Sie betrifft insbesondere ein solches Verfahren, das einen kontinuierlichen Musteranpassungsprozeß beinhaltet. Die Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung eines solchen Verfahrens.

Hintergrund der Erfindung

Die Erkennung von Schriftzeichen oder Charaktermustern auf Vorlagen stellt in der modernen Geschäftswelt eine immer wichtiger werdende Aufgabe dar. Insbesondere im Bankenbereich und im sonstigen Finanzwesen werden Datenverarbeitungsanlagen mit Schrifterkennungseinheiten eingesetzt, um Überweisungsaufträge, Scheckvordrucke und sonstige Belege ohne manuelle Hilfe verarbeiten zu können. Eine weitere Anwendung finden solche Erkennungseinheiten bei der automatischen Briefverteilung.

Dabei wird ausgegangen von einem bestimmten Satz von Kennungen, beispielsweise dem alphanumerischen Zeichensatz einschließlich gewisser Sonderzeichen. Ziel des Erkennungsverfahrens ist es dann, mit möglichst hoher Zuverlässigkeit ein zu erkennendes Zeichen einer Kennung zuzuordnen.

Hierzu werden nach eingehender Vorverarbeitung der Objektdaten in einer ersten Stufe eines Klassifikators für das zu erkennende Objekt zu einer oder mehreren in Frage kommenden Kennungen numerische Bewertungen, sog. Glaubwürdigkeiten, geschätzt, die in einer nachfolgenden Stufe als Grundlage für die Entscheidung über die Zuordnung des Objekts zu einer Kennung herangezogen werden.

Diese Zuordnungsentscheidungen sind mit Restfehlern behaftet, die sich durch Zurückweisungen (Rejects) und durch das Akzeptieren von unzutreffenden Kennungen (Substitutionen) ergeben. Der Wunsch nach einer möglichst geringen Zurückweisungs- und gleichzeitig geringer Substitutionsquote bedeutet gegenläufige Anforderungen an den automatisierten Erkennungsprozeß.

Stand der Technik

Um die Zuverlässigkeit der Mustererkennung zu verbessern, sind Versuche mit dem sogenannten "Multi-Voting"-Verfahren durchgeführt worden, wobei die Leseergebnisse des gleichen Zeichens aus mehreren Mustererkennungseinheiten an eine sog. "Schlichtungseinheit" geleitet werden, die die Ergebnisse vergleicht und das Gesamtergebnis gemäß folgender Regeln auswählt:

a) Kommen alle Erkennungseinheiten zum gleichen Ergebnis, kann das Gesamtergebnis aus einer beliebigen Erkennungseinheit ausgewählt werden;
b) Kann keine der Erkennungseinheiten ein zuverlässiges Ergebnis liefern, so ist das Gesamtergebnis "reject" (nicht erkennbar);
c) Sind die Ergebnisse aller Erkennungseinheiten gleich, davon mindestens eines mit einem Zuverlässigkeitswert, der größer als ein vorherbestimmter Schwellwert (z. B. 50%) ist, so wird der zuverlässigste Wert als Gesamtergebnis ausgewählt;
d) Sind die Ergebnisse aller Erkennungseinheiten ungleich, so ist das Gesamtergebnis "reject" (nicht erkennbar).

Aus der DE 41 33 590 A1 ist ein Verfahren zur Klassifizierung solcher Signale bekannt, die jeweils einen von mehreren möglichen Amplitudenwerten der Signale darstellen. Bei diesem Verfahren erfolgen die folgenden Arbeitsschritte parallel in einem oder mehreren Kanälen:

a) Aus jeweils mehreren Abtastwerten werden Proben gebildet;
b) Aus jeder Probe wird mindestens ein Merkmal extrahiert;
c) Das bzw. die extrahierten Merkmale jeder Probe werden als Adressen verwendet, um aus einer Tabelle dort gespeicherte Auftrittswahrscheinlichkeiten auszulesen.

Zur weiteren Auswertung wird aus den Auftrittswahrscheinlichkeiten aller Proben eine Entscheidungsgröße berechnet und mit einem vorgegebenen Schwellwert verglichen.

Die DE 21 12 919 B2 offenbart eine weitere Anordnung zum Erkennen von Zeichen nach dem "Multi-Voting"-Verfahren. Diese enthält einen ersten Zeichenverarbeitungsweg, der eine Aufnahmeanordnung, die den Zeichen Informationen entnimmt, eine Verarbeitungsanordnung, die die Signale der Aufnahmeanordnung zur Verarbeitung empfängt, und eine Entscheidungsanordnung, die die Signale der Verarbeitungsanordnung empfängt und in der ein Zeichen erkennbar ist, wodurch ein Entscheidungssignal an ihrem Ausgang erscheint, aufweist. Weiterhin wird ein zweiter Zeichenverarbeitungsweg verwendet, der zum einen aus einer weiteren Aufnahmeanordnung und/oder einer weiteren Verarbeitungsanordnung sowie der bereits vorhandenen Entscheidungsanordnung, oder zum anderen aus jeweils einer zweiten Aufnahme-, Verarbeitungs- und Entscheidungsanordnung besteht. Wenigstens eine der drei Anordnungen des zweiten Zeichenverarbeitungsweges arbeitet nach einem anderen Prinzip als die entsprechende Anordnung des ersten Zeichenverarbeitungsweges, und am Ausgang des zweiten Zeichenverarbeitungsweges wird ein Entscheidungssignal zusammen mit einem Entscheidungssignal des ersten Zeichenverarbeitungsweges einer Vergleichsanordnung zugeführt, die bei deren Übereinstimmung ein Erkennungssignal erzeugt.

Das "Multi-Voting"-Verfahren erfordert mithin den Einsatz von mindestens zwei Erkennungseinheiten, die jeweils einen anderen Erkennungsalgorithmus verwenden, verbessert jedoch nur geringfügig die Zuverlässigkeit des Erkennungsverfahrens gegenüber den herkömmlichen Verfahren.

Aus der DE 44 07 998 C2 ist ein Verfahren zur Erkennung eines Musters auf einem Beleg bekannt, wobei mindestens zwei unterschiedliche Mustererkennungseinheiten zur Erkennung des Musters eingesetzt werden. Daneben sind Mittel zur Ermittlung einer durch eine unscharfe Variable repräsentierten Glaubwürdigkeit für jedes der durch die Mustererkennungseinheiten erkannten Muster vorgesehen, sowie Mittel zur Auswertung der erkannten Muster mit Hilfe der bestimmten Glaubwürdigkeiten.

Die DE 44 36 408 C1 beschreibt ein Mustererkennungsverfahren, bei dem in einer Trainingsphase eine Kalibriervorschrift für die von einem Klassifikator vorgeschlagenen Bewertungen zu möglichen Kennungen erstellt wird, und im Erkennungsbetrieb die vom Klassifikator geschätzten Bewertungen anhand der Kalibriervorschrift durch andere Werte ersetzt werden.

In DE 196 24 977 A1 wird ein Verfahren zur Verarbeitung von Postsachen offenbart, bei dem ein Abbild der Adreßinformation aufweisenden Oberfläche jeder Sendung gewonnen und einer ersten automatischen Auswertung zugeführt wird, und nicht vollständig ausgewertete Adreßinformationen einer ersten Video-Kodierung zur Auswertung zugeführt wird. Dabei ist vorgesehen, daß die Adreßinformationen derjenigen Abbilder, die bei der Video- Kodierung nicht vollständig ausgewertet worden sind, unter Verwendung der Ergebnisse der Video-Kodierung einer weiteren automatischen Auswertung zugeführt werden.

Schließlich offenbart JP-A-08-235304 eine Zeicherkennungsvorrichtung mit einer ersten und einer zweiten Erkennungseinheit, wobei die zweite Erkennungseinheit ein zusätzliches Wörterbuch sowie eine Kontrolleinheit aufweist. Das extrahierte Merkmal wird entsprechend einem vom Benutzer vergebenen Korrekturzeichen dem Wörterbuch zugeführt, und die Zeichenerkennung erneut durchgeführt. Wenn die zweite Zeichenerkennung beendet ist, wird das zusätzliche Wörterbuch initialisiert.

Heutige Mustererkennungssysteme enthalten zusätzlich zu Geräten für die optische Bildaufnahme und den eigentlichen Erkennungseinheiten meist eine Korrekturstation, bei Postanwendungen bspw. ein Videokodiersystem, an der Rejects angezeigt und von speziell dafür ausgebildeten Personen manuell korrigiert werden. Die korrigierten Daten, d. h., die Videobilder der nicht oder nur unzureichend erkannten Zeichen (Non Coded Information, NCI), als auch die dazugehörigen manuell eingegebenen korrekten Zeichen (Coded Information, CI) werden dabei nicht weiter für Erkennungszwecke, sondern lediglich zu Korrekturzwecken verwendet.

Bei der Entwicklung eines Mustererkennungssystems werden große Mengen an Zeichenmustern in einer Trainingsdatenbank gesammelt. Sie müssen repräsentativ für die geplante Erkennnungsaufgabe sein. In einem nächsten Schritt werden die Zeichen mit Hilfe einer optischen Bildaufnahme digitalisiert (NCI Daten) und vollständig den verlangten Zeichenklassen, z. B. Buchstaben, Zahlen oder auch Sonderzeichen, zugeordnet. Diesen Abschnitt nennt man auch den Trainingsvorgang. Die Güte der Zeichenerkennung hängt wesentlich von dieser Trainingsdatenbank ab. Sind die Daten

- nicht repräsentativ
- unvollständig im Sinne von Zeichengestaltsklassen
- in der Zeichengestaltsverteilung "schief" gegenüber der Realität
- veraltet, was neue Fonts oder trendige Handschriften betrifft
- aus einem abweichenden optischen Erfassungssystem gewonnen

so ergeben sich unbefriedigende Erkennungsergebnisse, obwohl der Trainingsvorgang korrekt ausgeführt wurde.

Die Trainingsvorgänge sind teuer, da hierzu eine Reihe von Schritten, bspw.

- Sammeln von Mustern
- Beurteilung deren Repräsentativität
- Einscannen der Muster
- Manuelle Zuordnung der Zeichen zu einer Zeichenklasse
- Testen der neuen Klassifikatoren

notwendig sind. Sie werden daher möglichst selten durchgeführt. Man rechnet etwa ein Jahr und mehr zwischen zwei Versionen von Erkennungssoftware. Auch das dafür notwendige Sammeln der Daten ist problematisch, da echte Daten oft vertraulich oder persönlich sind, bspw. bei Briefen.

Ziel der Erfindung

Es ist daher ein Ziel der vorliegenden Erfindung, ein Verfahren zur Erkennung von Zeichen bereitzustellen, das eine verbesserte Erkennungrate ermöglicht.

Es ist ein weiteres Ziel der Erfindung, ein Erkennungsverfahren bereitzustellen, das ein Belernen der zugehörigen Erkennungssysteme erlaubt.

Weiterhin ist es ein Ziel der vorliegenden Erfindung, eine Vorrichtung bereitzustellen, die die Durchführung der o. g. Verfahren ermöglicht.

Diese und weitere Ziele werden durch die Vorrichtung nach Anspruch 1 und das Verfahren nach Anspruch 5 erreicht.

Weitere vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen dargelegt.

Kurze Beschreibung der Zeichnungen

Die Erfindung wird im folgenden anhand der Zeichnungen näher erläutert. Es zeigt

Fig. 1 eine schematische Darstellung des erfindungsgemäßen Gesamterkennungssystems;

Fig. 2 schematisch das Prinzip des erfindungsgemäßen Trainingsprozesses; und

Fig. 3 ein Beispiel von Gestaltsklassen eines Zeichens in einer Matrix.

Detaillierte Beschreibung der Erfindung

Fig. 1 zeigt schematisch den Aufbau des erfindungsgemäßen Gesamterkennungssystems. Es besteht aus mindestens zwei Erkennungssubsystemen, der sogenannten Primärerkennung 1 und einer nachgeschalteten Komponente 3, die darauf trainiert wurde, besonders diejenigen Zeichen zu erkennen, die die Primärerkennung nicht oder nur schlecht erkannt hat. Diese nachgeschaltete Komponente beruht also auf einem zur Primärerkennung komplementären Zeichenvorrat und wird daher als Komplementerkennung bezeichnet. Sie muß zudem Matrizen mit Gestaltsklassen enthalten, um erkennen zu können, ob bspw. eine neue trendige Zeichenform aufgetreten ist. In Fig. 1 sind lediglich zwei Erkennungssubsysteme 1, 3 dargestellt. Es ist jedoch für den Fachmann erkennbar, daß weitere solcher Subsysteme entweder zwischen Primär- und Komplementerkennung eingefügt, oder aber der Komplementerkennung nachgeschaltet werden können.

Die Primärerkennung trägt alle Kennzeichen eines herkömmlichen Erkennungssystems, bei dem durch einen Musteranpassungsprozeß Klassifikatoren für das jeweilige Schriftgut ermittelt werden. Diese Klassifikatoren beinhalten Merkmale der verschiedenen Schriftarten, welche im Erkennungsprozeß erkannt werden sollen. Die Primärerkennung besteht somit aus den

- Erkennungsalgorithmen und den
- Klassifikatoren

Klassifikatoren haben einen erheblichen Einfluß auf das Erkennungsergebnis. Bei der Anwendung der Primärerkennung liefert diese einen Vertrauenswert für den Ähnlichkeitsgrad eines Zeichens mit einem Zeichenmuster aus dem Musteranpassungsprozeß. Ist der Vertrauenswert für ein vorgeschlagenes Zeichen hoch, so ist die Gefahr einer Substitution gering. Fällt der Vertrauenswert, so erhöht sich die Gefahr, daß ein Zeichen falsch erkannt wird. Alle klassifizierten Zeichen der Primärerkennung 1, die einen Vertrauenswert unterhalb eines vorgegebenen Schwellwertes aufweisen, werden nun der Komplementerkennung 3 zugeführt.

Zeichen, die auch von der Komplementerkennung nicht oder nur fehlerhaft erkannt werden (Rejects), werden dann an ein Korrektursystem 5, bspw. ein Videokodiersystem, weitergeleitet. Die an diesem Korrektursystem manuell korrigierten Rejects bilden nun normalerweise das Endergebnis der Zeichenerkennung (Pfeil 6 in Fig. 1).

Das erfindungsgemäße Erkennungssystem weist nun ein dem Korrektursystem 5 nachgeschaltetes und zwischen Korrektursystem und Komplementerkennung 3 angeordnetes zusätzliches Musteranpassungssystem 7 auf, das es erlaubt, in einem kontinuierlichen Prozeß die aus dem Korrektursystem 5 stammenden Eingaben für ein weiteres Training (Belernen) der Komplementerkennung 3 zu verwenden. Der zusätzliche Musteranpassungs- oder auch Trainingsprozeß wird also durch die Eingaben aus einem Korrektursystem angestoßen, indem die am Korrektursystem korrigierten und identifizierten Zeichen verwendet werden, um einen kontinuierlichen Anpassungsprozeß in Gang zu setzen, d. h., die im Korrektursystem identifizierten Zeichen werden in diesem Fall nicht als endgültiges Ergebnis ausgegeben, sondern dem Musteranpassungssystem zugeführt (vgl. Pfeil 8 in Fig. 1). Der Musteranpassungsprozeß findet also während des eigentlichen Erkennungsprozesses und der notwendigen Korrekturarbeit an den Korrektursystemen online statt. Jedes Zeichen erhält vor dem Trainingsprozeß einzeln manuell eine sogenannte "Master-Identifikation", die online an der Korrekturstation erfolgt. Diese Identifikation benötigt der Trainingsprozeß, um den Klassifikator und im anschließenden Test die Erkennungsrate, bzw. Rejects, Substitutionen und Hits berechnen zu können. Hier zeigt sich ein großer Vorteil der direkten Übernahme der Trainingsdaten aus der Korrekturstation, denn diese Daten sind bereits mit dem entsprechenden Scanner eingelesen und mit einer Identifikation versehen worden, so daß die repräsentativ sind.

Der manuelle Prozeß des Vergebens einer "Master- Identifikation" erfolgt also direkt an der Korrekturstation. Dies ist gegenüber einem separaten (offline) Trainingsprozeß deswegen von Vorteil, da er weniger zeitaufwendig und kostengünstiger ist. Der vorgeschlagene online Musteranpassungsprozeß läuft automatisch an, wenn folgende Bedingungen erfüllt sind:

- Eine ausreichende Menge von klassifizierten Zeichen ist gesammelt
- Es ist ein bestimmter Zeitpunkt für das Anstoßen des Prozesses definiert (bspw. bei einem Schichtwechsel der Mitarbeiter).

Der Musteranpassungsprozeß generiert auf der Basis klassifizierter Zeichen die Klassifikatoren. Anschließend wird in einem Testlauf das Erkennungsergebnis, das durch die neu generierten Klassifikatoren erzielt wurde, noch einmal verifiziert. Entspricht das Ergebnis einer bestimmten, festgelegten Güte, so wird die alte Komplementerkennung durch die jeweils aktuelle ersetzt.

Durch diesen online Musteranpassungsprozeß kann sich damit die nachgeschaltete Komplementerkennung 3 auf die Schwächen der Primärerkennung 1 konzentrieren und den Vertrauenswert zurückgewiesener Zeichen nochmals anheben. Aus einer Zurückweisung (Reject) wird so ein erkanntes Zeichen (Hit). Das online kontinuierliche Herausgreifen dieser schwach erkannten Zeichen und die Weiterverarbeitung in einem Trainings- bzw. Musteranpassungsprozeß führt zu einer Senkung der Kosten für anfallendes Korrekturaufkommen und zu einer Steigerung der Erkennungsqualität.

Im folgenden soll nun allgemein der Prozeß der Musteranpassung (Trainingsprozeß) anhand der Fig. 2 beispielhaft näher erläutert werden.

Die Primärerkennung 1 besitzt Klassifikatoren, die zusammen mit den Erkennungalgorithmen eine Erkennungseinheit bilden. Die Erkennungsleistung dieser Primärerkennung ist somit damit festgeschrieben und läßt sich nur über einen Software Update korrigieren. Updates der Klassifikatoren werden aber, wie bereits weiter oben angedeutet, aus Kostengründen selten ausgeliefert. Somit ist die Anpassung an das Schriftgut bspw. eines Kunden nur bedingt möglich und die Erkennungsschwächen bestimmter Zeichen müssen vom Anwender oft für lange Zeit hingenommen werden.

Bei der Komplementerkennung 3 sind dagegen die Klassifikatoren von den jeweiligen Algorithmen getrennt, da diese mit den neu klassifizierten Zeichen aus der Korrekturstation mit immer denselben Trainingsalgorithmen berechnet werden. Somit verbessern sich die Klassifikatoren durch den Musteranpassungsprozeß kontinuierlich, wobei die neuen Klassifikatoren und die vorhandenen Erkennungsalgorithmen jeweils die neue Komplementerkennung ergeben. Die Klassifikatoren können ohne weiteres online ersetzt werden.

Die Komplementerkennung konzentriert sich vor allem auf die Schwächen der Primärerkennung 1, wobei die Klassifikatoren auch entsprechend trainiert werden.

Im Beispiel der Fig. 2 wird der Komplementerkennung 3 ein von der Primärerkennung 1 zurückgewiesenes Zeichen (Reject) zugeführt. Der Vertrauenswert für das Zeichen "Vier" liegt bei "29", was zu einer Weiterleitung des Zeichens zur Komplementerkennung 3 aufgrund des Unterschreitens des vorgegebenen Schwellwerts (der in diesem Beispiel bei "30" liegt) führt. Der erste Klassifizierungsversuch der Komplementerkennung 3 führt ebenfalls zur Zurückweisung des Zeichens, da hier der Vertrauenswert, der zu einer Klassifizierung des Zeichens als "Vier" führen würde, zu nahe an dem Vertrauenswert für "Neun" liegt (es sei angemerkt, daß sowohl die einzelnen Schwellwerte als auch der Bereich, innerhalb dessen zwei Zeichen aufgrund zu nahe beieinanderliegender Vertrauenswerte zurückgewiesen werden, beliebig vorgegeben werden kann). Daher entscheidet sich auch die Komplementerkennung 3 zur Zurückweisung des Zeichens. Das Feld, in dem sich das zurückgewiesene Zeichen befindet, im vorliegenden Fall also das segmentierte Zeichen (NCI), das nach einer Normierung (Skalierung) des Zeichenrahmens direkt dem Musteranpassungsprozeß zugeführt werden kann, wird nun zum Korrektursystem 5 weitergeleitet. Dort wird das Zeichen mit einer Master Identification (Soll-Kennzeichnung) versehen. Die Person am Kontrollsystem hat somit das Zeichen eindeutig (in diesem Fall als "Neun") charakterisiert. Es wird nun als Image mit zusätzlichen Attributen in einer Datenbank abgelegt, in der sich Kandidaten für den zusätzlichen Musteranpassungs- bzw. Trainingsprozeß befinden. Diese zusätzlichen Attribute können bspw. sein:

- Master Identifikation
- Scanner-Auflösung
- Breite und Höhe des Zeichenrahmens
- Feld für die Erkennungs-ID (Reco-ID)

Der online Trainingsprozeß (Retraining) sorgt nun dafür, daß die weitere Klassifizierung der Komplementerkennung 3 zu einem genügend hohen Vertrauenswert für eine Klassifizierung als "Neun" führt (vgl. weiter unten). Somit wird das Zeichen nicht mehr an das Korrektursystem weitergeleitet, sondern korrekt erkannt.

Die Klassifikatoren der Komplementerkennung 3 passen sich online (Training erfolgt direkt am Arbeitsplatz) an das Schriftgut an und erhöhen so die Erkennungsqualität des Gesamtsystems.

Dem klassifizierten Zeichen aus der Datenbank der zurückgewiesenen Zeichen wird in der entsprechenden Zeichenklasse eine Gestaltklasse zugeordnet. Für jede Zeichenklasse gibt es entsprechende Gestaltsklassen, um die Varianz der Zeichen für den Trainingsprozeß abzudecken.

Fig. 3 zeigt das Prinzip der Gestaltsklassen für die Zeichenklasse "Vier".

Für jede Gestaltsklasse innerhalb einer Zeichenklasse werden die entsprechenden Gestaltsklassen aus anderen Zeichenklassen herangezogen, um die Klassifikatoren in einm Trainingslauf automatisch zu berechnen. Dabei wird bevorzugt ein Verfahren verwendet, bei dem zonenmäßige Merkmale und Anti-Merkmale zur Erkennung verwendet werden (vgl. EP 0 632 404 B1). Ein Vorteil dieses Verfahrens ist, daß nach der Klassifizierung des Zeichens im Korrektursystem kein weiterer manueller Eingriff beim Trainingsprozeß (Musteranpassungsprozeß) vorgenommen werden muß.

Der Musteranpassungsprozeß kann dabei stufenweise implementiert werden. In einer ersten Stufe werden die korrigierten Zeichen aus dem Korrektursystem über einen bestimmten Zeitraum gespeichert. Diese Daten werden dann im Trainingsprozeß verarbeitet, wobei der Trainingslauf beim Hersteller der Erkennungssoftware erfolgen kann. Als Ergebnis des Trainingslaufs erhält man Klassifikatoren, die in die Komplementerkennung geladen werden. Die Komplementerkennung arbeitet jetzt als nachgeschaltete Erkennungseinheit und führt dem Korrektursystem die Zurückweisungen zu. Der kontinuierliche Trainingsprozeß findet in dieser ersten Stufe jedoch für die Initiierung des ersten Erkennungssystems offline statt. Hier dient die Korrekturstation nur zum Sammeln der ersten Trainingsdaten. Die Zeichen werden klassifiziert und der Zeichenrahmen wird gespeichert. Das Verarbeiten der Daten (Trainingsprozeß) erfolgt offline. Die Klassifikatoren aus dem ersten Trainingsprozeß werden dann erstmals geladen, wenn das Gesamtsystem, bspw. beim Kunden, in Betrieb genommen

In einer zweiten Phase wird dann der Trainingsprozeß in die Komplementerkennung eingebunden, so daß er dann online angestoßen wird und dabei seine Daten von einer Zeichendatenbank, die durch das Korrektursystem aufgebaut wird, einlesen kann.

Ein großer Vorteil des hier vorgeschlagenen Systems ist, daß es immer bessere Ergebnisse als das Primärerkennungssystem liefert. Selbst wenn ein neues Primärerkennungssystem mit neuen, überragenden Ergebnissen auf den Markt kommen sollte, wird es mit dem hier beschriebenen System bessere Ergebnisse liefern. Es muß dabei nur dann zur Anwendung kommen, wenn ein Reject eintritt, d. h., wenn eine Verbesserung über die Komplementerkennung möglich ist.

Auf diese Weise ist es möglich, ein selbstlernendes Erkennungssystem bereitzustellen, das die Erkennungsrate gegenüber den bisherigen Systemen wesentlich steigert.

Claims

1. Vorrichtung zur Erkennung eines Musters auf einer Vorlage mit mindestens zwei Mustererkennungseinheiten (1, 3) und einem oder mehreren den Erkennungseinheiten nachgeschalteten Korrektursystemen (5), wobei die mindestens zwei Mustererkennungseinheiten aus einer Primärerkennungseinheit (1) und mindestens einer der Primärerkennungseinheit nachgeschalteten zweiten Erkennungseinheit (3) bestehen, dadurch gekennzeichnet, daß der mindestens einen nachgeschalteten Erkennungseinheit (3) ein Musteranpassungssystem (7) zugeordnet ist, in das korrigierte Zeichen eines zu erkennenden Musters aus dem zwischen der zweiten Erkennungseinheit (3) und dem Musteranpassungssystem (7) angeordneten Korrektursystem (5) einlesbar sind, wobei die korrigierten Zeichen zum Belernen der zweiten Erkennungseinheit (3) verwendet werden.

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die korrigierten Zeichen eine spezielle Identifikation tragen.

3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die zweite Erkennungseinheit auf einem zur Primärerkennung komplementären Zeichenvorrat aufgebaut ist.

4. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß nur Zeichen, die weder von der Primärerkennung noch von der zweiten Erkennungseinheit korrekt erkannt werden, an das Korrektursystem weitergegeben werden.

5. Verfahren zur Erkennung eines Musters auf einer Vorlage mit folgenden Schritten:

a) Erfassen des Musters auf der Vorlage,
b) Zuführung des erfaßten Musters zu einer ersten Erkennungseinheit (1),
c) Zuführung der durch die erste Erkennungseinheit (1) nicht korrekt identifizierten Zeichen zu einer zweiten Erkennungseinheit (3),
d) Zuführung der durch die zweite Erkennungseinheit (3) nicht korrekt identifizierten Zeichen zu einem Korrektursystem (5),
e) korrekte Identifizierung des Zeichens in dem Korrektursystem; und
f) Zuführung des korrekt identifizierten Zeichens zu einem Musteranpassungsprozeß zum Belernen der zweiten Erkennungseinheit (3).

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Musteranpassungsprozeß online durchgeführt wird.

7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß die durch die zweite Erkennungseinheit nicht korrekt identifizierten Zeichen in dem Korrektursystem mit einer Soll-Kennung versehen werden.

8. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die mit der Soll-Kennzeichnung versehenen Zeichen in einer Datenbank für den Musteranpassungsprozeß abgelegt werden.

9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, daß der Musteranpassungsprozeß in zwei Stufen durchgeführt wird.

10. Verfahren nach einem der Ansprüche 5 bis 9, dadurch gekennzeichnet, daß der Musteranpassungsprozeß zu einer eindeutigen Klassifizierung des nicht korrekt identifizierten Zeichens in der zweiten Erkennungseinheit führt.