DE19820353C2 - Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage - Google Patents

Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage

Info

Publication number
DE19820353C2
DE19820353C2 DE19820353A DE19820353A DE19820353C2 DE 19820353 C2 DE19820353 C2 DE 19820353C2 DE 19820353 A DE19820353 A DE 19820353A DE 19820353 A DE19820353 A DE 19820353A DE 19820353 C2 DE19820353 C2 DE 19820353C2
Authority
DE
Germany
Prior art keywords
recognition
pattern
characters
recognition unit
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19820353A
Other languages
English (en)
Other versions
DE19820353A1 (de
Inventor
Udo Maier
Werner Ruppert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to DE19820353A priority Critical patent/DE19820353C2/de
Priority to EP99105724A priority patent/EP0955600B1/de
Priority to DE69928320T priority patent/DE69928320T2/de
Priority to CNB991048105A priority patent/CN1163847C/zh
Priority to JP11125408A priority patent/JPH11345283A/ja
Priority to US09/307,327 priority patent/US6373982B1/en
Publication of DE19820353A1 publication Critical patent/DE19820353A1/de
Application granted granted Critical
Publication of DE19820353C2 publication Critical patent/DE19820353C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

Gebiet der Erfindung
Die Erfindung betrifft allgemein ein Verfahren zur Erkennung eines Musters auf einer Vorlage. Sie betrifft insbesondere ein solches Verfahren, das einen kontinuierlichen Musteranpassungsprozeß beinhaltet. Die Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung eines solchen Verfahrens.
Hintergrund der Erfindung
Die Erkennung von Schriftzeichen oder Charaktermustern auf Vorlagen stellt in der modernen Geschäftswelt eine immer wichtiger werdende Aufgabe dar. Insbesondere im Bankenbereich und im sonstigen Finanzwesen werden Datenverarbeitungsanlagen mit Schrifterkennungseinheiten eingesetzt, um Überweisungsaufträge, Scheckvordrucke und sonstige Belege ohne manuelle Hilfe verarbeiten zu können. Eine weitere Anwendung finden solche Erkennungseinheiten bei der automatischen Briefverteilung.
Dabei wird ausgegangen von einem bestimmten Satz von Kennungen, beispielsweise dem alphanumerischen Zeichensatz einschließlich gewisser Sonderzeichen. Ziel des Erkennungsverfahrens ist es dann, mit möglichst hoher Zuverlässigkeit ein zu erkennendes Zeichen einer Kennung zuzuordnen.
Hierzu werden nach eingehender Vorverarbeitung der Objektdaten in einer ersten Stufe eines Klassifikators für das zu erkennende Objekt zu einer oder mehreren in Frage kommenden Kennungen numerische Bewertungen, sog. Glaubwürdigkeiten, geschätzt, die in einer nachfolgenden Stufe als Grundlage für die Entscheidung über die Zuordnung des Objekts zu einer Kennung herangezogen werden.
Diese Zuordnungsentscheidungen sind mit Restfehlern behaftet, die sich durch Zurückweisungen (Rejects) und durch das Akzeptieren von unzutreffenden Kennungen (Substitutionen) ergeben. Der Wunsch nach einer möglichst geringen Zurückweisungs- und gleichzeitig geringer Substitutionsquote bedeutet gegenläufige Anforderungen an den automatisierten Erkennungsprozeß.
Stand der Technik
Um die Zuverlässigkeit der Mustererkennung zu verbessern, sind Versuche mit dem sogenannten "Multi-Voting"-Verfahren durchgeführt worden, wobei die Leseergebnisse des gleichen Zeichens aus mehreren Mustererkennungseinheiten an eine sog. "Schlichtungseinheit" geleitet werden, die die Ergebnisse vergleicht und das Gesamtergebnis gemäß folgender Regeln auswählt:
  • a) Kommen alle Erkennungseinheiten zum gleichen Ergebnis, kann das Gesamtergebnis aus einer beliebigen Erkennungseinheit ausgewählt werden;
  • b) Kann keine der Erkennungseinheiten ein zuverlässiges Ergebnis liefern, so ist das Gesamtergebnis "reject" (nicht erkennbar);
  • c) Sind die Ergebnisse aller Erkennungseinheiten gleich, davon mindestens eines mit einem Zuverlässigkeitswert, der größer als ein vorherbestimmter Schwellwert (z. B. 50%) ist, so wird der zuverlässigste Wert als Gesamtergebnis ausgewählt;
  • d) Sind die Ergebnisse aller Erkennungseinheiten ungleich, so ist das Gesamtergebnis "reject" (nicht erkennbar).
Aus der DE 41 33 590 A1 ist ein Verfahren zur Klassifizierung solcher Signale bekannt, die jeweils einen von mehreren möglichen Amplitudenwerten der Signale darstellen. Bei diesem Verfahren erfolgen die folgenden Arbeitsschritte parallel in einem oder mehreren Kanälen:
  • a) Aus jeweils mehreren Abtastwerten werden Proben gebildet;
  • b) Aus jeder Probe wird mindestens ein Merkmal extrahiert;
  • c) Das bzw. die extrahierten Merkmale jeder Probe werden als Adressen verwendet, um aus einer Tabelle dort gespeicherte Auftrittswahrscheinlichkeiten auszulesen.
Zur weiteren Auswertung wird aus den Auftrittswahrscheinlichkeiten aller Proben eine Entscheidungsgröße berechnet und mit einem vorgegebenen Schwellwert verglichen.
Die DE 21 12 919 B2 offenbart eine weitere Anordnung zum Erkennen von Zeichen nach dem "Multi-Voting"-Verfahren. Diese enthält einen ersten Zeichenverarbeitungsweg, der eine Aufnahmeanordnung, die den Zeichen Informationen entnimmt, eine Verarbeitungsanordnung, die die Signale der Aufnahmeanordnung zur Verarbeitung empfängt, und eine Entscheidungsanordnung, die die Signale der Verarbeitungsanordnung empfängt und in der ein Zeichen erkennbar ist, wodurch ein Entscheidungssignal an ihrem Ausgang erscheint, aufweist. Weiterhin wird ein zweiter Zeichenverarbeitungsweg verwendet, der zum einen aus einer weiteren Aufnahmeanordnung und/oder einer weiteren Verarbeitungsanordnung sowie der bereits vorhandenen Entscheidungsanordnung, oder zum anderen aus jeweils einer zweiten Aufnahme-, Verarbeitungs- und Entscheidungsanordnung besteht. Wenigstens eine der drei Anordnungen des zweiten Zeichenverarbeitungsweges arbeitet nach einem anderen Prinzip als die entsprechende Anordnung des ersten Zeichenverarbeitungsweges, und am Ausgang des zweiten Zeichenverarbeitungsweges wird ein Entscheidungssignal zusammen mit einem Entscheidungssignal des ersten Zeichenverarbeitungsweges einer Vergleichsanordnung zugeführt, die bei deren Übereinstimmung ein Erkennungssignal erzeugt.
Das "Multi-Voting"-Verfahren erfordert mithin den Einsatz von mindestens zwei Erkennungseinheiten, die jeweils einen anderen Erkennungsalgorithmus verwenden, verbessert jedoch nur geringfügig die Zuverlässigkeit des Erkennungsverfahrens gegenüber den herkömmlichen Verfahren.
Aus der DE 44 07 998 C2 ist ein Verfahren zur Erkennung eines Musters auf einem Beleg bekannt, wobei mindestens zwei unterschiedliche Mustererkennungseinheiten zur Erkennung des Musters eingesetzt werden. Daneben sind Mittel zur Ermittlung einer durch eine unscharfe Variable repräsentierten Glaubwürdigkeit für jedes der durch die Mustererkennungseinheiten erkannten Muster vorgesehen, sowie Mittel zur Auswertung der erkannten Muster mit Hilfe der bestimmten Glaubwürdigkeiten.
Die DE 44 36 408 C1 beschreibt ein Mustererkennungsverfahren, bei dem in einer Trainingsphase eine Kalibriervorschrift für die von einem Klassifikator vorgeschlagenen Bewertungen zu möglichen Kennungen erstellt wird, und im Erkennungsbetrieb die vom Klassifikator geschätzten Bewertungen anhand der Kalibriervorschrift durch andere Werte ersetzt werden.
In DE 196 24 977 A1 wird ein Verfahren zur Verarbeitung von Postsachen offenbart, bei dem ein Abbild der Adreßinformation aufweisenden Oberfläche jeder Sendung gewonnen und einer ersten automatischen Auswertung zugeführt wird, und nicht vollständig ausgewertete Adreßinformationen einer ersten Video-Kodierung zur Auswertung zugeführt wird. Dabei ist vorgesehen, daß die Adreßinformationen derjenigen Abbilder, die bei der Video- Kodierung nicht vollständig ausgewertet worden sind, unter Verwendung der Ergebnisse der Video-Kodierung einer weiteren automatischen Auswertung zugeführt werden.
Schließlich offenbart JP-A-08-235304 eine Zeicherkennungsvorrichtung mit einer ersten und einer zweiten Erkennungseinheit, wobei die zweite Erkennungseinheit ein zusätzliches Wörterbuch sowie eine Kontrolleinheit aufweist. Das extrahierte Merkmal wird entsprechend einem vom Benutzer vergebenen Korrekturzeichen dem Wörterbuch zugeführt, und die Zeichenerkennung erneut durchgeführt. Wenn die zweite Zeichenerkennung beendet ist, wird das zusätzliche Wörterbuch initialisiert.
Heutige Mustererkennungssysteme enthalten zusätzlich zu Geräten für die optische Bildaufnahme und den eigentlichen Erkennungseinheiten meist eine Korrekturstation, bei Postanwendungen bspw. ein Videokodiersystem, an der Rejects angezeigt und von speziell dafür ausgebildeten Personen manuell korrigiert werden. Die korrigierten Daten, d. h., die Videobilder der nicht oder nur unzureichend erkannten Zeichen (Non Coded Information, NCI), als auch die dazugehörigen manuell eingegebenen korrekten Zeichen (Coded Information, CI) werden dabei nicht weiter für Erkennungszwecke, sondern lediglich zu Korrekturzwecken verwendet.
Bei der Entwicklung eines Mustererkennungssystems werden große Mengen an Zeichenmustern in einer Trainingsdatenbank gesammelt. Sie müssen repräsentativ für die geplante Erkennnungsaufgabe sein. In einem nächsten Schritt werden die Zeichen mit Hilfe einer optischen Bildaufnahme digitalisiert (NCI Daten) und vollständig den verlangten Zeichenklassen, z. B. Buchstaben, Zahlen oder auch Sonderzeichen, zugeordnet. Diesen Abschnitt nennt man auch den Trainingsvorgang. Die Güte der Zeichenerkennung hängt wesentlich von dieser Trainingsdatenbank ab. Sind die Daten
  • - nicht repräsentativ
  • - unvollständig im Sinne von Zeichengestaltsklassen
  • - in der Zeichengestaltsverteilung "schief" gegenüber der Realität
  • - veraltet, was neue Fonts oder trendige Handschriften betrifft
  • - aus einem abweichenden optischen Erfassungssystem gewonnen
so ergeben sich unbefriedigende Erkennungsergebnisse, obwohl der Trainingsvorgang korrekt ausgeführt wurde.
Die Trainingsvorgänge sind teuer, da hierzu eine Reihe von Schritten, bspw.
  • - Sammeln von Mustern
  • - Beurteilung deren Repräsentativität
  • - Einscannen der Muster
  • - Manuelle Zuordnung der Zeichen zu einer Zeichenklasse
  • - Testen der neuen Klassifikatoren
notwendig sind. Sie werden daher möglichst selten durchgeführt. Man rechnet etwa ein Jahr und mehr zwischen zwei Versionen von Erkennungssoftware. Auch das dafür notwendige Sammeln der Daten ist problematisch, da echte Daten oft vertraulich oder persönlich sind, bspw. bei Briefen.
Ziel der Erfindung
Es ist daher ein Ziel der vorliegenden Erfindung, ein Verfahren zur Erkennung von Zeichen bereitzustellen, das eine verbesserte Erkennungrate ermöglicht.
Es ist ein weiteres Ziel der Erfindung, ein Erkennungsverfahren bereitzustellen, das ein Belernen der zugehörigen Erkennungssysteme erlaubt.
Weiterhin ist es ein Ziel der vorliegenden Erfindung, eine Vorrichtung bereitzustellen, die die Durchführung der o. g. Verfahren ermöglicht.
Diese und weitere Ziele werden durch die Vorrichtung nach Anspruch 1 und das Verfahren nach Anspruch 5 erreicht.
Weitere vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen dargelegt.
Kurze Beschreibung der Zeichnungen
Die Erfindung wird im folgenden anhand der Zeichnungen näher erläutert. Es zeigt
Fig. 1 eine schematische Darstellung des erfindungsgemäßen Gesamterkennungssystems;
Fig. 2 schematisch das Prinzip des erfindungsgemäßen Trainingsprozesses; und
Fig. 3 ein Beispiel von Gestaltsklassen eines Zeichens in einer Matrix.
Detaillierte Beschreibung der Erfindung
Fig. 1 zeigt schematisch den Aufbau des erfindungsgemäßen Gesamterkennungssystems. Es besteht aus mindestens zwei Erkennungssubsystemen, der sogenannten Primärerkennung 1 und einer nachgeschalteten Komponente 3, die darauf trainiert wurde, besonders diejenigen Zeichen zu erkennen, die die Primärerkennung nicht oder nur schlecht erkannt hat. Diese nachgeschaltete Komponente beruht also auf einem zur Primärerkennung komplementären Zeichenvorrat und wird daher als Komplementerkennung bezeichnet. Sie muß zudem Matrizen mit Gestaltsklassen enthalten, um erkennen zu können, ob bspw. eine neue trendige Zeichenform aufgetreten ist. In Fig. 1 sind lediglich zwei Erkennungssubsysteme 1, 3 dargestellt. Es ist jedoch für den Fachmann erkennbar, daß weitere solcher Subsysteme entweder zwischen Primär- und Komplementerkennung eingefügt, oder aber der Komplementerkennung nachgeschaltet werden können.
Die Primärerkennung trägt alle Kennzeichen eines herkömmlichen Erkennungssystems, bei dem durch einen Musteranpassungsprozeß Klassifikatoren für das jeweilige Schriftgut ermittelt werden. Diese Klassifikatoren beinhalten Merkmale der verschiedenen Schriftarten, welche im Erkennungsprozeß erkannt werden sollen. Die Primärerkennung besteht somit aus den
  • - Erkennungsalgorithmen und den
  • - Klassifikatoren
Klassifikatoren haben einen erheblichen Einfluß auf das Erkennungsergebnis. Bei der Anwendung der Primärerkennung liefert diese einen Vertrauenswert für den Ähnlichkeitsgrad eines Zeichens mit einem Zeichenmuster aus dem Musteranpassungsprozeß. Ist der Vertrauenswert für ein vorgeschlagenes Zeichen hoch, so ist die Gefahr einer Substitution gering. Fällt der Vertrauenswert, so erhöht sich die Gefahr, daß ein Zeichen falsch erkannt wird. Alle klassifizierten Zeichen der Primärerkennung 1, die einen Vertrauenswert unterhalb eines vorgegebenen Schwellwertes aufweisen, werden nun der Komplementerkennung 3 zugeführt.
Zeichen, die auch von der Komplementerkennung nicht oder nur fehlerhaft erkannt werden (Rejects), werden dann an ein Korrektursystem 5, bspw. ein Videokodiersystem, weitergeleitet. Die an diesem Korrektursystem manuell korrigierten Rejects bilden nun normalerweise das Endergebnis der Zeichenerkennung (Pfeil 6 in Fig. 1).
Das erfindungsgemäße Erkennungssystem weist nun ein dem Korrektursystem 5 nachgeschaltetes und zwischen Korrektursystem und Komplementerkennung 3 angeordnetes zusätzliches Musteranpassungssystem 7 auf, das es erlaubt, in einem kontinuierlichen Prozeß die aus dem Korrektursystem 5 stammenden Eingaben für ein weiteres Training (Belernen) der Komplementerkennung 3 zu verwenden. Der zusätzliche Musteranpassungs- oder auch Trainingsprozeß wird also durch die Eingaben aus einem Korrektursystem angestoßen, indem die am Korrektursystem korrigierten und identifizierten Zeichen verwendet werden, um einen kontinuierlichen Anpassungsprozeß in Gang zu setzen, d. h., die im Korrektursystem identifizierten Zeichen werden in diesem Fall nicht als endgültiges Ergebnis ausgegeben, sondern dem Musteranpassungssystem zugeführt (vgl. Pfeil 8 in Fig. 1). Der Musteranpassungsprozeß findet also während des eigentlichen Erkennungsprozesses und der notwendigen Korrekturarbeit an den Korrektursystemen online statt. Jedes Zeichen erhält vor dem Trainingsprozeß einzeln manuell eine sogenannte "Master-Identifikation", die online an der Korrekturstation erfolgt. Diese Identifikation benötigt der Trainingsprozeß, um den Klassifikator und im anschließenden Test die Erkennungsrate, bzw. Rejects, Substitutionen und Hits berechnen zu können. Hier zeigt sich ein großer Vorteil der direkten Übernahme der Trainingsdaten aus der Korrekturstation, denn diese Daten sind bereits mit dem entsprechenden Scanner eingelesen und mit einer Identifikation versehen worden, so daß die repräsentativ sind.
Der manuelle Prozeß des Vergebens einer "Master- Identifikation" erfolgt also direkt an der Korrekturstation. Dies ist gegenüber einem separaten (offline) Trainingsprozeß deswegen von Vorteil, da er weniger zeitaufwendig und kostengünstiger ist. Der vorgeschlagene online Musteranpassungsprozeß läuft automatisch an, wenn folgende Bedingungen erfüllt sind:
  • - Eine ausreichende Menge von klassifizierten Zeichen ist gesammelt
  • - Es ist ein bestimmter Zeitpunkt für das Anstoßen des Prozesses definiert (bspw. bei einem Schichtwechsel der Mitarbeiter).
Der Musteranpassungsprozeß generiert auf der Basis klassifizierter Zeichen die Klassifikatoren. Anschließend wird in einem Testlauf das Erkennungsergebnis, das durch die neu generierten Klassifikatoren erzielt wurde, noch einmal verifiziert. Entspricht das Ergebnis einer bestimmten, festgelegten Güte, so wird die alte Komplementerkennung durch die jeweils aktuelle ersetzt.
Durch diesen online Musteranpassungsprozeß kann sich damit die nachgeschaltete Komplementerkennung 3 auf die Schwächen der Primärerkennung 1 konzentrieren und den Vertrauenswert zurückgewiesener Zeichen nochmals anheben. Aus einer Zurückweisung (Reject) wird so ein erkanntes Zeichen (Hit). Das online kontinuierliche Herausgreifen dieser schwach erkannten Zeichen und die Weiterverarbeitung in einem Trainings- bzw. Musteranpassungsprozeß führt zu einer Senkung der Kosten für anfallendes Korrekturaufkommen und zu einer Steigerung der Erkennungsqualität.
Im folgenden soll nun allgemein der Prozeß der Musteranpassung (Trainingsprozeß) anhand der Fig. 2 beispielhaft näher erläutert werden.
Die Primärerkennung 1 besitzt Klassifikatoren, die zusammen mit den Erkennungalgorithmen eine Erkennungseinheit bilden. Die Erkennungsleistung dieser Primärerkennung ist somit damit festgeschrieben und läßt sich nur über einen Software Update korrigieren. Updates der Klassifikatoren werden aber, wie bereits weiter oben angedeutet, aus Kostengründen selten ausgeliefert. Somit ist die Anpassung an das Schriftgut bspw. eines Kunden nur bedingt möglich und die Erkennungsschwächen bestimmter Zeichen müssen vom Anwender oft für lange Zeit hingenommen werden.
Bei der Komplementerkennung 3 sind dagegen die Klassifikatoren von den jeweiligen Algorithmen getrennt, da diese mit den neu klassifizierten Zeichen aus der Korrekturstation mit immer denselben Trainingsalgorithmen berechnet werden. Somit verbessern sich die Klassifikatoren durch den Musteranpassungsprozeß kontinuierlich, wobei die neuen Klassifikatoren und die vorhandenen Erkennungsalgorithmen jeweils die neue Komplementerkennung ergeben. Die Klassifikatoren können ohne weiteres online ersetzt werden.
Die Komplementerkennung konzentriert sich vor allem auf die Schwächen der Primärerkennung 1, wobei die Klassifikatoren auch entsprechend trainiert werden.
Im Beispiel der Fig. 2 wird der Komplementerkennung 3 ein von der Primärerkennung 1 zurückgewiesenes Zeichen (Reject) zugeführt. Der Vertrauenswert für das Zeichen "Vier" liegt bei "29", was zu einer Weiterleitung des Zeichens zur Komplementerkennung 3 aufgrund des Unterschreitens des vorgegebenen Schwellwerts (der in diesem Beispiel bei "30" liegt) führt. Der erste Klassifizierungsversuch der Komplementerkennung 3 führt ebenfalls zur Zurückweisung des Zeichens, da hier der Vertrauenswert, der zu einer Klassifizierung des Zeichens als "Vier" führen würde, zu nahe an dem Vertrauenswert für "Neun" liegt (es sei angemerkt, daß sowohl die einzelnen Schwellwerte als auch der Bereich, innerhalb dessen zwei Zeichen aufgrund zu nahe beieinanderliegender Vertrauenswerte zurückgewiesen werden, beliebig vorgegeben werden kann). Daher entscheidet sich auch die Komplementerkennung 3 zur Zurückweisung des Zeichens. Das Feld, in dem sich das zurückgewiesene Zeichen befindet, im vorliegenden Fall also das segmentierte Zeichen (NCI), das nach einer Normierung (Skalierung) des Zeichenrahmens direkt dem Musteranpassungsprozeß zugeführt werden kann, wird nun zum Korrektursystem 5 weitergeleitet. Dort wird das Zeichen mit einer Master Identification (Soll-Kennzeichnung) versehen. Die Person am Kontrollsystem hat somit das Zeichen eindeutig (in diesem Fall als "Neun") charakterisiert. Es wird nun als Image mit zusätzlichen Attributen in einer Datenbank abgelegt, in der sich Kandidaten für den zusätzlichen Musteranpassungs- bzw. Trainingsprozeß befinden. Diese zusätzlichen Attribute können bspw. sein:
  • - Master Identifikation
  • - Scanner-Auflösung
  • - Breite und Höhe des Zeichenrahmens
  • - Feld für die Erkennungs-ID (Reco-ID)
Der online Trainingsprozeß (Retraining) sorgt nun dafür, daß die weitere Klassifizierung der Komplementerkennung 3 zu einem genügend hohen Vertrauenswert für eine Klassifizierung als "Neun" führt (vgl. weiter unten). Somit wird das Zeichen nicht mehr an das Korrektursystem weitergeleitet, sondern korrekt erkannt.
Die Klassifikatoren der Komplementerkennung 3 passen sich online (Training erfolgt direkt am Arbeitsplatz) an das Schriftgut an und erhöhen so die Erkennungsqualität des Gesamtsystems.
Dem klassifizierten Zeichen aus der Datenbank der zurückgewiesenen Zeichen wird in der entsprechenden Zeichenklasse eine Gestaltklasse zugeordnet. Für jede Zeichenklasse gibt es entsprechende Gestaltsklassen, um die Varianz der Zeichen für den Trainingsprozeß abzudecken.
Fig. 3 zeigt das Prinzip der Gestaltsklassen für die Zeichenklasse "Vier".
Für jede Gestaltsklasse innerhalb einer Zeichenklasse werden die entsprechenden Gestaltsklassen aus anderen Zeichenklassen herangezogen, um die Klassifikatoren in einm Trainingslauf automatisch zu berechnen. Dabei wird bevorzugt ein Verfahren verwendet, bei dem zonenmäßige Merkmale und Anti-Merkmale zur Erkennung verwendet werden (vgl. EP 0 632 404 B1). Ein Vorteil dieses Verfahrens ist, daß nach der Klassifizierung des Zeichens im Korrektursystem kein weiterer manueller Eingriff beim Trainingsprozeß (Musteranpassungsprozeß) vorgenommen werden muß.
Der Musteranpassungsprozeß kann dabei stufenweise implementiert werden. In einer ersten Stufe werden die korrigierten Zeichen aus dem Korrektursystem über einen bestimmten Zeitraum gespeichert. Diese Daten werden dann im Trainingsprozeß verarbeitet, wobei der Trainingslauf beim Hersteller der Erkennungssoftware erfolgen kann. Als Ergebnis des Trainingslaufs erhält man Klassifikatoren, die in die Komplementerkennung geladen werden. Die Komplementerkennung arbeitet jetzt als nachgeschaltete Erkennungseinheit und führt dem Korrektursystem die Zurückweisungen zu. Der kontinuierliche Trainingsprozeß findet in dieser ersten Stufe jedoch für die Initiierung des ersten Erkennungssystems offline statt. Hier dient die Korrekturstation nur zum Sammeln der ersten Trainingsdaten. Die Zeichen werden klassifiziert und der Zeichenrahmen wird gespeichert. Das Verarbeiten der Daten (Trainingsprozeß) erfolgt offline. Die Klassifikatoren aus dem ersten Trainingsprozeß werden dann erstmals geladen, wenn das Gesamtsystem, bspw. beim Kunden, in Betrieb genommen
In einer zweiten Phase wird dann der Trainingsprozeß in die Komplementerkennung eingebunden, so daß er dann online angestoßen wird und dabei seine Daten von einer Zeichendatenbank, die durch das Korrektursystem aufgebaut wird, einlesen kann.
Ein großer Vorteil des hier vorgeschlagenen Systems ist, daß es immer bessere Ergebnisse als das Primärerkennungssystem liefert. Selbst wenn ein neues Primärerkennungssystem mit neuen, überragenden Ergebnissen auf den Markt kommen sollte, wird es mit dem hier beschriebenen System bessere Ergebnisse liefern. Es muß dabei nur dann zur Anwendung kommen, wenn ein Reject eintritt, d. h., wenn eine Verbesserung über die Komplementerkennung möglich ist.
Auf diese Weise ist es möglich, ein selbstlernendes Erkennungssystem bereitzustellen, das die Erkennungsrate gegenüber den bisherigen Systemen wesentlich steigert.

Claims (10)

1. Vorrichtung zur Erkennung eines Musters auf einer Vorlage mit mindestens zwei Mustererkennungseinheiten (1, 3) und einem oder mehreren den Erkennungseinheiten nachgeschalteten Korrektursystemen (5), wobei die mindestens zwei Mustererkennungseinheiten aus einer Primärerkennungseinheit (1) und mindestens einer der Primärerkennungseinheit nachgeschalteten zweiten Erkennungseinheit (3) bestehen, dadurch gekennzeichnet, daß der mindestens einen nachgeschalteten Erkennungseinheit (3) ein Musteranpassungssystem (7) zugeordnet ist, in das korrigierte Zeichen eines zu erkennenden Musters aus dem zwischen der zweiten Erkennungseinheit (3) und dem Musteranpassungssystem (7) angeordneten Korrektursystem (5) einlesbar sind, wobei die korrigierten Zeichen zum Belernen der zweiten Erkennungseinheit (3) verwendet werden.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die korrigierten Zeichen eine spezielle Identifikation tragen.
3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die zweite Erkennungseinheit auf einem zur Primärerkennung komplementären Zeichenvorrat aufgebaut ist.
4. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß nur Zeichen, die weder von der Primärerkennung noch von der zweiten Erkennungseinheit korrekt erkannt werden, an das Korrektursystem weitergegeben werden.
5. Verfahren zur Erkennung eines Musters auf einer Vorlage mit folgenden Schritten:
  • a) Erfassen des Musters auf der Vorlage,
  • b) Zuführung des erfaßten Musters zu einer ersten Erkennungseinheit (1),
  • c) Zuführung der durch die erste Erkennungseinheit (1) nicht korrekt identifizierten Zeichen zu einer zweiten Erkennungseinheit (3),
  • d) Zuführung der durch die zweite Erkennungseinheit (3) nicht korrekt identifizierten Zeichen zu einem Korrektursystem (5),
  • e) korrekte Identifizierung des Zeichens in dem Korrektursystem; und
  • f) Zuführung des korrekt identifizierten Zeichens zu einem Musteranpassungsprozeß zum Belernen der zweiten Erkennungseinheit (3).
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Musteranpassungsprozeß online durchgeführt wird.
7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß die durch die zweite Erkennungseinheit nicht korrekt identifizierten Zeichen in dem Korrektursystem mit einer Soll-Kennung versehen werden.
8. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die mit der Soll-Kennzeichnung versehenen Zeichen in einer Datenbank für den Musteranpassungsprozeß abgelegt werden.
9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, daß der Musteranpassungsprozeß in zwei Stufen durchgeführt wird.
10. Verfahren nach einem der Ansprüche 5 bis 9, dadurch gekennzeichnet, daß der Musteranpassungsprozeß zu einer eindeutigen Klassifizierung des nicht korrekt identifizierten Zeichens in der zweiten Erkennungseinheit führt.
DE19820353A 1998-05-07 1998-05-07 Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage Expired - Fee Related DE19820353C2 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE19820353A DE19820353C2 (de) 1998-05-07 1998-05-07 Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage
EP99105724A EP0955600B1 (de) 1998-05-07 1999-03-20 Verfahren und Vorrichtung zur Erkennung eines Musters auf einem präsentierten Gegenstand
DE69928320T DE69928320T2 (de) 1998-05-07 1999-03-20 Verfahren und Vorrichtung zur Erkennung eines Musters auf einem präsentierten Gegenstand
CNB991048105A CN1163847C (zh) 1998-05-07 1999-04-05 对被显示的一个项目上的模式进行识别的设备和方法
JP11125408A JPH11345283A (ja) 1998-05-07 1999-05-06 パタ―ンを認識する方法および装置
US09/307,327 US6373982B1 (en) 1998-05-07 1999-05-07 Process and equipment for recognition of a pattern on an item presented

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19820353A DE19820353C2 (de) 1998-05-07 1998-05-07 Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage

Publications (2)

Publication Number Publication Date
DE19820353A1 DE19820353A1 (de) 1999-11-11
DE19820353C2 true DE19820353C2 (de) 2001-06-13

Family

ID=7866933

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19820353A Expired - Fee Related DE19820353C2 (de) 1998-05-07 1998-05-07 Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage
DE69928320T Expired - Lifetime DE69928320T2 (de) 1998-05-07 1999-03-20 Verfahren und Vorrichtung zur Erkennung eines Musters auf einem präsentierten Gegenstand

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69928320T Expired - Lifetime DE69928320T2 (de) 1998-05-07 1999-03-20 Verfahren und Vorrichtung zur Erkennung eines Musters auf einem präsentierten Gegenstand

Country Status (5)

Country Link
US (1) US6373982B1 (de)
EP (1) EP0955600B1 (de)
JP (1) JPH11345283A (de)
CN (1) CN1163847C (de)
DE (2) DE19820353C2 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004030415A1 (de) * 2004-06-24 2006-01-19 Siemens Ag Verfahren zur automatischen Ermittlung operativer Leistungsdaten von Lesesystemen
DE102006050347A1 (de) * 2006-10-25 2008-04-30 Siemens Ag Verfahren zum Prüfen eines Aufdrucks und Aufdruckprüfvorrichtung
CN102592121B (zh) * 2011-12-28 2013-12-04 方正国际软件有限公司 一种ocr漏识判断方法及系统
US9254363B2 (en) 2012-07-17 2016-02-09 Elwha Llc Unmanned device interaction methods and systems
US9125987B2 (en) 2012-07-17 2015-09-08 Elwha Llc Unmanned device utilization methods and systems

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2112919B2 (de) * 1970-03-26 1980-05-22 N.V. Philips' Gloeilampenfabrieken, Eindhoven (Niederlande) Anordnung zum Erkennen von Zeichen
DE4133590A1 (de) * 1991-07-03 1993-01-14 Bosch Gmbh Robert Verfahren zur klassifikation von signalen
DE4436408C1 (de) * 1994-10-12 1995-12-07 Daimler Benz Ag Mustererkennungsverfahren
DE4407998C2 (de) * 1994-03-10 1996-03-14 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
JPH08235304A (ja) * 1995-02-24 1996-09-13 Oki Electric Ind Co Ltd 文字認識装置
EP0632404B1 (de) * 1993-07-01 1997-12-29 International Business Machines Corporation Mustererkennung durch Erzeugung und Benutzung zonenweiser Merkmale und Anti-Merkmale
DE19624977A1 (de) * 1996-06-22 1998-01-02 Siemens Ag Verfahren zur Verarbeitung von Postsachen

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6142083A (ja) 1984-08-03 1986-02-28 Fujitsu Ltd 文字認識装置
JPS6227874A (ja) 1985-07-30 1987-02-05 Toshiba Corp 文字認識装置
JPS62103784A (ja) 1985-10-31 1987-05-14 Toshiba Corp 文字読取装置
JPH01246678A (ja) * 1988-03-29 1989-10-02 Toshiba Corp パターン認識装置
US5052043A (en) * 1990-05-07 1991-09-24 Eastman Kodak Company Neural network with back propagation controlled through an output confidence measure
JPH04302073A (ja) 1991-03-29 1992-10-26 Meidensha Corp 文字認識装置
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
US5251268A (en) * 1991-08-09 1993-10-05 Electric Power Research Institute, Inc. Integrated method and apparatus for character and symbol recognition
US5881172A (en) * 1996-12-09 1999-03-09 Mitek Systems, Inc. Hierarchical character recognition system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2112919B2 (de) * 1970-03-26 1980-05-22 N.V. Philips' Gloeilampenfabrieken, Eindhoven (Niederlande) Anordnung zum Erkennen von Zeichen
DE4133590A1 (de) * 1991-07-03 1993-01-14 Bosch Gmbh Robert Verfahren zur klassifikation von signalen
EP0632404B1 (de) * 1993-07-01 1997-12-29 International Business Machines Corporation Mustererkennung durch Erzeugung und Benutzung zonenweiser Merkmale und Anti-Merkmale
DE4407998C2 (de) * 1994-03-10 1996-03-14 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
DE4436408C1 (de) * 1994-10-12 1995-12-07 Daimler Benz Ag Mustererkennungsverfahren
JPH08235304A (ja) * 1995-02-24 1996-09-13 Oki Electric Ind Co Ltd 文字認識装置
DE19624977A1 (de) * 1996-06-22 1998-01-02 Siemens Ag Verfahren zur Verarbeitung von Postsachen

Also Published As

Publication number Publication date
EP0955600A2 (de) 1999-11-10
EP0955600B1 (de) 2005-11-16
CN1235319A (zh) 1999-11-17
DE69928320T2 (de) 2006-07-27
US6373982B1 (en) 2002-04-16
DE19820353A1 (de) 1999-11-11
DE69928320D1 (de) 2005-12-22
EP0955600A3 (de) 2002-06-12
JPH11345283A (ja) 1999-12-14
CN1163847C (zh) 2004-08-25

Similar Documents

Publication Publication Date Title
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
EP0980293B1 (de) Verfahren und anordnung zum erkennen von verteilinformationen
DE60308025T2 (de) Identifikationsmarkieren von poststücken durch bildsignatur und zugehörige postbearbeitungsmaschine
DE2541204C3 (de) Einrichtung zur Fehlerkorrektur
EP1015138B1 (de) Verfahren und anordnung zum erkennen von verteilinformationen auf sendungen
DE69926280T2 (de) Verfahren zur Erkennung von Adressen und Briefverarbeitungsvorrichtung
DE102008041944A1 (de) Datenverarbeitungsverfahren zur Generierung eines Klassifikators und zur Überprüfung der Echtheit eines Dokuments, Vorrichtung zur Überprüfung der Echtheit eines Dokuments und Computerprogrammprodukt
EP1259932B1 (de) Verfahren und vorrichtung zum lesen der adressen von sendungen
DE4407998C2 (de) Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
DE19820353C2 (de) Verfahren und Vorrichtung zur Erkennung eines Musters auf einer Vorlage
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
DE3246631C2 (de) Zeichenerkennungsvorrichtung
EP2259210A2 (de) Verfahren und Vorrichtung zur Analyse einer Datenbank
EP0965088B1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
DE3238300A1 (de) Verfahren und vorrichtung zur muster- oder zeichenerkennung
EP0618544B1 (de) Verfahren und Vorrichtung zum automatischen Erfassen und Erkennen von Schriften
EP0707279B1 (de) Mustererkennungsverfahren mit Kalibrierung der Lernfähigkeit
EP1485865A2 (de) Verfahren und vorrichtung zum lesen der adressen von sendungen
EP1159705B1 (de) Verfahren zum lesen von dokumenteintragungen und adressen
DE2333202A1 (de) Zeichenerkennungsanordnung
EP2084652A1 (de) Verfahren und vorrichtung zum identifizieren von gegenständen
EP4338135A1 (de) Bauteilklassifizierungsvorrichtung, verfahren zum klassifizieren von bauteilen und verfahren zum trainieren einer bauteilklassifizierungsvorrichtung
DE102021123761A1 (de) Bauteilklassifizierungsvorrichtung, Verfahren zum Klassifizieren von Bauteilen und Verfahren zum Trainieren einer Bauteilklassifizierungsvorrichtung
DE10037742C2 (de) System zur Erkennung und Klassifizierung von Objekten
WO2020025119A1 (de) Computerimplementiertes verfahren zur erfassung von dokumenteninhalten aus einem dokument

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee