DE60217299T2

DE60217299T2 - Holistisch-analytische erkennung von handgeschriebenem text

Info

Publication number: DE60217299T2
Application number: DE60217299T
Authority: DE
Inventors: Alexander Longmont FILATOV; Igor Boulder KIL; Arseni Longmont SEREGIN
Original assignee: Parascript Niwot LLC; Parascript LLC
Current assignee: Parascript Niwot LLC; Parascript LLC
Priority date: 2001-02-16
Filing date: 2002-01-03
Publication date: 2007-08-30
Anticipated expiration: 2022-01-04
Also published as: US6950555B2; DE60217299D1; US20050074169A1; WO2002067189A3; ATE350719T1; WO2002067189A2; CA2438187A1; EP1362322A2; US20020114523A1; EP1362322B1; US7623715B2; WO2002067189A8

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft die Erkennung von handschriftlichen Textbildern in einem Rechensystem zur Bildung von Texteingabeinformation in das Rechensystem. Speziell betrifft die Erfindung sowohl holistische als auch analytische Erkennungsoperationen, die zusammenarbeiten, um eine zuverlässigere Erkennung der Textbilder durchzuführen.
Hintergrund der Erfindung
Das Gebiet der Erkennung handschriftlichen Texts ist von Interesse aufgrund zahlreicher gewerblicher Anwendungen in Offline-Erkennungssystemen wie dem Sortieren von Post, dem Lesen von Bankschecks und Formularen sowie in Online-Erkennungssystemen wie der Eingabe in einen Kontaktbildschirm mit einer Schreibnadel in alle Arten von Rechensystemen, aber speziell in Laptop-, Tablett- oder Handrechensystemen. Siehe beispielsweise Robert K. Powalka, "An algorithm toolbox for on-line cursive script recognition", Doctoral Thesis, XP- 002211843,
<http:/ /citeseer.nj.nec.com/rd/70348799%2C209471%2C1%2CO.25%2CDownload/http :citeseer.nj.nec.com/compress/0/papers/cs/8855/http:zSzzSzwww.doc.ntu.ac.ukzSz {ink datazSzrkpzSzthesis.main.ps.gz/an-algorithm-toolbox-for.ps>, S. 1-286 (Oktober 1995); und B. Plessis et al., "A multi-classifier combination strategy for the recognition of handwritten cursive words," DOCUMENT ANALYSIS AND RECOGNITION, PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON TSUKUBA SCIENCE CITY, JAPAN, S. 642-645 (Oktober 1993), die beide Zeichenerkennungssysteme beschreiben.
Die Hauptschwierigkeiten bei der Erkennung von handschriftlichem oder kursivem Text sind wohlbekannt – Zeichen in den Wörtern sind häufig miteinander verbunden, und die Veränderlichkeit von Zeichenformen ist hoch. Es gibt auf dem Gebiet der Handschrifterkennung zwei Hauptstrategien. Diese sind die holistische Erkennung und die analytische Erkennung. Bei der holistischen Erkennung wird eine Kette von Zeichen wie etwa ein Wort oder ein Satz als ein Ganzes erkannt, ohne daß der Erkennungsvorgang eine Einzelzeichen-Erkennungsphase hat. Bei der analytischen Erkennung wird eine Zeichenkette zuerst in Zeichen segmentiert und dann Zeichen für Zeichen erkannt, um das Wort oder den Satz zu erkennen.
Der wesentliche Vorteil der holistischen Erkennung liegt darin, daß dabei die Segmentierungsphase vermieden wird und dementsprechend Segmentierungsfehler vermieden werden. Beispielsweise beginnt die holistische Erkennung eines Worts mit einer Darstellung des Worts, die durch Extraktion von Merkmalen der Kursivschrift wie etwa von Strichen, die bei der Bildung von Teilen eines Zeichens verwendet werden, kreiert wird. Diese extrahierten Merkmale in der Wortdarstellung werden dann mit Merkmalsdarstellungen für Wörter aus einem Lexikon aller Wörter in einem Referenzvokabular verglichen. Der wesentliche Nachteil einer holistischen Vorgehensweise besteht darin, daß es unmöglich ist, eine detaillierte Zeichengestalt zu berücksichtigen. Das führt zu einer signifikanten Verschlechterung von Erkennungsresultaten bei sehr großen Lexika.
Der Hauptvorteil der analytischen Erkennung ist die Verfügbarkeit von wohlbekannten und hochentwickelten Zeichenerkennungstechniken. Es gibt jedoch in dem Erkennungsprozeß eine Segmentierungsphase, und das Problem liegt darin, daß fehlerhafte Segmentierungsentscheidungen zu einer unrichtigen Erkennung von Zeichen und damit des Worts führen. Der Segmentierungsalgorithmus kann viele fehlerhafte Varianten für Zeichen erzeugen, die auf dem Bereich des Zeichenbilds basieren, in dem die Segmentierungsentscheidung getroffen wird. Daher ist der Hauptnachteil dieser Vorgehensweise, daß die genaue Erkennung von der richtigen Segmentierung abhängig ist, und die richtige Segmentierung ist wegen der Vielseitigkeit von Kursivschriftarten schwierig.
Die vorliegende Erfindung wurde im Hinblick auf diese und andere Bedingungen gemacht.
Zusammenfassung der Erfindung
Gemäß der vorliegenden Erfindung werden die oben angegebenen und weitere Probleme durch die Vorrichtung nach Anspruch 1 und das entsprechende Verfahren nach Anspruch 7 gelöst. Eine Vorrichtung zum Erkennen einer Zeichenkette handschriftlichen Texts in einem in ein Rechensystem geladenen Bild wird angegeben. Die Vorrichtung weist folgendes auf:
eine holistische Erkennungseinrichtung zum Erkennen der Zeichenkette als ein Ganzes und zum Erzeugen einer ersten Antwortliste und einer Segmentierungsliste, wobei die erste Antwortliste eine Vielzahl von Erkennungsantworten für die Zeichenkette in dem Bild enthält und jede Antwort einen Konfidenzwert dahingehend hat, daß die Antwort richtig ist, und wobei die Segmentierungsliste Segmentierungsinformation enthält, welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale trennt.
Weitere analytische Erkennungseinrichtungen, die auf die Segmentierungsliste reagieren, sind vorgesehen, um eine Vielzahl von Zeichen einzeln zu erkennen und eine zweite Antwortliste für die Zeichenkette in dem Bild zu erzeugen; dabei hat jede Antwort einen Konfidenzwert dahingehend, daß die Antwort richtig ist.
Eine Einrichtung, die auf die erste Antwortliste und die zweite Antwortliste anspricht, findet die beste Erkennungsantwort für die Zeichenkette.
Kurze Beschreibung der Zeichnungen
1 zeigt eine Ausführungsform der Erfindung, wobei das holistische Erkennungsmodul Segmentierungsinformation zu dem analytischen Erkennungsmodul leitet;
2 zeigt eine Rechenumgebung, in der die verschiedenen Ausführungsformen der Erfindung wirksam sein können;
3 zeigt eine andere Ausführungsform der Erfindung mit dem Operationsfluß für eine holistische Erkennungsphase, eine hypothetische Segmentierungsphase, eine analytische Erkennungsphase und die Kombinationsphase, um die beste Antwort zu finden;
4 zeigt den Operationsfluß für die Übersetzungsoperation 306 in 3;
5 zeigt den Operationsfluß für die Kombinations- oder Beste-Antwort-Phase in den 1 und 3;
6 zeigt den Operationsfluß für eine andere Ausführungsform der Beste-Antwort-Phase in den 1 und 3;
7 zeigt den Operationsfluß für die analytische Erkennungsoperation 320 in 3; und
8 zeigt den Operationsfluß für eine andere Ausführungsform der analytischen Erkennungsoperation 320 in 3.
Genaue Beschreibung bevorzugter Ausführungsformen
Die logischen Operationen der verschiedenen Ausführungsformen der vorliegenden Erfindung sind realisiert (1) als eine Folge von computer-implementierten Schritten, die auf einem Rechensystem ablaufen, und/oder (2) als miteinander verbundene logische Maschinenmodule innerhalb des Rechensystems. Die Realisierung ist eine Frage der Wahl in Abhängigkeit von den Leistungsanforderungen des die Erfindung implementierenden Rechensystems. Daher werden die logischen Operationen, welche die hier beschriebenen Ausführungsformen der vorliegenden Erfindung bilden, unterschiedlich als Operationen, Schritte oder Module bezeichnet.
Bei einer Ausführungsform der Erfindung, die in 1 gezeigt ist, liefert ein Bildlademodul 100 eine digitalisierte Darstellung einer eingegebenen Zeichenkette, die zu erkennen ist. Die Zeichenkette ist im typischsten Fall ein Wort, kann aber eine Vielzahl von Wörtern sein, die einen Satz bilden. Die Zeichenkette besteht aus alphanumerischen Zeichen und kann daher in einem Satz als Zahlen und Wörter gemischt sein. "Wort" wird zwar durchweg verwendet, um eine zu erkennende Zeichenkette zu bezeichnen, es versteht sich jedoch, daß die Zeichenkette eine Mischung aus alphanumerischen Zeichen, eine Vielzahl von Wörtern oder ein Satz sein kann.
Das digitalisierte Bild des Worts wird einem holistischen Erkennungsmodul 102 und einem analytischen Erkennungsmodul 104 zugeführt. Das holistische Erkennungsmodul 102 ist an dem gesamten Wort wirksam, um das Wort als ein Ganzes zu erkennen. Dies erfolgt durch Aufteilen des Worts in Zeichenmerkmale und Treffen einer Entscheidung bei Erkennen des gesamten Worts auf der Basis der Zeichenkettenmerkmale. Ein Zeichenmerkmal kann in Abhängigkeit von der angewandten holistischen Erkennungstechnik aus verschiedenen Informationselementen eines Zeichens bestehen. Ein Beispiel einer holistischen Erkennungstechnik ist beschrieben in der US-PS 5 313 527 mit dem Titel METHOD AND APPARATUS FOR RECOGNIZING CURSIVE WRITING FROM A SEQUENTIAL INPUT INFORMATION, Erfinder S.A. Guberman, Ilia Lossev und Alexander V. Pashintsev. In dieser speziellen Patentschrift werden die Zeichenmerkmale als Metastriche bezeichnet, d. h. als ein Strich, der einen Teil eines Zeichens bildet.
Das holistische Erkennungsmodul 102 bildet ferner eine Segmentierungsliste 103, welche den Segmentierungspunkt zwischen dem Ende eines Zeichens oder Buchstabens und dem Beginn des nächsten Zeichens oder Buchstabens bezeichnet. Die Segmentierung ist zwar nicht Teil des holistischen Erkennungsvorgangs, aber eine durch die holistische Erkennungsoperation erzeugte Antwort kann verwendet werden, um Segmentierungspunkte zwischen Zeichen zu definieren. Jede Antwort hat Mengen von Zeichenmerkmalen, die jedes Zeichen in der Antwort bilden, zu der das holistische Erkennungsmodul 102 gelangt ist. In dem Guberman-Patent können beispielsweise die Zeichen in einer Antwort mit einer Kette von Metastrichen assoziiert werden. Daher enthält die von dem holistischen Erkennungsmodul 102 erzeugte Antwort auch eine Menge an Metastrichen für jedes Zeichen in der holistischen Antwort. Somit erzeugt das holistische Erkennungsmodul 102 als Nebenprodukt eine Segmentierungsliste 103, die von dem analytischen Erkennungsmodul 104 zur Segmentierung des digitalen Bilds genutzt werden kann.
Das analytische Erkennungsmodul 104 verwendet die Segmentierungsliste für die Antworten in der holistischen Antwortliste 106, um das digitale Bild in Zeichenbilder aufzuteilen. Diese Zeichenbilder können dann durch eine Zeichenbilderkennungsoperation erkannt werden, die auch als Zeichenklassifizierer bezeichnet wird. Während jedes Zeichen in einem Wort von dem analytischen Erkennungsmodul 104 erkannt wird, wird eine analytische Antwort für das Wort aufgebaut, und ein Konfidenzwert in der Antwort wird dem Antwort-Wort zugewiesen. Diese analytischen Antwort-Wörter für verschiedene Segmentierungen des digitalen Bilds des Worts werden in der analytischen Antwortliste 108 gesammelt. Ein Beste-Antwort-Modul 110 übernimmt dann die analytische Wort-Antwortliste 108 und die holistische Wort-Antwortliste 106 und findet die beste Antwort bzw. die Antwort mit dem höchsten Konfidenzwert in der Liste. Es gibt eine Vielzahl von Techniken zum Finden der besten Antwort, und zwei derartige Techniken werden nachstehend unter Bezugnahme auf die 5 und 6 beschrieben.
2 zeigt ein Beispiel einer geeigneten Rechensystemumgebung 200, in der die Erfindung implementiert werden kann. Die Rechensystemumgebung 200 ist nur ein Beispiel einer geeigneten Rechensystemumgebung und soll keine Einschränkung des Umfangs der Verwendung oder Funktionalität der Erfindung bedeuten. Ebenso soll die Rechenumgebung 200 nicht so interpretiert werden, als gäbe es irgendeine Abhängigkeit oder Anforderung in Verbindung mit irgendeiner Komponente oder Kombination von Komponenten, die in der beispielhaften Betriebsumgebung 200 gezeigt sind.
Die Erfindung kann mit zahlreichen anderen Universal- oder Spezial-Rechensystemumgebungen oder -konfigurationen funktionieren. Beispiele von wohlbekannten Rechensystemen, Umgebungen und/oder Konfigurationen, die zum Gebrauch mit der Erfindung geeignet sein können, umfassen – ohne eine Einschränkung zu bedeuten – Personalcomputer, Servercomputer, Hand- oder Slate-Vorrichtungen, Tabletteinrichtungen, Laptopeinrichtungen, Multiprozessorsysteme, mikroprozessor-basierte Systeme, Settopboxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Großrechner, verteilte Rechenumgebungen, die jedes der obigen Systeme oder Einrichtungen aufweisen können, und dergleichen.
In der einfachsten Konfiguration weist die Rechenvorrichtung 200 typischerweise wenigstens eine Verarbeitungseinheit 202 und einen Speicher 204 auf. Je nach der genauen Konfiguration und dem Typ der Rechenvorrichtung kann der Speicher 204 ein flüchtiger (etwa ein RAM), ein nichtflüchtiger (etwa ein ROM, Flash-Speicher usw.) oder eine Kombination der beiden Speicher sein. Diese Grundkonfiguration ist in 2 mittels der Strichlinie 206 angedeutet. Zusätzlich kann die Vorrichtung 200 weitere Merkmale/Funktionen haben. Beispielsweise kann die Vorrichtung 200 außerdem einen zusätzlichen Speicher (herausnehmbar und/oder fest eingebaut) aufweisen, was Magnet- oder Bildplatten oder ein Band sein kann, ohne darauf beschränkt zu sein. Solche zusätzlichen Speicher sind in 2 durch den entfernbaren Speicher 208 und den fest angeordneten Speicher 210 veranschaulicht.
Der Speicher 204, der entfernbare Speicher 208 und der fest angeordnete Speicher 210 sind sämtlich Beispiele für Speichermedien. Speichermedien für Computer umfassen flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Datenträger, die mit irgendeiner Methode oder Technologie für die Speicherung von Information wie etwa als computerlesbare Anweisungen, Datenstrukturen, Programmodule oder andere Daten implementiert sind. Speichermedien für Rechner umfassen RAM, ROM, EPROM, Flashspeicher oder andere Speichertechnologien, CD-ROM, DVD oder andere Bildspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere Magnetspeichereinrichtungen oder jedes andere Medium, das verwendbar ist, um die gewünschten Informationen zu speichern, und auf das die Einrichtung 200 zugreifen kann. Jeder derartige Datenträger kann ein Teil der Vorrichtung 200 sein.
Die Vorrichtung 20 kann außerdem Kommunikationsanschlüsse 212 enthalten, die der Vorrichtung die Kommunikation mit anderen Vorrichtungen ermöglichen. Die Kommunikationsanschlüsse 212 sind ein Beispiel für Kommunikationsmittel. Kommunikationsmittel verkörpern typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmodule oder andere Daten in einem modulierten Datensignal wie etwa einer Trägerwelle oder einem anderen Transportmechanismus und umfassen jedes Informationstransportmedium. Der Ausdruck "moduliertes Datensignal" bedeutet ein Signal, bei dem eine oder mehrere seiner Eigenschaften auf solche Weise vorgegeben oder geändert sind, daß in dem Signal Information codiert ist. Beispielsweise und ohne Einschränkung umfassen Kommunikationsmittel verdrahtete Mittel wie ein verdrahtetes Netz oder einen direktverdrahteten Anschluß sowie drahtlose Mittel wie akustische, HF-, Infrarot- und andere drahtlose Mittel. Der Ausdruck computerlesbare Medien oder Computerprogrammprodukt bedeutet im vorliegenden Zusammenhang sowohl Datenträger als auch Kommunikationsmittel.
Die Vorrichtung 200 kann auch Eingabeeinrichtungen 214 wie eine Tastatur, eine Maus, einen Stift, eine Spracheingabeeinrichtung, eine Berührungseingabeeinrichtung, Dokumentenscanner usw. haben. Ausgabeeinrichtungen 216 wie ein Display, Lautsprecher, ein Drucker, elektromechanische Einrichtungen wie Dokumentenbearbeiter, die von der Vorrichtung 200 gesteuert werden, können ebenfalls vorgesehen sein. All diese Einrichtungen sind im Stand der Technik wohlbekannt und brauchen hier nicht näher erörtert zu werden. Die mit der Rechenvorrichtung 200 zusammenarbeitende spezielle Eingabe-/Ausgabeeinrichtung ist abhängig von der Anwendung, in der das Erkennungssystem arbeitet, und davon, ob das Erkennungssystem offline oder online mit zu erkennenden kursiven Bildern arbeitet.
Unter Berücksichtigung der Rechenumgebung ist in 3 eine andere Ausführungsform der Erfindung gezeigt. Bei dieser Ausführungsform ist die kombinierte holistische/analytische Erkennungstechnik in eine holistische Phase, eine Segmentierungsphase, eine analytische Phase und eine Kombinationsphase aufgeteilt. Auch hier wird ein Bild eines Worts in das Rechensystem durch die Ladeoperation 302 geladen. Das Bild kann durch Scannen eines handschriftlichen Dokuments oder durch Detektieren eines Worts, das mit einer Schreibnadel an einem Tastbildschirm eingegeben wird, geladen werden. Der Ladevorgang 302 digitalisiert das kursive Wortbild und leitet es weiter zu dem Merkmalerkennungsmodul 304 und dem Übersetzungsmodul 306. Das Merkmalerkennungsmodul 304 zerlegt das Wortbild in Zeichenmerkmale, d. h. Teile eines Zeichens, die zum Erkennen des Worts genutzt werden können. Daher ist die Ausgabe des Merkmalerkennungsmoduls 304 eine Kette von Zeichenmerkmalen für das Gesamtwort oder, im Fall des Patents von Guberman et al., eine Kette von Metastrichen.
Bei der Vergleichsoperation 308 wird die Kette von eingegebenen Zeichenmerkmalen aus der Merkmalsliste 312 mit Zeichenmerkmal-Prototypen für Wörter in einem Vokabular verglichen, das von einem Universallexikon 310 bereitgestellt wird. Das Lexikon oder Wörterbuch 310 kann auf ein erwartetes Vokabular für die zu erkennenden eingegebenen Wörter zugeschnitten sein. Die Wörter in dem Lexikon sind in Form von ASCII-Zeichen gespeichert. Die Wörter in ASCII-Zeichenform aus dem Lexikon 310 werden durch die Umwandlungsoperation 309 in eine Kette von Zeichenmerkmal-Prototypen umgewandelt. Eine Vielzahl von Mengen von Zeichenmerkmal-Prototypen für verschiedene Formen bzw. Gestalten jedes ASCII-Zeichens sind als Zeichenmerkmal-Prototypen 307 gespeichert. Die Umwandlungsoperation 309 ruft für jedes Zeichen in einem Wort aus dem Lexikon 310 ein oder mehr Mengen von Zeichenmerkmals-Prototypen ab und führt die Kette von Zeichenmerkmals-Prototypen für das Referenzwort der Vergleichsoperation 308 zu. Wenn die Zeichenmerkmale Metastriche sind, wird eine Prototyp-Kette von Metastrichen mit der eingegebenen Kette von Metastrichen für das eingegebene Wort verglichen, die von der Erkennungsoperation 304 empfangen wurden.
Die Vergleichstechnik ist im einzelnen in der Patentschrift 5 313 527 von Guberman et al. beschrieben. Das Resultat der Vergleichsoperation 308 ist eine Liste von holistischen ASCII-Wortantworten für sämtliche möglichen Übereinstimmungen zwischen dem zu erkennenden eingegebenen Wort und den verschiedenen möglichen Wortvariationen in dem im Lexikon 310 gespeicherten Vokabular. Jede dieser Wortantworten trägt einen Konfidenzwert, der ein Maß für die Gleichheit zwischen den das eingegebene Wort darstellenden Metastrichen und den Metastrichen ist, die das Referenzwort aus dem Vokabular bilden.
Nach der Vergleichsoperation für jede Antwort ist es möglich, eine Merkmalsliste von segmentierten Zeichen zu konstruieren. Die Konstruktionsoperation umfaßt eine Zurückverfolgungsoperation 313 und eine Lokalisierungsoperation 314. Die Zurückverfolgungsoperation 313 verfolgt die Entscheidungsoperationen zurück, die durch die Vergleichsoperation 308 beim Vergleichen der Metastrichketten durchgeführt wurden. Während des Verfolgens der Entscheidungen assoziiert die Zurückverfolgungsoperation 313 jeden eingegebenen Metastrich mit einem entsprechenden Metastrich-Prototyp. Die Entscheidungsoperationen können grafisch als ein Vergleichsweg durch eine grafische Vergleichsmatrix dargestellt werden, wogegen in dem Patent von Guberman et al. die Vergleichsgrafikoordinaten die Metastrich-Prototypen und die eingegebenen Metastriche sind. Diese Vergleichstechnik und die Vergleichsgrafik sind auch in einem Artikel "Handwritten Word Recognition – The Approach Proved by Practice" von G. Dzuba, A. Filatov, D. Gershuny und I. Kil beschrieben (Proceedings IWFHR-VI, 12.-14. August 1998, Taejon, Korea, S. 99-111). Eine Vergleichsentscheidung, die den Erkennungsprozeß in der Vergleichsgrafik vorwärts bewegt, ist eine Bewegung diagonal durch die Grafik. Jede dieser Diagonalbewegungen erkennt effektiv eine Übereinstimmung zwischen einem eingegebenen Metastrich und einem Metastrich-Prototyp.
Die Lokalisierungsoperation 314 lokalisiert dann die Zeichensegmentierungspunkte zwischen eingegebenen Metastrichen aus der Übereinstimmung der eingegebenen Metastriche und der Metastrich-Prototypen. Da die Zeichensegmentierungsstellen zwischen Metastrichen für die Kette von Metastrich-Prototypen bekannt sind, wird diese Information auf die Übereinstimmung zwischen den eingegebenen Metastrichen und den Metastrich-Prototypen angewandt, um die Segmentierungspunkte in der Kette von eingegebenen Metastrichen zu detektieren. Somit gibt die Lokalisierungsoperation 314 die segmentierte Zeichenmerkmalsliste 316 aus, die für jede Antwort in der holistischen Antwortliste 311 eine Kette von Zeichenmerkmalen hat, und Merkmale sind für jedes Zeichen in der Antwort in Zeichenmengen segmentiert.
In der Segmentierungsphase wird die segmentierte Zeichenmerkmalsliste 316 verwendet zur Bildung verschiedener Segmentierungshypothesen für das zu erkennende Wortbild. Das Übersetzungsmodul 306 empfängt die segmentierte Zeichenmerkmalsliste 316 und das digitalisierte Wortbild. Tatsächlich empfängt das Übersetzungsmodul 306 eine Segmentierungshypothese für das Wortbild auf der Basis der lokalisierten Segmentierungspunkte in der segmentierten Zeichenmerkmalsliste 316. Für jede Segmentierungshypothese, die von der segmentierten Merkmalsliste 316 empfangen wird, trennt oder segmentiert das Übersetzungsmodul 306 das digitalisierte Bild an diesem hypothetischen Segmentierungspunkt zwischen Zeichen in dem digitalen Bild, um für das in Zeichen segmentierte Wort 318 Zeichenausschnittbilder zu kreieren. Diese Zeichenausschnitt-Wortbilder werden dann in der analytischen Phase der analytischen Erkennungseinrichtung 320 zugeführt. Eine Ausführungsform des Übersetzungsmoduls 306 wird nachstehend unter Bezugnahme auf 4 beschrieben.
In der analytischen Phase wird jedes Zeichenbild, das aus dem Wortbild ausgeschnitten ist, durch die analytische Erkennungsoperation 320 erkannt. Auf der Basis der verschiedenen Segmentierungshypothesen werden in der Operation 320 verschiedene ASCII-Zeichen als mit den Zeichen in dem Wortbild übereinstimmend erkannt. Die analytische Erkennungsoperation 320 erzeugt eine analytische ASCII-Wortantwort mit einem Konfidenzwert für die Antwort. Der Konfidenzwert repräsentiert den kombinierten Konfidenzwert bei der Erkennung aller Zeichen in der Antwort. Diese analytischen ASCII-Wortantworten 328 sind dann für die Vereinigungs- oder Beste-Antwort-Phase verfügbar. Beispielhafte Ausführungsformen der analytischen Erkennungsoperation 320 werden nachstehend unter Bezugnahme auf die 7 und 8 beschrieben.
Die Vereinigungsphase erzeugt das finale beste Antwortresultat aus Alternativen in der analytischen ASCII-Wortantwortliste 328 und der holistischen ASCII-Wortantwortliste 311. Die Vereinigungsoperation 330 kombiniert die ASCII-Antworten aus der holistischen Antwortliste 311 und der analytischen Antwortliste 328. Aus dieser kombinierten Information detektiert die Finden-Operation 332 die beste Wortantwort als Treffer für das eingegebene Wortbild. Nachdem die beste Antwort bestimmt worden ist, erfolgt Rücksprung des Operationsflusses zum Hauptprogramm. Die Vereinigungs- oder Beste-Antwort-Phase wird nachfolgend im einzelnen in zwei verschiedenen Ausführungsformen gemäß den 5 und 6 beschrieben.
4 zeigt mehr im einzelnen die Operationen des Übersetzungsmoduls 306. Die Operationen des Übersetzungsmoduls beginnen mit der Plazierungsoperation 402, wobei Zeichenmerkmale an dem digitalisierten Wortbild lokalisiert werden. Die Plazierungsoperation 402 empfängt das digitalisierte Wortbild 404 und die segmentierte Zeichenmerkmalsliste 316. Das digitalisierte Wortbild kann als elektronisches Bild des ursprünglich eingegebenen Worts betrachtet werden, das als Gitter aus binären Bildelementen (pels) digitalisiert ist. Die segmentierte Zeichenmerkmalsliste 316 enthält die segmentierten Zeichenmerkmale einer holistischen Wortantwort, wie oben in 3 beschrieben wurde, und enthält außerdem den Ort jedes Zeichenmerkmals in dem Wortbild. Dieser Ort wird durch die Merkmalserkennungsoperation 304 in 3 bestimmt und ist in der Merkmalsliste 312 ebenfalls in 3 enthalten. Daher lokalisiert die Plazierungsoperation 402 an dem digitalisierten Wortbild sämtliche Zeichenmerkmale in dem Wortbild. Wenn mit an deren Worten die Zeichenmerkmale Metastriche sind, wird der Ort jedes Metastrichs entlang dem Wortbild durch die Plazierungsoperation 402 bestimmt. Jeder der Metastriche in der Metastrichkette, der für das Wortbild identifiziert wird, wird an der richtigen Stelle entlang dem digitalisierten Wortbild plaziert.
Nachdem die Metastriche an dem Wortbild richtig plaziert sind, beginnt die Fülloperation 406 damit, gleichzeitig sämtliche Bildelemente entlang dem digitalisierten Wortbild zwischen sämtlichen Zeichenmerkmalen zu füllen. Tatsächlich werden die Bildelemente im Inneren des Zeichenbilds zwischen den Metastrichen ausgefüllt, indem beginnend vom Rand jedes Metastrichmerkmals von dem Merkmal nach außen fortgeschritten wird. Während das digitalisierte Wortbild aus jedem Metastrichmerkmal ausgefüllt wird, trifft die Füllung zwischen den zwei Merkmalen zusammen. Tatsächlich ist dies, als ob man das digitalisierte Bild ausmalen würde, um die leeren Stellen entlang dem digitalisierten Bild zwischen Metastrichmerkmalen auszufüllen. Wenn dieses Ausmalen mit konstanter Geschwindigkeit von sämtlichen Merkmalen gleichzeitig erfolgt, trifft die Füllung oder Ausmalung in der Mitte zwischen den Metastrichmerkmalen zusammen.
Die Fülldetektieroperation 408 detektiert Segmentierungspunkte zwischen Zeichen durch Detektieren des Punkts, an dem die Füllung zwischen Metastrichmerkmalen für die benachbarten Merkmale von benachbarten segmentierten Merkmalsmengen aufeinander trifft. Wenn mit anderen Worten zwei benachbarte Metastriche in verschiedenen Metastrichzeichen-Mengen vorhanden sind, dann wird der Treffpunkt zum Füllen des digitalisierten Bilds zwischen diesen benachbarten Metastrichen als ein Segmentierungspunkt zwischen den Zeichen detektiert, die durch die Metastrich-Mengen dargestellt sind. Nachdem jeder dieser Segmentierungspunkte zwischen den Zeichenmerkmals-Mengen bestimmt ist, trennt die Segmentoperation 410 das Wortbild an jedem der Segmentierungspunkte. Das Trennen des Wortbilds an den Segmentierungspunkten liefert die ausgeschnittenen Zeichenbilder 318, die in der analytischen Erkennungsphase für das Wort verwendet werden. Damit sind die Operationen des Übersetzungsmoduls 306 in 3 abgeschlossen.
5 zeigt eine Ausführungsform der Finden-Operation 110 oder der Vereinigungs- oder Beste-Antwort-Phase in 3. In 5 beginnt die Beste-Antwort-Operation mit der Operation 502, die Antworten von der analytischen Antwortliste und der holistischen Antwortliste vergleicht, um Übereinstimmungen zu finden. Wenn die gleiche Antwort auf beiden Listen ist, führt die Listenoperation 504 die passenden Antworten mit einem kombinierten Wert für ihren Konfidenzwert auf. Der kombinierte Wert kann einfach der Mittelwert der zwei Konfidenzwerte sein. Alternativ kann der Konfidenzwert in den Antworten auf jeder Liste gewichtet und kombiniert werden. Wenn eine Antwort nur auf einer Liste vorkommt, ist es möglich, diese Antwort dennoch der passenden Antwortliste hinzuzufügen, indem der der Antwort zugehörige Konfidenzwert mit einem zweiten Konfidenzwert null gemittelt oder der Konfidenzwert gewichtet wird, um die Tatsache zu reflektieren, daß er sich nur auf einer Liste befand. Bei außerordentlich hohen Konfidenzwerten für eine einzige Antwort kann dies immer noch eine signifikante Antwort auf der Antwortliste der passenden Antworten liefern.
Die Wähloperation 506 wählt dann die Antwort mit dem höchsten kombinierten oder gemittelten Konfidenzwert als eine beste Antwort aus den zwei Antwortlisten, d. h. der analytischen Antwortliste und der holistischen Antwortliste, aus. Diese beste Antwort wird durch die Antworttrenn-Entscheidungsoperation 508 geprüft. Die Entscheidungsoperation 508 prüft, ob die Differenz der Konfidenzwerte, d. h. ein Antworttrennwert, zwischen der Antwort mit dem höchsten kombinierten Konfidenzwert und der Antwort mit dem nächsten höchsten kombinierten Konfidenzwert größer als ein Grenzwert N ist. Wenn der Antworttrennwert größer als N ist, wird die beste Antwort durch Operation 510 akzeptiert. Wenn der Antworttrennwert kleiner als der Grenzwert N ist, verzweigt sich der Operationsablauf bei NEIN zu der Verwerfungsoperation 512, welche die Antwort verwirft und ein Fehlerflag setzt. Nachdem die beste Antwort entweder verworfen oder akzeptiert worden ist, erfolgt Rücksprung des Operationsflusses zum Hauptprogramm.
6 zeigt eine alternative Ausführungsform zum Finden der besten Antwort. In 6 beginnt die Operation mit der Abrufoperation 602 und der Abrufoperation 604. Die Abrufoperation 602 ruft die beste analytische Antwort aus der analytischen Antwortliste 108 (1) oder 328 (3) ab. Die beste Antwort auf jeder Liste ist die Antwort mit dem höchsten Konfidenzwert. Die Abrufoperation 604 ruft die beste holistische Antwort aus der holistischen Antwortliste 106 (1) oder 311 (3) ab. Die beste analytische Ant wort und die beste holistische Antwort werden der Wähloperation 606 zugeführt. Die Wähloperation 606 verwendet irgendeinen wohlbekannten Wahrscheinlichkeitsalgorithmus, um die analytische oder die holistische Antwort als die beste Antwort 608 zu wählen. Die beste Antwort plus ihr Konfidenzwert 608 sind das Resultat der Wähloperation 606.
In 7 ist der Operationsfluß für eine Ausführungsform eines analytischen Erkennungsmoduls 320 gezeigt. Der Fluß beginnt an einer Abrufoperation 702, die aus den Zeichenausschnitt-Bildern 318 für das zeichenmäßig segmentierte Wort (3) das erste Zeichenbild in der ersten segmentierten Wortsegmentierungshypothese des Wortbilds abruft. Dieses Zeichenbild wird mit einer neuronalen Zeichenerkennungsoperation 704 erkannt. Alle Varianten des Zeichens und des Konfidenzwerts bei der Erkennung jeder Variante werden in einer Zeichenvariantedaten-Datei 706 gesammelt. Die Prüfoperation 708 detektiert dann, ob es eine weitere Segmentierungshypothese für das erste Zeichen des Worts gibt. Wenn es eine weitere Hypothese gibt, verzweigt sich der Operationsfluß bei JA zurück zu der Abrufoperation 702, um das erste Zeichen der zweiten Hypothese abzurufen. Der Fluß verbleibt in dieser Schleife, bis alle Varianten aller ersten Zeichen für sämtliche Hypothesen erkannt und in der Zeichenvariantendatei 706 gespeichert worden sind.
Wenn sämtliche möglichen ersten Zeichen erkannt worden sind, verzweigt sich der Operationsfluß bei NEIN von der Testoperation 708 zu der Interpretationsoperation 710. Die Interpretationsoperation 710 verwendet die Wörter in dem Wörterbuch 326 (gleich wie Lexikon 326 in 3), um aus den Zeichenvarianten 706 die möglichen Antworten zu wählen. Jede Zeichenvariante, die in dem Vokabular kein Wort mit dem gleichen ersten Zeichen hat, wird verworfen. Diejenigen, die ein solches Wort haben, werden als das erste Zeichen in möglichen Antwortketten 328 verarbeitet. Wenn sämtliche Zeichen für sämtliche Hypothesen verarbeitet worden sind, sind die möglichen Antwortketten die analytischen Wortantwort-Antworten 328 (3).
Wenn alle ersten Zeichen interpretiert worden sind, fragt die Abfrageoperation, ob es mehr Zeichen in der Zeichenkette in den Zeichenausschnitt-Bildern 318 für das segmentierte Wort gibt. Wenn es mehr Zeichen gibt, verzweigt sich der Operationsfluß über JA zurück zu Operation 702, um das zweite Zeichen für die erste Segmentierungshypothese abzurufen. Die iterativen Abläufe werden fortgesetzt, bis alle Zeichen für sämtliche Hypothesen erkannt worden sind. Die Interpretationsoperation 710 verwendet die möglichen Antwortketten gemeinsam mit dem Vokabular, um mögliche Wortantworten zu finden. Wenn beispielsweise eine bestimmte Antwortkette für die ersten zwei Zeichen "qu" und die dritte Zeichenvariante "v" ist und das Wörterbuch keine Wörter enthält, die mit "quv" beginnen, dann wird die "v"-Variante für das dritte Zeichen verworfen und nicht verwendet. Wenn alle Zeichen und alle Segmentierungshypothesen verarbeitet sind, bilden die in der Datei 328 gesammelten möglichen Antwortketten die analytische ASCII-Wortantwortliste. Der Konfidenzwert für jede Antwort ist die Summe der Konfidenzwerte bei der Erkennung jedes Zeichens in der Antwort. Selbstverständlich könnten andere Konfidenzalgorithmen wie etwa eine Gewichtung der Erkennungs-Konfidenzwerte mit Werten aus dem Vokabular verwendet werden.
8 zeigt einen Operationsfluß für eine andere Ausführungsform für das analytische Erkennungsmodul 320 in 3. In 8 erkennt die neuronale Zeichenerkennung sämtliche möglichen Zeichenvarianten für sämtliche möglichen Segmentierungshypothesen auf der Basis der Ausschnittbilder von zeichenmäßig segmentierten Wörtern 318. Tatsächlich werden alle möglichen ASCII-Wörter (legitime oder anderweitige) in einer ASCII-Kandidatenwörterliste 804 gesammelt. Wenn die Prüfoperation 806 detektiert, daß alle möglichen Zeichenvarianten für alle möglichen Segmentierungshypothesen erkannt worden sind, wird das Wortfilter 808 aktiv und wählt legitime Wortantworten aus. Das Filter 808 verwendet das Wörterbuch 810, um der analytischen ASCII-Wortantwortliste 328 nur solche Kandidatenwörter aus der Liste 804 zu liefern, die ein Gegenwort in dem Wörterbuch 810 haben. Auch hier wird der Konfidenzwert auf die gleiche Weise bestimmt, wie das oben in bezug auf 7 erörtert wurde.
Es versteht sich für den Fachmann, daß es viele andere holistische Erkennungsoperationen und analytische Operationen gibt, welche die oben beschriebenen ersetzen könnten. Alles, was erforderlich ist, um die Erfindung zu verkörpern, ist, daß das holistische Erkennungsmodul fähig sein muß, für das eingegebene Wortbild Zeichensegmentierungsinformation zuliefern, so daß diese Segmentierungsinformation verwendet werden kann, um die Genauigkeit des analytischen Erkennungsmoduls zu steigern. Die Ergebnisse von bei den Erkennungsoperationen können dann geprüft werden, um die beste Antwort zu wählen.
Die Erfindung wurde zwar speziell unter Bezugnahme auf bevorzugte Ausführungsformen gezeigt und beschrieben, es versteht sich jedoch für den Fachmann, daß zahlreiche weitere Änderungen hinsichtlich Form und Einzelheiten vorgenommen werden können, ohne vom Umfang der Erfindung gemäß der Definition in den beigefügten Ansprüchen abzuweichen.

Claims

Vorrichtung zum Erkennen einer Zeichenkette handschriftlichen Texts in einem in ein Rechensystem geladenen Bild, wobei die Vorrichtung folgendes aufweist: eine holistische Erkennungseinrichtung (102) zum Erkennen der Zeichenkette als ein Ganzes und zum Erzeugen einer ersten Antwortliste (106) und einer Segmentierungsliste (103), wobei die erste Antwortliste (106) eine Vielzahl von Erkennungsantworten für die Zeichenkette in dem Bild enthält und jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist, und wobei die Segmentierungsliste (103) Segmentierungsinformation enthält, welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale trennt; eine analytische Erkennungseinrichtung (104), die auf die Segmentierungsliste (103) anspricht, um eine Vielzahl von Zeichen einzeln zu erkennen und eine zweite Antwortliste (108) für die Zeichenkette in dem Bild zu erzeugen, wobei jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist; und eine Einrichtung (110), die auf die erste Antwortliste (106) und die zweite Antwortliste (108) anspricht, um die beste Erkennungsantwort für die Zeichenkette zu finden.
Vorrichtung nach Anspruch 1, wobei die Zeichenkette eine Serie von alphanumerischen Zeichen und Zwischenräumen ist, die ein Wort, eine Folge von Wörtern, eine oder mehrere Zahlen oder ein Gemisch aus Wörtern, alphabetischen Zeichen und Zahlen bilden.
Vorrichtung nach einem der Ansprüche 1 oder 2, wobei die Einrichtung (110) zum Finden folgendes aufweist: eine Einrichtung (502) zum Gleichheitsprüfen von einer oder mehreren Erkennungsantworten der ersten Antwortliste (106) mit einer oder mehreren Erkennungsantworten der zweiten Antwortliste (108), um eines oder mehrere passende Antwortpaare (504) zu erzeugen, wobei jedes passende Antwortpaar (504) einen zugeordneten kombinierten Konfidenzwert hat; und eine Einrichtung (506) zum Bewerten des jedem passenden Antwortpaar (504) zugeordneten kombinierten Konfidenzwerts, um ein passendes Antwortpaar, das einen höchsten kombinierten Konfidenzwert hat, als die beste Erkennungsantwort zu bestimmen.
Vorrichtung nach einem der vorhergehenden Ansprüche, wobei der jedem passenden Antwortpaar zugeordnete kombinierte Konfidenzwert durch einen Mittelwert der Konfidenzwerte der Erkennungsantwort der ersten Antwortliste (106) und der Erkennungsantwort der zweiten Antwortliste (108) des passenden Antwortpaars (504) definiert ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die Einrichtung (110) zum Finden folgendes aufweist: eine Einrichtung (508) zum Testen des höchsten kombinierten Konfidenzwerts gegen einen dem höchsten Konfidenzwert nächstkommenden kombinierten Konfidenzwert, um einen Antworttrennwert zu definieren; und eine Einrichtung (512) zum Ablehnen des dem höchsten kombinierten Konfidenzwert zugeordneten passenden Wortpaars als beste Erkennungsantwort, wenn der Antworttrennwert kleiner als ein vorbestimmter Grenzwert ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die Einrichtung zum Finden folgendes aufweist: eine Einrichtung (602, 604) zum Bewerten eines höchsten Konfidenzwerts der ersten Antwortliste (106) und eines höchsten Konfidenzwerts der zweiten Antwortliste (108) gegenüber einem Wahrscheinlichkeitsalgorithmus (606), um die beste Erkennungsantwort (608) für die Zeichenkette zu erkennen.
Verfahren zum Erkennen einer Zeichenkette handgeschriebenen Texts in einem in ein Rechensystem geladenen Bild, wobei das Verfahren folgendes aufweist: Erkennen (102) der Zeichenkette als ein Ganzes und Erzeugen einer ersten Antwortliste (106) und einer Segmentierungsliste (103), wobei die erste Antwortliste (106) eine Vielzahl von Erkennungsantworten für die Zeichenkette in dem Bild enthält, wobei jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist, und wobei die Segmentierungsliste (103) Segmentierungsinformation enthält, welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale trennt; Bereitstellen der Segmentierungsliste (103) an eine analytische Erkennungseinrichtung (104) zum individuellen Erkennen einer Vielzahl von Zeichen und zum Erzeugen einer zweiten Antwortliste (108) für die Zeichenkette in dem Bild, wobei jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist; und Finden der besten Erkennungsantwort für die Zeichenkette als Reaktion (110) auf die erste Antwortliste (106) und die zweite Antwortliste (108).
Verfahren nach Anspruch 7, wobei die Operation der Erzeugung einer holistischen Wortantwort folgendes aufweist: Aufteilen (304) des Wortbilds in eine Vielzahl von Zeichenmerkmalen; Vergleichen (308) jedes Zeichenmerkmals mit einem von einer Vielzahl von Zeichenmerkmal-Prototypen; Erzeugen (311) einer Vielzahl von möglichen holistischen Wortantworten, die jeweils einem Konfidenzwert zugeordnet sind, der einem Grad der Ähnlichkeit zwischen der Vielzahl von Zeichenmerkmalen für das Wortbild und der Vielzahl von Zeichenmerkmal-Prototypen für jede mögliche holistische Wortantwort entspricht, Kompilieren der Vielzahl von möglichen holistischen Wortantworten und von zugehörigen Konfidenzwerten in einer holistischen Antwortliste (106); und Auswählen aus der holistischen Antwortliste (106) einer möglichen holistischen Wortantwort, die einen höchsten Konfidenzwert hat, als die holistische Wortantwort.
Verfahren nach einem der Ansprüche 7 oder 8, wobei die Operation des Erzeugens einer analytischen Wortantwort folgendes aufweist: Empfangen des Wortbildes als eine Vielzahl von Zeichenbildern; Definieren jedes Zeichenbildes als ein Zeichen; Erzeugen (328) einer Vielzahl von möglichen analytischen Wortantworten, wobei jede mögliche analytische Wortantwort einen Konfidenzwert hat, der auf einem Zeichenerkennungs-Konfidenzwert jedes Zeichens in der möglichen analytischen Wortantwort basiert; und Kompilieren der Vielzahl von möglichen analytischen Wortantworten und zugehörigen Konfidenzwerten in einer analytischen Antwortliste (108); und Auswählen einer möglichen analytischen Wortantwort, die einen höchsten Konfidenzwert hat, aus der analytischen Antwortliste (108) als die analytische Wortantwort.
Verfahren nach einem der Ansprüche 7 bis 9, wobei die Operation des Findens (110) folgendes aufweist: Vergleichen (502) von einer oder mehreren möglichen holistischen Wortantworten mit einer oder mehreren möglichen analytischen Wortantworten, um eines oder mehrere passende Antwortpaare zu erzeugen; Kombinieren (504) der Konfidenzwerte der möglichen holistischen Wortantwort und der möglichen analytischen Wortantwort in jedem passenden Antwortpaar, um für jedes Paar einen kombinierten Konfidenzwert zu definieren; und Auswählen (506) des passenden Antwortpaars, das einen höchsten kombinierten Konfidenzwert hat, als die Interpretation des handschriftlichen Wortes.
Verfahren nach einem der Ansprüche 7 bis 10, wobei die Operation des Erzeugens einer holistischen Wortantwort ferner folgendes aufweist: Aufteilen (304) der holistischen Wortantwort in eine Vielzahl von Zeichenmerkmalsmengen, wobei jede Zeichenmerkmalsmenge einem Zeichen der holistischen Wortantwort zugeordnet ist; und Aufteilen jeder Zeichenmerkmalsmenge in eine Vielzahl von segmentierten Merkmalen (316).
Verfahren nach einem der Ansprüche 7 bis 11, das ferner folgendes aufweist: Lokalisieren (402) der segmentierten Merkmale in dem Wortbild; Ausfüllen (406) des Wortbildes zwischen den segmentierten Merkmalen, um eine Kette von miteinander verbundenen Zeichenbildern zu definieren; Definieren (408) von einem oder mehreren hypothetischen Segmentierungspunkten zwischen benachbarten Zeichenmerkmalsmengen an der Kette von miteinander verbundenen Zeichenbildern; und Trennen (410) der Kette von miteinander verbundenen Zeichenbildern in eine Vielzahl von Zeichenbildern an den hypothetischen Segmentierungspunkten.
Verfahren nach einem der Ansprüche 7 bis 12, wobei die Operation des Erzeugens einer analytischen Wortantwort ferner folgendes aufweist: Empfangen einer Vielzahl von Zeichenbildern; Erkennen (704) jedes Zeichenbilds als zu einem Zeichen gehörend; Sammeln (706) von einer oder mehreren Zeichenvarianten, die jedem von der Vielzahl von Zeichenbildern zugeordnet sind; Speichern der zu jedem von der Vielzahl von Zeichenbildern gehörenden Zeichenvarianten; Vergleichen (710) der jedem Zeichenbild zugeordneten Zeichenvarianten mit einem Lexikon von Wörtern in einem Wörterbuch auf der Basis der der Zeichenvariante zugeordneten Zeichenposition; Verwerfen jeder Zeichenvariante, die kein Zeichen in einem Wort in dem Wörterbuch bildet, wenn sie in dem Wortbild an der der Zeichenvariante zugeordneten Zeichenposition angeordnet wird; und Aufbauen der Vielzahl von möglichen analytischen Wortantworten mit den Zeichenvarianten, die einem Wort in dem Wörterbuch zugeordnet sind.