DE60217299T2 - Holistisch-analytische erkennung von handgeschriebenem text - Google Patents

Holistisch-analytische erkennung von handgeschriebenem text Download PDF

Info

Publication number
DE60217299T2
DE60217299T2 DE60217299T DE60217299T DE60217299T2 DE 60217299 T2 DE60217299 T2 DE 60217299T2 DE 60217299 T DE60217299 T DE 60217299T DE 60217299 T DE60217299 T DE 60217299T DE 60217299 T2 DE60217299 T2 DE 60217299T2
Authority
DE
Germany
Prior art keywords
character
answer
word
response
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60217299T
Other languages
English (en)
Other versions
DE60217299D1 (de
Inventor
Alexander Longmont FILATOV
Igor Boulder KIL
Arseni Longmont SEREGIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parascript Niwot LLC
Parascript LLC
Original Assignee
Parascript Niwot LLC
Parascript LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parascript Niwot LLC, Parascript LLC filed Critical Parascript Niwot LLC
Publication of DE60217299D1 publication Critical patent/DE60217299D1/de
Application granted granted Critical
Publication of DE60217299T2 publication Critical patent/DE60217299T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft die Erkennung von handschriftlichen Textbildern in einem Rechensystem zur Bildung von Texteingabeinformation in das Rechensystem. Speziell betrifft die Erfindung sowohl holistische als auch analytische Erkennungsoperationen, die zusammenarbeiten, um eine zuverlässigere Erkennung der Textbilder durchzuführen.
  • Hintergrund der Erfindung
  • Das Gebiet der Erkennung handschriftlichen Texts ist von Interesse aufgrund zahlreicher gewerblicher Anwendungen in Offline-Erkennungssystemen wie dem Sortieren von Post, dem Lesen von Bankschecks und Formularen sowie in Online-Erkennungssystemen wie der Eingabe in einen Kontaktbildschirm mit einer Schreibnadel in alle Arten von Rechensystemen, aber speziell in Laptop-, Tablett- oder Handrechensystemen. Siehe beispielsweise Robert K. Powalka, "An algorithm toolbox for on-line cursive script recognition", Doctoral Thesis, XP- 002211843,
    <http:/ /citeseer.nj.nec.com/rd/70348799%2C209471%2C1%2CO.25%2CDownload/http :citeseer.nj.nec.com/compress/0/papers/cs/8855/http:zSzzSzwww.doc.ntu.ac.ukzSz {ink datazSzrkpzSzthesis.main.ps.gz/an-algorithm-toolbox-for.ps>, S. 1-286 (Oktober 1995); und B. Plessis et al., "A multi-classifier combination strategy for the recognition of handwritten cursive words," DOCUMENT ANALYSIS AND RECOGNITION, PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON TSUKUBA SCIENCE CITY, JAPAN, S. 642-645 (Oktober 1993), die beide Zeichenerkennungssysteme beschreiben.
  • Die Hauptschwierigkeiten bei der Erkennung von handschriftlichem oder kursivem Text sind wohlbekannt – Zeichen in den Wörtern sind häufig miteinander verbunden, und die Veränderlichkeit von Zeichenformen ist hoch. Es gibt auf dem Gebiet der Handschrifterkennung zwei Hauptstrategien. Diese sind die holistische Erkennung und die analytische Erkennung. Bei der holistischen Erkennung wird eine Kette von Zeichen wie etwa ein Wort oder ein Satz als ein Ganzes erkannt, ohne daß der Erkennungsvorgang eine Einzelzeichen-Erkennungsphase hat. Bei der analytischen Erkennung wird eine Zeichenkette zuerst in Zeichen segmentiert und dann Zeichen für Zeichen erkannt, um das Wort oder den Satz zu erkennen.
  • Der wesentliche Vorteil der holistischen Erkennung liegt darin, daß dabei die Segmentierungsphase vermieden wird und dementsprechend Segmentierungsfehler vermieden werden. Beispielsweise beginnt die holistische Erkennung eines Worts mit einer Darstellung des Worts, die durch Extraktion von Merkmalen der Kursivschrift wie etwa von Strichen, die bei der Bildung von Teilen eines Zeichens verwendet werden, kreiert wird. Diese extrahierten Merkmale in der Wortdarstellung werden dann mit Merkmalsdarstellungen für Wörter aus einem Lexikon aller Wörter in einem Referenzvokabular verglichen. Der wesentliche Nachteil einer holistischen Vorgehensweise besteht darin, daß es unmöglich ist, eine detaillierte Zeichengestalt zu berücksichtigen. Das führt zu einer signifikanten Verschlechterung von Erkennungsresultaten bei sehr großen Lexika.
  • Der Hauptvorteil der analytischen Erkennung ist die Verfügbarkeit von wohlbekannten und hochentwickelten Zeichenerkennungstechniken. Es gibt jedoch in dem Erkennungsprozeß eine Segmentierungsphase, und das Problem liegt darin, daß fehlerhafte Segmentierungsentscheidungen zu einer unrichtigen Erkennung von Zeichen und damit des Worts führen. Der Segmentierungsalgorithmus kann viele fehlerhafte Varianten für Zeichen erzeugen, die auf dem Bereich des Zeichenbilds basieren, in dem die Segmentierungsentscheidung getroffen wird. Daher ist der Hauptnachteil dieser Vorgehensweise, daß die genaue Erkennung von der richtigen Segmentierung abhängig ist, und die richtige Segmentierung ist wegen der Vielseitigkeit von Kursivschriftarten schwierig.
  • Die vorliegende Erfindung wurde im Hinblick auf diese und andere Bedingungen gemacht.
  • Zusammenfassung der Erfindung
  • Gemäß der vorliegenden Erfindung werden die oben angegebenen und weitere Probleme durch die Vorrichtung nach Anspruch 1 und das entsprechende Verfahren nach Anspruch 7 gelöst. Eine Vorrichtung zum Erkennen einer Zeichenkette handschriftlichen Texts in einem in ein Rechensystem geladenen Bild wird angegeben. Die Vorrichtung weist folgendes auf:
    eine holistische Erkennungseinrichtung zum Erkennen der Zeichenkette als ein Ganzes und zum Erzeugen einer ersten Antwortliste und einer Segmentierungsliste, wobei die erste Antwortliste eine Vielzahl von Erkennungsantworten für die Zeichenkette in dem Bild enthält und jede Antwort einen Konfidenzwert dahingehend hat, daß die Antwort richtig ist, und wobei die Segmentierungsliste Segmentierungsinformation enthält, welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale trennt.
  • Weitere analytische Erkennungseinrichtungen, die auf die Segmentierungsliste reagieren, sind vorgesehen, um eine Vielzahl von Zeichen einzeln zu erkennen und eine zweite Antwortliste für die Zeichenkette in dem Bild zu erzeugen; dabei hat jede Antwort einen Konfidenzwert dahingehend, daß die Antwort richtig ist.
  • Eine Einrichtung, die auf die erste Antwortliste und die zweite Antwortliste anspricht, findet die beste Erkennungsantwort für die Zeichenkette.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt eine Ausführungsform der Erfindung, wobei das holistische Erkennungsmodul Segmentierungsinformation zu dem analytischen Erkennungsmodul leitet;
  • 2 zeigt eine Rechenumgebung, in der die verschiedenen Ausführungsformen der Erfindung wirksam sein können;
  • 3 zeigt eine andere Ausführungsform der Erfindung mit dem Operationsfluß für eine holistische Erkennungsphase, eine hypothetische Segmentierungsphase, eine analytische Erkennungsphase und die Kombinationsphase, um die beste Antwort zu finden;
  • 4 zeigt den Operationsfluß für die Übersetzungsoperation 306 in 3;
  • 5 zeigt den Operationsfluß für die Kombinations- oder Beste-Antwort-Phase in den 1 und 3;
  • 6 zeigt den Operationsfluß für eine andere Ausführungsform der Beste-Antwort-Phase in den 1 und 3;
  • 7 zeigt den Operationsfluß für die analytische Erkennungsoperation 320 in 3; und
  • 8 zeigt den Operationsfluß für eine andere Ausführungsform der analytischen Erkennungsoperation 320 in 3.
  • Genaue Beschreibung bevorzugter Ausführungsformen
  • Die logischen Operationen der verschiedenen Ausführungsformen der vorliegenden Erfindung sind realisiert (1) als eine Folge von computer-implementierten Schritten, die auf einem Rechensystem ablaufen, und/oder (2) als miteinander verbundene logische Maschinenmodule innerhalb des Rechensystems. Die Realisierung ist eine Frage der Wahl in Abhängigkeit von den Leistungsanforderungen des die Erfindung implementierenden Rechensystems. Daher werden die logischen Operationen, welche die hier beschriebenen Ausführungsformen der vorliegenden Erfindung bilden, unterschiedlich als Operationen, Schritte oder Module bezeichnet.
  • Bei einer Ausführungsform der Erfindung, die in 1 gezeigt ist, liefert ein Bildlademodul 100 eine digitalisierte Darstellung einer eingegebenen Zeichenkette, die zu erkennen ist. Die Zeichenkette ist im typischsten Fall ein Wort, kann aber eine Vielzahl von Wörtern sein, die einen Satz bilden. Die Zeichenkette besteht aus alphanumerischen Zeichen und kann daher in einem Satz als Zahlen und Wörter gemischt sein. "Wort" wird zwar durchweg verwendet, um eine zu erkennende Zeichenkette zu bezeichnen, es versteht sich jedoch, daß die Zeichenkette eine Mischung aus alphanumerischen Zeichen, eine Vielzahl von Wörtern oder ein Satz sein kann.
  • Das digitalisierte Bild des Worts wird einem holistischen Erkennungsmodul 102 und einem analytischen Erkennungsmodul 104 zugeführt. Das holistische Erkennungsmodul 102 ist an dem gesamten Wort wirksam, um das Wort als ein Ganzes zu erkennen. Dies erfolgt durch Aufteilen des Worts in Zeichenmerkmale und Treffen einer Entscheidung bei Erkennen des gesamten Worts auf der Basis der Zeichenkettenmerkmale. Ein Zeichenmerkmal kann in Abhängigkeit von der angewandten holistischen Erkennungstechnik aus verschiedenen Informationselementen eines Zeichens bestehen. Ein Beispiel einer holistischen Erkennungstechnik ist beschrieben in der US-PS 5 313 527 mit dem Titel METHOD AND APPARATUS FOR RECOGNIZING CURSIVE WRITING FROM A SEQUENTIAL INPUT INFORMATION, Erfinder S.A. Guberman, Ilia Lossev und Alexander V. Pashintsev. In dieser speziellen Patentschrift werden die Zeichenmerkmale als Metastriche bezeichnet, d. h. als ein Strich, der einen Teil eines Zeichens bildet.
  • Das holistische Erkennungsmodul 102 bildet ferner eine Segmentierungsliste 103, welche den Segmentierungspunkt zwischen dem Ende eines Zeichens oder Buchstabens und dem Beginn des nächsten Zeichens oder Buchstabens bezeichnet. Die Segmentierung ist zwar nicht Teil des holistischen Erkennungsvorgangs, aber eine durch die holistische Erkennungsoperation erzeugte Antwort kann verwendet werden, um Segmentierungspunkte zwischen Zeichen zu definieren. Jede Antwort hat Mengen von Zeichenmerkmalen, die jedes Zeichen in der Antwort bilden, zu der das holistische Erkennungsmodul 102 gelangt ist. In dem Guberman-Patent können beispielsweise die Zeichen in einer Antwort mit einer Kette von Metastrichen assoziiert werden. Daher enthält die von dem holistischen Erkennungsmodul 102 erzeugte Antwort auch eine Menge an Metastrichen für jedes Zeichen in der holistischen Antwort. Somit erzeugt das holistische Erkennungsmodul 102 als Nebenprodukt eine Segmentierungsliste 103, die von dem analytischen Erkennungsmodul 104 zur Segmentierung des digitalen Bilds genutzt werden kann.
  • Das analytische Erkennungsmodul 104 verwendet die Segmentierungsliste für die Antworten in der holistischen Antwortliste 106, um das digitale Bild in Zeichenbilder aufzuteilen. Diese Zeichenbilder können dann durch eine Zeichenbilderkennungsoperation erkannt werden, die auch als Zeichenklassifizierer bezeichnet wird. Während jedes Zeichen in einem Wort von dem analytischen Erkennungsmodul 104 erkannt wird, wird eine analytische Antwort für das Wort aufgebaut, und ein Konfidenzwert in der Antwort wird dem Antwort-Wort zugewiesen. Diese analytischen Antwort-Wörter für verschiedene Segmentierungen des digitalen Bilds des Worts werden in der analytischen Antwortliste 108 gesammelt. Ein Beste-Antwort-Modul 110 übernimmt dann die analytische Wort-Antwortliste 108 und die holistische Wort-Antwortliste 106 und findet die beste Antwort bzw. die Antwort mit dem höchsten Konfidenzwert in der Liste. Es gibt eine Vielzahl von Techniken zum Finden der besten Antwort, und zwei derartige Techniken werden nachstehend unter Bezugnahme auf die 5 und 6 beschrieben.
  • 2 zeigt ein Beispiel einer geeigneten Rechensystemumgebung 200, in der die Erfindung implementiert werden kann. Die Rechensystemumgebung 200 ist nur ein Beispiel einer geeigneten Rechensystemumgebung und soll keine Einschränkung des Umfangs der Verwendung oder Funktionalität der Erfindung bedeuten. Ebenso soll die Rechenumgebung 200 nicht so interpretiert werden, als gäbe es irgendeine Abhängigkeit oder Anforderung in Verbindung mit irgendeiner Komponente oder Kombination von Komponenten, die in der beispielhaften Betriebsumgebung 200 gezeigt sind.
  • Die Erfindung kann mit zahlreichen anderen Universal- oder Spezial-Rechensystemumgebungen oder -konfigurationen funktionieren. Beispiele von wohlbekannten Rechensystemen, Umgebungen und/oder Konfigurationen, die zum Gebrauch mit der Erfindung geeignet sein können, umfassen – ohne eine Einschränkung zu bedeuten – Personalcomputer, Servercomputer, Hand- oder Slate-Vorrichtungen, Tabletteinrichtungen, Laptopeinrichtungen, Multiprozessorsysteme, mikroprozessor-basierte Systeme, Settopboxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Großrechner, verteilte Rechenumgebungen, die jedes der obigen Systeme oder Einrichtungen aufweisen können, und dergleichen.
  • In der einfachsten Konfiguration weist die Rechenvorrichtung 200 typischerweise wenigstens eine Verarbeitungseinheit 202 und einen Speicher 204 auf. Je nach der genauen Konfiguration und dem Typ der Rechenvorrichtung kann der Speicher 204 ein flüchtiger (etwa ein RAM), ein nichtflüchtiger (etwa ein ROM, Flash-Speicher usw.) oder eine Kombination der beiden Speicher sein. Diese Grundkonfiguration ist in 2 mittels der Strichlinie 206 angedeutet. Zusätzlich kann die Vorrichtung 200 weitere Merkmale/Funktionen haben. Beispielsweise kann die Vorrichtung 200 außerdem einen zusätzlichen Speicher (herausnehmbar und/oder fest eingebaut) aufweisen, was Magnet- oder Bildplatten oder ein Band sein kann, ohne darauf beschränkt zu sein. Solche zusätzlichen Speicher sind in 2 durch den entfernbaren Speicher 208 und den fest angeordneten Speicher 210 veranschaulicht.
  • Der Speicher 204, der entfernbare Speicher 208 und der fest angeordnete Speicher 210 sind sämtlich Beispiele für Speichermedien. Speichermedien für Computer umfassen flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Datenträger, die mit irgendeiner Methode oder Technologie für die Speicherung von Information wie etwa als computerlesbare Anweisungen, Datenstrukturen, Programmodule oder andere Daten implementiert sind. Speichermedien für Rechner umfassen RAM, ROM, EPROM, Flashspeicher oder andere Speichertechnologien, CD-ROM, DVD oder andere Bildspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere Magnetspeichereinrichtungen oder jedes andere Medium, das verwendbar ist, um die gewünschten Informationen zu speichern, und auf das die Einrichtung 200 zugreifen kann. Jeder derartige Datenträger kann ein Teil der Vorrichtung 200 sein.
  • Die Vorrichtung 20 kann außerdem Kommunikationsanschlüsse 212 enthalten, die der Vorrichtung die Kommunikation mit anderen Vorrichtungen ermöglichen. Die Kommunikationsanschlüsse 212 sind ein Beispiel für Kommunikationsmittel. Kommunikationsmittel verkörpern typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmodule oder andere Daten in einem modulierten Datensignal wie etwa einer Trägerwelle oder einem anderen Transportmechanismus und umfassen jedes Informationstransportmedium. Der Ausdruck "moduliertes Datensignal" bedeutet ein Signal, bei dem eine oder mehrere seiner Eigenschaften auf solche Weise vorgegeben oder geändert sind, daß in dem Signal Information codiert ist. Beispielsweise und ohne Einschränkung umfassen Kommunikationsmittel verdrahtete Mittel wie ein verdrahtetes Netz oder einen direktverdrahteten Anschluß sowie drahtlose Mittel wie akustische, HF-, Infrarot- und andere drahtlose Mittel. Der Ausdruck computerlesbare Medien oder Computerprogrammprodukt bedeutet im vorliegenden Zusammenhang sowohl Datenträger als auch Kommunikationsmittel.
  • Die Vorrichtung 200 kann auch Eingabeeinrichtungen 214 wie eine Tastatur, eine Maus, einen Stift, eine Spracheingabeeinrichtung, eine Berührungseingabeeinrichtung, Dokumentenscanner usw. haben. Ausgabeeinrichtungen 216 wie ein Display, Lautsprecher, ein Drucker, elektromechanische Einrichtungen wie Dokumentenbearbeiter, die von der Vorrichtung 200 gesteuert werden, können ebenfalls vorgesehen sein. All diese Einrichtungen sind im Stand der Technik wohlbekannt und brauchen hier nicht näher erörtert zu werden. Die mit der Rechenvorrichtung 200 zusammenarbeitende spezielle Eingabe-/Ausgabeeinrichtung ist abhängig von der Anwendung, in der das Erkennungssystem arbeitet, und davon, ob das Erkennungssystem offline oder online mit zu erkennenden kursiven Bildern arbeitet.
  • Unter Berücksichtigung der Rechenumgebung ist in 3 eine andere Ausführungsform der Erfindung gezeigt. Bei dieser Ausführungsform ist die kombinierte holistische/analytische Erkennungstechnik in eine holistische Phase, eine Segmentierungsphase, eine analytische Phase und eine Kombinationsphase aufgeteilt. Auch hier wird ein Bild eines Worts in das Rechensystem durch die Ladeoperation 302 geladen. Das Bild kann durch Scannen eines handschriftlichen Dokuments oder durch Detektieren eines Worts, das mit einer Schreibnadel an einem Tastbildschirm eingegeben wird, geladen werden. Der Ladevorgang 302 digitalisiert das kursive Wortbild und leitet es weiter zu dem Merkmalerkennungsmodul 304 und dem Übersetzungsmodul 306. Das Merkmalerkennungsmodul 304 zerlegt das Wortbild in Zeichenmerkmale, d. h. Teile eines Zeichens, die zum Erkennen des Worts genutzt werden können. Daher ist die Ausgabe des Merkmalerkennungsmoduls 304 eine Kette von Zeichenmerkmalen für das Gesamtwort oder, im Fall des Patents von Guberman et al., eine Kette von Metastrichen.
  • Bei der Vergleichsoperation 308 wird die Kette von eingegebenen Zeichenmerkmalen aus der Merkmalsliste 312 mit Zeichenmerkmal-Prototypen für Wörter in einem Vokabular verglichen, das von einem Universallexikon 310 bereitgestellt wird. Das Lexikon oder Wörterbuch 310 kann auf ein erwartetes Vokabular für die zu erkennenden eingegebenen Wörter zugeschnitten sein. Die Wörter in dem Lexikon sind in Form von ASCII-Zeichen gespeichert. Die Wörter in ASCII-Zeichenform aus dem Lexikon 310 werden durch die Umwandlungsoperation 309 in eine Kette von Zeichenmerkmal-Prototypen umgewandelt. Eine Vielzahl von Mengen von Zeichenmerkmal-Prototypen für verschiedene Formen bzw. Gestalten jedes ASCII-Zeichens sind als Zeichenmerkmal-Prototypen 307 gespeichert. Die Umwandlungsoperation 309 ruft für jedes Zeichen in einem Wort aus dem Lexikon 310 ein oder mehr Mengen von Zeichenmerkmals-Prototypen ab und führt die Kette von Zeichenmerkmals-Prototypen für das Referenzwort der Vergleichsoperation 308 zu. Wenn die Zeichenmerkmale Metastriche sind, wird eine Prototyp-Kette von Metastrichen mit der eingegebenen Kette von Metastrichen für das eingegebene Wort verglichen, die von der Erkennungsoperation 304 empfangen wurden.
  • Die Vergleichstechnik ist im einzelnen in der Patentschrift 5 313 527 von Guberman et al. beschrieben. Das Resultat der Vergleichsoperation 308 ist eine Liste von holistischen ASCII-Wortantworten für sämtliche möglichen Übereinstimmungen zwischen dem zu erkennenden eingegebenen Wort und den verschiedenen möglichen Wortvariationen in dem im Lexikon 310 gespeicherten Vokabular. Jede dieser Wortantworten trägt einen Konfidenzwert, der ein Maß für die Gleichheit zwischen den das eingegebene Wort darstellenden Metastrichen und den Metastrichen ist, die das Referenzwort aus dem Vokabular bilden.
  • Nach der Vergleichsoperation für jede Antwort ist es möglich, eine Merkmalsliste von segmentierten Zeichen zu konstruieren. Die Konstruktionsoperation umfaßt eine Zurückverfolgungsoperation 313 und eine Lokalisierungsoperation 314. Die Zurückverfolgungsoperation 313 verfolgt die Entscheidungsoperationen zurück, die durch die Vergleichsoperation 308 beim Vergleichen der Metastrichketten durchgeführt wurden. Während des Verfolgens der Entscheidungen assoziiert die Zurückverfolgungsoperation 313 jeden eingegebenen Metastrich mit einem entsprechenden Metastrich-Prototyp. Die Entscheidungsoperationen können grafisch als ein Vergleichsweg durch eine grafische Vergleichsmatrix dargestellt werden, wogegen in dem Patent von Guberman et al. die Vergleichsgrafikoordinaten die Metastrich-Prototypen und die eingegebenen Metastriche sind. Diese Vergleichstechnik und die Vergleichsgrafik sind auch in einem Artikel "Handwritten Word Recognition – The Approach Proved by Practice" von G. Dzuba, A. Filatov, D. Gershuny und I. Kil beschrieben (Proceedings IWFHR-VI, 12.-14. August 1998, Taejon, Korea, S. 99-111). Eine Vergleichsentscheidung, die den Erkennungsprozeß in der Vergleichsgrafik vorwärts bewegt, ist eine Bewegung diagonal durch die Grafik. Jede dieser Diagonalbewegungen erkennt effektiv eine Übereinstimmung zwischen einem eingegebenen Metastrich und einem Metastrich-Prototyp.
  • Die Lokalisierungsoperation 314 lokalisiert dann die Zeichensegmentierungspunkte zwischen eingegebenen Metastrichen aus der Übereinstimmung der eingegebenen Metastriche und der Metastrich-Prototypen. Da die Zeichensegmentierungsstellen zwischen Metastrichen für die Kette von Metastrich-Prototypen bekannt sind, wird diese Information auf die Übereinstimmung zwischen den eingegebenen Metastrichen und den Metastrich-Prototypen angewandt, um die Segmentierungspunkte in der Kette von eingegebenen Metastrichen zu detektieren. Somit gibt die Lokalisierungsoperation 314 die segmentierte Zeichenmerkmalsliste 316 aus, die für jede Antwort in der holistischen Antwortliste 311 eine Kette von Zeichenmerkmalen hat, und Merkmale sind für jedes Zeichen in der Antwort in Zeichenmengen segmentiert.
  • In der Segmentierungsphase wird die segmentierte Zeichenmerkmalsliste 316 verwendet zur Bildung verschiedener Segmentierungshypothesen für das zu erkennende Wortbild. Das Übersetzungsmodul 306 empfängt die segmentierte Zeichenmerkmalsliste 316 und das digitalisierte Wortbild. Tatsächlich empfängt das Übersetzungsmodul 306 eine Segmentierungshypothese für das Wortbild auf der Basis der lokalisierten Segmentierungspunkte in der segmentierten Zeichenmerkmalsliste 316. Für jede Segmentierungshypothese, die von der segmentierten Merkmalsliste 316 empfangen wird, trennt oder segmentiert das Übersetzungsmodul 306 das digitalisierte Bild an diesem hypothetischen Segmentierungspunkt zwischen Zeichen in dem digitalen Bild, um für das in Zeichen segmentierte Wort 318 Zeichenausschnittbilder zu kreieren. Diese Zeichenausschnitt-Wortbilder werden dann in der analytischen Phase der analytischen Erkennungseinrichtung 320 zugeführt. Eine Ausführungsform des Übersetzungsmoduls 306 wird nachstehend unter Bezugnahme auf 4 beschrieben.
  • In der analytischen Phase wird jedes Zeichenbild, das aus dem Wortbild ausgeschnitten ist, durch die analytische Erkennungsoperation 320 erkannt. Auf der Basis der verschiedenen Segmentierungshypothesen werden in der Operation 320 verschiedene ASCII-Zeichen als mit den Zeichen in dem Wortbild übereinstimmend erkannt. Die analytische Erkennungsoperation 320 erzeugt eine analytische ASCII-Wortantwort mit einem Konfidenzwert für die Antwort. Der Konfidenzwert repräsentiert den kombinierten Konfidenzwert bei der Erkennung aller Zeichen in der Antwort. Diese analytischen ASCII-Wortantworten 328 sind dann für die Vereinigungs- oder Beste-Antwort-Phase verfügbar. Beispielhafte Ausführungsformen der analytischen Erkennungsoperation 320 werden nachstehend unter Bezugnahme auf die 7 und 8 beschrieben.
  • Die Vereinigungsphase erzeugt das finale beste Antwortresultat aus Alternativen in der analytischen ASCII-Wortantwortliste 328 und der holistischen ASCII-Wortantwortliste 311. Die Vereinigungsoperation 330 kombiniert die ASCII-Antworten aus der holistischen Antwortliste 311 und der analytischen Antwortliste 328. Aus dieser kombinierten Information detektiert die Finden-Operation 332 die beste Wortantwort als Treffer für das eingegebene Wortbild. Nachdem die beste Antwort bestimmt worden ist, erfolgt Rücksprung des Operationsflusses zum Hauptprogramm. Die Vereinigungs- oder Beste-Antwort-Phase wird nachfolgend im einzelnen in zwei verschiedenen Ausführungsformen gemäß den 5 und 6 beschrieben.
  • 4 zeigt mehr im einzelnen die Operationen des Übersetzungsmoduls 306. Die Operationen des Übersetzungsmoduls beginnen mit der Plazierungsoperation 402, wobei Zeichenmerkmale an dem digitalisierten Wortbild lokalisiert werden. Die Plazierungsoperation 402 empfängt das digitalisierte Wortbild 404 und die segmentierte Zeichenmerkmalsliste 316. Das digitalisierte Wortbild kann als elektronisches Bild des ursprünglich eingegebenen Worts betrachtet werden, das als Gitter aus binären Bildelementen (pels) digitalisiert ist. Die segmentierte Zeichenmerkmalsliste 316 enthält die segmentierten Zeichenmerkmale einer holistischen Wortantwort, wie oben in 3 beschrieben wurde, und enthält außerdem den Ort jedes Zeichenmerkmals in dem Wortbild. Dieser Ort wird durch die Merkmalserkennungsoperation 304 in 3 bestimmt und ist in der Merkmalsliste 312 ebenfalls in 3 enthalten. Daher lokalisiert die Plazierungsoperation 402 an dem digitalisierten Wortbild sämtliche Zeichenmerkmale in dem Wortbild. Wenn mit an deren Worten die Zeichenmerkmale Metastriche sind, wird der Ort jedes Metastrichs entlang dem Wortbild durch die Plazierungsoperation 402 bestimmt. Jeder der Metastriche in der Metastrichkette, der für das Wortbild identifiziert wird, wird an der richtigen Stelle entlang dem digitalisierten Wortbild plaziert.
  • Nachdem die Metastriche an dem Wortbild richtig plaziert sind, beginnt die Fülloperation 406 damit, gleichzeitig sämtliche Bildelemente entlang dem digitalisierten Wortbild zwischen sämtlichen Zeichenmerkmalen zu füllen. Tatsächlich werden die Bildelemente im Inneren des Zeichenbilds zwischen den Metastrichen ausgefüllt, indem beginnend vom Rand jedes Metastrichmerkmals von dem Merkmal nach außen fortgeschritten wird. Während das digitalisierte Wortbild aus jedem Metastrichmerkmal ausgefüllt wird, trifft die Füllung zwischen den zwei Merkmalen zusammen. Tatsächlich ist dies, als ob man das digitalisierte Bild ausmalen würde, um die leeren Stellen entlang dem digitalisierten Bild zwischen Metastrichmerkmalen auszufüllen. Wenn dieses Ausmalen mit konstanter Geschwindigkeit von sämtlichen Merkmalen gleichzeitig erfolgt, trifft die Füllung oder Ausmalung in der Mitte zwischen den Metastrichmerkmalen zusammen.
  • Die Fülldetektieroperation 408 detektiert Segmentierungspunkte zwischen Zeichen durch Detektieren des Punkts, an dem die Füllung zwischen Metastrichmerkmalen für die benachbarten Merkmale von benachbarten segmentierten Merkmalsmengen aufeinander trifft. Wenn mit anderen Worten zwei benachbarte Metastriche in verschiedenen Metastrichzeichen-Mengen vorhanden sind, dann wird der Treffpunkt zum Füllen des digitalisierten Bilds zwischen diesen benachbarten Metastrichen als ein Segmentierungspunkt zwischen den Zeichen detektiert, die durch die Metastrich-Mengen dargestellt sind. Nachdem jeder dieser Segmentierungspunkte zwischen den Zeichenmerkmals-Mengen bestimmt ist, trennt die Segmentoperation 410 das Wortbild an jedem der Segmentierungspunkte. Das Trennen des Wortbilds an den Segmentierungspunkten liefert die ausgeschnittenen Zeichenbilder 318, die in der analytischen Erkennungsphase für das Wort verwendet werden. Damit sind die Operationen des Übersetzungsmoduls 306 in 3 abgeschlossen.
  • 5 zeigt eine Ausführungsform der Finden-Operation 110 oder der Vereinigungs- oder Beste-Antwort-Phase in 3. In 5 beginnt die Beste-Antwort-Operation mit der Operation 502, die Antworten von der analytischen Antwortliste und der holistischen Antwortliste vergleicht, um Übereinstimmungen zu finden. Wenn die gleiche Antwort auf beiden Listen ist, führt die Listenoperation 504 die passenden Antworten mit einem kombinierten Wert für ihren Konfidenzwert auf. Der kombinierte Wert kann einfach der Mittelwert der zwei Konfidenzwerte sein. Alternativ kann der Konfidenzwert in den Antworten auf jeder Liste gewichtet und kombiniert werden. Wenn eine Antwort nur auf einer Liste vorkommt, ist es möglich, diese Antwort dennoch der passenden Antwortliste hinzuzufügen, indem der der Antwort zugehörige Konfidenzwert mit einem zweiten Konfidenzwert null gemittelt oder der Konfidenzwert gewichtet wird, um die Tatsache zu reflektieren, daß er sich nur auf einer Liste befand. Bei außerordentlich hohen Konfidenzwerten für eine einzige Antwort kann dies immer noch eine signifikante Antwort auf der Antwortliste der passenden Antworten liefern.
  • Die Wähloperation 506 wählt dann die Antwort mit dem höchsten kombinierten oder gemittelten Konfidenzwert als eine beste Antwort aus den zwei Antwortlisten, d. h. der analytischen Antwortliste und der holistischen Antwortliste, aus. Diese beste Antwort wird durch die Antworttrenn-Entscheidungsoperation 508 geprüft. Die Entscheidungsoperation 508 prüft, ob die Differenz der Konfidenzwerte, d. h. ein Antworttrennwert, zwischen der Antwort mit dem höchsten kombinierten Konfidenzwert und der Antwort mit dem nächsten höchsten kombinierten Konfidenzwert größer als ein Grenzwert N ist. Wenn der Antworttrennwert größer als N ist, wird die beste Antwort durch Operation 510 akzeptiert. Wenn der Antworttrennwert kleiner als der Grenzwert N ist, verzweigt sich der Operationsablauf bei NEIN zu der Verwerfungsoperation 512, welche die Antwort verwirft und ein Fehlerflag setzt. Nachdem die beste Antwort entweder verworfen oder akzeptiert worden ist, erfolgt Rücksprung des Operationsflusses zum Hauptprogramm.
  • 6 zeigt eine alternative Ausführungsform zum Finden der besten Antwort. In 6 beginnt die Operation mit der Abrufoperation 602 und der Abrufoperation 604. Die Abrufoperation 602 ruft die beste analytische Antwort aus der analytischen Antwortliste 108 (1) oder 328 (3) ab. Die beste Antwort auf jeder Liste ist die Antwort mit dem höchsten Konfidenzwert. Die Abrufoperation 604 ruft die beste holistische Antwort aus der holistischen Antwortliste 106 (1) oder 311 (3) ab. Die beste analytische Ant wort und die beste holistische Antwort werden der Wähloperation 606 zugeführt. Die Wähloperation 606 verwendet irgendeinen wohlbekannten Wahrscheinlichkeitsalgorithmus, um die analytische oder die holistische Antwort als die beste Antwort 608 zu wählen. Die beste Antwort plus ihr Konfidenzwert 608 sind das Resultat der Wähloperation 606.
  • In 7 ist der Operationsfluß für eine Ausführungsform eines analytischen Erkennungsmoduls 320 gezeigt. Der Fluß beginnt an einer Abrufoperation 702, die aus den Zeichenausschnitt-Bildern 318 für das zeichenmäßig segmentierte Wort (3) das erste Zeichenbild in der ersten segmentierten Wortsegmentierungshypothese des Wortbilds abruft. Dieses Zeichenbild wird mit einer neuronalen Zeichenerkennungsoperation 704 erkannt. Alle Varianten des Zeichens und des Konfidenzwerts bei der Erkennung jeder Variante werden in einer Zeichenvariantedaten-Datei 706 gesammelt. Die Prüfoperation 708 detektiert dann, ob es eine weitere Segmentierungshypothese für das erste Zeichen des Worts gibt. Wenn es eine weitere Hypothese gibt, verzweigt sich der Operationsfluß bei JA zurück zu der Abrufoperation 702, um das erste Zeichen der zweiten Hypothese abzurufen. Der Fluß verbleibt in dieser Schleife, bis alle Varianten aller ersten Zeichen für sämtliche Hypothesen erkannt und in der Zeichenvariantendatei 706 gespeichert worden sind.
  • Wenn sämtliche möglichen ersten Zeichen erkannt worden sind, verzweigt sich der Operationsfluß bei NEIN von der Testoperation 708 zu der Interpretationsoperation 710. Die Interpretationsoperation 710 verwendet die Wörter in dem Wörterbuch 326 (gleich wie Lexikon 326 in 3), um aus den Zeichenvarianten 706 die möglichen Antworten zu wählen. Jede Zeichenvariante, die in dem Vokabular kein Wort mit dem gleichen ersten Zeichen hat, wird verworfen. Diejenigen, die ein solches Wort haben, werden als das erste Zeichen in möglichen Antwortketten 328 verarbeitet. Wenn sämtliche Zeichen für sämtliche Hypothesen verarbeitet worden sind, sind die möglichen Antwortketten die analytischen Wortantwort-Antworten 328 (3).
  • Wenn alle ersten Zeichen interpretiert worden sind, fragt die Abfrageoperation, ob es mehr Zeichen in der Zeichenkette in den Zeichenausschnitt-Bildern 318 für das segmentierte Wort gibt. Wenn es mehr Zeichen gibt, verzweigt sich der Operationsfluß über JA zurück zu Operation 702, um das zweite Zeichen für die erste Segmentierungshypothese abzurufen. Die iterativen Abläufe werden fortgesetzt, bis alle Zeichen für sämtliche Hypothesen erkannt worden sind. Die Interpretationsoperation 710 verwendet die möglichen Antwortketten gemeinsam mit dem Vokabular, um mögliche Wortantworten zu finden. Wenn beispielsweise eine bestimmte Antwortkette für die ersten zwei Zeichen "qu" und die dritte Zeichenvariante "v" ist und das Wörterbuch keine Wörter enthält, die mit "quv" beginnen, dann wird die "v"-Variante für das dritte Zeichen verworfen und nicht verwendet. Wenn alle Zeichen und alle Segmentierungshypothesen verarbeitet sind, bilden die in der Datei 328 gesammelten möglichen Antwortketten die analytische ASCII-Wortantwortliste. Der Konfidenzwert für jede Antwort ist die Summe der Konfidenzwerte bei der Erkennung jedes Zeichens in der Antwort. Selbstverständlich könnten andere Konfidenzalgorithmen wie etwa eine Gewichtung der Erkennungs-Konfidenzwerte mit Werten aus dem Vokabular verwendet werden.
  • 8 zeigt einen Operationsfluß für eine andere Ausführungsform für das analytische Erkennungsmodul 320 in 3. In 8 erkennt die neuronale Zeichenerkennung sämtliche möglichen Zeichenvarianten für sämtliche möglichen Segmentierungshypothesen auf der Basis der Ausschnittbilder von zeichenmäßig segmentierten Wörtern 318. Tatsächlich werden alle möglichen ASCII-Wörter (legitime oder anderweitige) in einer ASCII-Kandidatenwörterliste 804 gesammelt. Wenn die Prüfoperation 806 detektiert, daß alle möglichen Zeichenvarianten für alle möglichen Segmentierungshypothesen erkannt worden sind, wird das Wortfilter 808 aktiv und wählt legitime Wortantworten aus. Das Filter 808 verwendet das Wörterbuch 810, um der analytischen ASCII-Wortantwortliste 328 nur solche Kandidatenwörter aus der Liste 804 zu liefern, die ein Gegenwort in dem Wörterbuch 810 haben. Auch hier wird der Konfidenzwert auf die gleiche Weise bestimmt, wie das oben in bezug auf 7 erörtert wurde.
  • Es versteht sich für den Fachmann, daß es viele andere holistische Erkennungsoperationen und analytische Operationen gibt, welche die oben beschriebenen ersetzen könnten. Alles, was erforderlich ist, um die Erfindung zu verkörpern, ist, daß das holistische Erkennungsmodul fähig sein muß, für das eingegebene Wortbild Zeichensegmentierungsinformation zuliefern, so daß diese Segmentierungsinformation verwendet werden kann, um die Genauigkeit des analytischen Erkennungsmoduls zu steigern. Die Ergebnisse von bei den Erkennungsoperationen können dann geprüft werden, um die beste Antwort zu wählen.
  • Die Erfindung wurde zwar speziell unter Bezugnahme auf bevorzugte Ausführungsformen gezeigt und beschrieben, es versteht sich jedoch für den Fachmann, daß zahlreiche weitere Änderungen hinsichtlich Form und Einzelheiten vorgenommen werden können, ohne vom Umfang der Erfindung gemäß der Definition in den beigefügten Ansprüchen abzuweichen.

Claims (13)

  1. Vorrichtung zum Erkennen einer Zeichenkette handschriftlichen Texts in einem in ein Rechensystem geladenen Bild, wobei die Vorrichtung folgendes aufweist: eine holistische Erkennungseinrichtung (102) zum Erkennen der Zeichenkette als ein Ganzes und zum Erzeugen einer ersten Antwortliste (106) und einer Segmentierungsliste (103), wobei die erste Antwortliste (106) eine Vielzahl von Erkennungsantworten für die Zeichenkette in dem Bild enthält und jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist, und wobei die Segmentierungsliste (103) Segmentierungsinformation enthält, welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale trennt; eine analytische Erkennungseinrichtung (104), die auf die Segmentierungsliste (103) anspricht, um eine Vielzahl von Zeichen einzeln zu erkennen und eine zweite Antwortliste (108) für die Zeichenkette in dem Bild zu erzeugen, wobei jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist; und eine Einrichtung (110), die auf die erste Antwortliste (106) und die zweite Antwortliste (108) anspricht, um die beste Erkennungsantwort für die Zeichenkette zu finden.
  2. Vorrichtung nach Anspruch 1, wobei die Zeichenkette eine Serie von alphanumerischen Zeichen und Zwischenräumen ist, die ein Wort, eine Folge von Wörtern, eine oder mehrere Zahlen oder ein Gemisch aus Wörtern, alphabetischen Zeichen und Zahlen bilden.
  3. Vorrichtung nach einem der Ansprüche 1 oder 2, wobei die Einrichtung (110) zum Finden folgendes aufweist: eine Einrichtung (502) zum Gleichheitsprüfen von einer oder mehreren Erkennungsantworten der ersten Antwortliste (106) mit einer oder mehreren Erkennungsantworten der zweiten Antwortliste (108), um eines oder mehrere passende Antwortpaare (504) zu erzeugen, wobei jedes passende Antwortpaar (504) einen zugeordneten kombinierten Konfidenzwert hat; und eine Einrichtung (506) zum Bewerten des jedem passenden Antwortpaar (504) zugeordneten kombinierten Konfidenzwerts, um ein passendes Antwortpaar, das einen höchsten kombinierten Konfidenzwert hat, als die beste Erkennungsantwort zu bestimmen.
  4. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei der jedem passenden Antwortpaar zugeordnete kombinierte Konfidenzwert durch einen Mittelwert der Konfidenzwerte der Erkennungsantwort der ersten Antwortliste (106) und der Erkennungsantwort der zweiten Antwortliste (108) des passenden Antwortpaars (504) definiert ist.
  5. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die Einrichtung (110) zum Finden folgendes aufweist: eine Einrichtung (508) zum Testen des höchsten kombinierten Konfidenzwerts gegen einen dem höchsten Konfidenzwert nächstkommenden kombinierten Konfidenzwert, um einen Antworttrennwert zu definieren; und eine Einrichtung (512) zum Ablehnen des dem höchsten kombinierten Konfidenzwert zugeordneten passenden Wortpaars als beste Erkennungsantwort, wenn der Antworttrennwert kleiner als ein vorbestimmter Grenzwert ist.
  6. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die Einrichtung zum Finden folgendes aufweist: eine Einrichtung (602, 604) zum Bewerten eines höchsten Konfidenzwerts der ersten Antwortliste (106) und eines höchsten Konfidenzwerts der zweiten Antwortliste (108) gegenüber einem Wahrscheinlichkeitsalgorithmus (606), um die beste Erkennungsantwort (608) für die Zeichenkette zu erkennen.
  7. Verfahren zum Erkennen einer Zeichenkette handgeschriebenen Texts in einem in ein Rechensystem geladenen Bild, wobei das Verfahren folgendes aufweist: Erkennen (102) der Zeichenkette als ein Ganzes und Erzeugen einer ersten Antwortliste (106) und einer Segmentierungsliste (103), wobei die erste Antwortliste (106) eine Vielzahl von Erkennungsantworten für die Zeichenkette in dem Bild enthält, wobei jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist, und wobei die Segmentierungsliste (103) Segmentierungsinformation enthält, welche die jedes Zeichen in der Antwort bildenden Zeichenmerkmale trennt; Bereitstellen der Segmentierungsliste (103) an eine analytische Erkennungseinrichtung (104) zum individuellen Erkennen einer Vielzahl von Zeichen und zum Erzeugen einer zweiten Antwortliste (108) für die Zeichenkette in dem Bild, wobei jede Antwort einen Konfidenzwert dahingehend hat, dass die Antwort richtig ist; und Finden der besten Erkennungsantwort für die Zeichenkette als Reaktion (110) auf die erste Antwortliste (106) und die zweite Antwortliste (108).
  8. Verfahren nach Anspruch 7, wobei die Operation der Erzeugung einer holistischen Wortantwort folgendes aufweist: Aufteilen (304) des Wortbilds in eine Vielzahl von Zeichenmerkmalen; Vergleichen (308) jedes Zeichenmerkmals mit einem von einer Vielzahl von Zeichenmerkmal-Prototypen; Erzeugen (311) einer Vielzahl von möglichen holistischen Wortantworten, die jeweils einem Konfidenzwert zugeordnet sind, der einem Grad der Ähnlichkeit zwischen der Vielzahl von Zeichenmerkmalen für das Wortbild und der Vielzahl von Zeichenmerkmal-Prototypen für jede mögliche holistische Wortantwort entspricht, Kompilieren der Vielzahl von möglichen holistischen Wortantworten und von zugehörigen Konfidenzwerten in einer holistischen Antwortliste (106); und Auswählen aus der holistischen Antwortliste (106) einer möglichen holistischen Wortantwort, die einen höchsten Konfidenzwert hat, als die holistische Wortantwort.
  9. Verfahren nach einem der Ansprüche 7 oder 8, wobei die Operation des Erzeugens einer analytischen Wortantwort folgendes aufweist: Empfangen des Wortbildes als eine Vielzahl von Zeichenbildern; Definieren jedes Zeichenbildes als ein Zeichen; Erzeugen (328) einer Vielzahl von möglichen analytischen Wortantworten, wobei jede mögliche analytische Wortantwort einen Konfidenzwert hat, der auf einem Zeichenerkennungs-Konfidenzwert jedes Zeichens in der möglichen analytischen Wortantwort basiert; und Kompilieren der Vielzahl von möglichen analytischen Wortantworten und zugehörigen Konfidenzwerten in einer analytischen Antwortliste (108); und Auswählen einer möglichen analytischen Wortantwort, die einen höchsten Konfidenzwert hat, aus der analytischen Antwortliste (108) als die analytische Wortantwort.
  10. Verfahren nach einem der Ansprüche 7 bis 9, wobei die Operation des Findens (110) folgendes aufweist: Vergleichen (502) von einer oder mehreren möglichen holistischen Wortantworten mit einer oder mehreren möglichen analytischen Wortantworten, um eines oder mehrere passende Antwortpaare zu erzeugen; Kombinieren (504) der Konfidenzwerte der möglichen holistischen Wortantwort und der möglichen analytischen Wortantwort in jedem passenden Antwortpaar, um für jedes Paar einen kombinierten Konfidenzwert zu definieren; und Auswählen (506) des passenden Antwortpaars, das einen höchsten kombinierten Konfidenzwert hat, als die Interpretation des handschriftlichen Wortes.
  11. Verfahren nach einem der Ansprüche 7 bis 10, wobei die Operation des Erzeugens einer holistischen Wortantwort ferner folgendes aufweist: Aufteilen (304) der holistischen Wortantwort in eine Vielzahl von Zeichenmerkmalsmengen, wobei jede Zeichenmerkmalsmenge einem Zeichen der holistischen Wortantwort zugeordnet ist; und Aufteilen jeder Zeichenmerkmalsmenge in eine Vielzahl von segmentierten Merkmalen (316).
  12. Verfahren nach einem der Ansprüche 7 bis 11, das ferner folgendes aufweist: Lokalisieren (402) der segmentierten Merkmale in dem Wortbild; Ausfüllen (406) des Wortbildes zwischen den segmentierten Merkmalen, um eine Kette von miteinander verbundenen Zeichenbildern zu definieren; Definieren (408) von einem oder mehreren hypothetischen Segmentierungspunkten zwischen benachbarten Zeichenmerkmalsmengen an der Kette von miteinander verbundenen Zeichenbildern; und Trennen (410) der Kette von miteinander verbundenen Zeichenbildern in eine Vielzahl von Zeichenbildern an den hypothetischen Segmentierungspunkten.
  13. Verfahren nach einem der Ansprüche 7 bis 12, wobei die Operation des Erzeugens einer analytischen Wortantwort ferner folgendes aufweist: Empfangen einer Vielzahl von Zeichenbildern; Erkennen (704) jedes Zeichenbilds als zu einem Zeichen gehörend; Sammeln (706) von einer oder mehreren Zeichenvarianten, die jedem von der Vielzahl von Zeichenbildern zugeordnet sind; Speichern der zu jedem von der Vielzahl von Zeichenbildern gehörenden Zeichenvarianten; Vergleichen (710) der jedem Zeichenbild zugeordneten Zeichenvarianten mit einem Lexikon von Wörtern in einem Wörterbuch auf der Basis der der Zeichenvariante zugeordneten Zeichenposition; Verwerfen jeder Zeichenvariante, die kein Zeichen in einem Wort in dem Wörterbuch bildet, wenn sie in dem Wortbild an der der Zeichenvariante zugeordneten Zeichenposition angeordnet wird; und Aufbauen der Vielzahl von möglichen analytischen Wortantworten mit den Zeichenvarianten, die einem Wort in dem Wörterbuch zugeordnet sind.
DE60217299T 2001-02-16 2002-01-03 Holistisch-analytische erkennung von handgeschriebenem text Expired - Lifetime DE60217299T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/788,032 US6950555B2 (en) 2001-02-16 2001-02-16 Holistic-analytical recognition of handwritten text
US788032 2001-02-16
PCT/US2002/000053 WO2002067189A2 (en) 2001-02-16 2002-01-03 Holistic-analytical recognition of handwritten text

Publications (2)

Publication Number Publication Date
DE60217299D1 DE60217299D1 (de) 2007-02-15
DE60217299T2 true DE60217299T2 (de) 2007-08-30

Family

ID=25143232

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60217299T Expired - Lifetime DE60217299T2 (de) 2001-02-16 2002-01-03 Holistisch-analytische erkennung von handgeschriebenem text

Country Status (6)

Country Link
US (2) US6950555B2 (de)
EP (1) EP1362322B1 (de)
AT (1) ATE350719T1 (de)
CA (1) CA2438187A1 (de)
DE (1) DE60217299T2 (de)
WO (1) WO2002067189A2 (de)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596606B2 (en) * 1999-03-11 2009-09-29 Codignotto John D Message publishing system for publishing messages from identified, authorized senders
US6950555B2 (en) * 2001-02-16 2005-09-27 Parascript Llc Holistic-analytical recognition of handwritten text
US7343041B2 (en) * 2001-02-22 2008-03-11 International Business Machines Corporation Handwritten word recognition using nearest neighbor techniques that allow adaptive learning
AU2002952106A0 (en) * 2002-10-15 2002-10-31 Silverbrook Research Pty Ltd Methods and systems (npw008)
US20060188162A1 (en) * 2002-10-31 2006-08-24 Microsoft Corporation Common interface for ink trees
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US7558772B2 (en) * 2005-12-08 2009-07-07 Northrop Grumman Corporation Information fusion predictor
US20070172132A1 (en) * 2006-01-11 2007-07-26 The Gannon Technologies Group Pictographic recognition technology applied to distinctive characteristics of handwritten arabic text
US7742642B2 (en) * 2006-05-30 2010-06-22 Expedata, Llc System and method for automated reading of handwriting
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
US8943018B2 (en) * 2007-03-23 2015-01-27 At&T Mobility Ii Llc Advanced contact management in communications networks
US8548818B2 (en) * 2008-01-31 2013-10-01 First Data Corporation Method and system for authenticating customer identities
US8452108B2 (en) * 2008-06-25 2013-05-28 Gannon Technologies Group Llc Systems and methods for image recognition using graph-based pattern matching
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8879846B2 (en) 2009-02-10 2014-11-04 Kofax, Inc. Systems, methods and computer program products for processing financial documents
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
US8483518B2 (en) 2010-02-19 2013-07-09 Microsoft Corporation Image-based CAPTCHA exploiting context in object recognition
US20120272302A1 (en) * 2011-04-21 2012-10-25 Microsoft Corporation Human User Verification
US20120281919A1 (en) * 2011-05-06 2012-11-08 King Abdul Aziz City For Science And Technology Method and system for text segmentation
CN102263716B (zh) * 2011-07-26 2013-09-04 苏州大学 一种调制类型识别方法及系统
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9798788B1 (en) * 2012-12-27 2017-10-24 EMC IP Holding Company LLC Holistic methodology for big data analytics
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
JP2016518790A (ja) 2013-05-03 2016-06-23 コファックス, インコーポレイテッド モバイル装置を用いて取込まれたビデオにおけるオブジェクトを検出および分類するためのシステムおよび方法
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
US9361515B2 (en) * 2014-04-18 2016-06-07 Xerox Corporation Distance based binary classifier of handwritten words
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9946945B2 (en) 2016-04-08 2018-04-17 Intelligent Security Systems Corporation Systems and methods for recognizing symbols in images
US10275687B2 (en) * 2017-02-16 2019-04-30 International Business Machines Corporation Image recognition with filtering of image classification output distribution
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN108021918B (zh) * 2017-12-13 2021-11-30 北京小米移动软件有限公司 文字识别方法及装置
CN108595410B (zh) * 2018-03-19 2023-03-24 小船出海教育科技(北京)有限公司 手写作文的自动批改方法及装置
JP7247472B2 (ja) * 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2020187470A (ja) * 2019-05-13 2020-11-19 富士通株式会社 ネットワーク分析装置およびネットワーク分析方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS604505B2 (ja) * 1972-07-10 1985-02-04 スキヤン − オプテイクス インコ−ポレ−テツド マルチ・フオント光学式文字認識装置
US5287275A (en) * 1988-08-20 1994-02-15 Fujitsu Limited Image recognition apparatus and method for recognizing a pattern within an image
EP0395068B1 (de) * 1989-04-28 1996-09-04 Hitachi, Ltd. Zeichenerkennungsanlage
US5313527A (en) * 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
US6041141A (en) * 1992-09-28 2000-03-21 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
US5455872A (en) * 1993-04-26 1995-10-03 International Business Machines Corporation System and method for enhanced character recogngition accuracy by adaptive probability weighting
JP2673871B2 (ja) * 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
US6950555B2 (en) 2001-02-16 2005-09-27 Parascript Llc Holistic-analytical recognition of handwritten text

Also Published As

Publication number Publication date
US6950555B2 (en) 2005-09-27
DE60217299D1 (de) 2007-02-15
US20050074169A1 (en) 2005-04-07
WO2002067189A3 (en) 2003-03-27
ATE350719T1 (de) 2007-01-15
WO2002067189A2 (en) 2002-08-29
CA2438187A1 (en) 2002-08-29
EP1362322A2 (de) 2003-11-19
US20020114523A1 (en) 2002-08-22
EP1362322B1 (de) 2007-01-03
US7623715B2 (en) 2009-11-24
WO2002067189A8 (en) 2003-12-31

Similar Documents

Publication Publication Date Title
DE60217299T2 (de) Holistisch-analytische erkennung von handgeschriebenem text
Mittal et al. Text extraction using OCR: a systematic review
DE69222141T2 (de) Verfahren und Gerät zur Erkennung von sich berührendem und degradiertem Text
DE60224128T2 (de) Vorrichtung und Verfahren zum Erkennen von Zeichen und mathematischen Ausdrücken
DE60308944T2 (de) Layoutanalyse eines handschriftlichen Dokuments für Freiform-Eingabe mit digitaler Tinte
DE69610689T2 (de) System zum Klassifizieren von Fingerabdrücken
DE60204005T2 (de) Verfahren und einrichtung zur erkennung eines handschriftlichen musters
DE69228895T2 (de) Auswahlvorrichtung für ein Symbolermittlungssystem mit mehreren Zeichenerkennungsprozessoren
DE69528023T2 (de) Anlage und Verfahren zur automatischen Interpretation von Eingabeausdrucken mittels neuer a posteriori Washscheinlichkeitmasse und optimal trainierter Datenverarbeitungsnetzwerken
Hu et al. Comparison and classification of documents based on layout similarity
DE4311172A1 (de) Verfahren und Einrichtung zum Korrigieren der Schräge eines Vorlagenbildes sowie Vorlagensegmentierungssystem
DE19705757A1 (de) Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems
Malakar et al. A holistic approach for handwritten Hindi word recognition
Basha et al. A novel approach for optical character recognition (OCR) of handwritten Telugu alphabets using convolutional neural networks
EP2082357B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung von schriftzeichen in einem bild
Fadhil et al. Writers identification based on multiple windows features mining
Anam et al. An approach for recognizing Modi Lipi using Otsu’s Binarization algorithm and kohenen neural network
DE69431393T2 (de) Anlage zur Bilderkennung alphanumerischen Zeichen
Manuel et al. Handwritten Malayalam character recognition using curvelet transform and ANN
Nair et al. A comparative vggnet and densenet approaches to recognize malayalam characters using transfer learning techniques
Joshi et al. Combination of multiple image features along with KNN classifier for classification of Marathi Barakhadi
Hirata et al. Comics image processing: learning to segment text
Pourreza et al. Sub-word based Persian OCR using auto-encoder features and cascade classifier
EP2315159A2 (de) Verfahren und Vorrichtung zum Erkennen und Klassifizieren von Dokumentteilen eines rechnerverfügbaren Dokuments durch schrittweises Lernen aus mehreren Trainingsmengen
Mehta et al. A review of handwritten character recognition

Legal Events

Date Code Title Description
8364 No opposition during term of opposition