DE4345583B4 - Cursive handwritten word recognition from sequential input information - using construction word correlation tables to select strings of vocabulary metastrokes corresponding to candidate word and identifies most likely match - Google Patents
Cursive handwritten word recognition from sequential input information - using construction word correlation tables to select strings of vocabulary metastrokes corresponding to candidate word and identifies most likely match Download PDFInfo
- Publication number
- DE4345583B4 DE4345583B4 DE4345583A DE4345583A DE4345583B4 DE 4345583 B4 DE4345583 B4 DE 4345583B4 DE 4345583 A DE4345583 A DE 4345583A DE 4345583 A DE4345583 A DE 4345583A DE 4345583 B4 DE4345583 B4 DE 4345583B4
- Authority
- DE
- Germany
- Prior art keywords
- word
- metastroke
- metastrokes
- input
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
- G06V30/2264—Character recognition characterised by the type of writing of cursive writing using word shape
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
- G06V30/1423—Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
- G06V30/2268—Character recognition characterised by the type of writing of cursive writing using stroke segmentation
- G06V30/2272—Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
Description
TECHNISCHER HINTERGRUNDTECHNICAL BACKGROUND
Die Erfindung betrifft die Handschrifterkennung und bezieht sich insbesondere auf Handschrifterkennungsverfahren und eine Vorrichtung zur Handschrifterkennung, d.h. die Erkennung von aus einem durchgehenden Linienzug bestehenden Zeichen und Wörtern, wobei Informationen über die Strichfolge in Verbindung mit der Eingabe von Strichpositionsinformationen vorgesehen sind.The The invention relates to handwriting recognition and relates in particular Handwriting recognition method and apparatus for handwriting recognition, i.e. the recognition of existing from a continuous polyline Signs and words, being information about the stroke sequence in connection with the input of bar position information are provided.
Der Bereich der computerunterstützten Handschrifterkennung ist von Interesse, seitdem viele Menschen nicht die Fähigkeit haben, über eine Tastatur zu kommunizieren und seitdem viele Aufgaben durch eine direkte Eingabe in einen Computer mit einem vertrauten Schreibinstrument, z.B. einem Stift, Kugelschreiber oder Füller entscheidend beschleunigt werden. Die Handschrifterkennung ist insbesondere deshalb eine Herausforderung, weil die Schriftzeichen aus durchgehenden Strichen bestehen und weil sich die Handschriften der Menschen stark voneinander unterscheiden.Of the Field of computer-aided Handwriting recognition is of interest, since many people do not the ability have, over a keyboard to communicate and since then many tasks through a direct input to a computer with a familiar writing instrument, e.g. a pen, pen or pen significantly accelerated become. Handwriting recognition is therefore a particular challenge, because the characters consist of solid lines and because people's manuscripts are very different from each other.
Die Arbeit des Herrn Dr. Shelja A. Guberman der ehemaligen Sowjetunion, einer der Miterfinder, bildet die Grundlage der Erfindung. In einem Aufsatz, der in russischer Sprache in der Zeitschrift Avtomatika i Telemekhanika, von Shelja A. Guberman und V. V. Rozentsveig unter dem Titel "Algorithmus zur Erkennung eines handgeschriebenen Textes" (Nr. 5, Mai, 1976, Seiten 122–129, UDC 681.39.06) veröffentlicht wurde, beschreiben die Erfinder den Stand der Technik der Handschrifterkennung und schlagen vor, daß die dynamischen Parameter der Schreibstiftlinienführung in Verbindung mit verschiedenen Erkennungsalgorithmen herangezogen werden. Zu den Erkennungsalgorithmen zählen eine Merkmalsgegenüberstellung zur Identifikation der Striche, die Erkennung des Anfangs und Endes der Trajektorie und die Unterteilung einer Trajektorie in Elemente, die nachfolgend auch als Metastriche bezeichnet werden. Die Erfinder haben ihr Metastrich-Alphabet auf gerade sieben sich selbst schneidende Elemente und drei Bogenelemente beschränkt. Die Arbeit schweigt aber zu der Möglichkeit einer Verwirrung der Elemente in dem Erkennungsprozeß und berücksichtigt nicht die Verwendung von dynamischen Programmierungstechniken. Folglich war die weitere Entwicklung darauf gerichtet, die Zuverlässigkeit und Brauchbarkeit der Erkennung zu verbessern.The Work of Dr. med. Shelja A. Guberman of the former Soviet Union, one of the co-inventors, forms the basis of the invention. In one Essay written in Russian in the journal Avtomatika i Telemekhanika, by Shelja A. Guberman and V.V. Rozentsveig the title "Algorithm for the recognition of a handwritten text "(No. 5, May, 1976, pages 122-129, UDC 681.39.06) The inventors describe the state of the art of handwriting recognition and suggest that the dynamic parameters of the pen line guide in conjunction with various Detection algorithms are used. To the recognition algorithms counting a feature comparison to identify the lines, the recognition of the beginning and end the trajectory and the subdivision of a trajectory into elements that hereinafter also referred to as metastrokes. The inventors have their metastroke alphabet on just seven self-cutting Limited elements and three arc elements. But the work is silent The possibility a confusion of elements in the recognition process and taken into account not the use of dynamic programming techniques. consequently Further development was focused on reliability and to improve the usability of recognition.
In der Vergangenheit wurden Elemente von verschiedenen Techniken offenbart, die denen ähnlich sind, die in Verbindung mit der Erfindung benutzt werden. Diese Entgegenhaltungen dienen dazu, den Stand der Technik zu veranschaulichen. Daher sind Details von speziellen Ausführungsformen der Erfindung, die von diesen bekannten Techniken Gebrauch machen, nicht im einzelnen beschrieben. Die folgenden Druckschriften sind aber dennoch auf dem Gebiet der Handschrifterkennung von Bedeutung.In In the past, elements of various techniques were revealed which are similar to those which are used in connection with the invention. These citations serve to illustrate the state of the art. Therefore are Details of special embodiments of the invention making use of these known techniques, not described in detail. The following pamphlets are but still important in the field of handwriting recognition.
Ehrich und Koehler, "Experiments in the Contextual Recognition of Cursive Script, " IEEE Transactions on Computers, Vol. C-24, Nr. 2, Februar 1975, Seiten 182–194. Dieser Aufsatz beschreibt die Verwendung von Trennungstechniken zwischen den Hauptteilen der Buchstaben und den Ober- und Unterlängen der Buchstaben als Teil eines Vorerkennungsschemas.Ehrich and Koehler, "Experiments in the Contextual Recognition of Cursive Script, "IEEE Transactions on Computers, Vol. C-24, No. 2, February 1975, pages 182-194. This Essay describes the use of separation techniques between the main parts of the letters and the ascenders and descenders of the Letters as part of a pre-recognition scheme.
US-A-3,996,557 (Donahey) beschreibt eine Technik, die der von Ehrich u.a. ähnlich ist.US-A-3,996,557 (Donahey) describes a technique similar to that of Ehrich et al. is similar.
US-A-3,133,266 (Frischkopf) beschreibt die Standardisierung in Y-Richtung, die Verwendung von Wörterbuchgegenüberstellungen zur Erkennung und Abschätzung der Wahrscheinlichkeit der Genauigkeit der Erkennung von einzelnen Wörtern.US-A-3,133,266 (Frischkopf) describes the standardization in the Y direction, the Use of dictionary contrasts for detection and estimation the probability of accuracy of detection of individual Words.
US-A-3,969,698 (Bollinger u.a.) beschreibt eine Vorrichtung zur nachträglichen Verarbeitung von Wörtern, die von einer Worterkennungsmaschine, einem Sprachanalysator oder einer standardmäßigen Tastatur falsch erkannt wurden.US-A-3,969,698 (Bollinger et al.) Describes a device for retrofitting Processing words, that of a word recognition engine, a language analyzer, or a standard keyboard incorrectly were detected.
US-A-4,610,025 (Blum u.a.) beschreibt die Isolation von Ober- und Unterlängen der Buchstaben als Bestandteil eines vorausgehenden analytischen Schrittes und die Isolation von Wörtern zur Identifikation.US-A-4,610,025 (Blum et al.) Describes the isolation of upper and lower lengths of the Letters as part of a previous analytical step and the isolation of words for identification.
US-A-4,731,857 (Tappert) und US-A-4,764,972 (Yoshida u.a) beschreiben die Wortisolation als Bestandteil eines Analyseverfahrens.US-A-4,731,857 (Tappert) and US-A-4,764,972 (Yoshida et al.) Describe word isolation as part of an analysis procedure.
US-A-4,933,977 und US-A-4,987,603 (Ohnishi u.a.) beschreiben die Elimination von fremden Zeichen in einem Eingabemuster sowie das Konzept der Erkennung von Elementen, die nichtvollständige Zeichen darstellen, z.B. gerade Striche, Bögen und Schleifen.US-A-4,933,977 and US-A-4,987,603 (Ohnishi et al.) Describe the elimination of foreign characters in an input pattern as well as the concept of recognizing elements that are not complete characters, eg straight lines, arcs and loops.
US-A-3,111,646 und US-A-3,127,588 (Harmon) beschreiben Systeme, die von Erkennungstechniken für die Extraktion charakteristischer Merkmale sowie Strichsequenzinformationen Gebrauch machen.US-A-3,111,646 and US-A-3,127,588 (Harmon) describe systems used by detection techniques for extraction characteristic features as well as bar sequence information usage do.
US-A-4,754,489 (Bosker) beschreibt ein System zur Erkennung von Buchstabengruppen, die als Digramms und Trigramms bezeichnet werden.US-A-4,754,489 (Bosker) describes a system for recognizing letter groups, which are called digrams and trigrams.
US-A-5,034,989 (Loh) beschreibt ein Verfahren zur Identifikation einzelner handgeschriebener Buchstaben.US-A-5,034,989 (Loh) describes a method for identifying individual handwritten ones Letters.
Aus GB-A-2087616 ist eine Vorrichtung sowie ein Verfahren zum Erzeugen einer alphanumerischen Ausgabe basierend auf Kurzschrift bekannt. Die auf einem Tablett 10 eingegebenen Kurzzeichen werden erkannt und auf einem Bildschirm dargestellt.Out GB-A-2087616 is an apparatus and method for generating an alphanumeric output based on shorthand known. The short characters entered on a tablet 10 are recognized and displayed on a screen.
Weitere Techniken zur computerbasierten Eingabe von Handschrift mittels Kurzzeichen sind aus US-A-5140645, US-A-4718102 sowie aus Kamel, K.; Imam, I. „A computerized transcription system for cursive shorthand writing" Southeastcon '88., IEEE Conference Proceedings, 11–13, Apr 1988, Pages: 336–339 bekannt.Further Techniques for computer-based input of handwriting by means of Abbreviations are from US-A-5140645, US-A-4718102 and camel, K .; Imam, I. "A computerized transcription system for cursive shorthand writing "Southeastcon '88., IEEE Conference Proceedings, 11-13, Apr 1988, Pages: 336-339 known.
Im Hinblick auf den Stand der Technik besteht die Aufgabe der folgenden Erfindung darin, ein Verfahren sowie ein System anzugeben, mit dem handgeschriebene Worte effizienter und zuverlässiger erkannt werden können.in the In view of the prior art, the object of the following The invention is to provide a method and a system with which handwritten words can be recognized more efficiently and reliably.
Diese Aufgabe wird gelöst durch den Gegenstand des Anspruchs 1 sowie 9.These Task is solved by the subject matter of claims 1 and 9.
Bevorzugte Ausführungsformen sind Gegenstand der Unteransprüche.preferred embodiments are the subject of the dependent claims.
Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung für die Handschrifterkennung macht von einer Zwischenbeschreibungssprache für handgeschriebene Wörter Gebrauch, die aus Metastrichen zusammengesetzt ist. Metastriche sind Elemente oder Abschnitte einer Strichform, die benutzt werden, um einen Strich darzustellen. Ein Strich ist als zusammenhängendes Segment definiert, das beginnt, wenn der Stift die Oberfläche des Tableaus des Digitalisierers berührt und das endet, wenn der Stift von der Oberfläche abgehoben wird, wobei der Strich ein oder mehrere geschriebene Buchstaben umfaßt. Ein Kursivwort kann ein oder mehrere Striche umfassen, je nachdem, ob der Stift während des Schreibens des Wortes von der Oberfläche abgehoben wird oder nicht. Nach der Erfindung sind im allgemeinen wenigstens zwanzig Metastriche erforderlich, um das notwendige Vokabular oder einen Satz von zulässigen elementaren Strichformen zu bilden, obwohl nicht weniger als siebzig Metastriche benutzt werden können. Zusätzliche Metastriche verbessern die Erkennungsgenauigkeit der Erfindung auf Kosten einer wachsenden Rechenzeit. Die Techniken zur Interpretation der Eingabe-Metastrichsegmente als Wörter umfaßt das Vergleichen der Eingabe-Metastrichsegmente mit Metastrichsegmenten aus einem Wörterbuch von als Metastriche "geschriebenen" Wörtern und das Zuordnen eines Wahrscheinlichkeitswertes eines Übereinstimmungswertes für jedes so identifizierte Wort. Der zugeordnete Wert für die Wahrscheinlichkeit der Übereinstimmung wird als "Wortmaß" bezeichnet. Diese Technik umfaßt im einzelnen das Vergleichen der Eingabe mit jedem Wort in dem Wörterbuch, Metastrich für Metastrich, das Zuordnen einer Metastrichbewertung zu jeder Position, an der ein Metastrichübereinstimmung gefunden wurde, das Addieren der Bewertungen für die Metastrichübereinstimmungen für jedes so getestete Segment, um das Wortmaß zu erhalten, Anordnen der Wörter nach dem Wortmaß, indem die Wortmaße sowohl mit einem vorbestimmten Grenzwert als auch untereinander im Hinblick auf ihre Übereinstimmung verglichen werden, das Substituieren, Addieren und Löschen von Metastrichen in der Sequenz entweder gleichzeitig oder fortlaufend und dann das Vergleichen des so modifizierten Eingabe-Metastrichsegmentes mit dem Wörterbuch, um weitere Wortmaße zu erhalten, bis ein Wortmaß gefunden wurde, das den Grenzwertkriterien genügt. Wegen der unterschiedlichen Handschriften sind in jedem Wörterbuch normalerweise viele vordefinierte Metastrich-Beschreibungen ("Buchstabierungen") für jedes mögliche Wort abgelegt. Das erfindungsgemäße Verfahren umfaßt die Erkennung ganzer Wörter und nicht einzelner Buchstaben, wie von anderen vorgeschlagen worden ist. Anstelle des Durchsuchens, um ein handgeschriebenes Wort in einzelne Buchstaben zu zerlegen und anstelle des Suchens nach dem besten ersten Buchstaben, dann dem besten zweiten Buchstaben etc., macht die Erfindung von einem Verfahren des Berechnens von Rechenbewertungen der Übereinstimmungen Gebrauch. Für typische Metastrich-Sequenzen ist die Anzahl der möglichen Übereinstimmungen sehr groß und folglich umfaßt das erfindungsgemäße Verfahren das Addieren, Löschen und Substituieren, um sowohl den Umfang der Suche zu verringern als auch die Geschwindigkeit des Vergleichsverfahrens zu erhöhen.The handwriting recognizing method and apparatus of the present invention makes use of an intermediate description language for handwritten words composed of metastrokes. Metastrokes are elements or sections of a stroke that are used to represent a stroke. A stroke is defined as a contiguous segment that begins when the stylus touches the surface of the digitizer's tablet and ends when the stylus is lifted off the surface, the stroke comprising one or more written characters. A cursive word may include one or more dashes depending on whether the pen is lifted off the surface during the writing of the word or not. According to the invention, at least twenty metastrokes are generally required to form the necessary vocabulary or set of allowed elementary stroke shapes, although no less than seventy metastrokes can be used. Additional metastrokes improve the recognition accuracy of the invention at the expense of increasing computation time. The techniques for interpreting the input metastroke segments as words involves comparing the input metastroke segments with metastroke segments from a dictionary of words "written" as metastrokes, and assigning a probability value of a match value for each word thus identified. The assigned value for the likelihood of the match is called a "word measure". Specifically, this technique involves comparing the input with each word in the dictionary, metastroke for metastroke, assigning a metastroke score to each metastroke match position, adding the metastroke match scores for each segment so tested to the dictionary Word order, arranging the words by the word measure by comparing the word measures both with a predetermined threshold and with each other in terms of their match, substituting, adding and deleting metastrokes in the sequence either simultaneously or consecutively and then comparing the words thus modified input metastroke segment with the dictionary to obtain further word measures until a word measure satisfying the threshold criteria has been found. Because of the different manuscripts, each dictionary typically has many predefined metastroke descriptions ("spellings") for each possible word. The method of the invention involves the recognition of whole words and not individual letters as suggested by others. Instead of searching to decompose a handwritten word into individual letters and instead of searching for the best first letter, then the best second letter, etc., the invention makes use of a method of calculating arithmetic ratings of the data moods. For typical metastroke sequences, the number of possible matches is very large, and thus the inventive method involves adding, erasing, and substituting to both reduce the scope of the search and increase the speed of the comparison procedure.
In einer besonderen Ausführungsform der Erfindung umfaßt die Erkennungseinrichtung eine digitalisierende Tastatur zur Eingabe von Signalen mit Werten, die eine Sequenz von Punkten in einem Koordinatensystem mit Indizien von einem Anfangs- und einem Endpunkt darstellen, und eine Verarbeitungseinrichtung zum Durchführen von verschiedenen Funktionen mit den Signalen, die in einer dedizierten Computereinrichtung oder in einer Datenvorverarbeitungseinrichtung eines computerunterstützten Systems eingeschlossen sein kann. Die Vorverarbeitungseinrichtung kann die folgenden Verfahren durchführen: Das Unterteilen der Sequenz der zwischen dem Anfangs- und dem Endpunkt liegenden Punkte in Prüfwörter, Zeichenfolgen oder Segment, das Unterscheiden zwischen dem Anfangspunkt eines Wortsegmentes und dem eines einzelnen Wortes, das Kombinieren der Wortsegmente zur Bildung vollständiger Wörter, das Festsetzen einer unteren Basislinie und einer oberen Basislinie für das Prüfwort, um die Größe und den Maßstab des Prüfwortes festzustellen, das Rekonstruieren des Prüfwortes als ein rekonstruiertes Wort mit einer Ersatzsequenz von Punkten, wobei interpolierte Punkte eingefügt und falsche Punkte gelöscht werden, das Lokalisieren und Tabellieren von kritischen Punkten in dem rekonstruierten Wort in sequentieller Reihenfolge, wobei die Punkte Maxima, Minima, Schnittpunkte, Punkte und Kreuzungspunkte umfassen, das Wiedereinsetzen des rekonstruierten Wortes mit einer Sequenz von Metastrichen, die dem erfindungsgemäßen Metastrich-Vokabular entspricht, wobei jeder Metastrich ein Element eines handgeschriebenen Schriftzeichens darstellt. Dieser Wiedereinsetzungsschritt kann im einzelnen das Vergleichen der kritischen Punkte mit Indizien von bekannten kritischen Punkten umfassen, um eine vorläufige Metastrich-Sequenz für jedes rekonstruierte Wort zu erhalten. Demgemäß basiert die Erfindung auf dem Auswählen von vielen der am besten passenden Übereinstimmungen in einer Wahrscheinlichkeitsreihenfolge aus den Einträgen in einem zusammengestellte Einträge aus bekannten Metastrich-Sequenzvarianten umfassenden Wörterbuch mittels einer Matrix der Übereinstimmungswahrscheinlichkeit der einzelnen Metastriche. Dieser Auswahlschritt kann das Auswählen eines bevorzugten Metastrichs an ausgewählten Positionen in Abhängigkeit von einer Maximalbewertungsberechnung umfassen. Es kann eine Analyse auf i) einer Vorwärtssequenz der Metastriche, ii) einer Rückwärtssequenz der Metastriche und iii) der am besten passenden Wortanfänge und gleichzeitig der am besten passenden Wortenden durchgeführt werden. Die Maximalbewertungsberechnung kann eine Analyse der Gewichtung der Ergebnisse, der Additionen, der Löschungen und der Substitutionen der Metastriche in bezug auf die benachbarten Metastriche umfassen. Die Ergebnisse werden bevorzugt in der Form eines, möglicherweise auch in der Form von mehreren Prüfwörtern auf der Grundlage einer Liste der am besten passenden Übereinstimmungen aus dem Wörterbuch an eine Ausgabeeinrichtung abgegeben. Normalerweise wird eine positive Erkennung eines einzelnen Prüfworts angezeigt, wenn die Wahrscheinlichkeit der Übereinstimmungsfigur der Wertigkeit einen vorbestimmten Grenzwert überschreitet.In a particular embodiment of the invention the recognition device a digitizing keyboard for input of signals with values representing a sequence of points in a coordinate system represent with indicia of a start and an end point, and a processing device for performing various functions with the signals coming in a dedicated computer device or in a data preprocessing device of a computer-aided system can be included. The preprocessing device may be the perform the following procedures: Dividing the sequence between the start and end points lying points in test words, strings or segment, distinguishing between the starting point of a Word segment and that of a single word, combining the Word segments to form more complete words, setting a lower baseline and an upper baseline for the check word, around the size and the scale of the test word determine the reconstructing of the checkword as a reconstructed one Word with a replacement sequence of points, with interpolated points added and false points deleted be, locating and tabulating critical points in the reconstructed word in sequential order, where the points maxima, minima, intersections, points and crossing points include reinstating the reconstructed word with a Sequence of metastrokes corresponding to the metastroke vocabulary according to the invention, wherein each metastroke is an element of a handwritten character represents. This re-insertion step can be described in detail Compare the critical points with indicia of known critical points include a preliminary Metastroke sequence for each to get reconstructed word. Accordingly, the invention is based on selecting of many of the best matching matches in a probability order from the entries in a compiled entries Dictionary of known metastatic sequence variants by means of a matrix of the match probability the individual metastasis. This selection step may include selecting one preferred metastroke at selected positions depending from a maximum score calculation. It can be an analysis on i) a forward sequence the metastroke, ii) a backward sequence the metastrokes and iii) the best fitting word beginnings and at the same time the best matching word ends are performed. The maximum score calculation may be an analysis of the weighting results, additions, deletions and substitutions include the metastrokes with respect to the neighboring metastases. The results are preferably in the form of, possibly also in the form of several test words based on a list of the most appropriate matches from the dictionary delivered to an output device. Normally a positive Detection of a single test word displayed when the probability of the correspondence figure of significance exceeds a predetermined limit.
In einer besonderen Ausführungsform kann das Verfahren das Messen der durchschnittlichen Neigung von Punktsequenzen jedes Prüfwortsegments und das Teilen des Prüfwortsegments entlang horizontaler Grenzen in eine mittlere Zone zwischen einer unteren und einer oberen Basislinie umfassen, wobei angenommen wird, daß sich die Körper der Buchstaben in einem oberen Bereich, in dem die Oberlängen der Buchstaben angenommen werden, und in einem unteren Bereich befinden, in dem die Unterlängen der Buchstaben angenommen werden. Diese Größeninformation unterstützt in Verbindung mit der durch die Identifikation der Metastriche erlangten Konturinformation das Wörterbuch darin, den Wert jedes Metastrichs an einer Position in einer Sequenz von akzeptablen Metastrichen in dem Wörterbuch zu bestimmen. Die Größeninformation ist auch als Teil der Korrelation gewichtet.In a particular embodiment The procedure may be measuring the average slope of Point sequences of each check word segment and dividing the check word segment along horizontal boundaries into a middle zone between one lower and upper baseline, assuming that yourself the body the letter in an upper area where the ascenders of the Letters be adopted and located in a lower area, in which the descenders the letters are accepted. This size information supports in conjunction with the contour information obtained by the identification of the metastrokes the dictionary in it, the value of each metastroke at a position in a sequence of acceptable metastrokes in the dictionary. The size information is also weighted as part of the correlation.
Unter Bezugnahme auf die nachfolgende detaillierte Beschreibung in Verbindung mit den zugehörigen Zeichnungen wird die Erfindung besser verständlich und weitere Details der Aspekte der Erfindung werden deutlich.Under Reference is made to the following detailed description in conjunction with the accompanying drawings The invention will be better understood and further details of aspects of the invention will become apparent.
FIGURENKURZBESCHREIBUNGBRIEF DESCRIPTION
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMENDESCRIPTION THE PREFERRED EMBODIMENTS
Die
innerprozessuale Speichereinrichtung
Die
Einrichtung
Die
Einrichtung
Die
Einrichtung
Eine
Metastrich-Erkennungseinrichtung
In
der Tabelle von
ein Strich mit einer breiten Unterbrechung,
ein "wild card" Strich, der alles
bedeuten kann,
ein allgemeiner horizontaler Strich,
ein
Maximalmerkmal,
ein Minimalmerkmal,
ein Winkel ohne Schleife,
ein
Strich mit einer schmalen Unterbrechung,
ein Punkt, der beispielsweise
eine Periode repräsentiert,
ein
Kreuzungspunkt,
ein rückwärts nach
oben gerichteter Bogen mit einem freien Ende am Bogenanfang,
ein
rückwärts nach
oben gerichteter Bogen mit einem freien Ende am Bogenende,
ein
rückwärts nach
oben gerichteter Bogen ohne freies Ende,
ein mit entgegen dem
Uhrzeigersinn gerichteten Strichen gezeichnetes umgekehrtes Gamma,
ein
mit entgegen dem Uhrzeigersinn gerichteten Strichen gezeichneter
Kreis,
ein mit einem im Uhrzeigersinn gerichteten Strich gezeichnetes
Gamma,
ein vorwärts
nach unten gerichteter Bogen ohne freies Ende,
ein vorwärts nach
unten gerichteter Bogen mit einem freien Ende am Anfang,
ein
vorwärts
nach unten gerichteter Bogen mit einem freien Ende an seinem Ende,
ein
vorwärts
nach oben gerichteter Bogen mit einem freien Ende an seinem Ende,
ein
vorwärts
nach oben gerichteter Bogen mit einem freien Ende an seinem Anfang,
ein
vorwärts
nach oben gerichteter Bogen ohne ein freies Ende,
ein im Uhrzeigersinn
gezeichnetes umgekehrtes Gamma,
ein im Uhrzeigersinn gezeichneter
Kreis,
ein im Uhrzeigersinn gezeichnetes Gamma,
ein rückwärts nach
unten gerichteter Bogen ohne ein freies Ende,
ein rückwärts nach
unten gerichteter Bogen mit einem freien Ende an seinem Anfang,
ein
rückwärts nach
unten gerichteter Bogen mit seinem freien Ende am Anfang,
irgendein
nach links gerichteter oder horizontaler Bogen,
irgendein nach
rechts gerichteter oder horizontaler Bogen,
eine allgemeine
vertikale Komponente,
ein allgemeiner Bogenabschnitt an dem
am weitesten links liegenden Ende von einem Segment, und
ein
nach unten gerichteter Bogen irgendeiner Richtung und ein Bogenabschnitt
am weitesten rechts liegenden Ende von irgendeinem Wortsegment.In the table of
a dash with a wide interruption,
a "wild card" stroke that can mean anything
a general horizontal line,
a maximum feature,
a minimal feature,
an angle without a loop,
a dash with a small interruption,
a point that represents a period, for example,
a crossing point,
a backward upward bow with a free end at the beginning of the bow,
a backward upward bow with a free end at the bow end,
a backward upward bow without free end,
an inverted gamma drawn in counterclockwise strokes,
a circle drawn in counterclockwise strokes,
a gamma drawn with a clockwise stroke,
a forward bow, with no free end,
a forward bow with a free end at the beginning,
a forward bow with a free end at its end,
a forward bow with a free end at its end,
a forward bow with a free end at its beginning,
a forward bow without a free end,
a clockwise inverse gamma,
a circle drawn in a clockwise direction,
a clockwise drawn gamma,
a backward down bow without a free end,
a backward bow with a free end at its beginning,
a backward-looking bow with its free end at the beginning,
any left or horizontal arc,
any right-handed or horizontal arc,
a general vertical component,
a general arc portion at the leftmost end of a segment, and
a downward arc of any direction and an arc portion of the rightmost end of any word segment.
Die
durch die Metastrich-Erkennungseinrichtung
Die
auf Buchstaben basierende Analysatoreinrichtung
Die
auf Buchstaben beruhende Analysatoreinrichtung
Die
Ausgabe der Worterkennungseinrichtung
Danach werden die kritischen Punkte in der Sequenz von Punkten lokalisiert (Schritt G). Sowohl die kritischen Punkte, z.B. Maxima, Minima und Schnittpunkte, als auch die Reihenfolge der kritischen Punkte sind für die Identifikation der Metastriche und der Reihenfolge der Metastriche nützlich. Die kritischen Punkte werden dann zulässigen Vokabular-Metastrichen gegenübergestellt, um die Zeichenfolge der Eingabe-Metastriche zu identifizieren, die zum "Schreiben" eines Prüfwortes herangezogen werden (Schritt H). Schritt H wird für jeden kritischen Punkt des Eingabewortes so lange wiederholt, bis alle kritischen Punkte den Metastrichen gegenübergestellt wurden (Schritt I). Das Ergebnis ist eine Zeichenfolge von Eingabe-Metastrichen, die zum "Schreiben" des Prüfwortes benutzt wird. Die Metastrich-Zeichenfolge wird dann für die weitere Verarbeitung tabelliert (Schritt J).After that the critical points are located in the sequence of points (Step G). Both the critical points, e.g. Maxima, minima and Intersections, as well as the order of critical points are for identification the metastrokes and the order of the metastases. The critical points then become permissible vocabulary metastrokes faced, to identify the string of input metastrokes that for "writing" a test word are used (step H). Step H will work for everyone critical point of the input word repeated until all critical points were confronted with the metastases (step I). The result is a string of input metastrokes that for "writing" the test word is used. The metastroke string will then be for the further processing is tabulated (step J).
Zuerst wird ein "leeres" Wort erzeugt (Schritt K) und in einen Puffer (Schritt L) abgelegt. Ein "leeres" Wort ist ein "Null"-Satz, d.h. ein Wort, das alle Merkmale von Wörtern hat, aber keine Bedeutung hat. Es ist ein Platzhalter, so wie Null ein Platzhalter in einem initialisierten Speicherregister ist.First an empty word is generated (step K) and stored in a buffer (step L). An "empty" word is a "null" sentence, i. a word, all the features of words has, but has no meaning. It's a placeholder, like zero is a wildcard in an initialized memory register.
Der Inhalt des Wortpuffers wird dann getestet, um zu sehen, ob der Wortpuffer leer ist (Schritt M). Falls der Wortpuffer nicht leer ist, wird der nächste Eintrag (die das Prüfwort darstellende Zeichenfolge) aus dem Wortpuffer für die Auswertung gegenüber dem Wörterbuch herausgefunden (Schritt N). Dies findet immer dann statt, wenn eine Eingabezeichenfolge von dem Eingabegerät in dem Wortpuffer abgelegt ist. Unter Verwendung des Wörterverzeichnisses von ganzen Wörtern als Quelle, wird dann eine Liste von allen ("n") möglichen Wörtern kompiliert, die Prüfwörter sind, welche mit dem letzten aus dem Wortpuffer herausgefundenen Eintrag übereinstimmen (Schritt O). Die kompilierte Liste wird dann getestet, um sicher zu sein, daß diese nicht leer ist (Schritt P). (Die Liste kann am Anfang leer sein, wenn der oben erwähnte Test der kritischen Punkte durchgeführt worden ist und keine Übereinstimmungen gefunden wurden. Die Liste kann auch am Ende der auf ganzen Wörtern beruhenden Analyse leer sein, wenn die Liste verbraucht worden ist.) Nach dem Testen zur Bestimmung, daß diese Liste nicht leer ist, wird das "nächste" Vokabularwort in der Liste herausgefunden, um in der Analyse gegenüber dem herausgefundenen Eintrag, d.h. gegenüber dem aus dem Wortpuffer herausgefundenen Eingabeprüfwort, verwendet zu werden (Schritt Q). Das wiederaufgefundene Vokabularwort wird als ganzes Wort mit dem herausgefundenen Eingabeeintrag nach der Erfindung durch die nachfolgend erläuterten dynamischen Programmierungstechniken verglichen, aus denen ein "optimaler Kostenwert" oder eine Maximalbewertung abgeleitet wird, um den Grad der Übereinstimmung zwischen dem Eingabeprüfwort und dem Vokabelwort zu bestimmen (Schritt R). Die Schritte P bis R werden wiederholt, bis die Liste erschöpft ist (Schritt P) oder bis die Maximalbewertung gewissen Akzeptabilitätskriterien genügt (Schritt S). Falls die Liste geleert ist, wird ein Signal "keine Übereinstimmung" ("no match" signal) erzeugt und der Prozeß wird fortgesetzt, indem nach dem nächsten Wort in dem Eingabewortpuffer Ausschau gehalten wird. Falls die Akzeptanzkriterien erfüllt sind, was auch immer für Akzeptanzkriterien dann anwendbar sind, wird das Wort an den Wortausgabepuffer (Schritt T) zur weiteren Verendung, z.B. zur Anzeige oder zur Verarbeitung abgegeben. Der Prozeß geht dann zu der nächsten Eingabe-Metastrichsequenz in dem Eingabepuffer über (Schritte K und L).Of the Content of the word buffer is then tested to see if the word buffer is empty (step M). If the word buffer is not empty, then the next Entry (containing the check word representing string) from the word buffer for evaluation against the dictionary found out (step N). This always happens when one Input string stored by the input device in the word buffer is. Using the dictionary of whole words as a source, then becomes a list of all ("n") compiled possible words, the test words are, which match the last entry found from the word buffer (Step O). The compiled list is then tested to be safe to be that is not empty (step P). (The list may be empty at the beginning, if the above mentioned Test of critical points has been done and no matches were found. The list can also be at the end of the whole words Analysis will be empty if the list has been used up.) After the Testing to determine that this List is not empty, the "next" vocabulary word in the list figured out in the analysis against the found entry, i. opposite to the word buffer found input check word, to be used (step Q). The retrieved vocabulary word is reflected as a whole word with the input entry found out of the invention by the dynamic programming techniques explained below compared, from which an "optimal Cost value "or a maximum rating is derived to match the degree of agreement between the input test word and the vocabulary word (step R). The steps P to R are repeated until the list is exhausted (step P) or until the maximum rating meets certain acceptance criteria (step S). If the list is cleared, a signal "no match" is generated and the process becomes continued by following the next Word in the input word buffer. if the Acceptance criteria met are, whatever for Acceptance criteria are then applicable, the word is sent to the word output buffer (Step T) for further use, e.g. for display or processing issued. The process then goes to the next Input metastroke in the input buffer via (Steps K and L).
Der Schritt der Berechnung der optimalen Anpassung umfaßt zwei Eingaben: Die Eingabesequenz von Metastrichen, die eine Zeichenfolge für ein Wort bilden und das Muster oder die Zeichenfolge von ein bekanntes Wort darstellenden "Vokabular"-Metastrichen aus dem Wörterbuch. Jede Vokabularsequenz von Metastrichen beschreibt einen der zugelassenen Wege zur Wiedergabe eines Wortes. Die Daten zum Analysieren der optimalen Anpassung werden dann aus einer Merkmalkorrelationstabelle und einer Größenkorrelationstabelle extrahiert, wie nachfolgend beschrieben wird.The optimal fit calculation step includes two inputs: the input sequence of metastrokes forming a string for a word and the pattern or string of a known word "vocabulary" metastrokes from the dictionary. Every vocabulary sequence from Me Tastrichen describes one of the permitted ways to render a word. The data for analyzing the optimal fit is then extracted from a feature correlation table and a size correlation table, as described below.
Nur
zur Veranschaulichung folgt ein vereinfachtes Beispiel der Erkennungsprozedur
für ganze
Wörter. Falls
das Wort "run" mit der Hand auf
ein Digitalisierungstableau geschrieben wird, besteht der erste
Schritt darin, eine Eingabe-Metastrichzeichenfolge zu konstruieren
oder eine Sequenz von ausgewählten
strichähnlichen
Ziffern, die auf zugelassenen Strichformen basieren, welche durch
die Analyse der kursiven Handschrift erhalten werden. Die Eingabe-Metastrichzeichenfolge
ist eher eine Serie von Metastrichen als von Punkten oder Buchstaben.
Das Vokabular der Metastriche für
diese Zeichenfolge ist auf eine festgelegte Anzahl von Wahlmöglichkeiten
begrenzt, z.B. auf 20, 30, 40 oder 50 verschiedene Strichformen.
Die obige
Vokabularsegmente vocabulary segments
(Dies ist ein sehr einfaches Wörterbuch mit zwei Wörtern und sieben Zeichenfolgen.)(This is a very simple dictionary with two words and seven strings.)
Während der
Vergleich dadurch erfolgen kann, daß die Eingabe-Metastrichzeichenfolge
und jedes in Metastrichen buchstabierte Wort in dem Wörterverzeichnis
auf Übereinstimmung
hin geprüft
werden, Metastrich für
Metastrich, daß mit
einer Bewertung oder einem Wert jede Position festgehalten wird,
an der eine Übereinstimmung
zwischen den Eingabe-Metastrichen und den Vokabular-Metastrichen
festgestellt wird und daß die
Bewertungen für
die Metastrichübereinstimmungen
für jedes
auf diese Weise getestete Eingabe-Metastrichsegment dann addiert
werden, um für
jeden Eintrag ein "Wort"-Maß (Metrik)
(d.h. eine Übereinstimmungsbewertung)
zu erhalten, ist dieser Prozeß nicht
das, was entsprechend der bevorzugten Ausführungsform der Erfindung in
der Wortanalysatoreinrichtung
In der obigen Tabelle ergeben sich aus dem vereinfachten Vergleichsverfahren die folgenden Ergebnisse unter der Annahme, daß die Maximalbewertungsberechnung eine einfache Summation der Gewichtungen erlaubt und eine Maximalbewertung für eine einzelne Metastrich-Übereinstimmung 6 gleich ist:In The above table results from the simplified comparison method the following results assuming that the maximum score calculation a simple summation of the weights allowed and a maximum rating for one single metastroke match 6 is the same:
Der Bindestrich "-" tritt an der Stelle auf, an der eine Übereinstimmung mit dem Metastrich nicht vorliegt. Die als Metastriche buchstabierten Wörter sind normalerweise durch eine englischsprachige Definition zusammengefaßt, so daß der "Treffer" als ein englischsprachiges Wort mit einer Bewertung dargestellt (gelistet) wird, welche die höchste Bewertung von allen als Metastriche geschriebenen Wörtern in dieser Gruppe ist. Dies wird durch den Asterix "*" am linken Rand, siehe oben, angezeigt.Of the Hyphen "-" occurs at the point on, at which a match not present with the metastroke. The spelled as metastases words are usually summarized by an English-language definition, so that the "hit" as an English-language Word is presented (listed) with a rating which the highest Evaluation of all words written as metastrophic in this group is. This is indicated by the asterix "*" am left margin, see above.
Die englischsprachigen Wörter, die Treffer sind, werden durch ihr höchstes Wortmaß klassifiziert, wobei dieses Maß zuerst normalisiert wird. Es ergibt sich:The English words, the hits are classified by their highest word size, being that measure first is normalized. It follows:
Die normalisierten Wortmaße können in diesem vereinfachten Beispiel dann sowohl mit einem vorbestimmten Grenzwert verglichen werden, um die Akzeptabilität zu bestimmen, als auch untereinander im Hinblick auf ihre Übereinstimmung verglichen werden, um die "Verwirrung" zu bestimmen. Wenn festgestellt wird, daß das Wort akzeptabel ist, wird das Wort dann an einen Wortausgabepuffer ausgegeben. Wenn das Wortmaß den Grenzwert nicht überschreitet, wird das Eingabe-Metastrichsegment durch Substituieren, Addieren und Löschen der Metastriche aus der Liste der englischsprachigen Prüfwörter verändert.The normalized word measures can in this simplified example then both with a predetermined Limit value to determine acceptability, as well as among themselves in terms of their compliance compared to determine the "confusion". If it is stated that the Word is acceptable, the word is then sent to a word output buffer output. When the word measure the Does not exceed the limit, is the input metastroke segment by substituting, adding and Clear changed the metastroke from the list of English-language test words.
Wenn in dem obigen Beispiel ein normalisiertes Maß von 0,77 den Grenzwert nicht überschritten hat, werden verschiedene Metastriche in der Eingabe-Metastrichzeichenfolge addiert, gelöscht oder substituiert, um zu versuchen, eine bessere Übereinstimmung mit einer bekannten Zeichenfolge in dem Wörterverzeichnis zu erhalten und es wird ein weiterer Vergleich mit dem Wort aus dem Wörterverzeichnis gemacht. Additionen und Löschungen werden durch negative Gewichtungen gekennzeichnet, während Substitutionen durch positive Gewichtungen in Abhängigkeit von der "Richtung" und Position der Substitutionen gekennzeichnet werden. Wenn der letzte Metastrich des Eingabesegmentes gelöscht wird, nimmt das normalisierte Maß der ersten "Definition" von "run" von 0,77 auf 0,83 zu, wobei es möglicherweise einen vorbestimmten Grenzwert trifft.If in the above example, a normalized measure of 0.77 did not exceed the limit has different metastrokes in the input metastroke string added, deleted or substituted to try to get a better match with a known string in the dictionary and it will be another comparison with the word from the dictionary made. Additions and deletions are characterized by negative weightings, while substitutions by positive weightings depending on the "direction" and position of the Substitutions are marked. If the last metastroke of the input segment deleted becomes, the normalized measure of the first "definition" of "run" from 0.77 to 0.83 to, possibly it meets a predetermined limit.
Die
Wie
oben angegeben ist, kann das Wörterverzeichnis
infolge der Unterschiede in den möglichen Handschriftarten zahlreiche
Metastrich-"Schreibweisen" für ein einzelnes
Wort haben. In diesem Beispiel wird angenommen, daß es nur
eine Schreibweise von "may" in dem Wörterverzeichnis
gibt, wie in
Um festzustellen, ob die Wörterbuchschreibweise von "may" als mit der Eingabesequenz übereinstimmend angesehen wird, wird eine Wortkorrelationstabelle geschaffen, die als Ganzes die Eingabe-Metastrichzeichenfolge mit jeder Vokabular-Metastrichzeichenfolge vergleicht, welche für eine Übereinstimmung in Frage kommt. Als eine Folge des erfindungsgemäßen Verfahrens, und ein Wortmaß (d.h. ein durch die Wahrscheinlichkeit einer existierenden Übereinstimmung definierter Wert) und ein optimaler "Pfad" durch die Sequenz der Metastrich-Ergebnisse, aber nur nachdem die Verarbeitung der ganzen Metastrichzeichenfolge beendet ist. Je größer das Wortmaß ist, desto größer ist die Übereinstimmung.To determine if the dictionaries of "may" are the same as the input sequence In the meantime, a word correlation table is created that as a whole compares the input metastroke string with each vocabulary metastroke string that is eligible for matching. As a consequence of the method according to the invention, and a word measure (ie a value defined by the probability of an existing match) and an optimal "path" through the sequence of metastroke results, but only after the processing of the whole metastroke string has ended. The larger the word size, the greater the match.
Eingabe-Metastrich-Additionen
und Löschungen
sind gemäß der Erfindung
zulässig,
obwohl mit jeder eine Erschwerung verbunden ist.
Die
Wortkorrelationstabelle von
Die Technik zum Interpretieren der Eingabe-Metastrichzeichenfolge als ein Wort ist unkompliziert, aber erfordert eine umfangreiche Programmierung. In dem dynamischen Programmierungsversuch werden Vergleichs-, Gewichtungs- und Modifizierungsverfahren gleichzeitig ausgeführt. Der Prozeß entspricht dem "Schlängeln" eines "Wurms", um zu sehen, ob dieser auf die Gestalt von "Musterwürmern" ausgerichtet werden kann. Die Additionen, Löschungen und Substitutionen führen dazu, daß sich der Wurm schlängelt. Jede Aktion resultiert in einer Gewichtung oder einer Erschwerung.The Technique for interpreting the input metastroke string as A word is straightforward, but requires extensive programming. In the dynamic programming attempt, comparison, weighting and modification procedures performed simultaneously. The process corresponds the "snaking" of a "worm" to see if these are aligned to the shape of "pattern worms" can. The additions, deletions and substitutions to that the worm meanders. Each action results in a weighting or an aggravation.
Die Schritte der dynamischen Programmierungstechnik umfassen einen Prozeß, in dem eine ganze Metastrich-Zeichenfolge mit allen relevanten Metastrich-Zeichenfolgen in einem Wörterbuch von Wörtern verglichen werden, die als Metastriche "geschrieben" werden, um einen Pfad für die Transformation der Eingabezeichenfolge in eine der Wörterbuch-Metastrichzeichenfolgen aufzubauen und in dem ein Maximalwert oder sogenannte "optimale Kosten" ("optimal cost") bestimmt werden, um die ganze Eingabe-Metastrichzeichenfolge gegenüber jeder Vokabular-Metastrichzeichenfolge zu verarbeiten. Theoretisch kann die gesamte Eingabe-Metastrichzeichenfolge gegenüber allen Zeichenfolgen in dem Wörterbuch verarbeitet werden. Es werden aber normalerweise gewisse beschleunigende Schritte ausgeführt, um den Prozeß zu beschleunigen. (Um den Prozeß zu beschleunigen, brauchen nicht alle Wörterbucheinträge geprüft zu werden, obgleich die Techniken, den Prozeß auf diese Weise zu begrenzen, nicht ein Teil dieses Aspekts der Erfindung sind. Diese Optimierungstechniken nutzen die Merkmale des Wörterbuchs aus. Das Wörterbuch kann z.B. durch eine Anzahl von Strichen ausgebildet sein, oder es kann durch Metastriche "alphabetisiert" sein. Die Auswertung kann auf einer vorwärts gerichteten Metastrichsequenz erfolgen, auf einer entgegengesetzt gerichteten Metastrichsequenz, auf den am besten passenden Wortanfängen und den am besten passenden Wortendungen.) Wie zuvor beschrieben worden ist, umfaßt das Wörterbuch eine "Definition", ein englischsprachiges Wort (oder ein Wort in einer anderen Sprache), das in romanischen Schriftzeichen, d.h. den romanischen Schriftzeichen entsprechenden ASCII-Zeichenfolgen geschrieben ist, was das einzige zu erkennende Wort ist. Folglich gibt es verschiedene Wörterbucheinträge mit derselben "Definition", um den Variationen in der Handschrift Rechnung zu tragen.The Steps of the dynamic programming technique include a process in which an entire metastroke string with all relevant metastroke strings in a dictionary of words which are "written" as metastrokes to a path for the transformation the input string into one of the dictionary metastroke strings in which a maximum value or so-called "optimal cost" is determined, around the whole input metastroke string towards everyone To process vocabulary metastroke string. Theoretically you can the entire input metastroke string against all strings in the dictionary are processed. But there are usually certain accelerating Steps executed to the process accelerate. (To the process too speed up, not all dictionary entries need to be checked, although the techniques to limit the process in this way, are not part of this aspect of the invention. These optimization techniques use the features of the dictionary out. The dictionary can e.g. be formed by a number of strokes, or it can be "alphabetized" by metastases. The evaluation can on a forward directed metastroke sequence, on one opposite directed metastrogram sequence, on the best fitting word beginnings and the most appropriate word endings.) As previously described is included the dictionary a "definition", an English-language one Word (or a word in another language) that is in Romance Characters, i. corresponding to the Romanesque characters ASCII strings are written, which is the only one to recognize Word is. Consequently, there are different dictionary entries with the same "definition" to the variations to take into account in the manuscript.
Die
Metastrich-Merkmalkorrelationsmatrix (d.h. die Daten für die Transformation
von allen Metastrichen in andere) wird als integraler Bestandteil,
wie
Zur
Veranschaulichung wird auf
Für die Einfügungen oder
Additionen:
Für die Löschungen:
α1j i der "Kostenwert" (der in dem Vokabular
des dynamischen Programmierens benutzt wird) oder die kumulative
Bewertung in Element (i, j) für
das Passieren vom Ursprung über
Element (i-1, j-1) ist, indem der Eingabe-Metastrich "b" in der Spaltenposition (j) durch den
Vokabular-Metastrich "a" in der Reihenposition
(i) ersetzt wird (
p(ai,
bj) ein (aus
q(aj, bj) der (aus der
Größenkorrelationstabelle
gewonnene,
α2 der "Kostenwert" oder die kumulative
Bewertung für
das Passieren vom Ursprung über
Element (i-1, j) nach Element (i, j) ist, indem der Vokabular-Metastrich "a" in der Zeilenposition (i) nach dem
Eingabe-Metastrich "b" in Spaltenposition
(j) eingefügt
wird;
α3
der "Kostenwert" für die kumulative
Bewertung zum Passieren vom Ursprung über Element (i, j-1) nach Element
(i, j) ist, indem der Eingabe-Metastrich "b" in
Spalte (j) entlang einer Sequenz von Metastrichen gelöscht wird;
p(aj) ein Erschwerungswert (aus
q(ai) der
Erschwerungswert für
die der vorhergehenden Einfügung
zugeordneten Größe ist (
p(bj) ein Erschwerungswert
(aus
q(bj) ein Erschwerungswert für die der vorgehenden Löschung zugeordneten
Größe ist (
α1 j i is the "cost value" (used in the vocabulary of dynamic programming) or the cumulative score in element (i, j) for passing from the origin through element (i-1, j-1) by the input Metastroke "b" in the column position (j) is replaced by the vocabulary metastroke "a" in the row position (i) (
p (a i , b j ) on (off
q (a j , b j ) of (obtained from the magnitude correlation table,
α2 is the "cost value" or the cumulative score for passing from the origin via element (i-1, j) to element (i, j), by placing the vocabulary metastroke "a" in the line position (i) after the input Metastrich "b" is inserted in column position (j);
α3 is the "cost" for the cumulative score for passing from origin over item (i, j-1) to item (i, j) by deleting the input metastroke "b" in column (j) along a sequence of metastrokes becomes;
p (a j ) an aggravated value (off
q (a i ) is the complication value for the quantity assigned to the previous insertion (
p (bj) is a penalty value (from
q (b j ) is an aggravated value for the quantity assigned to the previous deletion (
Die
bevorzugte Metastrich-Zeichenfolge in jeder Zelle (i, j) ist der
maximale kumulative Bewertungswert Alpha (α) in Zelle (i, j), die aus dem
ersten kumulativen Bewertungswert (α1), dem zweiten kumulativen Bewertungswert
(α2) und
dem dritten kumulativen Bewertungswert (α3) ausgewählt wird. Diese Maximalbewertung
in jeder Zelle stellt die "optimalen
Kosten" in dieser
Zelle entlang irgendeinem Pfad von dem Ursprung in der Wortkorrelationstabelle
von
Ein
besonderes Beispiel kann hilfreich sein. Es sei auf das Element
in Zeile i = 4, Spalte j = 4 in
Zum
Berechnen von α1,
wird Gleichung [1] herangezogen. Aus der Überprüfung der benachbarten diagonalen
Zelle (
Zum
Berechnen von α2
wird Gleichung [2] zum Einsetzen herangezogen. Aus der benachbarten
Zeile oberhalb der Zelle (4, 4) in
Zum
Berechnen von α3,
wird Gleichung [3] zum Einsetzen herangezogen. Aus der benachbarten
links von Zelle (4, 4) liegenden Spalte in
Dieses Verfahren wird für jede Zelle der Wortkorrelationstabelle durchgeführt. Für jede Zelle wird das Maximum α von der Substitution, Addition und Löschung benutzt. Wenn die Wortkorrelationstabelle berechnet wird, wird der Pfad zu jeder Zelle von der benachbarten Zelle, was die Maximalbewertung ergibt, tabelliert. Am Ende des Verfahrens können die Pfade von jeder Zelle (z.B. von der rechten Grenze oder unteren Grenze) zu dem Ursprung (0, 0) zurückgeführt werden. Jeder von diesen Pfaden stellt den optimalen Pfad zwischen dem Ursprung und der ausgewählten Zelle dar. Nach der Erfindung stellt die Zellenposition ganz rechts und ganz unten vom Ursprung den "optimalen Kostenwert" für den optimalen Pfad durch die Wortkorrelationsmatrix für die spezifische mit ihrer Endmarke getesteten und bestimmten Eingabe-Zeichenfolge dar. Die spezifische Eingabe-Metastrichzeichenfolge wird jeder Vokabular-Metastrichzeichenfolge aus dem (sich aus dem Vokabular der zulässigen Metastrichzeichenfolgen zusammensetzenden) Wörterbuch gegenübergestellt, um zahlreiche Wortkorrelationstabellen zu schaffen. Der optimale Kostenwert für die Eingabe-Metastrichzeichenfolge (deren Wert sich aus der Zelle in der letzten Spalte und letzten Zeile ergibt und die dem Ende der Eingabe-Metastrichzeichenfolge und der Vokabular-Metastrichzeichenfolge entspricht) von jeder Wortkorrelationstabelle wird dann mit allen entsprechenden optimalen Kostenwerten von den anderen Wortkorrelationstabellen verglichen. Das Maximum von diesen verschiedenen optimalen Kostenwerten wird dann herangezogen, um die Vokabular- Metastrichzeichenfolge zu identifizieren, welche die Eingabe-Metastrichzeichenfolge am besten mit einem Wort ("Definition") aus dem Wörterbuch korreliert, wobei angenommen wird, daß den minimalen Erkennungskriterien genügt wird. (In anderen Worten bildet ein Maximum, das unterhalb eines akzeptablen Minimums liegt, eine Grundlage für die Anzeige eines Fehlers, die Eingabe-Zeichenfolge als ein Wort zu erkennen.)This Procedure is for every cell of the word correlation table is performed. For each cell, the maximum α of the Substitution, addition and deletion used. When the word correlation table is calculated, the Path to each cell from the neighboring cell, giving the maximum rating results, tabulated. At the end of the procedure, the paths of each cell can (e.g., from the right border or lower border) to the origin (0, 0) are returned. Each of these paths represents the optimal path between the origin and the selected one Cell. According to the invention, the cell position is rightmost and at the very bottom of the origin the "optimal Cost value "for the optimal Path through the word correlation matrix for the specific with their Endmark tested and specific input string. The specific input metastroke string becomes any vocabulary metastroke string from the (from the vocabulary of permissible metastroke strings composing) dictionary faced, to create numerous word correlation tables. The optimal Cost value for the input metastroke string (whose value is derived from the cell in the last column and last row yields and the end the input metastroke string and the vocabulary metastroke string corresponds) of each word correlation table is then with all corresponding optimal cost values from the other word correlation tables compared. The maximum of these different optimal cost values is then used to identify the vocabulary metastroke string which best fits the input metastroke string in one word ("Definition") from the dictionary correlates, assuming that the minimum recognition criteria enough becomes. (In other words, a maximum that is below one acceptable minimum, a basis for the display of an error, recognize the input string as a word.)
Mit dem erfindungsgemäßen System können Wörter, die kursiv mit der Hand geschrieben werden, mit großer Wahrscheinlich erkannt werden. In dem System ist eine genügende Redundanz vorgesehen, das mit einer angemessenen Wahrscheinlichkeit selbst Wörter erkannt werden können, die in einer schlechten Handschrift mit fehlenden Buchstaben und Schreibfehlern geschrieben sind.With the system according to the invention can words, which are written in italics by hand, most likely be recognized. In the system a sufficient redundancy is provided, that with appropriate probability even words recognized can be in a bad handwriting with missing letters and Spelling errors are written.
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4394624A DE4394624B4 (en) | 1992-09-24 | 1993-08-26 | Cursive handwritten word recognition from sequential input information - using construction word correlation tables to select strings of vocabulary metastrokes corresponding to candidate word and identifies most likely match |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US954,351 | 1992-09-24 | ||
US07/954,351 US5313527A (en) | 1991-06-07 | 1992-09-24 | Method and apparatus for recognizing cursive writing from sequential input information |
DE4394624A DE4394624B4 (en) | 1992-09-24 | 1993-08-26 | Cursive handwritten word recognition from sequential input information - using construction word correlation tables to select strings of vocabulary metastrokes corresponding to candidate word and identifies most likely match |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4345583B4 true DE4345583B4 (en) | 2007-01-04 |
Family
ID=37545341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4345583A Expired - Lifetime DE4345583B4 (en) | 1992-09-24 | 1993-08-26 | Cursive handwritten word recognition from sequential input information - using construction word correlation tables to select strings of vocabulary metastrokes corresponding to candidate word and identifies most likely match |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4345583B4 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2087616A (en) * | 1980-01-08 | 1982-05-26 | Nat Res Dev | Apparatus and Method for Generating an Alpha Numeric Output from Shorthand |
US4718102A (en) * | 1983-01-19 | 1988-01-05 | Communication Intelligence Corporation | Process and apparatus involving pattern recognition |
US5140645A (en) * | 1987-10-08 | 1992-08-18 | Whitaker Ranald O | Computer compatible character for reliable reading by photoreader |
-
1993
- 1993-08-26 DE DE4345583A patent/DE4345583B4/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2087616A (en) * | 1980-01-08 | 1982-05-26 | Nat Res Dev | Apparatus and Method for Generating an Alpha Numeric Output from Shorthand |
US4718102A (en) * | 1983-01-19 | 1988-01-05 | Communication Intelligence Corporation | Process and apparatus involving pattern recognition |
US5140645A (en) * | 1987-10-08 | 1992-08-18 | Whitaker Ranald O | Computer compatible character for reliable reading by photoreader |
Non-Patent Citations (1)
Title |
---|
Kamel, K., Imam, I., "A computerized transcription system for cursive shorthand writing". South- eastcon '88., IEEE Conference Proceedings, 11-13, Apr 1988, Pages: 336-339 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69428590T2 (en) | COMBINED LEXICON AND LIST OF CHARACTERS OF HANDWRITING | |
DE19547812C2 (en) | Character string reader | |
DE69030310T2 (en) | Restriction-controlled online recognition of handwritten characters and symbols | |
DE69333431T2 (en) | Method for recognizing handwritten symbols | |
DE69424350T2 (en) | Context-sensitive method of finding information about a word in an electronic dictionary | |
DE69428527T2 (en) | Kritzlervergleich | |
DE3926327C2 (en) | Method and system for recognizing characters on a medium | |
DE69230632T2 (en) | Optical word recognition through word shape analysis | |
Munson | Experiments in the recognition of hand-printed text, part I: character recognition | |
DE69829074T2 (en) | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA | |
EP1665132B1 (en) | Method and system for collecting data from a plurality of machine readable documents | |
DE69525401T2 (en) | Method and device for identifying words described in a portable electronic document | |
DE69231309T2 (en) | Method and system for handwriting recognition | |
DE69730930T2 (en) | Method and device for character recognition | |
DE69610243T2 (en) | Method for training an identification system with character patterns | |
DE60225170T2 (en) | METHOD AND DEVICE FOR DECODING HANDWRITCH SIGNS | |
DE69325204T2 (en) | Method and device for developing an initial collection of handwriting prototypes into a user-specific collection | |
DE69033042T2 (en) | Data processing | |
DE69417105T2 (en) | Device and method for recognizing handwritten symbols | |
DE69425806T2 (en) | Detection of unintended results in a computer system that uses a pen user interface | |
DE69222141T2 (en) | Method and device for recognizing touching and degraded text | |
DE60217299T2 (en) | HOLISTIC-ANALYTICAL DETECTION OF HAND-WRITTEN TEXT | |
DE69610478T2 (en) | CHARACTER RECOGNITION SYSTEM DETERMINATION OF SCANNED AND "REAL-TIME" HAND-WRITTEN CHARACTERS | |
DE69230092T2 (en) | Method and device for character recognition | |
DE69616246T2 (en) | Automatic procedure for identifying omission words in the image of a document without using the OCR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
Q172 | Divided out of (supplement): |
Ref document number: 4394624 Country of ref document: DE Kind code of ref document: P |
|
8110 | Request for examination paragraph 44 | ||
AC | Divided out of |
Ref document number: 4394624 Country of ref document: DE Kind code of ref document: P |
|
AC | Divided out of |
Ref document number: 4394624 Country of ref document: DE Kind code of ref document: P |
|
8364 | No opposition during term of opposition | ||
R071 | Expiry of right | ||
R071 | Expiry of right |