CZ6196A3 - Method of segmentation of draws for hand-writing input - Google Patents

Method of segmentation of draws for hand-writing input Download PDF

Info

Publication number
CZ6196A3
CZ6196A3 CZ9661A CZ6196A CZ6196A3 CZ 6196 A3 CZ6196 A3 CZ 6196A3 CZ 9661 A CZ9661 A CZ 9661A CZ 6196 A CZ6196 A CZ 6196A CZ 6196 A3 CZ6196 A3 CZ 6196A3
Authority
CZ
Czechia
Prior art keywords
curvature
stroke
point
value
points
Prior art date
Application number
CZ9661A
Other languages
Czech (cs)
Inventor
Chris A Kortge
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CZ6196A3 publication Critical patent/CZ6196A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

The method of the present invention includes a step of calculating the derivative (140), or instantaneous rate of change, of the curvature at points in the handwritten input (110). The method then selects as stroke boundary points certain points (or pixels) in the input which lie at a midpoint between a point of high curvature derivative and a succeeding point of low curvature derivative (150). Such boundary points are not influenced by absolute curvature values, but rather only by relative changes in the curvature. The stroke segmentation boundary points are provided to a stroke-based recognizer for interpretation of the handwritten input (170).

Description

Způsob segmentace tahů pro rukopisný vstupMethod of stroke segmentation for handwritten input

Oblast technikyTechnical field

LO σ>LO σ>

rcrc

Tento vynález se všeobecné týká tóze zná ván-í í— ťukijpi pisu a zejména způsobu segmentace tahů pro rukopisnýThe present invention relates generally to the art of tapigraphy and, more particularly, to a method of stroke segmentation for handwriting

7SÍIÍÍ7SÍIÍÍ

Dosavadní stav technikyBACKGROUND OF THE INVENTION

Stroj ové záležitost a prostředků s úkolem, kterému je různých přístupů k rozdělení rukopisu tahů'Machine affair and resources with the task of taking different approaches to splitting handwriting strokes'

UZltl rozpoznávání lidského rukopisu je velmi složitá se současným prudkým rozšiřováním výpočetních možností vstupu pomocí pera se stalo důležitým třeba se věnovat. Existuje velké množství jeho řešení. Jedním užitečným přístupem je do posloupnosti základních pohybů neboli těchto tahů, které jsou určitým způsobem parametrizovány, jako vstupů znakového rozpoznávače.UZltl recognition of human handwriting is very complex with the simultaneous rapid expansion of computational pen input options has become important to be addressed. There are a large number of its solutions. One useful approach is to enter a sequence of basic moves, or these moves, which are parameterized in some way, as inputs of a character recognizer.

Klíčovou podmínkou u rozpoznávače na základě tahů je, že mnohé případy stejné znakové třídy (např. písmeno A napsané v různých časech různými pisateli) by měly být pokaždé rozděleny do podobného souboru .tahů. Toto pomáhá zabezpečit, že rozpoznávání není příliš složité, neboť popis znakových případů se bude jevit znakovému rozpoznávači podobně. Ideálně by všechny případy daného znaku vždy obsahovaly stejný počet tahů, všechny tahy by byly ve stejné relativní poloze a popisy vlastností tahů by byly velmi podobně ve všech případech. Tento ideál není v praxi dosažitelný, ale přesnost rozpoznávání může být zlepšena do té míry, do jaké se mu lze přiblížit.A key condition for a stroke-based recognizer is that many instances of the same character class (eg, the letter A written at different times by different writers) should always be divided into a similar set of strokes. This helps to ensure that recognition is not too complicated, since character case descriptions will appear similar to character recognition. Ideally, all instances of a given feature would always contain the same number of strokes, all strokes would be in the same relative position, and the stroke property descriptions would be very similar in all cases. This ideal is not achievable in practice, but the accuracy of recognition can be improved to the extent that it can be approached.

_______V_j ednom______z—dosud—už-í-vaných—způsobů—jsou—hranice—Jtatiů umístěny v bodech, kde rychlost pera ve vertikálním (nebo y) směru je nulová, tzn. v bodech, kde se písmo začíná pohybovat nahoru či dolů. Vznikající soubory tahů mohou být tedy nazvány tahy nahoru” a tahy dolů. Tento způsob je diskutován v práci Mermelstein & Eden, Experiments on Computer Recognition of Connected Handwritten Vords, v Information and Control, sv.7, Sír.255-270, 1964. Jednou z nevýhod tohoto způsobu je skutečnost, že je příliš citlivý na změny ve vertikálním směru a necitlivý na změny v horizontálním směru. Mnoho znaků je ale složeno z horizontálních částí - např. vodorovná čárka t a tři nožičky E jsou obvykle mnohem vice horizontální než vertikální, dokonce i u nedbalého rukopisu. Segmentovač tahů založený na rychlosti ve směru y rozdělí někdy horizontální část do jednoho tahu, ale často ji rozdělí do dvou, tři či více tahů, jednoduše kvůli drobnému chvění pera ve vertikálním směru. Toto vede k nízké rozpoznávací přesnosti, neboř mnohé případy stejného znaku budou často segmentovány do rozdílně ' vypadajících souborů tahů. Pokusy opravit nepřesnosti tohoto způsobu, zahrnující požadavek minimální změny ve vertikálním směru před vytvořením nového tahu, měly jen omezenou úspěšnost a mnoho stejných základních problémů stále zůstává._______ In one ______ of — yet-used — methods, the boundaries of the jtati are located at points where the speed of the pen in the vertical (or y) direction is zero, i. at points where the font begins to move up or down. The resulting stroke sets can therefore be called upstrokes ”and downstrokes. This method is discussed in Mermelstein & Eden, Experiments on Computer Recognition of Connected Handwritten Vords, in Information and Control, vol.7, pp.255-270, 1964. One of the drawbacks of this method is that it is too sensitive to changes in the vertical direction and insensitive to changes in the horizontal direction. However, many characters are composed of horizontal parts - for example, the horizontal line t and the three legs E are usually much more horizontal than vertical, even in a sloppy manuscript. The y-speed-based stroke segmentator sometimes divides the horizontal portion into one stroke, but often divides it into two, three, or more strokes, simply because of the small vibration of the pen in the vertical direction. This leads to low recognition accuracy, since many instances of the same feature will often be segmented into different looking stroke sets. Attempts to correct the inaccuracies of this method, including the requirement of minimal change in the vertical direction before creating a new thrust, have had limited success and many of the same underlying problems still remain.

Jiný současný způsob řeší tento problém umístěním hranic tahů do bodů, kde zakřivení je ve svém lokálním ( maximu a přesahuje určitou prahovou hodnotu, jež odpovídá ostrým ohybům v rukopise. Jelikož se ostrý ohyb může vyskytnout bez ohledu na směr, kterým se pero pohybuje, není tato metoda citlivá na orientaci různých částí rukopisného vstupu, jako jsou slova nebo znaky. Technika založená na zakřivení má ale též své nedostatky. Předpokládejme např., že někdo píše L · s velmi povlovným zakřivením, spíše než se zakřivením ostrým, takže začne vypadat více jako C”. V tomto případě může způsob selhat při segmentaci L, pokud nebylo dosaženo prahového zakřivení požadovaného pro hranice tahů. Pouhé snížení prahové hodnoty problém neřeší, neboř to by vedlo jen k nepřiměřenému počtu tahů. Příliš velký počet jednotlivých tahů je stejně 'nežádoucí, jako jejich 'příliš malý' počet, neboř to opět znamená, že mnohé případy stejného znaku jsou často segmentovány do různých typů tahů.Another current method solves this problem by placing stroke boundaries at points where the curvature is at its local ( maximum and exceeds a certain threshold value that corresponds to sharp bends in the manuscript. Since sharp bending may occur regardless of the direction in which the pen moves) this method is sensitive to the orientation of different parts of handwriting, such as words or characters, but the technique of curvature also has its drawbacks, for example, suppose someone writes L · with a very pronounced curvature rather than a sharp curvature, so it starts to look more In this case, the method may fail on segmentation L if the threshold curvature required for stroke boundaries has not been reached. Simply lowering the threshold does not solve the problem, as this would result in an excessive number of strokes. like their 'too small' count, or This again means that many cases of the same character are often segmented into different types of strokes.

Je tedy potřebný způsob segmentace, který je přesnější a nemá nedostatky uvedených způsobů, jako je způsob rychlosti ve směru ý a existující způsob zakřivení.Thus, a segmentation method is needed which is more accurate and does not have the drawbacks of said methods, such as the speed direction method and the existing curvature method.

Podstata vynálezuSUMMARY OF THE INVENTION

V souladu s předloženým vynálezem je realizován způsob segmentace rukopisného vstupu do tahů, jejichž počet jeIn accordance with the present invention, a method of segmenting a handwriting input into a number of strokes is implemented

V konzistentní pro mnoho případů každé jednotlivé znakové třídy.In consistent for many cases, each individual character class.

předložený vynález poskytuje způsob segmentace rukopisného vstupu do tahů, jež jsou si podobné tvarem a umístěním pro mnoho případů každé jednotlivé znakové třídy na vstupu.the present invention provides a method of segmenting handwritten entry into strokes that are similar in shape and location for many cases of each individual character class at the entry.

Způsob podle předloženého vynálezu obecně zahrnuje krok výpočtu derivace neboli okamžité hodnoty změny zakřivení v bodech rukopisného vstupu. Tento způsob potom vybírá jako body hranice tahu určité body (neboli obrazové prvky) ve vstupu, které leží mezi bodem vysoké derivace zakřivení a následným bodem nízké derivace zakřivení . Takové hraniční body nejsou ovlivněny absolutními hodnotami zakřiveni, ale spíše jen relativními změnami v zakřivení.The method of the present invention generally comprises the step of calculating the derivative or instantaneous value of the curvature change at the handwriting entry points. The method then selects certain points (or pixels) in the input that lie between the high derivative of the curvature and the subsequent low derivative of the curvature as the stroke boundary points. Such boundary points are not affected by absolute curvature values, but rather only by relative changes in curvature.

_______Přehled obrázků na výkresech ________ Overview of the drawings _

Obr.l zobrazuje vývojový diagram postupu identifikování hranic tahů v souladu s výhodným provedením předloženého vynálezu.Fig. 1 shows a flow chart of a procedure for identifying stroke boundaries in accordance with a preferred embodiment of the present invention.

Obr. 2 Giant. 2 zobrazuje segmentaci shows segmentation rukopisného handwriting vstupu entry do to tahů moves vytvořenou created předcházejícim způsobem before rychlosti ve speed at směru y y direction Obr.3 vytvořenou Fig.3 created zobrazuje segmentaci předcházejícím způsobem displays segmentation in the previous way rukopisného zakřivení. handwriting curvature. vstupu entry do to tahů moves Obr. 4 Giant. 4 zobrazuje segmentací segmentation rukopisného handwriting vstupu entry do to tahů moves

vytvořenou výhodným provedením předloženého vynálezu.produced by a preferred embodiment of the present invention.

Obr.5 zobrazuje body vytvářející písmeno L tak, jak jsou přijaty z digitizéru .Figure 5 shows the points forming the letter L as received from the digitizer.

Obr.6 zobrazuje body vytvářející písmeno L po převzorkování na konstantní vzdálenosti v souladu s výhodným provedením předloženého vynálezu.Fig. 6 shows points forming the letter L after resampling at a constant distance in accordance with a preferred embodiment of the present invention.

Na obr.7 je rozložený pohled zobrazující výpočet zakřivení ve výhodném provedení předloženého vynálezu.Fig. 7 is an exploded view showing the curvature calculation in a preferred embodiment of the present invention.

Obr.8 graficky zobrazuje hodnoty zakřivení vypočítané pro každý bod v obr.7.Figure 8 graphically shows the curvature values calculated for each point in Figure 7.

Obr.9 graficky zobrazuje derivace hodnot vypočítané pro každý bod z obr.7.Figure 9 graphically depicts derivative values calculated for each point of Figure 7.

zakřivenícurvature

Příklady provedení vynálezuDETAILED DESCRIPTION OF THE INVENTION

Rukopisný znakový vstup je obvykle získáván od~užTvatele ve formě oddělených spojitých segmentů. Oddělený spojitý segment se skládá z jednoho či více tahů pera, kde tah pera je stopa, kterou pero zanechává' během'doby svého kontaktu - se vstupním zařízením-, jako je digitalizační tablet nebo papír.Typically, handwritten character input is obtained from the user in the form of separate continuous segments. A separate continuous segment consists of one or more pen strokes, where the pen stroke is the trace that the pen leaves 'during' its contact time - with the input device - such as a digitizing tablet or paper.

V předloženém vynálezu jsou rcgpoznáv&né jednotky rukopisného vstupu tvořeny jedním či více odělenými spojitými segmenty. Rukopisný vstup je vstup, který je snímán elektronicky, což zahrnuje, ale není omezeno na následující: rukopisný vstup; elektronický vstup; vstup snímaný tlakem, jako je tiskový vstup; vstup přijímaný elektronicky, jako například faxem, přijímačem rádiového vyhledávacího systému, nebo jiným zařízením.In the present invention, the recognizable handwriting input units are formed by one or more clad continuous segments. Handwriting input is an input that is scanned electronically, including but not limited to: handwriting input; electronic input; a pressure sensed input, such as a print input; input received electronically, such as by fax, radio search system receiver, or other device.

Tah je vyjádřen jako posloupnost bodů vzorkovaných v přibližně pravidelných intervalech vstupním zařízením. Každý bod je určen minimálně souřadnicemi x a y. Tahy mohou být snímány elektronicky za použití digitalizačního tabletu nebo jinak mohou feř ' být odvozeny od skenovaného nebo faxovaného obrazu procesem t řádkové detekce v obrazu; takové metody elektronického snímání jsou v oboru známy. Ve výhodném způsobu je rukopisný vstup přijímán zařízením jako je osobní číslicový pomocník (PDA) nebo jiné zařízení. Další prostředky, které slouží k příjmu rukopisného vstupu, zahrnují, ale nejsou omezeny na následující: počítače, modemy, přijímače rádiového vyhledávacího systému, telefony, číslicové televize, interakční televize, zařízení mající digitalizační tablet, telefaxová zařízení, skanovaci * zařízení a další zařízení schopná snímat rukopisný vstup. Obecně, když jsou tahy snímány elektronicky, je každý bod vyjádřen i- obrazovým prvkem tak, že tah je vyjádřen jako řada obrazových prvků na zařízení.The stroke is expressed as a sequence of points sampled at approximately regular intervals by the input device. Each point is determined at least by x and y coordinates. The strokes may be scanned electronically using a digitizing tablet or otherwise may be derived from a scanned or faxed image by a t-line image detection process; such electronic scanning methods are known in the art. In a preferred method, handwriting input is received by a device such as a personal digital assistant (PDA) or other device. Other means for receiving handwritten input include, but are not limited to: computers, modems, radio search system receivers, telephones, digital televisions, interactive televisions, digitizing tablet devices, fax machines, scanning devices, and other devices capable of capture handwriting input. Generally, when strokes are sensed electronically, each point is represented by an i-image element such that the stroke is expressed as a series of pixels on the device.

V souladu s předloženým vynálezem může být rukopisný vstup ve formě alfanumerických znaků, ideografických znaků, nebo j iných forem znaků či symbolů psané komunikace-.’In accordance with the present invention may be handwritten input in the form of alphanumeric characters, ideographic characters or other forms of j characters or symbols of written communication -. '

Obr .2 a obr. 3 rukopisného vstupu v interpretaci vstupu, rozpoznávače na základě stejného alfanumerického ystupu jako v zobrazují segmentaci tahů alfanumerického s vysokou pravděpodobností nepřesností když segmentace tahů přijde do tahů. Obr.4 zobrazuje segmentaci tahů segmentace tahů prováděna v souladu spředloženým vynálezem a taková segmentace tahů má vysokou pravděpodobnost přesné interpretace při příchodu do rozpoznávače na základě tahů.2 and 3 of the handwriting input in the interpretation of the input, the recognizers based on the same alphanumeric input as in represent the alphanumeric stroke segmentation with a high probability of inaccuracy when stroke segmentation comes into strokes. Fig. 4 shows stroke segmentation Stroke segmentation performed in accordance with the present invention, and such stroke segmentation has a high probability of accurate interpretation as it arrives at the recognizer based on strokes.

Obr.l zobrazuje vývojový diagram výhodného způsobu v souladu s předloženým vynálezem. Rukopisný vstup z digitizéru či jiného zařízení je přijímán ve formě souřadnic x a y 110 (s přidruženými stavy zdviženého nebo spuštěného pera). Typicky jsou tyto body prezentovány obrazovými prvky. Předložená metoda obecně převzorkovává rukopisný vstup za účelem získání bodů, jež jsou rovnoměrně rozmístěny v celé délce rukopisného vstupu 120. Obr. 5 zobrazuje příklad písmena L 500 jako řady bodů nebo obrazových prvků před převzorkováním. Obr.6 zobrazuje totéž písmeno ”L 600 jako řadu bodů nebo obrazových prvků po převzorkování. Převzorkování se děje užitím mezibodové vzdálenosti d 610. která je konstantní v celém rukopisném vstupu. Nejlépe je hodnota d vybrána tak, že střední hodnota vstupní výšky rukopisného vstupu je přibližně v rozmezí 15krát až 30krát d. Například v obr.6 je hodnota d vybrána tak, že střední’ hodnoty výšky písmena ve slově je přibližně v rozmezí 15krát až 30krát d.Fig. 1 shows a flow chart of a preferred method in accordance with the present invention. Handwriting input from a digitizer or other device is received in the form of x and y coordinates 110 (with associated pen raised or lowered states). Typically, these dots are represented by pixels. The present method generally resample handwritten input to obtain points that are equally spaced over the length of handwritten input 120. FIG. 5 shows an example of an L 500 as a series of dots or pixels prior to resampling. Fig. 6 shows the same letter " L 600 as a series of dots or pixels after resampling. Resampling is done using a point-to-point distance d 610 that is constant throughout the handwriting input. Preferably, the value of d is selected such that the mean value of the handwriting input height is approximately between 15 and 30 times d. For example, in Figure 6, the value of d is selected so that the mean value of the letter height in the word is approximately 15 to 30 times d. .

Výhodné provedení v obr.l vypočítává zakřivení v každém převzorkovaném bodě 130. Obr.7 ilustruje graficky popis dat pro výpočet zakřivení v bodě R 710. Zakřivení v převzorkovaném boděThe preferred embodiment in Fig. 1 calculates the curvature at each resampling point 130. Fig. 7 illustrates graphically the description of the data for calculating the curvature at point R 710. The curvature at the resampled point

ΊΊ

R 710 je definováno jako vzdálenost k bodu následujícímu po R (bod R+l 730) od bodu P 720. získanému lineární projekcí od bodu préčicházej rčímu— R (R-T; 750)' pres vlast n' í R ; Tato-------vzdálenost je znázorněna na obr.7 jako prvek 740 . Zakřivení v koncových bodech rukopisného vstupu je definováno jako stejnéR 710 is defined as the distance to the point following R (point R + 1730) from the point P 720. obtained by linear projection from the point of the upstream r-R (R-T; 750) through its own R; This distance is shown in Figure 7 as element 740. The curvature at the endpoints of handwritten input is defined as the same

-v odpovídaj ících- nej bližších- sousedních . bodech--------Zakřivení . ve vnitřních bodech rukopisného vstupu může být též vypočteno projekcí dvou bodů vzdálených od R, spíše než jednoho bodu •fa, použitím bodu, který je dva body ořed R, spíše než bodu F.-l) . aby byl získán odhad odolnější chybám. Obr.8 zobrazuje graficky hodnoty zakřivení získané probody znázorněné na obrT7:in the corresponding-neighbor-neighbors. points -------- Curvature. at the internal points of the handwritten entry it can also be calculated by projecting two points distant from R, rather than one point • f, using a point that is two points centered R rather than point F.-1). to get a more robust error estimate. Fig. 8 shows graphically the curvature values of the obtained probe shown in Fig. 7:

Například výše zmíněný přiklad písmene L s povlovným zahnutím může být segmentován do vertikálního a horizontálního tahu pokud dvě rovné” části L jsou podstatně rovnější než ohyb mezi nimi. Zakřivení by se tedy zvyšovalo směrem k ohybu (tj . derivace zakřivení by byla vysoká) a snižovalo směrem od ohybu (derivace zakřivení by byla nízká), což dovoluje mít hranici tahu v ohybu, nebo blízko něj, jak je požadováno.For example, the aforementioned example of an L with a pronounced curvature can be segmented into vertical and horizontal strokes if the two straight L portions are substantially more straight than the bend between them. Thus, the curvature would increase towards the bend (i.e., the derivative of the curvature would be high) and decrease from the bend (the derivative of the curvature would be low), allowing the bending stroke to be at or near the bend as desired.

Bylo-li ve výhodném provedení předloženého vynálezu již jednou získáno zakřivení pro každý převzorkovaný bod, skupina zakřivení pro převzorkované body může být vyhlazena, aby byly minimalizovány jakékoli známé artefakty zavedené digitalizačním procesem. Typ vyhlazení, které má být provedeno by měl být standardní způsob, který je vybrán na základě konkrétních digitalizačních znaků. Toto může zahrnovat bodu s jeho sousedními body (vážení bodu vyšších bodů) a náhrada hodnoty zakřivení ve zmíněném bodě vypočítaným průměrem. Ideálně by velikost zde použitého vyhlazovacího okna měla být širší v oblastech nízkého zakřivení písma a užší v oblastech velkého zakřivení, aby byly minimalizovány ztráty důležitých informací při vyhlazovacím zprůměrování hodnoty samého a nej bližších procesu. Jelikož je předmětem vyhlazováni zakřivení samo, jeden výhodný způsob vyhlazování je_výpočet počátečních zaTcřivenl,kde vyhlazení je založeno na těchto zakřiveních, a potom znovuvyhlazení založené na nově vypočítaných zakřiveních.If, in a preferred embodiment of the present invention, the curvature for each resampling point has already been obtained, the curvature group for the resampling points may be smoothed to minimize any known artifacts introduced by the digitization process. The type of smoothing to be performed should be the standard method that is selected based on the particular digitizing features. This may include a point with its adjacent points (weighting of the point of higher points) and replacing the curvature value at said point with a calculated average. Ideally, the size of the anti-aliasing window used herein should be wider in areas of low curvature of the font and narrower in areas of high curvature to minimize the loss of important information when smoothing averages the value of the process itself. Since the object of smoothing the curves itself, one preferred smoothing method is to calculate the initial curves where smoothing is based on these curves, and then re-smoothing based on the newly calculated curves.

Ve výhodném provedení předloženého vynálezu je pro každý převzorkovaný bod vypočítána absolutní hodnota zakřivení vynásobením každé záporné hodnoty zakřivení hodnotou -1. Absolutní hodnoty 'zakřiveni jsou pro výpočet derivací'zakřivení používány spíše než skutečné hodnoty zakřivení, protože celkově výhodná provedení předloženého vynálezu se zabývají pouze ostrosti ohybů v písmu, a ne kterým směrem se daný ohyb zakřivuje.In a preferred embodiment of the present invention, an absolute curvature value is calculated for each resampling point by multiplying each negative curvature value by -1. Absolute curvature values are used for calculating curvature derivatives rather than actual curvature values, since the overall preferred embodiments of the present invention deal only with the sharpness of the font bends and not in which direction the bend curves.

Jak je zobrazeno v obr.l, proces dále pokračuje výpočtem derivace zakřivení v každém převzorkovaném bodě 140. Podle obr. 7 je derivace zakřiveni v bodě R definována jako absolutní hodnota zakřivení v bodě R+l mínus absolutní hodnota zakřivení v bodě R-l děleno dvěma (tj.sklon křivky zakreslených hodnot zakřivení). Obr.9 graficky zobrazuje derivaci zakřivení získanou v každém bodě uvedeném v obr.7. Podobně jako při použití více než dvou bodů ke získání přesnější hodnoty zakřivení, jak je popsáno výše, derivace zakřivení by mohla být vypočtena pomocí širšího okna (pět bodů oproti třem) kde existují relevantní body, a užšího okna (dva body oproti třem), tam kde je to nutné. Jelikož derivace zakřivení nemůže být vypočítána v koncových bodech napsaného segmentu, derivace zakřivení v koncových bodech je jednoduše definována jako stejná v odpovídajících sousedních bodech.As shown in FIG. 1, the process continues by calculating the curvature derivative at each resampling point 140. According to FIG. 7, the curvature derivative at R is defined as the absolute curvature at R + 1 minus the absolute curvature at R1 divided by two ( ie the slope of the curve of the plotted curves). Figure 9 graphically illustrates the curvature derivative obtained at each point shown in Figure 7. Similar to using more than two points to obtain a more accurate curvature value as described above, the curvature derivative could be calculated using a wider window (five points vs. three) where relevant points exist, and a narrower window (two points vs. three) there where necessary. Since the curvature derivative cannot be calculated at the endpoints of the written segment, the curvature derivative at the endpoints is simply defined as the same at the corresponding adjacent points.

Podle obr.l a 9 výhodné provedení způsobu dále zkoumá nově vypočítané pole hodnot derivací zakřivení za účelem určení bodů, kde je derivace ve svém lokálním ipaximu 910 (definovaném tak, že zahrnuje body na konci obratu křivky a začínající klesat) nebo kde je derivace ve svém lokálním minimu 920 (definovaném tak, že zahrnuje body na konci obratu~Tčr~ívRy «“začínající stoupat) . Pro každou oblast vstupu (v čase) po lokálním maximu a před lokálním minimem je určen středový bod sekce (vyjádřený v délce oblouku sekce) '930'. Tento ~středový bod je definován - - jako- M - 9-30 .- -Pokud rozdíl mezi hodnotami lokálního maxima a lokálního minima sekce překročí prahovou hodnotu T 940 a absolutní hodnota zakřivení bcdě M jřekročí určito» prahovou hodnotu TReferring to Fig. 1a, a preferred embodiment of the method further examines a newly calculated array of curvature derivative values to determine points where the derivative is in its local ipaxime 910 (defined to include points at the end of the curve turnover and beginning to descend) or where the derivative is in its a local minimum of 920 (defined to include points at the end of the turnover beginning with ascending). For each entry area (in time) after the local maximum and before the local minimum, the center point of the section (expressed in section arc length) is determined to be '930'. This midpoint is defined - - as - M - 9-30 .- If the difference between the local maximum and local minimum values of the section exceeds the threshold value T 940 and the absolute value of the curvature at w M exceeds a certain threshold value T

Í820’;Í820 ’;

vybrán jako hranice tahu 150.selected as stroke boundary 150.

Parametry T a T musí být odhadnuty a závisejí na jednotkách, ve kterých jsou měřena zakřiveni a derivace zakřivení. Přesné hodnoty zde nejsou kritické, pokud je používán znakový rozpoznávač tolerující chyby. Při provádění jakéhokoli experimentálního vyladění těchto nebo jakýchkoli jiných parametrů pro /vytvoření specifického provedení vynálezu je požadovaným cílem' dosažení co nejstejnorodější segmentace pro mnoho případů jednotlivých znakových tříd. Toto by mělo být provedeno empiricky, zkoumáním jak procedura segmentuje různé skutečné vzorky písma, jež má být rozpoznáváno.The parameters T and T must be estimated and depend on the units in which the curvature and the curvature derivative are measured. Exact values are not critical here when an error tolerant character recognizer is used. In performing any experimental tuning of these or any other parameters to / create a specific embodiment of the invention, the desired goal is to achieve as homogeneous segmentation as possible for many cases of individual character classes. This should be done empirically, by examining how the procedure segments the various actual font samples to be recognized.

JKromě již popsaných zvolených hraničních bodů tahů, jsou jako hraniční body tahů zvoleny body, kde se pero zvedá či spouští. Ve výhodném provedení předloženého vynálezu mohou být hraniční body založeny na derivaci zakřivení posunuty až. o dva bodů, kde absolutní hodnoty Posunutím hraničních bodů může být zlepšeno určení body, což zakřivení založených hraničních způsobí, že padnou do jsou maximální 160. na derivaci zakřivení bodů tahů tím, že jak míra zakřivení tak derivace zakřivení poskytnou stejné hranice tahu. Tato výhodná aplikace předloženého vynálezu je ale prováděna pro daný bod pouze tehdy, pokud nebudě vytvořen žádný tah složený z méně než tří bodů.JIn addition to the selected stroke boundary points described above, points where the pen is raised or lowered are selected as stroke boundary points. In a preferred embodiment of the present invention, the boundary points based on the curvature derivative may be shifted to. by two points where absolute values By shifting the boundary points, the determination of the points can be improved, causing the curvature of the established boundary to fall to a maximum of 160. to derive the curvature of stroke points by providing both the curvature rate and the curvature derivative provide the same stroke boundaries. However, this preferred application of the present invention is performed for a given point only if no stroke consisting of less than three points is created.

______Soubor hraničních bodů tahu de f i nu ie „v_ soulad u_-s-_před loženým vynálezem soubor odpovídajících tahů. Tyto tahy mohou být pak postoupeny znakovému rozpoznávací na základě tahů za účelem rozpoznávání rukopisného vstupu.The set of boundary stroke points is defined in accordance with the present invention by a set of corresponding strokes. These strokes can then be passed to the character recognition based on the strokes to recognize handwriting input.

Předložený vynález a jeho výhodná provedení se týkají nových, přesnějších metod segmentace tahů. V souladu 5 předloženým vynálezem· je v mnoha případech rukopisného vstupu vstup pokaždé opakovaně rozdělen do podobných souborů tahů. Například, pokud je rukopisným vstupem písmeno L, napsané v různých časech různými pisateli, předložený vynález a jeho výhodná provedení by pokaždé přesněji rozděl-ily vstup písmene L do podobných hraničních bodů segmentace tahů bez ohledu na rozdíly různých pisatelů. Taková segmentace tahů by pomohla v zajištění přesnější interpretace rozpoznávačem na základě tahů.The present invention and its preferred embodiments relate to new, more accurate stroke segmentation methods. In accordance with the present invention, in many cases of handwritten input, the input is repeatedly divided into similar sets of strokes each time. For example, if the handwritten entry is an L written at different times by different writers, the present invention and its preferred embodiments would each time more precisely divide the L entry into similar stroke segmentation breakpoints regardless of the differences of the different writers. Such stroke segmentation would help to provide a more accurate interpretation by stroke-based recognizer.

Odborníci v daném oboru zjistí, že je možné použít mnoho provedení současného vynálezu. Jedno zřejmé rozšíření je z případu zde popsaného tisknutého rukopisu na případ spojovaného písma. Předkládaný způsob segmentace tahů je nezávislý na způsobu oddělování znaků, a tudíž techniky spojovaného písma mohou snadno využít segmentace tahů. Jiným provedením by skanovaného nebo nespřaženého písma aplikace předloženého vynálezu na takový problém ztenčení, písma, aby bylo dosaženo konstantní křivky. Hranice tahů by potom mohly být stanoveny dovoluj ící zpracování zde popsaného způsobu mohla být segmentace do tahů. Přímý způsob by spočíval ve šířky napsané jak v bodech založených na derivaci zakřivení, tak v průsečíkových bodech, jelikož chybějící časová informace způsobuje, že průsečíky a dotýkající se ohyby vypadají podobně.Those skilled in the art will recognize that many embodiments of the present invention may be used. One obvious extension is from the case of the printed manuscript described herein to the case of the combined script. The present stroke segmentation method is independent of the character separation method, and therefore, the blended font techniques can easily utilize stroke segmentation. By another embodiment, the scanned or unbroken font would apply the present invention to a font thinning problem such that a constant curve is obtained. The stroke boundaries could then be determined allowing processing of the method described herein could be stroke segmentation. A straightforward method would consist of a width written at both the curvature derivative points and the intersection points, because the lack of time information makes the intersections and the touching bends look similar.

Claims (7)

— 1. Způsob rozpoznávání—rukopisného znakufsložea^fe»^ množíny.1. A method of recognizing a handwritten character in a set and a set. zbarvených obrazových bodů, zahrnující kroky:colored pixels, comprising the steps of: výpočet hodnoty derivace zakřivení pro každý z množiny zbarvených obrazových bodů, kde každá hodnota derivace zakřiveni představuje rychlost změny absolutního zakřivení v odpovídajícím obrazovém bodě,calculating the value of the curvature derivative for each of the set of colored pixels, where each value of the curvature derivative represents the rate of change of the absolute curvature in the corresponding pixel, - výběr souboru hranic tahů tak, že každá hranice tahu leží mezi zbarveným obrazovým bodem s vysokou hodnotou derivace zakřivení a následným zbarveným obrazovým bodem s nízkou hodnotou derivace zakřivení,- selecting a set of stroke boundaries such that each stroke boundary lies between a colored pixel with a high curvature derivative value and a subsequent colored pixel with a low curvature derivative value, - určení souboru tahů tak, že každá hranice tahů je umístěna na konci tahu,- specifying a set of strokes such that each stroke boundary is located at the end of the stroke, -í,výpočet alespoň jedné hodnoty vlastnosti tahu pro každý tah, za účelem vytvoření sady vlastností znaku,-i, calculating at least one stroke property value for each stroke to form a set of character properties, - použití sady vlastností znaku k určení identity zmíněného rukopisného znaku.using the feature set to determine the identity of said handwriting. 2. Způsob podle nároku 1, kde zbarvený obrazový bod s vysokou hodnotou derivace zakřivení má lokálně maximální hodnotu derivace zakřivení a následný zbarvený obrazový bod s nízkou hodnotou derivace zakřiveni má lokálně minimální hodnotu derivace zakřivení.The method of claim 1, wherein the high-value curvature colored pixel has a locally maximum curvature derivative value and the subsequent low-curvature colored pixel has a locally minimum curvature derivative value. 3. Způsob podle nároku 2, kde každá hranice tahu leží v bodě ___poloviční vzdálenosti mezi zbarveným obrazovým bodem s lokálně muximální hodnotou derivace zakřivení a zbarveným obrazovým bodem s lokálně minimální hodnotou derivace zakřivení.The method of claim 2, wherein each stroke boundary lies at a point polov half the distance between the colored pixel having a locally muximal curvature derivative value and the colored pixel having a locally minimal curvature derivative value. 4. Způsob podle nároku 1, kde každá hranice tahu leží v bodě lokálně maximální absolutní hodnoty zakřivení.The method of claim 1, wherein each stroke boundary lies at a locally maximum absolute curvature point. 5. Způsob rozpoznávání rukopisného znaku složeného z posloupnosti bodů, kde každý bod sestává ž ‘hodnot- tří prostorových souřadnic, zahrnující kroky:A method of recognizing a handwriting feature composed of a sequence of points, wherein each point consists of ž values - three spatial coordinates, comprising the steps of: výpočet hodnoty derivace zakřivení . pro každý z množiny bodů, kde každá hodnota derivace zakřivení představuje rychlost změny absolutního zakřivení v odpovídajícím bodě,calculating the value of the curvature derivative. for each of the set of points, where each value of the curvature derivative represents the rate of change of the absolute curvature at the corresponding point, - výběr souboru hranic tahů tak, že každá hranice tahu leží mezi bodem s vysokou hodnotou derivace zakřivení a následným bodem s nízkou hodnotou derivace zakřivení,- selecting a set of stroke boundaries such that each stroke boundary lies between a point with a high curvature derivative value and a subsequent point with a low curvature derivative value, - určení souboru tahů tak, že každá hranice tahů je umístěna na konci tahu,- specifying a set of strokes such that each stroke boundary is located at the end of the stroke, - výpočet alespoň jedné hodnoty vlastnosti tahu pro každý tah, za účelem vytvoření sady vlastností znaku,- calculating at least one stroke property value for each stroke to produce a set of character properties, - použití sady vlastností znaku k určení identity zmíněného rukopisného znaku.using the feature set to determine the identity of said handwriting. 6. Způsob podle nároku 5, kde bod s vysokou hodnotou derivace zakřivení má lokálně maximální hodnotu derivace zakřivení a následný bod s nízkou hodnotou derivace zakřivení má lokálně minimální hodnotu derivace zakřivení.The method of claim 5, wherein the high curvature derivative point has a locally maximum curvature derivative value and the subsequent low curvature derivative point has a locally minimal curvature derivative value. - 13 7. Způsob podle nároku 6, kde každá hranice tahu leží v bodě poloviční—vzdálenosťirnnezi bodem s lokálně~iSaxÍmální hodnotou derivace zakřivení a bodem s lokálně minimální hodnotou derivace zakřivení.The method of claim 6, wherein each stroke boundary lies at a point half-distance between a point with a locally-maximum value of the curvature derivative and a point with a locally minimum value of the curvature derivative. 8. Způsob podle nároku 5, kde každá hranice tahu leží v bodě lokálně maximální absolutní hodnoty zakřivení.The method of claim 5, wherein each stroke boundary lies at a locally maximum absolute curvature point. O 03 · í/3O 03 · í / 3 UD ' <T>UD '<T> D0 31CI <>. $D031CI <>. $ OSR. . / OSR. . / . / \ • --Λ'.. / \ • --Λ '. o -χο o -χο X \ \X \ \ • \s• \ s Λ \Λ \ 'v ose. . 4'in Axis. . 4 400 ·400 · 3/33/3 6/0 o6/0 o cowhat LOLO C>C> 00 ,10 v00, 10 h e 'ťe 'ť O3ZO3Z 500500 ... 9 •... 9 • • ~• ~ OSR . 6 ·· · »* *· ·OSR. 6 ·· · » i.and. 7 7-777 7-77 Popis k obrázku č.lDescription of picture no 110 - příjem vstupu jako posloupnosti (x, y) bodů110 - receiving input as a sequence of (x, y) points 120 - převzorkování tak, že body jsou rozmístěny ve stejných vzdálenostech ,120 - resampling so that points are equally spaced, 130 - výpočet velikosti zakřivení v každém bodě130 - Calculate the amount of curvature at each point X · W » X i -4Q yý^oočet 'derív^c'“ ts-k? / každém bodě ΛX · W »X i -4Q yý ^ count 'deriv ^ c' 'ts-k? / every point Λ .. / ..... --y - '7 _.................................. / ..... --y - '7 150 - identifikace Hranic tahů jako’ bodů v prostředku mezí v lokálním maximem a minimem derivace zakřiveni150 - Identification of Stroke Limits as' points in the middle of the limits at the local maximum and minimum curvature derivative 160 - dostavení hranic táhů za účelem korekce malých chyb měření160 - Adjustment of stroke limits to correct small measurement errors 170 - předání detekovaných hranic tahů .pro další použití v rozpoznávacím procesu170 - passing detected stroke boundaries for further use in the recognition process
CZ9661A 1994-05-10 1995-05-03 Method of segmentation of draws for hand-writing input CZ6196A3 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US24040794A 1994-05-10 1994-05-10

Publications (1)

Publication Number Publication Date
CZ6196A3 true CZ6196A3 (en) 1996-06-12

Family

ID=22906392

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ9661A CZ6196A3 (en) 1994-05-10 1995-05-03 Method of segmentation of draws for hand-writing input

Country Status (14)

Country Link
EP (1) EP0710384A4 (en)
JP (1) JP2002515144A (en)
CN (1) CN1128074A (en)
AU (1) AU2431695A (en)
BR (1) BR9506197A (en)
CA (1) CA2162489A1 (en)
CZ (1) CZ6196A3 (en)
FI (1) FI960110A (en)
HU (1) HUT75820A (en)
IL (1) IL113659A0 (en)
NO (1) NO955064D0 (en)
PL (1) PL312469A1 (en)
SK (1) SK3096A3 (en)
WO (1) WO1995032485A1 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9701793D0 (en) 1997-01-29 1997-03-19 Gay Geoffrey N W Means for inputting characters or commands into a computer
US7603684B1 (en) 1998-05-19 2009-10-13 United Video Properties, Inc. Program guide system with video-on-demand browsing
US6563515B1 (en) 1998-05-19 2003-05-13 United Video Properties, Inc. Program guide system with video window browsing
CN1317664C (en) * 2004-01-17 2007-05-23 中国科学院计算技术研究所 Confused stroke order library establishing method and on-line hand-writing Chinese character identifying and evaluating system
DE602004022629D1 (en) * 2004-02-06 2009-10-01 Dassault Systemes Method for drawing a curve in a CAD system
EP1562130A1 (en) * 2004-02-06 2005-08-10 Dassault Systèmes A process for modifying a curve in a computer-aided design system
CN100405389C (en) * 2004-08-06 2008-07-23 摩托罗拉公司 Identifying character from stroke mark
JP2006162692A (en) * 2004-12-02 2006-06-22 Hosei Univ Automatic lecture content creating system
CN100338621C (en) * 2005-04-07 2007-09-19 上海交通大学 Eigenvalue error compensation on limited sample collection and parameter distribution correcting method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2658137B2 (en) * 1988-03-11 1997-09-30 沖電気工業株式会社 Character recognition method
JP3017740B2 (en) * 1988-08-23 2000-03-13 ソニー株式会社 Online character recognition device and online character recognition method
US5590220A (en) * 1992-08-12 1996-12-31 International Business Machines Corporation Bending point extraction method for optical character recognition system

Also Published As

Publication number Publication date
JP2002515144A (en) 2002-05-21
CN1128074A (en) 1996-07-31
CA2162489A1 (en) 1998-06-01
NO955064L (en) 1995-12-14
HUT75820A (en) 1997-05-28
WO1995032485A1 (en) 1995-11-30
BR9506197A (en) 1996-04-24
SK3096A3 (en) 1996-10-02
PL312469A1 (en) 1996-04-29
EP0710384A4 (en) 1997-05-02
EP0710384A1 (en) 1996-05-08
FI960110A0 (en) 1996-01-10
HU9503882D0 (en) 1996-02-28
AU2431695A (en) 1995-12-18
MX9600189A (en) 1998-11-29
NO955064D0 (en) 1995-12-14
FI960110A (en) 1996-01-10
IL113659A0 (en) 1995-08-31

Similar Documents

Publication Publication Date Title
US5740273A (en) Method and microprocessor for preprocessing handwriting having characters composed of a preponderance of straight line segments
US7756335B2 (en) Handwriting recognition using a graph of segmentation candidates and dictionary search
US7349576B2 (en) Method, device and computer program for recognition of a handwritten character
EP0739521B1 (en) Method of splitting handwritten input
US7013046B2 (en) Apparatus, method, and program for handwriting recognition
US20080240569A1 (en) Character input apparatus and method and computer readable storage medium
US20020097909A1 (en) Spatial sorting and formatting for handwriting recognition
CZ6096A3 (en) Recognition method of hand-written entry
EP1854047A1 (en) Segmentation-based recognition
SE519014C2 (en) Method and apparatus for recognizing a handwritten pattern
CZ6196A3 (en) Method of segmentation of draws for hand-writing input
US7680334B2 (en) Presenting recognised handwritten symbols
KR19980058361A (en) Korean Character Recognition Method and System
CN111783780A (en) Image processing method, image processing apparatus, and computer-readable storage medium
MXPA96000189A (en) Method of segmentation of traces for the entry of characters manuscri
JP2633523B2 (en) Handwriting input device
JP4142911B2 (en) Character recognition device and character recognition method
JP2000251013A (en) Method and device for character recognition and storage medium
JP2000259768A (en) Method and device for recognizing character and storing medium
JPH07296112A (en) Character segmenting device
JPS6249592A (en) Character writing input device
JPH05189616A (en) On-line character recognizing device
ITRM940781A1 (en) SYSTEM AND PROCEDURE FOR THE RECOGNITION OF SEPARATE MANUSCRIPT CHARACTERS