JPH09161010A - On-line handwritten character segmentation method and device therefor - Google Patents
On-line handwritten character segmentation method and device thereforInfo
- Publication number
- JPH09161010A JPH09161010A JP7324186A JP32418695A JPH09161010A JP H09161010 A JPH09161010 A JP H09161010A JP 7324186 A JP7324186 A JP 7324186A JP 32418695 A JP32418695 A JP 32418695A JP H09161010 A JPH09161010 A JP H09161010A
- Authority
- JP
- Japan
- Prior art keywords
- stroke
- cutout
- character
- information
- cut out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、筆点の時系列として入
力されるストローク列より、ストローク単位に、文字切
り出しに有効である複数のストローク特徴量を算出し、
それら複数のストローク特徴量とあらかじめ用意された
重み係数との間で積和演算を行って文字切り出し確信度
を算出し、該文字切り出し確信度に対してあらかじめ用
意した2種類のしきい値によるしきい値処理を施して、
該ストロークを切り出し確定、切り出し候補、非切り出
し確定のいずれかに判定して、ストローク単位に実時間
でストローク時系列情報および文字切り出し情報を出力
するオンライン手書き文字切り出し方法および装置に関
するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention calculates a plurality of stroke feature amounts effective for character extraction in stroke units from a stroke sequence input as a time series of writing points,
The character cut-out certainty factor is calculated by performing a sum-of-products operation between the stroke feature amounts and the weighting factors prepared in advance, and the character cut-out certainty factor is calculated using two types of threshold values prepared in advance. Threshold processing,
The present invention relates to an online handwritten character segmentation method and apparatus for determining stroke segmentation, segmentation candidate, or non-segmentation segmentation and outputting stroke time-series information and character segmentation information in real time in stroke units.
【0002】[0002]
【従来の技術】従来のオンライン手書き文字切り出し技
術では、文字列を筆記し終わってから、文字列高さを算
出してその文字列高さの値を用いて文字ピッチを予測
し、またストローク間の重なりやペンアップ時間等の簡
単なストローク特徴量と合わせて、文字切り出しの候補
位置を出力する方法が提案されていた。また、オフライ
ン手書き文字切り出し技術では、文字列を構成する黒画
素の連結成分の大きさや分布に着目し、連結成分の分離
度や孤立度、文字列の高さ等の複数の特徴量を用いた判
別分析により文字切り出し判定を行う方法が提案されて
いた。2. Description of the Related Art In the conventional online handwritten character segmentation technology, after writing a character string, the height of the character string is calculated, the character pitch is predicted using the value of the character string height, and the interval between strokes is calculated. There has been proposed a method of outputting a candidate position for character cutout in combination with a simple stroke feature amount such as overlapping of strokes and pen-up time. In addition, in the offline handwritten character segmentation technology, we focused on the size and distribution of the connected components of the black pixels that make up the character string, and used multiple features such as the degree of separation and isolation of the connected components and the height of the character string. A method of performing character cutout determination by discriminant analysis has been proposed.
【0003】[0003]
【発明が解決しようとする課題】しかし、文字列高さか
ら文字ピッチを予測する方法では、文字列すべてを筆記
し終わらないと文字列高さを算出できないため、文字列
筆記終了まで文字切り出し処理を始めることができなか
った。また、比較的単純なストローク情報を用いて本来
切り出すべきストローク(文字の先頭ストローク)を必
ず含むように切り出し候補位置を出力したために正解の
文字数と比べて切り出し候補位置数が膨大化していた。However, in the method of predicting the character pitch from the height of the character string, the character string height cannot be calculated unless the entire character string is written. Couldn't start. Moreover, since the cutout candidate positions are output so as to always include the stroke (the first stroke of the character) to be cutout by using the relatively simple stroke information, the number of cutout candidate positions is enormous compared with the number of correct characters.
【0004】このため、後段の文字認識処理と結合する
と、文字認識回数が増大し、文字列の長さのべき乗のオ
ーダーで処理時間が爆発的に増加するという問題点があ
った。また、オフライン手書き文字切り出し技術では、
文字を構成する個々のストロークではなく黒画素の連結
成分を処理単位としているため、文字間接触が生じた場
合には複数特徴量を用いた判別分析によっても切り出し
能力に限界があり、自由筆記ではなく分かち書きに対す
る文字切り出し技術であった。さらに、いずれの方法
も、文字切り出しの候補位置であるか否かの判定しか行
っておらず、それぞれの切り出し候補位置の確信度のよ
うな尺度が用いられずに全て同等に出力されていた。For this reason, when combined with the character recognition processing in the subsequent stage, the number of times of character recognition increases and the processing time explosively increases in the order of the power of the length of the character string. Also, with the offline handwritten character extraction technology,
Since the processing unit is not the individual strokes that make up a character but the connected component of black pixels, the ability to cut out is limited by discriminant analysis using multiple features when contact between characters occurs, and in freehand writing It was a technique for cutting out characters without dividing into words. Furthermore, in each of the methods, only the determination is made as to whether or not the position is a candidate position for character cutout, and a measure such as the certainty factor of each cutout candidate position is not used and all are output equally.
【0005】本発明の目的は、このような従来の問題点
を解決し、オンライン文字切り出し処理において、現筆
記ストロークおよび既筆記ストローク群のストローク時
系列情報から複数の特徴量を抽出してそれらの重み係数
積和演算により算出した文字切り出し確信度にしきい値
処理を施すことにより、該現筆記ストロークについて、
実時間かつ高精度に、切り出し確定、切り出し候補、非
切り出し確定のいずれかに判定した文字切り出し情報を
出力するオンライン手書き文字切り出し方法および装置
を提供することにある。An object of the present invention is to solve such a conventional problem and extract a plurality of feature quantities from stroke time series information of a currently written stroke and a previously written stroke group in an online character segmentation process. By subjecting the character cutout certainty factor calculated by the weighting factor product sum calculation to threshold processing,
An object is to provide an online handwritten character cutout method and device that outputs the character cutout information determined in any one of cutout confirmation, cutout candidate, and non-cutout confirmation in real time and with high accuracy.
【0006】[0006]
【課題を解決するための手段】上記問題点を解決するた
め、本発明のオンライン手書き文字切り出し方法は、オ
ンライン手書き文字列入力における現筆記ストロークお
よび既筆記ストローク群のストローク時系列情報からそ
れぞれのストロークについて複数の特徴量を抽出し、そ
れらの重み係数積和演算により文字切り出し確信度を求
め、この確信度にあらかじめ用意した本来切り出すべき
ストロークを切り出さないと判定する確率がある充分小
さな一定の値以下になるようにあらかじめ決定したしき
い値と、本来切り出さないストロークを切り出すと判定
する確率がある充分小さな一定の値以下になるようにあ
らかじめ決定したしきい値との2種類のしきい値による
しきい値処理を施すことにより、該現筆記ストロークの
ストローク単位について、実時間で、切り出し確定、切
り出し候補、非切り出し確定のいずれかに判定した文字
切り出し情報を出力することを特徴とするものである。In order to solve the above problems, an online handwritten character cutting method according to the present invention uses a stroke time series information of a currently written stroke and an already written stroke group in inputting an online handwritten character string. For each of the above, a plurality of feature quantities are extracted, and the character cutout certainty factor is calculated by multiplying and multiplying their weighting factors, and there is a probability that it is determined not to cut out the stroke that should be originally cut out prepared for this certainty factor. There are two types of threshold values, a threshold value that is predetermined so that the stroke that should not be cut out is determined, and a threshold value that is determined in advance so that the stroke is determined to be cut out. By performing the threshold processing, the stroke unit of the current writing stroke is changed. There are, in real time, cut confirmed, cut candidate, is characterized in that for outputting character segmentation information determined in any of the non-cutout determined.
【0007】また、本発明のオンライン手書き文字切り
出し装置は、筆点の時系列として入力されるストローク
列について各ストロークを構成する筆点の位置座標およ
び筆記時刻から成るストローク情報をストローク単位に
格納するストローク群時系列情報格納手段と、現筆記ス
トローク情報のみから得られる文字切り出しに有効であ
る複数の特徴量を算出する現筆記ストローク特徴量算出
手段と、該現筆記ストロークおよび既筆記ストローク群
から得られる文字切り出しに有効である複数の特徴量を
算出する既筆記ストローク群特徴量算出手段と、前記現
筆記ストローク特徴量算出手段より出力される複数の特
徴量と前記既筆記ストローク群特徴量算出手段より出力
される複数の特徴量とをベクトルの各要素として組み合
わせてストローク特徴ベクトルを構成するストローク特
徴ベクトル構成手段と、あらかじめ用意された重み係数
および本来切り出すべきストロークを切り出さないと判
定する確率がある充分小さな一定の値以下になるように
あらかじめ決定したしきい値と、本来切り出さないスト
ロークを切り出すと判定する確率がある充分小さな一定
の値以下になるようにあらかじめ決定したしきい値との
2種類のしきい値を格納しておく重み係数およびしきい
値格納手段と、前記ストローク特徴ベクトルに対して前
記重み係数を用いた積和演算により文字切り出し確信度
を算出してから前記2種類のしきい値を用いたしきい値
処理により切り出し確定、切り出し候補、非切り出し確
定のいずれかに判定した文字切り出し情報を出力する重
み係数積和演算およびしきい値処理手段と、前記ストロ
ーク群時系列情報格納手段より送出された該現筆記スト
ローク時系列情報に、前記重み係数積和演算およびしき
い値処理手段から出力された文字切り出し情報を付与
し、ストローク単位に時系列情報および切り出し確定、
切り出し候補、非切り出し確定のいずれかの文字切り出
し情報を出力するストローク単位文字切り出し情報付与
手段とを設け、実時間文字切り出し処理を可能にしたこ
とに特徴を有する。Further, the on-line handwritten character slicing device of the present invention stores stroke information, which is composed of position coordinates of writing points forming each stroke and writing time, in units of strokes in a stroke sequence input as a time series of writing points. Stroke group time-series information storage means, current writing stroke feature amount calculating means for calculating a plurality of characteristic amounts effective for character extraction obtained only from current writing stroke information, and obtained from the current writing stroke and already written stroke group. Written stroke group feature amount calculating means for calculating a plurality of feature amounts effective for character cutting, and a plurality of feature amounts output from the current writing stroke feature amount calculating means and the already written stroke group feature amount calculating means Strokes by combining multiple feature values output from each with each element of the vector Characteristic vector constructing means for constructing the characteristic vector, a weighting coefficient prepared in advance, and a threshold value determined in advance so that the probability of determining that the stroke to be originally clipped is not cut out is a sufficiently small constant value or less, A weighting factor and threshold value storage means for storing two types of threshold values, a threshold value determined in advance so that the probability of determining that a stroke that should not be cut out is cut out is a sufficiently small fixed value or less. , A character cutout certainty factor is calculated for the stroke feature vector by a product sum operation using the weighting factor, and then cutout determination, cutout candidate, non-cutout confirmation is performed by threshold processing using the two types of threshold values. Coefficient product sum operation and threshold processing for outputting character cut-out information determined by any of And the current writing stroke time-series information sent from the stroke group time-series information storage means, the character cutout information output from the weighting coefficient product-sum calculation and threshold processing means is added, Time series information and cutout confirmation,
The present invention is characterized in that a stroke unit character cutout information adding unit for outputting character cutout information of either cutout candidate or non-cutout confirmed is provided to enable real-time character cutout processing.
【0008】[0008]
【作用】本発明にかかるオンライン手書き文字切り出し
方法および装置においては、筆点の時系列として入力さ
れるストローク列に対し、現筆記ストロークのみから得
られる文字切り出しに有効である複数の特徴量および該
現筆記ストロークおよび既筆記ストローク群から得られ
る文字切り出しに有効である複数の特徴量の組み合わせ
に対して重み係数による積和演算により文字切り出し確
信度を算出し、あらかじめ本来切り出すべきストローク
を切り出さないと判定する確率および本来切り出さない
ストロークを切り出すと判定する確率がある充分小さな
一定の値以下になるように決定しておいた2種類のしき
い値を用いて前記文字切り出し確信度の値をしきい値処
理して、該現筆記ストロークを切り出し確定ストロー
ク、切り出し候補ストローク、非切り出し確定ストロー
クのいずれかに安定かつ高精度に分類し、その文字切り
出し情報と該現筆記ストロークの時系列情報を文字切り
出し結果として実時間で出力することができる。In the online handwritten character cutting method and apparatus according to the present invention, a plurality of feature quantities effective for character cutting obtained from only the current writing stroke and strokes input as a time series of writing points and For a combination of a plurality of features that is effective for character extraction obtained from a group of currently written strokes and already-written strokes, the character segmentation certainty factor is calculated by a product-sum operation using weighting factors, and the strokes that should be segmented should be segmented beforehand. The character cutout certainty value is determined using two kinds of threshold values that are determined so that the probability of judgment and the probability of judging that a stroke that should not be cut out are cut out are sufficiently small. By performing value processing, the current writing stroke is cut out, a confirmed stroke, and a cut-out candidate stroke are cut out. Rourke, classified into stable and accurately to any non-cut definite stroke, can be output in real time the time-series information of the character cut-out information and the developing writing strokes as a character cut-out results.
【0009】[0009]
【実施例】図1は、本発明の一実施例を示すオンライン
手書き文字切り出し装置のブロック構成図である。DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a block diagram of an online handwritten character slicing device showing an embodiment of the present invention.
【0010】図1において、1は文字情報入力手段、2
はストローク群時系列情報格納手段、3は現筆記ストロ
ーク特徴量算出手段、4は既筆記ストローク群特徴量算
出手段、5はストローク特徴ベクトル構成手段、6は重
み係数およびしきい値格納手段、7は重み係数積和演算
およびしきい値処理手段、8はストローク単位文字切り
出し情報付与手段である。以下、各手段の動作について
具体的に説明する。In FIG. 1, 1 is a character information input means, 2
Is stroke group time-series information storage means, 3 is current writing stroke feature amount calculating means, 4 is already written stroke group feature amount calculating means, 5 is stroke feature vector forming means, 6 is weighting factor and threshold value storing means, and 7 is Is a weighting coefficient product sum calculation and threshold processing means, and 8 is a stroke unit character cutout information giving means. The operation of each means will be specifically described below.
【0011】文字情報入力手段1は、既存のデータ・タ
ブレットから構成され、データ・タブレット上に専用ペ
ンで描かれる文字列パターンを構成するストローク列に
ついて各ストロークの筆点の位置座標および筆記時刻を
時系列データとして入力し、ストローク群時系列情報格
納手段2に送出する。The character information input means 1 is composed of an existing data tablet, and displays the position coordinates and the writing time of the writing point of each stroke with respect to the stroke string which constitutes the character string pattern drawn by the dedicated pen on the data tablet. It is input as time series data and sent to the stroke group time series information storage means 2.
【0012】ストローク群時系列情報格納手段2は、各
ストロークを構成する筆点の位置座標および筆記時刻か
ら成るストローク情報をストローク単位に時系列で格納
し、現筆記ストロークのストローク情報を現筆記ストロ
ーク特徴量算出手段3へ、また、該現筆記ストロークお
よび既筆記ストローク群の全ストローク情報を該筆記ス
トローク群特徴量算出手段4へ、さらに、該現筆記スト
ロークのストローク情報をストローク単位文字切り出し
情報付与手段8に送出する。The stroke group time-series information storage means 2 stores the stroke information consisting of the position coordinates of the writing points forming each stroke and the writing time in time series on a stroke-by-stroke basis, and the stroke information of the current writing stroke is stored in the current writing stroke. The stroke amount of the current writing stroke and the already written stroke group is given to the feature amount calculating means 3, the stroke information of the current writing stroke is given to the stroke amount character cutting information. To the means 8.
【0013】現筆記ストローク特徴量算出手段3は、ス
トローク群時系列情報格納手段2から送出された現筆記
ストロークのストローク情報を用いて、例えば、該現筆
記ストロークの長さ、始点および終点の座標値、Xおよ
びY座標の最大値と最小値、など、該現筆記ストローク
のみから得られる複数の特徴量を算出し、ストローク特
徴ベクトル構成手段5に送出する。The current writing stroke feature amount calculating means 3 uses, for example, the stroke information of the current writing stroke sent from the stroke group time series information storing means 2 to, for example, the length of the current writing stroke, and the coordinates of the start point and the end point. A plurality of characteristic amounts obtained from only the current writing stroke, such as a value, the maximum value and the minimum value of the X and Y coordinates, are calculated and sent to the stroke characteristic vector forming means 5.
【0014】既筆記ストローク群特徴量算出手段4は、
ストローク群時系列情報格納手段2から送出された該現
筆記ストロークおよび該筆記ストローク群の全ストロー
ク情報を用いて、例えば、該現筆記ストロークと直前筆
記ストロークとの間のペンアップ時間、該現筆記ストロ
ークと直前筆記ストロークそれぞれの中点あるいは重心
間の距離、該現筆記ストロークと直前筆記ストロークと
のXおよびY方向の重なり、さらに、既筆記ストローク
群に関するXおよびY座標の最大値と最小値など、該現
筆記ストロークおよび既筆記ストローク群の全ストロー
ク情報から得られ該現筆記ストロークの文字切り出し判
定に有効である複数の特徴量を算出し、ストローク特徴
ベクトル構成手段5に送出する。The previously-written stroke group feature amount calculation means 4 is
Using the current writing stroke and all stroke information of the writing stroke group sent from the stroke group time-series information storage means 2, for example, the pen-up time between the current writing stroke and the immediately preceding writing stroke, the current writing The distance between the midpoint or the center of gravity of each stroke and the immediately preceding writing stroke, the overlap between the current writing stroke and the immediately preceding writing stroke in the X and Y directions, and the maximum and minimum values of the X and Y coordinates for the already written stroke group. , A plurality of characteristic amounts which are obtained from all stroke information of the current writing stroke and the already written stroke group and which are effective for character cutout determination of the current writing stroke are calculated and sent to the stroke feature vector forming means 5.
【0015】ストローク特徴ベクトル構成手段5は、現
筆記ストローク特徴量算出手段3および既筆記ストロー
ク群特徴量算出手段4から送出された複数の特徴量の値
を組み合わせ、各特徴量の値をベクトルの要素とするス
トローク特徴ベクトルを構成する。ここで、第i番目の
特徴量の値をfi と記すと、ストローク特徴ベクトルF
は、 F=(f1 ,f2 ,・・・,fi ,・・・,fn ) ……(1) 但し、n:特徴量の総数 と表される。ストローク特徴ベクトルFは重み係数積和
演算およびしきい値処理手段7に送出される。The stroke feature vector constructing means 5 combines the values of a plurality of feature quantities sent from the current writing stroke feature quantity calculating means 3 and the already-written stroke group feature quantity calculating means 4, and sets the value of each feature quantity into a vector. A stroke feature vector as an element is constructed. Here, when the value of the i-th feature amount is denoted by f i , the stroke feature vector F
F = (f 1 , f 2 , ..., F i , ..., F n ) ... (1) where n is the total number of feature quantities. The stroke feature vector F is sent to the weighting coefficient product-sum calculation and threshold processing means 7.
【0016】重み係数およびしきい値格納手段6は、あ
らかじめ用意された重み係数ベクトルと2種類のしきい
値を格納する。該重み係数ベクトルは、ストローク特徴
ベクトル構成手段5で構成されるストローク特徴ベクト
ルFの各要素が文字切り出しに有効である度合を表現す
る。すなわち、該重み係数ベクトルWは、第i番目の要
素fi の文字切り出しにおける有効性を反映した重み係
数をwi を要素とするベクトルであり、 W=(w1 ,w2 ,・・・,wi ,・・・wn ) ……(2) 但し、n:重み係数の総数 と表される。また、2種類のしきい値をTh1 ,Th2
と記すと、後述する文字切り出し確信度のしきい値処理
に際して、Th1 は本来切り出すべきストロークを切り
出さないと判定する確率がある充分小さな一定の値以下
になるようにあらかじめ決定したしきい値であり、Th
2 は本来切り出さないストロークを切り出すと判定する
確率がある充分小さな一定の値以下になるようにあらか
じめ決定したしきい値である。上記重み係数ベクトルW
およびしきい値Th1 およびTh2は重み係数積和演算
およびしきい値処理手段7に送出される。The weighting factor and threshold value storing means 6 stores a weighting factor vector prepared in advance and two types of threshold values. The weighting coefficient vector expresses the degree to which each element of the stroke feature vector F formed by the stroke feature vector constructing means 5 is effective for character extraction. That is, the weighting coefficient vector W is a vector having a weighting coefficient, which is the weighting coefficient reflecting the effectiveness of the i-th element f i in the character segmentation, as w i , and W = (w 1 , w 2 , ... , W i , ... W n ) (2) where n is the total number of weighting factors. In addition, two types of threshold values are Th 1 , Th 2
In the threshold processing of the character cutout certainty degree described below, Th 1 is a threshold value determined in advance so that the probability of judging that a stroke to be cut out should not be cut out is a sufficiently small constant value or less. Yes, Th
2 is a threshold value determined in advance so that the probability of determining that a stroke that should not be cut out is cut out is a sufficiently small fixed value or less. The weight coefficient vector W
And the threshold values Th 1 and Th 2 are sent to the weight coefficient product-sum calculation and threshold processing means 7.
【0017】重み係数積和演算およびしきい値処理手段
7は、まず、ストローク特徴ベクトル構成手段5から送
出されるストローク特徴ベクトルFと重み係数およびし
きい値格納手段6から送出される重み係数ベクトルWと
の間で積和演算を行い、次式で与えられる文字切り出し
確信度Gを算出する。The weight coefficient product-sum calculation and threshold processing means 7 firstly outputs the stroke feature vector F sent from the stroke feature vector forming means 5 and the weight coefficient and weight coefficient vector sent from the threshold storage means 6. The product-sum operation is performed with W to calculate the character cut-out certainty factor G given by the following equation.
【0018】 G=Σi wi ×fi ……(3) 但し、Σi はi=1,2,・・・,nに関する和を表わ
す。上式(3)のGは、複数特徴量の線形演算による、
線形判別関数に相当する。さらに、文字切り出し確信度
の算出に非線形演算を用いることも考えられる。その場
合は、例えば、多層のニューラルネットを用いて、上式
(3)で表わされる複数特徴量の重み係数積和演算値を
シグモイド関数により非線形変換する操作を反復して、
文字切り出し確信度Gを算出することになる。G = Σ i w i × f i (3) However, Σ i represents the sum for i = 1, 2, ..., N. G in the above equation (3) is obtained by linear calculation of a plurality of feature quantities,
Corresponds to a linear discriminant function. Further, it is possible to use a non-linear operation for calculating the character cutout certainty factor. In that case, for example, by using a multilayer neural network, the operation of nonlinearly converting the weighted coefficient product-sum operation value of a plurality of feature amounts represented by the above equation (3) by a sigmoid function is repeated,
The character cutout certainty factor G is calculated.
【0019】重み係数積和演算およびしきい値処理手段
7は、次いで、上記文字切り出し確信度Gと重み係数お
よびしきい値格納手段6より送出された2種類のしきい
値Th1 およびTh2 を用いて、以下のようなしきい値
処理を施すことにより、該現筆記ストロークを切り出し
確定ストローク、切り出し候補ストローク、非切り出し
確定ストロークのいずれかに判定して文字切り出し情報
とする。The weight coefficient product-sum calculation and threshold processing means 7 then uses the two kinds of threshold values Th 1 and Th 2 sent from the character cutout certainty factor G and the weight coefficient and threshold storage means 6. By using the following threshold value processing, the current writing stroke is determined to be a cut-out fixed stroke, a cut-out candidate stroke, or a non-cut-out fixed stroke to be character cut-out information.
【0020】 G>Th2 のとき 切り出し確定ストローク ……(4) Th1 ≦G≦Th2 のとき 切り出し候補ストローク ……(5) G<Th1 のとき 非切り出し確定ストローク ……(6) ここで、切り出し確定ストロークとは、文字の先頭スト
ロークであると確定できるストロークのことである。切
り出し候補ストロークとは、文字の先頭ストロークであ
る可能性があるストロークのことである。非切り出し確
定ストロークとは、文字の先頭ストロークでないと確定
できるストロークのことである。こうしてストローク単
位に得られた文字切り出し情報はストローク単位文字切
り出し情報付与手段8へ送出される。When G> Th 2 , cutout confirmation stroke (4) When Th 1 ≦ G ≦ Th 2 , cutout candidate stroke (5) When G <Th 1 , non-cutout confirmation stroke (6) The cut-out confirmation stroke is a stroke that can be confirmed as the leading stroke of a character. The cutout candidate stroke is a stroke that may be the leading stroke of a character. The non-cutout confirmed stroke is a stroke that can be confirmed unless it is the first stroke of a character. The character cutout information obtained in the stroke unit is sent to the stroke unit character cutout information adding unit 8.
【0021】ストローク単位文字切り出し情報付与手段
8は、ストローク群時系列情報格納手段2から送出され
た該現筆記ストロークのストローク時系列情報に、重み
係数積和演算およびしきい値処理手段7から送出された
該現筆記ストロークの文字切り出し情報を付与して、ス
トローク単位に、実時間で文字切り出し結果を出力す
る。The stroke-unit character cut-out information adding means 8 sends the weight time product sum calculation and threshold value processing means 7 to the stroke time series information of the current writing stroke sent from the stroke group time series information storage means 2. The extracted character writing information of the current writing stroke is added, and the character cutting result is output in real time in stroke units.
【0022】図2は、住所を対象にしたオンライン手書
き文字列パターンとその文字切り出し結果の出力例であ
る。実線で描かれているのは切り出し確定ストローク、
細実線で描かれているのは切り出し候補ストローク、点
線で描かれているのは非切り出し確定ストロークを示
す。FIG. 2 shows an output example of an online handwritten character string pattern for an address and the result of character extraction. The solid line is the cutout confirmation stroke,
A thin solid line indicates a cut-out candidate stroke, and a dotted line indicates a non-cutout confirmed stroke.
【0023】本実施例においては、現筆記ストロークに
ついて、既筆記ストローク群を含めて文字切り出しに有
効な複数の特徴量を抽出してそれら特徴量の重み係数積
和演算により文字切り出し確信度を算出し、あらかじめ
決定しておいた2種類のしきい値を用いたしきい値処理
により、該現筆記ストロークについて切り出し確定スト
ローク、切り出し候補ストローク、非切り出し確定スト
ロークのいずれかに分類した文字切り出し情報を付与し
て、ストローク単位の文字切り出し判定処理を実時間か
つ高精度に実現できる。このように、各ストロークにつ
いて切り出し確定、切り出し候補、非切り出し確定の文
字切り出し情報を実時間で出力できることにより、後段
の文字認識処理と結合した場合にオンライン文字認識系
として大幅な処理時間の抑制が可能となる。In the present embodiment, for the current stroke, a plurality of feature quantities effective for character cutout are extracted, including a group of already written strokes, and a character cutout certainty factor is calculated by a weighted coefficient product sum operation of these feature quantities. Then, by the threshold processing using two types of threshold values determined in advance, the character cutting information classified into one of the cut-confirmed stroke, the cut-out candidate stroke, and the non-cut-determined stroke is added to the current writing stroke. As a result, the stroke character-based character cutout determination processing can be realized in real time and with high accuracy. In this way, it is possible to output the character cut-out information of cut-out confirmation, cut-out candidate, and non-cutout confirmed for each stroke in real time, which significantly reduces the processing time as an online character recognition system when combined with the subsequent character recognition processing. It will be possible.
【0024】図3は、本発明のオンライン手書き文字切
り出し方法の一実施例を示すフローチャートである。な
お、(1)〜(5)は各ステップを示す。図3におい
て、該筆記ストローク群のストローク時系列情報の特徴
量をメモリから読み出し(1)、現筆記ストロークのス
トローク時系列情報の特徴量を抽出する(2)。両特徴
量に重み係数積和演算によって文字切り出し確信度を求
め(3)、あらかじめ用意した2種類のしきい値を用い
て前記文字切り出し確信度にしきい値処理を施し
(4)、切り出し確定、切り出し候補、非切り出し確定
のいずれかに判定した文字切り出し情報を出力する
(5)。このようにして実時間で、高精度の手書き文字
の切り出しを行うことができる。FIG. 3 is a flow chart showing an embodiment of the online handwritten character cutting method according to the present invention. Note that (1) to (5) indicate each step. In FIG. 3, the feature amount of the stroke time-series information of the writing stroke group is read from the memory (1), and the feature amount of the stroke time-series information of the current writing stroke is extracted (2). A character cutout certainty factor is obtained for both feature quantities by a weighted coefficient product sum operation (3), and the character cutout certainty factor is thresholded using two types of threshold values prepared in advance (4), and the cutout is confirmed. The character cutout information determined to be either a cutout candidate or non-cutout confirmation is output (5). In this way, it is possible to cut out high-precision handwritten characters in real time.
【0025】[0025]
【発明の効果】本発明のオンライン手書き文字切り出し
方法および装置は、オンライン手書き文字列入力におい
て、筆記ストローク毎に実時間で切り出し確定、切り出
し候補、非切り出し確定のいずれかに高精度に判定した
文字切り出し情報を付与し、該筆記ストロークのストロ
ーク時系列情報とともに後段の認識処理に出力すること
が可能となる。このため、本発明は、オンライン文字列
認識系に組み込まれて用いられる場合に、文字切り出し
処理と文字認識処理の同期性、文字認識処理の回数の大
幅な削減により、系全体の処理時間の抑制という観点か
ら極めて大きな利点を持つ。The online handwritten character cutting method and apparatus of the present invention is a method for accurately inputting a handwritten character string for each writing stroke, which character is accurately determined as cutout confirmation, cutout candidate or non-cutout confirmation. It becomes possible to add cutout information and output it to the recognition process in the subsequent stage together with the stroke time series information of the writing stroke. Therefore, when the present invention is used by being incorporated in an online character string recognition system, the processing time of the entire system is suppressed by the synchronism between the character segmentation process and the character recognition process, and by greatly reducing the number of times of the character recognition process. From this point of view, it has a great advantage.
【図1】本発明のオンライン手書き文字切り出し装置の
一実施例を示すブロック構成図である。FIG. 1 is a block diagram showing an embodiment of an online handwritten character clipping device according to the present invention.
【図2】図1の手書き文字列パターンおよびその文字切
り出し結果の出力例を示す図である。FIG. 2 is a diagram showing an output example of the handwritten character string pattern of FIG. 1 and a character cutout result thereof.
【図3】本発明のオンライン手書き文字切り出し方法の
一実施例を示すフローチャートである。FIG. 3 is a flowchart showing an embodiment of an online handwritten character cutting method according to the present invention.
1 文字情報入力手段 2 ストローク群時系列情報格納手段 3 現筆記ストローク特徴量算出手段 4 既筆記ストローク群特徴量算出手段 5 ストローク特徴ベクトル構成手段 6 重み係数およびしきい値格納手段 7 重み係数積和演算およびしきい値処理手段 8 ストローク単位文字切り出し情報付与手段 1 Character Information Input Means 2 Stroke Group Time Series Information Storage Means 3 Current Writing Stroke Feature Quantity Calculating Means 4 Previously Written Stroke Group Feature Quantity Calculating Means 5 Stroke Feature Vector Constructing Means 6 Weight Coefficients and Threshold Value Storage Means 7 Weight Coefficients Sum Computation and threshold processing means 8 Stroke-unit character cutout information adding means
Claims (2)
筆記ストロークおよび既筆記ストローク群のストローク
時系列情報からそれぞれのストロークについて複数の特
徴量を抽出し、それらの重み係数積和演算により文字切
り出し確信度を求め、この確信度にあらかじめ用意した
本来切り出すべきストロークを切り出さないと判定する
確率がある充分小さな一定の値以下になるようにあらか
じめ決定したしきい値と、本来切り出さないストローク
を切り出すと判定する確率がある充分小さな一定の値以
下になるようにあらかじめ決定したしきい値との2種類
のしきい値によるしきい値処理を施すことにより、該現
筆記ストロークのストローク単位について、実時間で、
切り出し確定、切り出し候補、非切り出し確定のいずれ
かに判定した文字切り出し情報を出力することを特徴と
するオンライン手書き文字切り出し方法。1. A plurality of feature quantities are extracted for each stroke from stroke time-series information of a currently written stroke and a previously written stroke group in an online handwritten character string input, and a character cutout certainty factor is calculated by a weighted coefficient product-sum calculation thereof. There is a probability that it is determined that the stroke that should be originally cut out is not cut out, which is prepared in advance for this certainty factor, and a threshold value that is determined in advance so as to be a sufficiently small fixed value and the probability that it is determined that a stroke that should not be cut out is cut out By performing threshold processing with two types of threshold values, which are a predetermined threshold value so as to be less than or equal to a sufficiently small constant value, in real time, for each stroke unit of the current writing stroke,
An online handwritten character cutout method characterized by outputting character cutout information determined as cutout confirmation, cutout candidate, or non-cutout confirmation.
点の時系列として入力されるストローク列について各ス
トロークを構成する筆点の位置座標および筆記時刻から
成るストローク情報をストローク単位に格納するストロ
ーク群時系列情報格納手段と、現筆記ストローク情報の
みから得られる文字切り出しに有効である複数の特徴量
を算出する現筆記ストローク特徴量算出手段と、該現筆
記ストロークおよび既筆記ストローク群から得られる文
字切り出しに有効である複数の特徴量を算出する既筆記
ストローク群特徴量算出手段と、前記現筆記ストローク
特徴量算出手段より出力される複数の特徴量と前記既筆
記ストローク群特徴量算出手段より出力される複数の特
徴量とをベクトルの各要素として組み合わせてストロー
ク特徴ベクトルを構成するストローク特徴ベクトル構成
手段と、あらかじめ用意された重み係数および本来切り
出すべきストロークを切り出さないと判定する確率があ
る充分小さな一定の値以下になるようにあらかじめ決定
したしきい値と、本来切り出さないストロークを切り出
すと判定する確率がある充分小さな一定の値以下になる
ようにあらかじめ決定したしきい値との2種類のしきい
値を格納しておく重み係数およびしきい値格納手段と、
前記ストローク特徴ベクトルに対して前記重み係数を用
いた積和演算により文字切り出し確信度を算出して前記
2種類のしきい値を用いたしきい値処理により該現筆記
ストロークについて切り出し確定、切り出し候補、非切
り出し確定のいずれかに判定した文字切り出し情報を出
力する重み係数積和演算およびしきい値処理手段と、前
記ストローク群時系列情報格納手段より送出された該現
筆記ストロークの時系列情報に、前記重み係数積和演算
およびしきい値処理手段から出力された文字切り出し情
報を付与し、ストローク単位に時系列情報および切り出
し確定、切り出し候補、非切り出し確定のいずれかの文
字切り出し情報を出力するストローク単位文字切り出し
情報付与手段とを設け、実時間文字切り出し処理を可能
にしたことを特徴とするオンライン手書き文字切り出し
装置。2. A stroke group time series for storing stroke information, which is composed of position coordinates of writing points and writing times of strokes, which is input as a time series of writing points in online handwritten character string input, in units of strokes. Information storage means, current writing stroke feature amount calculating means for calculating a plurality of characteristic amounts effective for character cutting obtained only from the current writing stroke information, and character cutting obtained from the current writing stroke and the already written stroke group. An already-written stroke group characteristic amount calculating means for calculating a plurality of effective characteristic amounts, a plurality of characteristic amounts output from the current writing stroke characteristic amount calculating means, and an output from the already-written stroke group characteristic amount calculating means. A stroke feature vector is constructed by combining multiple feature quantities as each element of the vector. Stroke feature vector forming means to be formed, a weighting coefficient prepared in advance, a threshold value determined in advance so that the probability of determining that a stroke to be originally cut out is not cut out is a sufficiently small fixed value, and the stroke is not cut out originally. A weighting factor and threshold value storage means for storing two types of threshold values, a threshold value determined in advance so that the probability of determining that a stroke is cut out is a sufficiently small fixed value or less;
A character cutout certainty factor is calculated for the stroke feature vector by a product sum operation using the weighting factor, and cutout confirmation, cutout candidates for the current writing stroke are performed by threshold processing using the two types of threshold values. To the time-series information of the current writing stroke sent from the stroke group time-series information storage means and a weighting coefficient product-sum operation and threshold processing means for outputting character cut-out information determined to be non-cutout confirmation, A stroke to which the character cutout information output from the weighting coefficient product-sum calculation and threshold processing means is added, and time series information and character cutout information of cutout confirmation, cutout candidate, or non-cutout confirmation is output for each stroke. A unit character cutout information adding means is provided to enable real-time character cutout processing. Online handwritten character cut-out device that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32418695A JP3278829B2 (en) | 1995-12-13 | 1995-12-13 | Online handwritten character segmentation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32418695A JP3278829B2 (en) | 1995-12-13 | 1995-12-13 | Online handwritten character segmentation method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09161010A true JPH09161010A (en) | 1997-06-20 |
JP3278829B2 JP3278829B2 (en) | 2002-04-30 |
Family
ID=18163045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32418695A Expired - Fee Related JP3278829B2 (en) | 1995-12-13 | 1995-12-13 | Online handwritten character segmentation method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3278829B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007109118A (en) * | 2005-10-17 | 2007-04-26 | Hitachi Ltd | Input instruction processing apparatus and input instruction processing program |
JP2012118649A (en) * | 2010-11-30 | 2012-06-21 | Fuji Xerox Co Ltd | Image processing apparatus and image processing program |
CN103793706A (en) * | 2012-10-31 | 2014-05-14 | 富士施乐株式会社 | Character recognition apparatus, character recognition method |
-
1995
- 1995-12-13 JP JP32418695A patent/JP3278829B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007109118A (en) * | 2005-10-17 | 2007-04-26 | Hitachi Ltd | Input instruction processing apparatus and input instruction processing program |
JP2012118649A (en) * | 2010-11-30 | 2012-06-21 | Fuji Xerox Co Ltd | Image processing apparatus and image processing program |
CN103793706A (en) * | 2012-10-31 | 2014-05-14 | 富士施乐株式会社 | Character recognition apparatus, character recognition method |
JP2014092817A (en) * | 2012-10-31 | 2014-05-19 | Fuji Xerox Co Ltd | Character recognition device and program |
CN103793706B (en) * | 2012-10-31 | 2018-09-11 | 富士施乐株式会社 | Character recognition device and character identifying method |
Also Published As
Publication number | Publication date |
---|---|
JP3278829B2 (en) | 2002-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598845B (en) | Data processing method, data processing device, computer equipment and storage medium | |
CN108205699B (en) | Generating outputs for neural network output layers | |
CN112949415B (en) | Image processing method, apparatus, device and medium | |
Makkar et al. | Analogizing time complexity of KNN and CNN in recognizing handwritten digits | |
CN111695352A (en) | Grading method and device based on semantic analysis, terminal equipment and storage medium | |
CN111178458B (en) | Training of classification model, object classification method and device | |
CN110334179B (en) | Question-answer processing method, device, computer equipment and storage medium | |
CN115063875B (en) | Model training method, image processing method and device and electronic equipment | |
CN110532381A (en) | A kind of text vector acquisition methods, device, computer equipment and storage medium | |
CN111428511B (en) | Event detection method and device | |
CN112560504B (en) | Method, electronic equipment and computer readable medium for extracting information in form document | |
WO2022126917A1 (en) | Deep learning-based face image evaluation method and apparatus, device, and medium | |
CN112966744A (en) | Model training method, image processing method, device and electronic equipment | |
CN114120299A (en) | Information acquisition method, device, storage medium and equipment | |
CN114936290A (en) | Data processing method and device, storage medium and electronic equipment | |
CN116258874A (en) | SAR recognition database sample gesture expansion method based on depth condition diffusion network | |
CN113705652B (en) | Task type dialogue state tracking system and method based on pointer generation network | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN114220163A (en) | Human body posture estimation method and device, electronic equipment and storage medium | |
CN116469111B (en) | Character generation model training method and target character generation method | |
CN112749639A (en) | Model training method and device, computer equipment and storage medium | |
JPH09161010A (en) | On-line handwritten character segmentation method and device therefor | |
CN111681670A (en) | Information identification method and device, electronic equipment and storage medium | |
CN110689052A (en) | Session message processing method, device, computer equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100222 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |