JP3278829B2 - Online handwritten character segmentation method and apparatus - Google Patents

Online handwritten character segmentation method and apparatus

Info

Publication number
JP3278829B2
JP3278829B2 JP32418695A JP32418695A JP3278829B2 JP 3278829 B2 JP3278829 B2 JP 3278829B2 JP 32418695 A JP32418695 A JP 32418695A JP 32418695 A JP32418695 A JP 32418695A JP 3278829 B2 JP3278829 B2 JP 3278829B2
Authority
JP
Japan
Prior art keywords
stroke
character
cutout
information
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32418695A
Other languages
Japanese (ja)
Other versions
JPH09161010A (en
Inventor
博 相澤
徹 若原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP32418695A priority Critical patent/JP3278829B2/en
Publication of JPH09161010A publication Critical patent/JPH09161010A/en
Application granted granted Critical
Publication of JP3278829B2 publication Critical patent/JP3278829B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、筆点の時系列として入
力されるストローク列より、ストローク単位に、文字切
り出しに有効である複数のストローク特徴量を算出し、
それら複数のストローク特徴量とあらかじめ用意された
重み係数との間で積和演算を行って文字切り出し確信度
を算出し、該文字切り出し確信度に対してあらかじめ用
意した2種類のしきい値によるしきい値処理を施して、
該ストロークを切り出し確定、切り出し候補、非切り出
し確定のいずれかに判定して、ストローク単位に実時間
でストローク時系列情報および文字切り出し情報を出力
するオンライン手書き文字切り出し方法および装置に関
するものである。
BACKGROUND OF THE INVENTION The present invention calculates a plurality of stroke feature quantities effective for character segmentation for each stroke from a stroke sequence input as a time series of brush points.
A product sum operation is performed between the plurality of stroke feature amounts and a weight coefficient prepared in advance to calculate a character segmentation certainty, and the character segmentation certainty factor is determined by two types of thresholds prepared in advance. Apply threshold processing,
The present invention relates to an online handwritten character cutout method and apparatus that determines whether the stroke is cutout fixed, a cutout candidate, or non-cutout fixed, and outputs stroke time-series information and character cutout information in real time for each stroke.

【0002】[0002]

【従来の技術】従来のオンライン手書き文字切り出し技
術では、文字列を筆記し終わってから、文字列高さを算
出してその文字列高さの値を用いて文字ピッチを予測
し、またストローク間の重なりやペンアップ時間等の簡
単なストローク特徴量と合わせて、文字切り出しの候補
位置を出力する方法が提案されていた。また、オフライ
ン手書き文字切り出し技術では、文字列を構成する黒画
素の連結成分の大きさや分布に着目し、連結成分の分離
度や孤立度、文字列の高さ等の複数の特徴量を用いた判
別分析により文字切り出し判定を行う方法が提案されて
いた。
2. Description of the Related Art In a conventional on-line handwritten character extraction technology, after a character string has been written, a character string height is calculated, a character pitch is predicted using the value of the character string height, and a stroke interval is calculated. There has been proposed a method of outputting a candidate position for character segmentation in combination with a simple stroke feature amount such as overlap of characters and pen-up time. In addition, the offline handwritten character segmentation technology focuses on the size and distribution of connected components of black pixels constituting a character string, and uses a plurality of feature amounts such as the degree of isolation and isolation of connected components and the height of a character string. A method of performing character segmentation determination by discriminant analysis has been proposed.

【0003】[0003]

【発明が解決しようとする課題】しかし、文字列高さか
ら文字ピッチを予測する方法では、文字列すべてを筆記
し終わらないと文字列高さを算出できないため、文字列
筆記終了まで文字切り出し処理を始めることができなか
った。また、比較的単純なストローク情報を用いて本来
切り出すべきストローク(文字の先頭ストローク)を必
ず含むように切り出し候補位置を出力したために正解の
文字数と比べて切り出し候補位置数が膨大化していた。
However, in the method of estimating the character pitch from the character string height, the character string height cannot be calculated until the entire character string has been written. Could not start. In addition, since the extraction candidate positions are always output by using relatively simple stroke information so as to always include the strokes (head strokes of the characters) to be originally extracted, the number of extraction candidate positions is enormous compared to the number of correct characters.

【0004】このため、後段の文字認識処理と結合する
と、文字認識回数が増大し、文字列の長さのべき乗のオ
ーダーで処理時間が爆発的に増加するという問題点があ
った。また、オフライン手書き文字切り出し技術では、
文字を構成する個々のストロークではなく黒画素の連結
成分を処理単位としているため、文字間接触が生じた場
合には複数特徴量を用いた判別分析によっても切り出し
能力に限界があり、自由筆記ではなく分かち書きに対す
る文字切り出し技術であった。さらに、いずれの方法
も、文字切り出しの候補位置であるか否かの判定しか行
っておらず、それぞれの切り出し候補位置の確信度のよ
うな尺度が用いられずに全て同等に出力されていた。
For this reason, when combined with the subsequent character recognition processing, there has been a problem that the number of times of character recognition increases and the processing time explosively increases in the order of the power of the length of the character string. Also, with the offline handwritten character extraction technology,
Since the connected components of black pixels are used as processing units instead of individual strokes that constitute characters, there is a limit to the cutout ability by discriminant analysis using multiple feature values when contact between characters occurs. Instead, it was a character segmentation technique for separating text. Further, in each method, only the determination as to whether or not it is a candidate position for character cutout is made, and all are output equally without using a measure such as the certainty factor of each candidate position for cutout.

【0005】本発明の目的は、このような従来の問題点
を解決し、オンライン文字切り出し処理において、現筆
記ストロークおよび既筆記ストローク群のストローク時
系列情報から複数の特徴量を抽出してそれらの重み係数
積和演算により算出した文字切り出し確信度にしきい値
処理を施すことにより、該現筆記ストロークについて、
実時間かつ高精度に、切り出し確定、切り出し候補、非
切り出し確定のいずれかに判定した文字切り出し情報を
出力するオンライン手書き文字切り出し方法および装置
を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to solve such a conventional problem, and to extract a plurality of feature amounts from stroke time series information of a current writing stroke and a group of already-written strokes in online character segmentation processing. By performing threshold processing on the character cut-out certainty calculated by the weight coefficient product-sum operation,
It is an object of the present invention to provide an online handwritten character cutout method and apparatus for outputting, in real time and with high accuracy, character cutout information determined to be cutout determined, cutout candidate, or non-cutout determined.

【0006】[0006]

【課題を解決するための手段】上記問題点を解決するた
め、本発明のオンライン手書き文字切り出し方法は、オ
ンライン手書き文字列入力における現筆記ストロークお
よび既筆記ストローク群のストローク時系列情報からそ
れぞれのストロークについて複数の特徴量を抽出し、そ
れらの重み係数積和演算により文字切り出し確信度を求
め、この確信度にあらかじめ用意した本来切り出すべき
ストロークを切り出さないと判定する確率がある充分小
さな一定の値以下になるようにあらかじめ決定したしき
い値と、本来切り出さないストロークを切り出すと判定
する確率がある充分小さな一定の値以下になるようにあ
らかじめ決定したしきい値との2種類のしきい値による
しきい値処理を施すことにより、該現筆記ストロークの
ストローク単位について、実時間で、切り出し確定、切
り出し候補、非切り出し確定のいずれかに判定した文字
切り出し情報を出力することを特徴とするものである。
In order to solve the above-mentioned problems, an online handwritten character segmentation method according to the present invention provides a method for inputting an online handwritten character string, wherein each stroke is obtained from stroke time-series information of a current written stroke and a group of already written strokes. Is extracted from a plurality of feature amounts, a character cutout certainty is obtained by a weight coefficient product-sum operation, and a certain small value equal to or less than a certain value that has a probability that the certainty prepared in advance is determined not to cut out a stroke to be cut out. And a threshold value that is determined so as to be equal to or smaller than a fixed value that is sufficiently small that there is a probability that it is determined that a stroke that should not be extracted is cut out. By performing the threshold processing, the stroke unit of the current writing stroke There are, in real time, cut confirmed, cut candidate, is characterized in that for outputting character segmentation information determined in any of the non-cutout determined.

【0007】また、本発明のオンライン手書き文字切り
出し装置は、筆点の時系列として入力されるストローク
列について各ストロークを構成する筆点の位置座標およ
び筆記時刻から成るストローク情報をストローク単位に
格納するストローク群時系列情報格納手段と、現筆記ス
トローク情報のみから得られる文字切り出しに有効であ
る複数の特徴量を算出する現筆記ストローク特徴量算出
手段と、該現筆記ストロークおよび既筆記ストローク群
から得られる文字切り出しに有効である複数の特徴量を
算出する既筆記ストローク群特徴量算出手段と、前記現
筆記ストローク特徴量算出手段より出力される複数の特
徴量と前記既筆記ストローク群特徴量算出手段より出力
される複数の特徴量とをベクトルの各要素として組み合
わせてストローク特徴ベクトルを構成するストローク特
徴ベクトル構成手段と、あらかじめ用意された重み係数
および本来切り出すべきストロークを切り出さないと判
定する確率がある充分小さな一定の値以下になるように
あらかじめ決定したしきい値と、本来切り出さないスト
ロークを切り出すと判定する確率がある充分小さな一定
の値以下になるようにあらかじめ決定したしきい値との
2種類のしきい値を格納しておく重み係数およびしきい
値格納手段と、前記ストローク特徴ベクトルに対して前
記重み係数を用いた積和演算により文字切り出し確信度
を算出してから前記2種類のしきい値を用いたしきい値
処理により切り出し確定、切り出し候補、非切り出し確
定のいずれかに判定した文字切り出し情報を出力する重
み係数積和演算およびしきい値処理手段と、前記ストロ
ーク群時系列情報格納手段より送出された該現筆記スト
ローク時系列情報に、前記重み係数積和演算およびしき
い値処理手段から出力された文字切り出し情報を付与
し、ストローク単位に時系列情報および切り出し確定、
切り出し候補、非切り出し確定のいずれかの文字切り出
し情報を出力するストローク単位文字切り出し情報付与
手段とを設け、実時間文字切り出し処理を可能にしたこ
とに特徴を有する。
[0007] The online handwritten character segmentation apparatus of the present invention stores stroke information including the position coordinates and the writing time of the points constituting each stroke in a stroke sequence input as a time series of the points, in units of strokes. Stroke group time-series information storage means, current writing stroke feature quantity calculating means for calculating a plurality of feature quantities effective for character segmentation obtained from only the current writing stroke information, and information obtained from the current writing stroke and the already written stroke group. An already-written stroke group feature amount calculating means for calculating a plurality of feature amounts effective for character extraction to be extracted; a plurality of feature amounts output from the current written stroke feature amount calculating means; and the already-written stroke group feature amount calculating means Stroke by combining multiple features output from Stroke feature vector constituting means constituting a signature vector, a predetermined weighting coefficient and a threshold determined in advance so as to be equal to or less than a sufficiently small constant value having a probability of determining that a stroke to be originally cut out is not cut out, Weighting coefficient and threshold value storing means for storing two types of threshold values, a threshold value determined in advance so as to be equal to or smaller than a sufficiently small fixed value with a probability that it is determined that a stroke which is not to be cut out is cut out; Calculating a character segmentation certainty factor by a product-sum operation using the weighting coefficient with respect to the stroke feature vector, and then determining a cutout, a cutout candidate, and a non-cutout determination by threshold processing using the two threshold values. Weighted product-sum operation and threshold processing to output character segmentation information determined as either And adding the character cutout information output from the weight coefficient product-sum operation and threshold processing means to the current writing stroke time-series information sent from the stroke group time-series information storage means. Time series information and cutout confirmation,
It is characterized in that a stroke-based character cutout information providing means for outputting either cutout candidate or non-cutout fixed character cutout information is provided to enable real-time character cutout processing.

【0008】[0008]

【作用】本発明にかかるオンライン手書き文字切り出し
方法および装置においては、筆点の時系列として入力さ
れるストローク列に対し、現筆記ストロークのみから得
られる文字切り出しに有効である複数の特徴量および該
現筆記ストロークおよび既筆記ストローク群から得られ
る文字切り出しに有効である複数の特徴量の組み合わせ
に対して重み係数による積和演算により文字切り出し確
信度を算出し、あらかじめ本来切り出すべきストローク
を切り出さないと判定する確率および本来切り出さない
ストロークを切り出すと判定する確率がある充分小さな
一定の値以下になるように決定しておいた2種類のしき
い値を用いて前記文字切り出し確信度の値をしきい値処
理して、該現筆記ストロークを切り出し確定ストロー
ク、切り出し候補ストローク、非切り出し確定ストロー
クのいずれかに安定かつ高精度に分類し、その文字切り
出し情報と該現筆記ストロークの時系列情報を文字切り
出し結果として実時間で出力することができる。
In the online handwritten character extraction method and apparatus according to the present invention, a plurality of feature values effective for character extraction obtained from only the current handwriting stroke and a plurality of feature amounts are obtained for a stroke sequence input as a time series of writing points. For the combination of a plurality of features that are effective for character extraction obtained from the current written stroke and the already written stroke group, character extraction confidence is calculated by multiply-accumulate operation by weighting coefficient, and it is necessary to cut out the stroke that should be originally extracted in advance. The value of the character segmentation certainty factor is determined using two types of threshold values determined so that the probability of judgment and the probability of judging to extract a stroke that is not originally extracted are equal to or smaller than a sufficiently small fixed value. Value processing, and cuts out the current writing stroke, a fixed stroke, and a cutout candidate stroke. Rourke, classified into stable and accurately to any non-cut definite stroke, can be output in real time the time-series information of the character cut-out information and the developing writing strokes as a character cut-out results.

【0009】[0009]

【実施例】図1は、本発明の一実施例を示すオンライン
手書き文字切り出し装置のブロック構成図である。
FIG. 1 is a block diagram of an on-line handwritten character extracting apparatus according to an embodiment of the present invention.

【0010】図1において、1は文字情報入力手段、2
はストローク群時系列情報格納手段、3は現筆記ストロ
ーク特徴量算出手段、4は既筆記ストローク群特徴量算
出手段、5はストローク特徴ベクトル構成手段、6は重
み係数およびしきい値格納手段、7は重み係数積和演算
およびしきい値処理手段、8はストローク単位文字切り
出し情報付与手段である。以下、各手段の動作について
具体的に説明する。
In FIG. 1, reference numeral 1 denotes character information input means;
Is a stroke group time series information storage means, 3 is a current writing stroke feature amount calculating means, 4 is an already written stroke group feature amount calculating means, 5 is a stroke feature vector constructing means, 6 is a weighting coefficient and threshold value storing means, 7 Is a weight coefficient product-sum operation and threshold processing means, and 8 is a stroke unit character cutout information providing means. Hereinafter, the operation of each means will be specifically described.

【0011】文字情報入力手段1は、既存のデータ・タ
ブレットから構成され、データ・タブレット上に専用ペ
ンで描かれる文字列パターンを構成するストローク列に
ついて各ストロークの筆点の位置座標および筆記時刻を
時系列データとして入力し、ストローク群時系列情報格
納手段2に送出する。
The character information input means 1 is composed of an existing data tablet, and for a stroke sequence constituting a character string pattern drawn on the data tablet with a dedicated pen, the position information and the writing time of the writing point of each stroke are input. It is input as time series data and sent to the stroke group time series information storage means 2.

【0012】ストローク群時系列情報格納手段2は、各
ストロークを構成する筆点の位置座標および筆記時刻か
ら成るストローク情報をストローク単位に時系列で格納
し、現筆記ストロークのストローク情報を現筆記ストロ
ーク特徴量算出手段3へ、また、該現筆記ストロークお
よび既筆記ストローク群の全ストローク情報を該筆記ス
トローク群特徴量算出手段4へ、さらに、該現筆記スト
ロークのストローク情報をストローク単位文字切り出し
情報付与手段8に送出する。
The stroke group time-series information storage means 2 stores stroke information including the position coordinates of the writing points and the writing time constituting each stroke in time series in units of strokes, and stores the stroke information of the current writing stroke in the current writing stroke. The feature amount calculating means 3, the stroke information of the current writing stroke and the entire written stroke group to the writing stroke group feature value calculating means 4, and the stroke information of the current writing stroke are assigned to stroke-based character cutout information. It is sent to the means 8.

【0013】現筆記ストローク特徴量算出手段3は、ス
トローク群時系列情報格納手段2から送出された現筆記
ストロークのストローク情報を用いて、例えば、該現筆
記ストロークの長さ、始点および終点の座標値、Xおよ
びY座標の最大値と最小値、など、該現筆記ストローク
のみから得られる複数の特徴量を算出し、ストローク特
徴ベクトル構成手段5に送出する。
The current writing stroke feature quantity calculating means 3 uses the stroke information of the current writing stroke sent from the stroke group time-series information storage means 2 to calculate, for example, the length of the current writing stroke, the coordinates of the start point and the end point. A plurality of feature amounts, such as values, maximum and minimum values of X and Y coordinates, which are obtained only from the current writing stroke, are calculated and sent to the stroke feature vector constructing means 5.

【0014】既筆記ストローク群特徴量算出手段4は、
ストローク群時系列情報格納手段2から送出された該現
筆記ストロークおよび該筆記ストローク群の全ストロー
ク情報を用いて、例えば、該現筆記ストロークと直前筆
記ストロークとの間のペンアップ時間、該現筆記ストロ
ークと直前筆記ストロークそれぞれの中点あるいは重心
間の距離、該現筆記ストロークと直前筆記ストロークと
のXおよびY方向の重なり、さらに、既筆記ストローク
群に関するXおよびY座標の最大値と最小値など、該現
筆記ストロークおよび既筆記ストローク群の全ストロー
ク情報から得られ該現筆記ストロークの文字切り出し判
定に有効である複数の特徴量を算出し、ストローク特徴
ベクトル構成手段5に送出する。
The already-written stroke group feature amount calculating means 4 includes:
Using the current writing stroke and all the stroke information of the writing stroke group sent from the stroke group time-series information storage unit 2, for example, the pen-up time between the current writing stroke and the immediately preceding writing stroke, the current writing stroke The distance between the midpoint or the center of gravity of each stroke and the immediately preceding writing stroke, the overlap between the current writing stroke and the immediately preceding writing stroke in the X and Y directions, and the maximum and minimum values of the X and Y coordinates of the already written stroke group Then, a plurality of feature amounts that are obtained from the current stroke and all stroke information of the already-written stroke group and that are effective for character cutout determination of the current stroke are calculated, and are sent to the stroke feature vector constructing means 5.

【0015】ストローク特徴ベクトル構成手段5は、現
筆記ストローク特徴量算出手段3および既筆記ストロー
ク群特徴量算出手段4から送出された複数の特徴量の値
を組み合わせ、各特徴量の値をベクトルの要素とするス
トローク特徴ベクトルを構成する。ここで、第i番目の
特徴量の値をfi と記すと、ストローク特徴ベクトルF
は、 F=(f1 ,f2 ,・・・,fi ,・・・,fn ) ……(1) 但し、n:特徴量の総数 と表される。ストローク特徴ベクトルFは重み係数積和
演算およびしきい値処理手段7に送出される。
The stroke feature vector construction means 5 combines the values of a plurality of feature quantities sent from the current handwriting stroke feature quantity calculation means 3 and the already-written stroke group feature quantity calculation means 4, and converts the value of each feature quantity into a vector. Construct a stroke feature vector as an element. Here, if the value of the i-th feature amount is described as f i , the stroke feature vector F
Is represented by F = (f 1 , f 2 ,..., F i ,..., F n ) (1) where n is the total number of feature values. The stroke feature vector F is sent to the weight coefficient product-sum operation and threshold processing means 7.

【0016】重み係数およびしきい値格納手段6は、あ
らかじめ用意された重み係数ベクトルと2種類のしきい
値を格納する。該重み係数ベクトルは、ストローク特徴
ベクトル構成手段5で構成されるストローク特徴ベクト
ルFの各要素が文字切り出しに有効である度合を表現す
る。すなわち、該重み係数ベクトルWは、第i番目の要
素fi の文字切り出しにおける有効性を反映した重み係
数をwi を要素とするベクトルであり、 W=(w1 ,w2 ,・・・,wi ,・・・wn ) ……(2) 但し、n:重み係数の総数 と表される。また、2種類のしきい値をTh1 ,Th2
と記すと、後述する文字切り出し確信度のしきい値処理
に際して、Th1 は本来切り出すべきストロークを切り
出さないと判定する確率がある充分小さな一定の値以下
になるようにあらかじめ決定したしきい値であり、Th
2 は本来切り出さないストロークを切り出すと判定する
確率がある充分小さな一定の値以下になるようにあらか
じめ決定したしきい値である。上記重み係数ベクトルW
およびしきい値Th1 およびTh2は重み係数積和演算
およびしきい値処理手段7に送出される。
The weight coefficient and threshold storage means 6 stores a weight coefficient vector prepared in advance and two kinds of thresholds. The weight coefficient vector expresses the degree to which each element of the stroke feature vector F constituted by the stroke feature vector forming means 5 is effective for character extraction. That is, the weight coefficient vector W is a vector having a weight coefficient w i as an element that reflects the validity of the i-th element f i in character segmentation, and W = (w 1 , w 2 ,...). , W i ,..., W n ) (2) where n is the total number of weighting factors. Also, two types of thresholds are defined as Th 1 and Th 2
When referred to, in thresholding the character segmentation confidence to be described later, Th 1 is to be less than adequate small certain value probability determines not cut the strokes to cut out the original at pre-determined threshold value Yes, Th
Reference numeral 2 denotes a threshold value which is determined in advance so as to be equal to or smaller than a sufficiently small fixed value with which there is a probability that it is determined that a stroke which should not be cut out is cut out. The weight coefficient vector W
The threshold values Th 1 and Th 2 are sent to the weight coefficient product-sum operation and threshold processing means 7.

【0017】重み係数積和演算およびしきい値処理手段
7は、まず、ストローク特徴ベクトル構成手段5から送
出されるストローク特徴ベクトルFと重み係数およびし
きい値格納手段6から送出される重み係数ベクトルWと
の間で積和演算を行い、次式で与えられる文字切り出し
確信度Gを算出する。
The weight coefficient product-sum operation and threshold value processing means 7 first calculates the stroke feature vector F sent from the stroke feature vector construction means 5 and the weight coefficient and weight coefficient vector sent from the threshold value storage means 6. A sum of products operation is performed with W to calculate a character cut-out certainty factor G given by the following equation.

【0018】 G=Σii ×fi ……(3) 但し、Σi はi=1,2,・・・,nに関する和を表わ
す。上式(3)のGは、複数特徴量の線形演算による、
線形判別関数に相当する。さらに、文字切り出し確信度
の算出に非線形演算を用いることも考えられる。その場
合は、例えば、多層のニューラルネットを用いて、上式
(3)で表わされる複数特徴量の重み係数積和演算値を
シグモイド関数により非線形変換する操作を反復して、
文字切り出し確信度Gを算出することになる。
G = Σ i w i × f i (3) where Σ i represents the sum of i = 1, 2,..., N. G in the above equation (3) is obtained by a linear operation of a plurality of feature amounts.
It corresponds to a linear discriminant function. Further, it is conceivable to use a non-linear operation for calculating the character segmentation certainty factor. In such a case, for example, using a multilayer neural network, an operation of nonlinearly transforming the weighted coefficient product-sum operation value of the plurality of feature amounts represented by the above equation (3) by a sigmoid function is repeated,
The character cut-out certainty G is calculated.

【0019】重み係数積和演算およびしきい値処理手段
7は、次いで、上記文字切り出し確信度Gと重み係数お
よびしきい値格納手段6より送出された2種類のしきい
値Th1 およびTh2 を用いて、以下のようなしきい値
処理を施すことにより、該現筆記ストロークを切り出し
確定ストローク、切り出し候補ストローク、非切り出し
確定ストロークのいずれかに判定して文字切り出し情報
とする。
The weight coefficient product-sum operation and threshold processing means 7 then outputs the above-mentioned character cut-out certainty factor G and the two types of thresholds Th 1 and Th 2 sent from the weight coefficient and threshold storage means 6. , The current writing stroke is determined to be one of a cutout fixed stroke, a cutout candidate stroke, and a non-cutout fixed stroke, and used as character cutout information.

【0020】 G>Th2 のとき 切り出し確定ストローク ……(4) Th1 ≦G≦Th2 のとき 切り出し候補ストローク ……(5) G<Th1 のとき 非切り出し確定ストローク ……(6) ここで、切り出し確定ストロークとは、文字の先頭スト
ロークであると確定できるストロークのことである。切
り出し候補ストロークとは、文字の先頭ストロークであ
る可能性があるストロークのことである。非切り出し確
定ストロークとは、文字の先頭ストロークでないと確定
できるストロークのことである。こうしてストローク単
位に得られた文字切り出し情報はストローク単位文字切
り出し情報付与手段8へ送出される。
[0020] G> cut definite stroke ... (4) when the Th 2 Th 1 ≦ candidate stroke ... (5) cut out when G ≦ Th 2 G <Non cutout determined stroke .... When Th 1 (6) where Here, the cutout fixed stroke is a stroke that can be determined to be the head stroke of the character. The extraction candidate stroke is a stroke that may be the first stroke of a character. The non-cutout fixed stroke is a stroke that can be fixed as not the head stroke of the character. The character cutout information obtained for each stroke is sent to the stroke unit character cutout information providing means 8.

【0021】ストローク単位文字切り出し情報付与手段
8は、ストローク群時系列情報格納手段2から送出され
た該現筆記ストロークのストローク時系列情報に、重み
係数積和演算およびしきい値処理手段7から送出された
該現筆記ストロークの文字切り出し情報を付与して、ス
トローク単位に、実時間で文字切り出し結果を出力す
る。
The stroke unit character segmentation information providing means 8 adds weight coefficient product sum calculation and threshold processing means 7 to the stroke time series information of the current writing stroke sent from the stroke group time series information storage means 2. The character extraction information of the current writing stroke is added, and the character extraction result is output in real time in units of strokes.

【0022】図2は、住所を対象にしたオンライン手書
き文字列パターンとその文字切り出し結果の出力例であ
る。実線で描かれているのは切り出し確定ストローク、
細実線で描かれているのは切り出し候補ストローク、点
線で描かれているのは非切り出し確定ストロークを示
す。
FIG. 2 is an output example of an online handwritten character string pattern for an address and the character cutout result. The solid line is the cutout fixed stroke,
A thin solid line indicates a cutout candidate stroke, and a dotted line indicates a non-cutout fixed stroke.

【0023】本実施例においては、現筆記ストロークに
ついて、既筆記ストローク群を含めて文字切り出しに有
効な複数の特徴量を抽出してそれら特徴量の重み係数積
和演算により文字切り出し確信度を算出し、あらかじめ
決定しておいた2種類のしきい値を用いたしきい値処理
により、該現筆記ストロークについて切り出し確定スト
ローク、切り出し候補ストローク、非切り出し確定スト
ロークのいずれかに分類した文字切り出し情報を付与し
て、ストローク単位の文字切り出し判定処理を実時間か
つ高精度に実現できる。このように、各ストロークにつ
いて切り出し確定、切り出し候補、非切り出し確定の文
字切り出し情報を実時間で出力できることにより、後段
の文字認識処理と結合した場合にオンライン文字認識系
として大幅な処理時間の抑制が可能となる。
In the present embodiment, a plurality of feature amounts effective for character extraction are extracted from the current writing stroke, including the already-written stroke group, and the character segmentation confidence is calculated by a weight coefficient product-sum operation of these characteristic amounts. Then, by performing threshold processing using two types of predetermined thresholds, character cutout information classified as any of a cutout fixed stroke, a cutout candidate stroke, and a non-cutout fixed stroke is added to the current writing stroke. Thus, it is possible to realize the character cutout determination processing in units of strokes in real time and with high accuracy. As described above, since the cut-out confirmed, cut-out candidate, and non-cut-out confirmed character cut-out information can be output in real time for each stroke, when combined with the subsequent character recognition processing, a large reduction in processing time as an online character recognition system can be achieved. It becomes possible.

【0024】図3は、本発明のオンライン手書き文字切
り出し方法の一実施例を示すフローチャートである。な
お、(1)〜(5)は各ステップを示す。図3におい
て、該筆記ストローク群のストローク時系列情報の特徴
量をメモリから読み出し(1)、現筆記ストロークのス
トローク時系列情報の特徴量を抽出する(2)。両特徴
量に重み係数積和演算によって文字切り出し確信度を求
め(3)、あらかじめ用意した2種類のしきい値を用い
て前記文字切り出し確信度にしきい値処理を施し
(4)、切り出し確定、切り出し候補、非切り出し確定
のいずれかに判定した文字切り出し情報を出力する
(5)。このようにして実時間で、高精度の手書き文字
の切り出しを行うことができる。
FIG. 3 is a flowchart showing an embodiment of the online handwritten character extracting method according to the present invention. In addition, (1) to (5) indicate each step. In FIG. 3, the feature amount of the stroke time-series information of the writing stroke group is read from the memory (1), and the feature amount of the stroke time-series information of the current writing stroke is extracted (2). The character segmentation certainty is obtained by weight-product multiplication and sum operation for both feature quantities (3), and the character segmentation certainty factor is subjected to threshold processing using two types of thresholds prepared in advance (4). The character cutout information determined to be either a cutout candidate or a non-cutout fixed is output (5). In this way, highly accurate handwritten characters can be cut out in real time.

【0025】[0025]

【発明の効果】本発明のオンライン手書き文字切り出し
方法および装置は、オンライン手書き文字列入力におい
て、筆記ストローク毎に実時間で切り出し確定、切り出
し候補、非切り出し確定のいずれかに高精度に判定した
文字切り出し情報を付与し、該筆記ストロークのストロ
ーク時系列情報とともに後段の認識処理に出力すること
が可能となる。このため、本発明は、オンライン文字列
認識系に組み込まれて用いられる場合に、文字切り出し
処理と文字認識処理の同期性、文字認識処理の回数の大
幅な削減により、系全体の処理時間の抑制という観点か
ら極めて大きな利点を持つ。
According to the online handwritten character extraction method and apparatus of the present invention, in online handwritten character string input, a character which has been determined with high precision in any of real-time cutout determination, cutout candidate, and non-cutout determination for each writing stroke. It is possible to add cutout information and output it to the subsequent recognition processing together with the stroke time-series information of the writing stroke. Therefore, when the present invention is used by being incorporated into an online character string recognition system, the synchronism between the character extraction processing and the character recognition processing, and the number of times of the character recognition processing are greatly reduced, thereby suppressing the processing time of the entire system. It has a very great advantage from the viewpoint.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明のオンライン手書き文字切り出し装置の
一実施例を示すブロック構成図である。
FIG. 1 is a block diagram showing an embodiment of an online handwritten character cutout apparatus according to the present invention.

【図2】図1の手書き文字列パターンおよびその文字切
り出し結果の出力例を示す図である。
FIG. 2 is a diagram illustrating an output example of a handwritten character string pattern of FIG. 1 and a character cutout result thereof.

【図3】本発明のオンライン手書き文字切り出し方法の
一実施例を示すフローチャートである。
FIG. 3 is a flowchart showing one embodiment of the online handwritten character segmentation method of the present invention.

【符号の説明】[Explanation of symbols]

1 文字情報入力手段 2 ストローク群時系列情報格納手段 3 現筆記ストローク特徴量算出手段 4 既筆記ストローク群特徴量算出手段 5 ストローク特徴ベクトル構成手段 6 重み係数およびしきい値格納手段 7 重み係数積和演算およびしきい値処理手段 8 ストローク単位文字切り出し情報付与手段 DESCRIPTION OF SYMBOLS 1 Character information input means 2 Stroke group time-series information storage means 3 Current writing stroke feature amount calculation means 4 Existing writing stroke group feature amount calculation means 5 Stroke feature vector construction means 6 Weighting coefficient and threshold value storage means 7 Weighting coefficient product sum Calculation and threshold processing means 8 Stroke unit character cutout information adding means

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−203208(JP,A) 相澤博 若原徹 小高和己,複数のス トローク特徴を用いた手書き文字列から の実時間文字切り出し,電子情報通信学 会技術研究報告,日本,電子情報通信学 会 PRU95−185,1995年12月22日, PRU95−177〜189 Vol.95 N o.446,p.57−62 岡本正義 山本英人 吉川隆敏 堀井 洋,物理的特徴量を用いたオンライン文 字自動切り出し手法,電子情報通信学会 技術研究報告 PRU95−13,日本,電 子情報通信学会,1995年5月18日,PR U95−1〜20 Vol.95 No.43, p.93−100 (58)調査した分野(Int.Cl.7,DB名) G06K 9/62 G06K 9/34 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-6-203208 (JP, A) Hiroshi Aizawa Toru Wakahara Kazumi Odaka, Real-time character segmentation from handwritten character strings using multiple stroke features, electronic information IEICE Technical Report, Japan, IEICE PRU95-185, December 22, 1995, PRU95-177-189 Vol. 95 No. 446, p. 57-62 Masayoshi Okamoto Hideto Yamamoto Takatoshi Yoshikawa Hiroshi Horii, Automatic Online Character Segmentation Method Using Physical Features, IEICE Technical Report PRU95-13, Japan, IEICE, May 1995 18th, PR U95-1 to 20 Vol. 95 No. 43, p. 93-100 (58) Field surveyed (Int.Cl. 7 , DB name) G06K 9/62 G06K 9/34 JICST file (JOIS)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 オンライン手書き文字列入力における現
筆記ストロークおよび既筆記ストローク群のストローク
時系列情報からそれぞれのストロークについて複数の特
徴量を抽出し、それらの重み係数積和演算により文字切
り出し確信度を求め、この確信度にあらかじめ用意した
本来切り出すべきストロークを切り出さないと判定する
確率がある充分小さな一定の値以下になるようにあらか
じめ決定したしきい値と、本来切り出さないストローク
を切り出すと判定する確率がある充分小さな一定の値以
下になるようにあらかじめ決定したしきい値との2種類
のしきい値によるしきい値処理を施すことにより、該現
筆記ストロークのストローク単位について、実時間で、
切り出し確定、切り出し候補、非切り出し確定のいずれ
かに判定した文字切り出し情報を出力することを特徴と
するオンライン手書き文字切り出し方法。
1. A method for extracting a plurality of feature amounts for each stroke from stroke time-series information of a current stroke and an already-written stroke group in online handwritten character string input, and calculating a weighting coefficient product-sum operation to determine the degree of certainty of character segmentation. The threshold value determined in advance is determined to be not more than a fixed value that is sufficiently small that there is a probability that it is determined that a stroke that should be originally cut out is not cut out, and the probability that it is determined that a stroke that should not be cut out is cut out. By performing threshold processing using two types of thresholds, that is, a predetermined threshold value so as to be equal to or smaller than a sufficiently small constant value, the stroke unit of the current writing stroke can be calculated in real time.
An online handwritten character segmentation method, characterized by outputting character segmentation information determined to be one of a decided segmentation, a segmentation candidate, and a non-segmented decision.
【請求項2】 オンライン手書き文字列入力における筆
点の時系列として入力されるストローク列について各ス
トロークを構成する筆点の位置座標および筆記時刻から
成るストローク情報をストローク単位に格納するストロ
ーク群時系列情報格納手段と、現筆記ストローク情報の
みから得られる文字切り出しに有効である複数の特徴量
を算出する現筆記ストローク特徴量算出手段と、該現筆
記ストロークおよび既筆記ストローク群から得られる文
字切り出しに有効である複数の特徴量を算出する既筆記
ストローク群特徴量算出手段と、前記現筆記ストローク
特徴量算出手段より出力される複数の特徴量と前記既筆
記ストローク群特徴量算出手段より出力される複数の特
徴量とをベクトルの各要素として組み合わせてストロー
ク特徴ベクトルを構成するストローク特徴ベクトル構成
手段と、あらかじめ用意された重み係数および本来切り
出すべきストロークを切り出さないと判定する確率があ
る充分小さな一定の値以下になるようにあらかじめ決定
したしきい値と、本来切り出さないストロークを切り出
すと判定する確率がある充分小さな一定の値以下になる
ようにあらかじめ決定したしきい値との2種類のしきい
値を格納しておく重み係数およびしきい値格納手段と、
前記ストローク特徴ベクトルに対して前記重み係数を用
いた積和演算により文字切り出し確信度を算出して前記
2種類のしきい値を用いたしきい値処理により該現筆記
ストロークについて切り出し確定、切り出し候補、非切
り出し確定のいずれかに判定した文字切り出し情報を出
力する重み係数積和演算およびしきい値処理手段と、前
記ストローク群時系列情報格納手段より送出された該現
筆記ストロークの時系列情報に、前記重み係数積和演算
およびしきい値処理手段から出力された文字切り出し情
報を付与し、ストローク単位に時系列情報および切り出
し確定、切り出し候補、非切り出し確定のいずれかの文
字切り出し情報を出力するストローク単位文字切り出し
情報付与手段とを設け、実時間文字切り出し処理を可能
にしたことを特徴とするオンライン手書き文字切り出し
装置。
2. A stroke group time series for storing stroke information including stroke position coordinates and writing time constituting strokes in a stroke unit in a stroke sequence input as a time series of brush points in online handwritten character string input. Information storage means, current writing stroke feature quantity calculating means for calculating a plurality of feature quantities effective for character segmentation obtained only from the current writing stroke information, and character segmenting obtained from the current writing stroke and the already written stroke group. An already-written stroke group feature amount calculating means for calculating a plurality of effective feature amounts, a plurality of feature amounts output from the current written stroke feature amount calculating means and output from the already-written stroke group feature amount calculating means. A stroke feature vector is constructed by combining a plurality of features as each element of the vector. A stroke feature vector constructing means to be formed, a weight coefficient prepared in advance, and a threshold value determined in advance so as to be equal to or smaller than a sufficiently small fixed value having a probability that it is determined that a stroke to be originally cut out is not cut out, Weighting coefficient and threshold value storing means for storing two types of threshold values, that is, a threshold value determined in advance so as to be equal to or smaller than a sufficiently small constant value having a probability that the stroke is determined to be cut out,
A character cut-out certainty factor is calculated for the stroke feature vector by a product-sum operation using the weighting coefficient, and a cut-out decision, a cut-out candidate, for the current writing stroke are performed by threshold processing using the two types of threshold values. Weighting coefficient product-sum operation and threshold processing means for outputting character cutout information determined to be either non-cutout determined, and the time series information of the current writing stroke sent from the stroke group time series information storage means, A stroke for adding the character cutout information output from the weight coefficient product-sum operation and the threshold value processing means, and outputting time-series information and any one of character cutout information of cutout fixed, cutout candidate, and non-cutout fixed for each stroke A unit character cutout information providing means is provided to enable real-time character cutout processing. Online handwritten character cut-out device that.
JP32418695A 1995-12-13 1995-12-13 Online handwritten character segmentation method and apparatus Expired - Fee Related JP3278829B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32418695A JP3278829B2 (en) 1995-12-13 1995-12-13 Online handwritten character segmentation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32418695A JP3278829B2 (en) 1995-12-13 1995-12-13 Online handwritten character segmentation method and apparatus

Publications (2)

Publication Number Publication Date
JPH09161010A JPH09161010A (en) 1997-06-20
JP3278829B2 true JP3278829B2 (en) 2002-04-30

Family

ID=18163045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32418695A Expired - Fee Related JP3278829B2 (en) 1995-12-13 1995-12-13 Online handwritten character segmentation method and apparatus

Country Status (1)

Country Link
JP (1) JP3278829B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007109118A (en) * 2005-10-17 2007-04-26 Hitachi Ltd Input instruction processing apparatus and input instruction processing program
JP5673033B2 (en) * 2010-11-30 2015-02-18 富士ゼロックス株式会社 Image processing apparatus and image processing program
JP2014092817A (en) * 2012-10-31 2014-05-19 Fuji Xerox Co Ltd Character recognition device and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岡本正義 山本英人 吉川隆敏 堀井洋,物理的特徴量を用いたオンライン文字自動切り出し手法,電子情報通信学会技術研究報告 PRU95−13,日本,電子情報通信学会,1995年5月18日,PRU95−1〜20 Vol.95 No.43,p.93−100
相澤博 若原徹 小高和己,複数のストローク特徴を用いた手書き文字列からの実時間文字切り出し,電子情報通信学会技術研究報告,日本,電子情報通信学会 PRU95−185,1995年12月22日,PRU95−177〜189 Vol.95 No.446,p.57−62

Also Published As

Publication number Publication date
JPH09161010A (en) 1997-06-20

Similar Documents

Publication Publication Date Title
CN107784288B (en) Iterative positioning type face detection method based on deep neural network
CN111814794B (en) Text detection method and device, electronic equipment and storage medium
JP2977032B2 (en) Pattern matching apparatus and method in view of distance and direction
CN109858036B (en) Method and device for dividing documents
CN110334179B (en) Question-answer processing method, device, computer equipment and storage medium
CN109977895B (en) Wild animal video target detection method based on multi-feature map fusion
CN111488732B (en) Method, system and related equipment for detecting deformed keywords
CN113111968A (en) Image recognition model training method and device, electronic equipment and readable storage medium
CN114120299A (en) Information acquisition method, device, storage medium and equipment
CN114936290A (en) Data processing method and device, storage medium and electronic equipment
CN109635810B (en) Method, device and equipment for determining text information and storage medium
KR100480316B1 (en) Character recognition method and apparatus using writer-specific reference vectors generated during character-recognition processing
CN111428511A (en) Event detection method and device
CN112749639B (en) Model training method and device, computer equipment and storage medium
CN110489423A (en) A kind of method, apparatus of information extraction, storage medium and electronic equipment
JP3278829B2 (en) Online handwritten character segmentation method and apparatus
KR102082899B1 (en) Man-hour estimation apparatus based on a dissimilarity measure extracted from building specification document and method using the same
CN112560856A (en) License plate detection and identification method, device, equipment and storage medium
Ramdan et al. A novel method to detect segmentation points of arabic words using peaks and neural network
CN113177603B (en) Training method of classification model, video classification method and related equipment
CN113220887B (en) Emotion classification method using target knowledge enhancement model
CN110826488B (en) Image identification method and device for electronic document and storage equipment
CN115512375A (en) Training method of text error correction model, text recognition method and related equipment
CN113283396A (en) Target object class detection method and device, computer equipment and storage medium
CN111061924A (en) Phrase extraction method, device, equipment and storage medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100222

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees