JPH096920A

JPH096920A - 手書き文字認識方法及びその装置

Info

Publication number: JPH096920A
Application number: JP7151831A
Authority: JP
Inventors: Yoshifumi Sakai; 良文坂井; Yoshitaka Ikeda; 佳隆池田
Original assignee: Nippon Steel Corp
Current assignee: Nippon Steel Corp
Priority date: 1995-06-19
Filing date: 1995-06-19
Publication date: 1997-01-10
Anticipated expiration: 2020-11-30
Also published as: JP3720873B2

Abstract

(57)【要約】【目的】続け字のアルファベット文字列などを手書き文
字認識で、利用者の書き癖による文字切り出し位置の誤
り（「c」と「d」など）をなくし、認識率を向上を図る。【構成】入力した続け字のインクデータに基づき、並び
線（ライン）とミーンラインにそれぞれ相当する下側基
準線２５_Lと上側基準線２５_Uを抽出する。切り出し候補
位置探索範囲Ｗ内において、インクデータ２０ｂ中に上
側基準線２５_Uより上方に張り出している部分があれ
ば、その部分の直後にあって下側基準線２５ _Lに対応す
る基準点を中心として、その部分のインクデータが直立
するように回転を行なう。下側基準線２５_Lより下方に
張り出している部分があれば、その部分の直前にあって
上側基準線２５_Uに対応する基準点を中心として、その
部分の回転を行なう。その後、ヒストグラム法によっ
て、文字切り出し位置の候補となるべき位置を抽出す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、手書き文字認識に関
し、特に、続け字（カーシブ；cursive）で入力された
複数文字分の手書き文字データから１字分の手書き文字
データを順次切り出す手書き文字認識方法及びその装置
に関する。

【０００２】

【従来の技術】これまでのオンライン手書き文字認識シ
ステムでは、入力装置上に予め設定された該四角形の領
域（入力枠）に対し利用者が１文字ずつ手書き文字を入
力するようになっていたが、近年、入力枠を設けること
なく利用者が自由に入力した手書き文字を認識できる技
術が開発されてきた。

【０００３】日本語や中国語の場合であれば、手書き文
字入力を行なうに際し１文字ずつ分けて入力することを
要求しても、利用者は大した違和感をもつことなく手書
き文字入力を行なうことができる。しかしながら、英語
やフランス語、スペイン語などの単語はアルファベット
の文字列として表わされるが、アルファベットの文字列
が手書き文字入力される場合には、複数の文字にまたが
って１ストロークの運筆がなされること、すなわち続け
字（カーシブ;cursive）で入力されることが多い。さら
に、英語などのラテンアルファベットのほか、ロシア語
などで使用されるキリル文字、さらにはアラビア文字な
ども、続け字で入力されることが多い。このように続け
字で入力されることが多い言語を対象とする場合には、
続け字で入力されることを前提として手書き文字認識を
行なう必要がある。このような場合の手書き文字認識方
法の一つとして、英語を例に挙げれば、「ｂｏｏｋ」と
か「ｌｏｏｋ」といった単語を単位としてパターンマッ
チングで文字認識を行なう方法がある。この方法には、
「ｂｏｏｋ」と「ｌｏｏｋ」のように全体の形が似てい
る単語同士での識別が難しく、認識用辞書の容量が膨大
になり、かつ、辞書にない単語の認識が行なえないとい
う問題がある。

【０００４】続け字で入力される手書き文字データに対
する手書き文字認識方法の他の方法として、続け字とし
て入力された複数文字分の手書き文字データから特徴点
を見つけ、この特徴点を切り出し位置として１文字分ず
つのデータを切り出し、１文字ごとに手書き文字認識を
行なう方法がある。特徴点としては、ストローク長を等
分する点や、運筆時のペン先の移動方向を逐次検出して
移動方向がある特定の方向から別の特定の方向に変化し
た点などが選択される。ストローク長を等分する点を特
徴点とする方法は、字によってストローク長が異なるこ
とがあるので（「ｗ」は他の文字に比べストローク長が
長い）、必ずしも有効でない。運筆の移動方向の変化を
見る方法では、個人差が大きく、例えば「ｄ」と「ｃ
ｌ」の区別などを行なうことが困難である。

【０００５】特徴点を抽出する方法として、２次元空間
内のデータとして入力された手書き文字データを入力方
向に平行な直線上に射影してヒストグラムを作成し、こ
のヒストグラムから特徴点を抽出する方法（ヒストグラ
ム法）がある。図１３はヒストグラム法を説明する図で
あって、ここでは、続け字で英語文字列「ａｌｃ」に対
応する手書き文字入力データ９１が入力されたものとす
る。入力方向に対し垂直であって、所定の刻み幅ｄの間
隔で相互に平行な多数の直線（図示破線）を考え、これ
らの直線と手書き文字入力データ９１との交点の数を数
え、この交点の数に基づいてヒストグラム９２を考え
る。英語文字列の手書き文字データでは、字と字の間の
領域では直線ごとの交点の数は１であり、字の中心部で
は直線ごとの交点の数は２以上であると考えられるか
ら、ヒストグラム９２に表わされた頻度（直線ごとの交
点の数）の変化を調べて頻度が変化するところから特徴
点を抽出しここを切り出し位置とすることができる。し
かしながら、単純なヒストグラム法では、利用者の書き
癖によっては頻度１の範囲が複数文字にわたって連続し
たり、図１３の「ｌｃ」の部分に見られるように、寝た
字では隣接する文字が重なって、文字を切り出すべき位
置を正確に見い出せないことがある。

【０００６】特徴点を見つけて切り出し位置とする方法
では、切り出し位置を一度誤ると、その誤っている位置
を基準に次の文字切り出しが行なわれるので、切り出し
位置の誤りが伝播することになり、切り出し位置の誤り
は広範囲に影響を及ぼすことになる。

【０００７】正しい位置での切り出しを行なうために、
文字の縦横比などを利用することが試みられている。こ
の方法は、例えば横書きの場合、文字高に比べて極端に
短い位置での切り出しを行なわないことにより、誤った
位置での切り出しを防止しようとするものである。しか
しながら、手書き文字での縦横比は利用者によってかな
りばらつきがあり、また、文字によっても縦横比が異な
るので、縦横比を利用する方法でも切り出し位置の誤り
を減らすことは難しい。例えば、「ｉ」と「Ｗ」とで
は、文字の縦横比が異なるので、同一の基準を用いて文
字切り出しを行なった場合に、いずれの文字も正しく切
り出されるとは限らない。また、異なる利用者の手書き
文字データのいずれに対しても正確に文字切り出しが行
なえるような、利用者に共通した切り出し基準を見つけ
ることも困難である。

【０００８】以上、続け字で入力された手書き文字デー
タに対して手書き文字認識を行なう方法について、単語
単位でパターン認識する方法と、１文字分ずつの手書き
文字データを切り出して文字認識を行なう方法とを説明
したが、認識率や認識の速度、必要とする辞書容量の小
ささなどの点を考慮すると、１文字分ずつ手書き文字デ
ータを切り出す方法の方が有効である。

【０００９】以下の説明において、「文字」とは、文字
コードと１対１に対応するものを指し、具体的にはこの
ように文字コードによって一意に指定されるものの名前
のことを意味し、「インクデータ」とは、利用者がペン
などの入力デバイスによって入力した軌跡データを指
し、「手書き文字入力」とは、文字認識の対象となるイ
ンクデータを入力する作業を指し、「手書き文字」と
は、手書き文字認識処理を施すことを意図して利用者が
入力したインクデータのことを指し、「文字切り出し」
とは、手書き文字のインクデータ群の中から、１文字に
相当するインクデータを抽出することを指す。

【００１０】また、「距離」とは、認識誤差量とも呼ば
れ、候補文字の形状的な特徴を表わすデータ（特徴量）
やインクデータがある場合に、これらのデータのうちの
任意の２つのものについて、両者の差異を定量的に表わ
す尺度のことである。例えば、データが特徴空間内の特
徴ベクトルとして表わされる場合には、２つの特徴ベク
トル間の差ベクトルのノルムとして距離を定義すること
ができる。距離が小さいほど、２つのデータがよく一致
していることになる。切り出されたインクデータをもと
に認識辞書を探索してそのインクデータに対応する候補
文字を見つけ出した場合には、その候補文字に対応する
特徴データとインクデータとの距離が小さいほど、探索
された候補文字が利用者の意図した文字である可能性が
高いということになる。

【００１１】「クラスタ」とは、候補文字などについ
て、その形状的な特徴を表わすデータの代表となるべき
もののことを指す。インクデータから特徴ベクトルを生
成して文字認識処理が行なわれる場合には、クラスタは
候補文字の特徴ベクトル（代表点）に相当する。

【００１２】

【発明が解決しようとする課題】入力枠を用いない手書
き文字認識システムでアルファベットの文字列のように
続け字で入力された手書き文字データの手書き文字認識
を行なう場合、上述したように、単語単位でパターン認
識を行なうよりも、続け字の手書き文字データから１文
字分の手書き文字データを順次切り出して認識を行なう
方が有効である。しかしながら、従来の文字切り出し方
法では、利用者の書き癖によっては正確に切り出し位置
を設定できないことがあり、このため、誤った切り出し
位置で切り出された手書き文字データに基づいて文字認
識を行なうこととなって、認識率のさらなる向上を望め
ないという問題点がある。

【００１３】本発明の目的は、正確な文字切り出しを行
なうことによって、アルファベット文字列で代表される
続け字で入力される手書き文字データに対する手書き文
字認識の認識率の向上を図ることにある。

【００１４】

【課題を解決するための手段】本発明の手書き文字認識
方法は、利用者が入力したインクデータから文字切り出
しを行なって手書き文字認識を行なう手書き文字認識方
法において、文字とその文字に対するクラスタを格納し
た認識辞書と、重み付けクラスタとその重み付けクラス
タに対する対象文字を格納した重み付け辞書とを使用
し、未切り出しのインクデータに対し、前記未切り出し
のインクデータの先頭から手書き文字の入力方向に沿っ
て所定の長さの候補位置探索範囲を設定する探索範囲設
定工程と、前記候補位置探索範囲内のインクデータから
文字切り出しの位置の候補となる切り出し候補位置を決
定する候補位置探索工程と、前記切り出し候補位置のそ
れぞれで文字切り出しが行なわれたとして前記認識辞書
との比較・照合を行ない、前記切り出し位置ごとに当該
切り出し候補位置に対応する候補文字と対応するクラス
タからの当該候補文字の距離値とを求める認識工程と、
前記重み付け辞書を探索し、前記切り出し候補位置ごと
のインクデータの中に重み付けクラスタに近いものがあ
り、かつ、当該重み付けクラスタの対象文字が探索され
た候補文字のいずれかと一致する場合には、一致した候
補文字の距離値に重み付けを行なう重み付け工程と、前
記重み付け工程で重み付けが行なわれた後の距離値の大
小に応じて候補文字の中から認識文字を決定する決定工
程とを有する。そして本発明は、候補位置探索工程にお
ける候補位置の探索方法として、以下の２通りの方法を
提供する。

【００１５】第１の方法では、基準線設定工程により、
まず、入力された一連のインクデータに対して手書き文
字の入力方向に平行な１対の基準線を設定し、その上
で、候補位置探索範囲内のインクデータに関し、１対の
基準線ではさまれた範囲から一方の基準線側に張り出し
ている部分を検出した場合には、インクデータ上の点で
あって当該部分の直後にありかつ他方の基準線に対応す
る点を中心として当該部分を含むインクデータ部分を回
転し、１対の基準線ではさまれた範囲から他方の基準線
側に張り出している部分を検出した場合には、インクデ
ータ上の点であって当該部分の直前にありかつ一方の基
準線に対応する点を中心として当該部分を含むインクデ
ータ部分を回転する。そして、手書き文字の入力方向に
平行な直線上にインクデータを射影し、文字切り出しの
位置の候補となる切り出し候補位置を射影点の数の増減
に基づいて決定する。すなわちヒストグラム法を使用す
る。このように切り出し候補位置が決定したら、候補位
置探索工程での回転が行なわれる前のインクデータを対
象として認識工程を実行する。この方法において使用さ
れる一対の基準線は、アルファベット文字列の場合であ
ればそれぞれ並び線（ライン）とミーンラインに相当す
る直線である。この一対の基準線の求め方としては、例
えば、インクデータから特徴点を抽出し、入力方向に垂
直な直線上にこれら特徴点を射影し、射影点の分布に応
じてグループ分けを行ない、各グループでの射影点の平
均位置に応じて基準線の位置を決める方法を採用するこ
とができる。

【００１６】第２の方法では、認識辞書と重み付け辞書
の他に、予め定められた特定パターンごとに当該特定パ
ターンに属する１または複数の基準パターンとその基準
パターンごとの切り出し位置パラメータとを格納する切
り出し用辞書を使用する。そして、特定パターンに該当
する部分を候補位置探索範囲内のインクデータから抽出
し、抽出された部分と類似する基準パターンを切り出し
用辞書の中から探索し、文字切り出しの位置の候補とな
る切り出し候補位置を探索された基準パターンに対応す
る切り出し位置パラメータによって決定する。特定パタ
ーンは、例えば、インクデータ中の右上がりの部分とい
うようにして定められる。「右上がり」という特定デー
タに対し、基準パターンは、例えば、「一直線であるよ
うなパターン」、「初めの方があとの方より勾配が急で
あるようなパターン」、「初めの方があとの方より勾配
が緩やかであるようなパターン」として定めることがで
きる。また、切り出し位置パラメータは、例えば、イン
クデータの軌跡としての距離で前から１／３の場所を切
り出し候補位置とする、といったように定めておく。基
準パターンと抽出されたインクデータ部分との類似の判
定は通常の１ストロークデータの文字認識に他ならない
から、一般的な方法で実行でき、類似する基準パターン
が決まれば、その基準パターンについて予め定められて
いる切り出し位置パラメータによって、抽出されたイン
クデータ部分に対して切り出し候補位置の設定が行なわ
れる。先の例に基づけば、右上がりの部分として抽出さ
れたインクデータ部分の前から１／３の位置を切り出し
候補位置とする。

【００１７】本発明の第１の手書き文字認識装置は、利
用者が入力したインクデータから文字切り出しを行なっ
て手書き文字認識を行なう手書き文字認識装置におい
て、インクデータを入力する入力手段と、インクデータ
を格納するインクデータ格納手段と、文字とその文字に
対するクラスタを格納した認識辞書と、重み付けクラス
タとその重み付けクラスタに対する対象文字を格納した
重み付け辞書と、前記インクデータ格納手段中のインク
データに対し手書き文字の入力方向に平行な１対の基準
線を設定し、未切り出しのインクデータに対し、前記未
切り出しのインクデータの先頭から前記入力方向に沿っ
て所定の長さの候補位置探索範囲を設定し、前記候補位
置探索範囲内のインクデータに関し、前記１対の基準線
ではさまれた範囲から一方の基準線側に張り出している
部分を検出した場合には、前記インクデータ上の点であ
って当該部分の直後にありかつ他方の基準線に対応する
点を中心として当該部分を含むインクデータ部分を回転
し、前記１対の基準線ではさまれた範囲から前記他方の
基準線側に張り出している部分を検出した場合には、前
記インクデータ上の点であって当該部分の直前にありか
つ前記一方の基準線に対応する点を中心として当該部分
を含むインクデータ部分を回転し、その後、前記入力方
向に平行な直線上に前記インクデータを射影し、文字切
り出しの位置の候補となる切り出し候補位置を射影点の
数の増減に基づいて決定し、前記各インクデータ部分の
回転が行なわれる前のインクデータに対して前記切り出
し候補位置のそれぞれで文字切り出しが行なわれたとし
て前記認識辞書との比較・照合を行ない、前記切り出し
位置ごとに当該切り出し候補位置に対応する候補文字と
対応するクラスタからの当該候補文字の距離値とを求
め、前記重み付け辞書を探索し、前記切り出し候補位置
ごとのインクデータの中に重み付けクラスタに近いもの
があり、かつ、当該重み付けクラスタの対象文字が探索
された候補文字のいずれかと一致する場合には、一致し
た候補文字の距離値に重み付けを行ない、そののち、距
離値の大小に応じて候補文字の中から認識文字を決定す
る文字認識手段と、を有する。

【００１８】本発明の第２の手書き文字認識装置は、利
用者が入力したインクデータから文字切り出しを行なっ
て手書き文字認識を行なう手書き文字認識装置におい
て、インクデータを入力する入力手段と、インクデータ
を格納するインクデータ格納手段と、文字とその文字に
対するクラスタを格納した認識辞書と、予め定められた
特定パターンごとに当該特定パターンに属する１または
複数の基準パターンとその基準パターンごとの切り出し
位置パラメータとを格納する切り出し用辞書と、前記イ
ンクデータ格納手段中の未切り出しのインクデータに対
し、前記未切り出しのインクデータの先頭から手書き文
字の入力方向に沿って所定の長さの候補位置探索範囲を
設定し、前記特定パターンに該当する部分を前記候補位
置探索範囲内のインクデータから抽出し、抽出された部
分と類似する前記基準パターンを前記切り出し用辞書の
中から探索し、文字切り出しの位置の候補となる切り出
し候補位置を探索された基準パターンに対応する切り出
し位置パラメータによって決定し、前記切り出し候補位
置のそれぞれで文字切り出しが行なわれたとして前記認
識辞書との比較・照合を行ない、前記切り出し位置ごと
に当該切り出し候補位置に対応する候補文字と対応する
クラスタからの当該候補文字の距離値とを求め、前記重
み付け辞書を探索し、前記切り出し候補位置ごとのイン
クデータの中に重み付けクラスタに近いものがあり、か
つ、当該重み付けクラスタの対象文字が探索された候補
文字のいずれかと一致する場合には、一致した候補文字
の距離値に重み付けを行ない、そののち、距離値の大小
に応じて前記候補文字の中から認識文字を決定する文字
認識手段と、を有する。

【００１９】

【作用】本発明では、続け字で入力されたインクデータ
から１文字分のインクデータを切り出して文字認識を行
なう際に、まず、切り出し候補位置を探索し、認識辞書
と重み付け辞書とを用いて文字認識を行なって切り出し
候補位置の中から最も適切なものを選ぶ、という２段階
で切り出し及び文字認識を実行している。続け字に対し
て正しく文字認識を行なえるかどうかは適切に文字切り
出しが行なえるかどうかにかかっているが、本発明で
は、インクデータ中の寝ている部分（横書きの場合）を
直立させてからヒストグラム法により切り出し候補位置
を探索する、あるいは、インクデータから特定パターン
に該当する部分を抽出し、抽出されたインクデータ部分
に類似している基準パターン（特定パターンごとに１あ
るいは複数定められている）を探索してその基準パター
ンに対応して定められている位置を切り出し候補位置と
している。このように切り出し候補位置を定めることに
より、隣接する文字が入力方向に垂直な方向に重なって
いるような場合でも、適切に切り出し候補位置を見出す
ことが可能になる。

【００２０】さらに本発明では、重み付けクラスタを重
み付け辞書に設定してあり、切り出されたインクデータ
がこの重み付けクラスタに近い場合にはこの重み付けク
ラスタの対象文字が文字認識され難くなるように構成さ
れている。したがって、利用者の書き癖に応じて重み付
けクラスタを重み付け辞書に登録することにより、利用
者の書き癖による誤切り出しが生じ難くなり、利用者の
意図したとおりの正確な文字認識を行なうことが可能に
なる。

【００２１】

【実施例】次に、本発明の実施例について、図面を参照
して説明する。図１は本発明の一実施例の手書き文字認
識装置の構成を示すブロック図である。以下では、アル
ファベットの文字列が続け字で手書き文字入力された場
合を例に挙げて、説明を行なう。

【００２２】この手書き文字認識装置は、オンライン手
書き文字認識を実行するものであって、利用者によるイ
ンクデータが入力するとともに必要な情報を表示するた
めの入力・表示パネル１１と、入力・表示パネル１１に
対して入力されたインクデータを受け付け、手書き文字
データなのか指示なのかを識別する入力処理部１３と、
手書き文字のインクデータを格納するインクデータ格納
部１４と、文字認識に使用する認識辞書２１と、重み付
けクラスタを格納する重み付け辞書２２と、文字切り出
しの際に使用する切り出し用辞書２３と、認識辞書２
１、重み付け辞書２２及び切り出し用辞書２３を参照し
てインクデータ格納部１４内のインクデータに対する文
字切り出し処理及び文字認識処理を実行する文字認識エ
ンジン部１５と、文字認識エンジン部１５による文字認
識結果を格納する認識結果格納部１６と、文字認識結果
に応じて入力・表示パネル１１に対して表示を行なう出
力処理部１７と、利用者からの指示に基づいて認識辞書
２１及び重み付け辞書２２の更新を行なう辞書更新部１
８とによって構成されている。入力・表示パネル１１
は、表示部とインクデータ２０の入力部とが一体になっ
たいわゆる表示一体型入力パネルであり、例えば、液晶
フラットディスプレイ上に透明型タブレットを積層した
構成のものを使用できる。利用者は、ペン１２でこの入
力・表示パネルの入力・表示画面をなぞることによっ
て、所望のインクデータ２０を入力できる。

【００２３】本実施例の手書き文字認識装置は、アルフ
ァベット文字列などの続け字で入力されたインクデータ
に対して１文字分に相当するインクデータを切り出し、
切り出されたインクデータからその形状の特徴を表わす
特徴ベクトルを求め、認識辞書２１中の各文字（候補文
字）の特徴ベクトル（クラスタ）とインクデータから求
めた特徴ベクトルとを比較し、両者の距離に応じてその
インクデータに対する候補文字を定めることにより、文
字認識が行なうものである。このとき、文字切り出しに
際して、まず、手書き文字入力されたインクデータの入
力方向に応じ、切り出し候補位置探索範囲内で切り出し
候補位置を探索し、各切り出し候補位置で切り出された
インクデータごとに候補文字を定めている。ここでは、
入力枠なしでの手書き文字認識が行なわれているが、入
力方向が縦なのか横なのかだけは指定されており、入力
方向が横方向であれば、複数の文字の手書き文字入力を
行なう場合に利用者は斜めではなくできるだけ真横に向
って文字を書き連ねるものとする。認識辞書２１には、
文字とその文字のクラスタとが格納されている。ある１
つの文字に対して複数のクラスタが対応することが可能
であり、また、認識辞書２１に対し利用者の指定した文
字のクラスタを追加登録することが可能なようになって
いる。もちろん本発明は、文字認識の具体的方法やアル
ゴリズムによらずに適用できるものであり、特徴ベクト
ルによらない文字認識方法、例えばパターンマッチング
法などにも本発明を適用することが可能である。

【００２４】文字認識エンジン部１５は、インクデータ
格納部１４に格納された未切り出しのインクデータにつ
いて、その先頭部分（基点Ｏ）から手書き文字に入力方
向に向かって所定の範囲（切り出し候補位置探索範囲
Ｗ）の領域内にある切り出し候補位置を探索し、各切り
出し候補位置でインクデータを切り出したとして認識辞
書２１と比較し、切り出し候補位置ごとにその切り出し
候補位置に対応する候補文字を求め、さらに重み付け辞
書２２を参照して重み付けを行ない、文字認識を行なう
ものである。切り出し候補位置とは、文字切り出しが行
なわれるべき位置の候補のことであって、切り出し候補
位置の見つけ方としては、後述するように、インクデー
タ中の隣接する文字が重なっているのを補正してからヒ
ストグラムによって切り出し候補位置を見つける方法
と、インクデータから特定パターンを抽出しこの特定パ
ターンと基準パターンとを比較して切り出し候補位置を
見つける方法とを用いている。特定パターンによる方法
を用いて切り出し候補位置の探索を行なう場合には、切
り出し用辞書２３も使用する。

【００２５】図２(a)は、アルファベット文字列として
続け字で入力されたインクデータの実例を示すものであ
る。図２(a)では、切り出し候補位置として、Ａ及びＢ
の２箇所が探索されている。文字認識の際には、未切り
出しのインクデータの先頭部分（基点Ｏ）から各切り出
し候補位置までのインクデータ（図２(a)に示した例で
は、基点Ｏから切り出し候補位置Ａまでのインクデータ
と、基点Ｏから切り出し候補位置Ｂまでのインクデー
タ）を対象として、認識辞書２１を参照してこれら各イ
ンクデータに対する候補文字が探索され、同時にこれら
の候補文字に対する距離値がそれぞれ算出される。ここ
で距離値は、切り出し候補位置ごとのインクデータから
求められた特徴ベクトルと、そのインクデータに対応す
る候補文字についてのクラスタとの距離のことである。
そして、文字認識エンジン部１５は、以下の重み付け処
理を行なった後に、距離値でソートし、距離値の小さい
順に候補文字を認識結果格納部１６に出力するようにな
っている。

【００２６】ここで重み付け処理について説明する。続
け字のアルファベット文字列に対応するインクデータに
対する重み付け辞書２２の構成例が図２(b)に示されて
いる。重み付け辞書２２には、重み付けクラスタとその
重み付けクラスタによる重み付けの対象となる文字とが
組になって格納されている。重み付けクラスタは、利用
者の入力したインクデータに基づく特徴ベクトルとし
て、後述する辞書更新部１８により登録されたものであ
る。図２(b)に示した例では、筆記体での「ｄ」の字に
似た重み付けクラスタに対し、「ｃ」の字が重み付け対
象文字とされている。本実施例では、各切り出し候補位
置に対応するインクデータが重み付けクラスタとして登
録された形状に似ている場合には、その重み付けクラス
タに対応する重み付け対象文字が候補文字として挙げら
れている場合に、その候補文字の距離値に重み付けがな
されるようになっている。重み付けの方法としては、一
定値を重み付け対象文字である候補文字の距離値に加算
する方法、切り出し候補位置に対応するインクデータの
特徴ベクトルと重み付けクラスタとの距離に応じて変化
する値を候補文字の距離値に加算する方法などがある。
重み付けクラスタとの「近さ」に比例した重み付けを行
なうことが望ましい。結局、あるインクデータが重み付
けクラスタとして登録されている場合には、その重み付
けクラスタに類似したインクデータが入力した場合に、
その重み付けクラスタの対象文字が文字認識結果として
現われ難くなる。利用者の書き癖によって、切り出し位
置の誤りが生じる場合、誤切り出しに対応するインクデ
ータとその誤って認識されて出力された文字とを重み付
けクラスタとその対象文字として重み付け辞書２２に登
録することにより、以後はその誤切り出しが生じ難くな
る。

【００２７】辞書更新部１８は、利用者から学習の指示
があった場合に、認識辞書２１あるいは重み付け辞書２
２の更新を行なう。誤切り出しが生じたので利用者が学
習を行なわせようとする場合、上述したように、誤切り
出しとなったインクデータを重み付けクラスタとして重
み付け辞書２２に登録するのが原則であるが、この場
合、文字切り出しの基点から最遠の切り出し候補位置ま
でのインクデータを登録する。また、場合によっては、
認識辞書２１中に妥当なクラスタが存在しなかったため
に誤切り出しとなることがあるが、そのような場合に
は、指定されたインクデータをクラスタとして認識辞書
２１に登録する。さらに、辞書更新部１８は、重み付け
クラスタを新規登録した場合にその新規登録の重み付け
クラスタの近傍に既存の重み付けクラスタが存在する場
合には、その既存の重み付けクラスタを重み付け辞書２
２から消去する。辞書更新部１８での具体的に処理につ
いては、図１１のフローチャートを用いて後述する。

【００２８】次に、この手書き文字認識装置の動作を説
明する。最初に、文字認識処理の流れを図３のフローチ
ャートを用いて説明する。

【００２９】まず、利用者が時間的に間を置かずに入力
した一連のインクデータを取得する（ステップ１０
１）。この一連のインクデータは、典型的には、１単語
分に相当する続け字で手書き文字入力されたアルファベ
ット文字列である。取得されたインクデータは文字認識
エンジン部１５に送られ、前処理が施される（ステップ
１０２）。前処理の内容は、サイズの正規化、サンプリ
ング数の調整、基準線の設定などである。サイズの正規
化は、取得したインクデータから、入力方向に垂直な方
向（アルファベットであれば縦方向）の文字幅（いわゆ
る文字高）を求め、それが一定値となるように正規化す
る処理である。サンプリング数の調整は、利用者が素早
く入力した場合とゆっくり入力した場合とではインクデ
ータのサンプリング数が異なるので、補間や等分などの
処理を適宜行なってサンプリング数を安定させるための
処理である。基準線の設定については、詳細は後述する
が、英語の文字列の場合であれば、欧文活字組版用語で
いう並び線（ライン）とミーンラインに相当する線をイ
ンクデータから抽出する処理である。

【００３０】前処理が終ったら、切り出し候補位置探索
範囲Ｗの中で後述する手法にしたがって切り出し候補位
置を探索する（ステップ１０３）。この際、複数の切り
出し候補位置が探索されたらその全てを記憶しておくよ
うにする。そして、このように探索された切り出し候補
位置のうち中から未処理のものを１つ選び、その切り出
し候補位置でインクデータを切り出し、切り出されたイ
ンクデータから特徴ベクトルを求め、認識辞書２１と比
較して候補文字を獲得する（ステップ１０４）。このと
き、その候補文字のクラスタと切り出されたインクデー
タの特徴ベクトルとの距離値を算出しておく。候補文字
の数は、切り出し候補位置ごとに１個でもよいし複数個
でもよい。そして、重み付け辞書２２内を探索し、取り
出されたインクデータの中で重み付けクラスタに近い
（類似している）ものがあるかを検索する。この検索
は、特徴ベクトルと重み付けクラスタとの特徴空間内で
の距離が所定のしきい値ｒ以下であるかどうかで行なわ
れる。重み付けクラスタに近いものが存在しない場合
は、そのままステップ１０６に移行し、存在する場合に
は、重み付け辞書２２においてその重み付けクラスタの
対象文字として登録されている文字を読み出し、その文
字がすでに求められている候補文字のいずれかと一致す
る場合には、その一致する候補文字についての距離値に
重み付けを行なう（ステップ１０５）。

【００３１】ステップ１０６では、切り出し候補位置探
索範囲内の全ての切り出し候補位置について、上述のス
テップ１０４と１０５の処理が終ったかどうかをチェッ
クする。その結果、終っている場合にはステップ１０７
に進み、終っていない場合には、残っている切り出し候
補位置において文字認識を行なうために、ステップ１０
４に戻る。

【００３２】ステップ１０７では、各候補文字をその距
離値に応じてソートし、距離値の小さい順に並べる。距
離値の定義によっては、インクデータ中のストローク数
に距離値が依存する場合もあるが、そのような場合に
は、正規化処理を行なって、異なるストローク数のイン
クデータを比較できるようにする。このソート結果は、
文字認識エンジン部１５から認識結果格納部１６に送ら
れ、出力処理部１７によって、ソート結果に応じた候補
文字の表示が入力・表示パネル１１で行なわれる。候補
文字の表示は、最も確からしい候補文字、すなわち、重
み付け処理を実行した後の距離値が最も小さな文字のみ
をまず表示し、利用者の指示によって次順位の文字を表
示するようにしてもよいし、ソート順に応じていくつか
の候補文字を並べて表示してもよい。その後、利用者に
指示によって候補文字を決定する（ステップ１０８）。
このとき、第１順位の候補文字が利用者の意図した文字
でない場合には、利用者は、次順位以下の候補文字を検
索し、自分の意図した文字を指定して候補文字の決定を
行なうものとする。

【００３３】候補文字の決定が済んだら、後処理を実行
する（ステップ１０８）。後処理では、決定した候補文
字に対応する切り出し候補位置までのインクデータを切
り出し処理済みのものとし、切り出しの開始位置（基点
Ｏ）を次に進める。その際、必要に応じて、決定した候
補文字に対応する切り出し候補位置と次の切り出しの開
始位置とは異ならせることができるが、そのことの詳細
は後述する。そして、全てのインクデータが切り出し済
みかどうかを判断する（ステップ１０９）。未切り出し
のインクデータが残っている場合にはステップ１０２に
戻って上記の処理を繰り返し、残っていない場合には処
理を終了する。

【００３４】この手書き文字認識装置では、切り出し候
補位置ごとに候補文字が求められるので、例えば、
「ｄ」と「ｃ」などのように、切り出し位置の異なる候
補文字が併存することになる。そして、候補文字を利用
者に提示している段階では文字切り出しの位置は確定し
ておらず、候補文字の確定とともに、その候補文字に対
応する切り出し候補位置で切り出し位置が確定し、文字
切り出しが最終的に行なわれたことになる。

【００３５】以下、実例を挙げて説明する。図２(a)に
示したインクデータ２０は、利用者が英単語の「ｄｉ
ｐ」を意図して続け字により手書き文字入力したもので
あるが、「ｄ」の字の書き始めの部分が他の部分から位
置的に離れているために、「ｃｌｉｐ」とも認識されか
ねないものである。また、このインクデータ２０に対し
て切り出し候補位置Ａと切り出し候補位置Ｂの２つの切
り出し候補位置が探索されたものとする。切り出し候補
位置ごとの候補文字とその候補文字に対する距離値が表
１に示されている。表１に示されるように、重み付け処
理を行なわない距離値で候補文字の順位付けを行なう
と、「ｃ」の方が距離値が近いため、第１順位の候補文
字は「ｃ」となり、誤った文字切り出しが行なわれるこ
とになる。

【００３６】

【表１】ところで、重み付け辞書２２に、図２(b)に示すような
のような重み付けクラスタ（図２(a)のインクデータ２
０中の「ｄ」の字に非常に類似している）が、「ｃ」の
文字を対象文字として登録されていたとする。すると、
切り出し候補位置Ｂでのインクデータがこの重み付けク
ラスタに近いことになるので、候補文字「ｃ」に重み付
けが行なわれることになる。この重み付け処理の結果、
候補文字「ｄ」に対する距離値はそのままであるのに対
し、候補文字「ｃ」に対する距離値が増加し、「ｄ」の
方の距離値が小さくなって、最終的に、第１順位の候補
文字が「ｄ」となる。すなわち、利用者の書き癖に応じ
て正確な文字切り出しが行なわれたことになる。なお、
利用者が「ｃｌ…」の入力を意図した場合には、そのと
きのインクデータは、「ｄ」を意図したときのインクデ
ータとは異なっていると考えられ、その場合は上述の重
み付けクラスタとはインクデータが異なるであろうか
ら、「ｃ」に対する重み付けは十分に行なわれず、
「ｃ」、「ｌ」と正しく切り出しを行なうことができ
る。

【００３７】別のケースとして、「ｃｌ」と入力したつ
もりが「ｃ」と「ｌ」が離れていないために「ｄ」と誤
切り出しされるような場合には、誤切り出しされたイン
クデータについて、切り出しの基点から最も遠い切り出
し候補位置までを重み付けクラスタとし、対象文字を
「ｄ」として重み付け辞書に登録することにより、以後
は正しく「ｃｌ」と認識されるようになる。

【００３８】次に、図３のフローチャートのステップ１
０２で行なわれる前処理における基準線の設定について
説明する。アルファベットの各活字文字をその文字の高
さで分類すると、小文字の「ｃ」,「ｅ」,「ｘ」などの
文字（ショートレター、すなわちエックスハイト(x hei
ght)の文字）、ショートレターの文字に比べて上に出る
文字（アッセンダ、例えば「ｂ」や「ｌ」）、ショート
レターの文字より下に出る文字（デッセンダ、例えは
「ｐ」や「ｑ」）、上下に伸びている文字（ロングレタ
ー、「ｊ」、続け字では「ｆ」も該当する）に分けられ
る。活字体でのショートレターの各文字の上端と下端は
それぞれ同一の線上にあって、これらの線はそれぞれミ
ーンラインと並び線（ライン）と呼ばれる。なお、アッ
センダの上端が並ぶ線をアッセンダライン、デッセンダ
の下端が並ぶ線をデッセンダラインと呼ぶ。活字体では
大文字の上端の並ぶ線（キャップライン）とアッセンダ
ラインとは多少ずれているが、手書き文字入力の場合に
はこのずれは意識されないので、本実施例では両者をま
とめてアッセンダラインと呼ぶことにする。

【００３９】続け字で手書き文字入力されたインクデー
タの場合、ショートレターの各文字の上端と下端は、そ
れぞれ厳密に１本の直線上にあるとは考え難いが、縦方
向にある幅をもってその幅の中にそれぞれ位置している
と考えることができる。そこで本実施例では、ミーンラ
インと並び線に相当する線をそれぞれ上側基準線、下側
基準線として、インクデータから抽出している。これら
の基準線は、本実施例でのヒストグラム法による切り出
し候補位置の探索に使用されるほか、大文字と小文字の
区別、入力方向に垂直な方向への文字幅（文字高）の決
定などにも使用できる。なお、アルファベット以外で
も、入力方向に平行なこのような基準線を定義できる文
字であれば、以下に述べる方法は有効である。

【００４０】図４(a)に示すようにインクデータ２０ａ
が入力されたら、インクデータ２０ａ中から、上に凸に
なっている点（図示○印）と下に凸になっている点（図
示△印）を探し出し、入力方向に垂直な直線上にこれら
の点を射影する。これら上に凸になっている点と下に凸
になっている点には線分の端点も含まれるものとする。
上に凸になっている点や下に凸になっている点は、基準
線探索のために使用される特徴点である。上に凸になっ
ている点はミーンラインとアッセンダラインのいずれか
に対応し、下に凸になっている点は並び線とデッセンダ
ラインのいずれかに対応すると考えられるから、射影さ
れた各点は、ミーンライン、アッセンダライン、並び
線、デッセンダラインにそれぞれ対応する範囲（図示点
線の楕円で表示）のいずれかに群集することになる。も
ちろん、「ａｃｅ」に対応するインクデータなどでは、
ショートレターのみからなるから、ミーンラインと並び
線に対応して２つの群集しか生じない。また、例えば、
デッセンダである「ｇ」も下に凸になっている点を並び
線上に有するから、並び線に対応する群集とミーンライ
ンに対応する群集は必ず発生するものとしてよい。

【００４１】そこで本実施例では、図４(b)に示すよう
に、ミーンラインに対応する群集を構成する射影点の平
均位置を通過し入力方向に平行な直線を上側基準線２５
_Uとし、並び線に対応する群集を構成する射影点の平均
位置を通過し入力方向に平行な直線を下側基準線２５_L
としている。場合によっては、射影点の群集が３つで
き、そのままではどれが並び線に対応し、どれがミーン
ラインに対応するか分からなくなる場合もあるが、群集
に含まれる射影点の数は、デッセンダラインよりも並び
線の方が多く、アッセンダラインよりミーンラインの方
が多いと考えられるから、適当なルールを定めることに
より、識別が可能である。

【００４２】次に、本実施例における切り出し候補位置
の探索方法について説明する。本実施例では、上述した
ように、ヒストグラム法を用いる方法と、特定パターン
を抽出する方法のいずれかによって、あるいは両者を併
用して切り出し候補位置を探索する。まず、本実施例に
おけるヒストグラムを用いる方法について説明する。図
５はこのヒストグラムを用いる方法の処理を示すフロー
チャートである。

【００４３】従来の技術の欄でも述べたように、続け字
によるアルファベット文字列のインクデータから１文字
分の切り出しを行なう際に障害ものの１つは、字が寝て
いて２文字分のインクデータが重なり合うことである。
この重なり合いは、連続する２文字がショートレターの
場合には起きにくく、一方がアッセンダ、デッセンダ、
ロングレターのいずれかの場合に起きやすいと考えられ
る。そこで本実施例では、アッセンダ、デッセンダ、ロ
ングレターを検出して、これらアッセンダ、デッセン
ダ、ロングレターのインクデータを入力方向に対して直
立させ、その後、ヒストグラム法で切り出し候補位置を
探索する。なお、直立したインクデータは切り出し候補
位置の決定のみに使用され、文字認識を行なう際には、
もとのインクデータが使用される。

【００４４】まず、切り出し候補位置探索範囲Ｗ内で、
インクデータ中に上側基準線２５_Uより上側の部分があ
るかを調べる（ステップ１１１）。手書き文字データで
あるので、上述したように、文字の上下端が必ずしも同
一のミーンラインや同一の並び線上に一列に並んでいる
わけ出はないから、実際には、上側基準線２５_U自体に
幅を持たせ、この幅の上限よりもさらに上側までインク
データが張り出しているかどうかを調べる。上側の部分
がない場合にはステップ１１３に移行し、上側の部分が
ある場合には、上側基準線２５_Uより上にある部分の直
後（語尾側）にある基準点を中心として、その基準点よ
り語頭側にあるインクデータを回転する（ステップ１１
２）。なお、切り出し開始位置（基点Ｏ）側からストロ
ークとして近い（インクデータの軌跡上の距離が短い）
側が語頭側であり、遠い側が語尾側である。また、基準
点とは、インクデータ中の上に凸の点であって上側基準
線２５_Uに対応している点と、下に凸の点であって下側
基準線２５_Lに対応している点のことである。これによ
り、アッセンダやロングレターが入力方向に対して直立
することになる。

【００４５】ステップ１１３では、切り出し候補位置探
索範囲Ｗ内で、インクデータ中に下側基準線２５_Lより
下側の部分があるかを調べる。手書き文字データである
ので、ステップ１１１の場合と同様に、実際には、下側
基準線２５_L自体に幅を持たせ、この幅の下限よりもさ
らに下側までインクデータが張り出しているかどうかを
調べる。下側の部分がない場合にはステップ１１５に移
行し、下側の部分がある場合には、下側基準線２５_Lよ
り下にある部分の直前（語頭側）にある基準点を中心と
して、その基準点より語尾側にあるインクデータを回転
する（ステップ１１４）。これにより、デッセンダが入
力方向に対して直立することになる。

【００４６】ステップ１１５では、上述のような処理を
経たインクデータを入力方向に平行な直線上に投影し、
切り出し位置候補探索範囲Ｗ内で、ヒストグラム法によ
って切り出し候補位置を探索する。具体的には、度数
（頻度）が１から複数、または、複数から１に変わる点
を切り出し候補位置とする。さらに、複数文字の範囲に
わたって度数１が連続する場合に対処するために、度数
が１で下に凸の部分を候補としてもよい。また、直前の
切り出し位置（今回の基点Ｏ）から一定幅（文字幅を基
準に決定）以内では切り出し候補位置としない、基点Ｏ
から一定幅（文字幅を基準に決定）の位置内に上記の条
件から求められる切り出し候補位置が探索されなかった
場合にはその位置を切り出し候補位置に追加するなどの
ルールを設けて、切り出し候補位置を決定するようにし
てもよい。

【００４７】図６は、ここで述べたヒストグラム法によ
る切り出し候補位置探索の実例を示す図である。図６
(a)に示すように、続け字の「ｌｌｅｒｇｙ」というイ
ンクデータ２０ｂにおいて、最初の「ｌ」に相当する部
分は、切り出し候補位置探索範囲Ｗ内にあってかつ上側
基準線２５_Uより上側の部分を有する。そこで、下側基
準線２５_Lに対応する基準点（図示○印）を中心とし
て、最初の「ｌ」の部分を回転する。回転は、図示点線
で示されるように「ｌ」の延びる方向に平行な直線を想
定し、これが直立するまで行なう。その結果、インクデ
ータ２０ｂが図６(b)に示されるように変形するから、
これに対して、ヒストグラム法により切り出し候補位置
を探索する。

【００４８】同様に図６(c)は続け字の「ｇｙ」のイン
クデータ２０ｃを示している。最初の「ｇ」は下側基準
線２５_Lより下側の部分を有しているから、上側基準線
２５_Uに対応する基準点（図示△印）を中心として、こ
の基準点より後ろの部分を回転する。その結果、図６
(d)に示されるようにインクデータ２０ｃが変形する。
ここでは、「ｇ」に引き続く「ｙ」の部分も回転してい
るが、切り出し候補位置は切り出し候補位置探索範囲Ｗ
内でのみ探索され、さらに、切り出し候補位置の探索後
は元（回転する前）のインクデータに基づき文字認識が
行なわれ、次の切り出し開始位置の決定も元のインクデ
ータにおいて行なわれるので、切り出し候補位置探索範
囲Ｗ内の部分のみを回転させるようにしてもよい。

【００４９】ここでは、アルファベットの場合を説明し
たが、文字の入力方向等に応じて適宜の変更を加えるこ
とにより、他の文字種にも適用することができる。

【００５０】次に、特定パターンを抽出して切り出し候
補位置を決定する方法について説明する。ここでは、特
定パターンとして、右上がりの部分をインクデータから
抽出するものとする。この他、右上がり部分のほか、そ
の前後、例えば直前の右下がり部分を加えたものを特定
パターンとしてもよい。右上がりの部分は、例えばイン
クデータ入力時のサンプリングで、２次元平面において
ｘ成分の値もｙ成分の値も増加していることを検出する
ことで抽出できる。もちろん、言語や文字種、文字の入
力方向などに応じて、特定パターンを適宜に設定するこ
とができる。図７はこの方法の処理を説明するフローチ
ャートである。

【００５１】まず、切り出し候補位置探索範囲Ｗ内のイ
ンクデータから特定パターンに該当する部分を抽出する
（ステップ１２１）。該当する部分がなければ、本方法
に基づく切り出し候補位置の探索を行なわない。一方、
切り出し用辞書２３（図１参照）には、予め、特定パタ
ーンごとに１ないし複数の基準パターンが格納され、基
準パターンごとにどこを切り出し候補位置とするかの情
報が格納されている。基準パターンは例えば特徴ベクト
ル（クラスタ）の形態で格納されている。どの位置を切
り出し候補位置とするかは、例えば、抽出された部分に
おいて軌跡の長さに基づき何対何で内分（場合によって
は外分）する点というように定めることができる。さら
に、複数の切り出し候補位置が設定されるようにしても
よい。特定パターンに該当する部分が抽出されたら、切
り出し用辞書２３を探索して、この抽出されたデータに
最も類似している基準パターンを見つけ出し（ステップ
１２２）、探索された基準パターンに対応して定められ
ている位置に基づき、元のインクデータに切り出し候補
位置を設定する（ステップ１２３）。

【００５２】図８(a)〜(c)は、いずれも、特待パターン
が右上がりの部分である場合の基準パターンの例を示す
図である。図８(a)に示す基準パターン２６は、右上が
りの部分においてインクデータがほぼ一直線状となって
いるものである。このような基準パターン２６に対し
て、切り出し候補位置は、例えば該当部分の１／２の位
置と定める。これは、続け字での「ｇｌ」、「ｇｈ」な
どの切り分けに対応したものである。図８(b)に示す基
準パターン２６は、初めのうちの勾配の方が後の方の勾
配よりも急になっているものである。このような基準パ
ターン２６に対しては、切り出し候補位置は、例えば該
当部分の前から３／４の位置と定める。これは、「ｖ」
や「ｗ」に対応させたものである。図８(c)に示す基準
パターン２６は、初めのうちの勾配の方が後の方の勾配
よりも緩くなっているものである。このような基準パタ
ーン２６に対しては、切り出し候補位置は、例えば該当
部分の前から１／３の位置と定める。これは、上述以外
の通常のアルファベットに適用されるものである。

【００５３】図９は特定パターンを抽出する方法の実例
を示す図である。「ａｌｌ」に対応するインクデータ２
０ｄに対し、図示太線の部分が特定パターンに該当する
部分となる。この部分（太線部分）のみを抽出して図８
(a)〜(c)に示す各基準パターンを比較すると、図８(c)
に示す基準パターンに類似していることが分かる。そこ
で、太線部分の前から１／３の位置を切り出し候補位置
として設定する。

【００５４】次に、後処理（図３のフローチャートのス
テップ１０８）における次の切り出し開始位置の調整に
ついて説明する。アルファベットの続け字のインクデー
タを考えると、ある字の本体部分（文字認識の重要な部
分）と次の字の本体部分との間に、接続するためだけの
部分が存在したり、両方の字の本体部分に属する部分が
あったりする。例えば、図１０(a)は、「ｌｅ」のイン
クデータの例であるが、これから「ｌ」が文字認識され
て切り出されると、「ｅ」の文字認識に必要な部分まで
取り除かれてしまう。このような現象が起きたことは、
切り出された部分が切り出されていない部分と交差して
いることなどから検出できるから、次の文字切り出しの
開始位置を語頭側にずらす。図１０(b)は、「ａｇ」の
インクデータの例であるが、「ａ」が文字認識されて文
字切り出されても「ｇ」のインクデータの前に、接続部
分（文字間のつなぎのストローク）がかなり長く残って
しまい、「ｇ」の認識に対する障害となる。最初に切り
出された文字が何であるかやインクデータの形状によっ
て単なる接続部分であるかどうかが識別できるから、そ
のような場合には、次の文字の切り出し開始位置を語尾
側にずらす。このようにして、後処理では次の文字に対
する切り出し開始位置（基点Ｏ）の調整を行なう。

【００５５】次に、学習処理について図１１を用いて説
明する。

【００５６】学習処理は、誤切り出しが行なわれた場合
に利用者が入力・表示パネル１１の所定箇所をダブルク
リックすることなどによって、開始する。このとき、誤
切り出しが行なわれたインクデータがそのまま保存され
ているとする。以下、このインクデータのことを入力デ
ータという。

【００５７】次順位以下の候補文字で上述の確定が行な
われたなどのことにより、入力データに対する正しい文
字（以下、指定文字という）が利用者によって指定され
ると、まず、その入力データに対応する特徴ベクトルと
その指定文字の既存のクラスタとの距離が第１のしきい
値以下であるかどうかが判断される（ステップ１３
１）。第１のしきい値以下の場合はステップ１３３に移
行する。第１のしきい値を越える場合は、認識辞書２１
におけるその指定文字のクラスタがその利用者にとって
適切なものではない場合なので、その特徴ベクトルをそ
の指定文字のクラスタとして認識辞書２１に追加登録す
る（ステップ１３２）。

【００５８】ステップ１３３では、認識辞書２１内が検
索され、入力データの特徴ベクトルに対して、指定文字
のクラスタよりも近くに別の文字のクラスタがあるかど
うかが判断される。「近い」とは、距離値が小さいとい
うことである。また、ここでいう別の文字とは、指定文
字とは切り出し位置が異なる文字のことである。そのよ
うなクラスタが存在しない場合には、誤切り出しによる
誤認識ではない場合なので、学習処理を終了する。な
お、切り出し位置が同じクラスタがより近くに存在する
場合は、誤切り出しではなく、単なる誤認識の問題であ
る。ここで入力データの特徴ベクトルとクラスタとを比
較しているが、認識辞書がインクデータのストローク数
別に編成されていて、異なるストローク数間での比較が
直接行なえないような場合（アルファベット文字列の場
合、続け字であっても、「ｉ」の点部分や「ｔ」の横棒
部分、さらにはいくつかの大文字は複数ストロークで入
力されるのが一般的である）には、データをストローク
ごとの特徴空間で比較して距離値を求め、その距離値を
適宜正規化して、異なるストローク数間での比較を行な
えばよい。

【００５９】ステップ１３３で指定文字より近いクラス
タがある場合には、その別の文字のクラスタと入力デー
タの特徴ベクトルとの距離が第２のしきい値以下である
かを判断する（ステップ１３４）。第２のしきい値を越
える場合は、重み付けクラスタの設定が適切でない場合
なので処理を終了し、第２のしきい値以下の場合には、
切り出し候補位置探索範囲Ｗの範囲内で最も遠くにある
切り出し候補位置から切り出されたインクデータに対応
する特徴ベクトルを重み付けクラスタとし、指定文字よ
り順位が上位であった候補文字を重み付けの対象文字と
して、重み付け辞書２２に登録する（ステップ１３
５）。そして、重み付け辞書２２を検索し、新規登録の
重み付けクラスタの近くに既存の重み付けクラスタが存
在するかどうかを調べ（ステップ１３６）、存在しない
場合には処理を終了し、存在する場合には、矛盾した重
み付けクラスタの存在と重み付け辞書２２の必要以上の
肥大化とを防ぐために、その既存の重み付けクラスタを
重み付け辞書２２から消去して（ステップ１３７）、処
理を終了する。ステップ１３５において、切り出し候補
位置探索範囲Ｗの範囲内で最遠の切り出し候補位置に基
づき重み付けクラスタを設定しているが、仮に、最遠で
ない切り出し候補位置から重み付けクラスタを設定した
とすると、後続のストロークを考慮しないで重み付け処
理が行なわれることになり、上述した例で言えば、「ｃ
ｌｏ」と入力しても「ｄ」と認識されてしまうおそれが
ある。

【００６０】次に、学習処理について、さらに詳しく説
明する。図２(a)に示すようなインクデータ２０が入力
した場合、特徴空間３０内において、切り出し候補位置
Ａまでのデータ及び切り出し候補位置Ｂまでのデータに
対応する特徴ベクトルが、図１２(a)に示されるよう
に、それぞれ、図示×印の点３４Ａ及び点３４Ｂのよう
に配置したとする。また、認識辞書２１における文字
「ｄ」のクラスタと文字「ｃ」のクラスタとが、それぞ
れ図示□印の点３１及び点３２のように配置されている
ものとする。点３４Ａに最も近いクラスタは「ｃ」のク
ラスタであり、点３４Ｂに最も近いクラスタは「ｄ」の
クラスタであるから、これら「ｃ」と「ｄ」とがそれぞ
れ候補文字として選択される。点３１と点３４Ｂとの距
離Ｄ１が点３２と点３４Ａとの距離Ｄ２より長いので、
重み付け処理を行なわない限り、距離Ｄ２に対応する
方、すなわち候補文字「ｃ」の方が高い順位となる。図
２は「ｄｉｐ」を入力したものであるから、誤切り出し
となる。

【００６１】そこで、図１２(b)に示すように、切り出
し候補位置探索範囲Ｗ内で遠い方の切り出し候補位置Ｂ
に対応するインクデータを重み付けクラスタ３３として
設定する。この場合の重み付け対象文字は「ｃ」であ
る。このように重み付けクラスタ３３を重み付け辞書２
２に登録したのち、図２(a)に示すのとほぼ同様のイン
クデータが入力したものとすると、図２(a)に示したの
とほぼ同様に、切り出し候補位置が検出される。ここで
もこの切り出し候補位置をＡ及びＢとすると、それらの
切り出し候補位置でのインクデータは、特徴空間３０内
で、それぞれ、点３５Ａ及び点３５Ｂに配置する。この
場合も点３５Ａに最も近いクラスタは「ｃ」クラスタで
あり、点３５Ｂに最も近いクラスタは「ｄ」のクラスタ
であるから、これら「ｃ」と「ｄ」とがそれぞれ候補文
字として選択される。そして、点３１と点３５Ｂの距離
Ｄ３が、点３２と点３５Ａの距離Ｄ４よりも長いため、
重み付け処理を行なわなければ、「ｃ」が切り出される
ことになる。しかし、点３５Ｂは、重み付けクラスタ３
３から所定のしきい値ｒの範囲内にあるため、候補文字
「ｃ」に対して重み付けがなされ、「ｃ」に対する距離
Ｄ４に重み付け量δが加算される。その結果、Ｄ３＜Ｄ
４＋δとなって、「ｄ」が切り出され、正しい文字切り
出しが行なわれることになる。

【００６２】以上、本発明の実施例について、続け字で
手書き文字入力されたラテンアルファベットの文字列を
対象とした場合を例に挙げて説明したが、本発明が対象
とする文字種はこれに限定されるものではなく、キリル
文字やアラビア文字の文字列であって続け字で入力され
たものに対しても本発明は有効である。さらには、入力
方向が縦である続け字の文字列に対しても本発明を適用
することができる。

【００６３】

【発明の効果】以上説明したように本発明は、まず切り
出し候補位置を探索し、次に認識辞書と重み付け辞書と
を用いて文字認識を行なって切り出し候補位置の中から
最も適切なものを選ぶ、という２段階で１文字ごとの文
字切り出しと文字認識を実行し、さらに、切り出し候補
位置の探索に際して、インクデータ中の寝ている部分
（横書きの場合）を直立させてからヒストグラム法によ
り切り出し候補位置を探索する、あるいは、インクデー
タから特定パターンに該当する部分を抽出し、抽出され
たインクデータ部分に類似している基準パターン（特定
パターンごとに１あるいは複数定められている）を探索
してその基準パターンに対応して定められている位置を
切り出し候補位置とする、のいずれかの方法を採用する
ことにより、利用者の書き癖によらず、例えば、インク
データ中の各文字が極端に寝ているような場合であって
も、適切な文字切り出しが行なえるようになるという効
果がある。さらに本発明は、重み付けクラスタを重み付
け辞書に設定して切り出されたインクデータがこの重み
付けクラスタに近い場合にはこの重み付けクラスタの対
象文字が文字認識され難くなるように構成することによ
り、利用者の書き癖に応じて重み付けクラスタを重み付
け辞書に登録しておけば、誤切り出しが生じ難くなって
利用者の意図に正確な文字認識を行なうことが可能にな
るという効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例の手書き文字認識装置の構成
を示すブロック図である。

【図２】(a)は切り出し候補位置探索範囲と切り出し候
補位置を説明する図、(b)は重み付け辞書を説明する図
である。

【図３】文字認識処理の流れを示すフローチャートであ
る。

【図４】(a),(b)は基準線の求め方を説明する図であ
る。

【図５】本発明の方法によりヒストグラム法によって切
り出し候補位置を探索する手順を示すフローチャートで
ある。

【図６】(a)〜(d)は本発明の方法によりヒストグラム法
によって切り出し候補位置を探索する際のインクデータ
の回転を説明する図である。

【図７】本発明の方法により特定パターン抽出法によっ
て切り出し候補位置を探索する手順を示すフローチャー
トである。

【図８】(a)〜(c)はそれぞれ基準パターンを示す図であ
る。

【図９】抽出された特定パターンの一例を示す図であ
る。

【図１０】(a),(b)は後処理を説明するための図であ
る。

【図１１】学習処理の流れを示すフローチャートであ
る。

【図１２】(a)〜(c)は、学習と文字認識との関係を説明
する図である。

【図１３】ヒストグラム法を説明する図である。

【符号の説明】

１１入力・表示パネル１２ペン１３入力処理部１４インクデータ格納部１５文字認識エンジン部１６認識結果格納部１７出力処理部１８辞書更新部２０,２０ａ〜２０ｄインクデータ２１認識辞書２２重み付け辞書２３切り出し用辞書２５_U 上側基準線２５_L 下側基準線２６基準パターン３０特徴空間３３重み付けクラスタ１０１〜１０９,１１１〜１１５,１２１〜１２３,１３
１〜１３７ステップ

Claims

【特許請求の範囲】

【請求項１】利用者が入力したインクデータから文字
切り出しを行なって手書き文字認識を行なう手書き文字
認識方法において、文字とその文字に対するクラスタを格納した認識辞書
と、重み付けクラスタとその重み付けクラスタに対する
対象文字を格納した重み付け辞書とを使用し、入力された一連のインクデータに対し、手書き文字の入
力方向に平行な１対の基準線を設定する基準線設定工程
と、未切り出しのインクデータに対し、前記未切り出しのイ
ンクデータの先頭から前記入力方向に沿って所定の長さ
の候補位置探索範囲を設定する探索範囲設定工程と、前記候補位置探索範囲内のインクデータに関し、前記１
対の基準線ではさまれた範囲から一方の基準線側に張り
出している部分を検出した場合には、前記インクデータ
上の点であって当該部分の直後にありかつ他方の基準線
に対応する点を中心として当該部分を含むインクデータ
部分を回転し、前記１対の基準線ではさまれた範囲から
前記他方の基準線側に張り出している部分を検出した場
合には、前記インクデータ上の点であって当該部分の直
前にありかつ前記一方の基準線に対応する点を中心とし
て当該部分を含むインクデータ部分を回転し、その後、
前記入力方向に平行な直線上に前記インクデータを射影
し、文字切り出しの位置の候補となる切り出し候補位置
を射影点の数の増減に基づいて決定する候補位置探索工
程と、前記候補位置探索工程での回転が行なわれる前のインク
データを対象とし、前記切り出し候補位置のそれぞれで
文字切り出しが行なわれたとして前記認識辞書との比較
・照合を行ない、前記切り出し位置ごとに当該切り出し
候補位置に対応する候補文字と対応するクラスタからの
当該候補文字の距離値とを求める認識工程と、前記重み付け辞書を探索し、前記切り出し候補位置ごと
のインクデータの中に重み付けクラスタに近いものがあ
り、かつ、当該重み付けクラスタの対象文字が探索され
た候補文字のいずれかと一致する場合には、一致した候
補文字の距離値に重み付けを行なう重み付け工程と、前記重み付け工程で重み付けが行なわれた後の距離値の
大小に応じて候補文字の中から認識文字を決定する決定
工程と、を有することを特徴とする手書き文字認識方
法。
【請求項２】前記候補位置探索工程において、前記イ
ンクデータから特徴点を抽出し、前記入力方向に垂直な
直線上に前記特徴点を射影し、射影点の分布に応じてグ
ループ分けを行ない、各グループでの射影点の平均位置
に応じて前記１対の基準線の位置が定められる請求項１
に記載の手書き文字認識方法。
【請求項３】利用者が入力したインクデータから文字
切り出しを行なって手書き文字認識を行なう手書き文字
認識方法において、文字とその文字に対するクラスタを格納した認識辞書
と、重み付けクラスタとその重み付けクラスタに対する
対象文字を格納した重み付け辞書と、予め定められた特
定パターンごとに当該特定パターンに属する１または複
数の基準パターンとその基準パターンごとの切り出し位
置パラメータとを格納する切り出し用辞書とを使用し、未切り出しのインクデータに対し、前記未切り出しのイ
ンクデータの先頭から手書き文字の入力方向に沿って所
定の長さの候補位置探索範囲を設定する探索範囲設定工
程と、前記特定パターンに該当する部分を前記候補位置探索範
囲内のインクデータから抽出し、抽出された部分と類似
する前記基準パターンを前記切り出し用辞書の中から探
索し、文字切り出しの位置の候補となる切り出し候補位
置を探索された基準パターンに対応する切り出し位置パ
ラメータによって決定する候補位置探索工程と、前記切り出し候補位置のそれぞれで文字切り出しが行な
われたとして前記認識辞書との比較・照合を行ない、前
記切り出し位置ごとに当該切り出し候補位置に対応する
候補文字と対応するクラスタからの当該候補文字の距離
値とを求める認識工程と、前記重み付け辞書を探索し、前記切り出し候補位置ごと
のインクデータの中に重み付けクラスに近いものがあ
り、かつ、当該重み付けクラスタの対象文字が探索され
た候補文字のいずれかと一致する場合には、一致した候
補文字の距離値に重み付けを行なう重み付け工程と、前記重み付け工程で重み付けが行なわれた後の距離値の
大小に応じて候補文字の中から認識文字を決定する決定
工程と、を有することを特徴とする手書き文字認識方
法。
【請求項４】利用者が入力したインクデータから文字
切り出しを行なって手書き文字認識を行なう手書き文字
認識装置において、インクデータを入力する入力手段と、インクデータを格納するインクデータ格納手段と、文字とその文字に対するクラスタを格納した認識辞書
と、重み付けクラスタとその重み付けクラスタに対する対象
文字を格納した重み付け辞書と、前記インクデータ格納手段中のインクデータに対し手書
き文字の入力方向に平行な１対の基準線を設定し、未切
り出しのインクデータに対し、前記未切り出しのインク
データの先頭から前記入力方向に沿って所定の長さの候
補位置探索範囲を設定し、前記候補位置探索範囲内のイ
ンクデータに関し、前記１対の基準線ではさまれた範囲
から一方の基準線側に張り出している部分を検出した場
合には、前記インクデータ上の点であって当該部分の直
後にありかつ他方の基準線に対応する点を中心として当
該部分を含むインクデータ部分を回転し、前記１対の基
準線ではさまれた範囲から前記他方の基準線側に張り出
している部分を検出した場合には、前記インクデータ上
の点であって当該部分の直前にありかつ前記一方の基準
線に対応する点を中心として当該部分を含むインクデー
タ部分を回転し、その後、前記入力方向に平行な直線上
に前記インクデータを射影し、文字切り出しの位置の候
補となる切り出し候補位置を射影点の数の増減に基づい
て決定し、前記各インクデータ部分の回転が行なわれる
前のインクデータに対して前記切り出し候補位置のそれ
ぞれで文字切り出しが行なわれたとして前記認識辞書と
の比較・照合を行ない、前記切り出し位置ごとに当該切
り出し候補位置に対応する候補文字と対応するクラスタ
からの当該候補文字の距離値とを求め、前記重み付け辞
書を探索し、前記切り出し候補位置ごとのインクデータ
の中に重み付けクラスタに近いものがあり、かつ、当該
重み付けクラスタの対象文字が探索された候補文字のい
ずれかと一致する場合には、一致した候補文字の距離値
に重み付けを行ない、そののち、距離値の大小に応じて
候補文字の中から認識文字を決定する文字認識手段とを
有することを特徴とする手書き文字認識装置。
【請求項５】利用者が入力したインクデータから文字
切り出しを行なって手書き文字認識を行なう手書き文字
認識装置において、インクデータを入力する入力手段と、インクデータを格納するインクデータ格納手段と、文字とその文字に対するクラスタを格納した認識辞書
と、予め定められた特定パターンごとに当該特定パターンに
属する１または複数の基準パターンとその基準パターン
ごとの切り出し位置パラメータとを格納する切り出し用
辞書と、前記インクデータ格納手段中の未切り出しのインクデー
タに対し、前記未切り出しのインクデータの先頭から手
書き文字の入力方向に沿って所定の長さの候補位置探索
範囲を設定し、前記特定パターンに該当する部分を前記
候補位置探索範囲内のインクデータから抽出し、抽出さ
れた部分と類似する前記基準パターンを前記切り出し用
辞書の中から探索し、文字切り出しの位置の候補となる
切り出し候補位置を探索された基準パターンに対応する
切り出し位置パラメータによって決定し、前記切り出し
候補位置のそれぞれで文字切り出しが行なわれたとして
前記認識辞書との比較・照合を行ない、前記切り出し位
置ごとに当該切り出し候補位置に対応する候補文字と対
応するクラスタからの当該候補文字の距離値とを求め、
前記重み付け辞書を探索し、前記切り出し候補位置ごと
のインクデータの中に重み付けクラスタに近いものがあ
り、かつ、当該重み付けクラスタの対象文字が探索され
た候補文字のいずれかと一致する場合には、一致した候
補文字の距離値に重み付けを行ない、そののち、距離値
の大小に応じて前記候補文字の中から認識文字を決定す
る文字認識手段と、を有することを特徴とする手書き文
字認識装置。