JPH096920A - 手書き文字認識方法及びその装置 - Google Patents

手書き文字認識方法及びその装置

Info

Publication number
JPH096920A
JPH096920A JP7151831A JP15183195A JPH096920A JP H096920 A JPH096920 A JP H096920A JP 7151831 A JP7151831 A JP 7151831A JP 15183195 A JP15183195 A JP 15183195A JP H096920 A JPH096920 A JP H096920A
Authority
JP
Japan
Prior art keywords
character
candidate
ink data
cutout
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7151831A
Other languages
English (en)
Other versions
JP3720873B2 (ja
Inventor
Yoshifumi Sakai
良文 坂井
Yoshitaka Ikeda
佳隆 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP15183195A priority Critical patent/JP3720873B2/ja
Publication of JPH096920A publication Critical patent/JPH096920A/ja
Application granted granted Critical
Publication of JP3720873B2 publication Critical patent/JP3720873B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】続け字のアルファベット文字列などを手書き文
字認識で、利用者の書き癖による文字切り出し位置の誤
り(「c」と「d」など)をなくし、認識率を向上を図る。 【構成】入力した続け字のインクデータに基づき、並び
線(ライン)とミーンラインにそれぞれ相当する下側基
準線25Lと上側基準線25Uを抽出する。切り出し候補
位置探索範囲W内において、インクデータ20b中に上
側基準線25Uより上方に張り出している部分があれ
ば、その部分の直後にあって下側基準線25 Lに対応す
る基準点を中心として、その部分のインクデータが直立
するように回転を行なう。下側基準線25Lより下方に
張り出している部分があれば、その部分の直前にあって
上側基準線25Uに対応する基準点を中心として、その
部分の回転を行なう。その後、ヒストグラム法によっ
て、文字切り出し位置の候補となるべき位置を抽出す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、手書き文字認識に関
し、特に、続け字(カーシブ;cursive)で入力された
複数文字分の手書き文字データから1字分の手書き文字
データを順次切り出す手書き文字認識方法及びその装置
に関する。
【0002】
【従来の技術】これまでのオンライン手書き文字認識シ
ステムでは、入力装置上に予め設定された該四角形の領
域(入力枠)に対し利用者が1文字ずつ手書き文字を入
力するようになっていたが、近年、入力枠を設けること
なく利用者が自由に入力した手書き文字を認識できる技
術が開発されてきた。
【0003】日本語や中国語の場合であれば、手書き文
字入力を行なうに際し1文字ずつ分けて入力することを
要求しても、利用者は大した違和感をもつことなく手書
き文字入力を行なうことができる。しかしながら、英語
やフランス語、スペイン語などの単語はアルファベット
の文字列として表わされるが、アルファベットの文字列
が手書き文字入力される場合には、複数の文字にまたが
って1ストロークの運筆がなされること、すなわち続け
字(カーシブ;cursive)で入力されることが多い。さら
に、英語などのラテンアルファベットのほか、ロシア語
などで使用されるキリル文字、さらにはアラビア文字な
ども、続け字で入力されることが多い。このように続け
字で入力されることが多い言語を対象とする場合には、
続け字で入力されることを前提として手書き文字認識を
行なう必要がある。このような場合の手書き文字認識方
法の一つとして、英語を例に挙げれば、「book」と
か「look」といった単語を単位としてパターンマッ
チングで文字認識を行なう方法がある。この方法には、
「book」と「look」のように全体の形が似てい
る単語同士での識別が難しく、認識用辞書の容量が膨大
になり、かつ、辞書にない単語の認識が行なえないとい
う問題がある。
【0004】続け字で入力される手書き文字データに対
する手書き文字認識方法の他の方法として、続け字とし
て入力された複数文字分の手書き文字データから特徴点
を見つけ、この特徴点を切り出し位置として1文字分ず
つのデータを切り出し、1文字ごとに手書き文字認識を
行なう方法がある。特徴点としては、ストローク長を等
分する点や、運筆時のペン先の移動方向を逐次検出して
移動方向がある特定の方向から別の特定の方向に変化し
た点などが選択される。ストローク長を等分する点を特
徴点とする方法は、字によってストローク長が異なるこ
とがあるので(「w」は他の文字に比べストローク長が
長い)、必ずしも有効でない。運筆の移動方向の変化を
見る方法では、個人差が大きく、例えば「d」と「c
l」の区別などを行なうことが困難である。
【0005】特徴点を抽出する方法として、2次元空間
内のデータとして入力された手書き文字データを入力方
向に平行な直線上に射影してヒストグラムを作成し、こ
のヒストグラムから特徴点を抽出する方法(ヒストグラ
ム法)がある。図13はヒストグラム法を説明する図で
あって、ここでは、続け字で英語文字列「alc」に対
応する手書き文字入力データ91が入力されたものとす
る。入力方向に対し垂直であって、所定の刻み幅dの間
隔で相互に平行な多数の直線(図示破線)を考え、これ
らの直線と手書き文字入力データ91との交点の数を数
え、この交点の数に基づいてヒストグラム92を考え
る。英語文字列の手書き文字データでは、字と字の間の
領域では直線ごとの交点の数は1であり、字の中心部で
は直線ごとの交点の数は2以上であると考えられるか
ら、ヒストグラム92に表わされた頻度(直線ごとの交
点の数)の変化を調べて頻度が変化するところから特徴
点を抽出しここを切り出し位置とすることができる。し
かしながら、単純なヒストグラム法では、利用者の書き
癖によっては頻度1の範囲が複数文字にわたって連続し
たり、図13の「lc」の部分に見られるように、寝た
字では隣接する文字が重なって、文字を切り出すべき位
置を正確に見い出せないことがある。
【0006】特徴点を見つけて切り出し位置とする方法
では、切り出し位置を一度誤ると、その誤っている位置
を基準に次の文字切り出しが行なわれるので、切り出し
位置の誤りが伝播することになり、切り出し位置の誤り
は広範囲に影響を及ぼすことになる。
【0007】正しい位置での切り出しを行なうために、
文字の縦横比などを利用することが試みられている。こ
の方法は、例えば横書きの場合、文字高に比べて極端に
短い位置での切り出しを行なわないことにより、誤った
位置での切り出しを防止しようとするものである。しか
しながら、手書き文字での縦横比は利用者によってかな
りばらつきがあり、また、文字によっても縦横比が異な
るので、縦横比を利用する方法でも切り出し位置の誤り
を減らすことは難しい。例えば、「i」と「W」とで
は、文字の縦横比が異なるので、同一の基準を用いて文
字切り出しを行なった場合に、いずれの文字も正しく切
り出されるとは限らない。また、異なる利用者の手書き
文字データのいずれに対しても正確に文字切り出しが行
なえるような、利用者に共通した切り出し基準を見つけ
ることも困難である。
【0008】以上、続け字で入力された手書き文字デー
タに対して手書き文字認識を行なう方法について、単語
単位でパターン認識する方法と、1文字分ずつの手書き
文字データを切り出して文字認識を行なう方法とを説明
したが、認識率や認識の速度、必要とする辞書容量の小
ささなどの点を考慮すると、1文字分ずつ手書き文字デ
ータを切り出す方法の方が有効である。
【0009】以下の説明において、「文字」とは、文字
コードと1対1に対応するものを指し、具体的にはこの
ように文字コードによって一意に指定されるものの名前
のことを意味し、「インクデータ」とは、利用者がペン
などの入力デバイスによって入力した軌跡データを指
し、「手書き文字入力」とは、文字認識の対象となるイ
ンクデータを入力する作業を指し、「手書き文字」と
は、手書き文字認識処理を施すことを意図して利用者が
入力したインクデータのことを指し、「文字切り出し」
とは、手書き文字のインクデータ群の中から、1文字に
相当するインクデータを抽出することを指す。
【0010】また、「距離」とは、認識誤差量とも呼ば
れ、候補文字の形状的な特徴を表わすデータ(特徴量)
やインクデータがある場合に、これらのデータのうちの
任意の2つのものについて、両者の差異を定量的に表わ
す尺度のことである。例えば、データが特徴空間内の特
徴ベクトルとして表わされる場合には、2つの特徴ベク
トル間の差ベクトルのノルムとして距離を定義すること
ができる。距離が小さいほど、2つのデータがよく一致
していることになる。切り出されたインクデータをもと
に認識辞書を探索してそのインクデータに対応する候補
文字を見つけ出した場合には、その候補文字に対応する
特徴データとインクデータとの距離が小さいほど、探索
された候補文字が利用者の意図した文字である可能性が
高いということになる。
【0011】「クラスタ」とは、候補文字などについ
て、その形状的な特徴を表わすデータの代表となるべき
もののことを指す。インクデータから特徴ベクトルを生
成して文字認識処理が行なわれる場合には、クラスタは
候補文字の特徴ベクトル(代表点)に相当する。
【0012】
【発明が解決しようとする課題】入力枠を用いない手書
き文字認識システムでアルファベットの文字列のように
続け字で入力された手書き文字データの手書き文字認識
を行なう場合、上述したように、単語単位でパターン認
識を行なうよりも、続け字の手書き文字データから1文
字分の手書き文字データを順次切り出して認識を行なう
方が有効である。しかしながら、従来の文字切り出し方
法では、利用者の書き癖によっては正確に切り出し位置
を設定できないことがあり、このため、誤った切り出し
位置で切り出された手書き文字データに基づいて文字認
識を行なうこととなって、認識率のさらなる向上を望め
ないという問題点がある。
【0013】本発明の目的は、正確な文字切り出しを行
なうことによって、アルファベット文字列で代表される
続け字で入力される手書き文字データに対する手書き文
字認識の認識率の向上を図ることにある。
【0014】
【課題を解決するための手段】本発明の手書き文字認識
方法は、利用者が入力したインクデータから文字切り出
しを行なって手書き文字認識を行なう手書き文字認識方
法において、文字とその文字に対するクラスタを格納し
た認識辞書と、重み付けクラスタとその重み付けクラス
タに対する対象文字を格納した重み付け辞書とを使用
し、未切り出しのインクデータに対し、前記未切り出し
のインクデータの先頭から手書き文字の入力方向に沿っ
て所定の長さの候補位置探索範囲を設定する探索範囲設
定工程と、前記候補位置探索範囲内のインクデータから
文字切り出しの位置の候補となる切り出し候補位置を決
定する候補位置探索工程と、前記切り出し候補位置のそ
れぞれで文字切り出しが行なわれたとして前記認識辞書
との比較・照合を行ない、前記切り出し位置ごとに当該
切り出し候補位置に対応する候補文字と対応するクラス
タからの当該候補文字の距離値とを求める認識工程と、
前記重み付け辞書を探索し、前記切り出し候補位置ごと
のインクデータの中に重み付けクラスタに近いものがあ
り、かつ、当該重み付けクラスタの対象文字が探索され
た候補文字のいずれかと一致する場合には、一致した候
補文字の距離値に重み付けを行なう重み付け工程と、前
記重み付け工程で重み付けが行なわれた後の距離値の大
小に応じて候補文字の中から認識文字を決定する決定工
程とを有する。そして本発明は、候補位置探索工程にお
ける候補位置の探索方法として、以下の2通りの方法を
提供する。
【0015】第1の方法では、基準線設定工程により、
まず、入力された一連のインクデータに対して手書き文
字の入力方向に平行な1対の基準線を設定し、その上
で、候補位置探索範囲内のインクデータに関し、1対の
基準線ではさまれた範囲から一方の基準線側に張り出し
ている部分を検出した場合には、インクデータ上の点で
あって当該部分の直後にありかつ他方の基準線に対応す
る点を中心として当該部分を含むインクデータ部分を回
転し、1対の基準線ではさまれた範囲から他方の基準線
側に張り出している部分を検出した場合には、インクデ
ータ上の点であって当該部分の直前にありかつ一方の基
準線に対応する点を中心として当該部分を含むインクデ
ータ部分を回転する。そして、手書き文字の入力方向に
平行な直線上にインクデータを射影し、文字切り出しの
位置の候補となる切り出し候補位置を射影点の数の増減
に基づいて決定する。すなわちヒストグラム法を使用す
る。このように切り出し候補位置が決定したら、候補位
置探索工程での回転が行なわれる前のインクデータを対
象として認識工程を実行する。この方法において使用さ
れる一対の基準線は、アルファベット文字列の場合であ
ればそれぞれ並び線(ライン)とミーンラインに相当す
る直線である。この一対の基準線の求め方としては、例
えば、インクデータから特徴点を抽出し、入力方向に垂
直な直線上にこれら特徴点を射影し、射影点の分布に応
じてグループ分けを行ない、各グループでの射影点の平
均位置に応じて基準線の位置を決める方法を採用するこ
とができる。
【0016】第2の方法では、認識辞書と重み付け辞書
の他に、予め定められた特定パターンごとに当該特定パ
ターンに属する1または複数の基準パターンとその基準
パターンごとの切り出し位置パラメータとを格納する切
り出し用辞書を使用する。そして、特定パターンに該当
する部分を候補位置探索範囲内のインクデータから抽出
し、抽出された部分と類似する基準パターンを切り出し
用辞書の中から探索し、文字切り出しの位置の候補とな
る切り出し候補位置を探索された基準パターンに対応す
る切り出し位置パラメータによって決定する。特定パタ
ーンは、例えば、インクデータ中の右上がりの部分とい
うようにして定められる。「右上がり」という特定デー
タに対し、基準パターンは、例えば、「一直線であるよ
うなパターン」、「初めの方があとの方より勾配が急で
あるようなパターン」、「初めの方があとの方より勾配
が緩やかであるようなパターン」として定めることがで
きる。また、切り出し位置パラメータは、例えば、イン
クデータの軌跡としての距離で前から1/3の場所を切
り出し候補位置とする、といったように定めておく。基
準パターンと抽出されたインクデータ部分との類似の判
定は通常の1ストロークデータの文字認識に他ならない
から、一般的な方法で実行でき、類似する基準パターン
が決まれば、その基準パターンについて予め定められて
いる切り出し位置パラメータによって、抽出されたイン
クデータ部分に対して切り出し候補位置の設定が行なわ
れる。先の例に基づけば、右上がりの部分として抽出さ
れたインクデータ部分の前から1/3の位置を切り出し
候補位置とする。
【0017】本発明の第1の手書き文字認識装置は、利
用者が入力したインクデータから文字切り出しを行なっ
て手書き文字認識を行なう手書き文字認識装置におい
て、インクデータを入力する入力手段と、インクデータ
を格納するインクデータ格納手段と、文字とその文字に
対するクラスタを格納した認識辞書と、重み付けクラス
タとその重み付けクラスタに対する対象文字を格納した
重み付け辞書と、前記インクデータ格納手段中のインク
データに対し手書き文字の入力方向に平行な1対の基準
線を設定し、未切り出しのインクデータに対し、前記未
切り出しのインクデータの先頭から前記入力方向に沿っ
て所定の長さの候補位置探索範囲を設定し、前記候補位
置探索範囲内のインクデータに関し、前記1対の基準線
ではさまれた範囲から一方の基準線側に張り出している
部分を検出した場合には、前記インクデータ上の点であ
って当該部分の直後にありかつ他方の基準線に対応する
点を中心として当該部分を含むインクデータ部分を回転
し、前記1対の基準線ではさまれた範囲から前記他方の
基準線側に張り出している部分を検出した場合には、前
記インクデータ上の点であって当該部分の直前にありか
つ前記一方の基準線に対応する点を中心として当該部分
を含むインクデータ部分を回転し、その後、前記入力方
向に平行な直線上に前記インクデータを射影し、文字切
り出しの位置の候補となる切り出し候補位置を射影点の
数の増減に基づいて決定し、前記各インクデータ部分の
回転が行なわれる前のインクデータに対して前記切り出
し候補位置のそれぞれで文字切り出しが行なわれたとし
て前記認識辞書との比較・照合を行ない、前記切り出し
位置ごとに当該切り出し候補位置に対応する候補文字と
対応するクラスタからの当該候補文字の距離値とを求
め、前記重み付け辞書を探索し、前記切り出し候補位置
ごとのインクデータの中に重み付けクラスタに近いもの
があり、かつ、当該重み付けクラスタの対象文字が探索
された候補文字のいずれかと一致する場合には、一致し
た候補文字の距離値に重み付けを行ない、そののち、距
離値の大小に応じて候補文字の中から認識文字を決定す
る文字認識手段と、を有する。
【0018】本発明の第2の手書き文字認識装置は、利
用者が入力したインクデータから文字切り出しを行なっ
て手書き文字認識を行なう手書き文字認識装置におい
て、インクデータを入力する入力手段と、インクデータ
を格納するインクデータ格納手段と、文字とその文字に
対するクラスタを格納した認識辞書と、予め定められた
特定パターンごとに当該特定パターンに属する1または
複数の基準パターンとその基準パターンごとの切り出し
位置パラメータとを格納する切り出し用辞書と、前記イ
ンクデータ格納手段中の未切り出しのインクデータに対
し、前記未切り出しのインクデータの先頭から手書き文
字の入力方向に沿って所定の長さの候補位置探索範囲を
設定し、前記特定パターンに該当する部分を前記候補位
置探索範囲内のインクデータから抽出し、抽出された部
分と類似する前記基準パターンを前記切り出し用辞書の
中から探索し、文字切り出しの位置の候補となる切り出
し候補位置を探索された基準パターンに対応する切り出
し位置パラメータによって決定し、前記切り出し候補位
置のそれぞれで文字切り出しが行なわれたとして前記認
識辞書との比較・照合を行ない、前記切り出し位置ごと
に当該切り出し候補位置に対応する候補文字と対応する
クラスタからの当該候補文字の距離値とを求め、前記重
み付け辞書を探索し、前記切り出し候補位置ごとのイン
クデータの中に重み付けクラスタに近いものがあり、か
つ、当該重み付けクラスタの対象文字が探索された候補
文字のいずれかと一致する場合には、一致した候補文字
の距離値に重み付けを行ない、そののち、距離値の大小
に応じて前記候補文字の中から認識文字を決定する文字
認識手段と、を有する。
【0019】
【作用】本発明では、続け字で入力されたインクデータ
から1文字分のインクデータを切り出して文字認識を行
なう際に、まず、切り出し候補位置を探索し、認識辞書
と重み付け辞書とを用いて文字認識を行なって切り出し
候補位置の中から最も適切なものを選ぶ、という2段階
で切り出し及び文字認識を実行している。続け字に対し
て正しく文字認識を行なえるかどうかは適切に文字切り
出しが行なえるかどうかにかかっているが、本発明で
は、インクデータ中の寝ている部分(横書きの場合)を
直立させてからヒストグラム法により切り出し候補位置
を探索する、あるいは、インクデータから特定パターン
に該当する部分を抽出し、抽出されたインクデータ部分
に類似している基準パターン(特定パターンごとに1あ
るいは複数定められている)を探索してその基準パター
ンに対応して定められている位置を切り出し候補位置と
している。このように切り出し候補位置を定めることに
より、隣接する文字が入力方向に垂直な方向に重なって
いるような場合でも、適切に切り出し候補位置を見出す
ことが可能になる。
【0020】さらに本発明では、重み付けクラスタを重
み付け辞書に設定してあり、切り出されたインクデータ
がこの重み付けクラスタに近い場合にはこの重み付けク
ラスタの対象文字が文字認識され難くなるように構成さ
れている。したがって、利用者の書き癖に応じて重み付
けクラスタを重み付け辞書に登録することにより、利用
者の書き癖による誤切り出しが生じ難くなり、利用者の
意図したとおりの正確な文字認識を行なうことが可能に
なる。
【0021】
【実施例】次に、本発明の実施例について、図面を参照
して説明する。図1は本発明の一実施例の手書き文字認
識装置の構成を示すブロック図である。以下では、アル
ファベットの文字列が続け字で手書き文字入力された場
合を例に挙げて、説明を行なう。
【0022】この手書き文字認識装置は、オンライン手
書き文字認識を実行するものであって、利用者によるイ
ンクデータが入力するとともに必要な情報を表示するた
めの入力・表示パネル11と、入力・表示パネル11に
対して入力されたインクデータを受け付け、手書き文字
データなのか指示なのかを識別する入力処理部13と、
手書き文字のインクデータを格納するインクデータ格納
部14と、文字認識に使用する認識辞書21と、重み付
けクラスタを格納する重み付け辞書22と、文字切り出
しの際に使用する切り出し用辞書23と、認識辞書2
1、重み付け辞書22及び切り出し用辞書23を参照し
てインクデータ格納部14内のインクデータに対する文
字切り出し処理及び文字認識処理を実行する文字認識エ
ンジン部15と、文字認識エンジン部15による文字認
識結果を格納する認識結果格納部16と、文字認識結果
に応じて入力・表示パネル11に対して表示を行なう出
力処理部17と、利用者からの指示に基づいて認識辞書
21及び重み付け辞書22の更新を行なう辞書更新部1
8とによって構成されている。入力・表示パネル11
は、表示部とインクデータ20の入力部とが一体になっ
たいわゆる表示一体型入力パネルであり、例えば、液晶
フラットディスプレイ上に透明型タブレットを積層した
構成のものを使用できる。利用者は、ペン12でこの入
力・表示パネルの入力・表示画面をなぞることによっ
て、所望のインクデータ20を入力できる。
【0023】本実施例の手書き文字認識装置は、アルフ
ァベット文字列などの続け字で入力されたインクデータ
に対して1文字分に相当するインクデータを切り出し、
切り出されたインクデータからその形状の特徴を表わす
特徴ベクトルを求め、認識辞書21中の各文字(候補文
字)の特徴ベクトル(クラスタ)とインクデータから求
めた特徴ベクトルとを比較し、両者の距離に応じてその
インクデータに対する候補文字を定めることにより、文
字認識が行なうものである。このとき、文字切り出しに
際して、まず、手書き文字入力されたインクデータの入
力方向に応じ、切り出し候補位置探索範囲内で切り出し
候補位置を探索し、各切り出し候補位置で切り出された
インクデータごとに候補文字を定めている。ここでは、
入力枠なしでの手書き文字認識が行なわれているが、入
力方向が縦なのか横なのかだけは指定されており、入力
方向が横方向であれば、複数の文字の手書き文字入力を
行なう場合に利用者は斜めではなくできるだけ真横に向
って文字を書き連ねるものとする。認識辞書21には、
文字とその文字のクラスタとが格納されている。ある1
つの文字に対して複数のクラスタが対応することが可能
であり、また、認識辞書21に対し利用者の指定した文
字のクラスタを追加登録することが可能なようになって
いる。もちろん本発明は、文字認識の具体的方法やアル
ゴリズムによらずに適用できるものであり、特徴ベクト
ルによらない文字認識方法、例えばパターンマッチング
法などにも本発明を適用することが可能である。
【0024】文字認識エンジン部15は、インクデータ
格納部14に格納された未切り出しのインクデータにつ
いて、その先頭部分(基点O)から手書き文字に入力方
向に向かって所定の範囲(切り出し候補位置探索範囲
W)の領域内にある切り出し候補位置を探索し、各切り
出し候補位置でインクデータを切り出したとして認識辞
書21と比較し、切り出し候補位置ごとにその切り出し
候補位置に対応する候補文字を求め、さらに重み付け辞
書22を参照して重み付けを行ない、文字認識を行なう
ものである。切り出し候補位置とは、文字切り出しが行
なわれるべき位置の候補のことであって、切り出し候補
位置の見つけ方としては、後述するように、インクデー
タ中の隣接する文字が重なっているのを補正してからヒ
ストグラムによって切り出し候補位置を見つける方法
と、インクデータから特定パターンを抽出しこの特定パ
ターンと基準パターンとを比較して切り出し候補位置を
見つける方法とを用いている。特定パターンによる方法
を用いて切り出し候補位置の探索を行なう場合には、切
り出し用辞書23も使用する。
【0025】図2(a)は、アルファベット文字列として
続け字で入力されたインクデータの実例を示すものであ
る。図2(a)では、切り出し候補位置として、A及びB
の2箇所が探索されている。文字認識の際には、未切り
出しのインクデータの先頭部分(基点O)から各切り出
し候補位置までのインクデータ(図2(a)に示した例で
は、基点Oから切り出し候補位置Aまでのインクデータ
と、基点Oから切り出し候補位置Bまでのインクデー
タ)を対象として、認識辞書21を参照してこれら各イ
ンクデータに対する候補文字が探索され、同時にこれら
の候補文字に対する距離値がそれぞれ算出される。ここ
で距離値は、切り出し候補位置ごとのインクデータから
求められた特徴ベクトルと、そのインクデータに対応す
る候補文字についてのクラスタとの距離のことである。
そして、文字認識エンジン部15は、以下の重み付け処
理を行なった後に、距離値でソートし、距離値の小さい
順に候補文字を認識結果格納部16に出力するようにな
っている。
【0026】ここで重み付け処理について説明する。続
け字のアルファベット文字列に対応するインクデータに
対する重み付け辞書22の構成例が図2(b)に示されて
いる。重み付け辞書22には、重み付けクラスタとその
重み付けクラスタによる重み付けの対象となる文字とが
組になって格納されている。重み付けクラスタは、利用
者の入力したインクデータに基づく特徴ベクトルとし
て、後述する辞書更新部18により登録されたものであ
る。図2(b)に示した例では、筆記体での「d」の字に
似た重み付けクラスタに対し、「c」の字が重み付け対
象文字とされている。本実施例では、各切り出し候補位
置に対応するインクデータが重み付けクラスタとして登
録された形状に似ている場合には、その重み付けクラス
タに対応する重み付け対象文字が候補文字として挙げら
れている場合に、その候補文字の距離値に重み付けがな
されるようになっている。重み付けの方法としては、一
定値を重み付け対象文字である候補文字の距離値に加算
する方法、切り出し候補位置に対応するインクデータの
特徴ベクトルと重み付けクラスタとの距離に応じて変化
する値を候補文字の距離値に加算する方法などがある。
重み付けクラスタとの「近さ」に比例した重み付けを行
なうことが望ましい。結局、あるインクデータが重み付
けクラスタとして登録されている場合には、その重み付
けクラスタに類似したインクデータが入力した場合に、
その重み付けクラスタの対象文字が文字認識結果として
現われ難くなる。利用者の書き癖によって、切り出し位
置の誤りが生じる場合、誤切り出しに対応するインクデ
ータとその誤って認識されて出力された文字とを重み付
けクラスタとその対象文字として重み付け辞書22に登
録することにより、以後はその誤切り出しが生じ難くな
る。
【0027】辞書更新部18は、利用者から学習の指示
があった場合に、認識辞書21あるいは重み付け辞書2
2の更新を行なう。誤切り出しが生じたので利用者が学
習を行なわせようとする場合、上述したように、誤切り
出しとなったインクデータを重み付けクラスタとして重
み付け辞書22に登録するのが原則であるが、この場
合、文字切り出しの基点から最遠の切り出し候補位置ま
でのインクデータを登録する。また、場合によっては、
認識辞書21中に妥当なクラスタが存在しなかったため
に誤切り出しとなることがあるが、そのような場合に
は、指定されたインクデータをクラスタとして認識辞書
21に登録する。さらに、辞書更新部18は、重み付け
クラスタを新規登録した場合にその新規登録の重み付け
クラスタの近傍に既存の重み付けクラスタが存在する場
合には、その既存の重み付けクラスタを重み付け辞書2
2から消去する。辞書更新部18での具体的に処理につ
いては、図11のフローチャートを用いて後述する。
【0028】次に、この手書き文字認識装置の動作を説
明する。最初に、文字認識処理の流れを図3のフローチ
ャートを用いて説明する。
【0029】まず、利用者が時間的に間を置かずに入力
した一連のインクデータを取得する(ステップ10
1)。この一連のインクデータは、典型的には、1単語
分に相当する続け字で手書き文字入力されたアルファベ
ット文字列である。取得されたインクデータは文字認識
エンジン部15に送られ、前処理が施される(ステップ
102)。前処理の内容は、サイズの正規化、サンプリ
ング数の調整、基準線の設定などである。サイズの正規
化は、取得したインクデータから、入力方向に垂直な方
向(アルファベットであれば縦方向)の文字幅(いわゆ
る文字高)を求め、それが一定値となるように正規化す
る処理である。サンプリング数の調整は、利用者が素早
く入力した場合とゆっくり入力した場合とではインクデ
ータのサンプリング数が異なるので、補間や等分などの
処理を適宜行なってサンプリング数を安定させるための
処理である。基準線の設定については、詳細は後述する
が、英語の文字列の場合であれば、欧文活字組版用語で
いう並び線(ライン)とミーンラインに相当する線をイ
ンクデータから抽出する処理である。
【0030】前処理が終ったら、切り出し候補位置探索
範囲Wの中で後述する手法にしたがって切り出し候補位
置を探索する(ステップ103)。この際、複数の切り
出し候補位置が探索されたらその全てを記憶しておくよ
うにする。そして、このように探索された切り出し候補
位置のうち中から未処理のものを1つ選び、その切り出
し候補位置でインクデータを切り出し、切り出されたイ
ンクデータから特徴ベクトルを求め、認識辞書21と比
較して候補文字を獲得する(ステップ104)。このと
き、その候補文字のクラスタと切り出されたインクデー
タの特徴ベクトルとの距離値を算出しておく。候補文字
の数は、切り出し候補位置ごとに1個でもよいし複数個
でもよい。そして、重み付け辞書22内を探索し、取り
出されたインクデータの中で重み付けクラスタに近い
(類似している)ものがあるかを検索する。この検索
は、特徴ベクトルと重み付けクラスタとの特徴空間内で
の距離が所定のしきい値r以下であるかどうかで行なわ
れる。重み付けクラスタに近いものが存在しない場合
は、そのままステップ106に移行し、存在する場合に
は、重み付け辞書22においてその重み付けクラスタの
対象文字として登録されている文字を読み出し、その文
字がすでに求められている候補文字のいずれかと一致す
る場合には、その一致する候補文字についての距離値に
重み付けを行なう(ステップ105)。
【0031】ステップ106では、切り出し候補位置探
索範囲内の全ての切り出し候補位置について、上述のス
テップ104と105の処理が終ったかどうかをチェッ
クする。その結果、終っている場合にはステップ107
に進み、終っていない場合には、残っている切り出し候
補位置において文字認識を行なうために、ステップ10
4に戻る。
【0032】ステップ107では、各候補文字をその距
離値に応じてソートし、距離値の小さい順に並べる。距
離値の定義によっては、インクデータ中のストローク数
に距離値が依存する場合もあるが、そのような場合に
は、正規化処理を行なって、異なるストローク数のイン
クデータを比較できるようにする。このソート結果は、
文字認識エンジン部15から認識結果格納部16に送ら
れ、出力処理部17によって、ソート結果に応じた候補
文字の表示が入力・表示パネル11で行なわれる。候補
文字の表示は、最も確からしい候補文字、すなわち、重
み付け処理を実行した後の距離値が最も小さな文字のみ
をまず表示し、利用者の指示によって次順位の文字を表
示するようにしてもよいし、ソート順に応じていくつか
の候補文字を並べて表示してもよい。その後、利用者に
指示によって候補文字を決定する(ステップ108)。
このとき、第1順位の候補文字が利用者の意図した文字
でない場合には、利用者は、次順位以下の候補文字を検
索し、自分の意図した文字を指定して候補文字の決定を
行なうものとする。
【0033】候補文字の決定が済んだら、後処理を実行
する(ステップ108)。後処理では、決定した候補文
字に対応する切り出し候補位置までのインクデータを切
り出し処理済みのものとし、切り出しの開始位置(基点
O)を次に進める。その際、必要に応じて、決定した候
補文字に対応する切り出し候補位置と次の切り出しの開
始位置とは異ならせることができるが、そのことの詳細
は後述する。そして、全てのインクデータが切り出し済
みかどうかを判断する(ステップ109)。未切り出し
のインクデータが残っている場合にはステップ102に
戻って上記の処理を繰り返し、残っていない場合には処
理を終了する。
【0034】この手書き文字認識装置では、切り出し候
補位置ごとに候補文字が求められるので、例えば、
「d」と「c」などのように、切り出し位置の異なる候
補文字が併存することになる。そして、候補文字を利用
者に提示している段階では文字切り出しの位置は確定し
ておらず、候補文字の確定とともに、その候補文字に対
応する切り出し候補位置で切り出し位置が確定し、文字
切り出しが最終的に行なわれたことになる。
【0035】以下、実例を挙げて説明する。図2(a)に
示したインクデータ20は、利用者が英単語の「di
p」を意図して続け字により手書き文字入力したもので
あるが、「d」の字の書き始めの部分が他の部分から位
置的に離れているために、「clip」とも認識されか
ねないものである。また、このインクデータ20に対し
て切り出し候補位置Aと切り出し候補位置Bの2つの切
り出し候補位置が探索されたものとする。切り出し候補
位置ごとの候補文字とその候補文字に対する距離値が表
1に示されている。表1に示されるように、重み付け処
理を行なわない距離値で候補文字の順位付けを行なう
と、「c」の方が距離値が近いため、第1順位の候補文
字は「c」となり、誤った文字切り出しが行なわれるこ
とになる。
【0036】
【表1】 ところで、重み付け辞書22に、図2(b)に示すような
のような重み付けクラスタ(図2(a)のインクデータ2
0中の「d」の字に非常に類似している)が、「c」の
文字を対象文字として登録されていたとする。すると、
切り出し候補位置Bでのインクデータがこの重み付けク
ラスタに近いことになるので、候補文字「c」に重み付
けが行なわれることになる。この重み付け処理の結果、
候補文字「d」に対する距離値はそのままであるのに対
し、候補文字「c」に対する距離値が増加し、「d」の
方の距離値が小さくなって、最終的に、第1順位の候補
文字が「d」となる。すなわち、利用者の書き癖に応じ
て正確な文字切り出しが行なわれたことになる。なお、
利用者が「cl…」の入力を意図した場合には、そのと
きのインクデータは、「d」を意図したときのインクデ
ータとは異なっていると考えられ、その場合は上述の重
み付けクラスタとはインクデータが異なるであろうか
ら、「c」に対する重み付けは十分に行なわれず、
「c」、「l」と正しく切り出しを行なうことができ
る。
【0037】別のケースとして、「cl」と入力したつ
もりが「c」と「l」が離れていないために「d」と誤
切り出しされるような場合には、誤切り出しされたイン
クデータについて、切り出しの基点から最も遠い切り出
し候補位置までを重み付けクラスタとし、対象文字を
「d」として重み付け辞書に登録することにより、以後
は正しく「cl」と認識されるようになる。
【0038】次に、図3のフローチャートのステップ1
02で行なわれる前処理における基準線の設定について
説明する。アルファベットの各活字文字をその文字の高
さで分類すると、小文字の「c」,「e」,「x」などの
文字(ショートレター、すなわちエックスハイト(x hei
ght)の文字)、ショートレターの文字に比べて上に出る
文字(アッセンダ、例えば「b」や「l」)、ショート
レターの文字より下に出る文字(デッセンダ、例えは
「p」や「q」)、上下に伸びている文字(ロングレタ
ー、「j」、続け字では「f」も該当する)に分けられ
る。活字体でのショートレターの各文字の上端と下端は
それぞれ同一の線上にあって、これらの線はそれぞれミ
ーンラインと並び線(ライン)と呼ばれる。なお、アッ
センダの上端が並ぶ線をアッセンダライン、デッセンダ
の下端が並ぶ線をデッセンダラインと呼ぶ。活字体では
大文字の上端の並ぶ線(キャップライン)とアッセンダ
ラインとは多少ずれているが、手書き文字入力の場合に
はこのずれは意識されないので、本実施例では両者をま
とめてアッセンダラインと呼ぶことにする。
【0039】続け字で手書き文字入力されたインクデー
タの場合、ショートレターの各文字の上端と下端は、そ
れぞれ厳密に1本の直線上にあるとは考え難いが、縦方
向にある幅をもってその幅の中にそれぞれ位置している
と考えることができる。そこで本実施例では、ミーンラ
インと並び線に相当する線をそれぞれ上側基準線、下側
基準線として、インクデータから抽出している。これら
の基準線は、本実施例でのヒストグラム法による切り出
し候補位置の探索に使用されるほか、大文字と小文字の
区別、入力方向に垂直な方向への文字幅(文字高)の決
定などにも使用できる。なお、アルファベット以外で
も、入力方向に平行なこのような基準線を定義できる文
字であれば、以下に述べる方法は有効である。
【0040】図4(a)に示すようにインクデータ20a
が入力されたら、インクデータ20a中から、上に凸に
なっている点(図示○印)と下に凸になっている点(図
示△印)を探し出し、入力方向に垂直な直線上にこれら
の点を射影する。これら上に凸になっている点と下に凸
になっている点には線分の端点も含まれるものとする。
上に凸になっている点や下に凸になっている点は、基準
線探索のために使用される特徴点である。上に凸になっ
ている点はミーンラインとアッセンダラインのいずれか
に対応し、下に凸になっている点は並び線とデッセンダ
ラインのいずれかに対応すると考えられるから、射影さ
れた各点は、ミーンライン、アッセンダライン、並び
線、デッセンダラインにそれぞれ対応する範囲(図示点
線の楕円で表示)のいずれかに群集することになる。も
ちろん、「ace」に対応するインクデータなどでは、
ショートレターのみからなるから、ミーンラインと並び
線に対応して2つの群集しか生じない。また、例えば、
デッセンダである「g」も下に凸になっている点を並び
線上に有するから、並び線に対応する群集とミーンライ
ンに対応する群集は必ず発生するものとしてよい。
【0041】そこで本実施例では、図4(b)に示すよう
に、ミーンラインに対応する群集を構成する射影点の平
均位置を通過し入力方向に平行な直線を上側基準線25
Uとし、並び線に対応する群集を構成する射影点の平均
位置を通過し入力方向に平行な直線を下側基準線25L
としている。場合によっては、射影点の群集が3つで
き、そのままではどれが並び線に対応し、どれがミーン
ラインに対応するか分からなくなる場合もあるが、群集
に含まれる射影点の数は、デッセンダラインよりも並び
線の方が多く、アッセンダラインよりミーンラインの方
が多いと考えられるから、適当なルールを定めることに
より、識別が可能である。
【0042】次に、本実施例における切り出し候補位置
の探索方法について説明する。本実施例では、上述した
ように、ヒストグラム法を用いる方法と、特定パターン
を抽出する方法のいずれかによって、あるいは両者を併
用して切り出し候補位置を探索する。まず、本実施例に
おけるヒストグラムを用いる方法について説明する。図
5はこのヒストグラムを用いる方法の処理を示すフロー
チャートである。
【0043】従来の技術の欄でも述べたように、続け字
によるアルファベット文字列のインクデータから1文字
分の切り出しを行なう際に障害ものの1つは、字が寝て
いて2文字分のインクデータが重なり合うことである。
この重なり合いは、連続する2文字がショートレターの
場合には起きにくく、一方がアッセンダ、デッセンダ、
ロングレターのいずれかの場合に起きやすいと考えられ
る。そこで本実施例では、アッセンダ、デッセンダ、ロ
ングレターを検出して、これらアッセンダ、デッセン
ダ、ロングレターのインクデータを入力方向に対して直
立させ、その後、ヒストグラム法で切り出し候補位置を
探索する。なお、直立したインクデータは切り出し候補
位置の決定のみに使用され、文字認識を行なう際には、
もとのインクデータが使用される。
【0044】まず、切り出し候補位置探索範囲W内で、
インクデータ中に上側基準線25Uより上側の部分があ
るかを調べる(ステップ111)。手書き文字データで
あるので、上述したように、文字の上下端が必ずしも同
一のミーンラインや同一の並び線上に一列に並んでいる
わけ出はないから、実際には、上側基準線25U自体に
幅を持たせ、この幅の上限よりもさらに上側までインク
データが張り出しているかどうかを調べる。上側の部分
がない場合にはステップ113に移行し、上側の部分が
ある場合には、上側基準線25Uより上にある部分の直
後(語尾側)にある基準点を中心として、その基準点よ
り語頭側にあるインクデータを回転する(ステップ11
2)。なお、切り出し開始位置(基点O)側からストロ
ークとして近い(インクデータの軌跡上の距離が短い)
側が語頭側であり、遠い側が語尾側である。また、基準
点とは、インクデータ中の上に凸の点であって上側基準
線25Uに対応している点と、下に凸の点であって下側
基準線25Lに対応している点のことである。これによ
り、アッセンダやロングレターが入力方向に対して直立
することになる。
【0045】ステップ113では、切り出し候補位置探
索範囲W内で、インクデータ中に下側基準線25Lより
下側の部分があるかを調べる。手書き文字データである
ので、ステップ111の場合と同様に、実際には、下側
基準線25L自体に幅を持たせ、この幅の下限よりもさ
らに下側までインクデータが張り出しているかどうかを
調べる。下側の部分がない場合にはステップ115に移
行し、下側の部分がある場合には、下側基準線25L
り下にある部分の直前(語頭側)にある基準点を中心と
して、その基準点より語尾側にあるインクデータを回転
する(ステップ114)。これにより、デッセンダが入
力方向に対して直立することになる。
【0046】ステップ115では、上述のような処理を
経たインクデータを入力方向に平行な直線上に投影し、
切り出し位置候補探索範囲W内で、ヒストグラム法によ
って切り出し候補位置を探索する。具体的には、度数
(頻度)が1から複数、または、複数から1に変わる点
を切り出し候補位置とする。さらに、複数文字の範囲に
わたって度数1が連続する場合に対処するために、度数
が1で下に凸の部分を候補としてもよい。また、直前の
切り出し位置(今回の基点O)から一定幅(文字幅を基
準に決定)以内では切り出し候補位置としない、基点O
から一定幅(文字幅を基準に決定)の位置内に上記の条
件から求められる切り出し候補位置が探索されなかった
場合にはその位置を切り出し候補位置に追加するなどの
ルールを設けて、切り出し候補位置を決定するようにし
てもよい。
【0047】図6は、ここで述べたヒストグラム法によ
る切り出し候補位置探索の実例を示す図である。図6
(a)に示すように、続け字の「llergy」というイ
ンクデータ20bにおいて、最初の「l」に相当する部
分は、切り出し候補位置探索範囲W内にあってかつ上側
基準線25Uより上側の部分を有する。そこで、下側基
準線25Lに対応する基準点(図示○印)を中心とし
て、最初の「l」の部分を回転する。回転は、図示点線
で示されるように「l」の延びる方向に平行な直線を想
定し、これが直立するまで行なう。その結果、インクデ
ータ20bが図6(b)に示されるように変形するから、
これに対して、ヒストグラム法により切り出し候補位置
を探索する。
【0048】同様に図6(c)は続け字の「gy」のイン
クデータ20cを示している。最初の「g」は下側基準
線25Lより下側の部分を有しているから、上側基準線
25Uに対応する基準点(図示△印)を中心として、こ
の基準点より後ろの部分を回転する。その結果、図6
(d)に示されるようにインクデータ20cが変形する。
ここでは、「g」に引き続く「y」の部分も回転してい
るが、切り出し候補位置は切り出し候補位置探索範囲W
内でのみ探索され、さらに、切り出し候補位置の探索後
は元(回転する前)のインクデータに基づき文字認識が
行なわれ、次の切り出し開始位置の決定も元のインクデ
ータにおいて行なわれるので、切り出し候補位置探索範
囲W内の部分のみを回転させるようにしてもよい。
【0049】ここでは、アルファベットの場合を説明し
たが、文字の入力方向等に応じて適宜の変更を加えるこ
とにより、他の文字種にも適用することができる。
【0050】次に、特定パターンを抽出して切り出し候
補位置を決定する方法について説明する。ここでは、特
定パターンとして、右上がりの部分をインクデータから
抽出するものとする。この他、右上がり部分のほか、そ
の前後、例えば直前の右下がり部分を加えたものを特定
パターンとしてもよい。右上がりの部分は、例えばイン
クデータ入力時のサンプリングで、2次元平面において
x成分の値もy成分の値も増加していることを検出する
ことで抽出できる。もちろん、言語や文字種、文字の入
力方向などに応じて、特定パターンを適宜に設定するこ
とができる。図7はこの方法の処理を説明するフローチ
ャートである。
【0051】まず、切り出し候補位置探索範囲W内のイ
ンクデータから特定パターンに該当する部分を抽出する
(ステップ121)。該当する部分がなければ、本方法
に基づく切り出し候補位置の探索を行なわない。一方、
切り出し用辞書23(図1参照)には、予め、特定パタ
ーンごとに1ないし複数の基準パターンが格納され、基
準パターンごとにどこを切り出し候補位置とするかの情
報が格納されている。基準パターンは例えば特徴ベクト
ル(クラスタ)の形態で格納されている。どの位置を切
り出し候補位置とするかは、例えば、抽出された部分に
おいて軌跡の長さに基づき何対何で内分(場合によって
は外分)する点というように定めることができる。さら
に、複数の切り出し候補位置が設定されるようにしても
よい。特定パターンに該当する部分が抽出されたら、切
り出し用辞書23を探索して、この抽出されたデータに
最も類似している基準パターンを見つけ出し(ステップ
122)、探索された基準パターンに対応して定められ
ている位置に基づき、元のインクデータに切り出し候補
位置を設定する(ステップ123)。
【0052】図8(a)〜(c)は、いずれも、特待パターン
が右上がりの部分である場合の基準パターンの例を示す
図である。図8(a)に示す基準パターン26は、右上が
りの部分においてインクデータがほぼ一直線状となって
いるものである。このような基準パターン26に対し
て、切り出し候補位置は、例えば該当部分の1/2の位
置と定める。これは、続け字での「gl」、「gh」な
どの切り分けに対応したものである。図8(b)に示す基
準パターン26は、初めのうちの勾配の方が後の方の勾
配よりも急になっているものである。このような基準パ
ターン26に対しては、切り出し候補位置は、例えば該
当部分の前から3/4の位置と定める。これは、「v」
や「w」に対応させたものである。図8(c)に示す基準
パターン26は、初めのうちの勾配の方が後の方の勾配
よりも緩くなっているものである。このような基準パタ
ーン26に対しては、切り出し候補位置は、例えば該当
部分の前から1/3の位置と定める。これは、上述以外
の通常のアルファベットに適用されるものである。
【0053】図9は特定パターンを抽出する方法の実例
を示す図である。「all」に対応するインクデータ2
0dに対し、図示太線の部分が特定パターンに該当する
部分となる。この部分(太線部分)のみを抽出して図8
(a)〜(c)に示す各基準パターンを比較すると、図8(c)
に示す基準パターンに類似していることが分かる。そこ
で、太線部分の前から1/3の位置を切り出し候補位置
として設定する。
【0054】次に、後処理(図3のフローチャートのス
テップ108)における次の切り出し開始位置の調整に
ついて説明する。アルファベットの続け字のインクデー
タを考えると、ある字の本体部分(文字認識の重要な部
分)と次の字の本体部分との間に、接続するためだけの
部分が存在したり、両方の字の本体部分に属する部分が
あったりする。例えば、図10(a)は、「le」のイン
クデータの例であるが、これから「l」が文字認識され
て切り出されると、「e」の文字認識に必要な部分まで
取り除かれてしまう。このような現象が起きたことは、
切り出された部分が切り出されていない部分と交差して
いることなどから検出できるから、次の文字切り出しの
開始位置を語頭側にずらす。図10(b)は、「ag」の
インクデータの例であるが、「a」が文字認識されて文
字切り出されても「g」のインクデータの前に、接続部
分(文字間のつなぎのストローク)がかなり長く残って
しまい、「g」の認識に対する障害となる。最初に切り
出された文字が何であるかやインクデータの形状によっ
て単なる接続部分であるかどうかが識別できるから、そ
のような場合には、次の文字の切り出し開始位置を語尾
側にずらす。このようにして、後処理では次の文字に対
する切り出し開始位置(基点O)の調整を行なう。
【0055】次に、学習処理について図11を用いて説
明する。
【0056】学習処理は、誤切り出しが行なわれた場合
に利用者が入力・表示パネル11の所定箇所をダブルク
リックすることなどによって、開始する。このとき、誤
切り出しが行なわれたインクデータがそのまま保存され
ているとする。以下、このインクデータのことを入力デ
ータという。
【0057】次順位以下の候補文字で上述の確定が行な
われたなどのことにより、入力データに対する正しい文
字(以下、指定文字という)が利用者によって指定され
ると、まず、その入力データに対応する特徴ベクトルと
その指定文字の既存のクラスタとの距離が第1のしきい
値以下であるかどうかが判断される(ステップ13
1)。第1のしきい値以下の場合はステップ133に移
行する。第1のしきい値を越える場合は、認識辞書21
におけるその指定文字のクラスタがその利用者にとって
適切なものではない場合なので、その特徴ベクトルをそ
の指定文字のクラスタとして認識辞書21に追加登録す
る(ステップ132)。
【0058】ステップ133では、認識辞書21内が検
索され、入力データの特徴ベクトルに対して、指定文字
のクラスタよりも近くに別の文字のクラスタがあるかど
うかが判断される。「近い」とは、距離値が小さいとい
うことである。また、ここでいう別の文字とは、指定文
字とは切り出し位置が異なる文字のことである。そのよ
うなクラスタが存在しない場合には、誤切り出しによる
誤認識ではない場合なので、学習処理を終了する。な
お、切り出し位置が同じクラスタがより近くに存在する
場合は、誤切り出しではなく、単なる誤認識の問題であ
る。ここで入力データの特徴ベクトルとクラスタとを比
較しているが、認識辞書がインクデータのストローク数
別に編成されていて、異なるストローク数間での比較が
直接行なえないような場合(アルファベット文字列の場
合、続け字であっても、「i」の点部分や「t」の横棒
部分、さらにはいくつかの大文字は複数ストロークで入
力されるのが一般的である)には、データをストローク
ごとの特徴空間で比較して距離値を求め、その距離値を
適宜正規化して、異なるストローク数間での比較を行な
えばよい。
【0059】ステップ133で指定文字より近いクラス
タがある場合には、その別の文字のクラスタと入力デー
タの特徴ベクトルとの距離が第2のしきい値以下である
かを判断する(ステップ134)。第2のしきい値を越
える場合は、重み付けクラスタの設定が適切でない場合
なので処理を終了し、第2のしきい値以下の場合には、
切り出し候補位置探索範囲Wの範囲内で最も遠くにある
切り出し候補位置から切り出されたインクデータに対応
する特徴ベクトルを重み付けクラスタとし、指定文字よ
り順位が上位であった候補文字を重み付けの対象文字と
して、重み付け辞書22に登録する(ステップ13
5)。そして、重み付け辞書22を検索し、新規登録の
重み付けクラスタの近くに既存の重み付けクラスタが存
在するかどうかを調べ(ステップ136)、存在しない
場合には処理を終了し、存在する場合には、矛盾した重
み付けクラスタの存在と重み付け辞書22の必要以上の
肥大化とを防ぐために、その既存の重み付けクラスタを
重み付け辞書22から消去して(ステップ137)、処
理を終了する。ステップ135において、切り出し候補
位置探索範囲Wの範囲内で最遠の切り出し候補位置に基
づき重み付けクラスタを設定しているが、仮に、最遠で
ない切り出し候補位置から重み付けクラスタを設定した
とすると、後続のストロークを考慮しないで重み付け処
理が行なわれることになり、上述した例で言えば、「c
lo」と入力しても「d」と認識されてしまうおそれが
ある。
【0060】次に、学習処理について、さらに詳しく説
明する。図2(a)に示すようなインクデータ20が入力
した場合、特徴空間30内において、切り出し候補位置
Aまでのデータ及び切り出し候補位置Bまでのデータに
対応する特徴ベクトルが、図12(a)に示されるよう
に、それぞれ、図示×印の点34A及び点34Bのよう
に配置したとする。また、認識辞書21における文字
「d」のクラスタと文字「c」のクラスタとが、それぞ
れ図示□印の点31及び点32のように配置されている
ものとする。点34Aに最も近いクラスタは「c」のク
ラスタであり、点34Bに最も近いクラスタは「d」の
クラスタであるから、これら「c」と「d」とがそれぞ
れ候補文字として選択される。点31と点34Bとの距
離D1が点32と点34Aとの距離D2より長いので、
重み付け処理を行なわない限り、距離D2に対応する
方、すなわち候補文字「c」の方が高い順位となる。図
2は「dip」を入力したものであるから、誤切り出し
となる。
【0061】そこで、図12(b)に示すように、切り出
し候補位置探索範囲W内で遠い方の切り出し候補位置B
に対応するインクデータを重み付けクラスタ33として
設定する。この場合の重み付け対象文字は「c」であ
る。このように重み付けクラスタ33を重み付け辞書2
2に登録したのち、図2(a)に示すのとほぼ同様のイン
クデータが入力したものとすると、図2(a)に示したの
とほぼ同様に、切り出し候補位置が検出される。ここで
もこの切り出し候補位置をA及びBとすると、それらの
切り出し候補位置でのインクデータは、特徴空間30内
で、それぞれ、点35A及び点35Bに配置する。この
場合も点35Aに最も近いクラスタは「c」クラスタで
あり、点35Bに最も近いクラスタは「d」のクラスタ
であるから、これら「c」と「d」とがそれぞれ候補文
字として選択される。そして、点31と点35Bの距離
D3が、点32と点35Aの距離D4よりも長いため、
重み付け処理を行なわなければ、「c」が切り出される
ことになる。しかし、点35Bは、重み付けクラスタ3
3から所定のしきい値rの範囲内にあるため、候補文字
「c」に対して重み付けがなされ、「c」に対する距離
D4に重み付け量δが加算される。その結果、D3<D
4+δとなって、「d」が切り出され、正しい文字切り
出しが行なわれることになる。
【0062】以上、本発明の実施例について、続け字で
手書き文字入力されたラテンアルファベットの文字列を
対象とした場合を例に挙げて説明したが、本発明が対象
とする文字種はこれに限定されるものではなく、キリル
文字やアラビア文字の文字列であって続け字で入力され
たものに対しても本発明は有効である。さらには、入力
方向が縦である続け字の文字列に対しても本発明を適用
することができる。
【0063】
【発明の効果】以上説明したように本発明は、まず切り
出し候補位置を探索し、次に認識辞書と重み付け辞書と
を用いて文字認識を行なって切り出し候補位置の中から
最も適切なものを選ぶ、という2段階で1文字ごとの文
字切り出しと文字認識を実行し、さらに、切り出し候補
位置の探索に際して、インクデータ中の寝ている部分
(横書きの場合)を直立させてからヒストグラム法によ
り切り出し候補位置を探索する、あるいは、インクデー
タから特定パターンに該当する部分を抽出し、抽出され
たインクデータ部分に類似している基準パターン(特定
パターンごとに1あるいは複数定められている)を探索
してその基準パターンに対応して定められている位置を
切り出し候補位置とする、のいずれかの方法を採用する
ことにより、利用者の書き癖によらず、例えば、インク
データ中の各文字が極端に寝ているような場合であって
も、適切な文字切り出しが行なえるようになるという効
果がある。さらに本発明は、重み付けクラスタを重み付
け辞書に設定して切り出されたインクデータがこの重み
付けクラスタに近い場合にはこの重み付けクラスタの対
象文字が文字認識され難くなるように構成することによ
り、利用者の書き癖に応じて重み付けクラスタを重み付
け辞書に登録しておけば、誤切り出しが生じ難くなって
利用者の意図に正確な文字認識を行なうことが可能にな
るという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の手書き文字認識装置の構成
を示すブロック図である。
【図2】(a)は切り出し候補位置探索範囲と切り出し候
補位置を説明する図、(b)は重み付け辞書を説明する図
である。
【図3】文字認識処理の流れを示すフローチャートであ
る。
【図4】(a),(b)は基準線の求め方を説明する図であ
る。
【図5】本発明の方法によりヒストグラム法によって切
り出し候補位置を探索する手順を示すフローチャートで
ある。
【図6】(a)〜(d)は本発明の方法によりヒストグラム法
によって切り出し候補位置を探索する際のインクデータ
の回転を説明する図である。
【図7】本発明の方法により特定パターン抽出法によっ
て切り出し候補位置を探索する手順を示すフローチャー
トである。
【図8】(a)〜(c)はそれぞれ基準パターンを示す図であ
る。
【図9】抽出された特定パターンの一例を示す図であ
る。
【図10】(a),(b)は後処理を説明するための図であ
る。
【図11】学習処理の流れを示すフローチャートであ
る。
【図12】(a)〜(c)は、学習と文字認識との関係を説明
する図である。
【図13】ヒストグラム法を説明する図である。
【符号の説明】
11 入力・表示パネル 12 ペン 13 入力処理部 14 インクデータ格納部 15 文字認識エンジン部 16 認識結果格納部 17 出力処理部 18 辞書更新部 20,20a〜20d インクデータ 21 認識辞書 22 重み付け辞書 23 切り出し用辞書 25U 上側基準線 25L 下側基準線 26 基準パターン 30 特徴空間 33 重み付けクラスタ 101〜109,111〜115,121〜123,13
1〜137 ステップ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 利用者が入力したインクデータから文字
    切り出しを行なって手書き文字認識を行なう手書き文字
    認識方法において、 文字とその文字に対するクラスタを格納した認識辞書
    と、重み付けクラスタとその重み付けクラスタに対する
    対象文字を格納した重み付け辞書とを使用し、 入力された一連のインクデータに対し、手書き文字の入
    力方向に平行な1対の基準線を設定する基準線設定工程
    と、 未切り出しのインクデータに対し、前記未切り出しのイ
    ンクデータの先頭から前記入力方向に沿って所定の長さ
    の候補位置探索範囲を設定する探索範囲設定工程と、 前記候補位置探索範囲内のインクデータに関し、前記1
    対の基準線ではさまれた範囲から一方の基準線側に張り
    出している部分を検出した場合には、前記インクデータ
    上の点であって当該部分の直後にありかつ他方の基準線
    に対応する点を中心として当該部分を含むインクデータ
    部分を回転し、前記1対の基準線ではさまれた範囲から
    前記他方の基準線側に張り出している部分を検出した場
    合には、前記インクデータ上の点であって当該部分の直
    前にありかつ前記一方の基準線に対応する点を中心とし
    て当該部分を含むインクデータ部分を回転し、その後、
    前記入力方向に平行な直線上に前記インクデータを射影
    し、文字切り出しの位置の候補となる切り出し候補位置
    を射影点の数の増減に基づいて決定する候補位置探索工
    程と、 前記候補位置探索工程での回転が行なわれる前のインク
    データを対象とし、前記切り出し候補位置のそれぞれで
    文字切り出しが行なわれたとして前記認識辞書との比較
    ・照合を行ない、前記切り出し位置ごとに当該切り出し
    候補位置に対応する候補文字と対応するクラスタからの
    当該候補文字の距離値とを求める認識工程と、 前記重み付け辞書を探索し、前記切り出し候補位置ごと
    のインクデータの中に重み付けクラスタに近いものがあ
    り、かつ、当該重み付けクラスタの対象文字が探索され
    た候補文字のいずれかと一致する場合には、一致した候
    補文字の距離値に重み付けを行なう重み付け工程と、 前記重み付け工程で重み付けが行なわれた後の距離値の
    大小に応じて候補文字の中から認識文字を決定する決定
    工程と、を有することを特徴とする手書き文字認識方
    法。
  2. 【請求項2】 前記候補位置探索工程において、前記イ
    ンクデータから特徴点を抽出し、前記入力方向に垂直な
    直線上に前記特徴点を射影し、射影点の分布に応じてグ
    ループ分けを行ない、各グループでの射影点の平均位置
    に応じて前記1対の基準線の位置が定められる請求項1
    に記載の手書き文字認識方法。
  3. 【請求項3】 利用者が入力したインクデータから文字
    切り出しを行なって手書き文字認識を行なう手書き文字
    認識方法において、 文字とその文字に対するクラスタを格納した認識辞書
    と、重み付けクラスタとその重み付けクラスタに対する
    対象文字を格納した重み付け辞書と、予め定められた特
    定パターンごとに当該特定パターンに属する1または複
    数の基準パターンとその基準パターンごとの切り出し位
    置パラメータとを格納する切り出し用辞書とを使用し、 未切り出しのインクデータに対し、前記未切り出しのイ
    ンクデータの先頭から手書き文字の入力方向に沿って所
    定の長さの候補位置探索範囲を設定する探索範囲設定工
    程と、 前記特定パターンに該当する部分を前記候補位置探索範
    囲内のインクデータから抽出し、抽出された部分と類似
    する前記基準パターンを前記切り出し用辞書の中から探
    索し、文字切り出しの位置の候補となる切り出し候補位
    置を探索された基準パターンに対応する切り出し位置パ
    ラメータによって決定する候補位置探索工程と、 前記切り出し候補位置のそれぞれで文字切り出しが行な
    われたとして前記認識辞書との比較・照合を行ない、前
    記切り出し位置ごとに当該切り出し候補位置に対応する
    候補文字と対応するクラスタからの当該候補文字の距離
    値とを求める認識工程と、 前記重み付け辞書を探索し、前記切り出し候補位置ごと
    のインクデータの中に重み付けクラスに近いものがあ
    り、かつ、当該重み付けクラスタの対象文字が探索され
    た候補文字のいずれかと一致する場合には、一致した候
    補文字の距離値に重み付けを行なう重み付け工程と、 前記重み付け工程で重み付けが行なわれた後の距離値の
    大小に応じて候補文字の中から認識文字を決定する決定
    工程と、を有することを特徴とする手書き文字認識方
    法。
  4. 【請求項4】 利用者が入力したインクデータから文字
    切り出しを行なって手書き文字認識を行なう手書き文字
    認識装置において、 インクデータを入力する入力手段と、 インクデータを格納するインクデータ格納手段と、 文字とその文字に対するクラスタを格納した認識辞書
    と、 重み付けクラスタとその重み付けクラスタに対する対象
    文字を格納した重み付け辞書と、 前記インクデータ格納手段中のインクデータに対し手書
    き文字の入力方向に平行な1対の基準線を設定し、未切
    り出しのインクデータに対し、前記未切り出しのインク
    データの先頭から前記入力方向に沿って所定の長さの候
    補位置探索範囲を設定し、前記候補位置探索範囲内のイ
    ンクデータに関し、前記1対の基準線ではさまれた範囲
    から一方の基準線側に張り出している部分を検出した場
    合には、前記インクデータ上の点であって当該部分の直
    後にありかつ他方の基準線に対応する点を中心として当
    該部分を含むインクデータ部分を回転し、前記1対の基
    準線ではさまれた範囲から前記他方の基準線側に張り出
    している部分を検出した場合には、前記インクデータ上
    の点であって当該部分の直前にありかつ前記一方の基準
    線に対応する点を中心として当該部分を含むインクデー
    タ部分を回転し、その後、前記入力方向に平行な直線上
    に前記インクデータを射影し、文字切り出しの位置の候
    補となる切り出し候補位置を射影点の数の増減に基づい
    て決定し、前記各インクデータ部分の回転が行なわれる
    前のインクデータに対して前記切り出し候補位置のそれ
    ぞれで文字切り出しが行なわれたとして前記認識辞書と
    の比較・照合を行ない、前記切り出し位置ごとに当該切
    り出し候補位置に対応する候補文字と対応するクラスタ
    からの当該候補文字の距離値とを求め、前記重み付け辞
    書を探索し、前記切り出し候補位置ごとのインクデータ
    の中に重み付けクラスタに近いものがあり、かつ、当該
    重み付けクラスタの対象文字が探索された候補文字のい
    ずれかと一致する場合には、一致した候補文字の距離値
    に重み付けを行ない、そののち、距離値の大小に応じて
    候補文字の中から認識文字を決定する文字認識手段とを
    有することを特徴とする手書き文字認識装置。
  5. 【請求項5】 利用者が入力したインクデータから文字
    切り出しを行なって手書き文字認識を行なう手書き文字
    認識装置において、 インクデータを入力する入力手段と、 インクデータを格納するインクデータ格納手段と、 文字とその文字に対するクラスタを格納した認識辞書
    と、 予め定められた特定パターンごとに当該特定パターンに
    属する1または複数の基準パターンとその基準パターン
    ごとの切り出し位置パラメータとを格納する切り出し用
    辞書と、 前記インクデータ格納手段中の未切り出しのインクデー
    タに対し、前記未切り出しのインクデータの先頭から手
    書き文字の入力方向に沿って所定の長さの候補位置探索
    範囲を設定し、前記特定パターンに該当する部分を前記
    候補位置探索範囲内のインクデータから抽出し、抽出さ
    れた部分と類似する前記基準パターンを前記切り出し用
    辞書の中から探索し、文字切り出しの位置の候補となる
    切り出し候補位置を探索された基準パターンに対応する
    切り出し位置パラメータによって決定し、前記切り出し
    候補位置のそれぞれで文字切り出しが行なわれたとして
    前記認識辞書との比較・照合を行ない、前記切り出し位
    置ごとに当該切り出し候補位置に対応する候補文字と対
    応するクラスタからの当該候補文字の距離値とを求め、
    前記重み付け辞書を探索し、前記切り出し候補位置ごと
    のインクデータの中に重み付けクラスタに近いものがあ
    り、かつ、当該重み付けクラスタの対象文字が探索され
    た候補文字のいずれかと一致する場合には、一致した候
    補文字の距離値に重み付けを行ない、そののち、距離値
    の大小に応じて前記候補文字の中から認識文字を決定す
    る文字認識手段と、を有することを特徴とする手書き文
    字認識装置。
JP15183195A 1995-06-19 1995-06-19 手書き文字認識方法及びその装置 Expired - Fee Related JP3720873B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15183195A JP3720873B2 (ja) 1995-06-19 1995-06-19 手書き文字認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15183195A JP3720873B2 (ja) 1995-06-19 1995-06-19 手書き文字認識方法及びその装置

Publications (2)

Publication Number Publication Date
JPH096920A true JPH096920A (ja) 1997-01-10
JP3720873B2 JP3720873B2 (ja) 2005-11-30

Family

ID=15527269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15183195A Expired - Fee Related JP3720873B2 (ja) 1995-06-19 1995-06-19 手書き文字認識方法及びその装置

Country Status (1)

Country Link
JP (1) JP3720873B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084105A (ja) * 2006-09-28 2008-04-10 Oki Electric Ind Co Ltd 文字切出方法及び文字認識装置
JP2013125281A (ja) * 2011-12-13 2013-06-24 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US11797551B2 (en) 2019-02-14 2023-10-24 Resonac Corporation Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084105A (ja) * 2006-09-28 2008-04-10 Oki Electric Ind Co Ltd 文字切出方法及び文字認識装置
JP2013125281A (ja) * 2011-12-13 2013-06-24 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US11797551B2 (en) 2019-02-14 2023-10-24 Resonac Corporation Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method

Also Published As

Publication number Publication date
JP3720873B2 (ja) 2005-11-30

Similar Documents

Publication Publication Date Title
Fiel et al. Writer identification and retrieval using a convolutional neural network
US5467407A (en) Method and apparatus for recognizing cursive writing from sequential input information
US5454046A (en) Universal symbolic handwriting recognition system
JP3452774B2 (ja) 文字認識方法
EP1564675B1 (en) Apparatus and method for searching for digital ink query
Kavallieratou et al. An unconstrained handwriting recognition system
US20060239560A1 (en) Recognition graph
JPH076204A (ja) 手書き文字認識システムにおけるライン・スペース及びベース・ラインの調整方法
KR19990022352A (ko) 필기 입력의 문자 인식 방법 및 장치
JPH0684006A (ja) オンライン手書き文字認識方法
KR20050036862A (ko) 문자 식별
JP2730665B2 (ja) 文字認識装置および方法
JP2000315247A (ja) 文字認識装置
Singh et al. Online handwritten Gurmukhi words recognition: An inclusive study
JP3675511B2 (ja) 手書き文字認識方法及び装置
JPH096920A (ja) 手書き文字認識方法及びその装置
JPH0610829B2 (ja) 手書き文字認識方法
JPH08263587A (ja) 文書入力方法および文書入力装置
JP3720876B2 (ja) 手書き文字認識学習方法及び手書き文字認識装置
KR940007345B1 (ko) 온라인 한글 필기체 문자의 인식방법
JPH06266899A (ja) 手書き入力システム
JPS6111891A (ja) 手書き文字図形認識装置
JP3128357B2 (ja) 文字認識処理装置
JP3075808B2 (ja) 文書処理装置
JPH07271921A (ja) 文字認識装置および文字認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050617

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050909

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees