JPH07262314A - 手書き文字切り出し回路 - Google Patents

手書き文字切り出し回路

Info

Publication number
JPH07262314A
JPH07262314A JP4935194A JP4935194A JPH07262314A JP H07262314 A JPH07262314 A JP H07262314A JP 4935194 A JP4935194 A JP 4935194A JP 4935194 A JP4935194 A JP 4935194A JP H07262314 A JPH07262314 A JP H07262314A
Authority
JP
Japan
Prior art keywords
character
voiced
semi
dakuten
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4935194A
Other languages
English (en)
Other versions
JP3344062B2 (ja
Inventor
Yoshinobu Hotsuta
悦伸 堀田
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4935194A priority Critical patent/JP3344062B2/ja
Publication of JPH07262314A publication Critical patent/JPH07262314A/ja
Application granted granted Critical
Publication of JP3344062B2 publication Critical patent/JP3344062B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【目的】 本発明は、手書き文字切り出し回路に関し、
処理時間を短くして、正確に文字の切り出しを行う。 【構成】 手書き文字、特に、カナ文字の切り出しを難
しくしている濁点, 半濁点候補を、最初に抽出する際、
「シ」「ツ」「ウ」の抽出を行い、残った濁点,半濁点
候補にフラグを付けて一時的に除去した上で、上記切り
出した文字パターンの平均文字サイズを基に、ストロー
ク外接矩形の矩形間距離の近いもの同士の近傍統合を行
い、横方向に分離した文字である「ハ」「ル」の抽出を
行い、上記平均文字サイズより小さく、文字列の上方に
位置する小ストロークがあると、それを抽出して、右の
ストロークと統合し、該文字列の下方に位置する小スト
ロークについては、その方向性, 左右のストロークとの
位置関係をもとに、統合処理を行い、最後に、文字列中
の文字の並びを見て、サイズ, ピッチの変動が少なくな
るように小ストロークの統合を行い、上記除去しておい
た濁点, 半濁点の統合を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、手書き文字認識装置に
おける手書き文字切り出し回路に関する。近年、手書き
用の入力周辺機器として、手書き文字認識装置OCRの
需要が増加している。
【0002】該手書き文字認識装置において、個々の文
字の高い認識率を実現する為には、認識の前段階である
手書き文字の切り出し処理が、その正確さの点で重要に
なる。
【0003】これまで、帳票等において指定した位置に
文字が正しく書かれたものに対しては、高い精度で認識
することができた。然し、文字枠のないフリーピッチ領
域に書かれた文字や、指定文字枠に接触したり,大きく
はみ出した文字に対しては、1文字ずつ正確に切り出す
技術がなかったために、認識率が低下する問題が生じて
いた。
【0004】従って、該フリーピッチ領域におけるカナ
文字のセグメンテーション,数字のセグメンテーション
手法の改善が必要となる。又、指定文字枠と入力文字列
の重なり度の評価法が必要となる。
【0005】尚、これらの技術は、上記手書き用文字認
識装置だけでなく、印刷文字認識装置,図面認識におけ
る文字の切り出し等、広い意味での手書き文字の切り出
し技術にも関係する。
【0006】
【従来の技術】図13〜図14は、従来の手書き文字の
切り出し回路を説明する図であって、図13は、全体の
構成例を示し、図14は、従来の文字切り出し方法を概
念的に示した図である。
【0007】従来の文字切り出し方法としては、特開平
04−098477号公報「文字の切り出し方法」に開
示されている方法{図13(a) 参照}、例えば、文字の
統合,切り出しを行う際、図14(a) に示されているよ
うに、文字列に対して縦方向の投影をとり、その白画
素, 黒画素の間隔を基に、統合を行う方法がある。
【0008】又、文字列に対して求めた平均サイズと,
平均ピッチから文字間ピッチの分散が最小となるよう
に、切り出し間隔の分散最小評価基準に基づく動的計画
法により、統計的に文字の切り出しを行う手法として、
「 "分散最小基準に基づく適応型文字分離方式",辻善
丈, 浅井紘, 電子通信学会論文誌,'85/8VOL.J68-D,No.
8」がある。
【0009】又、文字の切り出しが可能な組み合わせに
対して、それぞれ、認識処理を施し、その結果、最も認
識における評価値が高いものを選択する手法として、
「 "走書き文字列認識における文字切り出しの個人適応
化",村瀬洋, 電子情報通信学会論文誌、D-II,VOL.J72-D
-II,No.1,pp132-139,1989 年1月」がある。この手法
{図13(b) 暫定切り出し部, 切り出し候補設定部, 認
識処理を用いた切り出し評価部を参照}は、文字の切り
出し位置の可能性を重み付きグラフで表現した後、その
グラフの探索により、認識率の良い切り出し位置を最終
決定する候補ラティス法{図14(c) 参照}に基づいた
ものである。
【0010】又、数字の切り出し方法については、例え
ば、本願出願人が先願している、特願平05-140428 号
「文字の切り出し方法及びその装置」があり、この手法
では、ラベリング処理で別のラベルを持つ分離文字から
生じる分離ストロークの角度と、それを統合したときの
サイズを評価して、数字の切り出しを行う方法である。
【0011】上記数字の切り出し手法では、後述の図7
(a1),(a2) に示されているようにして、上記数字の切り
出しが行われると、字種データ格納部(0) に、該切り出
し文字が数字であることを指示するフィールド情報と、
該数字の文字枠の座標を指示するフィールド情報が格納
される。従って、以降での文字切り出し手法では、上記
字種データ格納部(0) の数字であることを示すフィール
ド情報に基づいて、数字に固有な統合処理が行われる。
【0012】
【発明が解決しようとする課題】前述のフリーピッチ領
域に書かれる文字列の中には、文字同士が近接して書か
れる場合が存在する。そのような場合、前述の投影を使
用する方法や、単に、文字列の統計的情報だけを使って
文字の統合/分離をしていく方法では、図14(a) に示
されているように、例えば、ある文字の分離ストローク
が、隣のストロークと間違って統合される場合があっ
た。
【0013】又、図14(c) に示されているように、統
合可能な候補ラティスの組み合わせの距離値を計算し
て、認識評価していく方法では、文字の正確な切り出し
は可能であるが、各組み合わせについての複数回の認識
処理が必要となり処理時間がかかるため、文字切り出し
処理の高速性の点で問題があった。
【0014】又、上記分離ストロークに着目した数字の
切り出し方法では、統合先のストロークの特徴を見てい
なかった為、上記図7(a1) に示されているように、
「7」として統合すべき分離ストロークを、右側の数字
「1」に誤って統合してしまうという問題があった。
【0015】本発明は上記従来の欠点に鑑み、手書き文
字切り出し回路において、処理時間を短くして、正確に
文字の切り出しを行うことができる手書き文字の切り出
し回路を提供することを目的とするものである。
【0016】
【課題を解決するための手段】図1,図2は、本発明の
原理構成図であり、図3〜図9は、本発明の原理説明図
である。上記の問題点は下記の如くに構成した手書き文
字の切り出し回路によって解決される。
【0017】手書き文字の切り出し回路であって、前処
理部 0で、通常の文字か、数字かを判別すると共に、1
文字列中の字数が少ない場合と、1文字列中の字数が多
い場合とに場合分けして、ラベリング処理(1a,1b) 1,外
接矩形仮統合部(2a,2b) 2,平均文字サイズ算出部(3a,3
b) 3 に入り、ラベリング処理 1で求めた連結情報を基
づいて、部分パターンに外接する矩形を抽出し、該抽出
された矩形に対して、暫定的に近傍の矩形同士を、その
矩形統合が正方性を保つ範囲で仮統合する、外接矩形仮
統合手段 2と、上記統合された各矩形に対して、平均文
字サイズを算出する平均文字サイズ算出手段 3と、上記
算出した平均文字サイズと、所定の方法で求めた文字列
軸を基に、該文字列軸の上方に位置する小矩形を抽出す
る小矩形抽出手段 4と、該抽出した小矩形が隣接して2
つ存在する場合に、それを濁点候補として抽出し、該抽
出された濁点候補に対して、上記隣接している2つの小
矩形の並び方を複数通り、例えば、6通りに分類する濁
点抽出手段 5,5a と、上記抽出された小矩形の中から線
密度情報を基に、続け字濁点,半濁点を抽出する続け字
濁点・半濁点抽出手段 6と、小矩形以外のものから位
置, サイズ, 線密度情報を基に、サイズの大きい半濁点
の候補を抽出する半濁点抽出手段 8と、該半濁点とされ
たものに対し、その全体に対する空白領域の占める割合
いによって半濁点らしさを評価する手段 11 と、上記濁
点候補抽出手段 5によって、濁点候補と判定されたも
のに対して、その右に位置するストロークの形状を判定
し、該濁点候補が「シ」「ツ」「ウ」の部分パターンか
どうか判定し、上記「シ」「ツ」「ウ」を抽出する手段
9,10 と、上記濁点候補の内、上記濁点抽出手段 5,5a
で分類された所定の小矩形の並び方のものを濁点と判定
し、以後の文字切り出し処理において、一時的に除外
し、同様に、上記半濁点らしさを評価する手段 11 によ
って、半濁点らしさの程度の高いものを、例えば、フラ
グを付加して一時的に除外する濁点・半濁点一時的除去
手段 12 と、上記平均文字サイズをもとに、近傍の外接
矩形同士を統合する近傍統合手段 13 と、上記部分パタ
ーンの内の右上がりのストローク線分を抽出したのち、
その右に位置するパターンに対して線密度判定から、そ
れらの2つストロークが「ル」「ハ」かどうかを判定す
る「ル」「ハ」の抽出手段 14 と、上記の各処理におい
て、未統合の小ストロークに対して、その外形矩形の位
置, 縦横比, 方向性情報を基に、その左右に位置するス
トロークに統合する小ストローク統合手段 15 と、文字
の並びの直線性, 矩形サイズの変動パターンを基に、未
統合のストロークを統合していく小ストローク統合手段
16 と、上記一時的除外手段 12 で除外されている、フ
ラグの付加されている濁点, 半濁点を統合する手段 17
とを備えるように構成する。
【0018】つまり、最初に、手書き文字、特に、カナ
文字の切り出しを難しくしている濁点, 半濁点の候補
を、最初に抽出し、その際、「シ」「ツ」「ウ」などか
ら、その部分パターンが濁点と間違って抽出されないよ
うに、該「シ」「ツ」「ウ」の抽出を行い、ここで、以
降での文字の切り出しを容易にする為、濁点, 半濁点と
識別されたものに対して、フラグを付けて一時的に除去
した上で、カナの分離文字を統合するため、該分離文字
の平均文字サイズを基に、ストローク外接矩形の矩形間
距離の近いもの同士の近傍統合を行い、横方向に分離し
た文字である「ハ」「ル」の抽出処理を行い、この段階
で、上記平均文字サイズより小さく、文字列の上方に位
置する小ストロークがあると、それを抽出して、右のス
トロークと統合し、該文字列の下方に位置するストロー
クについては、その方向性, 左右のストロークとの位置
関係をもとに、統合処理を行い、最後に、文字列中の文
字の並びを見て、サイズ, ピッチの変動が少なくなるよ
うに小ストロークの統合を行い、上記フラグを付加して
除去しておいた濁点, 半濁点の統合を行うように構成す
る。
【0019】
【作用】以下、図1, 図2を参照しながら、図3〜図9
によって、本発明の手書き文字切り出し回路の作用,動
作を説明する。
【0020】本発明の対象となる文字パターンは、極端
な傾きや回転の補正を行い、雑音の除去を行い、かすれ
文字については、かすれの穴埋め等の前処理後の2値画
像である。又、文字同士のオーバーハングはあっても文
字同士の重なり,接触,続け字はないものとする。
【0021】先ず、個々のストロークを区別するため、
ラベリング 1では、8連結で繋がっているパターンをラ
ベリング処理によりにより抽出する。具体的には、8連
結のウインドウパターンで文字パターンを走査して、該
ウインドウパターンで走査できた画素に、所定の論理に
基づいて、同じラベルを与える。このとき、該ラベリン
グで得られた部分パターンのサイズが後で問題となるの
で、該部分パターンの最小隣接矩形の座標抽出(左上と
右下)も、上記ラベリング処理で同時に求めておく。
【0022】上記ラベリング処理の詳細については、
「“画像処理の基本技法(技術入門編)(Image Processi
ng on Personal Computer)",第1部画像処理の基礎,第
3章画像処理の基本アルゴリズム,ii)連結成分処理,
ラベリング, 長谷川純一, 興水大和, 中山晶, 横中茂樹
著, 技術評論社, 昭和61年8月10日刊」に詳しい。
【0023】上記カナの切り出しにおいて、濁点,半濁
点は、それ自体一文字とならず、又、他の文字にオーバ
ーハングして書かれたりするため、文字の切り出しの際
に問題となる。そこで、先ず、文字列の中から、濁点,
半濁点を抽出するようにする。該濁点,半濁点の抽出に
は、平均文字サイズと位置を用いる。以下、図3〜図9
によって各処理について、その作用動作を説明する。
【0024】(1) 外接矩形仮統合と平均文字サイズ算
出:始めは、1文字ずつが切り出されていないので、厳
密には、正確な平均文字サイズを求めることができな
い。そこで、本発明においては、図3(a) に示されてい
るように、目安として、図1に示した外接矩形仮統合手
段 2で、暫定的に平均文字サイズを算出する。そのため
に、上記ラベリング 1で得られた各外接矩形について、
近接するもの同士を仮統合していく。このときの統合基
準としては、各矩形を統合したときの縦横比Pが、N(=
0.8)<P<M(=1.2)を満たす場合とする。該仮統合処理
の後、平均文字サイズ算出手段 2において、各矩形に対
して、平均文字サイズを算出する。該平均文字サイズ
は、例えば、上記各矩形のサイズ別の頻度ヒストグラム
をとって求めるようにしても良い。
【0025】本発明においては、文字列の大体の平均サ
イズを求めるのに、上記統合矩形の縦横比Pだけを、矩
形仮統合の基準としているので、高速な統合処理が可能
となる。{請求項1,2に記載の発明に対応} (2) 小矩形抽出:図3(b) は、小矩形抽出の原理を示し
ている。先ず、本願出願人が先願している前述の特開平
05-140428 号「文字の切り出し方法及びその装置」で開
示している重み付け投影により、図1の小矩形抽出手段
4において、文字列軸を求め、該文字列軸と、上記平均
文字サイズとから、濁点, 半濁点の候補となる小矩形を
抽出する。具体的には、文字列軸の上方に位置し、平均
サイズに対するサイズ比が、ある閾値、例えば、上記平
均文字サイズの 1/4程度以下になるものを小矩形として
抽出する。
【0026】従って、矩形の位置,サイズ情報ともに、
予め、設定した固定の値を用いるのではなく、文字列の
位置やサイズの変動に応じて計算した平均文字サイズ,
文字列軸を用いるので、より正確な小矩形の抽出が可能
となる。{請求項1,3に記載の発明に対応} (3) 濁点, 半濁点抽出:図3(c) は、濁点, 半濁点抽出
手段の原理を示している。上記小矩形手段 4で抽出した
小矩形が2つ隣接する場合、それらを統合したサイズ
の、上記平均文字サイズに対する比が、ある閾値、例え
ば、1/4 以下であると、上記図1の濁点候補抽出手段 5
で、濁点候補として抽出する。更に、該小矩形が1つだ
け存在するときは、それが続け字濁点,半濁点かどうか
を、続け字濁点・半濁点抽出手段 6で、縦横方向の線密
度, 又は、輪郭線の特徴を基に識別する。
【0027】具体的には、縦方向の線密度≧2,又は、
横方向の線密度≧2のものを、続け字,或いは、半濁点
として抽出する。又、上記輪郭線の特徴を見るのに、該
濁点, 半濁点候補の文字パターンの輪郭線を、例えば、
該文字パターン上の微分線の角度を縦軸に、その位置を
横軸にプロットして、その輪郭線の特徴を見ることによ
り、続け字濁点, 半濁点を識別する。尚、ここで、線密
度は、黒画素を横切る回数を言う。
【0028】つまり、濁点としてのまとまりを一度に抽
出するのではなく、個々の小矩形を抽出した上で、その
まとまりを濁点候補とすることで,サイズ的に大きく、
比較的に離れた位置に書かれた濁点なども、正確に抽出
することができる。又、線密度処理だけで、続け字濁
点, 半濁点を識別するため、高速な識別が可能となる。
更に、ストロークの輪郭線をもとに、該続け字濁点, 半
濁点を識別するため、正確な識別が可能となる。又、半
濁点抽出手段 6を、濁点候補抽出手段 5とは別に設ける
ことで、濁点に比べ、大きく書かれやすい半濁点を正確
に抽出することができるようになる。{請求項3,4,
6,7に記載の発明に対応} (4) 濁点候補の配置分類:図4(a1)は、濁点候補の配置
分類の例〜を示している。上記濁点候補抽出手段 5
で濁点候補とされたものの中には、濁点以外に、他の文
字の部分パターン(分離ストローク) も含まれている。
そこで、本発明では、濁点と、それ以外の分離ストロー
クとを判別する際の目安として、濁点を、その2点の位
置関係より、図4(a1)に示したように、例えば、分類番
号〜で示した6通りに分類する。
【0029】図4(a2)に示した文字列の例では、各濁点
は、左から順に、上記の分類パターンでは、それぞれ、
,,,の分類番号に対応する。一般に、濁点候
補の中には、「ツ」「シ」などの部分パターンを含まれ
ているので、上記のように、濁点の配置を判定すること
で、その識別がより容易となる効果がある。{請求項
4,5に記載の発明に対応} (5) 半濁点抽出:図4(b),(c2)は、半濁点の抽出例の原
理を示している。上記濁点候補抽出手段5で抽出された
濁点に比較して、半濁点は、一般的に大きめに書かれて
いることが多い。そのため、前記の小矩形抽出手段 4で
抽出されない、半濁点が存在することになる。そこで、
本発明では、半濁点抽出手段 8において、サイズが上記
小矩形より大きく、文字平均サイズより小さいものに対
して、その位置, 線密度を算出し、半濁点かどうかを判
別する。
【0030】具体的には、そのサイズが、文字平均サイ
ズの 2/3以下のものを抽出し、縦方向, 横方向の線密度
≧2であって、上記文字列軸より上に存在する文字パタ
ーンを半濁点とする。
【0031】上記の処理では、主として、線密度の処理
だけで、続け字濁点, 半濁点を識別するため、高速な識
別が可能である。{請求項3,6に記載の発明に対応} (6) 半濁点らしさの評価:図4(c1)〜(c3)は、半濁点ら
しさの評価の原理を説明したものである。即ち、上記半
濁点抽出手段 6,8で、半濁点として抽出されたものの中
で、くずれ字の半濁点と文字の部分パターンで丸みのも
つものとの区別がつけ難い。そこで、本発明では、半濁
点らしさ評価手段 11 を設け、そこで、外接矩形領域の
全体に占める空白領域の割合に応じて、半濁点らしさの
度合いを、以下の方法で評価する。即ち、該部分パター
ンに対して、縦方向, 横方向の線密度を算出し、 { (縦線密度が2以上の部分:a)/(外接矩形の縦長
さ:w)}×{ (横線密度が2以上の部分:b)/(外
接矩形の横長さ:h)}の値 を求め、この値が“1”に近いとき、半濁点とし、この
値が“0”に近いとき、例えば、図4(c2)に示されてい
る続け字濁点のように、縦の線密度=1のときには、上
記評価値が“0”となることから、このような場合に
は、半濁点としないようにしたものである。
【0032】従って、矩形全体に占める空白領域の割合
を評価することにより、半濁点と、それ以外のただ丸く
いるだけのストローク, 或いは、続け字濁点とを正確に
識別することができるようになる。{請求項3,6,
7,8,9に記載の発明に対応} (7) 「ウ」の抽出:図5(a) は「ウ」を抽出する原理を
示した図である。
【0033】上記濁点候補抽出手段 5等で抽出した濁点
候補に含まれる「ウ」の部分パターンを抽出する為に、
本発明においては、上記濁点候補の中で、上記図4(a1)
で示した濁点候補分類パターンの内、,,,に
分類されるものについて、その右に位置するストローク
の線密度を算出する。該算出した線密度が (縦方向,横
方向) =(2,1) となれば、それらの濁点候補を「ウ」の
部分パターンとして抽出する。該線密度が (縦方向, 横
方向) =(1,1) であると、「ツ」「シ」の部分パターン
の候補とする。
【0034】このように、濁点候補の右に位置するスト
ロークを調べることで、その中に含まれる「ウ」の部分
パターンを抽出することができ、より正確な切り出しが
可能となり、更に、線密度, 角度を用いて、該右のスト
ロークを調べることで、より高速な処理が可能となる。
{請求項4,10に記載の発明に対応} (8) 「シ」「ツ」の抽出:図5(b) は、「シ」「ツ」を
抽出する原理を示した図である。
【0035】上記濁点候補抽出手段 5等で抽出した濁点
候補に含まれる「シ」「ツ」の部分パターンを抽出する
ため、本発明においては、その右に位置するストローク
の線密度を調べ、該線密度が (縦方向, 横方向) =(1,
1) となった、「ツ」「シ」の右側の直線性を持つスト
ロークについて、更に、その角度を調べ、角度が、例え
ば、40度を持つ右上がりであれば、「シ」「ツ」として
抽出する。
【0036】このように、濁点候補の右に位置するスト
ロークを調べることで、その中に含まれる「シ」「ツ」
の部分パターンを抽出することができ、より正確な切り
出しが可能である。又、線密度, 角度を用いて、該右の
ストロークを調べることで、より高速な処理が可能とな
る。{請求項4,11に記載の発明に対応} (9) 濁点の一時的除去処理:上記濁点候補抽出手段 5で
分類された濁点候補の中で、上記「ウ」抽出手段 9,
「シ」「ツ」抽出手段 10 で、「ウ」「シ」「ツ」に統
合されなかったものに対して、分類番号,,,
に分類されるものを濁点と判定したもの、又、上記半濁
点抽出手段 6,8で、半濁点候補とされたものに対して、
上記半濁点らしさ評価手段 11 で、半濁点らしさの度合
いの大きいものに対して、以後の文字切り出し処理での
文字切り出しを容易にする為に、濁点, 半濁点の一時的
除去手段12 において、所定のフラグを付加して、一時
的に除去する。
【0037】このように、濁点, 半濁点をを一時的に除
去することにより、サイズやピッチの計算を行う際に、
より正確な値を求めることが可能となる。又、濁点, 半
濁点は隣の文字に統合され易いので、上記のように、一
時的に除去しておくことで、より正確な文字の切り出し
が可能となる。{請求項13,14に記載の発明に対
応} (10)近傍統合:図5(c1),(c2) は、近傍統合の原理を示
した図である。上記濁点候補抽出手段5で抽出され、分
類番号,に分類されたものを除き、各外接矩形間の
距離の近いもの同士を統合する。このときの距離として
は、外接矩形の中心間の水平方向の距離を考える。それ
らを統合したとき、統合後のサイズが、サイズ平均,ピ
ッチ平均, ピッチ分散から定まるサイズの上限を越えな
ければ、それらを統合する。
【0038】具体的には、図5(c2)に示されているよう
に、濁点候補の小矩形の中心と、右のストロークの外接
矩形の中心との距離をaとし、該小矩形と外接矩形とを
統合したときのサイズをbとし、平均文字サイズをcと
し、上記統合後のサイズが、サイズ平均, ピッチ平均,
ピッチ分散から定まるサイズの上限をdとしたとき、a
<c/2,b<dの条件を満たすものを近傍統合する。
ここで、上記dとして、例えば、d=(サイズ平均/
2)+ピッチ平均より求めるようにする。
【0039】カナ文字の場合、分離文字が多いので、上
記の如き統合処理は不可欠であるが、矩形間の距離の近
いもの同士を統合しておくことで、より高速な文字切り
出しが可能となる。
【0040】(11) 「ル」「ハ」の抽出:図6(a1),(a
2) は、「ル」「ハ」の抽出原理を示した図である。先
ず、近傍統合された文字列について、右上がりの直線分
(ストローク) をサイズ, 線密度情報, 角度を使用して
抽出する。次に、その右に位置するストロークに対し
て、複数方向線密度を調べる。その結果、複数方向線密
度=2であると、それらの文字パターンを「ル」「ハ」
として抽出する。
【0041】「ル」とされたものについては、2つのス
トロークの間隔,統合サイズと、平均文字サイズとの比
から、それが「ル」であるのか「ノ」+「レ」であるか
を、以下の評価式で評価する。即ち、図6(a2)に示され
ているように、左側のストロークと右側のストロークと
の間の距離をaとし、両ストローク間の最大幅をbと
し、上記平均文字サイズをcとして、R=α(a/b)
+β(b/c),但し、α,βはパラメータを算出し、
Rの値が小さいときには「ル」とし、該Rの値が大きい
ときには「ノ」+「レ」であると判定する。
【0042】このように、横方向に分離した文字に対す
る統合処理を入れておくことにより、正確な文字切り出
しが可能になる。又、「ル」「ハ」を同一の方法で処理
するため、高速な文字の切り出しが可能となる。
【0043】又、ストロークの分離した分離文字である
か、又は、2つの独立した文字であるかを一意に決定す
るのではなく、前述の評価式によって確率的に評価する
ことで、仮に、初めの決定が間違っていたとしても、も
う一方を考えることで、より正確な切り出しが可能とな
る。{請求項1,15,16に記載の発明に対応} (12)小ストローク統合:図6(b1),(b2) は、小ストロー
クの統合方法の原理を示した図である。
【0044】一般に、カナ文字においては、文字列軸の
上方にある分離ストロークは、その大半が、右の文字か
ら分離したものである。そこで、本発明においては、こ
こまでの文字切り出し処理で未統合の分離ストローク
で、文字列軸の上方にあるものを、位置・方向性による
小ストローク統合手段 15 で、その位置, 方向性, 外接
矩形の縦横比と、平均文字サイズを基に、その右のスト
ロークに統合する。図6(b1)では、上記小矩形抽出→近
傍統合→小ストローク統合(1) の処理方法を示してい
る。このようにして、例えば、「ワ」「ン」の分離スト
ロークを統合することができる。この小ストローク統合
(1) の方法では、小ストロークの右側に位置するストロ
ークの形状特徴だけに着目した統合処理であるため、高
速な統合が可能である。
【0045】上記までの統合処理で、未だ統合されてい
ない小ストロークが、例えば、図6(b2)に示したように
存在している場合、文字並び・サイズ妥当性による小ス
トローク統合手段 16 において、小ストロークの文字列
軸の下方にあること、文字並びの直線性, サイズの妥当
性をもとに、未統合の小ストロークを図示されているよ
うに、その左, 又は、右のストロークに統合する。図6
(b2)の例では、右側の小ストロークに統合し、「ッ」を
得た例である。
【0046】この小ストローク統合(2) の方法では、文
字列の全体の並びや, サイズの妥当性に着目すること
で、上記のような、ストロークの形状特徴や、その近傍
のストロークの特徴に着目するだけでは、統合できなか
ったストロークを正確に統合することができる。{請求
項3,17,18に記載の発明に対応} (13)濁点, 半濁点の統合:図6(c) は、濁点, 半濁点の
統合原理を示した図である。上記(9) で、フラグを付加
して、一時的に除外しておいた濁点, 半濁点を、濁点,
半濁点統合手段 17 において、左に位置するストローク
に統合する。
【0047】このように、濁点, 半濁点の統合を、上記
の全ての統合処理の最後に行うことで、該濁点, 半濁点
の間違った統合を防ぎ、正確な文字切り出しが可能とな
る。{請求項13,14,19に記載の発明に対応} (14)「5」統合方法:図7(a1),(a2) は、数字の「5」
を切り出す方法の原理を示した図である。文字が数字で
あるか否かは、前述の前処理 0での字種データ記憶部 0
2 で、フィールド情報で、数字であることが示されてい
るので、そのフィールド情報を参照して数字であること
を認識して処理する以外、文字切り出しの全体的な方法
は、通常の文字と同じである。
【0048】本願出願人が先願している、前述の特開平
05-140428 号公報「文字切り出し方法及び装置」で開示
している数字の切り出し方法においては、図7(a1)に示
されているように、分離ストロークを「5」として統合
する際、分離ストロークの角度と、該分離ストロークを
統合したときのサイズを評価するだけで、統合した左側
のストロークの特徴を見ていなかった。従って、図示さ
れている如くに、「67」「17」の文字列が正確に統合で
きていないことがあった。
【0049】そこで、本発明においては、上記の如き統
合ミスの内、特に、頻度が高いのは「1」「6」が左に
ある場合であることに着目し、「1」「6」の左側のス
トロークの輪郭線が、両者とも、左側に凸になってお
り、「5」に関しては、該左側の分離ストロークは、逆
に、右側に凸になっていることに鑑みて、左側の輪郭線
が左に凸になっているものについては、分離ストローク
の統合を行わないようにし、該輪郭線の内、右側に凸に
なっているものに対して統合を行うようにする。
【0050】図7(a2)は、このようにして、「5」の統
合を行った例を示している。このとき、分離ストローク
を抽出する際、小矩形抽出部 4で抽出した文字パターン
に対して、分離ストロークの線密度を算出し、縦方向と
横方向の線密度が“1”であるとき、分離ストロークと
するが、該ストロークの線密度を算出する前に、平滑化
フィルタをかけることで、該分離ストロークの細かい凹
凸を減少させることができ、上記線密度の算出精度を向
上させることができる。
【0051】又、図1の平均文字サイズ算出手段 3で、
平均文字サイズを算出する際、上記字種データ記憶部 0
2 で算出した同一字種の複数の文字列に対する文字枠座
標 (左上と右下) からなる情報フィールドによって、複
数の文字列の文字枠を抽出し、該抽出した文字枠内の文
字列について、ラベリング処理 1a で、連結した数字の
パターンを求め、その文字パターンについて、外接矩形
統合部 2a で、複数の文字列を纏めて外接矩形を算出し
た後、各文字列毎の各文字に対して算出した外接矩形の
サイズの頻度ヒストグラムから、平均文字サイズを算出
することで、1文字列中の文字数が少ない場合におい
て、平均文字サイズを求める場合に比較して、正確な平
均文字サイズを求めることができる。
【0052】このように、分離ストロークの形状だけで
はなく、統合相手の特徴を調べることにより、正確な文
字切り出しができるようになる。又、その際、左側のス
トロークの輪郭線に着目することで、容易に、統合評価
を行うことができる。{請求項20,21,22に記載
の発明に対応} (15)文字列の文字枠との重なり評価:図8(b1),(b2)
は、文字列と文字枠の重なりを評価する場合の原理を示
した図である。
【0053】先ず、前処理部 0の文字列抽出部 01 での
ラベリング処理で、連結パターンに対するラベルを付加
し、該ラベルの付加された連結パターンについて、縦方
向の隣接投影 (縦方向のi−1列,i+1列の投影値を
i列の投影値に加算する投影法)を行って、投影された
画素数が所定の数(閾値)より大きい部分の位置(列)
を文字枠列とし、同様に横方向の隣接投影を行って、投
影値が所定の数(閾値)より大きい値の位置(行)を文
字枠行として、該文字枠を形成している画素を除去{上
記文字枠除去手段の詳細については、本願出願人が先願
している特開平05-168253 号「画像抽出装置」に詳しい
が、ここでは、その要点のみに限定して説明した}し、
該除去された文字パターンについて、近傍の文字パター
ンの仮統合をして、仮統合された文字パターンの外接矩
形を求め、上記文字枠との重なりを評価する。
【0054】具体的には、図8(b2)に示されているよう
に、上記抽出した文字枠の中心と、上記外接矩形の中心
との下位の距離を di とし、文字数n,文字枠の幅をw
としとしたとき、 L={平方根(Σ di2:i=1 〜n)/n}/w を求めて、該算出したLの値が“0”に近いとき、文字
列と文字枠との重なりはないが、該Lが“1”に近いと
き、文字列と文字枠とが重なっていると判断するもので
ある。
【0055】通常、上記文字枠を除去した文字パターン
については、文字枠の除去で空白になっている画素を補
間する処理が必要となるが、文字枠と重なっていない文
字列については、該補間処理が不要となり、上記前処理
での文字列抽出部 01 での処理を高速化することができ
る効果が得られる。{請求項1,23に記載の発明に対
応} (16)投影を用いた粗密度評価:図9(c1),(c2) は、投影
を用いた粗密度評価の原理を示した図である。従来の粗
密度評価の手法は、本願出願人が先願している、前述の
特開平05-140428 号「文字の切り出し方法及び装置」に
詳しいが、要約すると、図9(c1)に示されているよう
に、ラベリングによって求めた外接矩形間の距離をピッ
チとして用いて、文字間の粗密度を評価していたため、
該ラベリング処理に時間がかかるという問題があった。
そこで、本発明においては、上記前処理部 0での文字列
抽出部 01において、文字パターンの一次元投影によっ
て生じる黒画素間の間隔で、粗密度を評価するものであ
り、ラベリング処理を不要とすることで高速に文字列の
粗密度を評価することができる。文字列の粗密度が分か
れば、即、文字認識に入ることができるので、この場合
には、前処理以降での一連の文字切り出し処理を省略す
る事ができる。{請求項24に記載の発明に対応} このように、本発明によれば、カナ文字列中から濁点,
半濁点だけを正確に抽出した後、それらを一時的に除去
しておくことにより、それらを間違って隣の文字と統合
することがなくなる。又、「ル」「ハ」といった分離文
字に対する処理を入れているため、正確な切り出しが可
能である。それ以外の文字を統合する場合も、個々のス
トロークの位置, サイズ, 方向性といった情報だけを見
て、1文字として認識を行っていないので、高速で精度
の高い文字切り出しが可能となる効果がある。
【0056】
【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図1,図2が、本発明の原理構成図であり、
図3〜図9が、本発明の原理説明図であり、図10〜図
12は、本発明の一実施例を流れ図で示した図であり、
図10は、平均文字サイズから濁点,半濁点を抽出する
処理フローを示し、図11は、「ウ」を抽出する処理フ
ローを示し、図12は「シ」「ツ」を抽出する処理フロ
ーを示している。
【0057】本発明においては、平均文字サイズから濁
点,半濁点を抽出する手段 4,5,6,8,11 と、「ウ」を抽
出する手段 9と、「シ」「ツ」を抽出する手段 10 が、
本発明を実施するのに必要な主な手段である。尚、全図
を通して同じ符号は同じ対象物を示している。
【0058】以下、図1〜図9を参照しながら、図10
〜図12によって、本発明の文字切り出し回路の主要動
作を説明する。先ず、図1に示したラベリング 1で連結
パターンを抽出し、外接矩形仮統合手段 2で、該抽出さ
れた連結された文字パターンの仮統合を行う、該仮統合
された文字パターンについて、平均文字サイズ算出手段
3で、例えば、外接矩形のサイズの頻度ヒストグラムを
算出して、該外接矩形の平均サイズを算出する。{図1
0の処理ステップ 100参照} 上記算出した平均文字サイズと、各外接矩形の文字列軸
とから、濁点, 半濁点の候補となる小矩形を、図1の小
矩形抽出手段 4で抽出するのに、その外接矩形の位置
が、上記文字列軸より上方にあって、外接矩形のサイズ
が、上記平均文字サイズの1/4以下であるかどうかを
見る。{図3(a),(b),(c) 参照}{図10の処理ステッ
プ 101参照} 外接矩形サイズが、平均文字サイズの1/4以下のもの
を小矩形として抽出し、次の濁点候補抽出手段 5にお
いて、該抽出した小矩形が2つ隣接し、それらを統合し
たときのサイズが、上記平均文字サイズの、例えば、1
/4以下であるとき、その小矩形を形成している文字パ
ターンを濁点候補として抽出し、濁点配列の分類{図3
(c),図4(a1)参照}を行う。
【0059】前述のように、上記濁点候補の中には、
「ツ」「シ」などの部分パターンが含まれていることが
あるので、上記のように、濁点の配置〜を判定する
ことで、図1での「シ」「ツ」の抽出手段 10 での、
「ツ」「シ」識別が容易となる。{図10の処理ステッ
プ 102,103,104,105参照} 該抽出した小矩形が2つ隣接し、それらを統合したとき
のサイズが、上記平均文字サイズの、例えば、1/4以
下でないとき、縦線密度と、横線密度とを算出して、そ
れぞれが“1”以上であるとき、続け字濁点,或いは、
半濁点候補として抽出するが、上記縦線密度と、横線密
度が“1”以下であるときには、その儘、続け字濁点,
或いは、半濁点の候補ではないとして、切り出し処理を
保留し、次の処理での文字切り出しを行うときに使用す
る。{図3(c) 参照}{図10の処理ステップ 103,10
6,107,108参照} 上記の処理ステップ 101で、外接矩形のサイズが、上記
平均文字サイズの1/4以下でないとき、処理ステップ 10
9で、平均文字サイズの1/4 以上であって、平均文字サ
イズの2/3 以下{図4(b) 参照}であるとき、縦方向と
横方向の線密度を算出し、それぞれが“1”以上である
とき半濁点候補とする{図4(b),(c1),(c2) 参照}が、
上記の条件を満たさない文字パターンに対しては、リジ
ェクトして、以降での文字切り出し処理で使用する。
{図10の処理ステップ 101,109,110,111参照} 次に、図1の原理構成図で示されている濁点抽出処理後
の「ウ」の抽出手段 9について、図11の処理フローで
説明する。
【0060】前述の図10の処理ステップ 105で、濁点
の配列に分類したが、該分類した濁点候補の配列が、分
類番号が, , ,であるものを抽出する。{図1
1の処理ステップ 200参照} 該抽出した濁点候補の右側のストロークの縦方向の線密
度=2で、横方向の線密度=1であるものを選択し、該
濁点候補と、その右側に、上記条件を満たすストローク
との統合サイズが、文字サイズの上限値以下であるもの
が抽出されたとき{図5(a) 参照}、その文字パターン
を「ウ」とする。上記の条件を満たさないものについて
は、ここでは、リジェクトして、以降での処理での文字
切り出しに使用する。{図11の処理ステップ 201,20
2,203参照} 次に、図1の原理構成図で示されている「ウ」の抽出手
段 9後で処理される「シ」「ツ」の抽出手段 10 につい
て、図12の処理フローで説明する。
【0061】前述の図10で説明した濁点の処理で、処
理ステップ 104で抽出した濁点候補について、その右の
ストロークが縦, 横方向の線密度=1で、その傾きが0
度から90度以内の、例えば、40度程度であって、該
濁点候補と、上記条件を満足する右のストロークとの統
合サイズが、文字サイズの上限値以下であるものを、
「シ」「ツ」として統合{図5(b) 参照}するが、上記
の条件を満たさない濁点候補については、ここでは、リ
ジェクトして、以降での処理での文字切り出しに使用す
るようにする。{図12の処理ステップ 300,301,302,3
03参照} 本発明による、他の文字の切り出し手段については、前
述の「作用」欄で、図3〜図7により、詳細に説明して
あるので、省略する。
【0062】このように、本発明による文字切り出し回
路は、手書き文字、特に、カナ文字の切り出しを難しく
している濁点, 半濁点を、最初に抽出する際、「シ」
「ツ」「ウ」の部分パターンが濁点と間違って抽出され
ないように、該「シ」「ツ」「ウ」の抽出を行い、上記
抽出した濁点, 半濁点にフラグを付けて一時的に除去し
た上で、上記切り出した分離文字の平均文字サイズを基
に、ストローク外接矩形の矩形間距離の近いもの同士の
近傍統合を行い、横方向に分離した文字である「ハ」
「ル」の抽出処理を行い、この段階で、上記平均文字サ
イズより小さく、文字列の上方に位置する小ストローク
があると、それを抽出して、右のストロークと統合し、
該文字列の下方に位置する小ストロークについては、そ
の方向性, 左右のストロークとの位置関係をもとに、統
合処理を行い、最後に、文字列中の文字の並びを見て、
サイズ, ピッチの変動が少なくなるように統合を行い、
上記除去しておいた濁点, 半濁点の統合を行うようにし
たところに特徴がある。
【0063】
【発明の効果】以上、詳細に説明したように、本発明の
文字切り出し回路によれば、カナ文字列中から濁点, 半
濁点だけを正確に抽出した後、それらを一時的に除去し
ておくことにより、それらを間違って隣の文字と統合す
ることがなくなる。又、「ル」「ハ」といった分離文字
に対する処理を入れているため、正確な切り出しが可能
である。それ以外の文字を統合する場合も、個々のスト
ロークの位置, サイズ,方向性といった情報だけを見
て、1文字として認識を行っていないので、高速で精度
の高い文字切り出しが可能となる効果がある。
【図面の簡単な説明】
【図1】本発明の原理構成図(その1)
【図2】本発明の原理構成図(その2)
【図3】本発明の原理説明図(その1)
【図4】本発明の原理説明図(その2)
【図5】本発明の原理説明図(その3)
【図6】本発明の原理説明図(その4)
【図7】本発明の原理説明図(その5)
【図8】本発明の原理説明図(その6)
【図9】本発明の原理説明図(その7)
【図10】本発明の一実施例を流れ図で示した図(その
1)
【図11】本発明の一実施例を流れ図で示した図(その
2)
【図12】本発明の一実施例を流れ図で示した図(その
3)
【図13】従来の手書き文字の切り出し回路を説明する
図(その1)
【図14】従来の手書き文字の切り出し回路を説明する
図(その2)
【符号の説明】
0 前処理部 01 文字列抽出
部 02 字種データ記憶部 03 文字列内の
字数計測部 1,1a,1b ラベリング 2,2a,2b 外接矩形仮統合手段 3,3a,3b 平均文字サイズ算出手段 4 小矩形抽出手段 5 濁点候補
抽出手段 6 続け字濁点・半濁点抽出手段 8 半濁点抽
出手段 9 「ウ」の抽出手段 10 「シ」
「ツ」の抽出手段 11 半濁点らしさ評価手段 12 濁点, 半濁
点一時的除去手段 13 近傍統合手段 14 「ル」
「ハ」の抽出手段 15 位置・方向性による小ストローク統合手段 16 文字並び・サイズ妥当性による小ストローク統合
手段 17 濁点, 半濁点の統合手段 18 認識処理手段 〜 濁点の配置分類番号 100 〜111,200 〜203,300 〜303 処理ステップ

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】手書き文字の切り出し回路であって、文字
    列の抽出,字種の判定をして記憶する前処理部(0) と、 ラベリング処理(1) で求めた連結情報を基づいて、部分
    パターンに外接する矩形を抽出し、該抽出された矩形に
    対して、暫定的に近傍の矩形同士を、その矩形統合が正
    方性を保つ範囲で仮統合する、外接矩形仮統合手段(2)
    と、 上記統合された各矩形に対して、平均文字サイズを算出
    する平均文字サイズ算出手段(3) と、 上記算出した平均文字サイズと、所定の方法で求めた文
    字列軸を基に、該文字列軸の上方に位置する小矩形を抽
    出する小矩形抽出手段(4) と、該抽出した小矩形が隣接
    して2つ存在する場合に、それを濁点候補として抽出
    し、該抽出された濁点候補に対して、上記隣接している
    2つの小矩形の並び方を複数通りに分類する濁点抽出手
    段(5,5a)と、 上記抽出された小矩形の中から線密度情報を基に、続け
    字濁点,半濁点を抽出する続け字濁点,半濁点抽出手段
    (6) と、 小矩形以外のものから位置, サイズ, 線密度情報を基
    に、サイズの大きい半濁点の候補を抽出する半濁点抽出
    手段(8) と、 該半濁点とされたものに対し、その全体に対する空白領
    域の占める割合いによって半濁点らしさを評価する半濁
    点らしさ評価手段(11)と、 上記濁点候補抽出手段(5) によって、濁点候補と判定さ
    れたものに対して、その右に位置するストロークの形状
    を判定し、該濁点候補が「シ」「ツ」「ウ」の部分パタ
    ーンかどうか判定し、上記「シ」「ツ」「ウ」を抽出す
    る手段(9,10)と、 上記濁点候補の内、上記濁点抽出手段(5,5a)で分類され
    た所定の小矩形の並び方のものを濁点と判定し、以後の
    文字切り出し処理において、一時的に除外し、同様に、
    上記半濁点らしさを評価する手段(11)によって、半濁点
    らしさの程度の高いものを一時的に除外する濁点, 半濁
    点一時的除去手段(12)と、 上記平均文字サイズをもとに、近傍の外接矩形同士を統
    合する近傍統合手段(13)と、 上記部分パターンの内の右上がりのストローク線分を抽
    出したのち、その右に位置するパターンに対して線密度
    判定から、それらの2つストロークが「ル」「ハ」かど
    うかを判定する「ル」「ハ」の抽出手段(14,14a)と、 上記の各処理において、未統合の小ストロークに対し
    て、その外形矩形の位置, 縦横比, 方向性情報を基に、
    その左右に位置するストロークに統合する小ストローク
    統合手段(15)と、 文字の並びの直線性, 矩形サイズの変動パターンを基
    に、未統合のストロークを統合していく小ストローク統
    合手段(16)と、 上記一時的除外手段(12)で除外されている濁点, 半濁点
    を統合する手段(17)とを備えて、 文字の切り出しを行うことを特徴とする手書き文字切り
    出し回路。
  2. 【請求項2】請求項1に記載の手書き文字切り出し回路
    であって、該切り出し文字の平均サイズを求める外接矩
    形仮統合手段(2) として、各外接矩形に対して、近傍の
    矩形同士を、縦横比がN以上であってM以下(N,Mは
    パラメータ)となる範囲で暫定的に全てを統合すること
    を特徴とする手書き文字切り出し回路。
  3. 【請求項3】手書き文字切り出し回路であって、該切り
    出し文字の濁点,半濁点の候補を求めるのに、該文字の
    平均サイズと、文字列軸の位置をもとに、文字列の上方
    の小矩形を抽出する小矩形抽出手段(4) を備えたことを
    特徴とする手書き文字切り出し回路。
  4. 【請求項4】手書き文字切り出し回路における小矩形抽
    出手段(4) で抽出した小矩形が複数個近接し、その近接
    している小矩形同士を統合したサイズと、平均文字サイ
    ズとのサイズ比が、所定の閾値以下となった場合に、そ
    の複数個の小矩形を濁点候補として抽出する、濁点候補
    抽出手段(5) を備えたことを特徴とする手書き文字切り
    出し回路。
  5. 【請求項5】手書き文字切り出し回路における濁点候補
    抽出手段(5) で濁点候補とされたものに対して、複数個
    の外接矩形の位置関係から、その配置を所定の数の配置
    通りに分類する濁点分類手段(5a)を備えたことを特徴と
    する手書き文字切り出し回路。
  6. 【請求項6】手書き文字切り出し回路における小矩形抽
    出手段(4) で抽出した小矩形のうちで、濁点候補となら
    なかったものに対して、その平均文字サイズと、その縦
    方向と横方向の線密度の算出結果から続け字濁点,もし
    くは、半濁点を抽出する、続け字濁点・半濁点抽出手段
    (6) を備えたことを特徴とする手書き文字切り出し回
    路。
  7. 【請求項7】手書き文字切り出し回路における小矩形抽
    出手段(4) で抽出した小矩形のうちで、濁点候補となら
    なかったものに対して、ストロークの輪郭線をもとに、
    続け字濁点,もしくは、半濁点を抽出する、続け字濁点
    ・半濁点抽出手段(6) を備えたことを特徴とする手書き
    文字切り出し回路。
  8. 【請求項8】手書き文字切り出し回路における小矩形抽
    出手段(4) で、小矩形として抽出されなかった文字パタ
    ーンに対して、文字列軸の上方での位置,文字サイズ,
    線密度をもとに、文字サイズの大きい半濁点を抽出する
    半濁点抽出手段(8) を備えたことを特徴とする手書き文
    字切り出し回路。
  9. 【請求項9】手書き文字切り出し回路における続け字濁
    点・半濁点抽出手段(6) で抽出された半濁点に対して、
    その全体に対する空白部分の占める割合に応じて、半濁
    点らしさの程度を評価するのに、 (縦線密度が2以上の
    部分)/(縦長さ)× (横線密度が2以上の部分)/
    (横長さ)の値を求めて評価する半濁点らしさ評価手段
    (11)を備えたことを特徴とする手書き文字切り出し回
    路。
  10. 【請求項10】請求項1に記載の手書き文字切り出し回
    路における濁点候補抽出手段(5) において抽出された濁
    点候補とされたものに対して、その右に位置するストロ
    ークの線密度を算出して、上記濁点候補とストロークと
    が「ウ」であるか否かを判別する「ウ」の抽出手段(9)
    を備えたことを特徴とする手書き文字切り出し回路。
  11. 【請求項11】請求項1に記載の手書き文字切り出し回
    路における濁点候補抽出手段(5) で濁点候補とされたも
    の, 及び、続け字濁点・半濁点抽出手段(6) で、続け字
    濁点とされたものに対して、その右に位置するストロー
    クの線密度,及び、角度を算出して、上記濁点候補とス
    トロークとが「ツ」「シ」であるか否かを判別する
    「シ」「ツ」の抽出手段(10)を備えたことを特徴とする
    手書き文字切り出し回路。
  12. 【請求項12】請求項1に記載の手書き文字切り出し回
    路において、抽出された濁点候補, 半濁点候補以外のも
    のに対して、各外接矩形の中心と、平均文字サイズの外
    接矩形の中心間の距離が小さいもの同士を統合していく
    近傍統合手段(13)を備えたことを特徴とする手書き文字
    切り出し回路。
  13. 【請求項13】請求項1に記載の手書き文字切り出し回
    路における濁点候補抽出手段(5) で分類された濁点候補
    の中で、「ウ」抽出手段(9) ,又は、「シ」「ツ」抽出
    手段(10)で統合されなかった文字パターンに対して、所
    定の分類番号(〜)のものを濁点として判定し、以降
    での文字切り出し処理において、一時的に除去して、文
    字の切り出しを行う濁点,半濁点の一時的除去手段(12)
    を備えたことを特徴とする手書き文字切り出し回路。
  14. 【請求項14】請求項1又は6又は7又は8に記載の手
    書き文字切り出し回路における半濁点抽出手段(6,8) で
    半濁点とされたもので、且つ、その全体に対する空白部
    分の占める割合に応じて、半濁点らしさの程度を評価す
    る半濁点らしさ評価手段(11)で判別された半濁点らしさ
    の度合いの大きいものに対して、以降での文字切り出し
    処理において、一時的に除去して、文字の切り出しを行
    う濁点,半濁点の一時的除去手段(12)を備えたことを特
    徴とする手書き文字切り出し回路。
  15. 【請求項15】請求項1に記載の手書き文字切り出し回
    路において、抽出された文字列の中から、外接矩形の位
    置,文字サイズ,線密度情報,角度を基に、右上がりの
    ストロークを抽出し、その右に位置するストロークにつ
    いて、複数方向の線密度を基に、上記左右の2つのスト
    ロークが「ル」「ハ」の可能性があるかどうかを判定す
    る「ル」「ハ」の抽出手段(14)を備えたことを特徴とす
    る手書き文字切り出し回路。
  16. 【請求項16】請求項15に記載の手書き文字切り出し
    回路における「ル」「ハ」の抽出手段(14)で、2つのス
    トロークの間隔をaとし、統合された文字サイズをbと
    し、上記平均文字サイズcとしたとき、 R=α(a/b)+β(b/c)、ここで、α,βはパ
    ラメータで算出されるRの値に基づいて、上記2つのス
    トロークが「ノ」+「レ」であるか、「ル」であるかを
    評価する「ル」「ハ」の評価手段(14a) を備えたことを
    特徴とする手書き文字切り出し回路。
  17. 【請求項17】請求項3に記載の手書き文字切り出し回
    路における小矩形抽出手段(4) で求めた文字列軸の上方
    に位置し、平均文字サイズに比較してサイズの小さい分
    離ストロークを抽出し、その分離ストロークの位置, 方
    向性, 外接矩形の縦横比と、上記平均文字サイズとに基
    づいて、該分離ストロークの左, もしくは、右に位置す
    るストロークに統合する位置・方向性による小ストロー
    ク統合手段(15)を備えたことを特徴とする手書き文字切
    り出し回路。
  18. 【請求項18】請求項17に記載の手書き文字切り出し
    回路における小ストローク統合手段(15)で、統合できな
    かった分離ストロークに対して、該分離ストロークの位
    置,該分離ストロークの並びの直線性と,該分離ストロ
    ークのサイズの妥当性を基に、その分離ストロークの
    左,もしくは、右のストロークに位置するストロークと
    統合する文字並び・サイズ妥当性による小ストローク統
    合手段(16)を備えたことを特徴とする手書き文字切り出
    し回路。
  19. 【請求項19】請求項12又は17又は18に記載の近
    傍統合手段(13), 又はストローク統合手段(15,16) によ
    る統合処理が終了した後で、上記一時的除去手段(12)に
    よって一時的に除去した濁点, 半濁点を、その左に位置
    するストロークに統合する濁点, 半濁点統合手段(17)を
    備えたことを特徴とする手書き文字切り出し回路。
  20. 【請求項20】請求項1に記載の手書き文字切り出し回
    路で、上記前処理手段(0) 中の字種データ記憶部(02)が
    数字であることを指示しており、数字文字であることを
    示すフィールド情報を備えた文字列に対して、平均文字
    サイズ算出手段(3) で抽出された外接矩形の近傍に、所
    定の位置, サイズを持つ小矩形があることを検出したと
    き、その小矩形に対して、線密度を算出して、該小矩形
    内の文字パターンがストロークであることが認識された
    とき、該ストロークの角度を算出し、算出した角度が所
    定の角度を持っているとき、該ストロークの左方に位置
    する輪郭線の形状が、左側に凸になっているストローク
    を識別して、該左方に位置するストロークに統合して、
    数字「5」の評価を行う数字「5」検出手段(19)を備え
    たことを特徴とする手書き文字切り出し回路。
  21. 【請求項21】請求項20に記載の手書き文字切り出し
    回路における数字「5」検出手段(19)として、ストロー
    クの線密度を算出する前に、平滑化フィルタをかける手
    段を設けたことを特徴とする手書き文字切り出し回路。
  22. 【請求項22】請求項20に記載の手書き文字切り出し
    回路において、前処理手段(0) で付加した同一字種であ
    ることを示すフィールド情報を備えた複数の文字列に対
    して、該複数の文字列の枠の座標を指示するフィールド
    情報に基づいて、複数の文字列の文字枠を所定の方法で
    抽出し、該抽出した文字枠内の文字について、ラベリン
    グ処理(1a)で連結した文字のパターンを求め、その文字
    パターンについて、外接矩形仮統合手段(2a)で、外接矩
    形を算出し、複数行の文字列を纏めて、各文字列毎の各
    文字に対して算出した外接矩形のサイズの頻度ヒストグ
    ラムから、平均文字サイズを算出する平均文字サイズ算
    出手段(3a)を備えたことを特徴とする手書き文字切り出
    し回路。
  23. 【請求項23】請求項1に記載の手書き文字切り出し回
    路において、上記前処理手段(0) 中の文字列抽出手段(0
    1)に、所定の文字枠除去手段を設けて文字枠を除去した
    後の文字列に対して、仮統合した各外接矩形の位置, 及
    び、平均文字サイズと、上記文字枠を除去する前の文字
    枠の位置情報とから、文字枠の中心と、上記統合した外
    接矩形の中心との間の距離を di とし、文字枠の幅をw
    とし、文字数をnとしたとき、 L={平方根(Σ di2: i=1 〜n)/n}/W を求めて、該算出したLの値により、文字列と文字枠と
    の重なりを評価する文字列・重なり評価手段を備えたこ
    とを特徴とする手書き文字切り出し回路。
  24. 【請求項24】請求項1に記載の手書き文字切り出し回
    路において、上記前処理手段(0) の中の文字列抽出手段
    (01)に、文字列の粗密度を所定の方法によって評価する
    際、ラベリング処理で求めた外接矩形の一次元投影で生
    じるピッチを文字パターンの黒画素間の間隔として評価
    する手段を備えたことを特徴とする手書き文字切り出し
    回路。
JP4935194A 1994-03-18 1994-03-18 カタカナ手書き文字切り出し回路 Expired - Fee Related JP3344062B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4935194A JP3344062B2 (ja) 1994-03-18 1994-03-18 カタカナ手書き文字切り出し回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4935194A JP3344062B2 (ja) 1994-03-18 1994-03-18 カタカナ手書き文字切り出し回路

Publications (2)

Publication Number Publication Date
JPH07262314A true JPH07262314A (ja) 1995-10-13
JP3344062B2 JP3344062B2 (ja) 2002-11-11

Family

ID=12828601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4935194A Expired - Fee Related JP3344062B2 (ja) 1994-03-18 1994-03-18 カタカナ手書き文字切り出し回路

Country Status (1)

Country Link
JP (1) JP3344062B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013101610A (ja) * 2011-11-08 2013-05-23 Canon Inc 平均文字幅を判定する方法及び装置、並びに文字分割方法及び装置
US8731298B2 (en) 2011-02-21 2014-05-20 Fuji Xerox Co., Ltd. Character recognition apparatus, character recognition method, and computer readable medium storing program
JP2016532190A (ja) * 2013-07-22 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 文書フォーマット変換装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731298B2 (en) 2011-02-21 2014-05-20 Fuji Xerox Co., Ltd. Character recognition apparatus, character recognition method, and computer readable medium storing program
JP2013101610A (ja) * 2011-11-08 2013-05-23 Canon Inc 平均文字幅を判定する方法及び装置、並びに文字分割方法及び装置
JP2016532190A (ja) * 2013-07-22 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 文書フォーマット変換装置及び方法

Also Published As

Publication number Publication date
JP3344062B2 (ja) 2002-11-11

Similar Documents

Publication Publication Date Title
US6259812B1 (en) Key character extraction and lexicon reduction cursive text recognition
US6970601B1 (en) Form search apparatus and method
US20030113016A1 (en) Pattern recognizing apparatus
JP3411472B2 (ja) パターン抽出装置
JPH07262314A (ja) 手書き文字切り出し回路
JP3370934B2 (ja) 光学的文字読み取り方法とその装置
CN1790377B (zh) 反白字符识别的块分类方法和文本行生成方法
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP3415342B2 (ja) 文字切り出し方式
JP3188580B2 (ja) 文字切り出し回路、及び文字切り出し方法
JP3391223B2 (ja) 文字認識装置
JP3710164B2 (ja) 画像処理装置及び方法
JPH09305707A (ja) 画像抽出方式
JP3077929B2 (ja) 文字切出し方式
JPH08202822A (ja) 文字切り出し装置、及び文字切り出し方法
JP2000207491A (ja) 文字列読取方法及び装置
JP2993252B2 (ja) 同形異文字判別方法および装置
JP3220226B2 (ja) 文字列方向判別方法
JP2832035B2 (ja) 文字認識装置
JP2671533B2 (ja) 文字列認識方法及びその装置
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH05135204A (ja) 文字認識装置
JP2000113101A (ja) 文字切り出し方法および装置
JPH03219384A (ja) 文字認識装置
JPH09161005A (ja) 文字認識装置及び方法並びにそれを用いたスキャナ

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020730

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080830

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090830

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090830

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100830

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110830

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120830

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees