JP2002024765A - 文字認識装置及び文字認識方法 - Google Patents
文字認識装置及び文字認識方法Info
- Publication number
- JP2002024765A JP2002024765A JP2000201853A JP2000201853A JP2002024765A JP 2002024765 A JP2002024765 A JP 2002024765A JP 2000201853 A JP2000201853 A JP 2000201853A JP 2000201853 A JP2000201853 A JP 2000201853A JP 2002024765 A JP2002024765 A JP 2002024765A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character image
- recognition
- pixels
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
Abstract
文字認識を簡易に行なう。 【解決手段】 文字画像入力手段1から未知文字パター
ンが入力され,特徴量抽出手段2,3,4によりペリフ
ェラル特徴量,ストローク特徴量及びメッシュ特徴量が
抽出される。これら特徴量から複合特徴量を求める。文
字カテゴリデータ作成手段9は,文字カテゴリに属して
いるすべての学習サンプルを用いて文字カテゴリデータ
を作成し,認識辞書作成手段8で認識辞書を作成し,認
識辞書格納手段8aに格納する。認識手段7は,類似度
計算手段6を用いて,ビットごとにつき合わせを行ない
類似度を算出し,認識辞書に格納されている文字カテゴ
リデータの中から,未知文字パターンともっとも類似す
る文字カテゴリを求める。
Description
法に関し,特に文字認識を行う認識装置及び文字認識を
行う認識方法に関するものである。
ゴリに属しているすべての学習サンプルを用いて該文字
の標準文字パターンを求め,求められた標準文字パター
ンを認識辞書に記憶しておく。認識するとき,入力され
た未知文字パターンを認識辞書に格納されているすべて
の標準文字パターンと比較し,もっとも近いものが認識
の結果として出力される方法がもっとも一般的な認識方
法である。ここで,文字特徴量の選択方法,標準文字パ
ターンの作成方法,距離尺度或いは類似度尺度は認識精
度を左右する重要な要素である。
文字毎に,文字カテゴリに属しているすべての学習サン
プルの中心値を該文字の標準文字パターンとして認識辞
書に記憶させ,認識辞書を作成する方法がある。しか
し,文字カテゴリに属している学習サンプルの分布がば
らつき,かつ数が多い場合は,認識率が低いという問題
点がある。
標準文字パターンを用いて認識を行う方法がある。例え
ば,特開昭63−129488号公報には,マルチフォ
ント文字を認識するために,各文字毎に複数の標準文字
パターンを認識辞書に記憶しておき,その認識辞書を用
いて認識を行う方法が提案された。また,学習サンプル
を学習しながら,対応している標準文字パターンを修正
し,或いは新しい標準文字パターンを追加して,認識辞
書を作成する方法がある。例えば,特開平7−2895
5号公報に記載されている方法が上記したものである。
しかし,これらの方法には,認識辞書に標準文字パター
ンの数が多いので,認識時間が長いという問題があり,
文字数が多い場合には,文字認識に要する処理時間は無
視できないものとなる。
平10−162103号公報には,手書き文字学習サン
プルを用いて手書き文字認識辞書,活字文字学習サンプ
ルを用いて活字文字認識辞書をそれぞれ作成しておき,
認識するとき,入力された未知文字が手書き文字か活字
文字かを判断し,手書き文字の場合は手書き文字認識辞
書,活字文字の場合は活字文字認識辞書を用いて認識を
行う方法が提案されている。しかし,文字フォントの種
類が多いので,文字フォントの種類をすべて区別するの
は容易でないし,特に手書き文字の場合は,学習サンプ
ルの分布が一定の法則に従わないので,1つの標準文字
パターンで文字カテゴリに属しているすべての学習サン
プルを表現するのは,認識率が低いという問題がある。
れまで数多く提案されている。代表的なものは,シテイ
ブロック距離,ユークリッド距離,重み付きユークリッ
ド距離,マハラノビス距離,投影距離などが挙げられ
る。これらの方法は文献『画像の処理と認識』安居院猛
・長尾智晴(1992,昭晃堂)と,『基本多変量解
析』浅野長一郎・江島伸興(日本規格協会),“手書き
文字認識における投影距離法”池田正幸・田中英彦・岡
本達(情処学論,vol.24,no.1,pp.10
6−112,1983)に記載されている。文字X=
(x1,x2,…,x n)と文字Y=(y1,y2,
…,yn)の間のシテイブロック距離Dc(X,Y)は
次の公式で計算する。ここで,|Z|はZの絶対値を表
す。
Y=(y1,y2,…,yn)の間のユークリッド距離
De(X,Y)は次の公式で計算する。
Skとし,サンプルS1,S2,…。Skの中心値,す
なわち,文字iの標準文字パターンをUiで表す。文字
X=(x1,x2,…,xn)と標準文字パターンUi
=(ui1,ui2,…,u in)間の重み付きユーク
リッド距離Dw(X,Ui)は次の公式で計算する。
パターンUi=(ui1,ui2,…,uin)間のマ
ハラノビス距離Dm(X,Ui)は次の公式で計算す
る。
し,Z−1は行列Zの逆行列であり,ZTは行列Zの転
置行列である。パターンX=(x1,x2,…,xn)
と標準パターンUi=(ui1,ui2,…,uin)
間の投影距離Dt(X,Ui)は次の公式で計算する。
固有値を降順に並べたときにj番目に位置する固有値に
対応する固有ベクトルであり,(α,β)はベクトルα
とβの内積を表す。
び重み付きユークリッド距離は比較的簡単に求められる
が,高い認識率を保証するのは困難である。マハラノビ
ス距離は,生起確率がχ2分布に従ったデータを対象と
している距離であり,生起確率の高い分布の中心部分ほ
ど距離が近く計算される。しかし,実際の文字の学習サ
ンプルの分布はχ2分布に従っているわけではないの
で,認識率を保証できない。また,文字の共分散行列を
記憶するため,認識辞書が巨大であり,莫大な計算時間
がかかるので,実用性が低い。
る。(1)1つ或いは複数の標準文字パターンで文字カ
テゴリを代表する;(2)文字パターンと文字パターン
間の距離,或いは類似度を用いて文字パターンを比較す
る。次に従来技術の特徴(1)と(2)は誤認が発生す
る重要な原因であることを示す。
一般に一定の分布に従わない,集中して固まっている場
合もあるし,ばらばらに分散している場合もある。1つ
の標準文字パターンで文字カテゴリを代表した場合は,
図27に示すように,文字Pの認識範囲は,該文字の標
準文字パターンを中心として(特徴(1)より),標準
文字パターンともっとも遠い該文字カテゴリに属してい
る学習サンプルと標準文字パターン間の距離を半径とす
る(特徴(2)より)多次元円E1になる。すなわち,
入力された未知文字パターンがE1範囲に入ると,文字
Pと認識される可能性が非常に高い。しかし,認識範囲
E1は実際の文字学習サンプルの分布範囲E2より大き
いため,多くの文字の認識範囲と重なってしまう。認識
するとき,入力された未知文字パターンが重なっている
範囲に入ると,間違って認識されることがある。例え
ば,図28に示すように,文字P1の実際の分布範囲E
4と文字P2の実際の分布範囲E6と重なっていない
が,文字P1の認識範囲E3と文字P2の認識範囲E5
と重なっている。入力された未知文字Xが文字P1の実
際の分布範囲E4に入るので,文字P1と認識されるは
ずであるが,XがP1とP2の重なっている認識範囲に
入っているので,文字P2と間違って認識される。すな
わち,Xと文字P2の標準文字パターン間の距離がXと
文字P1の標準文字パターン間の距離より小さいので,
文字P2と誤認される。
う場合は,認識範囲が重なっている文字の数が少なくな
り,認識精度がある程度改善されるが,本質的な解決法
ではない。
する,或いは文字の分布を想定して,認識範囲を想定し
た分布の形に近似するような距離関数,或いは類似度関
数を用いて認識を行う場合は(例えば,重み付きユーク
リッド距離,マハラノビス距離など),認識範囲が重な
っている文字の数が少なくなり,認識精度がある程度改
善されるが,分布が一定の規則に従わない文字に対し
て,高い認識率を保証できない問題点があり,本質的な
解決法ではない。
情に鑑みてなされたもので,文字カテゴリを代表する標
準文字パターンを用いて文字認識を行うときの認識率低
下問題を解決し,高い認識率かつ簡単な文字認識方法を
提供することを目的とするものである。
め,本発明は,特許請求の範囲に記載のとおりの構成を
採用している。すなわち,本発明の具体的な構成では,
文字パターンのペリフェラル特徴量と,ストローク特徴
量と,メッシュ特徴量をそれぞれ抽出し,抽出された3
種類の特徴量を並べて該文字の複合特徴量を求め,各文
字毎に,文字カテゴリに属しているすべての学習サンプ
ルから,学習サンプル特徴量の各次元毎に,次元の値を
列挙し,列挙した値を変換し,変換された各次元の値を
該文字のカテゴリデータとして認識辞書に記憶させ,認
識辞書を作成しておく。認識するとき,文字パターンと
文字カテゴリ間の類似度の計算方法を用いて,入力され
た未知文字パターンと認識辞書に格納されているすべて
の文字カテゴリデータ間の類似度を計算し,もっとも類
似な文字カテゴリを認識の結果として出力することによ
り文字を高精度・高速かつ簡単に認識することができ
る。
応するビット列データからなる文字カテゴリデータと,
認識対象の同様の文字パターンの文字パターンデータと
を比較して文字認識を行なうので精度よく認識を行なえ
る。さらに,複数種類の特徴量のビット列パターンを連
結させればより正確な認識が可能となる。
でき,またその方法の少なくとも一部をコンピュータプ
ログラムとして実装することができる。このコンピュー
タプログラムを記録した記録媒体(プログラムパッケー
ジ)や,当該コンピュータプログラムをコンピュータシ
ステムにインストールするためのコンピュータプログラ
ムを記録した記録媒体が,本発明の技術的な範囲に含ま
れることはもちろんである。
の一形態を示すブロック図である。図中,1は1文字分
の文字画像を入力する手段,2は文字のペリフェラル特
徴量を抽出する手段,3は文字のストローク特徴量を抽
出する手段,4は文字のメッシュ特徴量を抽出する手
段,5は文字の複合特徴量を求める手段,6は文字パタ
ーンと文字カテゴリ間の類似度を計算する手段,7は認
識手段,8は認識辞書作成手段,8aは認識辞書を格納
する手段,9は文字カテゴリ作成手段,10は記憶手段
である。
徴量抽出手段2,3,4で抽出されたペリフェラル特徴
量,ストローク特徴量及びメッシュ特徴量を格納する。
メモリM4は,複合特徴量を求める手段5で求められた
文字の複合特徴量を格納する。メモリM5は,認識辞書
から認識手段7で検出された入力された未知文字パター
ンともっとも類似な文字の名前とカテゴリデータを格納
する。
で入力された1文字分の文字画像をそれぞれ横に2A‐
1区分,縦に2A‐1区分に分割し,文字画像の幅或い
は高さの1/Pを各区分の走査範囲として,各区分を走
査してペリフェラル特徴量を抽出する。特徴量格納手段
2aは前記抽出されたペリフェラル特徴量をメモリM1
に格納する。
で入力された1文字分の文字画像をそれぞれ横に2A‐
1区分,縦に2A‐1区分に分割し,各区分の走査範囲
を文字画像の幅或いは高さとして,各区分を走査してス
トローク特徴量を抽出する。特徴量格納手段3aは前記
抽出されたストローク特徴量をメモリM2に格納する。
で入力された1文字分の文字画像をそれぞれサイズがb
画像*b画像の子領域B個,2C個,D個に分割し,各
子領域を走査してメッシュ特徴量を抽出する。特徴量格
納手段4aは前記抽出されたメッシュ特徴量をメモリM
3に格納する。
れた3種類の特徴量を並べ,1つの特徴量として求め
る。複合特徴量格納手段5aは前記求められた複合特徴
量をメモリM4に格納する。図2は文字の複合特徴量5
0を示している。複合特徴量50がペリフェラル特徴量
51,ストローク特徴量52,メッシュ特徴量53から
構成されている。
テゴリに属しているすべての学習サンプルを用いて文字
カテゴリデータを作成する。作成された各文字カテゴリ
データを用いて,認識辞書作成手段8で認識辞書を作成
する。作成された認識辞書を認識辞書格納手段8aで格
納する。図3は認識辞書内の認識辞書データを示す図で
ある。認識辞書データ60は,すべての文字(m個)の
データ61〜6mから構成されている。各文字のデータ
は文字の名前と文字カテゴリデータのベクトルから構成
されている。
て,認識辞書に格納されている文字カテゴリデータの中
から,入力され未知文字パターンともっとも類似な文字
カテゴリを求め,その結果をメモリM5に記憶させる。
記憶手段10は,認識手段7で認識された文字の名前と
カテゴリデータを格納する。
して,情報端末装置に適用させた場合の装置構成につい
て説明する。図4は本発明の文字認識装置を情報端末装
置に適用させた場合の装置構成を示す図である。
部記憶装置72,ディスプレイ73,プロセッサ部74
から構成される。キーボート71は,ユーザが操作を指
示するための入力装置であり,その他の入力装置が付加
されていてもよい。外部記憶装置72は,入力された未
知文字パターンのデータや,認識辞書のデータや,認識
結果や,ソフトウェアを格納する。また,特徴量格納手
段2a,3a,4a,複合特徴量格納手段5a,認識辞
書格納手段8aをこの外部記憶装置72の一部として構
成することができる。さらに,記憶手段10によって認
識された文字の名前とカテゴリデータを格納してもよ
い。外部記憶装置72の具体例として,例えばハードデ
ィスクなどで構成することができる。ディスプレイ73
は,ユーザに対するメッセージや認識文字のデータ,認
識の結果などを表示するための出力装置である。もちろ
ん他の出力装置が付加されていてもよい。プロセッサ部
74は,外部記憶装置72に格納されているソフトウェ
アなどに従って,実際の処理を行う。プロセッサ部74
は,具体的にマイクロプロセッサや,パーソナルコンピ
ュータなどのコンピュータシステムで構成することがで
きる。そして,文字特徴量抽出手段2,3,4,複合特
徴量を求める手段5,文字カテゴリデータ作成手段9,
類似度計算手段6,認識手段7は,このプロセッサ部7
4の上で動作するソフトウェアによって構成することが
できる。
詳細に説明する。まず,特徴量抽出手段2について説明
する。
示すブロック図である。メモリM21〜メモリM24は
文字画像入力手段1で入力された1文字分の文字画像を
記憶する。横領域分割手段21は,メモリM21に記憶
している1文字分の文字画像を横にA区分に分割する。
例えば,図8(a)は前記文字画像を横に4(A=4)
区分に分割した様子を示している。横領域分割手段22
は,前記横領域分割手段21で分割されたA区分に対し
て,k(k=1,2,…,A‐1)区分目の下半分とk
+1区分目の上半分を1区分とし,メモリM22に記憶
している1文字分の文字画像を横にA‐1区分に分割す
る。例えば,図8(b)は前記文字画像を横に3(A‐
1=4‐1=3)区分に分割した様子を示している。縦
領域分割手段23は,メモリM23に記憶している1文
字分の文字画像を縦にA区分に分割する。例えば,図9
(a)は前記文字画像を縦に4(A=4)区分に分割し
た様子を示している。縦領域分割手段24は,前記縦領
域分割手段23で分割されたA区分に対して,k(k=
1,2,…,A‐1)区分目の右半分とk+1区分目の
左半分を1区分とし,メモリM24に記憶している1文
字分の文字画像を縦に3(A‐1=4‐1=3)区分に
分割した様子を示している。ここで,横区分数と縦区分
数は異なってもかまわない。
前記文字画像の外接矩形の左辺と右辺の計2辺から文字
方向に文字の幅の1/Pまで走査することを制御し,縦
区分に対して前記文字画像の外接矩形の上辺と下辺の計
2辺から文字方向に文字の高さの1/Pまで走査するこ
とを制御する。ここで,Pは正整数である。
21,22により分割された横の2A‐1区分の各区分
毎に,前記走査範囲の制限手段26によって制限された
走査範囲において,文字画像の左辺からa回走査し(a
=前記文字画像の高さ/A),最初に文字を構成する画
素(黒画素)にあたるまでの背景画像の画素数を計数
し,a回走査して計数された画素数の平均値を求める。
続いて,領域分割手段21,22により分割された横の
2A‐1区分の各区分毎に,前記走査範囲の制限手段2
6によって制限された走査範囲において,文字画像の右
辺からa回走査し(a=前記文字画像の高さ/A),最
初に文字を構成する画素(黒画素)にあたるまでの背景
画像の画素数を計数し,a回走査して計数された画素数
の平均値を求める。また,領域分割手段23,24によ
り分割された縦の2A‐1区分の各区分毎に,前記走査
範囲の制限手段26によって制限された走査範囲におい
て,文字画像の上辺からa回走査し(a=前記文字画像
の幅/A),最初に文字を構成する画素(黒画素)にあ
たるまでの背景画像の画素数を計数し,a回走査して計
数された画素数の平均値を求める。最後に,領域分割手
段23,24により分割された縦の2A‐1区分の各区
分毎に,前記走査範囲の制限手段26によって制限され
た走査範囲において,文字画像の下辺からa回走査し
(a=前記文字画像の幅/A),最初に文字を構成する
画素(黒画素)にあたるまでの背景画像の画素数を計数
し,a回走査して計数された画素数の平均値を求める。
図10(a),(b)は,A=4,P=3のとき,領域
分割手段21,22により分割された横7(2A‐1)
区分の特徴量を抽出する様子を示す図である。図10
(c),(d)は,A=4,P=3のとき,領域分割手
段23,24により分割された縦7(2A‐1)区分の
特徴量を抽出する様子を示す図である。
って抽出された特徴量を図1に示すメモリM1に格納す
る。
図6は特徴量抽出手段3の実施の一形態を示すブロック
図である。メモリM31〜メモリM34は文字画像入力
手段1で入力された1文字分の文字画像を記憶する。
憶している1文字分の文字画像を横にA区分に分割す
る。例えば,図8(a)は前記文字画像を横に4(A=
4)区分に分割した様子を示している。横領域分割手段
32は,前記横領域分割手段31で分割されたA区分に
対して,k(k=1,2,…,A‐1)区分目の下半分
とk+1区分目の上半分を1区分とし,メモリM32に
記憶している1文字分の文字画像を横にA‐1区分に分
割する。例えば,図8(b)は前記文字画像を横に3
(A‐1=4‐1=3)区分に分割した様子を示してい
る。縦領域分割手段33は,メモリM33に記憶してい
る1文字分の文字画像を縦にA区分に分割する。例え
ば,図9(a)は前記文字画像を縦に4(A=4)区分
に分割した様子を示している。縦領域分割手段34は,
前記縦領域分割手段33で分割されたA区分に対して,
k(k=1,2,…,A‐1)区分目の右半分とk+1
区分目の左半分を1区分とし,メモリM34に記憶して
いる1文字分の文字画像を縦に3(A‐1=4‐1=
3)区分に分割した様子を示している。ここで,横区分
数と縦区分数は異なってもかまわない。
31,32により分割された横の2A‐1区分の各区分
毎に,前記文字画像の幅を走査範囲として,文字画像の
左辺からa回走査し(a=前記文字画像の高さ/A),
背景画素(白画素)から文字を構成する画素(黒画素)
に,及び文字を構成する画素(黒画素)から背景画素
(白画素)に変化する回数を計数し,a回走査して計数
された回数の平均値を求める。続いて,領域分割手段3
3,34により分割された縦の2A‐1区分の各区分毎
に,文字画像の高さを走査範囲として,文字画像の上辺
からa回走査し(a=前記文字画像の幅/A),背景画
素(白画素)から文字を構成する画素(黒画素)に,及
び文字を構成する画素(黒画素)から背景画素(白画
素)に変化する回数を計数し,a回走査して計数された
回数の平均値を求める。図11(a),(b)は,A=
4のとき,領域分割手段31,32により分割された横
7(2A‐1)区分の特徴量を抽出する様子を示す図で
ある。図11(c),(d)は,A=4のとき,領域分
割手段33,34により分割された縦7(2A‐1)区
分の特徴量を抽出する様子を示す図である。
って抽出された特徴量を図1に示すメモリM2に格納す
る。
図7は特徴量抽出手段4の実施の一形態を示すブロック
図である。メモリM41〜メモリM44は文字画像入力
手段1で入力された1文字分の文字画像を記憶する。
憶している1文字分の文字画像をサイズがb画素*b画
素の子領域B個に分割する。例えば,図12(a)は子
領域分割手段41で前記文字画像を16(B=16)個
の子領域に分割した様子を示している。子領域分割手段
42は,前記子領域分割手段41で分割されたB個の子
領域に対して,前記文字画像の右側にある子領域以外の
子領域毎に,子領域の右半分と右隣の子領域の左半分を
1子領域とし,C個の子領域に分割する。図12(b)
は子領域分割手段42で前記文字画像を12(B=16
のとき)個の子領域に分割した様子を示している。子領
域分割手段43は,前記子領域分割手段41で分割され
たB個の子領域に対して,前記文字画像の下側にある子
領域以外の子領域毎に,子領域の下半分と下隣の子領域
の上半分を1子領域とし,C個の子領域に分割する。図
12(c)は子領域分割手段43で前記文字画像を12
(B=16のとき)個の子領域に分割した様子を示して
いる。子領域分割手段44は,前記子領域分割手段42
で分割されたC個の子領域に対して,前記文字画像の下
側にある子領域以外の子領域毎に,子領域の下半分と下
隣の子領域の上半分を1子領域とし,D個の子領域に分
割する。図12(d)は子領域分割手段44で前記文字
画像を9(B=16,C=12のとき)個の子領域に分
割した様子を示している。ここで,bとBは共に正整数
であり,b*B=文字画像の幅(或いは高さ)である。
42,43,44によりそれぞれ分割されたB,C,
C,D個の子領域の各子領域毎に,子領域画像の左辺か
ら走査し,文字を構成する画素(黒画素)数を計数する
って抽出された特徴量を図1に示すメモリM3に格納す
る。
いて説明する。複合特徴量を求める手段5は,特徴抽出
手段2,特徴抽出手段3及び特徴抽出手段4によって抽
出された特徴量を並べ,図1に示すメモリM4に記憶さ
せる。
データを格納するときの文字カテゴリデータの作成手段
9について説明する。図13は文字カテゴリデータの作
成手段9の実施の一形態を示すブロック図である。
プル特徴量を格納している。メモリM91,M92,M
93,…,M9n(nは特徴量ベクトルの次元数)は,
それぞれ特徴量の各次元の列挙した値を記憶する。
文字のすべての学習サンプル特徴量を入力し,メモリM
90に記憶させる。
いる1文字のすべての学習サンプルの特徴量から,次元
毎に,次元のとりうる値を列挙し,列挙した各次元の値
をそれぞれメモリM91,M92,M93,…,M9n
記憶させる。
像分割手段41(42,43,44)で分割された子領
域内の画素数b2(メッシュ特徴量の最大値)を文字特
徴量の変化範囲とする。
に示すように,n次元のベクトルで表現し,各次元をb
2+1個のビットで表す。
M91,M92,M93,…,M9nに格納している各
次元の列挙した値を変換する。メモリM9i(i=1,
2,…,n)に記憶しているi次元目の列挙した値{e
i1,ei2,.…,eis}に対して,カテゴリデー
タのi次元目の第eij+1ビットの値を“1”と設定
し(j=1,2,…,s),その以外のビットの値を
“0”と設定する。
タを認識辞書に格納させる。
る5つの学習サンプルを示している。ここで,文字特徴
量の次元数n=6であり,文字特徴量の変化範囲が16
である。従って,該文字カテゴリデータを6次元のベク
トルで表し,各次元を17bitsで表す。図15
(b)は,列挙手段91で列挙された各次元の値を示し
ている。例えば,列挙された1次元目の値は3,4,
6,8であり,2次元目の値は8,10,11,12で
ある。図15(c)は,変換手段92で求められた文字
カテゴリデータを示している。
ように,文字カテゴリデータは,n次元空間に,文字カ
テゴリに属しているすべての学習サンプルが各次元毎に
現れる位置の範囲を示している。例えば,図16は文字
カテゴリに属しているすべての学習サンプルが1次元
目,2次元目に現れる位置範囲を示している。ここで,
a1,a2は1次元目の位置範囲であり,b1,b2は
2次元目の位置範囲である。各次元に現れる位置範囲は
連続の場合もあるし,離散の場合もある。例えば,図1
5(c)に示している文字カテゴリデータに対して,1
次元に現れる位置範囲は3〜4,6,8であり,2次元
に現れる位置範囲は8,10〜12である。3,5,6
次元の位置範囲は連続的なものであり,1,2,4次元
の位置範囲は離散的なものである。文字カテゴリデータ
で示す該文字カテゴリに属している学習サンプルが各次
元毎に現れる位置範囲は,該文字の認識範囲である。図
16に示す4つの長方形は該文字の認識範囲である。図
に示すように,この認識範囲は比較的に文字の学習サン
プルの分布に近いので,認識範囲が重なっている文字の
数を大幅に削減することができる。例えば,図17
(a)に示している7つの文字P1,P2,…,P7に
ついて,従来の技術により,P1〜P7の認識範囲は図
17(a)に示している点線円E11〜E17である。
E11はE12及びE16と,E12はE11,E1
3,E15及びE16と,E13はE12及びE14
と,E16はE11,E12,E15,E17と重なっ
ている。しかし,本発明により,文字の認識範囲は図1
7(b)に示すE21〜E27である。図から分かるよ
うに,E21,E22,…,E27は相互に重なってい
ない。
度を計算する手段6について説明する。類似度の計算手
段6は,メモリM4に格納されている未知文字X=(x
1,x2,…,xn)と認識辞書に格納している文字カ
テゴリデータCat(i)=(cat1(i),cat
2(i),…,catn(i))間の類似度S(X,C
at(i))は次のように計算される。
目の値=1;f(a,b)=0, if bのa+1ビ
ット目の値=0である。
された未知文字Xのj次元目の値x jはカテゴリデータ
のj次元目の位置範囲に入ると,類似度がすこし高くな
る。逆に,入力された未知文字Xのj次元の値xjはカ
テゴリデータのj次元目の位置範囲以外に入ると,類似
度がすこし低くなる。すべての次元に対して,f()=
1なら,類似度=1であるので,カテゴリに属している
すべての学習サンプルと該文字のカテゴリデータ間の類
似度は同じであり,“1”である。認識するとき,未知
文字Xが文字カテゴリデータで示す文字Pの認識範囲に
入ると,S(X,P)=1になり,文字Pが認識の結果
として出力される。これは従来技術で実現できなかった
部分である。
文字パターンと文字カテゴリ間の類似度の計算方法は,
人間の認識機能に近似するものである。人間はものの特
徴を思い出すときに,ものの各特徴及び特徴量の変化範
囲が思い出される。例えば,“リンゴ”の特徴を思い出
すとき,“色は赤い,黄色い或いは青いなどがあり,黒
はないこと;味は甘い,甘酢っぱいなどがあり,辛いは
ないこと;重さが150グラム位〜450グラム位;”
などが自然に思い出される。つまり,人間は学習すると
き,学習対象の各特徴量を取って,各特徴及び特徴量の
変化範囲を記憶していることが考えられる。例えば,い
ろんな“リンゴ”を学習した後,“色”,“形”,
“味”,“重さ”,“高さ”,“幅”等の特徴,“色”
特徴量の変化範囲が“赤色,青色,黄色”,“重さ”特
徴量の変化範囲が“150グラム位〜400グラム
位”,“高さ”特徴量の変化範囲が“6cm位〜12c
m位”などが記憶されるはずである。認識するとき,取
れた特徴量の値は学習した“リンゴ”の特徴量の変化範
囲内の場合は,“リンゴ”として認識されるはずであ
る。勿論,人間は連想という機能を持っているので,未
学習したリンゴも認識できる。これは,未学習したリン
ゴは,学習したリンゴに似ているからである。
段7は,文字と文字カテゴリ間の類似度を計算する手段
6を用いて,メモリM4に格納している未知文字パター
ンと,認識辞書に格納されているすべての文字カテゴリ
データ間の類似度を計算し,未知文字ともっとも類似な
文字カテゴリを認識の結果としてメモリM5に出力す
る。
特徴量抽出手段2で文字のペリフェラル特徴量を抽出す
るときの動作をフローチャートを用いて説明する。図1
8〜図21は特徴量抽出手段2の動作手順を示すフロー
チャートである。図18は文字画像を横に分割された2
A‐1区分の各区分毎に,区分の左辺から該区分を走査
して,該分区の特徴量を抽出する動作手順のフローチャ
ートである。 〔S1〕:未処理の区分に移動し,該区分の行数の初期
値をk=1と設定し,該区分の特徴量を表す変数Fea
を初期化する。 〔S2〕:各区分に対して,該区分の一番上の行の一番
左の画素を取り出す。 〔S3〕:取り出した画素が背景画素であるかどうかを
判定し,背景画像の場合は,S4へ行く。背景画素でな
い場合は,S7へ行く。 〔S4〕:Fea=Fea+1。 〔S5〕:取り出した画素が該行の左側から該行の“幅
/P”番目の画素であるかどうかを判定し,該行の“幅
/P”番目の画素である場合は,S6へ行く。そうでは
ない場合は,S7へ行く。 〔S6〕:取り出した画素の右の画素を取り出す。S3
へ行く。 〔S7〕:下の行に移動し,k=k+1である。S8へ
行く。 〔S8〕:該区分の全行が全て処理されたかどうかを判
定し,全部処理された場合は,S9へ行く。また残った
場合は,S2へ行く。 〔S9〕:該区分特徴量を求める。S10へ行く。 〔S10〕:横の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S1へ行く。
1区分の各区分毎に,区分の右辺から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S11〕:未処理の区分に移動し,該区分の行数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S12〕:各区分に対して,該区分の一番上の行の一
番右の画素を取り出す。 〔S13〕:取り出した画素が背景画素であるかどうか
を判定し,背景画像の場合は,S14へ行く。背景画素
でない場合は,S17へ行く。 〔S14〕:Fea=Fea+1。 〔S15〕:取り出した画素が該行の右側から該行の
“幅/P”番目の画素であるかどうかを判定し,該行の
“幅/P”番目の画素である場合は,S16へ行く。そ
うではない場合は,S17へ行く。 〔S16〕:取り出した画素の左の画素を取り出す。S
13へ行く。 〔S17〕:下の行に移動し,k=k+1である。S1
8へ行く。 〔S18〕:該区分の全行が全て処理されたかどうかを
判定し,全部処理された場合は,S19へ行く。また残
った場合は,S12へ行く。 〔S19〕:該区分特徴量を求める。S20へ行く。 〔S20〕:横の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S11へ行く。
1区分の各区分毎に,区分の上端から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S21〕:未処理の区分に移動し,該区分の列数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S22〕:各区分に対して,該区分の一番左の列の一
番上の画素を取り出す。 〔S23〕:取り出した画素が背景画素であるかどうか
を判定し,背景画像の場合は,S24へ行く。背景画素
でない場合は,S27へ行く。 〔S24〕:Fea=Fea+1。 〔S25〕:取り出した画素が該列の上端から該列の
“高さ/P”番目の画素であるかどうかを判定し,該列
の“高さ/P”番目の画素である場合は,S26へ行
く。そうではない場合は,S27へ行く。 〔S26〕:取り出した画素の下の画素を取り出す。S
23へ行く。 〔S27〕:右の列に移動し,k=k+1である。S2
8へ行く。 〔S28〕:該区分の全列が全て処理されたかどうかを
判定し,全部処理された場合は,S29へ行く。また残
った場合は,S22へ行く。 〔S29〕:該区分特徴量を求める。S30へ行く。 〔S30〕:縦の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S21へ行く。
1区分の各区分毎に,区分の下端から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S31〕:未処理の区分に移動し,該区分の列数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S32〕:各区分に対して,該区分の一番左の列の一
番下の画素を取り出す。 〔S33〕:取り出した画素が背景画素であるかどうか
を判定し,背景画像の場合は,S34へ行く。背景画素
でない場合は,S37へ行く。 〔S34〕:Fea=Fea+1。 〔S35〕:取り出した画素が該列の下端から該列の
“高さ/P”番目の画素であるかどうかを判定し,該列
の“高さ/P”番目の画素である場合は,S36へ行
く。そうではない場合は,S37へ行く。 〔S36〕:取り出した画素の上の画素を取り出す。S
33へ行く。 〔S37〕:右の列に移動し,k=k+1である。S3
8へ行く。 〔S38〕:該区分の全列が全て処理されたかどうかを
判定し,全部処理された場合は,S39へ行く。また残
った場合は,S32へ行く。 〔S39〕:該区分特徴量を求める。S40へ行く。 〔S40〕:縦の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S31へ行く。
特徴量抽出手段3で文字のストローク特徴量を抽出する
ときの動作をフローチャートを用いて説明する。図22
および図23は特徴量抽出手段3の動作手順を示すフロ
ーチャートである。図22は文字画像を横に分割された
2A‐1区分の各区分毎に,区分の左辺から該区分を走
査して,該分区の特徴量を抽出する動作手順のフローチ
ャートである。 〔S41〕:未処理の区分に移動し,該区分の行数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S42〕:各区分に対して,該区分の一番上の行の一
番左の画素及び該画素の右隣の画素を取り出す。 〔S43〕:取り出した画素が該画素の左隣の画素と同
じかどうかを判定し,同じの場合は,S46へ行く。同
じではない場合は,S44へ行く。 〔S44〕:Fea=Fea+1。 〔S45〕:該行の画素がすべて処理された場合は,S
47へ行く。そうではない場合は,S46へ行く。 〔S46〕:取り出した画素の右の画素を取り出す。S
43へ行く。 〔S47〕:下の行に移動し,k=k+1である。S4
8へ行く。 〔S48〕:該区分の全行が全て処理されたかどうかを
判定し,全部処理された場合は,S49へ行く。また残
った場合は,S42へ行く。 〔S49〕:該区分特徴量を求める。S50へ行く。 〔S50〕:横の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S41へ行く。
1区分の各区分毎に,区分の上端から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S51〕:未処理の区分に移動し,該区分の列数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S52〕:各区分に対して,該区分の一番左の列の一
番上の画素及び該画素の下の画素を取り出す。 〔S53〕:取り出した画素が該画素の上の画素と同じ
かどうかを判定し,同じの場合は,S56へ行く。同じ
ではない場合は,S54へ行く。 〔S54〕:Fea=Fea+1。 〔S55〕:該列の画素がすべて処理された場合は,S
57へ行く。そうではない場合は,S56へ行く。 〔S56〕:取り出した画素の下の画素を取り出す。S
53へ行く。 〔S57〕:右の列に移動し,k=k+1である。S5
8へ行く。 〔S58〕:該区分の全列が全て処理されたかどうかを
判定し,全部処理された場合は,S59へ行く。また残
った場合は,S52へ行く。 〔S59〕:該区分特徴量を求める。S60へ行く。 〔S60〕:縦の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S51へ行く。
特徴量抽出手段4で文字のメッシュ特徴量を抽出すると
きの動作をフローチャートを用いて説明する。図24は
特徴量抽出手段4の動作手順を示すフローチャートであ
る。 〔S61〕:各子領域に対して,該子領域の一番上の行
の一番左の画素を取り出す。 〔S62〕:取り出した画素が背景画素であるかどうか
を判定し,背景画素の場合は,S65へ行く。背景画素
ではない場合は,S63へ行く。 〔S63〕:該子領域の特徴量を1に増やす。 〔S64〕:該行の画素がすべて処理されたかどうかを
判定する。すべて処理された場合は,S66へ行く。そ
うではない場合は,S65へ行く。 〔S65〕:取り出した画素の右の画素を取り出す。S
62へ行く。 〔S66〕:下の行に移動する。S67へ行く。 〔S67〕:該子領域の全行が全て処理されたかどうか
を判定し,全部処理された場合は,S68へ行く。また
残った場合は,S61へ行く。 〔S68〕:B+2C+D個の子領域は全て処理された
かどうかを判定し,全部処理された場合は,終了する。
もた残った子領域があれば,S69へ行く。 〔S69〕:未処理の子領域に移動する。S61へ行
く。
習サンプルから,文字カテゴリデータを作成する手段9
の動作をフローチャートを用いて説明する。図25は文
字カテゴリデータ作成手段9の動作手順を示すフローチ
ャートである。 〔S70〕:文字の個数をmと設定し,文字特徴量ベク
トル及びカテゴリデータベクトルの次元数をnと設定す
る。文字の学習順番i=1と設定する。 〔S71〕:文字iの学習サンプルの個数をa(i)と
設定し,次元数j=1と設定する; 〔S72〕:学習サンプル特徴量のj次元目の列挙した
値を記憶する集合Sを空にする。カテゴリデータのj次
元目の値Cat(i,j)=0と設定し,サンプルの学
習順番k=1と設定する。 〔S73〕:文字iの第k番目の学習サンプルのj次元
目の値Sam(i,k,j)が集合Sに含まれるかどう
かを判断する。含まれている場合は,S75へ行く。含
まれていない場合はS74へ行く。 〔S74〕:Sam(i,k,j)を集合Sにに加え
る。 〔S75〕:次に学習するサンプルを設定する。 〔S76〕:文字iのすべての学習サンプルを学習した
場合は,S77へ行く。学習するサンプルはまた残った
場合は,S73へ行く。 〔S77〕:集合Sから1の要素eを取り出す。S78
へ行く。 〔S78〕:Cat(i,j)の第e+1ビットに
“1”を代入する。 〔S79〕:集合Sから要素eを削除する。S80へ行
く。 〔S80〕:集合Sが空であるかどうかを判定する。空
の場合は,S81へ行く。空ではない場合は,S77へ
行く。 〔S81〕:次に学習する次元を設定する。 〔S82〕:すべての次元が処理されたら,S72へ行
く。そうではない場合は,S83へ行く。 〔S83〕:次に学習する文字を設定する。 〔S84〕:すべての文字が学習された場合は,終了す
る。学習文字がまた残った場合は,S71へ行く。
用いて説明する。図26は認識手段7の動作手順を示す
フローチャートである。 〔S90〕:認識辞書に格納している文字カテゴリデー
タの個数をmと設定し,文字カテゴリデータの比較順番
i=1,最大類似度の初期値Smax=0,認識結果を
記憶する変数Res=0にする。 〔S91〕:類似度計算手段6を用いて,入力された未
知文字Xと認識辞書に格納されている文字iのカテゴリ
データCat(i)間の類似度S(X,Cat(i))
を計算する。 〔S92〕:類似度S(X,Cat(i))が最大類似
度Smaxより大きい場合は,S93へ行く。大きくな
い場合は,S94へ行く。 〔S93〕:類似度S(X,Cat(i))を最大類似
度Smaxにコピーし,文字iを認識の結果としてRe
sに記憶させる。 〔S94〕:次に比較する文字カテゴリデータを設定す
る。 〔S95〕:すべての文字カテゴリデータが比較された
場合は,終了する。比較する文字カテゴリデータがまた
残った場合は,S91へ行く。
文字を認識したときの認識率及び認識速度について説明
する。
字画像をスキャナでコンピュータに入力されたものであ
る。文字の個数は3455個である。13種類の文字フ
ォントから文字毎に平均700個の学習サンプルを用意
した。A=16,B=64,C=56,D=49と設定
し,本発明の特徴量抽出手段を用いて,411次元の複
合特徴量(124次元のペリフェラル特徴量+62次元
のストローク特徴量+225次元のメッシュ特徴量)を
抽出した。
から該文字のカテゴリデータを求め,認識辞書を作成す
る。従来の認識方法と比較するために,文字毎に,文字
カテゴリに属しているすべての学習サンプルの中心値を
求め,各次元毎に,重みwiを求める。求められた文字
カテゴリの中心値を該文字の代表とし,認識辞書を作成
する。また,すべての文字に対して,文字カテゴリに属
しているすべての学習サンプルを用いて,該文字カテゴ
リの共分散行列,固有値及び固有ベクトルを求める。
いて,学習したサンプルを認識する実験を行った。従来
の認識方法は,それぞれシテイブロック距離,ユークリ
ッド距離,重み付きユークリッド距離,投影距離(J=
3)を用いて認識を行う方法である。次の表は実験の結
果を表している。
は97.8%であり,平均認識時間は88msであっ
た。本発明の認識方法の認識率は99.8%であり,平
均認識時間は21msであった。
認識する問題に対して,より高い認識精度かつ高速に文
字を認識することが可能になる。
の認識装置は,文字の複合特徴量を抽出し,文字カテゴ
リに属しているすべての学習サンプルを用いて文字カテ
ゴリデータを求め,求められた文字カテゴリデータを認
識辞書に記憶させ認識辞書を作成しておく。文字を認識
するとき,文字パターンと文字カテゴリ間の類似度の計
算方法を用いて,入力された未知文字を前記作成された
認識辞書に格納されているすべての文字カテゴリと比較
し,もっとも類似な文字カテゴリを認識の結果として出
力される。これにより,入力された未知文字を高精度・
高速かつ簡単に認識することができる。
特徴量の分布に対応するビット列データからなる文字カ
テゴリデータと,認識対象の同様の文字パターンの文字
パタンデータとを比較して文字認識を行なうので学習サ
ンプルの特徴量の分布に応じた類似となり,分布により
精度が落ちることがない。さらに,複数種類の特徴量の
ビット列パターンを連結させればより正確な認識が可能
となる。
ック図である。
ック図である。
ック図である。
ック図である。
す図である。
す図である。
抽出する様子を示す図である。
抽出する様子を示す図である。
を表す図である。
一形態を示すブロック図である。
る。
である。
ある
識範囲を示す図である。
チャートである。
チャートである。
チャートである。
チャートである。
チャートである。
チャートである。
チャートである。
を示すフローチャートである。
である。
分布範囲と認識範囲を示す図である。
図である。
複合特徴量を求める手段,6 文字パターンとカテゴリ
間の類似度の計算手段,7 認識手段,9文字カテゴリ
データ作成手段,X 入力された未知文字,Cat
(i) 認識辞書に格納している文字iのカテゴリデー
タ。
Claims (22)
- 【請求項1】 文字カテゴリを表す参照用ビット列デー
タを記憶する手段と,認識対象文字の文字パターンの特
徴量から上記参照用ビット列データに対応する認識対象
ビット列データを抽出する手段と,上記認識対象ビット
列データと上記参照用ビット列データとを比較して上記
認識対象文字の文字パターンが上記文字カテゴリに属す
る尤度を算出する手段とを有することを特徴とする文字
認識装置。 - 【請求項2】 相互に重ならない複数の部分範囲に特徴
量の範囲を分割し,こらら部分範囲を上記参照用ビット
列データのビットポジションに対応させ,上記文字カテ
ゴリに属する学習サンプルの文字パターンの特徴量が所
定回数以上出現する部分領域に対応するビットポジショ
ンのビット値を所定の値とし,それ以外のビットポジシ
ョンのビット値を他の値として,上記参照用ビット列デ
ータが生成され,上記認識対象の特徴量が出現する部分
領域に対応するビットポジションのビット値を上記所定
の値とし,それ以外のビットポジションの値を上記他の
値として,上記認識対象ビット列データを抽出すること
を特徴とする請求項1に記載の文字認識装置。 - 【請求項3】 文字認識を行う文字認識装置において,
文字パターンの複合特徴量を抽出する手段と,各文字毎
に,文字カテゴリデータを作成する手段と,作成された
文字カテゴリデータを用いて認識辞書を作成する手段
と,文字パターンと文字カテゴリデータ間の類似度を計
算する手段と,前記類似度の計算手段を用いて,入力さ
れた未知文字パターンを認識辞書に格納されているすべ
ての文字カテゴリデータと比較し,もっとも類似する文
字カテゴリを認識の結果として出力することを特徴とす
る文字認識装置。 - 【請求項4】 前記文字パターンの複合特徴量の抽出手
段は,文字のペリフェラル特徴量を抽出する手段と,文
字のストローク特徴量を抽出する手段と,文字のメッシ
ュ特徴量を抽出する手段とを備えたことを特徴とする請
求項3に記載された文字認識装置。 - 【請求項5】 前記文字のペリフェラル特徴量を抽出す
る手段は,1文字分の文字画像を入力する手段と,前記
文字画像を記憶する手段と,前記文字画像の領域を分割
する手段と,文字の特徴量を取るための走査範囲の制限
手段と,前記文字画像の背景画像の特徴を取る手段とを
有することを特徴とする請求項4に記載された文字認識
装置。 - 【請求項6】 前記文字画像の領域分割手段は,前記文
字画像の領域を横にA区分に分割する手段と,前記横に
分割されたA区分に対して,k(k=1,2,…,A‐
1)区分目の下半分とk+1区分目の上半分を1区分と
し,横にA‐1区分に分割する手段と,前記文字画像の
領域を縦にA区分に分割する手段と,前記縦に分割され
たA区分に対して,k(k=1,2,…,A‐1)区分
目の右半分とk+1区分目の左半分を1区分とし,縦に
A‐1区分に分割する手段を要することを特徴とする請
求項5に記載された文字認識装置。 - 【請求項7】 前記走査範囲の制限手段は,前記文字画
像の外接矩形の左辺と右辺の計2辺から文字方向に文字
の幅の1/Pまで走査する走査範囲の制限手段と前記文
字画像の外接矩形の上辺と下辺の計2辺から文字方向に
文字の高さの1/Pまで走査する走査範囲の制限手段を
有することを特徴とする請求項5に記載された文字認識
装置。 - 【請求項8】 前記文字画像の背景画像の特徴を取る手
段は,前記文字画像の領域分割手段により分割された横
の2A‐1区分の各区分毎に,前記走査範囲の制限手段
によって制限された走査範囲において,文字画像の左辺
からa回走査し(a=前記文字画像の高さ/A),最初
に文字を構成する画素(黒画素)にあたるまでの背景画
像の画素数を計数する手段と,a回走査して計数された
画素数の平均値を前記横の2A‐1区分毎にそれぞれ記
憶する手段と,前記文字画像の領域分割手段により分割
された横の2A‐1区分の各区分毎に,前記走査範囲の
制限手段によって制限された走査範囲において,文字画
像の右辺からa回走査し(a=前記文字画像の高さ/
A),最初に文字を構成する画素(黒画素)にあたるま
での背景画像の画素数を計数する手段と,a回走査して
計数された画素数の平均値を前記横の2A‐1区分毎に
それぞれ記憶する手段と,前記文字画像の領域分割手段
により分割された縦の2A‐1区分それぞれに対して,
前記走査範囲の制限手段によって制限された走査範囲に
おいて,文字画像の上辺からa回走査し(a=前記文字
画像の幅/A),最初に文字を構成する画素(黒画素)
にあたるまでの背景画像の画素数を計数する手段と,a
回走査して計数された画素数の平均値を前記縦の2A‐
1区分毎にそれぞれ記憶する手段と,前記文字画像の領
域分割手段により分割された縦の2A‐1区分それぞれ
に対して,前記走査範囲の制限手段によって制限された
走査範囲において,文字画像の下辺からa回走査し(a
=前記文字画像の幅/A),最初に文字を構成する画素
(黒画素)にあたるまでの背景画像の画素数を計数する
手段と,a回走査して計数された画素数の平均値を前記
縦の2A‐1区分毎にそれぞれ記憶する手段とを有する
ことを特徴とする請求項5に記載された文字認識装置。 - 【請求項9】 前記文字のストローク特徴量の抽出手段
は,1文字分の文字画像を入力する手段と,前記文字画
像を記憶する手段と,前記文字画像の領域分割手段と,
前記文字画像のストローク特徴量を抽出する手段を有す
ることを特徴とする請求項4に記載された文字認識装
置。 - 【請求項10】 前記文字画像の領域分割手段は,前記
文字画像の領域を横にA区分に分割する手段と,前記横
に分割されたA区分に対して,k(k=1,2,…,A
‐1)区分目の下半分とk+1区分目の上半分を1区分
とし,横にA‐1区分に分割する手段と,前記文字画像
の領域を縦にA区分に分割する手段と,前記縦に分割さ
れたA区分に対して,k(k=1,2,…,A‐1)区
分目の右半分とk+1区分目の左半分を1区分とし,縦
にA‐1区分に分割する手段を要することを特徴とする
請求項9に記載された文字認識装置。 - 【請求項11】 前記文字画像のストローク特徴量を抽
出する手段は,前記文字画像の領域分割手段により分割
された横の2A‐1区分それぞれに対して,前記文字画
像の幅を走査範囲として,文字画像の左辺からa回走査
し(a=前記文字画像の高さ/A),背景画素(白画
素)から文字を構成する画素(黒画素)に,及び文字を
構成する画素(黒画素)から背景画素(白画素)に変化
する回数を計数する手段と,a回走査して計数された回
数の平均値を前記横の2A‐1区分毎にそれぞれ記憶す
る手段と,前記文字画像の領域分割手段により分割され
た縦の2A‐1区分それぞれに対して,前記文字画像の
高さを走査範囲として,文字画像の上辺からa回走査し
(a=前記文字画像の幅/A),背景画素(白画素)か
ら文字を構成する画素(黒画素)に,及び文字を構成す
る画素(黒画素)から背景画素(白画素)に変化する回
数を計数する手段と,a回走査して計数された回数の平
均値を前記縦の2A‐1区分毎にそれぞれ記憶する手段
とを有することを特徴とする請求項9に記載された文字
認識装置。 - 【請求項12】 前記文字のメッシュ特徴量の抽出手段
は,1文字分の文字画像を入力する手段と,前記文字画
像を記憶する手段と,前記文字画像の領域分割手段と,
前記文字画像のメッシュ特徴量を抽出する手段を有する
ことを特徴とする請求項2に記載の文字認識装置。 - 【請求項13】 前記文字画像の領域分割手段は,前記
文字画像の領域をサイズがb画素*b画素の子領域B個
に分割する手段と,前記分割されたB個の子領域に対し
て,前記文字画像の右側にある子領域以外の子領域毎
に,子領域の右半分と右隣の子領域の左半分を1子領域
とし,C個の子領域に分割する手段と,前記分割された
C個の子領域に対して,前記文字画像の下側にある子領
域以外の子領域毎に,子領域の下半分と下隣の子領域の
上半分を1子領域とし,D個の子領域に分割する手段
と,前記分割されたB個の子領域に対して,前記文字画
像の下側にある子領域以外の子領域毎に,子領域の下半
分と下隣の子領域の上半分を1子領域とし,C個の子領
域に分割する手段を要することを特徴とする請求項12
に記載された文字認識装置。 - 【請求項14】 前記文字画像のメッシュ特徴量を抽出
する手段は,前記文字画像の領域分割手段により分割さ
れたB+2C+D個の子領域それぞれに対して,子領域
画像の左辺から走査し,文字を構成する画素(黒画素)
数を計数する手段と,前記計数した画素数を前記B+2
C+D個の子領域毎にそれぞれ記憶する手段を有するこ
とを特徴とする請求項12に記載された文字認識装置。 - 【請求項15】 前記文字カテゴリデータの作成手段
は,文字特徴量の変化範囲を決める手段と,カテゴリデ
ータの表現手段と,文字特徴量の各次元の値を列挙する
手段と,列挙した値をカテゴリデータに変換する手段
と,各次元の変換された値を該文字カテゴリの標準デー
タとすることを特徴とする請求項3に記載された文字認
識装置。 - 【請求項16】 前記文字特徴量の変化範囲を決める手
段は,前記請求項13で分割された子領域内の画素数
(b2)を文字特徴量の変化範囲とすることを特徴とす
る請求項15に記載された文字認識装置。 - 【請求項17】 前記カテゴリデータの表現手段は,文
字特徴量の次元数を有するベクトルでカテゴリデータを
表現し,ベクトルの各次元をb2+1個(b 2は前記求
められた文字特徴量の変化範囲である)のビットで表現
することを特徴とする請求項15記載された文字認識装
置。 - 【請求項18】 前記文字特徴量の各次元の値を列挙す
る手段は,文字カテゴリに属しているすべての学習サン
プルから,学習サンプル特徴量の各次元毎に,該次元の
とりうる値を列挙することを特徴とする請求項15に記
載された文字認識装置。 - 【請求項19】 前記列挙した値をカテゴリデータに変
換する手段は,列挙した値{e1,e2,.…,es}
に対して,カテゴリデータの対応している次元の第ei
+1ビットの値を“1”と設定し(i=1,2,…,
s),その以外のビットの値を“0”と設定することを
特徴とする請求項15に記載された文字認識装置。 - 【請求項20】 前記認識辞書を作成する手段は,各文
字毎に,文字のカテゴリデータを求め,求められた文字
カテゴリデータを認識辞書に記憶させ認識辞書を作成す
る手段を備えたことを特徴とする請求項3に記載された
文字認識装置。 - 【請求項21】 前記文字パターンと文字カテゴリデー
タ間の類似度を計算する手段において,文字パターンX
=(x1,x2,…,xn)と文字カテゴリデータCa
t=(cat1,cat2,…,catn)間の類似度
S(X,Cat)は次のように計算されることを特徴と
する請求項3に記載された文字認識装置。 【数1】 ここで,f(a,b)=1, if bのa+1ビット
目の値=1;f(a,b)=0, if bのa+1ビ
ット目の値=0である。 - 【請求項22】文字認識を行う文字認識方法において,
文字パターンのペリフェラル特徴量と,ストローク特徴
量と,メッシュ特徴量をそれぞれ抽出し,抽出された3
種類の特徴量を並べ該文字の複合特徴量を求め,各文字
毎に,請求項15に記載されている文字カテゴリデータ
の作成手段を用いて,文字カテゴリデータを作成し,作
成された文字カテゴリデータを認識辞書に記憶させ認識
辞書を作成し,認識するとき,請求項21に記載されて
いる文字パターンと文字カテゴリデータ間の類似度の計
算公式を用いて,入力された未知文字パターンを認識辞
書に格納されているすべての文字カテゴリデータと比較
し,もっとも類似な文字カテゴリを認識の結果として出
力されることを特徴とする文字認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000201853A JP4062866B2 (ja) | 2000-07-04 | 2000-07-04 | 文字認識装置及び文字認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000201853A JP4062866B2 (ja) | 2000-07-04 | 2000-07-04 | 文字認識装置及び文字認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002024765A true JP2002024765A (ja) | 2002-01-25 |
JP4062866B2 JP4062866B2 (ja) | 2008-03-19 |
Family
ID=18699462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000201853A Expired - Fee Related JP4062866B2 (ja) | 2000-07-04 | 2000-07-04 | 文字認識装置及び文字認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4062866B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755534B1 (ko) * | 2006-04-04 | 2007-09-06 | 오성훈 | 배수로 |
JP2009026289A (ja) * | 2007-07-23 | 2009-02-05 | Sharp Corp | 字形特徴辞書作成装置、これを備えた画像文書処理装置、字形特徴辞書作成プログラム、字形特徴辞書作成プログラムを記録した記録媒体、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体 |
JP2009026288A (ja) * | 2007-07-23 | 2009-02-05 | Sharp Corp | 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 |
CN115830599A (zh) * | 2023-02-08 | 2023-03-21 | 成都数联云算科技有限公司 | 工业字符识别方法、模型训练方法、装置、设备和介质 |
-
2000
- 2000-07-04 JP JP2000201853A patent/JP4062866B2/ja not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755534B1 (ko) * | 2006-04-04 | 2007-09-06 | 오성훈 | 배수로 |
JP2009026289A (ja) * | 2007-07-23 | 2009-02-05 | Sharp Corp | 字形特徴辞書作成装置、これを備えた画像文書処理装置、字形特徴辞書作成プログラム、字形特徴辞書作成プログラムを記録した記録媒体、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体 |
JP2009026288A (ja) * | 2007-07-23 | 2009-02-05 | Sharp Corp | 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 |
JP4533920B2 (ja) * | 2007-07-23 | 2010-09-01 | シャープ株式会社 | 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 |
JP4740916B2 (ja) * | 2007-07-23 | 2011-08-03 | シャープ株式会社 | 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体 |
US8160402B2 (en) | 2007-07-23 | 2012-04-17 | Sharp Kabushiki Kaisha | Document image processing apparatus |
US8208765B2 (en) | 2007-07-23 | 2012-06-26 | Sharp Kabushiki Kaisha | Search and retrieval of documents indexed by optical character recognition |
CN115830599A (zh) * | 2023-02-08 | 2023-03-21 | 成都数联云算科技有限公司 | 工业字符识别方法、模型训练方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4062866B2 (ja) | 2008-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6081620A (en) | System and method for pattern recognition | |
US4975975A (en) | Hierarchical parametric apparatus and method for recognizing drawn characters | |
US7327883B2 (en) | Character recognition system and method | |
Heutte et al. | A structural/statistical feature based vector for handwritten character recognition | |
US5539840A (en) | Multifont optical character recognition using a box connectivity approach | |
CN110929665B (zh) | 一种自然场景曲线文本检测方法 | |
US5673337A (en) | Character recognition | |
WO2006091626A2 (en) | Intelligent importation of information from foreign application user interface using artificial intelligence | |
US9589185B2 (en) | Symbol recognition using decision forests | |
US5926564A (en) | Character recognition method and apparatus based on 0-1 pattern representation of histogram of character image | |
JP4062866B2 (ja) | 文字認識装置及び文字認識方法 | |
US5757962A (en) | Character recognition | |
Gaikwad et al. | Devanagari handwritten characters recognition using DCT, geometric and hue moments feature extraction techniques | |
JPH09245125A (ja) | パターン認識装置及び同装置における辞書修正方法 | |
Gautam et al. | Brahmi word recognition by supervised techniques | |
VM et al. | AN OCR FOR ARABIC CHARACTERS WITH ADVANCED BASELINE SEGMENTATION AND ENHANCED CONVOLUTIONAL NEURAL NETWORK FOR CLASSIFICATION | |
CA2421673C (en) | Character recognition system and method | |
Flora et al. | A Survey on Feature Extraction Methods & Classifiers for Handwritten Gurmukhi Character Recognition | |
JP2001202521A (ja) | パターン認識装置及びパターン認識方法 | |
Sas et al. | Semi-supervised handwritten word segmentation using character samples similarity maximization and evolutionary algorithm | |
Salameh et al. | hyper recognition techniques for English digits using statistical analysis of nodes and Fuzzy Logic for pattern recognition | |
Lucas et al. | Fast convolutional OCR with the scanning n-tuple grid | |
CN114926846A (zh) | 一种基于字符级特征的印刷体数学公式识别方法 | |
CN117095423A (zh) | 一种银行单据字符的识别方法及装置 | |
CN117152476A (zh) | 一种设计图像多层次变换信息的自动提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071224 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140111 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |