JP2002024765A - 文字認識装置及び文字認識方法 - Google Patents

文字認識装置及び文字認識方法

Info

Publication number
JP2002024765A
JP2002024765A JP2000201853A JP2000201853A JP2002024765A JP 2002024765 A JP2002024765 A JP 2002024765A JP 2000201853 A JP2000201853 A JP 2000201853A JP 2000201853 A JP2000201853 A JP 2000201853A JP 2002024765 A JP2002024765 A JP 2002024765A
Authority
JP
Japan
Prior art keywords
character
character image
recognition
pixels
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000201853A
Other languages
English (en)
Other versions
JP4062866B2 (ja
Inventor
Tsuguaki Ryu
紹明 劉
Kazuhisa Ichikawa
一寿 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000201853A priority Critical patent/JP4062866B2/ja
Publication of JP2002024765A publication Critical patent/JP2002024765A/ja
Application granted granted Critical
Publication of JP4062866B2 publication Critical patent/JP4062866B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 特徴量の分布に依存することなく精度の高い
文字認識を簡易に行なう。 【解決手段】 文字画像入力手段1から未知文字パター
ンが入力され,特徴量抽出手段2,3,4によりペリフ
ェラル特徴量,ストローク特徴量及びメッシュ特徴量が
抽出される。これら特徴量から複合特徴量を求める。文
字カテゴリデータ作成手段9は,文字カテゴリに属して
いるすべての学習サンプルを用いて文字カテゴリデータ
を作成し,認識辞書作成手段8で認識辞書を作成し,認
識辞書格納手段8aに格納する。認識手段7は,類似度
計算手段6を用いて,ビットごとにつき合わせを行ない
類似度を算出し,認識辞書に格納されている文字カテゴ
リデータの中から,未知文字パターンともっとも類似す
る文字カテゴリを求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は認識装置及び認識方
法に関し,特に文字認識を行う認識装置及び文字認識を
行う認識方法に関するものである。
【0002】
【従来の技術】文字認識分野には,文字毎に,文字カテ
ゴリに属しているすべての学習サンプルを用いて該文字
の標準文字パターンを求め,求められた標準文字パター
ンを認識辞書に記憶しておく。認識するとき,入力され
た未知文字パターンを認識辞書に格納されているすべて
の標準文字パターンと比較し,もっとも近いものが認識
の結果として出力される方法がもっとも一般的な認識方
法である。ここで,文字特徴量の選択方法,標準文字パ
ターンの作成方法,距離尺度或いは類似度尺度は認識精
度を左右する重要な要素である。
【0003】標準文字パターンの作成方法について,各
文字毎に,文字カテゴリに属しているすべての学習サン
プルの中心値を該文字の標準文字パターンとして認識辞
書に記憶させ,認識辞書を作成する方法がある。しか
し,文字カテゴリに属している学習サンプルの分布がば
らつき,かつ数が多い場合は,認識率が低いという問題
点がある。
【0004】認識率を上げるために,各文字毎に複数の
標準文字パターンを用いて認識を行う方法がある。例え
ば,特開昭63−129488号公報には,マルチフォ
ント文字を認識するために,各文字毎に複数の標準文字
パターンを認識辞書に記憶しておき,その認識辞書を用
いて認識を行う方法が提案された。また,学習サンプル
を学習しながら,対応している標準文字パターンを修正
し,或いは新しい標準文字パターンを追加して,認識辞
書を作成する方法がある。例えば,特開平7−2895
5号公報に記載されている方法が上記したものである。
しかし,これらの方法には,認識辞書に標準文字パター
ンの数が多いので,認識時間が長いという問題があり,
文字数が多い場合には,文字認識に要する処理時間は無
視できないものとなる。
【0005】認識時間を短縮するために,例えば,特開
平10−162103号公報には,手書き文字学習サン
プルを用いて手書き文字認識辞書,活字文字学習サンプ
ルを用いて活字文字認識辞書をそれぞれ作成しておき,
認識するとき,入力された未知文字が手書き文字か活字
文字かを判断し,手書き文字の場合は手書き文字認識辞
書,活字文字の場合は活字文字認識辞書を用いて認識を
行う方法が提案されている。しかし,文字フォントの種
類が多いので,文字フォントの種類をすべて区別するの
は容易でないし,特に手書き文字の場合は,学習サンプ
ルの分布が一定の法則に従わないので,1つの標準文字
パターンで文字カテゴリに属しているすべての学習サン
プルを表現するのは,認識率が低いという問題がある。
【0006】距離尺度或いは類似度尺度については,こ
れまで数多く提案されている。代表的なものは,シテイ
ブロック距離,ユークリッド距離,重み付きユークリッ
ド距離,マハラノビス距離,投影距離などが挙げられ
る。これらの方法は文献『画像の処理と認識』安居院猛
・長尾智晴(1992,昭晃堂)と,『基本多変量解
析』浅野長一郎・江島伸興(日本規格協会),“手書き
文字認識における投影距離法”池田正幸・田中英彦・岡
本達(情処学論,vol.24,no.1,pp.10
6−112,1983)に記載されている。文字X=
(x,x,…,x )と文字Y=(y,y
…,y)の間のシテイブロック距離D(X,Y)は
次の公式で計算する。ここで,|Z|はZの絶対値を表
す。
【0007】
【数2】
【0008】文字X=(x,x,…,x)と文字
Y=(y,y,…,y)の間のユークリッド距離
(X,Y)は次の公式で計算する。
【0009】
【数3】
【0010】文字iの学習サンプルをS,S,…。
とし,サンプルS,S,…。Sの中心値,す
なわち,文字iの標準文字パターンをUで表す。文字
X=(x,x,…,x)と標準文字パターンU
=(ui1,ui2,…,u in)間の重み付きユーク
リッド距離D(X,U)は次の公式で計算する。
【0011】
【数4】 ここで,
【0012】
【数5】 である。文字X=(x,x,…,x)と標準文字
パターンU=(ui1,ui2,…,uin)間のマ
ハラノビス距離D(X,U)は次の公式で計算す
る。
【0013】
【数6】 ここで,Σiは文字iの学習サンプルの共分散行列を表
し,Z−1は行列Zの逆行列であり,Zは行列Zの転
置行列である。パターンX=(x,x,…,x
と標準パターンU=(ui1,ui2,…,uin
間の投影距離D(X,U)は次の公式で計算する。
【0014】
【数7】 ここで,Φはパターンの学習サンプルから計算された
固有値を降順に並べたときにj番目に位置する固有値に
対応する固有ベクトルであり,(α,β)はベクトルα
とβの内積を表す。
【0015】シテイブロック距離,ユークリッド距離及
び重み付きユークリッド距離は比較的簡単に求められる
が,高い認識率を保証するのは困難である。マハラノビ
ス距離は,生起確率がχ分布に従ったデータを対象と
している距離であり,生起確率の高い分布の中心部分ほ
ど距離が近く計算される。しかし,実際の文字の学習サ
ンプルの分布はχ分布に従っているわけではないの
で,認識率を保証できない。また,文字の共分散行列を
記憶するため,認識辞書が巨大であり,莫大な計算時間
がかかるので,実用性が低い。
【0016】上述した従来技術には,2つの特徴があ
る。(1)1つ或いは複数の標準文字パターンで文字カ
テゴリを代表する;(2)文字パターンと文字パターン
間の距離,或いは類似度を用いて文字パターンを比較す
る。次に従来技術の特徴(1)と(2)は誤認が発生す
る重要な原因であることを示す。
【0017】文字カテゴリに属している学習サンプルは
一般に一定の分布に従わない,集中して固まっている場
合もあるし,ばらばらに分散している場合もある。1つ
の標準文字パターンで文字カテゴリを代表した場合は,
図27に示すように,文字Pの認識範囲は,該文字の標
準文字パターンを中心として(特徴(1)より),標準
文字パターンともっとも遠い該文字カテゴリに属してい
る学習サンプルと標準文字パターン間の距離を半径とす
る(特徴(2)より)多次元円E1になる。すなわち,
入力された未知文字パターンがE1範囲に入ると,文字
Pと認識される可能性が非常に高い。しかし,認識範囲
E1は実際の文字学習サンプルの分布範囲E2より大き
いため,多くの文字の認識範囲と重なってしまう。認識
するとき,入力された未知文字パターンが重なっている
範囲に入ると,間違って認識されることがある。例え
ば,図28に示すように,文字P1の実際の分布範囲E
4と文字P2の実際の分布範囲E6と重なっていない
が,文字P1の認識範囲E3と文字P2の認識範囲E5
と重なっている。入力された未知文字Xが文字P1の実
際の分布範囲E4に入るので,文字P1と認識されるは
ずであるが,XがP1とP2の重なっている認識範囲に
入っているので,文字P2と間違って認識される。すな
わち,Xと文字P2の標準文字パターン間の距離がXと
文字P1の標準文字パターン間の距離より小さいので,
文字P2と誤認される。
【0018】文字毎に複数の標準文字を用いて認識を行
う場合は,認識範囲が重なっている文字の数が少なくな
り,認識精度がある程度改善されるが,本質的な解決法
ではない。
【0019】文字の分布に従って文字の認識範囲を縮小
する,或いは文字の分布を想定して,認識範囲を想定し
た分布の形に近似するような距離関数,或いは類似度関
数を用いて認識を行う場合は(例えば,重み付きユーク
リッド距離,マハラノビス距離など),認識範囲が重な
っている文字の数が少なくなり,認識精度がある程度改
善されるが,分布が一定の規則に従わない文字に対し
て,高い認識率を保証できない問題点があり,本質的な
解決法ではない。
【0020】
【発明が解決しようとする課題】本発明は,上述した事
情に鑑みてなされたもので,文字カテゴリを代表する標
準文字パターンを用いて文字認識を行うときの認識率低
下問題を解決し,高い認識率かつ簡単な文字認識方法を
提供することを目的とするものである。
【0021】
【課題を解決するための手段】上記の課題を解決するた
め,本発明は,特許請求の範囲に記載のとおりの構成を
採用している。すなわち,本発明の具体的な構成では,
文字パターンのペリフェラル特徴量と,ストローク特徴
量と,メッシュ特徴量をそれぞれ抽出し,抽出された3
種類の特徴量を並べて該文字の複合特徴量を求め,各文
字毎に,文字カテゴリに属しているすべての学習サンプ
ルから,学習サンプル特徴量の各次元毎に,次元の値を
列挙し,列挙した値を変換し,変換された各次元の値を
該文字のカテゴリデータとして認識辞書に記憶させ,認
識辞書を作成しておく。認識するとき,文字パターンと
文字カテゴリ間の類似度の計算方法を用いて,入力され
た未知文字パターンと認識辞書に格納されているすべて
の文字カテゴリデータ間の類似度を計算し,もっとも類
似な文字カテゴリを認識の結果として出力することによ
り文字を高精度・高速かつ簡単に認識することができ
る。
【0022】また,本発明によれば,特徴量の分布に対
応するビット列データからなる文字カテゴリデータと,
認識対象の同様の文字パターンの文字パターンデータと
を比較して文字認識を行なうので精度よく認識を行なえ
る。さらに,複数種類の特徴量のビット列パターンを連
結させればより正確な認識が可能となる。
【0023】なお,本発明は装置および方法として実現
でき,またその方法の少なくとも一部をコンピュータプ
ログラムとして実装することができる。このコンピュー
タプログラムを記録した記録媒体(プログラムパッケー
ジ)や,当該コンピュータプログラムをコンピュータシ
ステムにインストールするためのコンピュータプログラ
ムを記録した記録媒体が,本発明の技術的な範囲に含ま
れることはもちろんである。
【0024】
【発明の実施の形態】図1は,本発明の認識装置の実施
の一形態を示すブロック図である。図中,1は1文字分
の文字画像を入力する手段,2は文字のペリフェラル特
徴量を抽出する手段,3は文字のストローク特徴量を抽
出する手段,4は文字のメッシュ特徴量を抽出する手
段,5は文字の複合特徴量を求める手段,6は文字パタ
ーンと文字カテゴリ間の類似度を計算する手段,7は認
識手段,8は認識辞書作成手段,8aは認識辞書を格納
する手段,9は文字カテゴリ作成手段,10は記憶手段
である。
【0025】メモリM1,M2及びM3は,それぞれ特
徴量抽出手段2,3,4で抽出されたペリフェラル特徴
量,ストローク特徴量及びメッシュ特徴量を格納する。
メモリM4は,複合特徴量を求める手段5で求められた
文字の複合特徴量を格納する。メモリM5は,認識辞書
から認識手段7で検出された入力された未知文字パター
ンともっとも類似な文字の名前とカテゴリデータを格納
する。
【0026】特徴量抽出手段2は,文字画像入力手段1
で入力された1文字分の文字画像をそれぞれ横に2A‐
1区分,縦に2A‐1区分に分割し,文字画像の幅或い
は高さの1/Pを各区分の走査範囲として,各区分を走
査してペリフェラル特徴量を抽出する。特徴量格納手段
2aは前記抽出されたペリフェラル特徴量をメモリM1
に格納する。
【0027】特徴量抽出手段3は,文字画像入力手段1
で入力された1文字分の文字画像をそれぞれ横に2A‐
1区分,縦に2A‐1区分に分割し,各区分の走査範囲
を文字画像の幅或いは高さとして,各区分を走査してス
トローク特徴量を抽出する。特徴量格納手段3aは前記
抽出されたストローク特徴量をメモリM2に格納する。
【0028】特徴量抽出手段4は,文字画像入力手段1
で入力された1文字分の文字画像をそれぞれサイズがb
画像*b画像の子領域B個,2C個,D個に分割し,各
子領域を走査してメッシュ特徴量を抽出する。特徴量格
納手段4aは前記抽出されたメッシュ特徴量をメモリM
3に格納する。
【0029】複合特徴量を求める手段5は,前記抽出さ
れた3種類の特徴量を並べ,1つの特徴量として求め
る。複合特徴量格納手段5aは前記求められた複合特徴
量をメモリM4に格納する。図2は文字の複合特徴量5
0を示している。複合特徴量50がペリフェラル特徴量
51,ストローク特徴量52,メッシュ特徴量53から
構成されている。
【0030】文字カテゴリデータ作成手段9は,文字カ
テゴリに属しているすべての学習サンプルを用いて文字
カテゴリデータを作成する。作成された各文字カテゴリ
データを用いて,認識辞書作成手段8で認識辞書を作成
する。作成された認識辞書を認識辞書格納手段8aで格
納する。図3は認識辞書内の認識辞書データを示す図で
ある。認識辞書データ60は,すべての文字(m個)の
データ61〜6mから構成されている。各文字のデータ
は文字の名前と文字カテゴリデータのベクトルから構成
されている。
【0031】認識手段7は,類似度計算手段6を用い
て,認識辞書に格納されている文字カテゴリデータの中
から,入力され未知文字パターンともっとも類似な文字
カテゴリを求め,その結果をメモリM5に記憶させる。
記憶手段10は,認識手段7で認識された文字の名前と
カテゴリデータを格納する。
【0032】次に本発明の文字認識装置の装置適用例と
して,情報端末装置に適用させた場合の装置構成につい
て説明する。図4は本発明の文字認識装置を情報端末装
置に適用させた場合の装置構成を示す図である。
【0033】情報端末装置70は,キーボート71,外
部記憶装置72,ディスプレイ73,プロセッサ部74
から構成される。キーボート71は,ユーザが操作を指
示するための入力装置であり,その他の入力装置が付加
されていてもよい。外部記憶装置72は,入力された未
知文字パターンのデータや,認識辞書のデータや,認識
結果や,ソフトウェアを格納する。また,特徴量格納手
段2a,3a,4a,複合特徴量格納手段5a,認識辞
書格納手段8aをこの外部記憶装置72の一部として構
成することができる。さらに,記憶手段10によって認
識された文字の名前とカテゴリデータを格納してもよ
い。外部記憶装置72の具体例として,例えばハードデ
ィスクなどで構成することができる。ディスプレイ73
は,ユーザに対するメッセージや認識文字のデータ,認
識の結果などを表示するための出力装置である。もちろ
ん他の出力装置が付加されていてもよい。プロセッサ部
74は,外部記憶装置72に格納されているソフトウェ
アなどに従って,実際の処理を行う。プロセッサ部74
は,具体的にマイクロプロセッサや,パーソナルコンピ
ュータなどのコンピュータシステムで構成することがで
きる。そして,文字特徴量抽出手段2,3,4,複合特
徴量を求める手段5,文字カテゴリデータ作成手段9,
類似度計算手段6,認識手段7は,このプロセッサ部7
4の上で動作するソフトウェアによって構成することが
できる。
【0034】次に本発明の文字認識装置の動作をさらに
詳細に説明する。まず,特徴量抽出手段2について説明
する。
【0035】図5は特徴量抽出手段2の実施の一形態を
示すブロック図である。メモリM21〜メモリM24は
文字画像入力手段1で入力された1文字分の文字画像を
記憶する。横領域分割手段21は,メモリM21に記憶
している1文字分の文字画像を横にA区分に分割する。
例えば,図8(a)は前記文字画像を横に4(A=4)
区分に分割した様子を示している。横領域分割手段22
は,前記横領域分割手段21で分割されたA区分に対し
て,k(k=1,2,…,A‐1)区分目の下半分とk
+1区分目の上半分を1区分とし,メモリM22に記憶
している1文字分の文字画像を横にA‐1区分に分割す
る。例えば,図8(b)は前記文字画像を横に3(A‐
1=4‐1=3)区分に分割した様子を示している。縦
領域分割手段23は,メモリM23に記憶している1文
字分の文字画像を縦にA区分に分割する。例えば,図9
(a)は前記文字画像を縦に4(A=4)区分に分割し
た様子を示している。縦領域分割手段24は,前記縦領
域分割手段23で分割されたA区分に対して,k(k=
1,2,…,A‐1)区分目の右半分とk+1区分目の
左半分を1区分とし,メモリM24に記憶している1文
字分の文字画像を縦に3(A‐1=4‐1=3)区分に
分割した様子を示している。ここで,横区分数と縦区分
数は異なってもかまわない。
【0036】走査範囲制御手段26は,横区分に対して
前記文字画像の外接矩形の左辺と右辺の計2辺から文字
方向に文字の幅の1/Pまで走査することを制御し,縦
区分に対して前記文字画像の外接矩形の上辺と下辺の計
2辺から文字方向に文字の高さの1/Pまで走査するこ
とを制御する。ここで,Pは正整数である。
【0037】特徴抽出手段25は,まず,領域分割手段
21,22により分割された横の2A‐1区分の各区分
毎に,前記走査範囲の制限手段26によって制限された
走査範囲において,文字画像の左辺からa回走査し(a
=前記文字画像の高さ/A),最初に文字を構成する画
素(黒画素)にあたるまでの背景画像の画素数を計数
し,a回走査して計数された画素数の平均値を求める。
続いて,領域分割手段21,22により分割された横の
2A‐1区分の各区分毎に,前記走査範囲の制限手段2
6によって制限された走査範囲において,文字画像の右
辺からa回走査し(a=前記文字画像の高さ/A),最
初に文字を構成する画素(黒画素)にあたるまでの背景
画像の画素数を計数し,a回走査して計数された画素数
の平均値を求める。また,領域分割手段23,24によ
り分割された縦の2A‐1区分の各区分毎に,前記走査
範囲の制限手段26によって制限された走査範囲におい
て,文字画像の上辺からa回走査し(a=前記文字画像
の幅/A),最初に文字を構成する画素(黒画素)にあ
たるまでの背景画像の画素数を計数し,a回走査して計
数された画素数の平均値を求める。最後に,領域分割手
段23,24により分割された縦の2A‐1区分の各区
分毎に,前記走査範囲の制限手段26によって制限され
た走査範囲において,文字画像の下辺からa回走査し
(a=前記文字画像の幅/A),最初に文字を構成する
画素(黒画素)にあたるまでの背景画像の画素数を計数
し,a回走査して計数された画素数の平均値を求める。
図10(a),(b)は,A=4,P=3のとき,領域
分割手段21,22により分割された横7(2A‐1)
区分の特徴量を抽出する様子を示す図である。図10
(c),(d)は,A=4,P=3のとき,領域分割手
段23,24により分割された縦7(2A‐1)区分の
特徴量を抽出する様子を示す図である。
【0038】記憶手段2aは,特徴量抽出手段25によ
って抽出された特徴量を図1に示すメモリM1に格納す
る。
【0039】次に特徴量抽出手段3について説明する。
図6は特徴量抽出手段3の実施の一形態を示すブロック
図である。メモリM31〜メモリM34は文字画像入力
手段1で入力された1文字分の文字画像を記憶する。
【0040】横領域分割手段31は,メモリM31に記
憶している1文字分の文字画像を横にA区分に分割す
る。例えば,図8(a)は前記文字画像を横に4(A=
4)区分に分割した様子を示している。横領域分割手段
32は,前記横領域分割手段31で分割されたA区分に
対して,k(k=1,2,…,A‐1)区分目の下半分
とk+1区分目の上半分を1区分とし,メモリM32に
記憶している1文字分の文字画像を横にA‐1区分に分
割する。例えば,図8(b)は前記文字画像を横に3
(A‐1=4‐1=3)区分に分割した様子を示してい
る。縦領域分割手段33は,メモリM33に記憶してい
る1文字分の文字画像を縦にA区分に分割する。例え
ば,図9(a)は前記文字画像を縦に4(A=4)区分
に分割した様子を示している。縦領域分割手段34は,
前記縦領域分割手段33で分割されたA区分に対して,
k(k=1,2,…,A‐1)区分目の右半分とk+1
区分目の左半分を1区分とし,メモリM34に記憶して
いる1文字分の文字画像を縦に3(A‐1=4‐1=
3)区分に分割した様子を示している。ここで,横区分
数と縦区分数は異なってもかまわない。
【0041】特徴抽出手段35は,まず,領域分割手段
31,32により分割された横の2A‐1区分の各区分
毎に,前記文字画像の幅を走査範囲として,文字画像の
左辺からa回走査し(a=前記文字画像の高さ/A),
背景画素(白画素)から文字を構成する画素(黒画素)
に,及び文字を構成する画素(黒画素)から背景画素
(白画素)に変化する回数を計数し,a回走査して計数
された回数の平均値を求める。続いて,領域分割手段3
3,34により分割された縦の2A‐1区分の各区分毎
に,文字画像の高さを走査範囲として,文字画像の上辺
からa回走査し(a=前記文字画像の幅/A),背景画
素(白画素)から文字を構成する画素(黒画素)に,及
び文字を構成する画素(黒画素)から背景画素(白画
素)に変化する回数を計数し,a回走査して計数された
回数の平均値を求める。図11(a),(b)は,A=
4のとき,領域分割手段31,32により分割された横
7(2A‐1)区分の特徴量を抽出する様子を示す図で
ある。図11(c),(d)は,A=4のとき,領域分
割手段33,34により分割された縦7(2A‐1)区
分の特徴量を抽出する様子を示す図である。
【0042】記憶手段3aは,特徴量抽出手段35によ
って抽出された特徴量を図1に示すメモリM2に格納す
る。
【0043】次に特徴量抽出手段4について説明する。
図7は特徴量抽出手段4の実施の一形態を示すブロック
図である。メモリM41〜メモリM44は文字画像入力
手段1で入力された1文字分の文字画像を記憶する。
【0044】子領域分割手段41は,メモリM41に記
憶している1文字分の文字画像をサイズがb画素*b画
素の子領域B個に分割する。例えば,図12(a)は子
領域分割手段41で前記文字画像を16(B=16)個
の子領域に分割した様子を示している。子領域分割手段
42は,前記子領域分割手段41で分割されたB個の子
領域に対して,前記文字画像の右側にある子領域以外の
子領域毎に,子領域の右半分と右隣の子領域の左半分を
1子領域とし,C個の子領域に分割する。図12(b)
は子領域分割手段42で前記文字画像を12(B=16
のとき)個の子領域に分割した様子を示している。子領
域分割手段43は,前記子領域分割手段41で分割され
たB個の子領域に対して,前記文字画像の下側にある子
領域以外の子領域毎に,子領域の下半分と下隣の子領域
の上半分を1子領域とし,C個の子領域に分割する。図
12(c)は子領域分割手段43で前記文字画像を12
(B=16のとき)個の子領域に分割した様子を示して
いる。子領域分割手段44は,前記子領域分割手段42
で分割されたC個の子領域に対して,前記文字画像の下
側にある子領域以外の子領域毎に,子領域の下半分と下
隣の子領域の上半分を1子領域とし,D個の子領域に分
割する。図12(d)は子領域分割手段44で前記文字
画像を9(B=16,C=12のとき)個の子領域に分
割した様子を示している。ここで,bとBは共に正整数
であり,b*B=文字画像の幅(或いは高さ)である。
【0045】特徴抽出手段45は,領域分割手段41,
42,43,44によりそれぞれ分割されたB,C,
C,D個の子領域の各子領域毎に,子領域画像の左辺か
ら走査し,文字を構成する画素(黒画素)数を計数する
【0046】記憶手段4aは,特徴量抽出手段45によ
って抽出された特徴量を図1に示すメモリM3に格納す
る。
【0047】次に文字の複合特徴量を求める手段5につ
いて説明する。複合特徴量を求める手段5は,特徴抽出
手段2,特徴抽出手段3及び特徴抽出手段4によって抽
出された特徴量を並べ,図1に示すメモリM4に記憶さ
せる。
【0048】次に認識辞書格納手段8aで文字カテゴリ
データを格納するときの文字カテゴリデータの作成手段
9について説明する。図13は文字カテゴリデータの作
成手段9の実施の一形態を示すブロック図である。
【0049】メモリM90は1文字のすべての学習サン
プル特徴量を格納している。メモリM91,M92,M
93,…,M9n(nは特徴量ベクトルの次元数)は,
それぞれ特徴量の各次元の列挙した値を記憶する。
【0050】文字サンプル特徴量の入力手段90は,1
文字のすべての学習サンプル特徴量を入力し,メモリM
90に記憶させる。
【0051】列挙手段91は,メモリM90に格納して
いる1文字のすべての学習サンプルの特徴量から,次元
毎に,次元のとりうる値を列挙し,列挙した各次元の値
をそれぞれメモリM91,M92,M93,…,M9n
記憶させる。
【0052】特徴量の変化範囲決定手段94は,文字画
像分割手段41(42,43,44)で分割された子領
域内の画素数b(メッシュ特徴量の最大値)を文字特
徴量の変化範囲とする。
【0053】カテゴリデータの表現手段93は,図14
に示すように,n次元のベクトルで表現し,各次元をb
+1個のビットで表す。
【0054】列挙した値を変換する手段92は,メモリ
M91,M92,M93,…,M9nに格納している各
次元の列挙した値を変換する。メモリM9i(i=1,
2,…,n)に記憶しているi次元目の列挙した値{e
i1,ei2,.…,eis}に対して,カテゴリデー
タのi次元目の第eij+1ビットの値を“1”と設定
し(j=1,2,…,s),その以外のビットの値を
“0”と設定する。
【0055】格納手段8aは,求められたカテゴリデー
タを認識辞書に格納させる。
【0056】図15(a)は,文字カテゴリに属してい
る5つの学習サンプルを示している。ここで,文字特徴
量の次元数n=6であり,文字特徴量の変化範囲が16
である。従って,該文字カテゴリデータを6次元のベク
トルで表し,各次元を17bitsで表す。図15
(b)は,列挙手段91で列挙された各次元の値を示し
ている。例えば,列挙された1次元目の値は3,4,
6,8であり,2次元目の値は8,10,11,12で
ある。図15(c)は,変換手段92で求められた文字
カテゴリデータを示している。
【0057】文字カテゴリデータの作成方法から分かる
ように,文字カテゴリデータは,n次元空間に,文字カ
テゴリに属しているすべての学習サンプルが各次元毎に
現れる位置の範囲を示している。例えば,図16は文字
カテゴリに属しているすべての学習サンプルが1次元
目,2次元目に現れる位置範囲を示している。ここで,
a1,a2は1次元目の位置範囲であり,b1,b2は
2次元目の位置範囲である。各次元に現れる位置範囲は
連続の場合もあるし,離散の場合もある。例えば,図1
5(c)に示している文字カテゴリデータに対して,1
次元に現れる位置範囲は3〜4,6,8であり,2次元
に現れる位置範囲は8,10〜12である。3,5,6
次元の位置範囲は連続的なものであり,1,2,4次元
の位置範囲は離散的なものである。文字カテゴリデータ
で示す該文字カテゴリに属している学習サンプルが各次
元毎に現れる位置範囲は,該文字の認識範囲である。図
16に示す4つの長方形は該文字の認識範囲である。図
に示すように,この認識範囲は比較的に文字の学習サン
プルの分布に近いので,認識範囲が重なっている文字の
数を大幅に削減することができる。例えば,図17
(a)に示している7つの文字P1,P2,…,P7に
ついて,従来の技術により,P1〜P7の認識範囲は図
17(a)に示している点線円E11〜E17である。
E11はE12及びE16と,E12はE11,E1
3,E15及びE16と,E13はE12及びE14
と,E16はE11,E12,E15,E17と重なっ
ている。しかし,本発明により,文字の認識範囲は図1
7(b)に示すE21〜E27である。図から分かるよ
うに,E21,E22,…,E27は相互に重なってい
ない。
【0058】次に文字パターンと文字カテゴリ間の類似
度を計算する手段6について説明する。類似度の計算手
段6は,メモリM4に格納されている未知文字X=(x
,x,…,x)と認識辞書に格納している文字カ
テゴリデータCat(i)=(cat(i),cat
(i),…,cat(i))間の類似度S(X,C
at(i))は次のように計算される。
【0059】
【数8】 ここで,f(a,b)=1, if bのa+1ビット
目の値=1;f(a,b)=0, if bのa+1ビ
ット目の値=0である。
【0060】関数f()の定義から分かるように,入力
された未知文字Xのj次元目の値x はカテゴリデータ
のj次元目の位置範囲に入ると,類似度がすこし高くな
る。逆に,入力された未知文字Xのj次元の値xはカ
テゴリデータのj次元目の位置範囲以外に入ると,類似
度がすこし低くなる。すべての次元に対して,f()=
1なら,類似度=1であるので,カテゴリに属している
すべての学習サンプルと該文字のカテゴリデータ間の類
似度は同じであり,“1”である。認識するとき,未知
文字Xが文字カテゴリデータで示す文字Pの認識範囲に
入ると,S(X,P)=1になり,文字Pが認識の結果
として出力される。これは従来技術で実現できなかった
部分である。
【0061】本発明の文字カテゴリデータ作成方法及び
文字パターンと文字カテゴリ間の類似度の計算方法は,
人間の認識機能に近似するものである。人間はものの特
徴を思い出すときに,ものの各特徴及び特徴量の変化範
囲が思い出される。例えば,“リンゴ”の特徴を思い出
すとき,“色は赤い,黄色い或いは青いなどがあり,黒
はないこと;味は甘い,甘酢っぱいなどがあり,辛いは
ないこと;重さが150グラム位〜450グラム位;”
などが自然に思い出される。つまり,人間は学習すると
き,学習対象の各特徴量を取って,各特徴及び特徴量の
変化範囲を記憶していることが考えられる。例えば,い
ろんな“リンゴ”を学習した後,“色”,“形”,
“味”,“重さ”,“高さ”,“幅”等の特徴,“色”
特徴量の変化範囲が“赤色,青色,黄色”,“重さ”特
徴量の変化範囲が“150グラム位〜400グラム
位”,“高さ”特徴量の変化範囲が“6cm位〜12c
m位”などが記憶されるはずである。認識するとき,取
れた特徴量の値は学習した“リンゴ”の特徴量の変化範
囲内の場合は,“リンゴ”として認識されるはずであ
る。勿論,人間は連想という機能を持っているので,未
学習したリンゴも認識できる。これは,未学習したリン
ゴは,学習したリンゴに似ているからである。
【0062】次に認識手段7について説明する。認識手
段7は,文字と文字カテゴリ間の類似度を計算する手段
6を用いて,メモリM4に格納している未知文字パター
ンと,認識辞書に格納されているすべての文字カテゴリ
データ間の類似度を計算し,未知文字ともっとも類似な
文字カテゴリを認識の結果としてメモリM5に出力す
る。
【0063】次に入力された1文字分の文字画像から,
特徴量抽出手段2で文字のペリフェラル特徴量を抽出す
るときの動作をフローチャートを用いて説明する。図1
8〜図21は特徴量抽出手段2の動作手順を示すフロー
チャートである。図18は文字画像を横に分割された2
A‐1区分の各区分毎に,区分の左辺から該区分を走査
して,該分区の特徴量を抽出する動作手順のフローチャ
ートである。 〔S1〕:未処理の区分に移動し,該区分の行数の初期
値をk=1と設定し,該区分の特徴量を表す変数Fea
を初期化する。 〔S2〕:各区分に対して,該区分の一番上の行の一番
左の画素を取り出す。 〔S3〕:取り出した画素が背景画素であるかどうかを
判定し,背景画像の場合は,S4へ行く。背景画素でな
い場合は,S7へ行く。 〔S4〕:Fea=Fea+1。 〔S5〕:取り出した画素が該行の左側から該行の“幅
/P”番目の画素であるかどうかを判定し,該行の“幅
/P”番目の画素である場合は,S6へ行く。そうでは
ない場合は,S7へ行く。 〔S6〕:取り出した画素の右の画素を取り出す。S3
へ行く。 〔S7〕:下の行に移動し,k=k+1である。S8へ
行く。 〔S8〕:該区分の全行が全て処理されたかどうかを判
定し,全部処理された場合は,S9へ行く。また残った
場合は,S2へ行く。 〔S9〕:該区分特徴量を求める。S10へ行く。 〔S10〕:横の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S1へ行く。
【0064】図19は文字画像を横に分割された2A‐
1区分の各区分毎に,区分の右辺から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S11〕:未処理の区分に移動し,該区分の行数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S12〕:各区分に対して,該区分の一番上の行の一
番右の画素を取り出す。 〔S13〕:取り出した画素が背景画素であるかどうか
を判定し,背景画像の場合は,S14へ行く。背景画素
でない場合は,S17へ行く。 〔S14〕:Fea=Fea+1。 〔S15〕:取り出した画素が該行の右側から該行の
“幅/P”番目の画素であるかどうかを判定し,該行の
“幅/P”番目の画素である場合は,S16へ行く。そ
うではない場合は,S17へ行く。 〔S16〕:取り出した画素の左の画素を取り出す。S
13へ行く。 〔S17〕:下の行に移動し,k=k+1である。S1
8へ行く。 〔S18〕:該区分の全行が全て処理されたかどうかを
判定し,全部処理された場合は,S19へ行く。また残
った場合は,S12へ行く。 〔S19〕:該区分特徴量を求める。S20へ行く。 〔S20〕:横の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S11へ行く。
【0065】図20は文字画像を縦に分割された2A‐
1区分の各区分毎に,区分の上端から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S21〕:未処理の区分に移動し,該区分の列数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S22〕:各区分に対して,該区分の一番左の列の一
番上の画素を取り出す。 〔S23〕:取り出した画素が背景画素であるかどうか
を判定し,背景画像の場合は,S24へ行く。背景画素
でない場合は,S27へ行く。 〔S24〕:Fea=Fea+1。 〔S25〕:取り出した画素が該列の上端から該列の
“高さ/P”番目の画素であるかどうかを判定し,該列
の“高さ/P”番目の画素である場合は,S26へ行
く。そうではない場合は,S27へ行く。 〔S26〕:取り出した画素の下の画素を取り出す。S
23へ行く。 〔S27〕:右の列に移動し,k=k+1である。S2
8へ行く。 〔S28〕:該区分の全列が全て処理されたかどうかを
判定し,全部処理された場合は,S29へ行く。また残
った場合は,S22へ行く。 〔S29〕:該区分特徴量を求める。S30へ行く。 〔S30〕:縦の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S21へ行く。
【0066】図21は文字画像を縦に分割された2A‐
1区分の各区分毎に,区分の下端から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S31〕:未処理の区分に移動し,該区分の列数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S32〕:各区分に対して,該区分の一番左の列の一
番下の画素を取り出す。 〔S33〕:取り出した画素が背景画素であるかどうか
を判定し,背景画像の場合は,S34へ行く。背景画素
でない場合は,S37へ行く。 〔S34〕:Fea=Fea+1。 〔S35〕:取り出した画素が該列の下端から該列の
“高さ/P”番目の画素であるかどうかを判定し,該列
の“高さ/P”番目の画素である場合は,S36へ行
く。そうではない場合は,S37へ行く。 〔S36〕:取り出した画素の上の画素を取り出す。S
33へ行く。 〔S37〕:右の列に移動し,k=k+1である。S3
8へ行く。 〔S38〕:該区分の全列が全て処理されたかどうかを
判定し,全部処理された場合は,S39へ行く。また残
った場合は,S32へ行く。 〔S39〕:該区分特徴量を求める。S40へ行く。 〔S40〕:縦の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S31へ行く。
【0067】次に入力された1文字分の文字画像から,
特徴量抽出手段3で文字のストローク特徴量を抽出する
ときの動作をフローチャートを用いて説明する。図22
および図23は特徴量抽出手段3の動作手順を示すフロ
ーチャートである。図22は文字画像を横に分割された
2A‐1区分の各区分毎に,区分の左辺から該区分を走
査して,該分区の特徴量を抽出する動作手順のフローチ
ャートである。 〔S41〕:未処理の区分に移動し,該区分の行数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S42〕:各区分に対して,該区分の一番上の行の一
番左の画素及び該画素の右隣の画素を取り出す。 〔S43〕:取り出した画素が該画素の左隣の画素と同
じかどうかを判定し,同じの場合は,S46へ行く。同
じではない場合は,S44へ行く。 〔S44〕:Fea=Fea+1。 〔S45〕:該行の画素がすべて処理された場合は,S
47へ行く。そうではない場合は,S46へ行く。 〔S46〕:取り出した画素の右の画素を取り出す。S
43へ行く。 〔S47〕:下の行に移動し,k=k+1である。S4
8へ行く。 〔S48〕:該区分の全行が全て処理されたかどうかを
判定し,全部処理された場合は,S49へ行く。また残
った場合は,S42へ行く。 〔S49〕:該区分特徴量を求める。S50へ行く。 〔S50〕:横の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S41へ行く。
【0068】図23は文字画像を縦に分割された2A‐
1区分の各区分毎に,区分の上端から該区分を走査し
て,該分区の特徴量を抽出する動作手順のフローチャー
トである。 〔S51〕:未処理の区分に移動し,該区分の列数の初
期値をk=1と設定し,該区分の特徴量を表す変数Fe
aを初期化する。 〔S52〕:各区分に対して,該区分の一番左の列の一
番上の画素及び該画素の下の画素を取り出す。 〔S53〕:取り出した画素が該画素の上の画素と同じ
かどうかを判定し,同じの場合は,S56へ行く。同じ
ではない場合は,S54へ行く。 〔S54〕:Fea=Fea+1。 〔S55〕:該列の画素がすべて処理された場合は,S
57へ行く。そうではない場合は,S56へ行く。 〔S56〕:取り出した画素の下の画素を取り出す。S
53へ行く。 〔S57〕:右の列に移動し,k=k+1である。S5
8へ行く。 〔S58〕:該区分の全列が全て処理されたかどうかを
判定し,全部処理された場合は,S59へ行く。また残
った場合は,S52へ行く。 〔S59〕:該区分特徴量を求める。S60へ行く。 〔S60〕:縦の2A‐1区分は全て処理されたかどう
かを判定し,全部処理された場合は,終了する。もた残
った区分があれば,S51へ行く。
【0069】次に入力された1文字分の文字画像から,
特徴量抽出手段4で文字のメッシュ特徴量を抽出すると
きの動作をフローチャートを用いて説明する。図24は
特徴量抽出手段4の動作手順を示すフローチャートであ
る。 〔S61〕:各子領域に対して,該子領域の一番上の行
の一番左の画素を取り出す。 〔S62〕:取り出した画素が背景画素であるかどうか
を判定し,背景画素の場合は,S65へ行く。背景画素
ではない場合は,S63へ行く。 〔S63〕:該子領域の特徴量を1に増やす。 〔S64〕:該行の画素がすべて処理されたかどうかを
判定する。すべて処理された場合は,S66へ行く。そ
うではない場合は,S65へ行く。 〔S65〕:取り出した画素の右の画素を取り出す。S
62へ行く。 〔S66〕:下の行に移動する。S67へ行く。 〔S67〕:該子領域の全行が全て処理されたかどうか
を判定し,全部処理された場合は,S68へ行く。また
残った場合は,S61へ行く。 〔S68〕:B+2C+D個の子領域は全て処理された
かどうかを判定し,全部処理された場合は,終了する。
もた残った子領域があれば,S69へ行く。 〔S69〕:未処理の子領域に移動する。S61へ行
く。
【0070】次に文字カテゴリに属しているすべての学
習サンプルから,文字カテゴリデータを作成する手段9
の動作をフローチャートを用いて説明する。図25は文
字カテゴリデータ作成手段9の動作手順を示すフローチ
ャートである。 〔S70〕:文字の個数をmと設定し,文字特徴量ベク
トル及びカテゴリデータベクトルの次元数をnと設定す
る。文字の学習順番i=1と設定する。 〔S71〕:文字iの学習サンプルの個数をa(i)と
設定し,次元数j=1と設定する; 〔S72〕:学習サンプル特徴量のj次元目の列挙した
値を記憶する集合Sを空にする。カテゴリデータのj次
元目の値Cat(i,j)=0と設定し,サンプルの学
習順番k=1と設定する。 〔S73〕:文字iの第k番目の学習サンプルのj次元
目の値Sam(i,k,j)が集合Sに含まれるかどう
かを判断する。含まれている場合は,S75へ行く。含
まれていない場合はS74へ行く。 〔S74〕:Sam(i,k,j)を集合Sにに加え
る。 〔S75〕:次に学習するサンプルを設定する。 〔S76〕:文字iのすべての学習サンプルを学習した
場合は,S77へ行く。学習するサンプルはまた残った
場合は,S73へ行く。 〔S77〕:集合Sから1の要素eを取り出す。S78
へ行く。 〔S78〕:Cat(i,j)の第e+1ビットに
“1”を代入する。 〔S79〕:集合Sから要素eを削除する。S80へ行
く。 〔S80〕:集合Sが空であるかどうかを判定する。空
の場合は,S81へ行く。空ではない場合は,S77へ
行く。 〔S81〕:次に学習する次元を設定する。 〔S82〕:すべての次元が処理されたら,S72へ行
く。そうではない場合は,S83へ行く。 〔S83〕:次に学習する文字を設定する。 〔S84〕:すべての文字が学習された場合は,終了す
る。学習文字がまた残った場合は,S71へ行く。
【0071】次に認識手段7の動作をフローチャートを
用いて説明する。図26は認識手段7の動作手順を示す
フローチャートである。 〔S90〕:認識辞書に格納している文字カテゴリデー
タの個数をmと設定し,文字カテゴリデータの比較順番
i=1,最大類似度の初期値Smax=0,認識結果を
記憶する変数Res=0にする。 〔S91〕:類似度計算手段6を用いて,入力された未
知文字Xと認識辞書に格納されている文字iのカテゴリ
データCat(i)間の類似度S(X,Cat(i))
を計算する。 〔S92〕:類似度S(X,Cat(i))が最大類似
度Smaxより大きい場合は,S93へ行く。大きくな
い場合は,S94へ行く。 〔S93〕:類似度S(X,Cat(i))を最大類似
度Smaxにコピーし,文字iを認識の結果としてRe
sに記憶させる。 〔S94〕:次に比較する文字カテゴリデータを設定す
る。 〔S95〕:すべての文字カテゴリデータが比較された
場合は,終了する。比較する文字カテゴリデータがまた
残った場合は,S91へ行く。
【0072】次に本発明の認識装置を用いて,具体的に
文字を認識したときの認識率及び認識速度について説明
する。
【0073】文字の学習サンプルは,紙に印刷された文
字画像をスキャナでコンピュータに入力されたものであ
る。文字の個数は3455個である。13種類の文字フ
ォントから文字毎に平均700個の学習サンプルを用意
した。A=16,B=64,C=56,D=49と設定
し,本発明の特徴量抽出手段を用いて,411次元の複
合特徴量(124次元のペリフェラル特徴量+62次元
のストローク特徴量+225次元のメッシュ特徴量)を
抽出した。
【0074】文字毎に,該文字のすべての学習サンプル
から該文字のカテゴリデータを求め,認識辞書を作成す
る。従来の認識方法と比較するために,文字毎に,文字
カテゴリに属しているすべての学習サンプルの中心値を
求め,各次元毎に,重みwを求める。求められた文字
カテゴリの中心値を該文字の代表とし,認識辞書を作成
する。また,すべての文字に対して,文字カテゴリに属
しているすべての学習サンプルを用いて,該文字カテゴ
リの共分散行列,固有値及び固有ベクトルを求める。
【0075】本発明の認識方法及び従来の認識方法を用
いて,学習したサンプルを認識する実験を行った。従来
の認識方法は,それぞれシテイブロック距離,ユークリ
ッド距離,重み付きユークリッド距離,投影距離(J=
3)を用いて認識を行う方法である。次の表は実験の結
果を表している。
【0076】
【表1】
【0077】従来認識方法の中に,もっとも高い認識率
は97.8%であり,平均認識時間は88msであっ
た。本発明の認識方法の認識率は99.8%であり,平
均認識時間は21msであった。
【0078】従って,文字認識分野における未知文字を
認識する問題に対して,より高い認識精度かつ高速に文
字を認識することが可能になる。
【0079】以上の説明から明らかなように,本実施例
の認識装置は,文字の複合特徴量を抽出し,文字カテゴ
リに属しているすべての学習サンプルを用いて文字カテ
ゴリデータを求め,求められた文字カテゴリデータを認
識辞書に記憶させ認識辞書を作成しておく。文字を認識
するとき,文字パターンと文字カテゴリ間の類似度の計
算方法を用いて,入力された未知文字を前記作成された
認識辞書に格納されているすべての文字カテゴリと比較
し,もっとも類似な文字カテゴリを認識の結果として出
力される。これにより,入力された未知文字を高精度・
高速かつ簡単に認識することができる。
【0080】
【発明の効果】以上説明したように,本発明によれば,
特徴量の分布に対応するビット列データからなる文字カ
テゴリデータと,認識対象の同様の文字パターンの文字
パタンデータとを比較して文字認識を行なうので学習サ
ンプルの特徴量の分布に応じた類似となり,分布により
精度が落ちることがない。さらに,複数種類の特徴量の
ビット列パターンを連結させればより正確な認識が可能
となる。
【図面の簡単な説明】
【図1】 本発明の認識装置の実施の一形態を示すブロ
ック図である。
【図2】 文字の複合特徴量を示す図である。
【図3】 認識辞書内のデータを示す図である。
【図4】 本発明の認識装置の構成を示す図である。
【図5】 特徴量抽出手段2の実施の一形態を示すブロ
ック図である。
【図6】 特徴量抽出手段3の実施の一形態を示すブロ
ック図である。
【図7】 特徴量抽出手段4の実施の一形態を示すブロ
ック図である。
【図8】 横区分分割手段で分割された区分の様子を表
す図である。
【図9】 縦区分分割手段で分割された区分の様子を表
す図である。
【図10】 特徴量抽出手段2で文字“A”の特徴量を
抽出する様子を示す図である。
【図11】 特徴量抽出手段3で文字“A”の特徴量を
抽出する様子を示す図である。
【図12】 子領域分割手段で分割された子領域の様子
を表す図である。
【図13】 文字カテゴリデータの作成手段9の実施の
一形態を示すブロック図である。
【図14】 文字カテゴリデータの構造を示す図であ
る。
【図15】 文字カテゴリデータを求める方法の説明図
である。
【図16】 文字カテゴリデータの意味を説明する図で
ある
【図17】 従来技術及び本発明の技術による文字の認
識範囲を示す図である。
【図18】 特徴量抽出手段2の動作手順を示すフロー
チャートである。
【図19】 特徴量抽出手段2の動作手順を示すフロー
チャートである。
【図20】 特徴量抽出手段2の動作手順を示すフロー
チャートである。
【図21】 特徴量抽出手段2の動作手順を示すフロー
チャートである。
【図22】 特徴量抽出手段3の動作手順を示すフロー
チャートである。
【図23】 特徴量抽出手段3の動作手順を示すフロー
チャートである。
【図24】 特徴量抽出手段4の動作手順を示すフロー
チャートである。
【図25】 文字カテゴリデータの作成手段の動作手順
を示すフローチャートである。
【図26】 認識手段の動作手順を示すフローチャート
である。
【図27】 文字カテゴリに属している学習サンプルの
分布範囲と認識範囲を示す図である。
【図28】 従来技術で認識を行うときの問題点を示す
図である。
【符号の説明】
1 文字画像入力手段,2〜4 特徴量抽出手段,5
複合特徴量を求める手段,6 文字パターンとカテゴリ
間の類似度の計算手段,7 認識手段,9文字カテゴリ
データ作成手段,X 入力された未知文字,Cat
(i) 認識辞書に格納している文字iのカテゴリデー
タ。

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 文字カテゴリを表す参照用ビット列デー
    タを記憶する手段と,認識対象文字の文字パターンの特
    徴量から上記参照用ビット列データに対応する認識対象
    ビット列データを抽出する手段と,上記認識対象ビット
    列データと上記参照用ビット列データとを比較して上記
    認識対象文字の文字パターンが上記文字カテゴリに属す
    る尤度を算出する手段とを有することを特徴とする文字
    認識装置。
  2. 【請求項2】 相互に重ならない複数の部分範囲に特徴
    量の範囲を分割し,こらら部分範囲を上記参照用ビット
    列データのビットポジションに対応させ,上記文字カテ
    ゴリに属する学習サンプルの文字パターンの特徴量が所
    定回数以上出現する部分領域に対応するビットポジショ
    ンのビット値を所定の値とし,それ以外のビットポジシ
    ョンのビット値を他の値として,上記参照用ビット列デ
    ータが生成され,上記認識対象の特徴量が出現する部分
    領域に対応するビットポジションのビット値を上記所定
    の値とし,それ以外のビットポジションの値を上記他の
    値として,上記認識対象ビット列データを抽出すること
    を特徴とする請求項1に記載の文字認識装置。
  3. 【請求項3】 文字認識を行う文字認識装置において,
    文字パターンの複合特徴量を抽出する手段と,各文字毎
    に,文字カテゴリデータを作成する手段と,作成された
    文字カテゴリデータを用いて認識辞書を作成する手段
    と,文字パターンと文字カテゴリデータ間の類似度を計
    算する手段と,前記類似度の計算手段を用いて,入力さ
    れた未知文字パターンを認識辞書に格納されているすべ
    ての文字カテゴリデータと比較し,もっとも類似する文
    字カテゴリを認識の結果として出力することを特徴とす
    る文字認識装置。
  4. 【請求項4】 前記文字パターンの複合特徴量の抽出手
    段は,文字のペリフェラル特徴量を抽出する手段と,文
    字のストローク特徴量を抽出する手段と,文字のメッシ
    ュ特徴量を抽出する手段とを備えたことを特徴とする請
    求項3に記載された文字認識装置。
  5. 【請求項5】 前記文字のペリフェラル特徴量を抽出す
    る手段は,1文字分の文字画像を入力する手段と,前記
    文字画像を記憶する手段と,前記文字画像の領域を分割
    する手段と,文字の特徴量を取るための走査範囲の制限
    手段と,前記文字画像の背景画像の特徴を取る手段とを
    有することを特徴とする請求項4に記載された文字認識
    装置。
  6. 【請求項6】 前記文字画像の領域分割手段は,前記文
    字画像の領域を横にA区分に分割する手段と,前記横に
    分割されたA区分に対して,k(k=1,2,…,A‐
    1)区分目の下半分とk+1区分目の上半分を1区分と
    し,横にA‐1区分に分割する手段と,前記文字画像の
    領域を縦にA区分に分割する手段と,前記縦に分割され
    たA区分に対して,k(k=1,2,…,A‐1)区分
    目の右半分とk+1区分目の左半分を1区分とし,縦に
    A‐1区分に分割する手段を要することを特徴とする請
    求項5に記載された文字認識装置。
  7. 【請求項7】 前記走査範囲の制限手段は,前記文字画
    像の外接矩形の左辺と右辺の計2辺から文字方向に文字
    の幅の1/Pまで走査する走査範囲の制限手段と前記文
    字画像の外接矩形の上辺と下辺の計2辺から文字方向に
    文字の高さの1/Pまで走査する走査範囲の制限手段を
    有することを特徴とする請求項5に記載された文字認識
    装置。
  8. 【請求項8】 前記文字画像の背景画像の特徴を取る手
    段は,前記文字画像の領域分割手段により分割された横
    の2A‐1区分の各区分毎に,前記走査範囲の制限手段
    によって制限された走査範囲において,文字画像の左辺
    からa回走査し(a=前記文字画像の高さ/A),最初
    に文字を構成する画素(黒画素)にあたるまでの背景画
    像の画素数を計数する手段と,a回走査して計数された
    画素数の平均値を前記横の2A‐1区分毎にそれぞれ記
    憶する手段と,前記文字画像の領域分割手段により分割
    された横の2A‐1区分の各区分毎に,前記走査範囲の
    制限手段によって制限された走査範囲において,文字画
    像の右辺からa回走査し(a=前記文字画像の高さ/
    A),最初に文字を構成する画素(黒画素)にあたるま
    での背景画像の画素数を計数する手段と,a回走査して
    計数された画素数の平均値を前記横の2A‐1区分毎に
    それぞれ記憶する手段と,前記文字画像の領域分割手段
    により分割された縦の2A‐1区分それぞれに対して,
    前記走査範囲の制限手段によって制限された走査範囲に
    おいて,文字画像の上辺からa回走査し(a=前記文字
    画像の幅/A),最初に文字を構成する画素(黒画素)
    にあたるまでの背景画像の画素数を計数する手段と,a
    回走査して計数された画素数の平均値を前記縦の2A‐
    1区分毎にそれぞれ記憶する手段と,前記文字画像の領
    域分割手段により分割された縦の2A‐1区分それぞれ
    に対して,前記走査範囲の制限手段によって制限された
    走査範囲において,文字画像の下辺からa回走査し(a
    =前記文字画像の幅/A),最初に文字を構成する画素
    (黒画素)にあたるまでの背景画像の画素数を計数する
    手段と,a回走査して計数された画素数の平均値を前記
    縦の2A‐1区分毎にそれぞれ記憶する手段とを有する
    ことを特徴とする請求項5に記載された文字認識装置。
  9. 【請求項9】 前記文字のストローク特徴量の抽出手段
    は,1文字分の文字画像を入力する手段と,前記文字画
    像を記憶する手段と,前記文字画像の領域分割手段と,
    前記文字画像のストローク特徴量を抽出する手段を有す
    ることを特徴とする請求項4に記載された文字認識装
    置。
  10. 【請求項10】 前記文字画像の領域分割手段は,前記
    文字画像の領域を横にA区分に分割する手段と,前記横
    に分割されたA区分に対して,k(k=1,2,…,A
    ‐1)区分目の下半分とk+1区分目の上半分を1区分
    とし,横にA‐1区分に分割する手段と,前記文字画像
    の領域を縦にA区分に分割する手段と,前記縦に分割さ
    れたA区分に対して,k(k=1,2,…,A‐1)区
    分目の右半分とk+1区分目の左半分を1区分とし,縦
    にA‐1区分に分割する手段を要することを特徴とする
    請求項9に記載された文字認識装置。
  11. 【請求項11】 前記文字画像のストローク特徴量を抽
    出する手段は,前記文字画像の領域分割手段により分割
    された横の2A‐1区分それぞれに対して,前記文字画
    像の幅を走査範囲として,文字画像の左辺からa回走査
    し(a=前記文字画像の高さ/A),背景画素(白画
    素)から文字を構成する画素(黒画素)に,及び文字を
    構成する画素(黒画素)から背景画素(白画素)に変化
    する回数を計数する手段と,a回走査して計数された回
    数の平均値を前記横の2A‐1区分毎にそれぞれ記憶す
    る手段と,前記文字画像の領域分割手段により分割され
    た縦の2A‐1区分それぞれに対して,前記文字画像の
    高さを走査範囲として,文字画像の上辺からa回走査し
    (a=前記文字画像の幅/A),背景画素(白画素)か
    ら文字を構成する画素(黒画素)に,及び文字を構成す
    る画素(黒画素)から背景画素(白画素)に変化する回
    数を計数する手段と,a回走査して計数された回数の平
    均値を前記縦の2A‐1区分毎にそれぞれ記憶する手段
    とを有することを特徴とする請求項9に記載された文字
    認識装置。
  12. 【請求項12】 前記文字のメッシュ特徴量の抽出手段
    は,1文字分の文字画像を入力する手段と,前記文字画
    像を記憶する手段と,前記文字画像の領域分割手段と,
    前記文字画像のメッシュ特徴量を抽出する手段を有する
    ことを特徴とする請求項2に記載の文字認識装置。
  13. 【請求項13】 前記文字画像の領域分割手段は,前記
    文字画像の領域をサイズがb画素*b画素の子領域B個
    に分割する手段と,前記分割されたB個の子領域に対し
    て,前記文字画像の右側にある子領域以外の子領域毎
    に,子領域の右半分と右隣の子領域の左半分を1子領域
    とし,C個の子領域に分割する手段と,前記分割された
    C個の子領域に対して,前記文字画像の下側にある子領
    域以外の子領域毎に,子領域の下半分と下隣の子領域の
    上半分を1子領域とし,D個の子領域に分割する手段
    と,前記分割されたB個の子領域に対して,前記文字画
    像の下側にある子領域以外の子領域毎に,子領域の下半
    分と下隣の子領域の上半分を1子領域とし,C個の子領
    域に分割する手段を要することを特徴とする請求項12
    に記載された文字認識装置。
  14. 【請求項14】 前記文字画像のメッシュ特徴量を抽出
    する手段は,前記文字画像の領域分割手段により分割さ
    れたB+2C+D個の子領域それぞれに対して,子領域
    画像の左辺から走査し,文字を構成する画素(黒画素)
    数を計数する手段と,前記計数した画素数を前記B+2
    C+D個の子領域毎にそれぞれ記憶する手段を有するこ
    とを特徴とする請求項12に記載された文字認識装置。
  15. 【請求項15】 前記文字カテゴリデータの作成手段
    は,文字特徴量の変化範囲を決める手段と,カテゴリデ
    ータの表現手段と,文字特徴量の各次元の値を列挙する
    手段と,列挙した値をカテゴリデータに変換する手段
    と,各次元の変換された値を該文字カテゴリの標準デー
    タとすることを特徴とする請求項3に記載された文字認
    識装置。
  16. 【請求項16】 前記文字特徴量の変化範囲を決める手
    段は,前記請求項13で分割された子領域内の画素数
    (b)を文字特徴量の変化範囲とすることを特徴とす
    る請求項15に記載された文字認識装置。
  17. 【請求項17】 前記カテゴリデータの表現手段は,文
    字特徴量の次元数を有するベクトルでカテゴリデータを
    表現し,ベクトルの各次元をb+1個(b は前記求
    められた文字特徴量の変化範囲である)のビットで表現
    することを特徴とする請求項15記載された文字認識装
    置。
  18. 【請求項18】 前記文字特徴量の各次元の値を列挙す
    る手段は,文字カテゴリに属しているすべての学習サン
    プルから,学習サンプル特徴量の各次元毎に,該次元の
    とりうる値を列挙することを特徴とする請求項15に記
    載された文字認識装置。
  19. 【請求項19】 前記列挙した値をカテゴリデータに変
    換する手段は,列挙した値{e,e,.…,e
    に対して,カテゴリデータの対応している次元の第e
    +1ビットの値を“1”と設定し(i=1,2,…,
    s),その以外のビットの値を“0”と設定することを
    特徴とする請求項15に記載された文字認識装置。
  20. 【請求項20】 前記認識辞書を作成する手段は,各文
    字毎に,文字のカテゴリデータを求め,求められた文字
    カテゴリデータを認識辞書に記憶させ認識辞書を作成す
    る手段を備えたことを特徴とする請求項3に記載された
    文字認識装置。
  21. 【請求項21】 前記文字パターンと文字カテゴリデー
    タ間の類似度を計算する手段において,文字パターンX
    =(x,x,…,x)と文字カテゴリデータCa
    t=(cat,cat,…,cat)間の類似度
    S(X,Cat)は次のように計算されることを特徴と
    する請求項3に記載された文字認識装置。 【数1】 ここで,f(a,b)=1, if bのa+1ビット
    目の値=1;f(a,b)=0, if bのa+1ビ
    ット目の値=0である。
  22. 【請求項22】文字認識を行う文字認識方法において,
    文字パターンのペリフェラル特徴量と,ストローク特徴
    量と,メッシュ特徴量をそれぞれ抽出し,抽出された3
    種類の特徴量を並べ該文字の複合特徴量を求め,各文字
    毎に,請求項15に記載されている文字カテゴリデータ
    の作成手段を用いて,文字カテゴリデータを作成し,作
    成された文字カテゴリデータを認識辞書に記憶させ認識
    辞書を作成し,認識するとき,請求項21に記載されて
    いる文字パターンと文字カテゴリデータ間の類似度の計
    算公式を用いて,入力された未知文字パターンを認識辞
    書に格納されているすべての文字カテゴリデータと比較
    し,もっとも類似な文字カテゴリを認識の結果として出
    力されることを特徴とする文字認識方法。
JP2000201853A 2000-07-04 2000-07-04 文字認識装置及び文字認識方法 Expired - Fee Related JP4062866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000201853A JP4062866B2 (ja) 2000-07-04 2000-07-04 文字認識装置及び文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000201853A JP4062866B2 (ja) 2000-07-04 2000-07-04 文字認識装置及び文字認識方法

Publications (2)

Publication Number Publication Date
JP2002024765A true JP2002024765A (ja) 2002-01-25
JP4062866B2 JP4062866B2 (ja) 2008-03-19

Family

ID=18699462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000201853A Expired - Fee Related JP4062866B2 (ja) 2000-07-04 2000-07-04 文字認識装置及び文字認識方法

Country Status (1)

Country Link
JP (1) JP4062866B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755534B1 (ko) * 2006-04-04 2007-09-06 오성훈 배수로
JP2009026289A (ja) * 2007-07-23 2009-02-05 Sharp Corp 字形特徴辞書作成装置、これを備えた画像文書処理装置、字形特徴辞書作成プログラム、字形特徴辞書作成プログラムを記録した記録媒体、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
CN115830599A (zh) * 2023-02-08 2023-03-21 成都数联云算科技有限公司 工业字符识别方法、模型训练方法、装置、设备和介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755534B1 (ko) * 2006-04-04 2007-09-06 오성훈 배수로
JP2009026289A (ja) * 2007-07-23 2009-02-05 Sharp Corp 字形特徴辞書作成装置、これを備えた画像文書処理装置、字形特徴辞書作成プログラム、字形特徴辞書作成プログラムを記録した記録媒体、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4533920B2 (ja) * 2007-07-23 2010-09-01 シャープ株式会社 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4740916B2 (ja) * 2007-07-23 2011-08-03 シャープ株式会社 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
CN115830599A (zh) * 2023-02-08 2023-03-21 成都数联云算科技有限公司 工业字符识别方法、模型训练方法、装置、设备和介质

Also Published As

Publication number Publication date
JP4062866B2 (ja) 2008-03-19

Similar Documents

Publication Publication Date Title
US6081620A (en) System and method for pattern recognition
US4975975A (en) Hierarchical parametric apparatus and method for recognizing drawn characters
US7327883B2 (en) Character recognition system and method
Heutte et al. A structural/statistical feature based vector for handwritten character recognition
US5539840A (en) Multifont optical character recognition using a box connectivity approach
CN110929665B (zh) 一种自然场景曲线文本检测方法
US5673337A (en) Character recognition
WO2006091626A2 (en) Intelligent importation of information from foreign application user interface using artificial intelligence
US9589185B2 (en) Symbol recognition using decision forests
US5926564A (en) Character recognition method and apparatus based on 0-1 pattern representation of histogram of character image
JP4062866B2 (ja) 文字認識装置及び文字認識方法
US5757962A (en) Character recognition
Gaikwad et al. Devanagari handwritten characters recognition using DCT, geometric and hue moments feature extraction techniques
JPH09245125A (ja) パターン認識装置及び同装置における辞書修正方法
Gautam et al. Brahmi word recognition by supervised techniques
VM et al. AN OCR FOR ARABIC CHARACTERS WITH ADVANCED BASELINE SEGMENTATION AND ENHANCED CONVOLUTIONAL NEURAL NETWORK FOR CLASSIFICATION
CA2421673C (en) Character recognition system and method
Flora et al. A Survey on Feature Extraction Methods & Classifiers for Handwritten Gurmukhi Character Recognition
JP2001202521A (ja) パターン認識装置及びパターン認識方法
Sas et al. Semi-supervised handwritten word segmentation using character samples similarity maximization and evolutionary algorithm
Salameh et al. hyper recognition techniques for English digits using statistical analysis of nodes and Fuzzy Logic for pattern recognition
Lucas et al. Fast convolutional OCR with the scanning n-tuple grid
CN114926846A (zh) 一种基于字符级特征的印刷体数学公式识别方法
CN117095423A (zh) 一种银行单据字符的识别方法及装置
CN117152476A (zh) 一种设计图像多层次变换信息的自动提取方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140111

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees