JPH09134409A

JPH09134409A - 文字認識装置

Info

Publication number: JPH09134409A
Application number: JP7289481A
Authority: JP
Inventors: Kenji Kondo; 堅司近藤; Taro Imagawa; 太郎今川; Susumu Maruno; 進丸野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-11-08
Filing date: 1995-11-08
Publication date: 1997-05-20

Abstract

(57)【要約】【課題】入力画像を各領域に分割して領域毎に特徴量
を抽出する文字認識装置において、高速かつ高精度な文
字認識が困難であった。【解決手段】入力文字がどの方向で分けることができ
るかできないかという大まかな情報で大分類を行う大分
類手段１と、文字を複数領域に分割し領域毎に特徴量を
抽出する特徴量抽出手段と、大分類手段１で求めた情報
より、中分類を行うために必要な領域の特徴量を選択
し、中分類を行うための特徴量の総次元数を削減し、ど
の細分類部にどのくらい属しているかを表す帰属度を求
める中分類手段３と、細分類を行うために必要な領域の
特徴量を選択し、より精密な細分類を行う細分類手段４
と、前記帰属度と、細分類手段での結果を統合し、入力
文字がどのカテゴリに属しているかを判断する統合手段
５とを備えた構成である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、学習・認識を行う
ネットワークを用いた光学式の文字認識装置に関する。

【０００２】

【従来の技術】漢字などの非常に多くのカテゴリを持つ
文字の識別を１つのネットワークで行おうとすると、多
くの困難を伴う。例えば、ＪＩＳ第一水準の漢字の識別
を単純なバックプロパゲーションのネットワークで行お
うとすると、学習時には、ローカルミニマムに陥る可能
性も高く、たとえ収束したとしても膨大な計算量を費す
ことになる。大規模なネットワークを実用的な計算時間
で構築するには、１つにはシミュレーションを高速に実
行することの出来るプロセッサを用いることであるが、
ネットワークを学習を行いやすい小規模なネットワーク
に分割し、それらを統合し大規模な構造化ネットワーク
を構築することも必要となる。

【０００３】そのような構造化ネットワークの一つとし
てComb ＮＥＴがある(大規模４層ニューラルネット "Co
mb NET", 電子情報通信学会誌 D-II Vol.J73-D-II No.8
pp.1261-1267 1990年8月)。Comb NETは、前段に入力デ
ータを大分類するためのベクトル量子化ニューラルネッ
トを配置し、後段にはグループ内のデータを細分類する
階層型ニューラルネットを多数並列に配置したものであ
る。これにより前段でおおまかなグループ分けを行い、
後段でグループ内での識別を行うネットワークを構築す
る。

【０００４】このComb NETに与える特徴量は、ＪＩＳ第
一水準漢字を印刷した原稿をスキャナーで２値画像とし
て読み込み、一文字単位で切り出しを行い、この切り出
した１文字のイメージデータを16×16の小領域にまと
め、これを16×16の特徴量ベクトルとすることにより作
製する。

【０００５】まず、大分類部の学習であるが、まず前記
の特徴量をベクトル量子化ニューラルネットワークに入
力する。また各ニューロンは２次元格子状に配置され、
自己組織化過程においてシナプス結合の適応変化はＨｅ
ｂｂの学習則に基づいて行われる。学習により、類似し
た入力特徴量ベクトルについて同じニューロンが発火
し、そのニューロンの参照ベクトルがそのカテゴリを代
表するテンプレートとなる。よって、認識時には、類似
した入力特徴量ベクトルについて、ある１つのニューロ
ンが最適整合ニューロンとなり、多数のカテゴリを持つ
集合を類似性のある有限数のグループに分割することが
出来る。次に細分類部の学習であるが、大分類部の学習
後、入力特徴量ベクトルの各カテゴリが、大分類部のど
の出力ニューロンと対応するか調べ、その対応関係をも
とに全カテゴリを大分類部の出力ニューロン数と同数の
グループに分割する。次にその分割したグループ毎にそ
の中にあるカテゴリを識別するための階層型ニューラル
ネットの学習をバックプロパゲーション法を用いて行
う。

【０００６】認識は、認識させる文字の特徴量ベクトル
を前記の方法で作成し、まず大分類部に入力する。予
め、ベクトルとベクトルの適合度というものを定義して
おき、入力特徴量と出力ニューロンの参照ベクトルの適
合度が高いものから３番目までのグループを選ぶ。次に
選ばれたグループの階層型ネットワークに入力特徴量を
入力し、最も強く発火したニューロン出力値を調べる。
そして、（適合度）α（出力値）βの値が最も高くなっ
たカテゴリを、入力特徴量の表す文字カテゴリと認識す
る。

【０００７】このネットワークの利点は学習の容易さに
ある、バックプロパゲーション法による学習は、大規模
なネットワークになるとローカルミニマムに陥る可能性
も高く、たとえ収束しても膨大な計算量を費すことにな
るが、このような小規模なネットワークの集合になれば
各々のネットワークは収束も容易である。また、大分類
部において、適合度が高いものを３つ選ぶので大分類に
おける間違いをおさえることができる。

【０００８】

【発明が解決しようとする課題】Comb NETの大分類部に
おいて、大分類した結果を見ると、部首が同一の文字が
同じグループに分類されていることが多い。また、漢字
は偏が同じ種類のものと、冠が同じ種類のものが多く存
在する。Comb NETの場合は、16×16の小領域から抽出し
た２５６次元の特徴量を全て用いており、また自己組織
化というアルゴリズムのせいもあり、学習時間に膨大な
時間がかかっている(SUN4/260で約24時間)。また、認識
時においても、大分類部で２５６次元のベクトルを、16
×16個の参照ベクトル全てと距離演算を行うので、多く
の計算量と計算時間を要してしまう。

【０００９】本発明では、上記問題点に臨み、漢字は同
一の偏や冠をもつものが多いという所に着目し、少ない
次元の特徴量で大まかに分類し、後の処理でより正確な
分類をすることができる文字認識装置を提供することを
目的とする。

【００１０】

【課題を解決するための手段】上記目的を達成するため
に、本発明の文字認識装置は、大分類手段と、特徴量抽
出手段と、中分類手段と、細分類手段と、統合手段とを
具備し、大分類手段は、一文字単位に切り出した文字画
像を入力する文字画像入力部と、前記文字画像入力部で
入力した文字画像自身の情報から、文字画像が複数の部
分から構成されていると判断した場合は構成情報を示す
信号を出力し、１つの部分から構成されていると判断し
た場合は１つの部分から構成されていることを示す信号
を出力する大分類信号出力部とで構成し、特徴量抽出手
段は、前記文字画像入力部で入力した文字画像を分割す
る画像分割部と、前記画像分割部で分割した領域毎に特
徴量を抽出する特徴量抽出部とで構成し、中分類手段
は、前記特徴量抽出部で領域毎に抽出した特徴量群のう
ちで少なくとも１領域以上の特徴量を前記大分類信号出
力部で出力した信号により選択する中分類用特徴量選択
部と、前記中分類用特徴量選択部で選択した少なくとも
１領域以上の特徴量により、少なくとも１個以上の前記
細分類手段を選択する中分類部と、前記中分類部で選択
した各細分類手段に入力画像が属する度合を表す帰属度
を計算する帰属度計算部とで構成し、細分類手段は、前
記特徴量抽出部で領域毎に抽出した特徴量群のうちで少
なくとも１領域以上の特徴量を選択する細分類用特徴量
選択部と、前記細分類用特徴量選択部で選択した少なく
とも１領域以上の特徴量のうちの各特徴量を用いて、前
記画像分割部で分割した各画像が認識対象の各文字カテ
ゴリに属する度合を表す値を出力する分割画像認識部
と、前記分割画像認識部で出力した値を統合して前記入
力画像が認識対象の各文字カテゴリに属する度合を表す
値を出力する細分類部とで構成し、統合手段は、前記帰
属度計算部で計算した帰属度と前記細分類部で出力した
値を統合し前記入力画像が認識対象の各文字カテゴリに
属する度合を求める統合部と、前記統合部で求めた度合
から前記入力画像が認識対象のどの文字カテゴリに属し
ているかを判断する判断部とから構成する。

【００１１】本発明の文字認識装置は、大分類手段にお
いて、入力文字がどの方向で分けることができるか、ま
たは分けることができないかという大まかな情報で大分
類を行い、以後の過程において比較する必要のある文字
の数を減少させる。次に特徴量抽出手段において、文字
をいくつかの領域に分割し、その領域毎に特徴量を抽出
する。次に中分類手段において、大分類手段で求めた、
文字を分けることのできる軸の情報や分けることができ
ないという情報より、中分類を行うために必要な領域の
特徴量を選択することにより、中分類を行うための特徴
量の総次元数を削減する。また、中分類手段では、どの
細分類部にどのくらい属しているかを表す帰属度を求め
る。細分類手段においては、細分類を行うために必要な
領域の特徴量を選択し、より精密な細分類を行う。最後
に統合手段において、中分類手段で求めた帰属度と、細
分類手段で求めた結果を統合し、入力文字がどのカテゴ
リに属しているかを判断する。

【００１２】以下、図面を参照して本発明の実施の形態
を説明する。（実施の形態１）図１、図２は本発明の第１の実施の形
態における文字認識装置の構成図である。図１におい
て、文字画像入力部１ａ、大分類信号出力部１ｂとで大
分類手段１を構成し、画像分割部２ａ、特徴量抽出部２
ｂで特徴量抽出手段２を構成し、中分類用特徴量選択部
３ａ、中分類部３ｂ、帰属度計算部３ｃとで中分類手段
３を構成し、細分類用特徴量選択部４ａ、分割画像認識
部４ｂ、細分類部４ｃとで細分類手段４を構成し、統合
部５ａ、判断部５ｂとで統合手段５を構成する。また、
図２において、ヒストグラム作成部１ｃ、大分類部１ｄ
で図１の大分類信号出力部１ｂを構成する。

【００１３】次にこのような構成の文字認識装置の学習
時の動作について詳細に説明する。学習させる活字漢字
を字数分、スキャナ等の入力装置により取り込み、２値
化、ノイズ除去、１文字単位での切り出しなどの処理を
行った後、文字画像入力部１ａに入力する。今は、
「距」という活字漢字文字画像を文字画像入力部１ａに
入力した場合について考える。ヒストグラム作成部１ｃ
において、文字の外接矩形でさらに文字を切り出したあ
と、画像の縦方向と横方向の２軸に２値画像を射影し、
図３のようにヒストグラムを作成する。そして、大分類
部１ｄにおいて、適当に閾値を定め(この場合は０とす
る)、ヒストグラム作成部１ｃで作成したヒストグラム
に閾値以下の点が存在するかどうか調べる。今は図３の
ように横方向のヒストグラムに閾値以下の点が存在する
ので、大分類部１ｄは対応する中分類用特徴量選択部３
ａに横方向のヒストグラムに閾値以下の信号が存在する
ことを示す信号を出力する。この動作を学習させる字数
分だけ繰り返す。

【００１４】また、画像分割部２ａでは、ヒストグラム
作成部１ｃで求めた２つのヒストグラムより、画像の縦
方向、横方向それぞれの重心点を求め、図４のように、
その点を通る縦線、横線で画像を４分割する。その４分
割したそれぞれの画像において、同様の処理を行い、さ
らに画像を４分割する。そうすると入力文字画像は、図
５のように１６分割されることになる。そして特徴量抽
出部２ｂで、その１６分割した各領域毎に特徴量を抽出
する。この動作をこの動作を学習させる字数分だけ繰り
返す。

【００１５】中分類手段３は、大分類手段１で分類され
る数分だけ存在しており、入力文字「距」の場合のよう
にヒストグラム作成部１ｃで求めたヒストグラムのうち
横方向のものに閾値以下の点が存在することを示す信号
を受信する中分類用特徴量選択部３ａの場合は、図６の
斜線で表されるような８領域の特徴量を選択する。ま
た、入力文字画像が、縦方向に分けられることを表す信
号を受信する中分類用特徴量選択部３ａの場合には、図
７の斜線で表されるような８領域の特徴量を、縦方向と
横方向両方に分けられることを表す信号を受信する中分
類用特徴量選択部３ａの場合には、図８の斜線で表され
るような１２領域の特徴量を、１つの部分から構成され
ていることを表す信号を受信する中分類用特徴量選択部
３ａの場合には、すべての領域の特徴量を選択する。こ
の動作を学習させる字数分だけ繰り返す。

【００１６】中分類部３ｂでは、大分類部１ｄからの４
種類の信号を受信する各中分類手段ごとに入力文字画像
の特徴量を集め、ベクトル量子化のＬＢＧアルゴリズム
により、複数の代表特徴ベクトルをつくる。すなわち、
各入力文字画像の特徴ベクトルを最も近い代表ベクトル
の小グループに分類することにより、特徴量が類似して
いるもの同士を小グループ化する。すると、図９のよう
に大分類手段で全入力文字を４種類のグループに分類
し、中分類手段でさらに、大分類手段で分類された各グ
ループ毎に特徴量の類似したもの同士を何個かの小グル
ープに分類することになる。また、帰属度計算部３ｃで
は、入力文字画像の特徴ベクトルと、中分類部３ｂで求
めたある複数個分の代表特徴ベクトルとの距離に応じ
て、帰属度ｍsを計算する。ここで、帰属度は、

【００１７】

【数１】

【００１８】で与えられ、入力特徴ベクトルと小グルー
プの代表特徴ベクトルとの距離が小さいほど大きくな
る。ここで、ｍsは、入力特徴ベクトルが注目するグル
ープｓに属する度合をあらわす帰属度で、Ｄiは入力特
徴ベクトルと小グループiの代表ベクトルとのユークリ
ッド距離で、f( >1)はファジイ性を調節するパラメータ
で、f=1の時はハードクラスタリングになり、fが大きく
なるほど帰属度の曖昧性が大きくなる。

【００１９】細分類手段４は、対応する中分類手段３に
より中分類されるグループ数分だけ存在している。ま
た、大分類手段１で分類されるすべての中分類手段３に
対して同様に、対応する中分類手段で中分類されるグル
ープ数分だけ細分類手段４が存在する。細分類用特徴量
選択部４ａは、図１０のように、対応する中分類用特徴
量選択部３ａで選択されなかった特徴量を選択する。１
つの細分類手段には、中分類用特徴量選択部で選択した
領域数分の分割画像認識部４ｂ（階層型ニューラルネッ
トワーク）が存在しており、対応する領域の特徴量を入
力とし、各カテゴリへ属している度合を表す値を出力す
る。なお、この階層ニューラルネットワークの入力ニュ
ーロンの数は特徴量の次元数と同じで、出力ニューロン
の数は中分類手段で分類したうちの対応するグループ内
に含まれているカテゴリ数と同じである。細分類部４ｃ
では、細分類用特徴量選択部４ａで選択した領域分の、
分割画像認識部４ｂの出力のうち、同一カテゴリの出力
について加算し、最終的に細分類用特徴量選択部４ａで
選択した領域全体が各文字カテゴリに属する度合を出力
する。

【００２０】最後に、統合手段５での動作であるが、統
合部５ａにおいて、中分類部３ｂで選択したある細分類
手段４内の細分類部４ｃの各カテゴリの出力に、帰属度
計算部３ｃで求めた、その細分類手段４に対応する帰属
度を掛け合わせ、掛け合わせた後の各カテゴリの出力
を、すべての細分類手段の同一カテゴリの出力について
加算する。判断部５ｂにおいて、統合部５ａで加算した
出力のうち最も大きいもののカテゴリを判断結果として
出力する。そして、この判断部５ｂで出力されるカテゴ
リが、正しいカテゴリとなるように、バックプロバゲー
ション学習法で学習する。

【００２１】また認識時の動作であるが、学習時に出力
を求める方法と同様である。尚、大分類部１ｄで使用す
る閾値は０でなくとも適当な値であればよい。また、画
像分割部２ａで文字画像を１６分割しているが、他の適
当な数で分割してもよい。また、中分類用特徴量選択部
は、大分類部１ｄからの信号により、図６、図７、図８
のように８、１２、１６領域の特徴量を選択している
が、それぞれ他の適当な数の領域を選択してもよい。ま
た、中分類部では、ベクトル量子化のＬＢＧアルゴリズ
ムを、細分類部では、階層型ネットワークを用いたが、
それぞれ他のネットワークでもよい。また、帰属度計算
部３ｃでは（数１）のような式を用いたが、他の適当な
式でもよい。

【００２２】本実施の形態では、大分類手段１のヒスト
グラム作成部１ｃで入力画像の縦方向と横方向に射影し
てヒストグラムを作成し、ヒストグラムに予め定めた閾
値以下の点が存在するかどうか、存在するならばどちら
の方向のヒストグラムかという簡単な情報で大分類を行
い、以後の処理におけるデータ数を削減する。活字漢字
は、手書き漢字に比べ同一文字に関しては変動が少ない
ので、このような簡単な処理でも精度の高い分類を行う
ことができる。また、中分類手段２の中分類用特徴量選
択部３ａで、中分類に用いる特徴量として全領域の特徴
量のうちの数部分を選択するので、計算量を削減するこ
とができる。そして、中分類手段３において、偏や冠が
同一種類の漢字が同一グループに分類されているので、
細分類手段４の細分類用特徴量選択部４ａでは、中分類
のときに用いた特徴量の残りの領域のものを選択し、以
降の細分類を行うことで効率の良い分類を行うことがで
きる。漢字においては、偏や冠が同一の文字が多数存在
するので、まず偏が同じ種類の文字や冠が同じ種類の文
字に分類し、以後の処理で、偏や冠以外の部分を分類す
ることは有効である。

【００２３】（実施の形態２）図１、図２、図１１は本
発明の第２の実施の形態における文字認識装置の構成図
である。図１、図２においては、帰属度計算部３ｃから
統合部５ａだけでなく細分類部４ｃに対しても帰属度が
伝達されることを除いては、実施の形態１と同様に構成
される。図１１においては、細分類部４ｃは係数計算部
４ｄ、乗算部４ｅとで構成する。

【００２４】次にこのような構成の文字認識装置の学習
時の動作について詳細に説明する。大分類手段１、特徴
量抽出手段２、中分類手段３での動作は、帰属度計算部
３ｃから細分類部４ｃにも帰属度が伝達されることを除
いて実施の形態１と同様である。

【００２５】細分類手段４は、注目する中分類手段３に
よって中分類されるグループ数分だけ存在している。ま
た、大分類手段１で分類されるすべての中分類手段３に
対して、対応する中分類手段で中分類されるグループ数
分だけ細分類手段４が存在する。そして、細分類用特徴
量選択部４ａは、図１２のように画像分割部２ａで分割
した領域のすべてを選択する。分割画像認識部４ｂは、
細分類用特徴量選択部４ａで選択した領域の数すなわち
16個存在しており、実施の形態１と同様の階層型ニュー
ラルネットワークである。また、この階層型ニューラル
ネットワークの入力ニューロンの数は、特徴量の次元数
と同じで、出力ニューロンの数は、中分類手段で分類し
たグループ内に含まれているカテゴリ数と同じある。こ
の１６個の分割画像認識部４ｂにそれぞれ対応する領域
の特徴量を入力し、各カテゴリに属する度合を出力させ
る。

【００２６】係数計算部４ｄでは、帰属度計算部３ｃで
計算した帰属度をもとに、分割画像認識部４ｂの出力に
掛け合わせる係数を計算する。この係数は、対応する中
分類用特徴量選択部３ａで選択された特徴量を入力する
分割画像認識部４ｂに掛け合わせる場合は、帰属度の逆
数に比例した数とし、その他は１とする。つまり、帰属
度が大きい、すなわち中分類手段３で選択された細分類
手段４に属している可能性が高い場合には、中分類時に
用いた特徴量を入力した分割画像認識部の出力は、重視
しないことになる。乗算部４ｅでは、分割画像認識部４
ｂの結果に係数計算部４ｄで求めた係数を乗算部４ｅに
おいて掛け合わせ、掛け合わせた後の各カテゴリに属す
る度合を、全領域について足し合わせ、この各カテゴリ
に属する度合を細分類部４ｃの出力とする。

【００２７】統合手段５での動作は実施の形態１と同様
である。判断部５ｂで出力されるカテゴリが、正しいカ
テゴリとなるように、バックプロバゲーション学習法で
学習する。

【００２８】また認識時の動作は、学習時に出力を求め
る方法と同様である。本実施の形態では、細分類部４ｃ
の係数計算部４ｄにおいて、帰属度計算部３ｃで計算し
た帰属度をもとに、係数計算部４ｄで分割画像認識部４
ｂの出力に掛け合わせる係数を計算する。この係数は、
対応する中分類用特徴量選択部３ａで選択された特徴量
を入力する分割画像認識部４ｂに掛け合わせる場合は、
帰属度の逆数に比例した数とし、その他は１とする。つ
まり、帰属度が大きい、すなわち中分類手段３で選択さ
れた細分類手段４に属している可能性が高い場合には、
中分類時に用いた特徴量を入力した分割画像認識部の出
力は、重視しないことになる。

【００２９】この動作の説明として、次の場合を考え
る。文字の左側の特徴量を使って中分類した場合、特徴
量空間に、図１３のような”木偏”と”禾偏”のグルー
プが存在しているとする。そこに、”材”という文字が
入力され、帰属度計算部３ｃで各グループの代表ベクト
ルとの距離から帰属度が求められる。図では”木偏”の
グループへの帰属度が大きいので、”木偏”のグループ
に相当する細分類手段４では、文字の左側の領域の特徴
量に対応する出力への係数は小さくなり、”木偏”は重
視されず、右側の”才”という部分を重視して出力を出
す。よって、類似文字の多いグループ内で、独自の情報
を持っている部分に着目するので誤認識を防ぐことがで
きる。また、”禾偏”のグループへの帰属度は小さいの
で、”禾偏”のグループに相当する際分類手段では、文
字の左側の領域の特徴量に対応する出力への係数が大き
くなり、”木偏”が重視され、”禾偏”と類似していて
も、区別しやすくなる。よって、帰属度をもとに係数を
計算し、分割画像認識部４ｂでの出力を統合することは
有効である。

【００３０】

【発明の効果】以上のように、本発明の文字認識装置
は、特徴量抽出手段においては、分割した領域毎の特徴
量を求め、中分類用特徴量選択部においては、大分類用
信号出力部で出力した大分類信号によりそれらの特徴量
のうちの一部を選択し、以降の中分類部で中分類を行う
ことで、使用する特徴量の次元を削減することができる
ので、高速なグループ分けが可能となる。また、係数計
算部において、帰属度をもとに適当な係数を計算し、そ
の係数と分割画像認識部での出力を掛け合わせることに
より、類似または同一の偏や冠をもつグループ内での識
別の精度を向上することができる。

【図面の簡単な説明】

【図１】本発明の第１実施の形態の構成図

【図２】第１実施の形態の大分類手段１のより詳細な構
成図

【図３】第１実施の形態のヒストグラム作成部１ｃで作
成したヒストグラムを示す図

【図４】第１実施の形態の画像分割部２ａで、入力文字
画像を４分割したことを示す図

【図５】第１実施の形態の画像分割部２ａで、入力文字
画像を最終的に１６分割したことを示す図

【図６】第１実施の形態において、大分類信号出力部１
ｄからの信号が横方向のヒストグラム仁閾値以下の点が
存在することを示す場合に、中分類用特徴量選択部３ａ
が選択する領域を示す図

【図７】第１実施の形態において、大分類信号出力部１
ｄからの信号が縦方向のヒストグラム仁閾値以下の点が
存在することを示す場合に、中分類用特徴量選択部３ａ
が選択する領域を示す図

【図８】第１実施の形態において、大分類信号出力部１
ｄからの信号が縦、横両方向のヒストグラム仁閾値以下
の点が存在することを示す場合に、中分類用特徴量選択
部３ａが選択する領域を示す図

【図９】第１実施の形態における大分類手段と中分類手
段の分類方法を示す図

【図１０】第１実施の形態における細分類手段の分類方
法を示す図

【図１１】第２実施の形態の細分類部４ｃのより詳細な
構成図

【図１２】第２実施の形態における細分類手段の分類方
法を示す図

【図１３】第２実施の形態における動作を補助的に示す
図

【符号の説明】

１大分類手段１ａ文字画像入力部１ｂ大分類信号出力部１ｃヒストグラム作成部１ｄ大分類部２特徴量抽出手段２ａ画像分割部２ｂ特徴量抽出部３中分類手段３ａ中分類用特徴量選択部３ｂ中分類部３ｃ帰属度計算部４細分類手段４ａ細分類用特徴量選択部４ｂ分割画像認識部４ｃ細分類部４ｄ係数計算部４ｅ乗算部５統合手段５ａ統合部５ｂ判断部

Claims

【特許請求の範囲】

【請求項１】大分類手段と、特徴量抽出手段と、中分類
手段と、細分類手段と、統合手段とを具備し、前記大分
類手段は、一文字単位に切り出した文字画像を入力する
文字画像入力部と、前記文字画像入力部で入力した文字
画像自身の情報から、文字画像が複数の部分から構成さ
れていると判断した場合は構成情報を示す信号を出力
し、１つの部分から構成されていると判断した場合は１
つの部分から構成されていることを示す信号を出力する
大分類信号出力部を有し、前記特徴量抽出手段は、前記文字画像入力部で入力した
文字画像を分割する画像分割部と、前記画像分割部で分
割した領域毎に特徴量を抽出する特徴量抽出部とから構
成され、前記中分類手段は、前記特徴量抽出部で領域毎
に抽出した特徴量群のうちで少なくとも１領域以上の特
徴量を前記大分類信号出力部で出力した信号により選択
する中分類用特徴量選択部と、前記中分類用特徴量選択
部で選択した少なくとも１領域以上の特徴量により、少
なくとも１個以上の前記細分類手段を選択する中分類部
と、前記中分類部で選択した各細分類手段に前記文字画
像入力部で入力した文字画像が属する度合を表す帰属度
を計算する帰属度計算部とから構成され、前記細分類手
段は、前記特徴量抽出部で領域毎に抽出した特徴量群の
うちで少なくとも１領域以上の特徴量を選択する細分類
用特徴量選択部と、前記細分類用特徴量選択部で選択し
た少なくとも１領域以上の特徴量のうちの各特徴量を用
いて、前記画像分割部で分割した各領域の画像が認識対
象の各文字カテゴリに属する度合を表す値を出力する分
割画像認識部と、前記分割画像認識部で出力した値を統
合して前記文字画像入力部で入力した文字画像が認識対
象の各文字カテゴリに属する度合を表す値を出力する細
分類部とから構成され、前記統合手段は、前記帰属度計
算部で計算した帰属度と前記細分類部で出力した値を統
合し前記文字画像入力部で入力した文字画像が認識対象
の各文字カテゴリに属する度合を求める統合部と、前記
統合部で求めた度合から前記文字画像入力部で入力した
文字画像が認識対象のどの文字カテゴリに属しているか
を判断する判断部とから構成されたことを特徴とする文
字認識装置。
【請求項２】大分類信号出力部は、文字画像入力部で入
力した文字画像を互いに異なる２軸に射影してヒストグ
ラムをとるヒストグラム作成部と、前記ヒストグラム作
成部で作成した、各軸に対応するヒストグラムにおいて
予め定めた閾値以下の値があれば、前記文字画像は、前
記閾値以下の値を持つ座標を境界として複数の部分から
構成されていることを示す信号を、予め定めた閾値以下
の値がなければ、前記文字画像は１つの部分から構成さ
れていることを示す信号を出力する大分類部とから構成
されたことを特徴とする請求項１記載の文字認識装置。
【請求項３】ヒストグラム作成部は、切り出し後の一文
字の画像を射影する軸として、画像に対して縦方向と横
方向の２軸を用いることを特徴とする請求項２記載の文
字認識装置。
【請求項４】中分類用特徴量選択部は、大分類信号出力
部で出力した信号が、文字画像入力部で入力した文字画
像が左右に分けることができる複数の部分から構成され
ていることを示す場合には、特徴量抽出部で抽出した特
徴量群のうち前記文字画像の左方に位置する領域から抽
出した特徴量を選択し、前記文字画像が上下に分けるこ
とができる複数の部分から構成されていることを示す場
合には、特徴量抽出部で抽出した特徴量群のうち文字画
像の上方に位置する領域から抽出した特徴量を選択し、
前記文字画像が左右と上下の両方に対して分けることが
できる複数の部分から構成されていることを示す場合に
は、特徴量抽出部で抽出した特徴量群のうち文字画像の
上方または左方に位置する領域から抽出した特徴量を選
択し、前記文字画像が１つの部分から構成されているこ
とを示す場合には、特徴量抽出部で抽出した特徴量群の
うち全部の特徴量を選択することを特徴とする請求項１
記載の文字認識装置。
【請求項５】細分類用特徴量選択部は、大分類信号出力
部で出力した信号が、文字画像入力部で入力した文字画
像が左右または上下または左右と上下の両方に分けるこ
とができる複数の部分から構成されていることを示す場
合には中分類用特徴量選択部で選択されなかった特徴量
を選択し、前記文字画像が１つの部分から構成されてい
ることを示す場合には全ての特徴量を選択することを特
徴とする請求項１記載の文字認識装置。
【請求項６】細分類用特徴量選択部は特徴量抽出部で領
域毎に抽出した特徴量群のうちの全部を選択し、細分類
部は、帰属度計算部で計算した帰属度をもとに分割画像
認識部で出力した値に重み付けをして文字画像入力部で
入力した文字画像が認識対象の各文字カテゴリに属する
度合を表す値を出力することを特徴とする請求項１記載
の文字認識装置。
【請求項７】入力文字がどの方向で分けることができる
か、分けることができないかという大まかな情報で大分
類を行う大分類手段と、文字をいくつかの領域に分割
し、その領域毎に特徴量を抽出する特徴量抽出手段と、
中分類を行うために必要な領域の特徴量を選択すること
により、どの細分類部にどのくらい属しているかを表す
帰属度を求める中分類手段と、細分類を行うために必要
な領域の特徴量を選択し、より精密な細分類を行う細分
類手段と、前記帰属度と前記細分類手段で求めた結果を
統合し、入力文字がどのカテゴリに属しているかを判断
する統合手段とを備えた文字認識装置。