JP2003123023A

JP2003123023A - 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体

Info

Publication number: JP2003123023A
Application number: JP2001314804A
Authority: JP
Inventors: Takahiko Niimura; 貴彦新村; Naoki Takegawa; 直樹武川; Yoshinao Shiraki; 善尚白木; Minako Sawaki; 美奈子澤木; Norihiro Hagita; 紀博萩田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-10-12
Filing date: 2001-10-12
Publication date: 2003-04-25

Abstract

(57)【要約】【課題】文字画像認識に必要な特徴を与えるよう２値
化し認識率を上げる。【解決手段】２値化閾値の学習用の濃淡画像から、正
解テンプレートの識別が適切に行われる２値化画像を求
め、この時の閾値と従来法による初期閾値との差分を濃
淡分布に付随させてデータベースにした推定テーブル１
２を用意しておく。２値化処理部２での未知の濃淡画像
の２値化には、閾値選択部１１にて濃度分布を多次元空
間上で推定テーブル１２内の濃淡分布と比較し、最もユ
ークリッド距離が近いものを選び、付随する差分値と未
知の濃淡画像の初期閾値とから最適閾値を算出して与え
る。外接枠検出部３は最適閾値で２値化した画像から文
字領域を切り出し、これをサイズ正規化部４で正規化す
る。類似度計算部５はテンプレート辞書７の各テンプレ
ート間の類似度を計算し、認識処理部６が最も高い類似
度のテンプレートのカテゴリーの文字を認識結果として
出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字パターンの認
識に用いられるパターン認識辞書を最適化して文字認識
する方法及び装置に関する。

【０００２】

【従来の技術】情景内の文字を撮影し濃淡画像に変換
し、その画像パターンを２値化して、２値化画像の特徴
からその文字画像を認識するパターン認識システムが知
られている。この種のパターン認識システムでは、予め
２値化するための閾値決定のためにアルゴリズムやルー
ルを用意してある。また各文字カテゴリーごとに２値化
画像の特徴を代表するテンプレート（雛型）と、各テン
プレートのそれぞれに対応した文字コードとを集め、こ
れらをパターンとして集めたパターン認識辞書も用意し
てある。認識時には入力された濃淡画像パターンを２値
化し、２値化画像パターンと認識辞書内のテンプレート
とを照らし合わせ、両者の特徴、具体的には類似度を計
算し、最も近似するテンプレートに対応する文字コード
を認識結果として出力する。

【０００３】認識率を上げるには、２値化されたテンプ
レートに対して入力の２値化画像が特徴を適切に反映し
ている必要がある。この場合の２値化閾値決定法には大
津のアルゴリズムがある（文献Ａ「大津展之、“判別お
よび最小２乗基準に基づく自動しきい値選定法”電子通
信学会論文誌、Ｊ６３Ｄ，４，１９８０、ｐｐ３４９−
３５６」参照）。このアルゴリズムは濃度分布を文字の
黒画素分布と紙の黒画素分布に分け、それらの境界を求
めるアルゴリズムである。

【０００４】この大津の２値化アルゴリズムを用いた文
字認識システムの手順を図１６を用いて説明する。

【０００５】まず、図１７に示すような濃淡画像を用意
し、各画素単位で濃度値（０〜２５５）までを求める。
濃度別に画素数の頻度を取ってグラフにし、ある濃度閾
値ｋｉで画素の頻度分布を分けると、図１８に示すよう
になる。濃度閾値ｋｉでの左右の分布について分散、平
均を求め、分布間の分離度Ｄｉを求める。２つの分布が
文字の黒画素分布と紙の黒画素分布を示しているなら
ば、この閾値での分布の分離度は最大になるはずである
（ちなみに、この分離度については文献Ａ（ｐｐ３５
０）を参照のこと）。閾値ｋｉを変化させ分離度Ｄｉが
最大になる時の閾値を最適閾値とする。

【０００６】選ばれた最適閾値で２値化をし（図１
９）、入力画像の縦横方向の黒画素ヒストグラムから１
文字の位置（外接枠）を把握する。この位置から２値化
文字を切り出し、大きさを正規化し、この文字を認識す
るために既存のテンプレート辞書（図２０）を用いてテ
ンプレートマッテングを行う。辞書内の画像テンプレー
トと切り出しパターンの類似度を計算し、もっとも高い
類似度を取ったテンプレートパターンのカテゴリーを認
識結果とする。これらのステップを入力された未知の文
字画像の全文字について行う。

【０００７】

【発明が解決しようとする課題】実際に、上記の従来法
による文字認識で不正解になった画像パターンを調べる
と、図２１に示すように２値化画像としては正解カテゴ
リーにも誤りカテゴリーにも近い文字形状になってい
る。閾値を適切に調整して認識をやり直すと正しく認識
できる。

【０００８】このことから、従来法による２値化画像が
正しく認識できなかった理由は、認識辞書の正解テンプ
レートに近い特徴を、従来法では復元できないため、認
識できなかったと考えられる。すなわち、従来法では、
テンプレートの構成する識別空間上で識別に有効な特徴
を、きちんと復元するための２値化閾値が与えられない
と考えられる。

【０００９】そこで本発明は、入力画像に対する従来の
２値化閾値の決定方法や手段に代わる新たな決定方法や
手段を用いて、従来は認識できなかった文字画像に必要
な特徴を与えるように２値化し、認識率を上げることが
できる文字認識方法とその装置を提供することを課題と
する。

【００１０】

【課題を解決するための手段】上記課題を解決するた
め、本発明は、入力濃淡画像の濃度分布を入力し、あら
かじめ用意した推定テーブル内の複数の濃度分布の例を
参照し、該入力濃淡画像の濃度分布に最も近い濃度分布
を選び出し、該入力濃淡画像の初期閾値を求め、該濃度
分布に付属の閾値差分値を該入力濃淡画像の初期閾値に
加算することで、該入力濃淡画像の最適２値化閾値を求
める工程と、該最適２値化閾値により該入力濃淡画像を
２値化する工程と、該２値化した画像から文字領域を切
り出す工程と、該文字領域とあらかじめ用意したテンプ
レート辞書の各テンプレート間の類似度を計算する工程
と、該類似度の中で最も高い類似度のテンプレートのカ
テゴリーの文字を認識結果とする工程とを、有すること
を特徴とする文字認識方法を手段とする。

【００１１】あるいは、前記入力濃淡画像を２値化する
工程では、推定テーブル内から入力濃淡画像の濃度分布
に最も近い濃度分布を選び出す際に、該推定テーブル内
の濃度分布と該入力濃淡画像の濃度分布を多次元ベクト
ル空間上の点と見なし、該入力濃淡画像の濃度分布に最
も近いベクトル距離を持つ該推定テーブル内の濃度分布
を選び出すことを特徴とする文字認識方法を手段とす
る。

【００１２】あるいは、前記推定テーブルが、学習用濃
淡画像の濃度分布から初期閾値を求める工程と、該学習
用濃淡画像から閾値を変化させて認識率が最大となる閾
値範囲で２値化画像を取り出す工程と、該２値化画像と
あらかじめ用意されたテンプレート辞書の正解カテゴリ
ーパターンおよび誤りカテゴリーパターンとの類似度を
計算し、正解カテゴリーパターンの最大類似度と誤りカ
テゴリーパターンの最大類似度の比率を求め、該比率が
最大値をとる２値化画像の２値化閾値を入力画像の最適
閾値とする工程と、該初期閾値と該最適閾値の差分値を
濃度分布ごとに付随させて複数の濃度分布から成る推定
テーブルとする工程により、生成されることを特徴とす
る文字認識方法を手段とする。

【００１３】また、本発明は、入力濃淡画像の２値化閾
値を推定する際に使う複数の濃度分布の例と各濃度分布
に付属の閾値差分値を有した推定テーブルと、入力濃淡
画像の濃度分布を入力し、該推定テーブル内の複数の濃
度分布の例を参照し、該入力濃淡画像の濃度分布に最も
近い濃度分布を選び出し、該入力濃淡画像の初期閾値を
求め、該濃度分布に付属の閾値差分値を該入力濃淡画像
の初期閾値に加算することで、該入力濃淡画像の最適２
値化閾値を求める２値化推定部と、該最適２値化閾値に
より該入力濃淡画像を２値化する２値化処理部と、あら
かじめ用意した文字認識に用いるテンプレートを有した
テンプレート辞書と、該２値化処理部で２値化した画像
から文字領域を切り出す外接枠検出部と、該文字領域と
該テンプレート辞書の各テンプレート間の類似度を計算
する類似度計算処理部と、該類似度の中で最も高い類似
度のテンプレートのカテゴリーの文字を認識結果とする
認識処理部とを、有することを特徴とする文字認識装置
を手段とする。

【００１４】あるいは、前記２値化推定部が、推定テー
ブル内から入力濃淡画像の濃度分布に最も近い濃度分布
を選び出す際に、該推定テーブル内の濃度分布と該入力
濃淡画像の濃度分布を多次元ベクトル空間上の点と見な
し、該入力濃淡画像の濃度分布に最も近いベクトル距離
を持つ該推定テーブル内の濃度分布を選び出すものであ
ることを特徴とする文字認識装置を手段とする。

【００１５】あるいは、前記推定テーブルが、推定テー
ブル生成部で作成され、該推定テーブル生成部は、学習
用濃淡画像の濃度分布から初期閾値を求める初期閾値計
算手段と、該学習用濃淡画像から閾値を変化させて認識
率が最大となる閾値範囲で２値化画像を取り出す２値化
処理手段と、該２値化画像とあらかじめ用意されたテン
プレート辞書の正解カテゴリーパターンおよび誤りカテ
ゴリーパターンとの類似度を計算し、正解カテゴリーパ
ターンの最大類似度と誤りカテゴリーパターンの最大類
似度の比率を求め、該比率が最大値をとる２値化画像の
２値化閾値を入力画像の最適閾値とする最適閾値決定手
段と、該初期閾値と該最適閾値の差分値を濃度分布ごと
に付随させて複数の濃度分布から成る推定テーブルとす
る推定テーブル作成手段とを、備えることを特徴とする
文字認識装置を手段とする。

【００１６】また本発明は、上記の文字認識方法におけ
る工程を、コンピュータに実行させるためのプログラム
としたことを特徴とする文字認識プログラムを手段とす
る。

【００１７】あるいは、上記の文字認識方法における工
程を、コンピュータに実行させるためのプログラムと
し、該プログラムを、該コンピュータが読み取りできる
記録媒体に記録したことを特徴とする文字認識プログラ
ムを記録した記録媒体を手段とする。

【００１８】本発明では、閾値の学習用の濃淡画像か
ら、正解テンプレートの識別が適切に行われる２値化画
像を求め、この時の閾値と大津の方法による閾値（初期
閾値）との差分を濃淡分布に付随させてデータベースに
した推定テーブルを用意し、未知の濃淡画像の２値化に
は、濃度分布を多次元空間上でデータベース内の濃淡画
像分布と比較し、最もユークリッド距離が近いものを選
び、付随する差分値と未知の濃淡画像の初期閾値（大津
の方法による）とから最適閾値を算出して与える２値化
閾値の推定方法または手段を採用することにより、テン
プレートの識別に必要な特徴を学習した推定テーブルか
ら、未知の濃淡画像に対して適切な２値化閾値を提供し
て未知の文字の濃淡画像の認識率を向上させる。

【００１９】なお、前記推定テーブルは以下の原理で生
成可能である。入力文字画像（以下、Ｆとする）を２値
化して、辞書のテンプレート内で正解カテゴリのテンプ
レートと誤りカテゴリのテンプレートの２つのグループ
で類似度を求める。正解テンプレートの最高類似度をＣ
ｍ、誤りテンプレートの最高類似度をＷｍとする。ここ
でＣｍとＷｍが近いときは同じ正解でも、正解テンプレ
ートが誤りテンプレートに類似度的に近くて正解になっ
ている。識別空間ではＣｍとＷｍの差が大きいほうがよ
い。そこで、ＣｍとＷｍの比Ｓｃｗを求め、正解を得ら
れる閾値の範囲でＳｃｗの曲線を求める。Ｓｃｗ曲線で
最大値をとる閾値をｋ＊（以下、＊は図中の上つき記号
を示す）とすれば、ｋ＊が認識辞書の特性を考慮した最
適閾値となる（図１１）。こうして求めた最適閾値と濃
度分布の初期閾値（大津の方法による）の差分をとり、
差分値と濃度分布を対応させる。閾値の学習用に多数の
濃淡画像を用意し、濃度分布と差分値の対応を計算した
後、濃度分布を多次元ベクトルとみなし、多次元空間上
で複数の濃度分布を競合学習によりクラスタリングし、
クラス内で濃度分布ベクトルの平均と差分値の平均を求
め、クラスタごとの平均濃度分布と差分値を構成要素と
する推定テーブルを生成する。

【００２０】

【発明の実施の形態】以下、図面を用いて本発明の実施
形態例について説明する。

【００２１】図１は、本発明のパターン認識方法の一実
施形態例としての文字認識方法の処理の流れとともに文
字認識装置の構成を示す図である。図１において、１は
画像入力部、２は２値化処理部、３は外接枠検出部、４
はサイズ正規化部、５は類似度計算部、６は認識処理
部、７はテンプレート辞書、１０は２値化推定部であ
る。２値化推定部１０において、１１は閾値選択部、１
２は推定テーブル、１３は推定テーブル生成部である。

【００２２】画像入力部１には、撮影距離が異なる様々
な解像度の文字画像が入力され、画像の標本化、量子化
が行われる。以下の説明では、入力文字画像は、英大文
字２６カテゴリーの画像パターンで、４８×４８で、１
カテゴリーあたり２０種類のフォントの画像パターンか
らなるものとする。

【００２３】未知の文字の濃淡画像が画像入力部１で処
理されると、２値化処理部２において、２値化推定部１
０で与えられる最適な２値化閾値に従って、文字画像が
２値化されて出力される。２値化処理部２の詳細な動作
と推定モデルの生成方法については後述する。

【００２４】２値化された文字画像は外接枠検出部３に
入力され、当該外接枠検出部３において縦軸、横軸それ
ぞれに射影したの黒画素数頻度のヒストグラム（図２）
を算出する。ヒストグラムのピーク位置から文字位置が
検出される。文字位置検出後、隣接する文字と重なら
ず、対象とする文字の黒画素をすべて含む１文字だけの
領域（外接枠で囲まれた領域）を抽出する。

【００２５】抽出された領域の２値化文字画像は、サイ
ズ正規化部４において、後述するテンプレート辞書７の
パターンと大きさを揃えるために文字サイズの正規化を
行う。サイズ正規化には、文字の縦横比を一定にしたま
ま拡大縮小する方法、文字の縦横の長さを固定長にする
方法、重心からの分散を揃える方法がある。ここでは、
例として文字の縦横比を一定にしたまま拡大縮小する方
法について述べる。

【００２６】本方法では、抽出された文字の縦横の辺の
うち長い方の辺を選び、正規化サイズ（正方形）の１辺
に合わせるように文字を拡大または縮小する。入力文字
が図３（ａ）のように１２×１２画素の文字画像、テン
プレート辞書７の文字サイズが図３（ｂ）のように４８
×４８画素の場合、倍率比は４になる。つまり入力文字
が１２×１２画素からなる文字画像の１画素（１×１）
は（４×４）の正方形に拡大される。４×４画素のブロ
ックに元の図形を描けばサイズが正規化された４８×４
８画素の画像ができる。拡大に際しては、文字の輪郭に
ブロック状のひずみが現れるが、このひずみを除去する
ため、必要に応じて文字輪郭のスムージング化が行われ
る。

【００２７】次に、類似度計算部５において、上記で正
規化された入力パターンとテンプレートの類似度を計算
する。類似度には単純類似度、補完類似度など多くの方
法が存在する。ここでは、補完類似度を用いる場合につ
いて説明する（文献Ｂ「澤木美奈子、荻田紀博“補完類
似度に基づく新聞見出し文字の領域抽出と認識”電子情
報通信学会、信学技報、ＰＲＵ９５−１０６（１９９５
−０９）、ｐ１２６」参照）。補完類似度は、入力画像
と辞書画像の文字を同じサイズとなるように前処理を行
った後、２つのパターンを重ね合わせて、白黒画素の一
致した数の積から一致しなかった数の積を引いて、黒画
素数により正規化した値として定義される。

【００２８】類似度計算部５には、正規化された入力パ
ターンと辞書テンプレートパターンが入力される。辞書
テンプレートは、図４に示すように２値化され、正規化
されたパターンが英文大文字の例では２６カテゴリー、
１カテゴリーあたり２０種類のフォントとする。これら
のテンプレートと入力パターンに対し、テンプレートの
数だけ類似度を計算する。テンプレートにはカテゴリー
が記されたタグがついており、類似度計算部５から、類
似度の値とカテゴリーに対応するタグの番号が出力され
る。

【００２９】最後に、認識処理部６においては、上記の
複数の類似度のうち、類似度の最大となるテンプレート
のタグのカテゴリーを求め、入力文字の文字認識結果と
して出力する。

【００３０】本実施形態例では、あらかじめテンプレー
ト辞書７と閾値テーブル生成用データセットを用意し、
閾値推定テーブル１２を生成しておく必要がある。テン
プレート辞書７は、図５のように解像度の高い濃淡画像
を大津の２値化で得た２値画像で構成されている。

【００３１】次に、閾値推定テーブル１２の生成方法と
手段について図６で説明する。推定テーブル１２は推定
テーブル生成部１３で生成される。推定テーブル生成部
１３は、前処理手段１４と、初期閾値計算手段１５と、
２値化処理手段１６と、最適閾値決定手段１７と、推定
テーブル作成手段１８とで、構成されている。

【００３２】まず、学習用データとして文字画像を用意
し（図７）、前処理手段１４において、前処理として、
大津の２値化で外接枠を検出した後に一文字ごとに文字
領域を濃淡画像から切り出す（図８）。初期閾値計算手
段１５は、切り出された一文字について、濃度分布Ｅと
大津の２値化による初期閾値ｋ₀を求める（図９）。２
値化処理手段１６は、ある閾値ｋにより２値化画像を作
り、テンプレート辞書７で認識率Ｒを求める。この閾値
ｋを０〜２５５で変えて、最大認識率をとる閾値ｋ_rを
複数選び出す（図１０）。

【００３３】最適閾値決定手段１７では、これらの一つ
ｋ_rについて２値化画像をテンプレート辞書７で認識す
るときに、正解カテゴリーテンプレートの最大類似度Ｃ
ｍと誤りカテゴリーテンプレートの最大類似度Ｗｍを求
める。２つの類似度を使って比Ｓｃｗ（＝Ｃｍ／Ｗｍ）
を定義する。最大認識率をとる複数の閾値についてＳｃ
ｗを計算し、最大値Ｓｃｗ＊をとるｋ_rをｋ＊とする
（図１１）。

【００３４】推定テーブル作成手段１８では、まず濃度
分布Ｅについて、ｋ₀，Δｋ（＝ｋ＊−ｋ₀）を対応させ
る。このときＥを２５６次元のベクトルと見なせば、２
５６次元空間の一点Ｅと対応させることになる（図１
２）。手持ちの学習用文字画像パターン全部について、
Ｅ，ｋ₀，Δｋを計算する。これらを２５６次元空間で
いくつかのパターンをまとめてクラスタに分類するため
に、例えば競合学習などで１０種類のクラスタに分類す
る。各クラスタの中でＥ，ｋ₀，Δｋを平均し、クラス
タを代表するパラメータとする。１０種類の濃度分布Ｅ
ｉとΔＫｉ、Ｋ ₀をもって閾値推定テーブル１２とす
る。

【００３５】次に、２値化処理部２からの未知の画像に
対して、推定テーブル１２を使った閾値選択部１１の動
きを図１３で説明する。入力画像を大津の方法で２値化
して、外接枠を取り出し、１文字あたりの濃淡画像を切
り出す。この一文字の濃淡画像をｆとする（図１４
（ａ））。ｆに対して初期閾値ｋ_0fと濃度分布Ｅ_fを求
め（図１４（ｂ））、２５６次元空間で、推定モデルの
平均濃度分布ベクトルＥ₀〜Ｅ_nと比べる。比較は２つの
ベクトル、Ｅ_fとＥ_iのユークリッド距離の差で比べ、距
離が小さいものが一番Ｅ_fに近いとして、Ｅ＊とする
（図１４（ｃ））。Ｅ＊に付属するΔＫ_iを用いてＥ_fに
最適な閾値ｋ＊を計算する。ｋ＊はｋ_0fにΔＫ_iを加算
することで得られる。入力画像の濃度分布の種類と大津
の方法で求めた初期閾値と最適閾値の例を図１５
（ａ），（ｂ），（ｃ）に示す。

【００３６】２値化処理部２は、閾値選択部１１で計算
されて与えられる上記の最適な２値化閾値ｋ＊に従っ
て、未知の文字画像を２値化し、上記で説明した外接枠
検出部３へ出力する。

【００３７】本発明は、コンピュータ装置に所定のプロ
グラムコードを読み込ませて、それを実行させることに
よっても、上記課題解決が可能である。このプログラム
は、図１、図６、および図１３で示した各部の機能や処
理の手順をプログラムとしたものであり、このコンピュ
ータ装置で読み取りが可能な記録媒体に記録されたもの
である。例えば、下記の工程等をコンピュータ装置に実
行させることが可能である。

【００３８】（１）カテゴリーの特徴を代表するテンプ
レートを複数保持したパターン認識辞書を用いて閾値学
習用の濃淡画像の２値化画像の認識率を計算し、正解カ
テゴリーテンプレートの最大類似度と誤りカテゴリーテ
ンプレートの最大類似度を計算し、２つの類似度の比が
最大になる閾値を選択する工程。

【００３９】（２）閾値学習用の濃淡画像の２値化画像
について初期閾値を計算し、上記最大類似度の比を最大
にする閾値と初期閾値の差分値を計算する工程。

【００４０】（３）上記、閾値学習用の濃淡画像パター
ンから差分値と濃度分布を対応させたテーブルをもとに
未知の画像の濃淡分布とテーブル内の濃淡分布を多次元
ベクトルとみなし、多次元空間上でユークリッド距離を
計算し、入力画像の濃度分布に最も近い濃度分布をテー
ブル内から選択する工程。

【００４１】このように、記録媒体に記録することによ
って、本発明による文字認識の実行プログラムを保存し
たり、配布したりすることが可能となる。また、上記の
プログラムをインターネットや電子メールなど、ネット
ワークを通して提供することも可能となる。

【００４２】

【発明の効果】本発明は、２値化処理により文字画像を
認識して情報処理を行うので、２値化処理の不適切な影
響は情報処理にまで影響を及ぼす。また、本発明は認識
辞書にふさわしい２値化閾値を提供するので、認識率が
上がる。２値化処理による認識率向上が進めば、カメラ
画像からの情報処理という分野が発展する可能性があ
る。さらに本発明は、近年進んでいるＩＴ産業に関し
て、多様なインターフェイス（カメラ、センサー系な
ど）からの情報処理を推進するものであり、情景内文字
認識の製品開発に寄与するものである。

【図面の簡単な説明】

【図１】本発明の一実施形態例による低解像度文字認識
方法とその装置構成を示す図

【図２】２値化画像の黒画素ヒストグラムの例を示す図

【図３】（ａ），（ｂ）は、サイズ正規化（縦横比等
倍）の例を示す図

【図４】テンプレート辞書の例を示す図

【図５】テンプレート辞書の２値パターンの例を示す図

【図６】本発明の一実施形態例による閾値推定テーブル
の生成方法と手段の説明図

【図７】既存の学習用の文字画像の例を示す図

【図８】文字領域の推定の例を示す図

【図９】濃度分布から初期閾値を求める例を示す図

【図１０】入力パターンの２値化画像と認識率の例を示
す図

【図１１】入力パターンが正解になる閾値の範囲におけ
るＳｃｗ曲線の例を示す図

【図１２】濃淡分布を多次元ベクトルと見なして推定テ
ーブルを作成する処理の説明図

【図１３】本発明の一実施形態例による閾値選択部の動
きの説明図

【図１４】（ａ），（ｂ），（ｃ）は、本発明による閾
値選択部の処理の説明図

【図１５】（ａ），（ｂ），（ｃ）は、本発明での濃度
分布の種類と閾値の例を示す図

【図１６】従来法による類似度を用いた文字認識システ
ムの処理の流れ図

【図１７】従来法による文字認識システムの処理の説明
図（その１）

【図１８】従来法による文字認識システムの処理の説明
図（その２）

【図１９】従来法による文字認識システムの処理の説明
図（その３）

【図２０】従来法による文字認識システムの処理の説明
図（その４）

【図２１】閾値の違いによる認識結果の例を示す図

【符号の説明】

１…画像入力部２…２値化処理部３…外接枠検出部４…サイズ正規化部５…類似度計算部６…認識処理部７…テンプレート辞書１０…２値化推定部１１…閾値選択部１２…推定テーブル１３…推定テーブル生成部１４…前処理手段１５…初期閾値計算手段１６…２値化処理手段１７…最適閾値決定手段１８…推定テーブル作成手段

フロントページの続き (72)発明者白木善尚東京都千代田区大手町二丁目３番１号日本電信電話株式会社内 (72)発明者澤木美奈子東京都千代田区大手町二丁目３番１号日本電信電話株式会社内 (72)発明者萩田紀博東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5B029 DD07 EE15 5B064 CA03 CA11 DB05

Claims

【特許請求の範囲】

【請求項１】入力濃淡画像の濃度分布を入力し、あら
かじめ用意した推定テーブル内の複数の濃度分布の例を
参照し、該入力濃淡画像の濃度分布に最も近い濃度分布
を選び出し、該入力濃淡画像の初期閾値を求め、該濃度
分布に付属の閾値差分値を該入力濃淡画像の初期閾値に
加算することで、該入力濃淡画像の最適２値化閾値を求
める工程と、該最適２値化閾値により該入力濃淡画像を２値化する工
程と、該２値化した画像から文字領域を切り出す工程と、該文字領域とあらかじめ用意したテンプレート辞書の各
テンプレート間の類似度を計算する工程と、該類似度の中で最も高い類似度のテンプレートのカテゴ
リーの文字を認識結果とする工程とを、有することを特
徴とする文字認識方法。
【請求項２】前記入力濃淡画像を２値化する工程で
は、推定テーブル内から入力濃淡画像の濃度分布に最も
近い濃度分布を選び出す際に、該推定テーブル内の濃度
分布と該入力濃淡画像の濃度分布を多次元ベクトル空間
上の点と見なし、該入力濃淡画像の濃度分布に最も近い
ベクトル距離を持つ該推定テーブル内の濃度分布を選び
出すことを特徴とする請求項１記載の文字認識方法。
【請求項３】前記推定テーブルは、学習用濃淡画像の濃度分布から初期閾値を求める工程
と、該学習用濃淡画像から閾値を変化させて認識率が最大と
なる閾値範囲で２値化画像を取り出す工程と、該２値化画像とあらかじめ用意されたテンプレート辞書
の正解カテゴリーパターンおよび誤りカテゴリーパター
ンとの類似度を計算し、正解カテゴリーパターンの最大
類似度と誤りカテゴリーパターンの最大類似度の比率を
求め、該比率が最大値をとる２値化画像の２値化閾値を
入力画像の最適閾値とする工程と、該初期閾値と該最適閾値の差分値を濃度分布ごとに付随
させて複数の濃度分布から成る推定テーブルとする工程
により、生成されることを特徴とする請求項１または２
記載の文字認識方法。
【請求項４】入力濃淡画像の２値化閾値を推定する際
に使う複数の濃度分布の例と各濃度分布に付属の閾値差
分値を有した推定テーブルと、入力濃淡画像の濃度分布を入力し、該推定テーブル内の
複数の濃度分布の例を参照し、該入力濃淡画像の濃度分
布に最も近い濃度分布を選び出し、該入力濃淡画像の初
期閾値を求め、該濃度分布に付属の閾値差分値を該入力
濃淡画像の初期閾値に加算することで、該入力濃淡画像
の最適２値化閾値を求める２値化推定部と、該最適２値化閾値により該入力濃淡画像を２値化する２
値化処理部と、あらかじめ用意した文字認識に用いるテンプレートを有
したテンプレート辞書と、該２値化処理部で２値化した画像から文字領域を切り出
す外接枠検出部と、該文字領域と該テンプレート辞書の各テンプレート間の
類似度を計算する類似度計算処理部と、該類似度の中で最も高い類似度のテンプレートのカテゴ
リーの文字を認識結果とする認識処理部とを、有するこ
とを特徴とする文字認識装置。
【請求項５】前記２値化推定部は、推定テーブル内か
ら入力濃淡画像の濃度分布に最も近い濃度分布を選び出
す際に、該推定テーブル内の濃度分布と該入力濃淡画像
の濃度分布を多次元ベクトル空間上の点と見なし、該入
力濃淡画像の濃度分布に最も近いベクトル距離を持つ該
推定テーブル内の濃度分布を選び出すものであることを
特徴とする請求項４記載の文字認識装置。
【請求項６】前記推定テーブルは、推定テーブル生成
部で作成され、該推定テーブル生成部は、学習用濃淡画像の濃度分布から初期閾値を求める初期閾
値計算手段と、該学習用濃淡画像から閾値を変化させて認識率が最大と
なる閾値範囲で２値化画像を取り出す２値化処理手段
と、該２値化画像とあらかじめ用意されたテンプレート辞書
の正解カテゴリーパターンおよび誤りカテゴリーパター
ンとの類似度を計算し、正解カテゴリーパターンの最大
類似度と誤りカテゴリーパターンの最大類似度の比率を
求め、該比率が最大値をとる２値化画像の２値化閾値を
入力画像の最適閾値とする最適閾値決定手段と、該初期閾値と該最適閾値の差分値を濃度分布ごとに付随
させて複数の濃度分布から成る推定テーブルとする推定
テーブル作成手段とを、備えることを特徴とする請求項
４または５記載の文字認識装置。
【請求項７】請求項１から３のいずれか１項に記載の
文字認識方法における工程を、コンピュータに実行させ
るためのプログラムとしたことを特徴とする文字認識プ
ログラム。
【請求項８】請求項から３のいずれか１項に記載の文
字認識方法における工程を、コンピュータに実行させる
ためのプログラムとし、該プログラムを、該コンピュータが読み取りできる記録
媒体に記録したことを特徴とする文字認識プログラムを
記録した記録媒体。