JP2003123023A - 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体 - Google Patents

文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体

Info

Publication number
JP2003123023A
JP2003123023A JP2001314804A JP2001314804A JP2003123023A JP 2003123023 A JP2003123023 A JP 2003123023A JP 2001314804 A JP2001314804 A JP 2001314804A JP 2001314804 A JP2001314804 A JP 2001314804A JP 2003123023 A JP2003123023 A JP 2003123023A
Authority
JP
Japan
Prior art keywords
density distribution
image
threshold value
grayscale image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001314804A
Other languages
English (en)
Inventor
Takahiko Niimura
貴彦 新村
Naoki Takegawa
直樹 武川
Yoshinao Shiraki
善尚 白木
Minako Sawaki
美奈子 澤木
Norihiro Hagita
紀博 萩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001314804A priority Critical patent/JP2003123023A/ja
Publication of JP2003123023A publication Critical patent/JP2003123023A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字画像認識に必要な特徴を与えるよう2値
化し認識率を上げる。 【解決手段】 2値化閾値の学習用の濃淡画像から、正
解テンプレートの識別が適切に行われる2値化画像を求
め、この時の閾値と従来法による初期閾値との差分を濃
淡分布に付随させてデータベースにした推定テーブル1
2を用意しておく。2値化処理部2での未知の濃淡画像
の2値化には、閾値選択部11にて濃度分布を多次元空
間上で推定テーブル12内の濃淡分布と比較し、最もユ
ークリッド距離が近いものを選び、付随する差分値と未
知の濃淡画像の初期閾値とから最適閾値を算出して与え
る。外接枠検出部3は最適閾値で2値化した画像から文
字領域を切り出し、これをサイズ正規化部4で正規化す
る。類似度計算部5はテンプレート辞書7の各テンプレ
ート間の類似度を計算し、認識処理部6が最も高い類似
度のテンプレートのカテゴリーの文字を認識結果として
出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字パターンの認
識に用いられるパターン認識辞書を最適化して文字認識
する方法及び装置に関する。
【0002】
【従来の技術】情景内の文字を撮影し濃淡画像に変換
し、その画像パターンを2値化して、2値化画像の特徴
からその文字画像を認識するパターン認識システムが知
られている。この種のパターン認識システムでは、予め
2値化するための閾値決定のためにアルゴリズムやルー
ルを用意してある。また各文字カテゴリーごとに2値化
画像の特徴を代表するテンプレート(雛型)と、各テン
プレートのそれぞれに対応した文字コードとを集め、こ
れらをパターンとして集めたパターン認識辞書も用意し
てある。認識時には入力された濃淡画像パターンを2値
化し、2値化画像パターンと認識辞書内のテンプレート
とを照らし合わせ、両者の特徴、具体的には類似度を計
算し、最も近似するテンプレートに対応する文字コード
を認識結果として出力する。
【0003】認識率を上げるには、2値化されたテンプ
レートに対して入力の2値化画像が特徴を適切に反映し
ている必要がある。この場合の2値化閾値決定法には大
津のアルゴリズムがある(文献A「大津展之、“判別お
よび最小2乗基準に基づく自動しきい値選定法”電子通
信学会論文誌、J63D,4,1980、pp349−
356」参照)。このアルゴリズムは濃度分布を文字の
黒画素分布と紙の黒画素分布に分け、それらの境界を求
めるアルゴリズムである。
【0004】この大津の2値化アルゴリズムを用いた文
字認識システムの手順を図16を用いて説明する。
【0005】まず、図17に示すような濃淡画像を用意
し、各画素単位で濃度値(0〜255)までを求める。
濃度別に画素数の頻度を取ってグラフにし、ある濃度閾
値kiで画素の頻度分布を分けると、図18に示すよう
になる。濃度閾値kiでの左右の分布について分散、平
均を求め、分布間の分離度Diを求める。2つの分布が
文字の黒画素分布と紙の黒画素分布を示しているなら
ば、この閾値での分布の分離度は最大になるはずである
(ちなみに、この分離度については文献A(pp35
0)を参照のこと)。閾値kiを変化させ分離度Diが
最大になる時の閾値を最適閾値とする。
【0006】選ばれた最適閾値で2値化をし(図1
9)、入力画像の縦横方向の黒画素ヒストグラムから1
文字の位置(外接枠)を把握する。この位置から2値化
文字を切り出し、大きさを正規化し、この文字を認識す
るために既存のテンプレート辞書(図20)を用いてテ
ンプレートマッテングを行う。辞書内の画像テンプレー
トと切り出しパターンの類似度を計算し、もっとも高い
類似度を取ったテンプレートパターンのカテゴリーを認
識結果とする。これらのステップを入力された未知の文
字画像の全文字について行う。
【0007】
【発明が解決しようとする課題】実際に、上記の従来法
による文字認識で不正解になった画像パターンを調べる
と、図21に示すように2値化画像としては正解カテゴ
リーにも誤りカテゴリーにも近い文字形状になってい
る。閾値を適切に調整して認識をやり直すと正しく認識
できる。
【0008】このことから、従来法による2値化画像が
正しく認識できなかった理由は、認識辞書の正解テンプ
レートに近い特徴を、従来法では復元できないため、認
識できなかったと考えられる。すなわち、従来法では、
テンプレートの構成する識別空間上で識別に有効な特徴
を、きちんと復元するための2値化閾値が与えられない
と考えられる。
【0009】そこで本発明は、入力画像に対する従来の
2値化閾値の決定方法や手段に代わる新たな決定方法や
手段を用いて、従来は認識できなかった文字画像に必要
な特徴を与えるように2値化し、認識率を上げることが
できる文字認識方法とその装置を提供することを課題と
する。
【0010】
【課題を解決するための手段】上記課題を解決するた
め、本発明は、入力濃淡画像の濃度分布を入力し、あら
かじめ用意した推定テーブル内の複数の濃度分布の例を
参照し、該入力濃淡画像の濃度分布に最も近い濃度分布
を選び出し、該入力濃淡画像の初期閾値を求め、該濃度
分布に付属の閾値差分値を該入力濃淡画像の初期閾値に
加算することで、該入力濃淡画像の最適2値化閾値を求
める工程と、該最適2値化閾値により該入力濃淡画像を
2値化する工程と、該2値化した画像から文字領域を切
り出す工程と、該文字領域とあらかじめ用意したテンプ
レート辞書の各テンプレート間の類似度を計算する工程
と、該類似度の中で最も高い類似度のテンプレートのカ
テゴリーの文字を認識結果とする工程とを、有すること
を特徴とする文字認識方法を手段とする。
【0011】あるいは、前記入力濃淡画像を2値化する
工程では、推定テーブル内から入力濃淡画像の濃度分布
に最も近い濃度分布を選び出す際に、該推定テーブル内
の濃度分布と該入力濃淡画像の濃度分布を多次元ベクト
ル空間上の点と見なし、該入力濃淡画像の濃度分布に最
も近いベクトル距離を持つ該推定テーブル内の濃度分布
を選び出すことを特徴とする文字認識方法を手段とす
る。
【0012】あるいは、前記推定テーブルが、学習用濃
淡画像の濃度分布から初期閾値を求める工程と、該学習
用濃淡画像から閾値を変化させて認識率が最大となる閾
値範囲で2値化画像を取り出す工程と、該2値化画像と
あらかじめ用意されたテンプレート辞書の正解カテゴリ
ーパターンおよび誤りカテゴリーパターンとの類似度を
計算し、正解カテゴリーパターンの最大類似度と誤りカ
テゴリーパターンの最大類似度の比率を求め、該比率が
最大値をとる2値化画像の2値化閾値を入力画像の最適
閾値とする工程と、該初期閾値と該最適閾値の差分値を
濃度分布ごとに付随させて複数の濃度分布から成る推定
テーブルとする工程により、生成されることを特徴とす
る文字認識方法を手段とする。
【0013】また、本発明は、入力濃淡画像の2値化閾
値を推定する際に使う複数の濃度分布の例と各濃度分布
に付属の閾値差分値を有した推定テーブルと、入力濃淡
画像の濃度分布を入力し、該推定テーブル内の複数の濃
度分布の例を参照し、該入力濃淡画像の濃度分布に最も
近い濃度分布を選び出し、該入力濃淡画像の初期閾値を
求め、該濃度分布に付属の閾値差分値を該入力濃淡画像
の初期閾値に加算することで、該入力濃淡画像の最適2
値化閾値を求める2値化推定部と、該最適2値化閾値に
より該入力濃淡画像を2値化する2値化処理部と、あら
かじめ用意した文字認識に用いるテンプレートを有した
テンプレート辞書と、該2値化処理部で2値化した画像
から文字領域を切り出す外接枠検出部と、該文字領域と
該テンプレート辞書の各テンプレート間の類似度を計算
する類似度計算処理部と、該類似度の中で最も高い類似
度のテンプレートのカテゴリーの文字を認識結果とする
認識処理部とを、有することを特徴とする文字認識装置
を手段とする。
【0014】あるいは、前記2値化推定部が、推定テー
ブル内から入力濃淡画像の濃度分布に最も近い濃度分布
を選び出す際に、該推定テーブル内の濃度分布と該入力
濃淡画像の濃度分布を多次元ベクトル空間上の点と見な
し、該入力濃淡画像の濃度分布に最も近いベクトル距離
を持つ該推定テーブル内の濃度分布を選び出すものであ
ることを特徴とする文字認識装置を手段とする。
【0015】あるいは、前記推定テーブルが、推定テー
ブル生成部で作成され、該推定テーブル生成部は、学習
用濃淡画像の濃度分布から初期閾値を求める初期閾値計
算手段と、該学習用濃淡画像から閾値を変化させて認識
率が最大となる閾値範囲で2値化画像を取り出す2値化
処理手段と、該2値化画像とあらかじめ用意されたテン
プレート辞書の正解カテゴリーパターンおよび誤りカテ
ゴリーパターンとの類似度を計算し、正解カテゴリーパ
ターンの最大類似度と誤りカテゴリーパターンの最大類
似度の比率を求め、該比率が最大値をとる2値化画像の
2値化閾値を入力画像の最適閾値とする最適閾値決定手
段と、該初期閾値と該最適閾値の差分値を濃度分布ごと
に付随させて複数の濃度分布から成る推定テーブルとす
る推定テーブル作成手段とを、備えることを特徴とする
文字認識装置を手段とする。
【0016】また本発明は、上記の文字認識方法におけ
る工程を、コンピュータに実行させるためのプログラム
としたことを特徴とする文字認識プログラムを手段とす
る。
【0017】あるいは、上記の文字認識方法における工
程を、コンピュータに実行させるためのプログラムと
し、該プログラムを、該コンピュータが読み取りできる
記録媒体に記録したことを特徴とする文字認識プログラ
ムを記録した記録媒体を手段とする。
【0018】本発明では、閾値の学習用の濃淡画像か
ら、正解テンプレートの識別が適切に行われる2値化画
像を求め、この時の閾値と大津の方法による閾値(初期
閾値)との差分を濃淡分布に付随させてデータベースに
した推定テーブルを用意し、未知の濃淡画像の2値化に
は、濃度分布を多次元空間上でデータベース内の濃淡画
像分布と比較し、最もユークリッド距離が近いものを選
び、付随する差分値と未知の濃淡画像の初期閾値(大津
の方法による)とから最適閾値を算出して与える2値化
閾値の推定方法または手段を採用することにより、テン
プレートの識別に必要な特徴を学習した推定テーブルか
ら、未知の濃淡画像に対して適切な2値化閾値を提供し
て未知の文字の濃淡画像の認識率を向上させる。
【0019】なお、前記推定テーブルは以下の原理で生
成可能である。入力文字画像(以下、Fとする)を2値
化して、辞書のテンプレート内で正解カテゴリのテンプ
レートと誤りカテゴリのテンプレートの2つのグループ
で類似度を求める。正解テンプレートの最高類似度をC
m、誤りテンプレートの最高類似度をWmとする。ここ
でCmとWmが近いときは同じ正解でも、正解テンプレ
ートが誤りテンプレートに類似度的に近くて正解になっ
ている。識別空間ではCmとWmの差が大きいほうがよ
い。そこで、CmとWmの比Scwを求め、正解を得ら
れる閾値の範囲でScwの曲線を求める。Scw曲線で
最大値をとる閾値をk*(以下、*は図中の上つき記号
を示す)とすれば、k*が認識辞書の特性を考慮した最
適閾値となる(図11)。こうして求めた最適閾値と濃
度分布の初期閾値(大津の方法による)の差分をとり、
差分値と濃度分布を対応させる。閾値の学習用に多数の
濃淡画像を用意し、濃度分布と差分値の対応を計算した
後、濃度分布を多次元ベクトルとみなし、多次元空間上
で複数の濃度分布を競合学習によりクラスタリングし、
クラス内で濃度分布ベクトルの平均と差分値の平均を求
め、クラスタごとの平均濃度分布と差分値を構成要素と
する推定テーブルを生成する。
【0020】
【発明の実施の形態】以下、図面を用いて本発明の実施
形態例について説明する。
【0021】図1は、本発明のパターン認識方法の一実
施形態例としての文字認識方法の処理の流れとともに文
字認識装置の構成を示す図である。図1において、1は
画像入力部、2は2値化処理部、3は外接枠検出部、4
はサイズ正規化部、5は類似度計算部、6は認識処理
部、7はテンプレート辞書、10は2値化推定部であ
る。2値化推定部10において、11は閾値選択部、1
2は推定テーブル、13は推定テーブル生成部である。
【0022】画像入力部1には、撮影距離が異なる様々
な解像度の文字画像が入力され、画像の標本化、量子化
が行われる。以下の説明では、入力文字画像は、英大文
字26カテゴリーの画像パターンで、48×48で、1
カテゴリーあたり20種類のフォントの画像パターンか
らなるものとする。
【0023】未知の文字の濃淡画像が画像入力部1で処
理されると、2値化処理部2において、2値化推定部1
0で与えられる最適な2値化閾値に従って、文字画像が
2値化されて出力される。2値化処理部2の詳細な動作
と推定モデルの生成方法については後述する。
【0024】2値化された文字画像は外接枠検出部3に
入力され、当該外接枠検出部3において縦軸、横軸それ
ぞれに射影したの黒画素数頻度のヒストグラム(図2)
を算出する。ヒストグラムのピーク位置から文字位置が
検出される。文字位置検出後、隣接する文字と重なら
ず、対象とする文字の黒画素をすべて含む1文字だけの
領域(外接枠で囲まれた領域)を抽出する。
【0025】抽出された領域の2値化文字画像は、サイ
ズ正規化部4において、後述するテンプレート辞書7の
パターンと大きさを揃えるために文字サイズの正規化を
行う。サイズ正規化には、文字の縦横比を一定にしたま
ま拡大縮小する方法、文字の縦横の長さを固定長にする
方法、重心からの分散を揃える方法がある。ここでは、
例として文字の縦横比を一定にしたまま拡大縮小する方
法について述べる。
【0026】本方法では、抽出された文字の縦横の辺の
うち長い方の辺を選び、正規化サイズ(正方形)の1辺
に合わせるように文字を拡大または縮小する。入力文字
が図3(a)のように12×12画素の文字画像、テン
プレート辞書7の文字サイズが図3(b)のように48
×48画素の場合、倍率比は4になる。つまり入力文字
が12×12画素からなる文字画像の1画素(1×1)
は(4×4)の正方形に拡大される。4×4画素のブロ
ックに元の図形を描けばサイズが正規化された48×4
8画素の画像ができる。拡大に際しては、文字の輪郭に
ブロック状のひずみが現れるが、このひずみを除去する
ため、必要に応じて文字輪郭のスムージング化が行われ
る。
【0027】次に、類似度計算部5において、上記で正
規化された入力パターンとテンプレートの類似度を計算
する。類似度には単純類似度、補完類似度など多くの方
法が存在する。ここでは、補完類似度を用いる場合につ
いて説明する(文献B「澤木美奈子、荻田紀博“補完類
似度に基づく新聞見出し文字の領域抽出と認識”電子情
報通信学会、信学技報、PRU95−106(1995
−09)、p126」参照)。補完類似度は、入力画像
と辞書画像の文字を同じサイズとなるように前処理を行
った後、2つのパターンを重ね合わせて、白黒画素の一
致した数の積から一致しなかった数の積を引いて、黒画
素数により正規化した値として定義される。
【0028】類似度計算部5には、正規化された入力パ
ターンと辞書テンプレートパターンが入力される。辞書
テンプレートは、図4に示すように2値化され、正規化
されたパターンが英文大文字の例では26カテゴリー、
1カテゴリーあたり20種類のフォントとする。これら
のテンプレートと入力パターンに対し、テンプレートの
数だけ類似度を計算する。テンプレートにはカテゴリー
が記されたタグがついており、類似度計算部5から、類
似度の値とカテゴリーに対応するタグの番号が出力され
る。
【0029】最後に、認識処理部6においては、上記の
複数の類似度のうち、類似度の最大となるテンプレート
のタグのカテゴリーを求め、入力文字の文字認識結果と
して出力する。
【0030】本実施形態例では、あらかじめテンプレー
ト辞書7と閾値テーブル生成用データセットを用意し、
閾値推定テーブル12を生成しておく必要がある。テン
プレート辞書7は、図5のように解像度の高い濃淡画像
を大津の2値化で得た2値画像で構成されている。
【0031】次に、閾値推定テーブル12の生成方法と
手段について図6で説明する。推定テーブル12は推定
テーブル生成部13で生成される。推定テーブル生成部
13は、前処理手段14と、初期閾値計算手段15と、
2値化処理手段16と、最適閾値決定手段17と、推定
テーブル作成手段18とで、構成されている。
【0032】まず、学習用データとして文字画像を用意
し(図7)、前処理手段14において、前処理として、
大津の2値化で外接枠を検出した後に一文字ごとに文字
領域を濃淡画像から切り出す(図8)。初期閾値計算手
段15は、切り出された一文字について、濃度分布Eと
大津の2値化による初期閾値k0を求める(図9)。2
値化処理手段16は、ある閾値kにより2値化画像を作
り、テンプレート辞書7で認識率Rを求める。この閾値
kを0〜255で変えて、最大認識率をとる閾値kr
複数選び出す(図10)。
【0033】最適閾値決定手段17では、これらの一つ
rについて2値化画像をテンプレート辞書7で認識す
るときに、正解カテゴリーテンプレートの最大類似度C
mと誤りカテゴリーテンプレートの最大類似度Wmを求
める。2つの類似度を使って比Scw(=Cm/Wm)
を定義する。最大認識率をとる複数の閾値についてSc
wを計算し、最大値Scw*をとるkrをk*とする
(図11)。
【0034】推定テーブル作成手段18では、まず濃度
分布Eについて、k0,Δk(=k*−k0)を対応させ
る。このときEを256次元のベクトルと見なせば、2
56次元空間の一点Eと対応させることになる(図1
2)。手持ちの学習用文字画像パターン全部について、
E,k0,Δkを計算する。これらを256次元空間で
いくつかのパターンをまとめてクラスタに分類するため
に、例えば競合学習などで10種類のクラスタに分類す
る。各クラスタの中でE,k0,Δkを平均し、クラス
タを代表するパラメータとする。10種類の濃度分布E
iとΔKi、K 0をもって閾値推定テーブル12とす
る。
【0035】次に、2値化処理部2からの未知の画像に
対して、推定テーブル12を使った閾値選択部11の動
きを図13で説明する。入力画像を大津の方法で2値化
して、外接枠を取り出し、1文字あたりの濃淡画像を切
り出す。この一文字の濃淡画像をfとする(図14
(a))。fに対して初期閾値k0fと濃度分布Efを求
め(図14(b))、256次元空間で、推定モデルの
平均濃度分布ベクトルE0〜Enと比べる。比較は2つの
ベクトル、EfとEiのユークリッド距離の差で比べ、距
離が小さいものが一番Efに近いとして、E*とする
(図14(c))。E*に付属するΔKiを用いてEf
最適な閾値k*を計算する。k*はk0fにΔKiを加算
することで得られる。入力画像の濃度分布の種類と大津
の方法で求めた初期閾値と最適閾値の例を図15
(a),(b),(c)に示す。
【0036】2値化処理部2は、閾値選択部11で計算
されて与えられる上記の最適な2値化閾値k*に従っ
て、未知の文字画像を2値化し、上記で説明した外接枠
検出部3へ出力する。
【0037】本発明は、コンピュータ装置に所定のプロ
グラムコードを読み込ませて、それを実行させることに
よっても、上記課題解決が可能である。このプログラム
は、図1、図6、および図13で示した各部の機能や処
理の手順をプログラムとしたものであり、このコンピュ
ータ装置で読み取りが可能な記録媒体に記録されたもの
である。例えば、下記の工程等をコンピュータ装置に実
行させることが可能である。
【0038】(1)カテゴリーの特徴を代表するテンプ
レートを複数保持したパターン認識辞書を用いて閾値学
習用の濃淡画像の2値化画像の認識率を計算し、正解カ
テゴリーテンプレートの最大類似度と誤りカテゴリーテ
ンプレートの最大類似度を計算し、2つの類似度の比が
最大になる閾値を選択する工程。
【0039】(2)閾値学習用の濃淡画像の2値化画像
について初期閾値を計算し、上記最大類似度の比を最大
にする閾値と初期閾値の差分値を計算する工程。
【0040】(3)上記、閾値学習用の濃淡画像パター
ンから差分値と濃度分布を対応させたテーブルをもとに
未知の画像の濃淡分布とテーブル内の濃淡分布を多次元
ベクトルとみなし、多次元空間上でユークリッド距離を
計算し、入力画像の濃度分布に最も近い濃度分布をテー
ブル内から選択する工程。
【0041】このように、記録媒体に記録することによ
って、本発明による文字認識の実行プログラムを保存し
たり、配布したりすることが可能となる。また、上記の
プログラムをインターネットや電子メールなど、ネット
ワークを通して提供することも可能となる。
【0042】
【発明の効果】本発明は、2値化処理により文字画像を
認識して情報処理を行うので、2値化処理の不適切な影
響は情報処理にまで影響を及ぼす。また、本発明は認識
辞書にふさわしい2値化閾値を提供するので、認識率が
上がる。2値化処理による認識率向上が進めば、カメラ
画像からの情報処理という分野が発展する可能性があ
る。さらに本発明は、近年進んでいるIT産業に関し
て、多様なインターフェイス(カメラ、センサー系な
ど)からの情報処理を推進するものであり、情景内文字
認識の製品開発に寄与するものである。
【図面の簡単な説明】
【図1】本発明の一実施形態例による低解像度文字認識
方法とその装置構成を示す図
【図2】2値化画像の黒画素ヒストグラムの例を示す図
【図3】(a),(b)は、サイズ正規化(縦横比等
倍)の例を示す図
【図4】テンプレート辞書の例を示す図
【図5】テンプレート辞書の2値パターンの例を示す図
【図6】本発明の一実施形態例による閾値推定テーブル
の生成方法と手段の説明図
【図7】既存の学習用の文字画像の例を示す図
【図8】文字領域の推定の例を示す図
【図9】濃度分布から初期閾値を求める例を示す図
【図10】入力パターンの2値化画像と認識率の例を示
す図
【図11】入力パターンが正解になる閾値の範囲におけ
るScw曲線の例を示す図
【図12】濃淡分布を多次元ベクトルと見なして推定テ
ーブルを作成する処理の説明図
【図13】本発明の一実施形態例による閾値選択部の動
きの説明図
【図14】(a),(b),(c)は、本発明による閾
値選択部の処理の説明図
【図15】(a),(b),(c)は、本発明での濃度
分布の種類と閾値の例を示す図
【図16】従来法による類似度を用いた文字認識システ
ムの処理の流れ図
【図17】従来法による文字認識システムの処理の説明
図(その1)
【図18】従来法による文字認識システムの処理の説明
図(その2)
【図19】従来法による文字認識システムの処理の説明
図(その3)
【図20】従来法による文字認識システムの処理の説明
図(その4)
【図21】閾値の違いによる認識結果の例を示す図
【符号の説明】
1…画像入力部 2…2値化処理部 3…外接枠検出部 4…サイズ正規化部 5…類似度計算部 6…認識処理部 7…テンプレート辞書 10…2値化推定部 11…閾値選択部 12…推定テーブル 13…推定テーブル生成部 14…前処理手段 15…初期閾値計算手段 16…2値化処理手段 17…最適閾値決定手段 18…推定テーブル作成手段
フロントページの続き (72)発明者 白木 善尚 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 澤木 美奈子 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 萩田 紀博 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B029 DD07 EE15 5B064 CA03 CA11 DB05

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力濃淡画像の濃度分布を入力し、あら
    かじめ用意した推定テーブル内の複数の濃度分布の例を
    参照し、該入力濃淡画像の濃度分布に最も近い濃度分布
    を選び出し、該入力濃淡画像の初期閾値を求め、該濃度
    分布に付属の閾値差分値を該入力濃淡画像の初期閾値に
    加算することで、該入力濃淡画像の最適2値化閾値を求
    める工程と、 該最適2値化閾値により該入力濃淡画像を2値化する工
    程と、 該2値化した画像から文字領域を切り出す工程と、 該文字領域とあらかじめ用意したテンプレート辞書の各
    テンプレート間の類似度を計算する工程と、 該類似度の中で最も高い類似度のテンプレートのカテゴ
    リーの文字を認識結果とする工程とを、有することを特
    徴とする文字認識方法。
  2. 【請求項2】 前記入力濃淡画像を2値化する工程で
    は、推定テーブル内から入力濃淡画像の濃度分布に最も
    近い濃度分布を選び出す際に、該推定テーブル内の濃度
    分布と該入力濃淡画像の濃度分布を多次元ベクトル空間
    上の点と見なし、該入力濃淡画像の濃度分布に最も近い
    ベクトル距離を持つ該推定テーブル内の濃度分布を選び
    出すことを特徴とする請求項1記載の文字認識方法。
  3. 【請求項3】 前記推定テーブルは、 学習用濃淡画像の濃度分布から初期閾値を求める工程
    と、 該学習用濃淡画像から閾値を変化させて認識率が最大と
    なる閾値範囲で2値化画像を取り出す工程と、 該2値化画像とあらかじめ用意されたテンプレート辞書
    の正解カテゴリーパターンおよび誤りカテゴリーパター
    ンとの類似度を計算し、正解カテゴリーパターンの最大
    類似度と誤りカテゴリーパターンの最大類似度の比率を
    求め、該比率が最大値をとる2値化画像の2値化閾値を
    入力画像の最適閾値とする工程と、 該初期閾値と該最適閾値の差分値を濃度分布ごとに付随
    させて複数の濃度分布から成る推定テーブルとする工程
    により、生成されることを特徴とする請求項1または2
    記載の文字認識方法。
  4. 【請求項4】 入力濃淡画像の2値化閾値を推定する際
    に使う複数の濃度分布の例と各濃度分布に付属の閾値差
    分値を有した推定テーブルと、 入力濃淡画像の濃度分布を入力し、該推定テーブル内の
    複数の濃度分布の例を参照し、該入力濃淡画像の濃度分
    布に最も近い濃度分布を選び出し、該入力濃淡画像の初
    期閾値を求め、該濃度分布に付属の閾値差分値を該入力
    濃淡画像の初期閾値に加算することで、該入力濃淡画像
    の最適2値化閾値を求める2値化推定部と、 該最適2値化閾値により該入力濃淡画像を2値化する2
    値化処理部と、 あらかじめ用意した文字認識に用いるテンプレートを有
    したテンプレート辞書と、 該2値化処理部で2値化した画像から文字領域を切り出
    す外接枠検出部と、 該文字領域と該テンプレート辞書の各テンプレート間の
    類似度を計算する類似度計算処理部と、 該類似度の中で最も高い類似度のテンプレートのカテゴ
    リーの文字を認識結果とする認識処理部とを、有するこ
    とを特徴とする文字認識装置。
  5. 【請求項5】 前記2値化推定部は、推定テーブル内か
    ら入力濃淡画像の濃度分布に最も近い濃度分布を選び出
    す際に、該推定テーブル内の濃度分布と該入力濃淡画像
    の濃度分布を多次元ベクトル空間上の点と見なし、該入
    力濃淡画像の濃度分布に最も近いベクトル距離を持つ該
    推定テーブル内の濃度分布を選び出すものであることを
    特徴とする請求項4記載の文字認識装置。
  6. 【請求項6】 前記推定テーブルは、推定テーブル生成
    部で作成され、 該推定テーブル生成部は、 学習用濃淡画像の濃度分布から初期閾値を求める初期閾
    値計算手段と、 該学習用濃淡画像から閾値を変化させて認識率が最大と
    なる閾値範囲で2値化画像を取り出す2値化処理手段
    と、 該2値化画像とあらかじめ用意されたテンプレート辞書
    の正解カテゴリーパターンおよび誤りカテゴリーパター
    ンとの類似度を計算し、正解カテゴリーパターンの最大
    類似度と誤りカテゴリーパターンの最大類似度の比率を
    求め、該比率が最大値をとる2値化画像の2値化閾値を
    入力画像の最適閾値とする最適閾値決定手段と、 該初期閾値と該最適閾値の差分値を濃度分布ごとに付随
    させて複数の濃度分布から成る推定テーブルとする推定
    テーブル作成手段とを、備えることを特徴とする請求項
    4または5記載の文字認識装置。
  7. 【請求項7】 請求項1から3のいずれか1項に記載の
    文字認識方法における工程を、コンピュータに実行させ
    るためのプログラムとしたことを特徴とする文字認識プ
    ログラム。
  8. 【請求項8】 請求項から3のいずれか1項に記載の文
    字認識方法における工程を、コンピュータに実行させる
    ためのプログラムとし、 該プログラムを、該コンピュータが読み取りできる記録
    媒体に記録したことを特徴とする文字認識プログラムを
    記録した記録媒体。
JP2001314804A 2001-10-12 2001-10-12 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体 Pending JP2003123023A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001314804A JP2003123023A (ja) 2001-10-12 2001-10-12 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001314804A JP2003123023A (ja) 2001-10-12 2001-10-12 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003123023A true JP2003123023A (ja) 2003-04-25

Family

ID=19133059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001314804A Pending JP2003123023A (ja) 2001-10-12 2001-10-12 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003123023A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006073081A1 (ja) * 2005-01-05 2006-07-13 Nec Corporation 識別用データ学習システム、学習装置、識別装置及び学習方法
JP2010225047A (ja) * 2009-03-25 2010-10-07 Seiko Epson Corp ノイズ成分除去装置、ノイズ成分除去プログラムを記録した媒体
JP2014229317A (ja) * 2013-05-24 2014-12-08 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
CN108038425A (zh) * 2017-11-28 2018-05-15 无锡十月中宸科技有限公司 一种模式识别索引系统及其索引方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006073081A1 (ja) * 2005-01-05 2006-07-13 Nec Corporation 識別用データ学習システム、学習装置、識別装置及び学習方法
JPWO2006073081A1 (ja) * 2005-01-05 2008-06-12 日本電気株式会社 識別用データ学習システム、学習装置、識別装置及び学習方法
US7783581B2 (en) 2005-01-05 2010-08-24 Nec Corporation Data learning system for identifying, learning apparatus, identifying apparatus and learning method
JP4697670B2 (ja) * 2005-01-05 2011-06-08 日本電気株式会社 識別用データ学習システム、学習装置、識別装置及び学習方法
JP2010225047A (ja) * 2009-03-25 2010-10-07 Seiko Epson Corp ノイズ成分除去装置、ノイズ成分除去プログラムを記録した媒体
JP2014229317A (ja) * 2013-05-24 2014-12-08 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
CN108038425A (zh) * 2017-11-28 2018-05-15 无锡十月中宸科技有限公司 一种模式识别索引系统及其索引方法

Similar Documents

Publication Publication Date Title
Korus et al. Multi-scale fusion for improved localization of malicious tampering in digital images
US5410611A (en) Method for identifying word bounding boxes in text
US7092554B2 (en) Method for detecting eye and mouth positions in a digital image
EP1296279B1 (en) Method and computer program product for locating facial features
Chen et al. Page segmentation for historical handwritten document images using color and texture features
JP2014153820A (ja) 文字切り出し装置及び文字切り出し方法
JP4100885B2 (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
Chen et al. Robust text line segmentation for historical manuscript images using color and texture
Tardón et al. Optical music recognition for scores written in white mensural notation
CN111754441B (zh) 一种图像复制粘贴伪造被动检测方法
US20130050765A1 (en) Method and apparatus for document authentication using image comparison on a block-by-block basis
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
US20070104376A1 (en) Apparatus and method of recognizing characters contained in image
KR100726473B1 (ko) 이미지 분별 장치 및 그 방법
Huang et al. A back propagation based real-time license plate recognition system
CN111967457A (zh) 一种基于深度学习的ocr检测方法
JP2003123023A (ja) 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体
JP6377214B2 (ja) テキスト検出方法および装置
Thilagavathy et al. Fuzzy based edge enhanced text detection algorithm using MSER
Essa et al. High order volumetric directional pattern for video-based face recognition
JPH05342412A (ja) グラディエントベクトルの抽出方式及び文字認識用特徴抽出方式
CN115995080B (zh) 基于ocr识别的档案智能管理系统
Wadhawan et al. Automated Recognition of Text in images: A survey
CN117095423B (zh) 一种银行单据字符的识别方法及装置