JP3790736B2 - 文字認識用辞書作成装置及び文字認識装置 - Google Patents

文字認識用辞書作成装置及び文字認識装置 Download PDF

Info

Publication number
JP3790736B2
JP3790736B2 JP2002300891A JP2002300891A JP3790736B2 JP 3790736 B2 JP3790736 B2 JP 3790736B2 JP 2002300891 A JP2002300891 A JP 2002300891A JP 2002300891 A JP2002300891 A JP 2002300891A JP 3790736 B2 JP3790736 B2 JP 3790736B2
Authority
JP
Japan
Prior art keywords
character
cluster
feature
unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002300891A
Other languages
English (en)
Other versions
JP2003162688A (ja
Inventor
穂 高倉
一郎 中尾
磨理子 竹之内
里志 江村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2002300891A priority Critical patent/JP3790736B2/ja
Publication of JP2003162688A publication Critical patent/JP2003162688A/ja
Application granted granted Critical
Publication of JP3790736B2 publication Critical patent/JP3790736B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、新聞の活字、ワープロ印字及び手書き文字等を認識する文字認識装置及びその装置用の辞書の作成装置に関する。
【0002】
【従来の技術】
一般に従来より文字認識装置は、認識対象の文字画像から幾つかの特徴を抽出し、その幾つかの特徴の組(以後単に特徴と呼ぶ)を、内蔵する辞書中の基準の特徴と比較し、これが最も類似した文字を認識結果とする。
この際用いられる辞書用の最も単純な辞書作成装置は、何人かにより手書きされた文字、異なるフォントで印字された文字等からなる同一文字の複数の画像学習用データから抽出した各特徴の平均値をその文字の基準特徴として辞書に格納する。
【0003】
しかし、学習データから抽出した特徴の分布は複雑に入り混じったものになることが普通であるため、このような単純な装置で作成した辞書を用いると、同一文字であっても、書く人により、あるいは書くたびに文字形状が変動する手書き文字や、複数の文字形状からなるマルチフォントで印字された文字の認識をする場合には、不十分である。
【0004】
そのため、一般的な手法であるクラスタ分析〔異質なものの混ざりあっている対象{それは個体(=もの)の場合もあるし、変数の場合もある}を、それらの間に何らかの意味で定義された類似度(similarity)を手がかりにして似たものを集め、いくつかの均質なものの集落(クラスタ)に分類する方法をいう。(例えば、非特許文献1参照)〕の手法を応用した辞書作成装置が提案されている。この装置では、各文字の学習データ中の類似したデータを集めて複数のクラスタを作り、各クラスタ毎に求めた特徴の平均値を辞書に格納する。この場合、文字毎のクラスタ数が多い程、作成された辞書による認識率は高くなるけれども、それだけ辞書容量が大きくなる。
【0005】
また、作成された辞書を用いて文字認識装置は、認識対象の文字画像の特徴と辞書に格納された全辞書データとを距離計算して比較する。このため、辞書に格納された辞書データの総数が多いと、認識に要する時間もそれにともなって長くなる。従って、記憶資源の効率や認識実行時間を考慮すると、1文字のクラスタ数は少ない程良い。
【0006】
これら相反する要件の下、高い認識率を実現する最少のクラスタ数が、最適クラスタ数となる。しかし、ある文字の最適クラスタ数は、その文字に属する学習データの特徴の分布だけではなく、特徴空間上隣接して分布する他の文字の学習データの分布との関係に左右されるため、全文字の学習データの特徴の分布を把握する必要がある。
【0007】
ところが、通常、辞書作成には、膨大な数の学習データを使用するため、それら総てについて、相互の関係を把握し、各文字の最適クラスタ数を決定する作業は、膨大な計算量が必要であり、現実的ではない。
そのため、従来の第1の技術では、全文字一律のクラスタ数でクラスタリング(クラスタ分析)をしている。
【0008】
また、第2の技術(例えば、特許文献1参照)では、一旦、全文字一律のクラスタ数でクラスタリングをして辞書を作成した後、作成した辞書を用いて認識実験を行い、認識率を見ながらクラスタ数の調整をしている。
また、第3の技術(例えば、特許文献2参照)では、特徴に関しては、入力された文字画像の境界画素毎に隣接する境界画素との位置関係に基づいて方向値を定義し、文字画像外接矩形を水平方向にL分割、垂直方向にM分割した各部分領域における各方向値の境界点数を計数した領域別輪郭方向密度と、文字画像外接矩形中の各画素から各辺に向かって走査したとき、文字部を横切る回数+1を背景値として定義し、文字画像外接矩形を水平方向にP分割、垂直方向にQ分割した各部分領域における各方向各背景値ごとの画素数を計数した領域別背景密度とを用いている。
【0009】
また、第4の技術(例えば、特許文献3参照)では、文字認識装置で認識対象の文書画像が文書の印字状態や入力時の画像2値化処理により、文字同士の接触や掠れによる文字の分離などが出現することがあるため、接触文字や分離文字が含まれる文書画像から個々の文字を切り出し認識するようしている。その手段として、切り出された文字あるいは文字部分を単独で認識すると共に、連結後の文字幅が予め推定しておいた文字幅を越えない限り分離文字の可能性もあるため、隣接する文字あるいは文字部分を可能な全ての組合せで連結・認識し、単独で認識した場合と、連結・認識した場合とでより評価値の高い方を認識結果として採用する。
【0010】
更に、従来の文字認識装置は、文字以外の絵や図の記入された文書画像から、絵や図を文字行として切り出し、誤認識を行う危険性を考慮して、評価値から認識したものが正しい文字であるか否かを各文字毎に判断をしている。
【0011】
【非特許文献1】
「多変量統計解析法」,田中豊・脇本和昌著,現代数学社,P.230〜244
【0012】
【特許文献1】
特開平1−36388号公報
【0013】
【特許文献2】
特公平5−082628号公報
【0014】
【特許文献3】
特開平5−128307号公報
【0015】
【発明が解決しようとする課題】
ところで、上述した第1の技術では、1文字あたりのクラスタ数が少ないと極端に認識率が悪いため、一般に、冗長なクラスタリングを行うことになり、認識率の割にはクラスタ数が多くなる。
また、第2の技術では、例えば、「0」と「O」など殆ど同形の文字があった場合、いくらクラスタ数を増やしても認識率が上がらないため、徒にクラスタ数が増えてしまう。
【0016】
また、第3の技術では、図32に示す形状3201、3202のように形状が異なっても、輪郭の連続関係3203が類似しているので、非常に類似した特徴が得られ、同一であると誤認識することが多い。
また、第4の技術では、連結後の文字幅が予め推定しておいた文字幅を越えない限り分離文字の可能性もあるとして、隣接する文字あるいは文字部分を可能な全ての組合せで連結・認識するため、認識に時間を要する。
【0017】
更に、従来の文字認識装置では、図や絵の一部が偶然類似した文字として認識された場合には、意味のない認識結果が得られることになる。
本発明は上記課題に鑑み、適切な辞書データ数で高認識率が達成できる、手書き文字あるいはマルチフォント文字の認識用辞書の作成装置及び該装置で作成された辞書を用いた文字認識装置を提供することを目的とする。
【0018】
【課題を解決するための手段】
上記課題を解決するため、本発明においては、文字コードごとに、入力を受け付けた多数の学習用文字画像を2値画像データに変換する入力画像変換手段と、前記入力画像変換手段で変換された各2値画像データから文字認識に用いる特徴を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴を、文字コードごとに所定の手順でクラスタに分類するクラスタリング手段と、前記クラスタリング手段で分類したクラスタごとに、前記特徴抽出手段で抽出した特徴を平均したクラスタ平均特徴を求めて、前記入力画像変換手段から入力された文字コードに対応付けた大分類用データとして登録する大分類用辞書登録手段と、前記大分類用辞書登録手段に登録されているクラスタ平均特徴間の距離を計算する距離計算手段と、前記距離計算手段で計算された距離が所定の値よりも小さい異なる文字コードのクラスタを近接クラスタの組として取り出し、その組ごとにクラスタ平均特徴のうちそれらを識別する能力の高い要素を少なくとも1個選択して、両クラスタの識別子とともに詳細識別用データとして登録する詳細識別用辞書登録手段とを備え、前記クラスタリング手段は、文字コードごとに文字認識に用いる特徴相互間の距離を計算する距離計算部と、前記距離計算部が計算した各文字コードごとの距離の最大値のうち最小のものを基にクラスタの大きさに決定する決定部と、文字コードごとに前記決定部で決定されたクラスタの大きさ以下にクラスタを統合する統合部とを備えることとしている。
【0019】
また、本発明においては、認識対象の文字画像の入力を受け付けて2値画像データに変換する入力画像変換手段と、前記入力画像変換手段で変換された2値画像データの文字行に対応する座標位置を検出する文字行座標位置検出手段と、前記文字行座標位置検出手段の検出対象とされた文字行内の個々の文字に対応する座標位置を検出する文字座標位置検出手段と、前記文字座標位置検出手段で検出された座標で特定される2値画像からなる文字の認識に使用する特徴を抽出する特徴抽出手段と、基準となる文字の形状特徴を平均したクラスタ平均特徴とその文字コードを対応付けて所定の値の大きさのクラスタに分類して登録している大分類用辞書と、前記特徴抽出手段で抽出された特徴と上記クラスタ平均特徴との距離を計算し、得られた距離から類似度を計算し、類似度の高い複数のクラスタをクラスタ候補として選出する大分類手段と、前記大分類用辞書に登録されているクラスタのうち、2つのクラスタ間の距離が所定の値より小さい近接クラスタの識別子と少なくとも1以上の両クラスタを識別するクラスタ平均特徴の要素とを対応付けて登録している詳細識別用辞書と、前記詳細識別用辞書に登録されている近接クラスタの2つの識別子が、前記大分類手段で選出された複数の候補クラスタ中の識別子にともに含まれているときには、前記詳細識別用辞書に登録されている文字の認識に使用する特徴の要素のみに関して、前記特徴抽出手段で抽出された特徴とクラスタ平均特徴との第2の距離を計算し、該第2の距離の小さい方のクラスタの類似度を引き上げる詳細識別手段と、前記詳細識別手段で引き上げられた類似度を優先して、前記大分類手段で選出された候補クラスタに対応する文字コードを出力する出力手段とを備え、文字コードごとに入力を受け付けた多数の学習用文字画像を2値画像データに変換する入力画像変換手段と、前記入力画像変換手段で変換された各2値画像データから文字認識に用いる特微を抽出する文字特微抽出手段と、前記文字特微抽出手段で抽出された文字認識に用いる特微相互間の距離を文字コードごとに計算する距離計算手段と、前記距離計算手段が計算した各文字コードごとの距離の最大値のうち最小のものを基に前記大分類用辞書及び詳細識別用辞書の所定の値として、決定する決定手段とを備えることを特徴としている。
【0020】
【発明の実施の形態】
以下、本発明に係る文字認識用辞書作成装置を実施の形態に基づいて説明する。
(実施の形態1)
図1は、本発明に係る文字認識用辞書作成装置の一実施の形態の構成図である。
文字認識用辞書作成装置は、画像入力部101と、学習用文字画像データベース102と、特徴抽出部103と、学習特徴データベース104と、クラスタリング部105と、クラスタデータベース106と、大分類用辞書作成部107と、大分類用辞書108と、クラスタ間距離計算部109と、詳細識別用辞書作成部110と、詳細識別用辞書111と、棄却処理用辞書作成部112と、棄却処理用辞書113とを備える。
【0021】
画像入力部101は、スキャナ等の光学読取装置及びキーボード等からなり、オペレータによって入力される学習用文字画像114の文字コードの入力を受け付けると、学習用文字画像114を読み取り、2値画像データに変換し、学習用文字画像データベース102にその2値画像データと文字コードとを組にして記憶させる。全ての認識対象の学習用文字画像114の2値画像データへの変換を終了すると、特徴抽出部103を起動する。ここで、学習用文字画像114は、認識対象の全文字について、異なるフォントで印字した文字、複数の人物が書いた文字及び同一人物が複数回数書いた文字を用いる。
【0022】
学習用文字画像データベース102は、磁気ディスク等からなり、画像入力部101で変換された図2に示すような2値画像データ201と、その文字コードとを組にして多数記憶している。なお、図2に示す2値画像データ201では、黒画素にデータ値「1」を表示し、白画素のデータ値「0」は省略されている。特徴抽出部103は、画像入力部101によって起動されると、学習用文字画像データベース102に記憶されている2値画像データを順次読み出し、読み出した個々の2値画像データについて、文字認識で使用する特徴を抽出し、抽出した特徴を文字コードとともに学習特徴データベース104に記憶させる。
【0023】
特徴抽出部103は、図3に示すように、方向値付与部301と、領域別輪郭方向密度計算部302と、背景値付与部303と、領域別背景密度計算部304と、縦横比計算部305と、特徴統合部306とを備える。
方向値付与部301は、画像入力部101によって起動されると、学習用文字画像データベース102に記憶されている図4に示すような2値画像データ401を読み出し、隣接する2境界画素間の位置関係に基づき図5のように定義した方向値(1≦d≦4)を文字画像(2値画像データ401のデータ値「1」)の境界画素毎に図6に示すように決定する。一つの2値画像データ401の方向値の決定が終了すると、その方向値を領域別輪郭方向密度計算部302に通知する。
【0024】
領域別輪郭方向密度計算部302は、方向値付与部301から方向値の通知を受けると、図7に示すように、文字画像外接矩形を水平方向にL分割(図7では4分割)、垂直方向にM分割(図7では4分割)した各部分領域(1,1)、(1,2)、・・・、(L,M)における各方向値ごとの画素の個数を計数し、得られた輪郭画素数をその部分領域の画素数(面積)Slmで割ったものを領域別輪郭方向密度特徴として求め、この値を整数化のためα(例えば256)倍して特徴統合部306に通知する。従って、水平方向にl番目、垂直方向にm番目の領域の方向値dの画素数をN(l,m,d)と表すとき、同領域の領域別輪郭方向密度特徴Fd(l,m,d)は、
Fd(l,m,d)=α*N(l,m,d)/Slm
と表される。ここで、1≦d≦4,1≦l≦L,1≦m≦Mである。
【0025】
なお、本実施の形態では方向値を1≦d≦4の4方向で定義したが、8方向あるいは16方向の方向値を定義してもよい。また、分割の幅も均等である必要はない。本実施の形態でも、領域(4,1)、(4,2)、(4,3)、(4,4)の水平方向の幅は他の領域より狭い。
更に、領域内の黒画素(データ値「1」)数を均等化する分割や、黒画素のモーメントを均等化する分割が考えられる。これら方向数やL,Mの値が変われば、当然、得られる領域別輪郭方向密度特徴の数も変わる。
【0026】
また、得られる全ての領域別輪郭方向密度特徴を認識に用いる必要もないので、上記の部分領域の一部を求めて領域別輪郭方向密度特徴として使用しても構わない。
背景値付与部303は、後述するように特徴統合部306によって起動されると、学習用文字画像データベース102に記憶されている2値画像データ401を読み出し、文字画像(2値画像データ401のデータ値「1」)外接矩形中の各辺からその対辺に向かって走査したとき、文字部を横切る回数+1で定義される背景値を各画素毎に決定する。上辺から下辺に向かって走査した場合の背景値を図8に示す。右辺から左辺、下辺から上辺、左辺から右辺に向かう背景値も同様にして決定し、領域別背景密度計算部304にその背景値を通知する。
【0027】
領域別背景密度計算部304は、背景値付与部303から背景値の通知を受けると、図7に示すように、文字画像外接矩形を水平方向にP分割、垂直方向にQ分割した各部分領域における各方向各背景値ごとの画素数を計数し、その部分領域の画素数(面積)Spqで割ったものを領域別背景密度特徴として求め、この値を整数化のためβ(例えば256)倍して特徴統合部306に通知する。従って、水平方向にp番目垂直方向にq番目の領域のr方向への背景値bの画素数をN(r,p,q,b)と表すとき、同領域の領域別背景密度特徴Fb(r,p,q,b)は、
Fb(r,p,q,b)=β*N(r,p,q,b)/Spq
(rは方向(上,右,下,左),1≦p≦P,1≦q≦Q,1≦b)
で表される。
【0028】
なお、同一文字において字体の変動にともない大きく変化する特徴要素および文字が異なる場合にも変動の小さい特徴要素は、文字認識特徴としては不適当なので、
例えば、P,Qが共に4の場合、
Fb(上,1,1,1), Fb(上,2,1,1), Fb(上,3,1,1), Fb(上,4,1,1)
Fb(右,4,1,1), Fb(右,4,2,1), Fb(右,4,3,1), Fb(右,4,4,1)
Fb(下,1,4,1), Fb(下,2,4,1), Fb(下,3,4,1), Fb(下,4,4,1)
Fb(左,1,1,1), Fb(左,1,2,1), Fb(左,1,3,1), Fb(左,1,4,1)
Fb(上,1,2,2), Fb(上,2,2,2), Fb(上,3,2,2), Fb(上,4,2,2)
Fb(右,3,1,2), Fb(右,3,2,2), Fb(右,3,3,2), Fb(右,3,4,2)
Fb(下,1,3,2), Fb(下,2,3,2), Fb(下,3,3,2), Fb(下,4,3,2)
Fb(左,2,1,2), Fb(左,2,2,2), Fb(左,2,3,2), Fb(左,2,4,2)
の32の値を領域別背景密度特徴として用いることとする。
【0029】
なお、P,Qは、4以外の数値であっても構わない。
また、分割の幅が均等である必要はないことは領域別輪郭方向密度の場合と同様である。
縦横比計算部305は、特徴統合部306によって起動されると、学習用文字画像データベース102に記憶されている2値画像データ401を読み出し、図9に示すような文字画像外接矩形の縦横比特徴Frを計算し、求めた値を整数化のためγ(例えば16)倍して特徴統合部306に通知する。
Fr=γ*h/w
特徴統合部306は、領域別輪郭方向計算部302から領域別方向密度特徴Fdの通知を受けると、背景値付与部303を起動し、領域別背景密度計算部304から領域別背景密度特徴Fbの通知を受けると、縦横比計算部305を起動する。縦横比計算部305から、縦横比特徴Frの通知を受けると、領域別輪郭方向密度特徴Fdと、領域別背景密度特徴Fbと、縦横比特徴Frとを予め定めた順序に整列し、文字認識用特徴として、学習特徴データベース104に記憶させる。併せてクラスタリング部105を起動する。本実施の形態では、文字認識用特徴Fとして97の数値列が抽出される。
【0030】
なお、本実施の形態では、方向値付与部301と、背景値付与部303と、縦横比計算部305とは順次それぞれの処理をするように構成したけれども、学習用文字画像読出部を設けて、画像入力部101の起動を受けて、学習用文字画像データベース102の記憶内容を読み出し、方向値付与部301と、背景値付与部303と、縦横比計算部305とにその内容を通知して、並列に処理するよう構成してもよい。
【0031】
学習特徴データベース104は、磁気ディスク等からなり、特徴抽出部103で抽出された特徴をその文字コードとともに記憶している。その一例を図10〜図13に示す。図10〜図13に示す97個の数値の特徴の意味を図14に示している。
即ち、図10の第1列目の数値”4366”は、文字「中」の文字コードを16進数で表わし、第2列目の数値「18」は縦横比を表わしている。第3列目の数値「35,3,6,3」は、(1,1)領域の方向密度の方向値「1,2,3,4」にそれぞれ対応する値である。第4列目〜第18列目も、第3列目と同様、方向密度に対応する値である。第19列目の数値「25,17,15,25」は上辺から下辺に向かって走査したときに背景値「1」の「(1,1)、(2,1)、(3,1)、(4,1)」の各領域の値を示している。第20行目〜26行目も第19行目と同様背景値密度に対応する値である。
【0032】
クラスタリング部105は、特徴抽出部103によって起動されると、学習特徴データベース104から同一文字コードの文字の各文字認識用特徴を順次読み出し、文字相互間の文字認識用特徴間の距離Dを市街地距離の式
【0033】
【数1】
Figure 0003790736
【0034】
によって計算する。ここで、Fikは文字iの文字認識用特徴の第k要素を示し、Fjkは文字jの文字認識用特徴の第k要素を示す。なお、本実施の形態ではNは97である。
同一文字コードの文字の文字認識用特徴間の距離Dを計算し、その最大の距離DMAX の値をバッファに記憶する。例えば、同一文字コードの2値画像データが画像入力部101から100字入力されていたときには、4950( 100C2 )個の距離Dを計算して、その最大値をバッファに記憶する。
【0035】
一つの同一文字コードの処理が終了すると、他の異なる同一文字コードの文字についても同様に文字認識用特徴間の距離Dを計算し、その最大値をバッファに入力する。
全ての文字コードについての計算が終了すると、バッファに記憶している文字コードごとの文字認識用特徴間の最大距離の値を読み出し、その最小値を選択する。この選択した最小値DMIN から式k*DMIN で求められる値を「クラスタの大きさ」とする。ここで、kは1以上の定数である。
【0036】
また、クラスタリング部105は、「クラスタの大きさ」を決定すると、学習特徴データベース104から図10に示すような文字認識用特徴を単一のクラスタとして、同一の文字コードのものについて順次読み出し、そのクラスタ相互間の距離を計算する。このクラスタ間距離の計算は、上述の文字認識用特徴間の距離Dの計算と同様に式(数1)を用いて行われる。各クラスタ間の距離を計算すると、最小のクラスタ間距離が「クラスタの大きさ」以下であるか否かを判定し、以下であればその最小のクラスタ間距離にある2つのクラスタを近接クラスタとして1つのクラスタに統合する。この際、統合されたクラスタと他のクラスタとのクラスタ間距離は、統合前のクラスタ間距離の最大値をクラスタ間距離とする。
【0037】
最小のクラスタ間距離が「クラスタの大きさ」を超えた時点で、クラスタの統合処理を終了する。従って、同一文字コードの特徴間距離の最大値が「クラスタの大きさ」を超えない文字では、全特徴が単一のクラスタに統合される。一方、同一文字コードの特徴間距離の最大値が「クラスタの大きさ」を超える文字では、2以上のクラスタに分けられる。一つの文字について、クラスタの統合処理が終了すると、同一のクラスタに分類した各文字認識用特徴をクラスタごとにクラスタの所属特徴としてクラスタデータベース106に記憶させる。この際、同一のクラスタに属する各文字認識用特徴の数も記憶させる。
【0038】
更にクラスタリング部105は、学習特徴データベース104から、他の文字についてもその文字認識用特徴を順次読み出し、クラスタリング処理をする。学習特徴データベース104に記憶されている全ての文字コードについて処理を終了すると、全クラスタ数をクラスタデータの先頭に記憶させ、大分類用辞書作成部107を起動する。
【0039】
なお、本実施の形態では、クラスタリングの手法のうち最大距離法を用いて文字認識用特徴の文字ごとの階層構造を分析したけれども、ウォード法等他の手法を用いてもよい。また、文字認識用特徴間の距離およびクラスタ間の距離の計算に市街地距離を用いたけれども、式
【0040】
【数2】
Figure 0003790736
【0041】
のユークリッド距離を用いてもよい。
クラスタデータベース106は、磁気ディスク等からなり、図15に示すようなデータ構造のクラスタデータ1501を記憶している。クラスタデータ1501は、クラスタ数1502と、クラスタに属するデータの特徴数1503と、特徴数の数だけのクラスタの所属特徴(図15では、クラスタ1の特徴1)1504等とを有する。クラスタの所属特徴1504のデータ内容は、図10〜図13に示した文字認識用特徴と同一である。
【0042】
大分類用辞書作成部107は、クラスタリング部によって起動されると、クラスタデータベース106に記憶されているクラスタデータ1501を読み出し、各クラスタの所属特徴1504の特徴要素ごとの平均値を計算し、クラスタの平均特徴とする。このクラスタの平均特徴は、クラスタデータ1501のクラスタ数1502と同一の数になる。
【0043】
また、クラスタの所属特徴1504中の文字コードと、その文字コードより判別される字種(数字、英大文字、英小文字、平仮名、片仮名、漢字等の別)を示すフラグ、文字の大きさを示す文字サイズフラグ等の認識時に使用する属性フラグ、識別子等の付加情報とを求めたクラスタの平均特徴とを組にして大分類用辞書108に登録する。登録が終わると、クラスタ間距離計算部109を起動する。
【0044】
また、大分類用辞書作成部107は、属性フラグおよび付加情報を入力するためのキーボード等と、文字コード等を表示するCRT等を有する。大分類用辞書108に登録するに際し、CRTに表示された文字コードを見たオペレータによって、例えば漢字のうちの人名漢字であり、文字の大きさが普通であり、文字位置が下付きである等の属性フラグおよび識別子等の付加情報の入力を受け付ける。
【0045】
大分類用辞書108は、磁気ディスク等からなり、図16に示すようなデータ構造を有する。図17にその一例を示すように、クラスタ番号1701と識別子1702と文字コード1703と属性フラグ1704と平均特徴1705とからなる辞書データ1706を多数登録している。図17は、その識別子1702に示すように文字「中」を表すものである。同様に文字「徳」を表す2つのクラスタが図18と図19とに、文字「穂」を表す2つのクラスタが図20と図21とに示されている。したがって、文字「中」は1つのクラスタに統合されているけれども文字「徳」や「穂」は2つのクラスタに分割されている。
【0046】
クラスタ間距離計算部109は、大分類用辞書作成部107によって起動されると、大分類用辞書108に記憶されている辞書データ1706等を読み出し、全クラスタの平均特徴1705等相互間の距離を式(数1)を用いて計算する。文字コードの異なる2クラスタ間の距離が、先に決定した「クラスタの大きさ」未満である場合には、それらのクラスタ番号を組にして詳細識別用辞書作成部110に通知する。
【0047】
詳細識別用辞書作成部110は、クラスタ間距離計算部109からクラスタ番号の組の通知を受けると、それらの平均特徴1705等を大分類辞書108から読み出し、各要素ごとのクラスタ平均特徴間の差を式|Fik−Fjk|(||絶対値記号)を用いて計算する。
ここでFikは、クラスタiの平均特徴の要素kを表し、Fjkはクラスタjの平均特徴の要素kを表す。平均特徴要素数をNとしているので、1≦k≦Nであり、本実施の形態ではNは97である。求めた各要素ごとのクラスタ平均特徴間の差を特徴要素の識別子(kの値)を用いて、差の大きいものから順番に記憶する。
【0048】
次に、クラスタ間距離計算部から通知されている2つのクラスタ番号のクラスタデータベース106に記憶されているクラスタの所属特徴1504について、記憶している特徴要素の識別子の先頭からn番目までの特徴要素のみを用いて、大分類辞書108の両クラスタの平均特徴1705との距離を計算し、その距離の小さい方のクラスタに分類されるとしたとき、2つのクラスタに属する各クラスタの所属特徴が正しいクラスタに分類される割合r(n)をnを1≦n≦Nに変化して調べる。
【0049】
このr(n)が最大になるnを求めて、そのnの値と記憶している特徴要素のn番目までのkの値を両クラスタ番号とともに詳細識別用辞書に登録する。
なお、本実施の形態では、両クラスタに属する特徴を識別する能力の評価尺度として、クラスタ平均特徴間の差を用いたけれども、両クラスタに属する特徴の要素ごとの標準偏差等を用いてもよい。
【0050】
また、本実施の形態では、詳細識別に用いる特徴要素は、クラスタデータベース106に記憶されているクラスタデータ1501を基に、正しいクラスタに分類される割合r(n)が最大になるnを2つのクラスタごとに求めたけれども、予め特徴要素の数を定めておいてもよい。
クラスタ間距離計算部109から通知された全てのクラスタ番号の組について、詳細識別用辞書の作成が終了すると、棄却処理用辞書作成部112を起動する。
【0051】
詳細識別用辞書111は、磁気ディスク等からなり、図22に示すようなデータ構造を有する。その具体的内容の一例を図23に示す。図23は、クラスタ番号2720の文字「徳」とクラスタ番号3177の文字「穂」とを認識する能力の高い使用特徴番号(k)が「5、52、2、26」の4つであることを示している。
【0052】
棄却処理用辞書作成部112は、詳細識別用辞書作成部110によって起動されると、クラスタデータベース106から各クラスタに属する特徴の所定の特徴要素の最大値と最小値とを求め、棄却処理用辞書113に、クラスタごとに用いた要素ごとの最大値と最小値とを登録する。
なお、本実施の形態では、所定の所属特徴要素を縦横比としているけれども、この特徴要素の数mは、1≦m≦Nの任意とすることができる。
【0053】
棄却処理用辞書113は、磁気ディスク等からなり、図24にその一部を示すようなデータ内容を登録している。図24の第1行目2301は、61番目のクラスタの縦横比の最小値が15であり、最大値が24であることを示している。次に本実施の形態の動作を図25、図26に示すフローチャートを用いて説明する。なお、両図は本来1葉であるべきであるけれども、図面作成上の都合から2葉に分割されている。
【0054】
画像入力部101は、オペレータからの文字コードの入力を待ち(S2502)、学習用文字画像の入力を受付(S2504)、2値画像データに変換して文字コードとともに学習用文字画像データベース102に記憶させる(S2506)。更に学習用文字画像の入力が有ればS2504に戻り、無ければ(S2508)、文字コードの入力の有無を判断し(S2510)、入力が有ればS2504に戻る。
【0055】
入力が無ければ、特徴抽出部103は、2値画像データから領域別方向密度を計算し(S2512)、領域別背景密度を計算し(S2514)、更に縦横比を計算し(S2516)、これらを文字認識用特徴として文字コードとともに学習特徴データベース104に記憶させる(S2518)。学習用文字画像データベース102に未処理文字があるか否かを判定し(S2520)、あるときはS2512に戻る。
【0056】
ないときは、クラスタリング部105は、学習特徴データベース104から同一文字コードの文字特徴を順次読み出し、所定の計算式によって特徴間の距離を計算する(S2524)。計算した特徴間距離のうち最大距離を選択してバッファに記憶する(S2526)。全ての文字コードについてS2522〜S2526を繰り返し(S2528)、バッファに記憶された最大距離のうちの最小値を選択して「クラスタの大きさ」を決定する(S2602)。
【0057】
次にクラスタリング部105は、学習特徴データベース104に記憶されている同一文字コードの各文字認識用特徴を1クラスタとして読み出し(S2604)、クラスタ間距離を計算する(S2606)。このクラスタ間距離がS2602で決定した「クラスタの大きさ」以下である近接クラスタがあるか否かを判定し(S2608)、近接クラスタがあるときは、両クラスタを統合して(S2610)、S2608に戻る。近接クラスタがないときは、クラスタに分割してクラスタデータとしてクラスタデータベース106に記憶させ(S2612)、学習特徴データベース104に記憶されている全ての文字コードの処理が終了するまでS2604からS2612を繰り返す(S2614)。
【0058】
大分類用辞書作成部107は、クラスタデータベース106に記憶されているクラスタデータをクラスタごとに平均特徴を計算し、大分類用辞書108に登録して辞書を作成する(S2616)。
クラスタ間距離計算部109は、大分類辞書108に登録されているクラスタの平均特徴を読み出し、クラスタ間距離を計算する(S2618)。詳細識別用辞書作成部110は、異なる文字(文字コードの異なる)でクラスタ間距離計算部109で計算されたクラスタ間距離がS2602で決定された「クラスタの大きさ」よりも近いクラスタ(近接クラスタ)があるか否かを判断する(S2620)。近接クラスタがあるときには、近接2クラスタを識別する能力の高い順に平均特徴の特徴要素を順序づける(S2622)。詳細識別に使用する特徴数を決定し、その平均特徴要素を識別できるように詳細識別用辞書111にデータを登録し(S2626)、S2620に戻る。
【0059】
S2620で近接クラスタがないときには、棄却処理用辞書作成部112は、特徴要素の許容範囲に基づいて、棄却処理用辞書113を作成する。
(実施の形態2)
図27は、本発明に係る文字認識装置の一実施の形態の構成図である。この文字認識装置は、画像入力部2701と、文字行検出部2702と、文字検出部2703と、特徴検出部2704と、大分類部2705と、詳細認識部2706と、認識結果棄却部2707と、棄却文字連結部2708と、文字数推定部2709と、連結文字分割部2710と、認識結果選択部2711と、行認識結果評価部2712と、認識結果出力部2713と、大分類用辞書108と、詳細識別用辞書111と、棄却処理用辞書113とを備える。
【0060】
画像入力部2701は、スキャナ等の光学読取装置からなり、認識対象文書画像2714の入力を受け付けると、2値画像データに変換して文字行検出部2702、文字検出部2703特徴抽出部2704に通知する。
文字行検出部2702は、画像入力部2701から通知された2値画像データから文字行2801の座標を検出すると、その座標を文字検出部2703に通知する。また、認識結果出力部2731によって起動されると、通知された1値画像データに残された文字行2802等が有るか否かを判断し、あるときには文字行2802等の座標を検出し、それを文字検出部2703に通知し、ないときには処理を停止する。
【0061】
文字検出部2703は、文字行検出部2702から各文字列2801、2802の座標の通知を受けると、文字行中の個々の文字2803、2804の座標を検出し、その座標を特徴抽出部2704に通知する。
特徴抽出部2704は、上記第1実施の形態の特徴抽出部103とほぼ同様の構成を有し、文字検出部2703又は後述する連結文字分割部2710から座標の通知を受けると、座標で特定される画像入力部2701から通知された2値画像データを基に文字認識で使用する特徴を抽出する。上記第1実施の形態で説明したと同様に領域別輪郭方向密度特徴と領域別背景密度特徴と縦横比特徴とを抽出し、予め定めた順序に整列し、文字認識用特徴として座標とともに大分類部2705に通知する。
【0062】
大分類部2705は、特徴抽出部2704から文字認識用特徴の通知を受けると、上記第1実施の形態と同様の大分類用辞書108中の各クラスタ平均特徴との距離(市街地距離D)を式(数1)を用いて計算し、得られたDを用いて類似度Rを式R=C/Dを用いて計算する。類似度Rの高い(距離Dの近い)複数のクラスタを候補クラスタとして選出し、候補クラスタとその類似度とを組にして座標とともに詳細識別部2706に通知する。
【0063】
ここで、定数Cは、Rが1〜100になるように選ばれる。
例えば、文書画像2714が画像入力部2701から入力された場合は、文字行2801の候補クラスタとその類似度とを図29に示すように選出する。
なお、通常距離計算は大分類辞書108中の全クラスタ特徴について行うが、字種(下付き文字、漢字等)が予め限定できる場合には、属性フラグをチェックし、該当するクラスタのみに対し距離計算をすることもできる。
【0064】
ここで、入力文字は、「中内里穂」であるけれども、第1候補クラスタだけを見れば「中内里徳」となっている。
詳細識別部2706は、大分類部2705から候補クラスタ等の通知を受けると、通知された候補クラスタ番号が上記第1実施の形態と同様の詳細識別用辞書111中に登録されている近接するクラスタの組をなす2クラスタが、大分類部2705から通知された複数の候補クラスタ中にともに含まれているか否かを判断する。含まれていないときは認識結果棄却部2707に座標とともに候補クラスタを通知する。含まれているときは、詳細識別用辞書111中に登録されている近接クラスタ識別に用いる特徴要素のみを用いて両候補クラスタに対して式(数1)によって距離Dを計算し、低順位のクラスタの方が距離Dの値が小さいときは、低順位のクラスタの類似度を引き上げる。併せて、認識結果棄却部2707に変更後の候補クラスタと座標とを通知する。
【0065】
即ち、図29の大分類部2705の通知結果では、第1候補クラスタ(文字”徳”,クラスタ番号2720)と第2候補クラスタ(文字”穂”,クラスタ番号3177)とが、詳細識別用辞書111中に登録のある近接クラスタである。そこで、詳細識別部2706は、詳細識別用辞書111に登録された両クラスタ識別に用いる特徴要素に関して文字2805の2値画像データの文字認識用特徴とクラスタ2720、および文字2805の2値画像データの文字認識用特徴とクラスタ3177との距離(前者をD(2720)、後者をD(3177)とする)を求める。得られた2距離を比較し、
D(2720)≦D(3177)のときには何もしないが、
D(2720)≧D(3177)のときには、所定の操作により低順位のクラスタ3177の類似度を引き上げる。
【0066】
引き上げ操作の最も単純なものは、クラスタ2720の類似度との値の交換である。引き上げ操作前の両クラスタに対する類似度をそれぞれR(2720)、R(3177)、引き上げ操作後の両クラスタに対する類似度をそれぞれR’(2720)、R’(3177)と表すと、
R’(2720)=R(3177)
R’(3177)=R(2720)
となる。この場合、第1位と第2位で類似度が逆転するので、候補順位も逆転することになる。
【0067】
これによって、候補クラスタは、図30に示すようになる。
なお、他の類似度の引上げ操作としては、所定の計算式によりD(2720)、D(3177)から類似度の引上げ幅△Rを計算し、
R’(2720)=R(2720)
R’(3177)=R(3177)+△Rとする。
【0068】
△Rの計算式は、例えば、次式のような計算式である。
D(3177)<0.5*D(2720)のとき
△R=R(2720)−R(3177)となる。
0.5*D(2720)≦D(3177)<D(2720)のとき
△R=2(R(2720)−R(3177))
*(1−D(3177)/D(2720))となる。
【0069】
この場合、第1位と第2位の類似度は逆転しないので、候補順位も逆転しない。第1位と第2位の類似度が一致した場合には、認識結果出力後、後処理でいずれかに判断する。
認識結果棄却部2707は、詳細識別部2706から候補クラスタと座標との通知を受けると、詳細識別部46での詳細識別処理の結果得られた最も類似度の高い候補クラスタ(第1候補クラスタ)3001に対して、以下のような評価条件で認識結果の有意性を評価する。
【0070】
1.第1候補クラスタ3001に対する類似度3002が、所定の値以上である。
2.特徴抽出部2704により得られた文字認識用特徴中の予め定めた一部の特徴要素(棄却特徴)の値が、すべてあるいは予め定めた個数以上、上記第1実施の形態と同様の棄却用辞書113中の第1候補クラスタ3001の特徴要素の値の範囲に含まれている。
【0071】
以上2条件を満たすとき、文字画像2714の詳細識別結果は有意であると判断し、行認識結果評価部2712に認識結果を通知する。また、以上の2条件を満たさないとき、即ち認識結果が有意でないと判断したときは、棄却文字連結部2708に棄却された文字の座標を通知する。なお、認識結果の第1候補クラスタが括弧記号(”(”または”)”)の場合には、認識結果が有意であると判断されても、掠れ文字2806を認識した可能性があるため、棄却された文字と同様に扱い、棄却文字連結部2708に座標を通知する。
【0072】
なお、本実施の形態では、棄却特徴数は1で縦横比特徴のみを用いるが、他の特徴を合わせ用いても構わない。
また、認識結果棄却部2707は、通知された座標が既に通知されている座標と重なるものであるときは、後に通知された第1候補クラスタの上述の評価条件のもとでの認識結果の有意性を判断して認識結果選択部2711に通知する。
【0073】
棄却文字連結部2708は、認識結果棄却部2707によって座標を通知されると、詳細識別部46での詳細識別の処理の結果得られた第1候補クラスタが括弧記号および認識結果棄却部2707で認識結果が有意でないと判定された棄却文字が近接して連続する場合には連続する括弧記号および棄却文字の座標を連結し、文字数推定部2709を起動する。
【0074】
文字数推定部2709は、棄却文字連結部2708によって起動されると、認識結果棄却部2707で棄却された棄却文字の前の括弧記号又は前後の他の棄却文字が存しない単独棄却文字及び棄却文字連結部粒2708で複数の棄却文字(括弧記号と棄却文字とを含む)を連結した連結棄却文字の座標から文字数を推定する。推定した文字数と座標とを連結文字分割部2710に通知する。
【0075】
ここで、文字数の推定は、分割対象領域の幅を標準文字幅で割って求められる。一例として、標準文字幅は、認識結果棄却部2707で認識結果が棄却されなかった文字の文字幅の平均値とする。
認識結果選択部2711は、認識結果棄却部2707から認識結果が有意であるとの通知を受けると、認識結果棄却部2707が先に通知された詳細識別結果を破棄して後に通知された詳細識別結果を採用して行認識結果評価部2712に通知する。認識結果棄却部2707から認識結果が有意でないとの通知を受けると、後に通知された詳細識別結果を破棄して先に通知された候補クラスタを採用して行認識結果評価部2712に通知する。
【0076】
行認識結果評価部2712には、認識結果棄却部2707又は認識結果選択部2711から1行中の全文字の認識結果の通知を受けると、そのクラスタ番号を検索キーとして大分類辞書108を検索し、認識結果の第1候補クラスタの”;”、”:”、”・”、”,”等の破片文字の数を数える。一行内の文字数に対して破片文字の数が所定の割合を越えていると判断したときは、認識した行は文字行でないとして行全体の認識結果を破棄する。所定の割合以下と判断したときは、認識結果を認識結果出力部2713に通知する。
【0077】
認識結果主力部2713は、行認識結果評価部2712から通知された認識結果を出力する。この認識結果には、詳細識別部2706で得られた類似度の高い一つまたは複数の候補クラスタに対応する文字コードとそれに対応する類似度とを含む。
次に、本実施の形態の動作を、図31に示すフローチャートを用いて説明する。
【0078】
先ず、ユーザが認識対象の文字画像2714を画像入力部2701に入力すると、画像入力部2701は、文字画像2714を2値画像データに変換し、文字抽出部2701と文字検出部2703と特徴抽出部2704とにそのデータを通知する(S3102)。
文字行検出部2702は、一行の2値画像データの座標を検出する(S2702)。文字検出部2703は、その行内の文字座標を検出する(S3106)。特徴抽出部2704は、文字検出部2703から通知された座標で特定される2値画像データから文字認識用の特徴を1行分抽出する(S3108)。
【0079】
大分類部2705は、特徴抽出部で抽出された1行分の文字を順次、大分類用辞書108を参照してそのクラスタ平均特徴との距離を計算し、得られた距離から類似度を計算し、類似度の高い候補クラスタを選出する(S3110)。
詳細識別部2706は、詳細識別用辞書111中に登録されている近接クラスタの組をなす2クラスタが、大分類部2705で選出された複数の候補クラスタ中にともに含まれているときには、詳細識別用辞書111に登録された両クラスタの識別に用いる特徴要素に関してクラスタ平均特徴との距離を計算し、順位の低いクラスタ候補のその距離の方が順位の高いクラスタ候補よりも小さいときには、その類似度を入れ替える。この処理を1行の全文字に対して行う(S3112)。
【0080】
このように文字の特徴的部分を利用して誤認識し易い近接クラスタを識別することができる。
認識結果棄却部2707は、所定の特徴要素それぞれの値が棄却処理用辞書113の第1候補クラスタの値の範囲内であり、かつ、第1候補クラスタの類似度が所定の値以上であるときに、詳細識別部2706で認識された候補クラスタが有意であると判定し、いずれかの条件を満足しないときに有意でないと判定する(S3114)。
【0081】
認識結果棄却部2707において、棄却文字または棄却文字ではないが第1候補クラスタが括弧記号で有るか否かを判断される(S3116)。棄却文字または第1候補クラスタが括弧記号の場合には、棄却文字連結部2708で棄却文字が連結され(S3118)、文字数推定部2709は、その連結された棄却文字の領域の文字数を計算で求める(S3120)。連結文字分割部2710は、求めた文字数から文字の座標を求める(S3122)。特徴抽出部2704は、求められた座標で特定される2値画像データから文字認識用特徴を抽出し(S3124)、大分類部2705は、抽出した文字認識用特徴と大分類用辞書108のクラスタ平均特徴との距離Dを計算し、距離Dから類似度を求め、候補クラスタを選出する(S3126)。
【0082】
詳細識別部2706は、詳細識別用辞書111中に登録されている近接するクラスタの組をなす2クラスタが、大分類部2705で選出された複数の候補クラスタ中にともに含まれているときには、登録されている所定の特徴に関してクラスタ平均特徴との距離を求め、その距離が候補クラスタの順位の低い方が近いときには、その類似度を変更し、その順位を入れ替える(S3128)。再度認識結果棄却部2707は、棄却処理用辞書を参照して、第1候補クラスタが有意であるか否かを判定する(S3130)。認識結果選択部2711は、棄却文字連結・分割処理後の認識結果が棄却されなかったときには、棄却文字連結・分割処理後の認識結果を選択し、棄却文字連結・分割処理後の認識結果が棄却されたときには、元の認識結果を選択する(S3132)。1行中の全文字の認識が終了していなければ(S3134)、S3116に戻る。S3116において、括弧記号又は棄却文字がないときにはS3134に移る。
【0083】
S3134で、1行中の全文字の認識が終了しているときは、行認識結果評価部2712は、1行中の文字に破片文字等が所定の割合以上含まれているか否かを判断する(S3136)。
認識結果出力部2713は、1行文の認識結果を出力し(S3138)、入力された文書画像の全行終了していれば処理を終了し(S3140)、終了していなければ3106に戻る。
【0084】
なお、本実施の形態では、横書き文書を例にしたけれども、縦と横、幅と高さを置き換えることによって、縦書き文書にも適用可能なのは勿論である。
連結文字分割部2710は、文字数推定部2709から通知された文字数と座標とに基づいて、単独棄却文字あるい連結文字中の文字座標を左端の文字から順次求める。求めた文字座標を順次特徴抽出部2704に通知する。この文字座標は、分割対象領域の幅を推定文字数割った均等分割位置で分割して求める。なお、均等分割位置を中心に、所定の幅の範囲で縦方向の黒画素の射影を求め、射影の跡切位置で分割して求めることもできる。
【0085】
以上、本発明を実施の形態に基づいて説明したけれども、本発明は上記実施の形態に限定されないのは勿論である。
【0086】
【発明の効果】
以上説明してきたように、文字コードごとに、入力を受け付けた多数の学習用文字画像を2値画像データに変換する入力画像変換手段と、前記入力画像変換手段で変換された各2値画像データから文字認識に用いる特徴を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴を、文字コードごとに所定の手順でクラスタに分類するクラスタリング手段と、前記クラスタリング手段で分類したクラスタごとに、前記特徴抽出手段で抽出した特徴を平均したクラスタ平均特徴を求めて、前記入力画像変換手段から入力された文字コードに対応付けた大分類用データとして登録する大分類用辞書登録手段と、前記大分類用辞書登録手段に登録されているクラスタ平均特徴間の距離を計算する距離計算手段と、前記距離計算手段で計算された距離が所定の値よりも小さい異なる文字コードのクラスタを近接クラスタの組として取り出し、その組ごとにクラスタ平均特徴のうちそれらを識別する能力の高い要素を少なくとも1個選択して、両クラスタの識別子とともに詳細識別用データとして登録する詳細識別用辞書登録手段とを備え、前記クラスタリング手段は、文字コードごとに文字認識に用いる特徴相互間の距離を計算する距離計算部と、前記距離計算部が計算した各文字コードごとの距離の最大値のうち最小のものを基にクラスタの大きさに決定する決定部と、文字コードごとに前記決定部で決定されたクラスタの大きさ以下にクラスタを統合する統合部とを備えることとしているので、文字認識用辞書作成装置では、文字ごとに独立したクラスタリングを行うために、たとえ異なる文字のクラスタ間でクラスタの近接又は重複が発生する場合であっても、詳細識別用辞書登録手段がそのような近接クラスタを識別可能な特徴要素と近接クラスタの識別子とを詳細識別用辞書に登録できるようにしているので、優れた文字認識率となる辞書が作成され、かつ、クラスタリング手段がクラスタ数が最適となるようにクラスタの大きさを決定し、その決定された大きさにクラスタを統合するので、クラスタ分割時のクラスタ数の過度の増加を抑えることができる。
【0087】
また、前記詳細識別用辞書登録手段は、その作用の基準となる所定の値として前記クラスタリング手段の決定部が決定したクラスタの大きさを採用する所定値判定部を有することとしているので、詳細識別用辞書作成手段が詳細識別用辞書に登録するクラスタ間距離を「クラスタの大きさ」と同一とすることにより、部分特徴を利用して類似文字に対しても高い認識率を得ることができる。
【0088】
また、前記特徴抽出手段は、上記2値画像データの文字部分に対応する画素を囲む外接矩形を決定する外接矩形決定部と、上記文字部分に対応する画素の境界画素ごとに隣接画素との位置関係で定まる方向値を決定し、上記外接矩形を行方向にL分割し、列方向にM分割した各領域において、その内部の各方向値ごとに画素数を計数し、該計数した画素数を各領域に含まれる画素数で除した領域別輪郭方向密度特徴を求める領域別輪郭方向密度計算部と、上記外接矩形の各辺から対辺に向かって走査したとき、上記文字部分に対応しない画素から対応する画素に変化するごとに「1」を加えた背景値を決定し、上記外接矩形を行方向にP分割し、列方向にQ分割した各領域において、その内部の背景値ごとの画素数を計数し、該計数した画素数を各領域の画素数で除した領域別背景密度特徴を求める領域別背景密度計算部と、上記外接矩形からその縦横比を計算して縦横比特徴を求める縦横比計算部とを備えることとしてるので、特微抽出手段が文字認識に用いる基準となる特微として、文字の縦横比特微を抽出するので、認識率を更に高率にすることができる。
【0089】
また、認識対象の文字画像の入力を受け付けて2値画像データに変換する入力画像変換手段と、前記入力画像変換手段で変換された2値画像データの文字行に対応する座標位置を検出する文字行座標位置検出手段と、前記文字行座標位置検出手段の検出対象とされた文字行内の個々の文字に対応する座標位置を検出する文字座標位置検出手段と、前記文字座標位置検出手段で検出された座標で特定される2値画像からなる文字の認識に使用する特徴を抽出する特徴抽出手段と、基準となる文字の形状特徴を平均したクラスタ平均特徴とその文字コードを対応付けて所定の値の大きさのクラスタに分類して登録している大分類用辞書と、 前記特徴抽出手段で抽出された特徴と上記クラスタ平均特徴との距離を計算し、得られた距離から類似度を計算し、類似度の高い複数のクラスタをクラスタ候補として選出する大分類手段と、前記大分類用辞書に登録されているクラスタのうち、2つのクラスタ間の距離が所定の値より小さい近接クラスタの識別子と少なくとも1以上の両クラスタを識別するクラスタ平均特徴の要素とを対応付けて登録している詳細識別用辞書と、前記詳細識別用辞書に登録されている近接クラスタの2つの識別子が、前記大分類手段で選出された複数の候補クラスタ中の識別子にともに含まれているときには、前記詳細識別用辞書に登録されている文字の認識に使用する特徴の要素のみに関して、前記特徴抽出手段で抽出された特徴とクラスタ平均特徴との第2の距離を計算し、該第2の距離の小さい方のクラスタの類似度を引き上げる詳細識別手段と、前記詳細識別手段で引き上げられた類似度を優先して、前記大分類手段で選出された候補クラスタに対応する文字コードを出力する出力手段とを備え、文字コードごとに入力を受け付けた多数の学習用文字画像を2値画像データに変換する入力画像変換手段と、前記入力画像変換手段で変換された各2値画像データから文字認識に用いる特微を抽出する文字特微抽出手段と、前記文字特微抽出手段で抽出された文字認識に用いる特微相互間の距離を文字コードごとに計算する距離計算手段と、前記距離計算手段が計算した各文字コードごとの距離の最大値のうち最小のものを基に前記大分類用辞書及び詳細識別用辞書の所定の値として、決定する決定手段とを備えることとしているので、詳細識別手段が、近接クラスタを識別する能力の高い、文字認識の基準となる部分特微を用いて入力文字画像を認識するので、高認識率の文字認識装置を得ることができ、かつ、クラスタ数を適当な値にしているので、辞書容量の省資源化を図ることができるとともに、認識対象の入力文字画像の特微比較による計算時間を短縮することができる。
【図面の簡単な説明】
【図1】本発明に係る文字認識用辞書作成装置の一実施の形態の構成図である。
【図2】上記実施の形態の学習用文字画像データベースに記憶されている2値画像データの説明図である。
【図3】上記実施の形態の特徴抽出部の詳細構成図である。
【図4】上記実施の形態の特徴抽出部の説明のための2値画像データの一例を示す図である。
【図5】上記実施の形態の特徴抽出部で用いる方向値の説明図である。
【図6】上記実施の形態の特徴抽出部の方向値付与部で決定された方向値を説明するための図である。
【図7】上記実施の形態の特徴抽出部での領域分割を説明するための図である。
【図8】上記実施の形態の特徴抽出部の背景値付与部で決定された背景値を説明するための図である。
【図9】上記実施の形態の特徴抽出部の縦横比計算部で決定された縦横比を説明するための図である。
【図10】上記実施の形態の学習特徴データベースの記憶内容の一例を示す図である。
【図11】上記実施の形態の学習特徴データベースの記憶内容の一例を示す図である。
【図12】上記実施の形態の学習特徴データベースの記憶内容の一例を示す図である。
【図13】上記実施の形態の学習特徴データベースの記憶内容の一例を示す図である。
【図14】上記実施の形態の学習特徴データベースの記憶内容を説明するための図である。
【図15】上記実施の形態のクラスデータの構造の一例を示す図である。
【図16】上記実施の形態の大分類用辞書の構造の一例を示す図である。
【図17】上記実施の形態の大分類用辞書の辞書データの一例を示す図である。
【図18】上記実施の形態の大分類用辞書の辞書データの一例を示す図である。
【図19】上記実施の形態の大分類用辞書の辞書データの一例を示す図である。
【図20】上記実施の形態の大分類用辞書の辞書データの一例を示す図である。
【図21】上記実施の形態の大分類用辞書の辞書データの一例を示す図である。
【図22】上記実施の形態の詳細識別用辞書のデータ構造を示す図である。
【図23】上記実施の形態の詳細識別用辞書の内容の一例を示す図である。
【図24】上記実施の形態の棄却処理用辞書の内容の一例を示す図である。
【図25】上記実施の形態の動作を説明するフローチャートである。
【図26】上記実施の形態の動作を説明するフローチャートである。
【図27】本発明に係る文字認識装置の一実施の形態の構成図である。
【図28】上記実施の形態の入力画像の一例を示す図である。
【図29】上記実施の形態の大分類結果の一例を示す図である。
【図30】上記実施の形態の詳細識別結果の一例を示す図である。
【図31】上記実施の形態の動作を説明するフローチャートである。
【図32】従来の特徴では識別の困難であった文字の例である。
【符号の説明】
101 画像入力部
102 学習用画像データベース
103 特徴抽出部
104 学習特徴データベース
105 クラスタリング部
106 クラスタデータベース
107 大分類用辞書作成部
108 大分類用辞書
109 クラスタ間距離計算部
110 詳細識別用辞書作成部
111 詳細識別用辞書
112 棄却処理用辞書作成部
113 棄却処理用辞書
301 方向値付与部
302 領域別輪郭方向密度計算部
303 背景値付与部
304 領域別背景密度計算部
305 縦横比計算部
306 特徴統合部
2701 画像入力部
2702 文字行検出部
2703 文字検出部
2704 特徴抽出部
2705 大分類部
2706 詳細識別部
2707 認識結果棄却部
2708 棄却文字連結部
2709 文字数推定部
2710 連結文字分割部
2711 認識結果選択部
2712 行認識結果評価部
2713 認識結果出力部

Claims (4)

  1. 文字コードごとに、入力を受け付けた多数の学習用文字画像を2値画像データに変換する入力画像変換手段と、
    前記入力画像変換手段で変換された各2値画像データから文字認識に用いる特徴を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴を、文字コードごとに所定の手順でクラスタに分類するクラスタリング手段と、
    前記クラスタリング手段で分類したクラスタごとに、前記特徴抽出手段で抽出した特徴を平均したクラスタ平均特徴を求めて、前記入力画像変換手段から入力された文字コードに対応付けた大分類用データとして登録する大分類用辞書登録手段と、
    前記大分類用辞書登録手段に登録されているクラスタ平均特徴間の距離を計算する距離計算手段と、
    前記距離計算手段で計算された距離が所定の値よりも小さい異なる文字コードのクラスタを近接クラスタの組として取り出し、その組ごとにクラスタ平均特徴のうちそれらを識別する能力の高い要素を少なくとも1個選択して、両クラスタの識別子とともに詳細識別用データとして登録する詳細識別用辞書登録手段とを備え、
    前記クラスタリング手段は、
    文字コードごとに文字認識に用いる特徴相互間の距離を計算する距離計算部と、
    前記距離計算部が計算した各文字コードごとの距離の最大値のうち最小のものを基にクラスタの大きさに決定する決定部と、
    文字コードごとに前記決定部で決定されたクラスタの大きさ以下にクラスタを統合する統合部とを備えることを特徴とする文字認識用辞書作成装置。
  2. 前記詳細識別用辞書登録手段は、
    その作用の基準となる所定の値として前記クラスタリング手段の決定部が決定したクラスタの大きさを採用する所定値判定部を有することを特徴とする請求項1記載の文字認識用辞書作成装置。
  3. 前記特徴抽出手段は、
    上記2値画像データの文字部分に対応する画素を囲む外接矩形を決定する外接矩形決定部と、
    上記文字部分に対応する画素の境界画素ごとに隣接画素との位置関係で定まる方向値を決定し、上記外接矩形を行方向にL分割し、列方向にM分割した各領域において、その内部の各方向値ごとに画素数を計数し、該計数した画素数を各領域に含まれる画素数で除した領域別輪郭方向密度特徴を求める領域別輪郭方向密度計算部と、
    上記外接矩形の各辺から対辺に向かって走査したとき、上記文字部分に対応しない画素から対応する画素に変化するごとに「1」を加えた背景値を決定し、上記外接矩形を行方向にP分割し、列方向にQ分割した各領域において、その内部の背景値ごとの画素数を計数し、該計数した画素数を各領域の画素数で除した領域別背景密度特徴を求める領域別背景密度計算部と、
    上記外接矩形からその縦横比を計算して縦横比特徴を求める縦横比計算部とを備えることを特徴とする請求項1又は請求項2記載の文字認識用辞書作成装置。
  4. 認識対象の文字画像の入力を受け付けて2値画像データに変換する入力画像変換手段と、
    前記入力画像変換手段で変換された2値画像データの文字行に対応する座標位置を検出する文字行座標位置検出手段と、
    前記文字行座標位置検出手段の検出対象とされた文字行内の個々の文字に対応する座標位置を検出する文字座標位置検出手段と、
    前記文字座標位置検出手段で検出された座標で特定される2値画像からなる文字の認識に使用する特徴を抽出する特徴抽出手段と、
    基準となる文字の形状特徴を平均したクラスタ平均特徴とその文字コードを対応付けて所定の値の大きさのクラスタに分類して登録している大分類用辞書と、
    前記特徴抽出手段で抽出された特徴と上記クラスタ平均特徴との距離を計算し、得られた距離から類似度を計算し、類似度の高い複数のクラスタをクラスタ候補として選出する大分類手段と、
    前記大分類用辞書に登録されているクラスタのうち、2つのクラスタ間の距離が所定の値より小さい近接クラスタの識別子と少なくとも1以上の両クラスタを識別するクラスタ平均特徴の要素とを対応付けて登録している詳細識別用辞書と、
    前記詳細識別用辞書に登録されている近接クラスタの2つの識別子が、前記大分類手段で選出された複数の候補クラスタ中の識別子にともに含まれているときには、前記詳細識別用辞書に登録されている文字の認識に使用する特徴の要素のみに関して、前記特徴抽出手段で抽出された特徴とクラスタ平均特徴との第2の距離を計算し、該第2の距離の小さい方のクラスタの類似度を引き上げる詳細識別手段と、
    前記詳細識別手段で引き上げられた類似度を優先して、前記大分類手段で選出された候補クラスタに対応する文字コードを出力する出力手段とを備え、
    文字コードごとに入力を受け付けた多数の学習用文字画像を2値画像データに変換する入力画像変換手段と、
    前記入力画像変換手段で変換された各2値画像データから文字認識に用いる特微を抽出する文字特微抽出手段と、
    前記文字特微抽出手段で抽出された文字認識に用いる特微相互間の距離を文字コードごとに計算する距離計算手段と、
    前記距離計算手段が計算した各文字コードごとの距離の最大値のうち最小のものを基に前記大分類用辞書及び詳細識別用辞書の所定の値として、決定する決定手段とを備えることを特徴とする文字認識装置。
JP2002300891A 2002-10-15 2002-10-15 文字認識用辞書作成装置及び文字認識装置 Expired - Lifetime JP3790736B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002300891A JP3790736B2 (ja) 2002-10-15 2002-10-15 文字認識用辞書作成装置及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002300891A JP3790736B2 (ja) 2002-10-15 2002-10-15 文字認識用辞書作成装置及び文字認識装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10662595A Division JP3372005B2 (ja) 1995-04-21 1995-04-28 文字認識装置

Publications (2)

Publication Number Publication Date
JP2003162688A JP2003162688A (ja) 2003-06-06
JP3790736B2 true JP3790736B2 (ja) 2006-06-28

Family

ID=19197335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002300891A Expired - Lifetime JP3790736B2 (ja) 2002-10-15 2002-10-15 文字認識用辞書作成装置及び文字認識装置

Country Status (1)

Country Link
JP (1) JP3790736B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5075997B2 (ja) 2011-03-30 2012-11-21 株式会社東芝 電子機器、プログラムおよび文字列認識方法
CN110414496B (zh) * 2018-04-26 2022-05-27 百度在线网络技术(北京)有限公司 相似字识别方法、装置、计算机设备及存储介质
CN117079282B (zh) * 2023-08-16 2024-06-25 读书郎教育科技有限公司 一种基于图像处理的智能词典笔

Also Published As

Publication number Publication date
JP2003162688A (ja) 2003-06-06

Similar Documents

Publication Publication Date Title
USRE47889E1 (en) System and method for segmenting text lines in documents
US6850645B2 (en) Pattern recognizing apparatus
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US7519226B2 (en) Form search apparatus and method
CN110503054B (zh) 文本图像的处理方法及装置
US8606010B2 (en) Identifying text pixels in scanned images
JP3452774B2 (ja) 文字認識方法
JP2000181993A (ja) 文字認識方法および装置
EP0649113A2 (en) Multifont optical character recognition using a box connectivity approach
Lehal et al. Feature extraction and classification for OCR of Gurmukhi script
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
Bahram A texture-based approach for offline writer identification
JPH06501801A (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
Srihari et al. A system to locate and recognize ZIP codes in handwritten addresses
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
KR100498683B1 (ko) 문자 인식장치 및 그 방법과 문자인식 프로그램을 기록한 컴퓨터 판독 가능한 기록매체
JP3790736B2 (ja) 文字認識用辞書作成装置及び文字認識装置
JP3372005B2 (ja) 文字認識装置
Heutte et al. Combining structural and statistical features for the recognition of handwritten characters
Halder et al. Individuality of isolated Bangla characters
JP3370934B2 (ja) 光学的文字読み取り方法とその装置
JPH08255223A (ja) 文字認識装置における類似文字判別方法
Chanda et al. Font identification—In context of an Indic script
KR19980058349A (ko) 영상정보를 이용한 사람 식별 방법
JP2576350B2 (ja) 文字列抽出装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110407

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140407

Year of fee payment: 8

EXPY Cancellation because of completion of term