JP3553779B2

JP3553779B2 - 文字列領域抽出方法，文字列領域抽出プログラムを記録した記録媒体および画像処理システム

Info

Publication number: JP3553779B2
Application number: JP33338697A
Authority: JP
Inventors: 勝義田邊; 晴美川島; 昭夫塩
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 1997-12-04
Filing date: 1997-12-04
Publication date: 2004-08-11
Anticipated expiration: 2017-12-04
Also published as: JPH11167604A

Description

【０００１】
【発明の属する技術分野】
本発明は，画像処理を用いて，自動車のナンバープレートのように一定の配置規則を持った文字列領域を抽出する方法およびそのプログラムを記録した記録媒体，並びに文字列領域を抽出する画像処理システムに関するものである。
【０００２】
【従来の技術】
従来，この種の技術は，画像中に抽出しようとする文字列が全部クリアーな状態で存在していると仮定して，全文字列の配置規則に基づき作成したテンプレートとのマッチング処理を行い，マッチングした場合にだけ全文字列領域を抽出するという方法であった。
【０００３】
【発明が解決しようとする課題】
しかしながら，例えば実環境下において自動車のナンバープレートをカメラで撮影した場合，必ずしも撮影された画像内に自動車のナンバープレートが完全に写っているとは限らない。つまり，現実のナンバープレートは，汚れ，光の反射による影響や，自動車走行位置によるナンバープレートの画枠からのはみ出しのために，ナンバープレート中の文字が不完全な場合が起きる。また，画面にナンバープレートが全部写っていても，天候，明るさ，背景パターンの多様性のために，ナンバープレートがクリアーに写っていない場合がある。この場合には，ナンバープレートを構成する文字やナンバープレート枠が背景とうまく分離できず，ナンバープレート領域の抽出が不安定になる。
【０００４】
このように，抽出対象の全文字列領域がクリアーな状態で存在しない場合が起きると，全文字列の配置規則に基づき作成したテンプレートとマッチングする文字列領域は存在しないため，全文字列領域を見つけることはできないという問題が生じる。すなわち，見つけたい文字列領域が，全文字列の存在を仮定した拘束条件に当てはまらないため，抽出ができなくなる。
【０００５】
本発明は上記の問題点の解決を図り，ナンバープレートのような文字および文字列に特定の配置関係が存在する画像から文字列領域を特定する手段を提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記の目的を達成するため，本発明は，同一種類の文字からなる文字列でそれを探し出すことにより，ナンバープレート等を構成する全文字列の一部だと判断できる最適な文字列に着目し，まず，配置規則から最適な文字列を探し出して全文字列中の位置を決定し，その後，探し出された最適な文字列との位置関係から全文字の位置を決定する方法をとる。
【０００７】
また，ナンバープレート等の汚れ，光の反射，天候の影響等により最適な文字列中の文字の一部が欠けている，あるいは一文字全部が抜けていて，最適な文字列を探し出すことができない場合には，配置規則から最適な文字列の部分文字列を探し出すことにより全文字列中の位置を決定し，その後，探し出された最適な文字列の部分文字列との関係から全文字の位置を決定する方法をとる。
【０００８】
【発明の実施の形態】
図１は，本発明の概要を説明するための全文字列と最適な文字列と部分文字列の関係を示す。
【０００９】
以下，ナンバープレートの例に従って説明するが，本発明は，ナンバープレートに限らず，文字の大きさや文字間の間隔が，一定の配置規則に従って配置されている場合に適用可能である。また狭義の文字だけでなく，丸や三角などの記号や，決まった大きさの絵や模様が，一定の配置規則に従って配置されている場合にも適用可能である。ここで説明する「文字」には，記号や所定の大きさの図形等の概念を含むものとする。
【００１０】
ナンバープレートを構成する全文字列が，例えば図１（ａ）に示す文字列配置規則を持つ全文字列とすると，図１（ｂ）に示すように，前記の全文字列は４つの文字種類の異なる文字列から構成される。ここで図１（ｂ）の▲４▼が最適な文字列であるとする。ここでの文字種類は，数字，漢字等の単なる字種ではなく，大きさや縦横比等を含めたものを意味する。
【００１１】
画像から抽出された文字領域の中に，この最適な文字列の配置規則とマッチングする文字領域の列があるならば，この文字領域の列はナンバープレートを構成する文字列であるとわかるとともに，マッチングした文字領域の列のナンバープレートを構成する全文字列中における位置，すなわち図１（ａ）における「４７８５」の位置がわかる。残りの文字領域の列の位置は，全文字列配置規則によりマッチングした文字領域の列との位置関係から特定できる。
【００１２】
画像から抽出された文字領域の中に，この最適な文字列の位置規則とマッチングする文字領域の列がないならば，最適な文字列の文字種類と同一な文字領域からなる２文字領域以上の部分文字列を抽出する。抽出したこの部分文字列を図１（ｃ）に示す最適な文字列の部分文字列の配置規則とマッチングさせることにより，ナンバープレートを構成する全文字列中における位置，すなわち図１（ａ）における「４７８５」の位置を決定する。このとき，欠損している位置も特定できる。残りの文字領域の列の位置はマッチングした部分文字列との位置関係から特定できる。
【００１３】
以上のように，ナンバープレートを構成する文字の配置規則から文字間距離や文字位置関係等の情報による文字位置の限定が可能であることに着目し，ナンバープレート中の文字の一部に欠けや抜けが生じていても，他の部分文字列の配置情報からナンバープレート領域を特定する。
【００１４】
図２および図３は本発明の文字列領域抽出方法のフローチャート，図４は本発明の画像処理システムの構成例を示す。
図２および図３に示すフローチャートにおいて，１０１はスタート，１０２は画像を入力する処理，１０３は入力画像を二値化し，ラベリングする処理，１０４〜１０６は最適な文字列モデルの文字種類と同一な文字列領域の抽出・グループ化および最適な文字列モデルの文字列数に等しいグループの文字間間隔測定処理であって，特に１０４はラベリング領域から最適な文字列モデルの文字種類と同一な文字領域（文字候補領域）を絞り込む処理，１０５は文字候補領域から文字列領域を作成し，文字列数でグループ化する処理，１０６は最適な文字列モデルの文字列数に等しいグループ（最適な文字列数グループ）中の複数の文字列領域に対して文字間間隔を測定する処理を表す。
【００１５】
また，１０７は最適な文字列数グループ中の複数の文字列領域と最適な文字列モデルとの文字列配置規則によるマッチング処理，１０８は最適な文字列モデルにマッチングする文字列領域の文字認識処理による最適な文字列を確定する処理を表す。
【００１６】
また，図３の１０９〜１１５は最適な文字列の部分文字列の抽出・作成と位置を決定する処理であって，特に１０９は最適な文字列モデルの文字種類と同一な文字領域（文字候補領域）の文字を認識し抽出する処理，１１０は文字候補領域の複数文字を組み合わせて部分文字列を作成する処理，１１１は部分文字列の各文字間の間隔を測定する処理，１１２は部分文字列と文字列辞書（最適な文字列モデルの部分文字列モデルの文字列配置規則が入っている）との部分文字列マッチング処理，１１３は全文字列中における当該部分文字列の位置を決定する処理，１１４は部分文字列中の欠損文字領域を抽出する処理，１１５は欠損文字領域に対して文字を認識する処理を表す。
【００１７】
図３の１１６〜１１８は最適な文字列またはその部分文字列との関係から全文字列領域を抽出する処理であって，特に１１６は最適な文字列またはその部分文字列の関係より全文字列領域を推定する処理，１１７は推定領域に対して文字を認識する処理，１１８は全文字列領域を抽出する処理を表す。１１９はデータを蓄積する処理，１２０はエンドを表す。
【００１８】
本発明は，文字列中の文字の一部が欠けていたり，一文字全部が抜けていても，残りの文字列の配置から文字列領域の位置を決定し，文字情報を取得するものであり，このため，本発明の画像処理システムは，例えば図４に示すような各処理機能を実現するプログラムとコンピュータとからなる。
【００１９】
すなわち，外部から入力画像２０１を入力する入力部２０２と，システムを制御する制御部２０３と，入力画像２０１を二値化する二値化処理部２０４と，二値化された画像をラベリングするラベリング処理部２０５と，ラベリングされた領域から文字候補領域を絞り込み，文字列を作成する文字列処理部２０６と，文字を認識する文字認識処理部２０７と，文字列領域を判定する領域判定部２０８と，複数の文字を組み合わせて部分文字列領域を作成する部分文字列処理部２０９と，文字列領域を抽出する領域抽出部２１０と，欠損文字領域を抽出する欠損文字領域抽出部２１１と，文字および文字列の領域を推定する領域推定部２１２と，データや画像を蓄積する蓄積部２１３とを備える。蓄積されたデータや画像は，画像データ蓄積装置２１４に保存される。
【００２０】
また，図５に全文字列配置モデルとそれに対する文字列モデルおよび部分文字列モデルの例を示し，図６に欠損文字を含んだ文字列領域抽出の対象である文字列の例を示す。図７はラベリング領域の連続性を説明するための図，図８は最適な文字列モデルと部分文字列モデルの例を示す図である。
【００２１】
図５および図６において，ｆ_０〜ｆ_４は文字領域，Ｓ_１〜Ｓ_４は文字候補領域，Ｓ_５は文字列配置モデルから推定された領域，４１０は汚れまたは濃い影をそれぞれ表す。さらに，それぞれ図に示す通り，ｄ_０〜ｄ_６は図５に示す各文字間距離，Ｃ_１〜Ｃ_６は図６に示す各文字間距離，Ｗは図５に示す各文字領域の横幅，Ｈは図５に示す各文字領域の縦幅，Ｈ_０は図５に示す文字領域ｆ_０の縦幅，ｗ_１〜ｗ_４は図６に示す各文字領域の横幅，ｈ_１〜ｈ_４は図６に示す各文字領域の縦幅を示す。
【００２２】
図５（ａ）の全文字列配置モデルは，同一種類の文字毎に１文字のひらがなの文字列モデルと４文字の数字の文字列モデルとからなっているが，図５（ｂ）に示す最適な文字列モデルとは，４文字の数字の文字列モデルだけで全文字列配置モデルを決定できるという意味で，ここでは４文字の数字の文字列モデルのことをいう。言い換えれば，いかなる全文字列配置モデルでも，いくつかの同一種類の文字列モデルに分解でき，一つの同一文字種類から構成される文字列モデルだけで一意的に全文字列配置モデルを決定できる文字列モデルの中で，一番安定に抽出できる文字列モデルを最適な文字列モデルという。
【００２３】
ここで一番安定に抽出できるとは，外的な環境変動に影響されにくい，ノイズに強い，認識し易い，文字の大きさが大きい，文字の数が多い，文字が複雑でない，紛らわしい文字がないということを指す。したがって，前記のいくつかの文字列モデルには安定に抽出できるという意味の優先順位が存在し，第一優先順位の文字列モデルを最適な文字列モデルという。
【００２４】
まず，入力画像２０１が入力部２０２を通じて入力される（処理１０２）と，制御部２０３から二値化処理部２０４，ラベリング処理部２０５に対して入力画像２０１を二値化し，ラベリングする処理１０３を実行するように指示する。
【００２５】
ラベリング処理の後，ラベリング領域から最適な文字列モデルの文字種類と同一な文字領域（文字候補領域）を絞り込む処理１０４，文字候補領域から文字列領域を作成し，文字列数でグループ化する処理１０５，最適な文字列モデルの文字列数に等しいグループ（最適な文字列数グループ）中の複数の文字列領域に対して文字間間隔を測定する処理１０６まで実行する。これらの処理は，制御部２０３の指示により文字列処理部２０６で実行される。
【００２６】
具体的には，図５（ｂ）に示す最適な文字列モデルにマッチングするような文字列を見つけるため，まず，処理１０４でラベリング領域の縦横比ｗ_ｉ／ｈ_ｉ（ｉ＝１，２，…，Ｍ：Ｍはラベリング数）から最適な文字列モデルの文字種類にマッチングするラベリング領域を絞り込み，文字候補領域とする。縦横比ｗ_ｉ／ｈ_ｉがｍ倍以上もしくは１／ｍ倍以下のものを除外する。
【００２７】
次に，処理１０５で複数の文字候補領域から，各文字候補領域の間の横方向の連続性（図７に示すように隣り合う文字候補領域が縦軸に写像した時に重なっている場合を指す）に注目し，横方向に連続性のある２個以上の文字候補領域からなる文字列候補を抽出・作成し，文字列数でグループ化する。この際，各文字候補領域の高さｈ_ｉの差が，所定の誤差δ内に収まっているものを文字列候補とする。この段階で，図５の文字列Ａモデルに該当する文字候補領域だけが残ることになる。
【００２８】
図６の例で領域Ｓ_４を基準とすると，
ｈ_ｉ−ｈ_４≦δ
となる。
【００２９】
次に，処理１０６で全文字列配置モデル中の同一種類の文字列に対して最適な文字列モデルと等しい文字列数の文字列候補，すなわち，最適な文字列数のグループに対して文字間間隔の測定を行う。
【００３０】
この結果から，処理１０７により文字間間隔が最適な文字列モデルの文字列配置規則にマッチングしているかどうかを調べる処理を，領域判定部２０８で実行する。
【００３１】
この際の誤差評価は，図５（ｂ）と図６（ａ）の例では，
ε_１＝｜Ｃ_１／Ｃ_１−ｄ_１／ｄ_１｜
ε_２＝｜Ｃ_２／Ｃ_１−ｄ_２／ｄ_１｜
ε_３＝｜Ｃ_３／Ｃ_１−ｄ_３／ｄ_１｜
とすると，次のようになる。
（１）ε_１≦η_１，ε_２≦η_２，ε_３≦η_３の場合，
目的の文字列である。ただし，最適な文字列数のグループに文字列がＮ個存在するなら各文字列のσ＝（ε_１＋ε_２＋ε_３）／３を計算し，そのσが最小のものを目的の文字列とする。
（２）その他の場合，
目的の文字列でない。
【００３２】
以上を一般的な式で表した場合，
ε_ｎｋ＝｜Ｃ_ｎｋ／Ｃ_ｎ１−ｄ_ｋ／ｄ_１｜
（ただし，ｎは最適な文字列数のグループに存在する複数の文字列における順番を表し，ｎ＝１，２，３，…，Ｎである。ｋは基準文字候補領域からの文字間間隔の順番を表し，ｋ＝１，２，３，…，Ｋである）
とすると，次のようになる。
（１）ε_ｎｋ≦η_ｋの場合，
これらは目的の候補文字列であり，その中で
σ_ｎ＝（１／Ｋ）Σε_ｎｋ〔Σはｋ＝１からＫまでの和〕
が最小のものを目的の文字列とする。
（２）その他の場合，
目的の文字列でない。
【００３３】
（ただし，η_ｋは基準文字候補領域から各文字候補領域への距離によって異なる閾値を表す）
処理１０７において，最適な文字列数のグループの中にマッチングしている文字列候補が存在すれば，次の処理１０８でマッチングした文字列候補の文字を認識する処理を行い，この文字列候補が最適な文字列と確定する。
【００３４】
しかし，文字列中の文字の一部が欠けていたり，一文字全部が抜けている場合には，文字列配置規則にマッチングしない。従来のパターンマッチングではマッチングする文字列候補が見つけられず，この処理１０７で終了となるが，本発明では，マッチングする文字列候補が見つけられない場合，全ての文字候補領域の文字を認識する処理１０９から欠損文字領域に対して文字を認識する処理１１５を実行し，最適な文字列モデルの部分文字列モデルに一致する部分文字列を見つける。
【００３５】
まず，処理１０４で絞り込まれた文字候補領域の全てについて，処理１０９の文字を認識し抽出する処理を文字認識処理部２０７で実行し，調べる対象を文字領域に限定する。この限定された文字領域は，最適な文字列モデルの文字種類とマッチングする文字領域である。
【００３６】
次に，処理１１０を部分文字列処理部２０９で実行することにより，文字が存在する文字領域に対して，複数文字を組み合わせて部分文字列領域を作成する。さらに，各文字間の間隔を測定する処理１１１および部分文字列と文字列辞書との部分文字列マッチング処理１１２を，部分文字列処理部２０９で実行し，領域抽出部２１０で全文字列中における当該部分文字列の位置を決定する処理１１３を実行し，部分文字列領域の抽出を行う。
【００３７】
ここでの部分文字列と文字列辞書との部分文字列マッチング処理１１２とは，例えば，図６（ｂ）の例（最適な文字列モデルの文字種類とマッチングする調査対象の文字領域には文字「も」も含まれ，かつ領域Ｓ_５が欠損している）では，計測可能な文字間間隔Ｃ_１とＣ_２の組み合わせが，図５の全文字列配置モデルのｄ_１とｄ_２の組み合わせ，あるいはｄ_１とｄ_３の組み合わせにマッチングするかどうかを調べ，当該領域を抽出することに相当する。また，Ｃ_１あるいはＣ_２がそれぞれｄ_１，ｄ_２，ｄ_３にマッチングするかどうかを調べ当該領域を抽出する。ここで，もし見つからなければ基準領域を領域Ｓ_３に移し，文字間間隔Ｃ_４とＣ_５の組み合わせがｄ_１とｄ_３との組み合わせにマッチングするかどうかを調べることになる。
【００３８】
また，同様にＣ_４とＣ_５がそれぞれｄ_１，ｄ_２，ｄ_３にマッチングするかどうかを調べる。図６（ｂ）の例では，Ｃ_１とＣ_２の組み合わせがｄ_１とｄ_３の組み合わせにマッチングすることになる。
【００３９】
このマッチングについて詳しく述べると，図８に示すように，図５の文字列配置モデルの部分文字列モデルについて，文字間間隔の組み合わせで表すと，２文字の組み合わせ６通りと３文字の組み合わせ４通りの計１０通りがある。その１０通りの部分文字列モデルの中で，どの部分文字列モデルにマッチングしているのかを調べることである。
【００４０】
全文字列中における当該部分文字列の位置が決定されると欠損文字位置がわかるので，欠損文字領域抽出部２１１で部分文字列中の欠損文字領域を抽出する処理１１４を行い，欠損文字領域を抽出する。抽出された欠損文字領域は欠損程度により，文字の認識が可能な場合があるので，欠損文字領域に対して文字を認識する処理１１５を文字認識処理部２０７で実行する。
【００４１】
このとき，欠損している文字領域はもともと不確定なので，欠損文字領域の特定や認識を行う必要がないと考える場合には，部分文字列中の欠損文字領域を抽出する処理１１４および欠損文字領域に対して文字を認識する処理１１５を行う必要はない。
【００４２】
上記の処理にて，全文字列における最適な文字列または最適な文字列の部分文字列の位置を確定できたので，領域推定部２１２で全文字列領域を推定する処理１１６を実行し，前記の最適な文字列または最適な文字列の部分文字列との文字間，文字列間の位置関係を利用して，その他の縦横に存在する複数の文字または文字列を推定し，この推定領域に対して文字を認識する処理１１７を文字認識処理部２０７で実行する。最後に，領域抽出部２１０で全文字列領域の抽出処理１１８を行い，蓄積部２１３にて画像データ蓄積装置２１４にデータを蓄積する処理１１９を実施する。
【００４３】
なお，抽出したい対象の領域に複数の全文字列配置モデルが存在し，各全文字列配置モデル間の距離が測定により判別できる程度に離れて存在する場合には，各全文字列配置モデル毎に前述した処理１０６から処理１１５までを実行し，全領域を処理することになる。
【００４４】
【発明の効果】
以上説明したように，本発明を用いると，文字列中の文字の一部が欠けていたり，一文字全部が抜けていても，残りの文字列の配置から文字列領域の位置を決定し，文字情報を取得することが可能であり，さらに複数文字の一部が欠けていたり，複数文字全部が抜けていたりしても，最悪でも２文字が残る場合には，文字情報を取得することが可能である。
【００４５】
また，本手法は，入力画像において文字列に欠損が生じていなくても，画像を二値化する段階で文字が欠けたり，背景とつながった場合など，文字列が不完全になった場合にも適用できる効果がある。
【００４６】
さらに，ナンバープレートでの応用を考えると，欠損が生じている部分は，ナンバープレート中のどの場所であるかが特定可能であり，その欠損領域は推定して切り出すことができる。このため，欠損程度が少ない場合には，正しい文字認識結果が得られる可能性もある。たとえ認識できなくても，１文字のみの場合には，通常の利用では，車両の特定は可能である。したがって，欠損のために他の完全な文字も見つけられないということはなく，他の完全な部分の文字列情報を取得できるという効果がある。
【図面の簡単な説明】
【図１】本発明の概要を説明するための全文字列と最適な文字列と部分文字列の関係を示す図である。
【図２】本発明の文字列領域抽出方法のフローチャートである。
【図３】本発明の文字列領域抽出方法のフローチャートである。
【図４】本発明の画像処理システムの構成例を示す図である。
【図５】本発明の文字列配置モデル例を示す図である。
【図６】本発明の欠損文字を含んだ文字列例を示す図である。
【図７】ラベリング領域の連続性を説明するための図である。
【図８】最適な文字列モデルと部分文字列モデルの例を示す図である。
【符号の説明】
２０１入力画像
２０２入力部
２０３制御部
２０４二値化処理部
２０５ラベリング処理部
２０６文字列処理部
２０７文字認識処理部
２０８領域判定部
２０９部分文字列処理部
２１０領域抽出部
２１１欠損文字領域抽出部
２１２領域推定部
２１３蓄積部
２１４画像データ蓄積装置

Claims

構成要素である各文字の間，同一種類の文字によって一つの文字列が構成される場合の複数の文字列の間および前記一つの文字列内で組み合わせ可能な複数の部分文字列の間に一定の配置関係が存在する全文字列の領域を，画像データから抽出する画像処理システムにおける文字列領域抽出方法であって，
画像データから１つまたは複数の文字列領域を抽出する第１の過程と，
抽出対象となる文字列領域中のあらかじめ決められた同一種類の文字からなる１つの文字列における文字間の配置情報を最適な文字列モデルの配置規則としてあらかじめ記憶しておき，前記第１の過程で抽出された文字列領域について，前記最適な文字列モデルの配置規則にマッチングするか否かを調べ，前記最適な文字列モデルの配置規則にマッチングする文字列領域を最適な文字列として確定する第２の過程と，
前記最適な文字列モデルの配置規則にマッチングする文字列領域が見つけられない場合に，前記第１の過程で抽出された文字列領域について，前記最適な文字列モデルと等しい文字種類の複数文字からなる部分文字列を抽出し，前記部分文字列における各文字間の間隔を測定し，前記測定した部分文字列の文字間間隔の組み合わせが，最適な文字列モデルの一部の文字からなる文字間間隔の組み合わせとマッチングする場合に，その文字列領域の部分文字列の位置を最適な文字列中の部分文字列の位置として決定する第３の過程と，
前記第２の過程により決定した最適な文字列の位置または前記第３の過程により決定した最適な文字列中の部分文字列の位置をもとに，全文字列領域を抽出する第４の過程とを有する
ことを特徴とする文字列領域抽出方法。
前記第３の過程は，さらに，前記決定した最適な文字列中の部分文字列の位置から，部分文字列中の欠損文字領域を抽出し，前記欠損文字領域に対して文字の認識を行う
ことを特徴とする請求項１記載の文字列抽出方法。
構成要素である各文字の間，同一種類の文字によって一つの文字列が構成される場合の複数の文字列の間および前記一つの文字列内で組み合わせ可能な複数の部分文字列の間に一定の配置関係が存在する全文字列の領域を，画像データから抽出する画像処理システムにおける文字列領域抽出方法であって，
画像を入力する第１の処理過程と，
入力画像を二値化し，ラベリングする第２の処理過程と，
抽出対象となる文字列領域中のあらかじめ決められた同一種類の文字からなる１つの文字列における文字間の配置情報を最適な文字列モデルの配置規則としてあらかじめ記憶しておき，前記第２の処理過程でラベリングされた領域から前記最適な文字列モデルの文字種類と同一な文字候補領域を絞り込む第３の処理過程と，
前記文字候補領域から文字列領域を作成し，文字列数でグループ化する第４の処理過程と，
前記最適な文字列モデルの文字列数に等しいグループ中の複数の文字列領域に対して文字間間隔を測定する第５の処理過程と，
前記最適な文字列数グループ中の複数の文字列領域について，前記最適な文字列モデルの配置規則にマッチングするか否かを調べる第６の処理過程と，
前記最適な文字列モデルの配置規則にマッチングする文字列領域を最適な文字列として確定する第７の処理過程と，
前記第６の処理過程において前記最適な文字列数グループ中の複数の文字列領域が最適な文字列モデルの配置規則とマッチングしない場合に，前記最適な文字列モデルの文字種類と同一な文字候補領域の文字を認識して抽出し，前記文字候補領域の複数文字を組み合わせて部分文字列を作成し，作成した部分文字列の各文字間の間隔を測定し，前記測定した部分文字列の文字間間隔の組み合わせが，最適な文字列モデルの一部の文字からなる文字間間隔の組み合わせとマッチングする場合に，その文字列領域の部分文字列の位置を最適な文字列中の部分文字列の位置として決定する第８の処理過程と，
前記確定した最適な文字列またはその部分文字列との関係から全文字列領域を抽出する第９の処理過程と，
抽出した結果のデータを蓄積する第１０の処理過程とを有する
ことを特徴とする文字列領域抽出方法。
前記第８の処理過程は，さらに，前記決定した最適な文字列中の部分文字列の位置から，部分文字列中の欠損文字領域を抽出し，前記欠損文字領域に対して文字の認識を行う
ことを特徴とする請求項３記載の文字列領域抽出方法。
請求項１から請求項４までのいずれか１項に記載した文字列領域抽出方法を，コンピュータに実行させるための文字列領域抽出プログラムを記録した記録媒体。
構成要素である各文字の間，同一種類の文字によって一つの文字列が構成される場合の複数の文字列の間および前記一つの文字列内で組み合わせ可能な複数の部分文字列の間に一定の配置関係が存在する全文字列の領域を，画像データから抽出する画像処理システムであって，
文字列領域の抽出に関する全体を制御する制御部と，
画像を入力する入力部と，
入力された画像を二値化する二値化処理部と，
二値化した画像をラベリングするラベリング処理部と，
抽出対象となる文字列領域中のあらかじめ決められた同一種類の文字からなる１つの文字列における文字間の配置情報を最適な文字列モデルの配置規則としてあらかじめ記憶しておき，前記ラベリング処理部でラベリングされた領域から前記最適な文字列モデルの文字種類と同一な文字候補領域を絞り込み，前記文字候補領域から文字列領域を作成し，文字列数でグループ化し，前記最適な文字列モデルの文字列数に等しいグループ中の複数の文字列領域に対して文字間間隔を測定する文字列処理部と，
前記最適な文字列数グループ中の複数の文字列領域について，前記最適な文字列モデルの配置規則にマッチングするか否かを調べる領域判定部と，
前記領域判定部による判定の結果，前記最適な文字列数グループ中の複数の文字列領域が最適な文字列モデルの配置規則とマッチングしない場合に，前記文字候補領域の複数文字を組み合わせて部分文字列を作成し，作成した部分文字列の各文字間の間隔を測定し，前記測定した部分文字列の文字間間隔の組み合わせと，最適な文字列モデルの一部の文字からなる文字間間隔の組み合わせとのマッチング処理を行う部分文字列処理部と，
全文字列中の部分文字列の位置を決定し，最終的に全文字列領域を抽出する領域抽出部と，
部分文字列中の欠損文字領域を抽出する欠損文字領域抽出部と，
マッチングする文字列領域，文字列領域の文字認識および欠損文字領域，推定領域を含む全ての文字候補領域の文字認識を行う文字認識処理部と，
最適な文字列またはその部分文字列の関係により全文字列領域を推定する領域推定部と，
抽出した文字列領域のデータを蓄積する蓄積部とを備える
ことを特徴とする画像処理システム。