JP3553779B2 - 文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム - Google Patents

文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム Download PDF

Info

Publication number
JP3553779B2
JP3553779B2 JP33338697A JP33338697A JP3553779B2 JP 3553779 B2 JP3553779 B2 JP 3553779B2 JP 33338697 A JP33338697 A JP 33338697A JP 33338697 A JP33338697 A JP 33338697A JP 3553779 B2 JP3553779 B2 JP 3553779B2
Authority
JP
Japan
Prior art keywords
character string
character
area
optimal
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33338697A
Other languages
English (en)
Other versions
JPH11167604A (ja
Inventor
勝義 田邊
晴美 川島
昭夫 塩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP33338697A priority Critical patent/JP3553779B2/ja
Publication of JPH11167604A publication Critical patent/JPH11167604A/ja
Application granted granted Critical
Publication of JP3553779B2 publication Critical patent/JP3553779B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,画像処理を用いて,自動車のナンバープレートのように一定の配置規則を持った文字列領域を抽出する方法およびそのプログラムを記録した記録媒体,並びに文字列領域を抽出する画像処理システムに関するものである。
【0002】
【従来の技術】
従来,この種の技術は,画像中に抽出しようとする文字列が全部クリアーな状態で存在していると仮定して,全文字列の配置規則に基づき作成したテンプレートとのマッチング処理を行い,マッチングした場合にだけ全文字列領域を抽出するという方法であった。
【0003】
【発明が解決しようとする課題】
しかしながら,例えば実環境下において自動車のナンバープレートをカメラで撮影した場合,必ずしも撮影された画像内に自動車のナンバープレートが完全に写っているとは限らない。つまり,現実のナンバープレートは,汚れ,光の反射による影響や,自動車走行位置によるナンバープレートの画枠からのはみ出しのために,ナンバープレート中の文字が不完全な場合が起きる。また,画面にナンバープレートが全部写っていても,天候,明るさ,背景パターンの多様性のために,ナンバープレートがクリアーに写っていない場合がある。この場合には,ナンバープレートを構成する文字やナンバープレート枠が背景とうまく分離できず,ナンバープレート領域の抽出が不安定になる。
【0004】
このように,抽出対象の全文字列領域がクリアーな状態で存在しない場合が起きると,全文字列の配置規則に基づき作成したテンプレートとマッチングする文字列領域は存在しないため,全文字列領域を見つけることはできないという問題が生じる。すなわち,見つけたい文字列領域が,全文字列の存在を仮定した拘束条件に当てはまらないため,抽出ができなくなる。
【0005】
本発明は上記の問題点の解決を図り,ナンバープレートのような文字および文字列に特定の配置関係が存在する画像から文字列領域を特定する手段を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記の目的を達成するため,本発明は,同一種類の文字からなる文字列でそれを探し出すことにより,ナンバープレート等を構成する全文字列の一部だと判断できる最適な文字列に着目し,まず,配置規則から最適な文字列を探し出して全文字列中の位置を決定し,その後,探し出された最適な文字列との位置関係から全文字の位置を決定する方法をとる。
【0007】
また,ナンバープレート等の汚れ,光の反射,天候の影響等により最適な文字列中の文字の一部が欠けている,あるいは一文字全部が抜けていて,最適な文字列を探し出すことができない場合には,配置規則から最適な文字列の部分文字列を探し出すことにより全文字列中の位置を決定し,その後,探し出された最適な文字列の部分文字列との関係から全文字の位置を決定する方法をとる。
【0008】
【発明の実施の形態】
図1は,本発明の概要を説明するための全文字列と最適な文字列と部分文字列の関係を示す。
【0009】
以下,ナンバープレートの例に従って説明するが,本発明は,ナンバープレートに限らず,文字の大きさや文字間の間隔が,一定の配置規則に従って配置されている場合に適用可能である。また狭義の文字だけでなく,丸や三角などの記号や,決まった大きさの絵や模様が,一定の配置規則に従って配置されている場合にも適用可能である。ここで説明する「文字」には,記号や所定の大きさの図形等の概念を含むものとする。
【0010】
ナンバープレートを構成する全文字列が,例えば図1(a)に示す文字列配置規則を持つ全文字列とすると,図1(b)に示すように,前記の全文字列は4つの文字種類の異なる文字列から構成される。ここで図1(b)の▲4▼が最適な文字列であるとする。ここでの文字種類は,数字,漢字等の単なる字種ではなく,大きさや縦横比等を含めたものを意味する。
【0011】
画像から抽出された文字領域の中に,この最適な文字列の配置規則とマッチングする文字領域の列があるならば,この文字領域の列はナンバープレートを構成する文字列であるとわかるとともに,マッチングした文字領域の列のナンバープレートを構成する全文字列中における位置,すなわち図1(a)における「4785」の位置がわかる。残りの文字領域の列の位置は,全文字列配置規則によりマッチングした文字領域の列との位置関係から特定できる。
【0012】
画像から抽出された文字領域の中に,この最適な文字列の位置規則とマッチングする文字領域の列がないならば,最適な文字列の文字種類と同一な文字領域からなる2文字領域以上の部分文字列を抽出する。抽出したこの部分文字列を図1(c)に示す最適な文字列の部分文字列の配置規則とマッチングさせることにより,ナンバープレートを構成する全文字列中における位置,すなわち図1(a)における「4785」の位置を決定する。このとき,欠損している位置も特定できる。残りの文字領域の列の位置はマッチングした部分文字列との位置関係から特定できる。
【0013】
以上のように,ナンバープレートを構成する文字の配置規則から文字間距離や文字位置関係等の情報による文字位置の限定が可能であることに着目し,ナンバープレート中の文字の一部に欠けや抜けが生じていても,他の部分文字列の配置情報からナンバープレート領域を特定する。
【0014】
図2および図3は本発明の文字列領域抽出方法のフローチャート,図4は本発明の画像処理システムの構成例を示す。
図2および図3に示すフローチャートにおいて,101はスタート,102は画像を入力する処理,103は入力画像を二値化し,ラベリングする処理,104〜106は最適な文字列モデルの文字種類と同一な文字列領域の抽出・グループ化および最適な文字列モデルの文字列数に等しいグループの文字間間隔測定処理であって,特に104はラベリング領域から最適な文字列モデルの文字種類と同一な文字領域(文字候補領域)を絞り込む処理,105は文字候補領域から文字列領域を作成し,文字列数でグループ化する処理,106は最適な文字列モデルの文字列数に等しいグループ(最適な文字列数グループ)中の複数の文字列領域に対して文字間間隔を測定する処理を表す。
【0015】
また,107は最適な文字列数グループ中の複数の文字列領域と最適な文字列モデルとの文字列配置規則によるマッチング処理,108は最適な文字列モデルにマッチングする文字列領域の文字認識処理による最適な文字列を確定する処理を表す。
【0016】
また,図3の109〜115は最適な文字列の部分文字列の抽出・作成と位置を決定する処理であって,特に109は最適な文字列モデルの文字種類と同一な文字領域(文字候補領域)の文字を認識し抽出する処理,110は文字候補領域の複数文字を組み合わせて部分文字列を作成する処理,111は部分文字列の各文字間の間隔を測定する処理,112は部分文字列と文字列辞書(最適な文字列モデルの部分文字列モデルの文字列配置規則が入っている)との部分文字列マッチング処理,113は全文字列中における当該部分文字列の位置を決定する処理,114は部分文字列中の欠損文字領域を抽出する処理,115は欠損文字領域に対して文字を認識する処理を表す。
【0017】
図3の116〜118は最適な文字列またはその部分文字列との関係から全文字列領域を抽出する処理であって,特に116は最適な文字列またはその部分文字列の関係より全文字列領域を推定する処理,117は推定領域に対して文字を認識する処理,118は全文字列領域を抽出する処理を表す。119はデータを蓄積する処理,120はエンドを表す。
【0018】
本発明は,文字列中の文字の一部が欠けていたり,一文字全部が抜けていても,残りの文字列の配置から文字列領域の位置を決定し,文字情報を取得するものであり,このため,本発明の画像処理システムは,例えば図4に示すような各処理機能を実現するプログラムとコンピュータとからなる。
【0019】
すなわち,外部から入力画像201を入力する入力部202と,システムを制御する制御部203と,入力画像201を二値化する二値化処理部204と,二値化された画像をラベリングするラベリング処理部205と,ラベリングされた領域から文字候補領域を絞り込み,文字列を作成する文字列処理部206と,文字を認識する文字認識処理部207と,文字列領域を判定する領域判定部208と,複数の文字を組み合わせて部分文字列領域を作成する部分文字列処理部209と,文字列領域を抽出する領域抽出部210と,欠損文字領域を抽出する欠損文字領域抽出部211と,文字および文字列の領域を推定する領域推定部212と,データや画像を蓄積する蓄積部213とを備える。蓄積されたデータや画像は,画像データ蓄積装置214に保存される。
【0020】
また,図5に全文字列配置モデルとそれに対する文字列モデルおよび部分文字列モデルの例を示し,図6に欠損文字を含んだ文字列領域抽出の対象である文字列の例を示す。図7はラベリング領域の連続性を説明するための図,図8は最適な文字列モデルと部分文字列モデルの例を示す図である。
【0021】
図5および図6において,f〜fは文字領域,S〜Sは文字候補領域,Sは文字列配置モデルから推定された領域,410は汚れまたは濃い影をそれぞれ表す。さらに,それぞれ図に示す通り,d〜dは図5に示す各文字間距離,C〜Cは図6に示す各文字間距離,Wは図5に示す各文字領域の横幅,Hは図5に示す各文字領域の縦幅,Hは図5に示す文字領域fの縦幅,w〜wは図6に示す各文字領域の横幅,h〜hは図6に示す各文字領域の縦幅を示す。
【0022】
図5(a)の全文字列配置モデルは,同一種類の文字毎に1文字のひらがなの文字列モデルと4文字の数字の文字列モデルとからなっているが,図5(b)に示す最適な文字列モデルとは,4文字の数字の文字列モデルだけで全文字列配置モデルを決定できるという意味で,ここでは4文字の数字の文字列モデルのことをいう。言い換えれば,いかなる全文字列配置モデルでも,いくつかの同一種類の文字列モデルに分解でき,一つの同一文字種類から構成される文字列モデルだけで一意的に全文字列配置モデルを決定できる文字列モデルの中で,一番安定に抽出できる文字列モデルを最適な文字列モデルという。
【0023】
ここで一番安定に抽出できるとは,外的な環境変動に影響されにくい,ノイズに強い,認識し易い,文字の大きさが大きい,文字の数が多い,文字が複雑でない,紛らわしい文字がないということを指す。したがって,前記のいくつかの文字列モデルには安定に抽出できるという意味の優先順位が存在し,第一優先順位の文字列モデルを最適な文字列モデルという。
【0024】
まず,入力画像201が入力部202を通じて入力される(処理102)と,制御部203から二値化処理部204,ラベリング処理部205に対して入力画像201を二値化し,ラベリングする処理103を実行するように指示する。
【0025】
ラベリング処理の後,ラベリング領域から最適な文字列モデルの文字種類と同一な文字領域(文字候補領域)を絞り込む処理104,文字候補領域から文字列領域を作成し,文字列数でグループ化する処理105,最適な文字列モデルの文字列数に等しいグループ(最適な文字列数グループ)中の複数の文字列領域に対して文字間間隔を測定する処理106まで実行する。これらの処理は,制御部203の指示により文字列処理部206で実行される。
【0026】
具体的には,図5(b)に示す最適な文字列モデルにマッチングするような文字列を見つけるため,まず,処理104でラベリング領域の縦横比w/h(i=1,2,…,M:Mはラベリング数)から最適な文字列モデルの文字種類にマッチングするラベリング領域を絞り込み,文字候補領域とする。縦横比w/hがm倍以上もしくは1/m倍以下のものを除外する。
【0027】
次に,処理105で複数の文字候補領域から,各文字候補領域の間の横方向の連続性(図7に示すように隣り合う文字候補領域が縦軸に写像した時に重なっている場合を指す)に注目し,横方向に連続性のある2個以上の文字候補領域からなる文字列候補を抽出・作成し,文字列数でグループ化する。この際,各文字候補領域の高さhの差が,所定の誤差δ内に収まっているものを文字列候補とする。この段階で,図5の文字列Aモデルに該当する文字候補領域だけが残ることになる。
【0028】
図6の例で領域Sを基準とすると,
−h≦δ
となる。
【0029】
次に,処理106で全文字列配置モデル中の同一種類の文字列に対して最適な文字列モデルと等しい文字列数の文字列候補,すなわち,最適な文字列数のグループに対して文字間間隔の測定を行う。
【0030】
この結果から,処理107により文字間間隔が最適な文字列モデルの文字列配置規則にマッチングしているかどうかを調べる処理を,領域判定部208で実行する。
【0031】
この際の誤差評価は,図5(b)と図6(a)の例では,
ε=|C/C−d/d
ε=|C/C−d/d
ε=|C/C−d/d
とすると,次のようになる。
(1)ε≦η,ε≦η,ε≦ηの場合,
目的の文字列である。ただし,最適な文字列数のグループに文字列がN個存在するなら各文字列のσ=(ε+ε+ε)/3を計算し,そのσが最小のものを目的の文字列とする。
(2)その他の場合,
目的の文字列でない。
【0032】
以上を一般的な式で表した場合,
εnk=|Cnk/Cn1−d/d
(ただし,nは最適な文字列数のグループに存在する複数の文字列における順番を表し,n=1,2,3,…,Nである。kは基準文字候補領域からの文字間間隔の順番を表し,k=1,2,3,…,Kである)
とすると,次のようになる。
(1)εnk≦ηの場合,
これらは目的の候補文字列であり,その中で
σ=(1/K)Σεnk 〔Σはk=1からKまでの和〕
が最小のものを目的の文字列とする。
(2)その他の場合,
目的の文字列でない。
【0033】
(ただし,ηは基準文字候補領域から各文字候補領域への距離によって異なる閾値を表す)
処理107において,最適な文字列数のグループの中にマッチングしている文字列候補が存在すれば,次の処理108でマッチングした文字列候補の文字を認識する処理を行い,この文字列候補が最適な文字列と確定する。
【0034】
しかし,文字列中の文字の一部が欠けていたり,一文字全部が抜けている場合には,文字列配置規則にマッチングしない。従来のパターンマッチングではマッチングする文字列候補が見つけられず,この処理107で終了となるが,本発明では,マッチングする文字列候補が見つけられない場合,全ての文字候補領域の文字を認識する処理109から欠損文字領域に対して文字を認識する処理115を実行し,最適な文字列モデルの部分文字列モデルに一致する部分文字列を見つける。
【0035】
まず,処理104で絞り込まれた文字候補領域の全てについて,処理109の文字を認識し抽出する処理を文字認識処理部207で実行し,調べる対象を文字領域に限定する。この限定された文字領域は,最適な文字列モデルの文字種類とマッチングする文字領域である。
【0036】
次に,処理110を部分文字列処理部209で実行することにより,文字が存在する文字領域に対して,複数文字を組み合わせて部分文字列領域を作成する。さらに,各文字間の間隔を測定する処理111および部分文字列と文字列辞書との部分文字列マッチング処理112を,部分文字列処理部209で実行し,領域抽出部210で全文字列中における当該部分文字列の位置を決定する処理113を実行し,部分文字列領域の抽出を行う。
【0037】
ここでの部分文字列と文字列辞書との部分文字列マッチング処理112とは,例えば,図6(b)の例(最適な文字列モデルの文字種類とマッチングする調査対象の文字領域には文字「も」も含まれ,かつ領域Sが欠損している)では,計測可能な文字間間隔CとCの組み合わせが,図5の全文字列配置モデルのdとdの組み合わせ,あるいはdとdの組み合わせにマッチングするかどうかを調べ,当該領域を抽出することに相当する。また,CあるいはCがそれぞれd,d,dにマッチングするかどうかを調べ当該領域を抽出する。ここで,もし見つからなければ基準領域を領域Sに移し,文字間間隔CとCの組み合わせがdとdとの組み合わせにマッチングするかどうかを調べることになる。
【0038】
また,同様にCとCがそれぞれd,d,dにマッチングするかどうかを調べる。図6(b)の例では,CとCの組み合わせがdとdの組み合わせにマッチングすることになる。
【0039】
このマッチングについて詳しく述べると,図8に示すように,図5の文字列配置モデルの部分文字列モデルについて,文字間間隔の組み合わせで表すと,2文字の組み合わせ6通りと3文字の組み合わせ4通りの計10通りがある。その10通りの部分文字列モデルの中で,どの部分文字列モデルにマッチングしているのかを調べることである。
【0040】
全文字列中における当該部分文字列の位置が決定されると欠損文字位置がわかるので,欠損文字領域抽出部211で部分文字列中の欠損文字領域を抽出する処理114を行い,欠損文字領域を抽出する。抽出された欠損文字領域は欠損程度により,文字の認識が可能な場合があるので,欠損文字領域に対して文字を認識する処理115を文字認識処理部207で実行する。
【0041】
このとき,欠損している文字領域はもともと不確定なので,欠損文字領域の特定や認識を行う必要がないと考える場合には,部分文字列中の欠損文字領域を抽出する処理114および欠損文字領域に対して文字を認識する処理115を行う必要はない。
【0042】
上記の処理にて,全文字列における最適な文字列または最適な文字列の部分文字列の位置を確定できたので,領域推定部212で全文字列領域を推定する処理116を実行し,前記の最適な文字列または最適な文字列の部分文字列との文字間,文字列間の位置関係を利用して,その他の縦横に存在する複数の文字または文字列を推定し,この推定領域に対して文字を認識する処理117を文字認識処理部207で実行する。最後に,領域抽出部210で全文字列領域の抽出処理118を行い,蓄積部213にて画像データ蓄積装置214にデータを蓄積する処理119を実施する。
【0043】
なお,抽出したい対象の領域に複数の全文字列配置モデルが存在し,各全文字列配置モデル間の距離が測定により判別できる程度に離れて存在する場合には,各全文字列配置モデル毎に前述した処理106から処理115までを実行し,全領域を処理することになる。
【0044】
【発明の効果】
以上説明したように,本発明を用いると,文字列中の文字の一部が欠けていたり,一文字全部が抜けていても,残りの文字列の配置から文字列領域の位置を決定し,文字情報を取得することが可能であり,さらに複数文字の一部が欠けていたり,複数文字全部が抜けていたりしても,最悪でも2文字が残る場合には,文字情報を取得することが可能である。
【0045】
また,本手法は,入力画像において文字列に欠損が生じていなくても,画像を二値化する段階で文字が欠けたり,背景とつながった場合など,文字列が不完全になった場合にも適用できる効果がある。
【0046】
さらに,ナンバープレートでの応用を考えると,欠損が生じている部分は,ナンバープレート中のどの場所であるかが特定可能であり,その欠損領域は推定して切り出すことができる。このため,欠損程度が少ない場合には,正しい文字認識結果が得られる可能性もある。たとえ認識できなくても,1文字のみの場合には,通常の利用では,車両の特定は可能である。したがって,欠損のために他の完全な文字も見つけられないということはなく,他の完全な部分の文字列情報を取得できるという効果がある。
【図面の簡単な説明】
【図1】本発明の概要を説明するための全文字列と最適な文字列と部分文字列の関係を示す図である。
【図2】本発明の文字列領域抽出方法のフローチャートである。
【図3】本発明の文字列領域抽出方法のフローチャートである。
【図4】本発明の画像処理システムの構成例を示す図である。
【図5】本発明の文字列配置モデル例を示す図である。
【図6】本発明の欠損文字を含んだ文字列例を示す図である。
【図7】ラベリング領域の連続性を説明するための図である。
【図8】最適な文字列モデルと部分文字列モデルの例を示す図である。
【符号の説明】
201 入力画像
202 入力部
203 制御部
204 二値化処理部
205 ラベリング処理部
206 文字列処理部
207 文字認識処理部
208 領域判定部
209 部分文字列処理部
210 領域抽出部
211 欠損文字領域抽出部
212 領域推定部
213 蓄積部
214 画像データ蓄積装置

Claims (6)

  1. 構成要素である各文字の間,同一種類の文字によって一つの文字列が構成される場合の複数の文字列の間および前記一つの文字列内で組み合わせ可能な複数の部分文字列の間に一定の配置関係が存在する全文字列の領域を,画像データから抽出する画像処理システムにおける文字列領域抽出方法であって,
    画像データから1つまたは複数の文字列領域を抽出する第1の過程と,
    抽出対象となる文字列領域中のあらかじめ決められた同一種類の文字からなる1つの文字列における文字間の配置情報を最適な文字列モデルの配置規則としてあらかじめ記憶しておき,前記第1の過程で抽出された文字列領域について,前記最適な文字列モデルの配置規則にマッチングするか否かを調べ,前記最適な文字列モデルの配置規則にマッチングする文字列領域を最適な文字列として確定する第2の過程と,
    前記最適な文字列モデルの配置規則にマッチングする文字列領域が見つけられない場合に,前記第1の過程で抽出された文字列領域について,前記最適な文字列モデルと等しい文字種類の複数文字からなる部分文字列を抽出し,前記部分文字列における各文字間の間隔を測定し,前記測定した部分文字列の文字間間隔の組み合わせが,最適な文字列モデルの一部の文字からなる文字間間隔の組み合わせとマッチングする場合に,その文字列領域の部分文字列の位置を最適な文字列中の部分文字列の位置として決定する第3の過程と,
    前記第2の過程により決定した最適な文字列の位置または前記第3の過程により決定した最適な文字列中の部分文字列の位置をもとに,全文字列領域を抽出する第4の過程とを有する
    ことを特徴とする文字列領域抽出方法。
  2. 前記第3の過程は,さらに,前記決定した最適な文字列中の部分文字列の位置から,部分文字列中の欠損文字領域を抽出し,前記欠損文字領域に対して文字の認識を行う
    ことを特徴とする請求項1記載の文字列抽出方法。
  3. 構成要素である各文字の間,同一種類の文字によって一つの文字列が構成される場合の複数の文字列の間および前記一つの文字列内で組み合わせ可能な複数の部分文字列の間に一定の配置関係が存在する全文字列の領域を,画像データから抽出する画像処理システムにおける文字列領域抽出方法であって,
    画像を入力する第1の処理過程と,
    入力画像を二値化し,ラベリングする第2の処理過程と,
    抽出対象となる文字列領域中のあらかじめ決められた同一種類の文字からなる1つの文字列における文字間の配置情報を最適な文字列モデルの配置規則としてあらかじめ記憶しておき,前記第2の処理過程でラベリングされた領域から前記最適な文字列モデルの文字種類と同一な文字候補領域を絞り込む第3の処理過程と,
    前記文字候補領域から文字列領域を作成し,文字列数でグループ化する第4の処理過程と,
    前記最適な文字列モデルの文字列数に等しいグループ中の複数の文字列領域に対して文字間間隔を測定する第5の処理過程と,
    前記最適な文字列数グループ中の複数の文字列領域について,前記最適な文字列モデルの配置規則にマッチングするか否かを調べる第6の処理過程と,
    前記最適な文字列モデルの配置規則にマッチングする文字列領域を最適な文字列として確定する第7の処理過程と,
    前記第6の処理過程において前記最適な文字列数グループ中の複数の文字列領域が最適な文字列モデルの配置規則とマッチングしない場合に,前記最適な文字列モデルの文字種類と同一な文字候補領域の文字を認識して抽出し,前記文字候補領域の複数文字を組み合わせて部分文字列を作成し,作成した部分文字列の各文字間の間隔を測定し,前記測定した部分文字列の文字間間隔の組み合わせが,最適な文字列モデルの一部の文字からなる文字間間隔の組み合わせとマッチングする場合に,その文字列領域の部分文字列の位置を最適な文字列中の部分文字列の位置として決定する第8の処理過程と,
    前記確定した最適な文字列またはその部分文字列との関係から全文字列領域を抽出する第9の処理過程と,
    抽出した結果のデータを蓄積する第10の処理過程とを有する
    ことを特徴とする文字列領域抽出方法。
  4. 前記第8の処理過程は,さらに,前記決定した最適な文字列中の部分文字列の位置から,部分文字列中の欠損文字領域を抽出し,前記欠損文字領域に対して文字の認識を行う
    ことを特徴とする請求項3記載の文字列領域抽出方法。
  5. 請求項1から請求項4までのいずれか1項に記載した文字列領域抽出方法を,コンピュータに実行させるための文字列領域抽出プログラムを記録した記録媒体。
  6. 構成要素である各文字の間,同一種類の文字によって一つの文字列が構成される場合の複数の文字列の間および前記一つの文字列内で組み合わせ可能な複数の部分文字列の間に一定の配置関係が存在する全文字列の領域を,画像データから抽出する画像処理システムであって,
    文字列領域の抽出に関する全体を制御する制御部と,
    画像を入力する入力部と,
    入力された画像を二値化する二値化処理部と,
    二値化した画像をラベリングするラベリング処理部と,
    抽出対象となる文字列領域中のあらかじめ決められた同一種類の文字からなる1つの文字列における文字間の配置情報を最適な文字列モデルの配置規則としてあらかじめ記憶しておき,前記ラベリング処理部でラベリングされた領域から前記最適な文字列モデルの文字種類と同一な文字候補領域を絞り込み,前記文字候補領域から文字列領域を作成し,文字列数でグループ化し,前記最適な文字列モデルの文字列数に等しいグループ中の複数の文字列領域に対して文字間間隔を測定する文字列処理部と,
    前記最適な文字列数グループ中の複数の文字列領域について,前記最適な文字列モデル配置規則にマッチングするか否かを調べる領域判定部と,
    前記領域判定部による判定の結果,前記最適な文字列数グループ中の複数の文字列領域が最適な文字列モデルの配置規則とマッチングしない場合に,前記文字候補領域の複数文字を組み合わせて部分文字列を作成し,作成した部分文字列の各文字間の間隔を測定し,前記測定した部分文字列の文字間間隔の組み合わせと,最適な文字列モデルの一部の文字からなる文字間間隔の組み合わせとのマッチング処理を行う部分文字列処理部と,
    全文字列中の部分文字列の位置を決定し,最終的に全文字列領域を抽出する領域抽出部と,
    部分文字列中の欠損文字領域を抽出する欠損文字領域抽出部と,
    マッチングする文字列領域,文字列領域の文字認識および欠損文字領域,推定領域を含む全ての文字候補領域の文字認識を行う文字認識処理部と,
    最適な文字列またはその部分文字列の関係により全文字列領域を推定する領域推定部と,
    抽出した文字列領域のデータを蓄積する蓄積部とを備える
    ことを特徴とする画像処理システム。
JP33338697A 1997-12-04 1997-12-04 文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム Expired - Fee Related JP3553779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33338697A JP3553779B2 (ja) 1997-12-04 1997-12-04 文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33338697A JP3553779B2 (ja) 1997-12-04 1997-12-04 文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム

Publications (2)

Publication Number Publication Date
JPH11167604A JPH11167604A (ja) 1999-06-22
JP3553779B2 true JP3553779B2 (ja) 2004-08-11

Family

ID=18265546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33338697A Expired - Fee Related JP3553779B2 (ja) 1997-12-04 1997-12-04 文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム

Country Status (1)

Country Link
JP (1) JP3553779B2 (ja)

Also Published As

Publication number Publication date
JPH11167604A (ja) 1999-06-22

Similar Documents

Publication Publication Date Title
Zheng et al. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
JP4741704B2 (ja) 画像の道路標識を確認するためのデバイス、方法およびコンピュータ・プログラム
US9665768B2 (en) Process of handwriting recognition and related apparatus
US6996295B2 (en) Automatic document reading system for technical drawings
US6339651B1 (en) Robust identification code recognition system
KR100248917B1 (ko) 패턴인식장치및방법
US6014460A (en) Character strings reading device
JP2637344B2 (ja) 記号認識方法及び装置
CN103714338B (zh) 图像处理装置和图像处理方法
Shen et al. A large dataset of historical japanese documents with complex layouts
Lovegrove et al. Document analysis of PDF files: methods, results and implications
Kim et al. Deep-learning-based recognition of symbols and texts at an industrially applicable level from images of high-density piping and instrumentation diagrams
CN103902993A (zh) 文档图像识别方法和设备
CN103995816A (zh) 信息处理设备和信息处理方法
CN113239227A (zh) 图像数据结构化方法、装置、电子设备及计算机可读介质
US8401298B2 (en) Storage medium storing character recognition program, character recognition method, and character recognition apparatus
US20230084845A1 (en) Entry detection and recognition for custom forms
JP3553779B2 (ja) 文字列領域抽出方法,文字列領域抽出プログラムを記録した記録媒体および画像処理システム
Arias et al. Efficient extraction of primitives from line drawings composed of horizontal and vertical lines
Singh et al. Document layout analysis for Indian newspapers using contour based symbiotic approach
Vilgertshofer et al. Recognising railway infrastructure elements in videos and drawings using neural networks
Ren et al. Building recognition from aerial images combining segmentation and shadow
Ishidera et al. Unconstrained Japanese address recognition using a combination of spatial information and word knowledge

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees