JP4774200B2 - 文字列領域抽出装置 - Google Patents

文字列領域抽出装置 Download PDF

Info

Publication number
JP4774200B2
JP4774200B2 JP2004125906A JP2004125906A JP4774200B2 JP 4774200 B2 JP4774200 B2 JP 4774200B2 JP 2004125906 A JP2004125906 A JP 2004125906A JP 2004125906 A JP2004125906 A JP 2004125906A JP 4774200 B2 JP4774200 B2 JP 4774200B2
Authority
JP
Japan
Prior art keywords
character
component
character string
base
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004125906A
Other languages
English (en)
Other versions
JP2005309771A (ja
Inventor
修 志久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2004125906A priority Critical patent/JP4774200B2/ja
Publication of JP2005309771A publication Critical patent/JP2005309771A/ja
Application granted granted Critical
Publication of JP4774200B2 publication Critical patent/JP4774200B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、画像中から文字列の領域を抽出するための装置に適用されて有効な技術に関する。
近年、携帯電話機やPDA(Personal Digital Assistance)等の携帯機器に搭載され
ることにより、携帯性の高いデジタルカメラが普及している。このような普及に伴い、その携帯性を生かしたデジタルカメラの新たなニーズが要求され始めている。例えば、デジタルカメラで撮像した写真から文字領域を抽出し、抽出された文字を認識することや、抽出された文字を他装置への入力に用いることや、抽出された文字を翻訳するなどの用途が検討されている。
このような用途においては、画像から抽出された各々の文字を文字列単位にまとめることが要求されている。このように文字列単位にまとめられることにより、画像内の単語や文章を正確に認識することが可能となるということが理由の一つである。
画像から抽出された各々の文字を文字列単位にまとめるためには、まず、文字列の上下を通る平行線を決定する必要がある。即ち、文字列の上下高さや文字列の方向などを決定する必要がある。このような技術の例として、文字の画素全てをハフ変換(Hough変換)し文字列の方向及び文字高さを算出する方法(特許文献1参照)や、各文字の重心(具体的には、各文字を構成する連結成分の重心)をハフ変換し文字列の方向及び文字高さを算出する方法(特許文献2参照)等がある。
特許第2844738号公報 特開2000−113106号公報
しかしながら、従来のこれらの技術では、それぞれ異なる方向に伸びる複数の文字列やそれぞれ異なる大きさの文字によって構成される複数の文字列が存在している場合に、それぞれの文字列を精度良く検出することができないという問題があった。また、画像中から文字として抽出された情報の中に、実際には文字ではない情報(いわゆるノイズ)が含まれてしまっている場合にも、このノイズの影響によって文字列を精度良く検出することができないという問題があった。
そこで本発明はこれらの問題を解決し、画像中に複数の異なる文字列が含まれている場合やノイズが含まれている場合であっても、精度良く各文字列の方向やその高さ等を検出することを可能とする装置を提供することを目的とする。
上記問題を解決するため、本発明は以下のような構成をとる。本発明の第一の態様は、文字列領域抽出装置であって、抽出手段,選択手段,及び情報取得手段を含む。抽出手段は、入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する。文字成分とは文字の画像を構成する要素であり、例えば1以上の連続する画素(連結成分)によって構成される。このとき、文字成分は一つの連結成分によって構成されても良いし、複数の連結成分によって構成されても良い。選択手段は、抽出手段によって抽出された文字成分の中から、同一の文字列に含まれると推定される文字成分を選択する。情報取得手段は、選択手段により選択された文字成分に基づいて文字列の方向及び/又は高さの情報を取得
する。文字列の方向とは文字列がのびる方向を示し、高さとは文字列を構成する文字の高さを示す。
このように構成された本発明の第一の態様では、情報取得手段は、文字列の方向や高さの情報を取得する際に、画像に含まれる全ての文字列における文字成分を処理の対象とするのではなく、選択手段によって選択された文字成分のみ、即ち同一の文字列に含まれると推定された文字成分のみを処理の対象とする。このため、例えば画像中に複数の異なる文字列が含まれている場合にも、その内の一つの文字列に含まれると推定された文字成分のみが処理対象となるため、他の文字列に含まれる文字成分による影響を受けることなく、正確に文字列の方向や文字の高さの情報を取得することが可能となる。また、このような選択を行うことにより、明らかに文字列には含まれないようなノイズを処理の対象から外し、情報の取得をより正確に行うことが可能となる。
また、本発明の第一の態様における選択手段は、少なくとも各文字成分の文字としての大きさに基づいて選択を行うように構成されても良い。このように構成されることにより、同一の文字列に含まれるか否かについて、文字としての大きさに基づいて判断をすることが可能となる。一般的に、同一の文字列に含まれる各文字は、同じ大きさの文字であることが多い。このため、文字としての大きさを判断基準にすることで、同一の文字列に含まれるか否かについて正確に判断し、正確に文字成分を選択することが可能となる。
また、本発明の第一の態様における選択手段は、少なくとも各文字成分の文字としての線幅に基づいて選択を行うように構成されても良い。このように構成されることにより、同一の文字列に含まれるか否かについて、文字としての線幅に基づいて判断をすることが可能となる。一般的に、同一の文字列に含まれる各文字は、同じ線幅の文字であることが多い。このため、文字としての線幅を判断基準にすることで、同一の文字列に含まれるか否かについて正確に判断し、正確に文字成分を選択することが可能となる。
また、本発明の第一の態様における選択手段は、少なくとも、ある文字成分の位置に基づいて設定された所定の領域に基づいて選択を行うように構成されても良い。このように構成されることにより、同一の文字列に含まれるか否かについて、ある文字成分の位置に基づいて設定された所定の領域に基づいて判断することが可能となる。一般的に、同一の文字列に含まれる各文字は、互いに近い領域に存在することが多い。このため、このように設定された領域内に位置するか否かを判断基準にすることで、同一の文字列に含まれるか否かについて正確に判断し、正確に文字成分を選択することが可能となる。
また、本発明の第一の態様における情報取得手段は、選択手段により選択された文字成分に対してハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び/又は高さを文字列情報として取得するように構成されても良い。このように構成されることにより、従来技術においては不特定の文字成分に対して実施されていたハフ変換が、本発明の第一の態様においては同一の文字列に含まれると推定される文字成分に対してのみ実施される。従って、ハフ変換の結果から文字列の方向や文字の高さなどの情報をより正確に取得することが可能となる。
また、本発明の第一の態様は、文字成分を構成する線分に対して折線近似を実施する近似手段をさらに備えるように構成されても良い。この場合、情報取得手段は、近似手段によって折線近似が行われた結果に対してハフ変換を行うように構成される。このように構成されることにより、文字成分を構成する線分の数が削減される。従って、ハフ変換の処理回数を減少させ、処理時間を削減することが可能となる。
また、本発明の第一の態様は、文字成分の輪郭線を取得する輪郭線取得手段をさらに備
えるように構成されても良い。この場合、近似手段は、輪郭線取得手段により取得された輪郭線に対して折線近似を実施するように構成される。このように構成されることにより、折線近似は、文字成分の中心線などではなく、その輪郭線に対して実施される。従って、文字の高さの情報を取得する際に、より正確にその値を得ることが可能となる。
また、本発明の第一の態様における選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、注目している基点文字と似た大きさの文字成分を選択するように構成されても良い。このように構成された選択手段は、まず文字成分の中から一以上の基点文字を所定の基準に従って選択する。次に、選択手段は、選択された基点文字の中から注目する基点文字を選択する。そして、選択手段は、注目している基点文字と似た大きさの文字成分(即ち、注目している基点文字と、文字としての大きさが似ている文字成分)を選択する。
また、本発明の第一の態様における選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、注目している基点文字と似た線幅を有する文字成分を選択するように構成されても良い。このように構成された選択手段は、まず文字成分の中から一以上の基点文字を所定の基準に従って選択する。次に、選択手段は、選択された基点文字の中から注目する基点文字を選択する。そして、選択手段は、注目している基点文字と似た線幅を有する文字成分(即ち、注目している基点文字と、文字としての線幅が似ている文字成分)を選択する。
また、本発明の第一の態様における選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、注目している基点文字の位置に基づいて設定された所定の領域内に存在する文字成分を選択するように構成されても良い。このように構成された選択手段は、まず文字成分の中から一以上の基点文字を選択する。次に、選択手段は、選択された基点文字の中から注目する基点文字を選択する。そして、選択手段は、注目している基点文字の位置に基づいて設定された所定の領域内に存在する文字成分を選択する。
本発明の第二の態様は、文字列領域抽出装置であって、抽出手段,輪郭線取得手段,近似手段,選択手段,及び情報取得手段を含む。抽出手段は、入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する。輪郭線取得手段は、文字成分の輪郭線を取得する。近似手段は、輪郭線取得手段により取得された輪郭線に対して折線近似を実施する。選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、文字としての大きさ及び文字としての線幅が注目している基点文字と似ており、且つ、注目している基点文字を中心とする所定の領域内に存在する文字成分を選択する。情報取得手段は、選択手段により選択された文字成分の輪郭線に対して実施された折線近似の結果に対し、ハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び/又は高さを文字列情報として取得する。
本発明の第二の態様によっても、本発明の第一の態様と同様の効果を得ることが可能となる。
また、本発明の第一の態様又は第二の態様における選択手段は、文字としての高さと文字としての幅との比が所定の範囲内の値であること及び/又はその文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とのヒストグラムにおける分離度が高い場合に、その文字成分を基点文字として選択するように構成されても良い。このように構成された本発明の第一の態様又は第二の態様では、選択手段による基点文字の選択がより正確に実現される。
第一,第二の態様は、プログラムが情報処理装置によって実行されることによって実現されても良い。即ち、本発明は、上記した第一,第二の態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録した記録媒体として特定することができる。また、本発明は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されても良い。
本発明によれば、画像中に複数の異なる文字列が含まれていることやノイズが含まれていることに関わらず、即ち他の文字列に含まれる文字成分やノイズによる影響を受けることなく、正確に文字列の方向や文字の高さの情報を取得することが可能となる。
[システム構成]
まず、文字列抽出装置1のシステム構成について説明する。文字列抽出装置1は、ハードウェア的には、バスを介して接続されたCPU(中央演算処理装置),主記憶装置(RAM),補助記憶装置などを備える。補助記憶装置は、不揮発性記憶装置を用いて構成される。ここで言う不揮発性記憶装置とは、いわゆるROM(Read-Only Memory:EPROM(Erasable Programmable Read-Only Memory),EEPROM(Electrically Erasable Programmable Read-Only Memory),マスクROM等を含む),FRAM(Ferroelectric RAM),ハードディスク等を指す。
図1は、文字列抽出装置1の機能ブロックの例を示す図である。文字列抽出装置1は、補助記憶装置に記憶された各種のプログラム(OS,アプリケーション等)が主記憶装置にロードされCPUにより実行されることによって、画像入力部2,文字情報抽出装置3,文字線抽出部4,文字列判定装置5,及び文字列出力部6等を含む装置として機能する。文字情報抽出装置3,文字線抽出部4,及び文字列判定装置5は、プログラムがCPUによって実行されることにより実現される。また、文字情報抽出装置3,文字線抽出部4,及び文字列判定装置5は専用のチップとして構成されても良い。次に、文字列抽出装置1が含む各機能部や各装置について説明する。
〔画像入力部〕
画像入力部2は、情景画像の原画像のデータ(以下、「原画像のデータ」と呼ぶ)を文字列抽出装置1へ入力するためのインタフェースとして機能する。画像入力部2によって、文字列抽出装置1の外部から、原画像のデータが文字列抽出装置1へ入力される。画像入力部2は、文字列抽出装置1へ原画像のデータを入力するためのどのような既存技術を用いて構成されても良い。
例えば、ネットワーク(例えばローカル・エリア・ネットワークやインターネット)を介して原画像のデータが文字列抽出装置1へ入力されても良い。この場合、画像入力部2はネットワークインタフェースを用いて構成される。また、デジタルカメラやスキャナやパーソナルコンピュータや記録装置(例えばハードディスクドライブ)等から原画像のデータが文字列抽出装置1へ入力されても良い。この場合、画像入力部2は、デジタルカメラやパーソナルコンピュータや記録装置などと文字列抽出装置1とをデータ通信可能に接続する規格(例えばUSB(Universal Serial Bus)やSCSI(Small Computer System Interface)等の有線接続やbluetooth等の無線接続の規格)に応じて構成さ
れる。また、記録媒体(例えば各種フラッシュメモリやフロッピー(登録商標)ディスクやCD(Compact Disk)やDVD(Digital Versatile Disc、Digital Video Disc))に記録された原画像のデータが文字列抽出装置1へ入力されても良い。この場合、画像入力部2は、記録媒体からデータを読み出す装置(例えばフラッシュメモリリーダやフロッピーディスクドライブやCDドライブやDVDドライブ)を用いて構成される。
また、文字列抽出装置1がデジタルカメラ等の撮像装置又はデジタルカメラ等の撮像装置を備える各種装置(例えばPDA(Personal Digital Assistant)や携帯電話機)の内部に含まれ、撮像された情景画像が原画像のデータとして文字列抽出装置1へ入力されても良い。この場合、画像入力部2は、CCD(Charge-Coupled Devices)やCMOS(Complementary Metal-Oxide Semiconductor)センサ等を用いて構成されても良いし、CC
DやCMOSセンサなどによって撮像された原画像のデータを文字情報抽出装置3に入力させるためのインタフェースとして構成されても良い。また、文字列抽出装置1が、プリンタやディスプレイ等の画像出力装置の内部に含まれ、出力データとしてこの画像出力装置に入力された情景画像が原画像のデータとして文字列抽出装置1へ入力されても良い。この場合、画像入力部2は、これらの画像出力装置に入力された原画像のデータを文字列抽出装置1において取り扱い可能なデータに変換する装置などを用いて構成される。
また、画像入力部2は上記された複数の場合に応じることが可能となるように構成されても良い。
〔文字情報抽出装置〕
文字情報抽出装置3は、入力された情景画像から、文字と推測される画像(文字成分)の位置や大きさ等を取得する。例えば、文字情報抽出装置3は、文字と推測される画像を内包する最小の矩形(外接矩形)の大きさやその位置などを含む情報を文字情報として取得する。
上記のような作用を実現するため、文字情報抽出装置3は、画像変換部7,文字候補判定部8,及び文字成分抽出部9を含む装置として構成される。文字情報抽出装置3は、文字列抽出装置1から独立してCPU及び/又はRAM等を備える装置として構成されても良いし、文字列抽出装置1に備えられたCPU及び/又はRAM等を用いて処理を行う装置として構成されても良い。また、文字情報抽出装置3は、文字列抽出装置1のCPUやRAM等によって実行されるプログラムによって実現される仮想的な装置として構成されても良い。以下、文字情報抽出装置3に含まれる各機能部について説明する。
〈画像変換部〉
画像変換部7は、文字候補判定部8及び文字成分抽出部9において用いられる二値画像を生成する。図2は、画像変換部7によって実行される各処理により生成される画像の例を示す図である。以下、図2を用いて画像変換部7の具体的な処理例について説明する。
まず、画像変換部7は、原画像を8ビット(bit)のグレースケールの画像(以下、この画像を「濃淡画像」と呼ぶ)に変換する(図2(a)に相当)。当然、原画像が8ビットのグレースケールの画像である場合にはこの変換処理は実行されない。
次に、画像変換部7は、濃淡画像からエッジを抽出する。画像中のエッジは、画像をいったんぼかした後に二次微分フィルタをかけることによって得ることができる。ここでは、このようなフィルタの一例としてLoG(Laplacian of Gaussian:ラプラシアン・ガ
ウシアン)フィルタを適用する。即ち、画像変換部7は、濃淡画像に対しLoGフィルタをかけ、LoG画像を生成する(図2(b)に相当)。図3は、画像変換部7によって用いられるLoGフィルタの例を示す図である。LoGフィルタは、画像をぼかし、その後画像のエッジを強調する効果を有するフィルタである。LoGフィルタを適用することにより、濃淡画像をぼかしてからエッジを抽出することが可能となり、ノイズの影響を軽減しながら濃淡画像中のエッジを抽出することが可能となる。このようなLoGフィルタを濃淡画像中の全ての画素(ただし、濃淡画像の周囲2画素を除く)に対してかけることによりLoG画像が生成される。なお、図3に示されるLoGフィルタは例であり、LoG
フィルタの大きさや各格子の値はこの図に示された大きさ(5×5)や各格子の値に制限されない。
次に、画像変換部7は、LoG画像中の絶対値が小さいものを“0”に置き換えることにより、変更後LoG画像を作成する。このとき、画像変換部7は、所定の閾値をもって、各値の絶対値が小さいか否か、即ち“0”に置き換えるべきか否か判断する。
次に、画像変換部7は、変更後LoG画像から二値画像を作成する。具体的には、画像変換部7は、変更後LoG画像中の正又は“0”の値を有する画素を文字候補と判断し、これらの画素を例えば“0”に置き換える。以下、このようにして生じる“0”を有する画素を「黒画素」と呼ぶ。また、画像変換部7は、変更後LoG画像中の負の値を有する画素を背景候補と判断し、これらの画素を例えば“1”に置き換える。以下、このようにして生じる“1”を有する画素を「白画素」と呼ぶ。このような処理によって、画像変換部7は二値画像を生成する(図2(c)に相当)。また、画像変換部7は、変更後LoG画像中の負又は“0”の値を文字候補と判断しこれらの画素を例えば“0”に置き換え、変更後LoG画像中の正の値を背景候補と判断しこれらの画素を例えば“1”に置き換えることによっても二値画像を生成する。以下、前者の二値画像を「正二値画像」と呼び、後者の二値画像を「負二値画像」と呼ぶ。画像変換部7は、この二つの二値画像(正二値画像と負二値画像)を生成する。
〈文字候補判定部〉
文字候補判定部8は、画像変換部7によって生成された二値画像(正二値画像,負二値画像)から連結成分を抽出し文字候補となる連結成分を判断する。ここで、連結成分とは、二値画像中において、黒画素又は白画素のいずれかに注目した場合に(注目された方の画素を「注目画素」と呼ぶ)、縦,横,斜めに隣接する注目画素のかたまりのことを示す。図4は、連結成分の例を示す図である。図4(a)のような二値画像には、黒画素に注目した場合、図4(b)と図4(c)に示される二つの連結成分が存在する。
連結成分の抽出方法について説明する。文字候補判定部8は、ラベリングを行うことにより連結成分の抽出を実行する。ラベリングとは、二値画像の連結成分ごとに異なったラベル(番号)を付す処理のことである。ラベリングにより作成された画像をラベル画像と呼ぶ。図5は、図4(a)に示される二値画像におけるラベル画像の例を示す図である。図5では、背景候補の画素には“0”が与えられ、各連結成分の画素には“1”以上の値で連結成分ごとに異なる値が与えられている。
次に、文字候補判定部8の具体的な処理例について、正二値画像に対する処理を例として説明する。文字候補判定部8は、正二値画像において、黒画素に注目し連結成分を抽出する。また、文字候補判定部8は、抽出された連結成分を内包する最小の矩形を外接矩形として取得する。図6は、外接矩形の例を示す図である。図6において、破線によって示される矩形が、“あ”という文字を構成する連結成分(黒画素の連結成分)を内包する外接矩形となる。
次に、文字候補判定部8は、抽出された各連結成分について、連結成分全体の画素数Sと、連結成分の輪郭線を構成する画素数Lとを取得する。ここで、輪郭線とは、連結成分と背景(連結成分以外の画素)との境界に位置する連結成分の画素を示す。図7は輪郭線の例を示す図である。図7(a)に示される連結成分においては、図7(b)に示される斜線部分が輪郭線として判断される。
次に、文字候補判定部8は、抽出された各連結成分について、連結成分全体の画素のうち、変更後LoG画像における画素の値(以下、「LoG値」と呼ぶ)が閾値以上である
画素の数をS’として取得する。また、文字候補判定部8は、抽出された各連結成分について、輪郭線を構成する画素のうち、LoG値が閾値以上である画素の数をL’として取得する。このとき、閾値は予め定められても良いし、変更後LoG画像中の全画素のLoG値の平均値が閾値として適用されても良いし、LoG画像や変更後LoG画像から他の統計的手法によって得られた値が閾値として適用されても良い。
次に、文字候補判定部8は、各連結成分について、S’/S及びL’/Lを算出する。そして、文字候補判定部8は、各連結成分についてS’/SとL’/Lとがそれぞれ閾値TSとTLとよりも大きいか否か判定し、この二つの値がそれぞれの閾値よりも大きい連結成分を文字候補として判断する。一般的に、文字画像と背景画像との境界では濃度勾配が大きくなるため、領域の輪郭部分に大きなLoG値を有する画素が現れる。従って、文字画像の連結成分における輪郭線は、全体的にLoG値が大きくなり、L’/Lの値が大きくなる。また、文字画像は一般的に幅の細い線によって構成されるため、その連結成分中の輪郭線が占める割合は大きくなる。従って、文字画像の連結成分におけるS’/Sの値は大きくなる。
なお、デジタルカメラ画像の場合、TSの値は0.4程度(0.3≦TS≦0.5)、TLの値は0.8程度(0.7≦TL≦0.9)が適切である。また、低品質な画像(例えば携帯電話機やPDAに付随するデジタルカメラにより撮像された画像)の場合、TSとTLとの値は上記より少し低め、例えばそれぞれ0.3程度、0.7程度が適切である。
〈文字成分抽出部〉
文字成分抽出部9は、文字候補判定部8によって文字候補と判断された各連結成分の中から文字と推測される連結成分(以下、「文字成分」と呼ぶ)を選択し、各文字成分に係る文字情報を取得する。ここで選択される各文字成分が、文字情報抽出装置3によって文字であると最終的に判断された連結成分となる。また、文字成分抽出部9は、文字候補と判断された連結成分のみによって構成される画像(以下、「文字候補画像」と呼ぶ)からノイズ(文字と推測されない連結成分)を除去することにより、文字成分のみによって構成される画像(以下、「文字成分画像」と呼ぶ)を生成する。以下、文字成分抽出部9の具体的な処理例について説明する。
文字成分抽出部9は、文字候補と判断された連結成分のみによって構成される文字候補画像を取得する。次に、文字成分抽出部9は、以下に示す全ての条件を満たす連結成分を文字成分と判断する。
(条件1)外接矩形の高さと幅とがそれぞれ一定の範囲の大きさである。
(条件2)画像(原画像,濃淡画像,LoG画像,変更後LoG画像,文字候補画像のいずれか。いずれであるかは設計者によって適宜設定されて良い)の端に接していない。
(条件3)濃淡画像において、背景画素との濃度差が大きい。
なお、背景画素とは、連結成分の周囲の画素を示し、例えば連結成分の各画素から数ピクセル以内の距離にある全画素を示す。図8は、連結成分の各画素から3ピクセル以内の距離にある画素を背景画素とした場合の例を示す図である。図8において、黒い画素は連結成分を構成する画素を示し、縦縞の画素は背景画素を示す。条件3において、濃淡画像における背景画素の平均濃度と連結成分の画素の平均濃度との差が閾値(例えば“20”:この値は設計者によって適宜決定されて良い)よりも大きい場合に、この連結成分(文字候補)は条件を満たすと判断される。図9は、文字候補画像と文字成分画像の例を示す図である。図9(a)は、文字候補画像の例を示す。図9(b)は、文字成分画像の例を示す。文字成分抽出部9の処理により、上記三つの条件を満たさなかった連結成分(例えば左上に存する複数の直線)が、文字成分画像において削除されている。文字成分抽出部
9は、正二値画像と負二値画像とのそれぞれについて、このような文字成分画像を取得する。このとき、文字成分抽出部9は、それぞれの文字成分画像における各文字成分に係る外接矩形の大きさやその位置などを文字情報として取得しておく。この他、文字成分抽出部9は、各外接矩形の中心点の座標や連結成分の太さ(即ち文字線の太さ)などをさらに文字情報として取得しても良い。
ここでは、上記三つの条件を全て満たす連結成分のみが文字成分として判断されているが、この条件は適宜増減されても良い。例えば、条件2を省き、条件1及び条件3を満たす連結成分が文字成分として判断されるように構成されても良いし、上記三つの条件に加えてさらに他の条件を満たす場合に文字成分として判断されるように構成されても良い。
文字成分抽出部9は、正二値画像と負二値画像とについて文字成分画像やそれぞれの画像における各文字成分の文字情報を取得すると、これらのデータを文字情報抽出装置3の外部へ出力する。この場合、文字情報抽出装置3は文字列抽出装置1に含まれているため、文字線抽出部4に対しこれらのデータを出力する。
〔文字線抽出部〕
文字線抽出部4は、各文字成分の輪郭線を折線近似することにより、文字輪郭線を取得する。文字線抽出部4は、既存のどのような手法を適用することにより折線近似を実施しても良い。以下に折線近似の手法の例について説明する。
図10は、折線近似の処理例を示す図である。まず、文字線抽出部4は、各文字成分の輪郭線に対して細線化を実施することにより、各輪郭線を1ドットの太さに細める。図10(a)は、ある輪郭線が細線化された場合の例を示す図である。次に、文字線抽出部4は、細線化された輪郭線(以下の文字線抽出部4の説明において、「輪郭線」は「細線化された輪郭線」を指すものとする)の端点(二つの端点のうちいずれが選択されても良い。ここでは、例えば左上方向に位置する端点)を近似開始点として設定する。なお、輪郭線が円のように周回しているために端点が存在しない場合、文字線抽出部4は輪郭線上の適当な点を近似開始点としても良い。図10(a)において、白抜きの矩形が近似開始点の例である。
次に、文字線抽出部4は、近似開始点から順に一つずつ輪郭線の画素を探索し、各画素において近似開始点と現在探索している画素とを結ぶ直線を作成する。次に、文字線抽出部4は、この直線と、これまで探索してきた各画素との距離を算出し、その距離の中で最大のものを選択する。そして、文字線抽出部4は、選択された最大の距離と閾値とを比較し、この距離が閾値を超えるまで次の画素の探索を続ける。この閾値は、設計者によって適宜決定されて良い。この閾値が小さいほど正確な近似が実施され、この閾値が大きいほど大雑把な近似が実施される。
算出された距離の最大値が閾値を超えた場合、文字線抽出部4は、その時点で探索している画素と近似開始点とを結ぶ直線を生成し、この直線をもって、これまで探索してきた画素の近似を行う。この場合、文字線抽出部4は、この時点で探索している画素を新たな近似開始点として設定し、同様の処理を行うことでそれ以後の画素の近似を行う。そして、輪郭線全てが直線に近似された時点で処理を終了する。例えば、輪郭線を構成する全ての画素について探索が完了した時点で、例えその時点における直線と各画素との距離の最大値が閾値を超えていなくとも近似を行い、処理を終了する。
文字線抽出部4は、折線近似を、文字情報抽出装置3によって抽出された全ての文字成分の輪郭線に対して実行し、各文字成分の文字輪郭線を取得する。そして、文字線抽出部4は、取得された文字輪郭線により構成される画像(以下、「文字輪郭線画像」と呼ぶ)
を文字列判定装置5へ出力する。図11は、文字輪郭線画像の例を示す図である。図11(a)は文字成分画像の例であり、図11(b)は図11(a)に示される文字成分画像から作成される文字輪郭線画像の例である。
〔文字列判定装置〕
文字列判定装置5は、入力された文字輪郭線画像(例えば図11(b))から、文字情報を用いることにより、ほぼ同じ大きさの文字成分のみで構成された文字列領域を抽出する。文字列判定装置5は、文字線抽出部4によって折線近似された輪郭線に対して線分Hough変換(以下、「ハフ変換」と呼ぶ)を実行することで、文字列の上下辺をなす平行線を求め、文字列の傾きを決定し、抽出すべき文字列領域を特定する。
上記のような作用を実現するため、文字列判定装置5は、基点文字パターン抽出部10,文字列判定部11,及び重複情報除去部12を含む装置として構成される。文字列判定装置5は、文字列抽出装置1から独立してCPU及び/又はRAM等を備える装置として構成されても良いし、文字列抽出装置1に備えられたCPU及び/又はRAM等を用いて処理を行う装置として構成されても良い。また、文字列判定装置5は、文字列抽出装置1のCPUやRAM等によって実行されるプログラムによって実現される仮想的な装置として構成されても良い。以下、文字列判定装置5に含まれる各機能部について説明する。
〈基点文字パターン抽出部〉
基点文字パターン抽出部10は、文字情報抽出装置3によって判断された文字成分の中から、文字である可能性が高い文字成分を基点文字パターンとして抽出する。基点文字パターン抽出部10は、以下に示す両条件を満たす文字成分を基点文字パターンとして抽出する。
(条件1)外接矩形の縦横比が所定の範囲内(例えば、1/2〜2の範囲内)にある。
(条件2)濃淡画像において、文字成分を構成する画素と背景画素との濃度ヒストグラムを生成した場合に、その分離度が閾値(この閾値は設計者によって適宜設定されて良い)以上である。
まず、条件1について説明する。文字をなす連結成分の外接矩形は、「一」などの特殊な例外を除いてほぼ正方形かそれに近い縦横比の長方形をなす。このため、基点文字パターン抽出部10は、条件1を満たす文字成分を抽出することにより、文字である可能性が高い文字成分を抽出することが可能となる。
次に条件2について説明する。まず、分離度について説明する。分離度とは、画像の濃度ヒストグラムをある閾値で二つのクラス(C1,C2)に分けたときの画素の分離の度合いを示す値である。分離度が高いほど二つのクラス間でヒストグラムがはっきり分離されることとなり、その閾値は有効な(良い)閾値であるといえる。閾値をTとしたときの分離度η(T)は、数1によって得られる。
Figure 0004774200
ここで、σB(T)はクラス間分散、σW(T)はクラス内分散を示す。また、ここで、μ1,μ2,μTはそれぞれC1,C2,全体に属する画素の濃度の平均値を示し、iは画素の濃度を示し、niは濃度iを持つ画素の個数(度数)を示す。なお、ここで示した分離度の算出法は例であり、その他の方法によって同様の趣旨の値が分離度として算出されるように構成されても良い。
文字は一般的に背景に対して目立つ色で描かれるため、一般的には、文字成分を構成する画素と背景画素との間には明確な明度の差が生じる。このため、条件2を満たす文字成分を抽出することにより、文字である可能性が高い文字成分を抽出することが可能となる。
ここでは、上記二つの条件を全て満たす文字成分のみが基点文字パターンとして判断されるが、この条件は適宜増減されても良い。例えば、条件1又は条件2のいずれかを満たす文字成分が基点文字パターンとして抽出されるように構成されても良いし、上記二つの条件に加えてさらに他の条件を満たす場合に文字成分が基点文字パターンとして抽出されるように構成されても良い。
〈文字列判定部〉
文字列判定部11は、各基点文字パターンについて、その基点文字パターンを含む文字列を判定する。具体的には、文字列判定部11は、各基点文字パターンについて以下の処理を実行する。
まず、文字列判定部11は、文字成分の中から、処理の対象としている基点文字パターンと外接矩形の大きさや線幅(文字としての線幅)などが似ている文字成分を選択する。以下、このように選択された文字成分を「文字列候補成分」と呼ぶ。
次に、文字列判定部11は、文字列を探索するための領域を設定する。この領域は、例えば処理の対象となっている基点文字パターンの外接矩形の幅と高さのうち長い方の数倍の長さの幅及び高さを有する正方形領域として設定される。図12は、「甬」という基点文字パターンが処理の対象となっている場合に設定された領域の例を示す図である。図12において示される領域は、「甬」という基点文字パターンの外接矩形の幅と高さのうち長い方の6倍の長さを一辺の長さとして有する正方形によって表される領域であり、この外接矩形の中心点(図中の黒丸)を中心として位置する領域である。そして、文字列判定部11は、文字列候補成分の中から、設定された領域の中にその外接矩形の中心が含まれる文字成分を選択する。以下、このように選択された文字成分を「変換対象文字成分」と呼ぶ。
次に、文字列判定部11は、変換対象文字成分の文字輪郭線に対し、ハフ変換を行う。なお、文字列判定部11は、ハフ変換を行う前に、ハフ変換の対象となる線分に対し座標
変換を行う。具体的には、文字列判定部11は、ハフ変換の対象となる線分の座標を、それまで使用されていた座標系(例えば画像の左上を原点(0,0)とする座標系)から、処理の対象となっている基点文字パターンの外接矩形の中心座標を原点(0,0)とする座標系に変換する。このような座標変換を行うことにより、ハフ変換された文字成分は、ハフ平面内にρ=0を中心に存在することとなる。
図13は、図12に例示された変換対象文字成分に対して実施されたハフ変換の結果の例を示す図である。図13(a)はハフ平面の例を示す図である。文字列判定部11は、ハフ平面の各θにおけるρ方向のヒストグラムを解析し、以下の条件1〜条件3の全てを満たす尾根(以下、「文字列尾根候補」と呼ぶ)の情報、即ち(ρ1,ρ2,θ0)を検出する。ここで、尾根とは、あるθにおけるヒストグラムに表される一つの山を示す。例えば、図13(b)において丸に囲まれている黒い部分が一つの尾根として判断される。また、θ0は、該当する尾根が検出されたヒストグラムのハフ平面における角度(図13(a)における横軸の値)を示す。また、ρ1,ρ2は、該当する尾根の両端のエッジの位置(図13(b)の各ヒストグラムにおいて二本の破線によって示されるρの値)を示す。
(条件1)注目している尾根を含むヒストグラムの分離度が非常に大きい(即ち、ヒストグラムの分離度が、設定されている閾値よりも大きい)。
(条件2)尾根がρ=0をはさんで存在する。
(条件3)尾根のρ方向の長さが、処理対象となっている基点文字パターンの外接矩形の長さと似ている(即ち、尾根のρ方向の長さ(ρ1とρ2との差の絶対値)と、処理対象となっている基点文字パターンの外接矩形の長さとの差が閾値よりも小さい)。
画像中に含まれる文字列を、その文字列の方向(即ちその文字列を構成する各文字が並ぶ方向・角度)へ投影すると、各文字が重なる。従って、文字列の方向を示すθ0におけるヒストグラムでは、その分離度は高くなる。このため、条件1を満たす角度θ0の尾根を検出することにより、基点文字パターンを含む文字列による尾根を検出することが可能となる。
また、文字列判定部11により実施されるハフ変換は、処理対象となっている基点文字パターンの外接矩形の中心を原点として実施されるため、この基点文字パターンを含む文字列による尾根は、ρ=0をほぼ中心にはさんで存在する。このため、条件2を満たす尾根を検出することで、処理対象となっている基点文字パターンを含む文字列による尾根を検出することが可能となる。
また、尾根のρ方向の長さは、尾根に対応する文字列の高さを示している。このため、条件3を満たす尾根を検出することにより、基点文字パターンを含む文字列による尾根を検出することが可能となる。
このような三つの条件を全て満たす全ての尾根が検出されても良い。図13(b)は、図13(a)に示されるハフ平面から検出された文字列尾根候補を含むヒストグラムの形状の例であり、それぞれθ0.1,θ0.2,θ0.3における尾根を示す図である。
ここでは、上記三つの条件を全て満たす尾根のみが文字列尾根候補として検出されているが、この条件は適宜増減されても良い。例えば、条件1を省き、条件2及び条件3を満たす尾根が検出されるように構成されても良いし、上記三つの条件に加えてさらに他の条件を満たす尾根のみが検出されるように構成されても良い。
次に、文字列判定部11は、検出された各文字列尾根候補に対応する文字列の傾き及び文字列領域の上下辺をなす直線を、文字列候補情報として取得する。ここで、文字列領域
とは、一つの文字列を内包する四角形であり、各頂点(四頂点)の座標によって表される。また、文字列の傾きは、検出されたθ0を90度ずらしたものに相当する。また、文字列領域の上下辺をなす直線は、それぞれθ0とρ1,ρ2を用いて数2のように求められる。
Figure 0004774200
文字列判定部11は、検出された全ての文字列候補情報について、以下の処理を実施する。まず、文字列判定部11は、文字列候補成分のうち、その外接矩形の中心点が、文字列候補情報によって表される二本の直線の間に存在する文字列候補成分を抽出する。次に、文字列判定部11は、抽出された文字列候補成分を、文字列の傾き(文字列候補情報に含まれる値)分だけ回転させることにより、各文字列候補成分が水平方向に並ぶようにする。次に、文字列判定部11は、回転後の文字列候補成分の外接矩形を垂直方向に投影し、それらが重なるものもしくは内包される文字列候補成分を一つに統合する。図14は、このような統合の例を示す図である。図14には各文字列候補成分の外接矩形が示されている。図14(a)は実際の文字列の画像を示す図であり、図14(b)は統合前の外接矩形の状態を示す図であり、図14(c)は統合後の外接矩形の状態を示す図である。この処理により、それまで複数の部位に分かれた文字列候補成分として保持されていた「橋」や「通」の文字が、一つの文字列候補成分として統合される。このような統合を行うことにより、各文字列候補成分の外接矩形の中心点をより正確に取得することが可能となる。文字列候補情報によって表される二本の直線の間に存在する文字列候補成分がこのように統合された後の各文字列候補成分を「文字列成分」と呼ぶ。
次に、文字列判定部11は、各文字列候補情報に含まれる上下辺をなす二直線の中心線を取得する。文字列判定部11は、この中心線と、文字列成分の外接矩形の中心点との距離を算出する。そして、文字列判定部11は、算出された距離に基づいて、一つの文字列候補情報を最終的に選択する。例えば、文字列判定部11は、算出された距離の合計値や平均値が最小の文字列候補情報を選択する。図15は、三つの文字列候補情報における文字列の傾きの例を示す図である。図15において、点線は各文字列候補情報における中心線を示し、各黒点は各文字列成分の外接矩形の中心点を示す。図15の例では、(b)に示される文字列候補情報が選択される。
次に、文字列判定部11は、この文字列候補情報に従って、処理の対象となっている基点文字パターンを含む文字列の文字列情報を取得する。具体的には、文字列判定部11は、文字列成分の外接矩形全てを内包する矩形のうち最小の外接矩形を取得する。このとき、文字列判定部11は、この外接矩形を構成する四点の頂点座標を取得する。図16は、このような矩形の例を示す図である。そして、文字列判定部11は、このようにして得られた矩形に対し回転処理や並進処理を実施することにより、この矩形を原画像における座標系に戻し、原画像の座標系におけるこの矩形の四頂点の座標を文字列情報として取得する。
上記したように、文字列判定部11は、このような処理を全ての基点文字パターンについて実施する。従って、文字列判定部11は、基点文字パターン抽出部10によって抽出された基点文字パターンの数だけ、文字列情報を取得する。図17は、このような処理によって取得された文字列情報により表される文字列領域の例を示す図である。
〈重複情報除去部〉
重複情報除去部12は、文字列判定部11によって取得された複数の文字列情報の中から、重複している情報を削除し、残ったものを最終的な文字列情報として取得する。具体的には、各文字列情報における四頂点の座標や文字列の傾き等の値から文字列情報同士の類似度を判断し、類似である文字列情報を重複した文字列情報として削除する。例えば、四頂点の距離の平均や合計などが閾値よりも小さい場合や文字列の傾きの差が閾値よりも小さい場合などに、類似した文字列情報として判断される。図18は、重複情報の除去の例を示す図である。図18(a)は重複情報が除去される前の文字列情報の例を示す図であり、図18(b)は重複情報が除去された後の文字列情報の例を示す図である。
〔文字列出力部〕
文字列出力部6は、文字列判定装置5によって判定された結果を、文字列抽出装置1の外部に対して出力するためのインタフェースとして機能する。文字列出力部6は、文字列判定装置1から上記判定結果を出力するためのどのような既存技術を用いて構成されても良い。
[動作例]
図19〜図23は、文字列判定装置1の動作例を示すフローチャートである。以下、図19〜図23を用いて、文字判定装置1の動作例について説明する。
まず、画像入力部2を介して画像が入力されると、画像変換部7は、この画像を8bitのグレースケールに変換することにより、濃淡画像を生成する(S01)。次に、画像変換部7は、濃淡画像に対してLoGフィルタをかけることにより、LoG画像を生成する(S02)。次に、画像変換部7は、LoG画像を元に変換後LoG画像を生成し(S03)、さらに変換後LoG画像を元に二値画像を生成する(S04)。なお、この動作例の説明では、S04の処理において正二値画像と負二値画像のいずれか片方が生成され、後に説明するS17の処理終了後に他方がさらに生成されるが、S04の処理において双方が一度に生成されるように構成されても良い。
S04の処理の後、文字候補判定部8は、生成された二値画像から連結成分を抽出し(S05)、各連結成分の外接矩形を取得する(S06)。次に、文字候補判定部8は、各連結成分について、S’/SとL’/Lとの値を算出する(S07)。文字候補判定部8は、S’/Sの値が閾値TS以上でありかつL’/Lの値がTL以上である場合に(S08−Yes)、この連結成分を文字候補として判断する(S09)。一方、S’/Sの値が閾値TS未満またはL’/Lの値がTL未満である場合(S08−No)、文字候補判定部8は、この連結成分を文字候補とは判断しない。文字候補判定部8は、S07〜S09に渡る処理を全ての連結成分について行う(S10)。
次に、図20を用いてS11以降の処理について説明する。全ての連結成分について文字候補に係る判断が終了すると(S10−Yes)、文字候補判定部8は、ある文字候補について、その外接矩形の高さと幅とが一定の範囲内の大きさであるか否か判断する。外接矩形の高さと幅とが一定の範囲内の大きさである場合(S11−Yes)、文字候補判定部8は、この文字候補としての連結成分が画像の端に接しているか否か判断する。連結成分が画像の端に接していない場合(S12−Yes)、さらに文字候補判定部8は、濃淡画像においてこの文字候補の画素と背景画像との濃度差が閾値を超えているか否か判断する。濃度差が閾値を超えている場合(S13−Yes)、文字候補判定部8は、この文字候補を文字成分と判断する(S14)。一方、文字候補判定部8は、S11〜S13の条件を満たさない文字候補については、文字成分とは判断しない(S11−No,S12−No,S13−No)。
文字候補判定部8は、S11〜S14に渡る処理を全ての文字候補について実行する(S15)。文字候補判定部8は、全ての文字候補について文字成分に係る判断を終了すると(S15−Yes)、各文字成分についての文字情報を取得する(S16)。そして、文字候補判定部8は、S05〜S16に渡る処理を、正二値画像と負二値画像との双方に実行する(S17)。ここに示す動作例においては、S16の処理の後、文字候補判定部8は正二値画像と負二値画像との双方についての処理が終了したか否か判断する。終了していない場合(S17−No)、画像変換部7は、他方の二値画像(即ちS04において生成されていない方の二値画像)を生成し、この二値画像について文字候補判定部8はS05〜S16の処理を実行する。
次に、図21を用いてS18以降の処理について説明する。双方の二値画像について文字成分を抽出するための処理が終了すると(S17−Yes)、文字線抽出部4は、全ての文字成分の輪郭線を折線近似する(S18,S19)。全ての文字成分について折線近似が終了すると(S19−Yes)、基点文字パターン抽出部10は、各文字成分の外接矩形の縦横比を取得し、その比が所定の範囲内の値であるか否か判断する。取得された比が所定の範囲内の値である場合(S20−Yes)、基点文字パターン抽出部10は、さらにこの文字成分の画素と背景画素との分離度を算出し、その分離度が閾値以上であるか否か判断する。算出された分離度が閾値以上である場合(S21−Yes)、基点文字パターン抽出部10は、この文字成分を基点文字パターンとして抽出する(S22)。一方、基点文字パターン抽出部10は、S20又はS21の条件を満たさない文字成分については、基点文字パターンとは判断しない(S20−No,S21−No)。
基点文字パターン抽出部10は、S20〜S22に渡る処理を全ての文字成分について実行する(S23)。基点文字パターン抽出部10が全ての文字成分について基点文字パターンに係る判断を終了すると(S23−Yes)、文字列判定部11は、各基点文字パターンに基づいて文字列を判定する処理を開始する。S24以降の処理例について、図22を用いて説明する。まず、文字列判定部11は、処理の対象としている(注目している)基点文字パターンに基づいて、文字列候補成分を選択する(S24)。次に、文字列判定部11は、処理の対象としている基点文字パターンに基づいて変換対象文字成分を選択し(S25)、変換対象文字成分に対しハフ変換を実行し(S26)、ハフ平面を取得する。
文字列判定部11は、ハフ平面の各θにおける各尾根について文字列尾根候補となるか否か判断する。具体的には、文字列判定部11は、その尾根を含むヒストグラムについて、その分離度が閾値よりも大きいか否か判断する。この分離度が閾値よりも大きい場合(S27−Yes)、文字列判定部11は、そのヒストグラムにおける尾根がρ=0をはさんで存在するか否か判断する。尾根がρ=0をはさんで存在する場合(S28−Yes)、その尾根のρ方向の長さが基点文字パターンの外接矩形の長さ(高さ)と似ているか否か判断する。尾根のρ方向の長さと外接矩形の長さとが似ている場合(S29−Yes)、文字列判定部11は、この尾根を文字列尾根候補と判断する(S30)。一方、文字列判定部11は、S27〜S29の条件を満たさない尾根については、文字列尾根候補とは判断しない。
文字列判定部11は、S27〜S30に渡る処理を全ての尾根について実行する(S31)。文字列判定部11は、全ての尾根について文字列尾根候補に係る判断を終了すると(S31−Yes)、各文字列尾根候補に基づいて文字列領域の上下辺を成す二本の直線を、文字列の傾きとともに文字列候補情報として取得する(S32)。S32以降の処理例について、図23を用いて説明する。次に、文字列判定部11は、この二本の直線の間にある文字列候補成分を抽出する(S33)。次に、文字列判定部11は、抽出された文字列候補成分を統合する(S34)。そして、文字列判定部11は、各文字列候補情報に
よって示される二本の直線の中心線を取得し(S35)、この中心線とS33の処理で抽出された各文字列候補成分の中心点との距離の和を算出し(S36)、この距離の和が最小となった中心線に係る文字列候補情報を選択する。そして、文字列判定部11は、この文字列候補情報に基づいて、文字列情報を取得する(S37)。
文字列判定部11は、S24〜S37に渡る処理を全ての基点文字パターンに基づいて実行する(S38)。文字列判定部11が全ての基点文字パターンに基づいた処理を終了すると(S38−Yes)、重複情報除去部12は、重複した文字列情報を削除する(S39)。そして、文字列出力部6は、重複情報除去部12によって重複部分が削除された結果残った文字列情報を出力する(S40)。
上記動作例の中で、S01〜S17の処理が文字情報抽出装置3によって実行される処理である。このため、文字情報抽出装置3が単体として動作する場合には、S01〜S17までの処理が実行され、文字情報や文字成分画像などが出力されても良い。また、上記動作例の中で、S20〜S39の処理が文字列判定装置5によって実行される処理である。このため、文字列判定装置5が単体として動作する場合には、S20〜S39までの処理が実行され、文字列情報などが出力されるように構成されても良い。
[作用/効果]
文字列抽出装置1に含まれる文字列判定装置5は、文字列の傾きを算出するためにハフ変換を実行する場合、全ての文字成分をハフ変換の対象とするのではなく、特定の文字成分のみをハフ変換の対象とする。具体的には、文字である可能性の高い基点文字パターンを抽出し、注目している基点文字パターンを含む文字列の構成である可能性の高い文字成分のみがハフ変換の対象とされる。このような対象の選択は、基点文字パターンの外接矩形の大きさや文字線幅が似ている文字列候補成分を選択することや、基点文字パターンの中心から所定の範囲内にその中心が含まれる文字列候補成分を選択することにより実現される。このため、例え同一画像中に異なる方向に伸びる複数の文字列が含まれているとしても、それぞれの文字列についてハフ変換による文字列の方向を算出し、その方向をより正確に得ることが可能となる。
また、文字列判定装置5は、ハフ変換によって得られたハフ平面の解析において、分離度が非常に大きいヒストグラムに含まれる尾根を文字列尾根候補として選択する。また、文字列判定装置5は、ハフ変換の前に基点文字パターンの中心が原点となるような座標変換を施し、ρ=0をはさんで存在する尾根を文字列尾根候補として選択する。さらに、文字列判定装置5は、ρ方向の長さが処理の対象となっている(注目している)基点文字パターンの外接矩形の高さと似ている尾根を文字列尾根候補として選択する。このような判断基準が採用されることにより、文字列の方向をより正確に算出することが可能となる。
また、文字列判定装置5は、折線近似された線分をハフ変換の対象とする。このため、折線近似されていない線分をハフ変換の対象とする場合に比べて、ハフ変換に要する計算時間を削減することが可能となる。同様の理由により、携帯機器などの処理能力の低い装置上にも、文字列判定装置5を実装することが可能となる。このような場合は、文字列判定装置5が文字線抽出部4を含むように構成されても良い。
文字列抽出装置の機能ブロック例を示す図である。 画像変換部によって実行される各処理により生成される画像の例を示す図である。 画像変換部によって用いられるLoGフィルタの例を示す図である。 連結成分の例を示す図である。 ラベル画像の例を示す図である。 外接矩形の例を示す図である。 輪郭線の例を示す図である。 背景画素の例を示す図である。 文字候補画像と文字成分画像の例を示す図である。 折線近似の処理例を示す図である。 文字輪郭線画像の例を示す図である。 基点文字パターンに基づいた正方形領域の例を示す図である。 ハフ変換の結果の例を示す図である。 文字列候補成分の統合処理の例を示す図である。 文字列の傾きの例を示す図である。 文字列成分の外接矩形全てを内包する矩形の例を示す図である。 文字列領域の例を示す図である。 重複情報の除去の例を示す図である。 文字列抽出装置の動作例を示すフローチャートである。 文字列抽出装置の動作例を示すフローチャートである。 文字列抽出装置の動作例を示すフローチャートである。 文字列抽出装置の動作例を示すフローチャートである。 文字列抽出装置の動作例を示すフローチャートである。
符号の説明
1 文字列抽出装置
2 画像入力部
3 文字情報抽出装置
4 文字線抽出部
5 文字列判定装置
6 文字列出力部
7 画像変換部
8 文字候補判定部
9 文字成分抽出部
10 基点文字パターン抽出部
11 文字列判定部
12 重複情報除去部

Claims (13)

  1. 入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する抽出手段と、
    前記抽出手段によって抽出された文字成分の中から、文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、基点文字に基づいて当該基点文字と同一の文字列に含まれると推定される文字成分を選択する選択手段と、
    前記選択手段により選択された文字成分に基づいて文字列の方向及び/又は高さの情報を取得する情報取得手段と
    を含む文字列領域抽出装置。
  2. 前記選択手段は、
    μを文字成分を構成する画素の濃淡値の平均値、
    μを文字成分に隣接する背景を構成する画素の濃淡値の平均値、
    μを文字成分および該文字成分に隣接する背景を構成する画素の濃淡値の平均値、
    iを画素の濃淡値、
    を濃淡値iを有する画素の個数、として
    クラス間分散σ (T)、クラス内分散σ (T)、分離度η(T)を、
    Figure 0004774200
    により算出する請求項1に記載の文字列領域抽出装置。
  3. 前記選択手段は、前記抽出手段によって抽出された文字成分の中から、文字としての高さと文字としての幅の比が所定の範囲内の値である場合に、その文字成分を基点文字として選択する請求項1又は2に記載の文字列領域抽出装置。
  4. 前記選択手段は、注目している基点文字と似た大きさの文字成分を、当該基点文字と同一の文字列に含まれると推定される文字成分として選択する請求項1〜3のいずれかに記載の文字列領域抽出装置。
  5. 前記選択手段は、注目している基点文字と似た線幅を有する文字成分を、当該基点文字と同一の文字列に含まれると推定される文字成分として選択する請求項1〜4のいずれかに記載の文字列領域抽出装置。
  6. 前記選択手段は、少なくとも、注目している基点文字の位置に基づいて設定された所定の領域に基づいて、当該基点文字と同一の文字列に含まれると推定される文字成分の選択を行う請求項1〜5のいずれかに記載の文字列領域抽出装置。
  7. 前記情報取得手段は、前記選択手段により選択された文字成分に対してハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び/又は高さを文字列情報として取得する請求項1〜6のいずれかに記載の文字列領域抽出装置。
  8. 文字成分を構成する線分に対して折線近似を実施する近似手段をさらに備え、
    前記情報取得手段は、前記近似手段によって折線近似が行われた結果に対してハフ変換を行う
    請求項7に記載の文字列領域抽出装置。
  9. 文字成分の輪郭線を取得する輪郭線取得手段をさらに備え、
    前記近似手段は、前記輪郭線取得手段により取得された輪郭線に対して折線近似を実施する
    請求項8に記載の文字列領域抽出装置。
  10. 入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する抽出手段と、
    文字成分の輪郭線を取得する輪郭線取得手段と、
    前記輪郭線取得手段により取得された輪郭線に対して折線近似を実施する近似手段と、
    前記輪郭線に対して接線近似が実施された文字成分の中から、文字成分を構成する画素
    の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、文字としての大きさ及び文字としての線幅が注目している基点文字と似ており、且つ、注目している基点文字を中心とする所定の領域内に存在する文字成分を選択する選択手段と、
    前記選択手段により選択された文字成分の輪郭線に対して実施された折線近似の結果に対し、ハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び/又は高さを文字列情報として取得する情報取得手段と
    を含む文字列領域抽出装置。
  11. 前記選択手段は、
    μを文字成分を構成する画素の濃淡値の平均値、
    μを文字成分に隣接する背景を構成する画素の濃淡値の平均値、
    μを文字成分および該文字成分に隣接する背景を構成する画素の濃淡値の平均値、
    iを画素の濃淡値、
    を濃淡値iを有する画素の個数、として
    クラス間分散σ (T)、クラス内分散σ (T)、分離度η(T)を、
    Figure 0004774200
    により算出する請求項10に記載の文字列領域抽出装置。
  12. 入力画像から文字の全部又は文字の一部を構成する文字成分を抽出するステップと、
    抽出された文字成分の中から、文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、基点文字に基づいて当該基点文字と同一の文字列に含まれると推定される文字成分を選択するステップと、
    選択された文字成分に基づいて文字列の方向及び/又は高さの情報を取得するステップと
    を情報処理装置に実行させるためのプログラム。
  13. 情報処理装置が、入力画像から文字の全部又は文字の一部を構成する文字成分を抽出するステップと、
    情報処理装置が、抽出された文字成分の中から、文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、基点文字に基づいて当該基点文字と同一の文字列に含まれると推定される文字成分を選択するステップと、
    情報処理装置が、選択された文字成分に基づいて文字列の方向及び/又は高さの情報を取得するステップと
    を行う文字列領域抽出方法。
JP2004125906A 2004-04-21 2004-04-21 文字列領域抽出装置 Expired - Lifetime JP4774200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004125906A JP4774200B2 (ja) 2004-04-21 2004-04-21 文字列領域抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004125906A JP4774200B2 (ja) 2004-04-21 2004-04-21 文字列領域抽出装置

Publications (2)

Publication Number Publication Date
JP2005309771A JP2005309771A (ja) 2005-11-04
JP4774200B2 true JP4774200B2 (ja) 2011-09-14

Family

ID=35438488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004125906A Expired - Lifetime JP4774200B2 (ja) 2004-04-21 2004-04-21 文字列領域抽出装置

Country Status (1)

Country Link
JP (1) JP4774200B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008252680A (ja) * 2007-03-30 2008-10-16 Omron Corp 携帯端末装置用のプログラムおよび携帯端末装置
JP6352695B2 (ja) 2014-06-19 2018-07-04 株式会社東芝 文字検出装置、方法およびプログラム
JP6373664B2 (ja) * 2014-07-09 2018-08-15 株式会社東芝 電子機器、方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0388088A (ja) * 1989-08-31 1991-04-12 Meidensha Corp 文字列抽出方法
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法
JP2778437B2 (ja) * 1993-12-27 1998-07-23 日本電気株式会社 文書画像傾き検出装置
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
JP4219542B2 (ja) * 2000-09-07 2009-02-04 富士ゼロックス株式会社 画像処理装置、画像処理方法および画像処理プログラムが格納された記録媒体

Also Published As

Publication number Publication date
JP2005309771A (ja) 2005-11-04

Similar Documents

Publication Publication Date Title
US11922615B2 (en) Information processing device, information processing method, and storage medium
JP5047005B2 (ja) 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
JP2010067102A (ja) 物体検出装置、撮像装置、物体検出方法およびプログラム
JP2008257713A (ja) 透視変換歪み発生文書画像補正装置および方法
US9911204B2 (en) Image processing method, image processing apparatus, and recording medium
JP4100885B2 (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
JP2014504400A (ja) テキスト画像のトリミング方法
WO2009114967A1 (zh) 基于移动扫描的图像处理方法及装置
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
JP2008251029A (ja) 文字認識装置、ナンバープレート認識システム
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP4599110B2 (ja) 画像処理装置及びその方法、撮像装置、プログラム
JP2010176504A (ja) 画像処理装置、画像処理方法及びプログラム
WO2005041128A1 (ja) 顔画像候補領域検索方法及び顔画像候補領域検索システム並びに顔画像候補領域検索プログラム
JP4587698B2 (ja) 文字成分抽出装置
JP4774200B2 (ja) 文字列領域抽出装置
JP2006323779A (ja) 画像処理方法、画像処理装置
JP2016053763A (ja) 画像処理装置、画像処理方法及びプログラム
JP4264332B2 (ja) 文字認識装置、ナンバープレート認識システム
CN112184843B (zh) 图像数据压缩的冗余数据去除系统及方法
JP2005266981A (ja) 人種推定装置
JP6175904B2 (ja) 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム
JP2008152611A (ja) 画像認識装置、電子機器、画像認識方法及び画像認識プログラム
WO2024047847A1 (ja) 検出装置、検出方法、および検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4774200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250