JP4774200B2

JP4774200B2 - 文字列領域抽出装置

Info

Publication number: JP4774200B2
Application number: JP2004125906A
Authority: JP
Inventors: 修志久
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2004-04-21
Filing date: 2004-04-21
Publication date: 2011-09-14
Anticipated expiration: 2024-04-21
Also published as: JP2005309771A

Description

本発明は、画像中から文字列の領域を抽出するための装置に適用されて有効な技術に関する。

近年、携帯電話機やＰＤＡ（Personal Digital Assistance）等の携帯機器に搭載され
ることにより、携帯性の高いデジタルカメラが普及している。このような普及に伴い、その携帯性を生かしたデジタルカメラの新たなニーズが要求され始めている。例えば、デジタルカメラで撮像した写真から文字領域を抽出し、抽出された文字を認識することや、抽出された文字を他装置への入力に用いることや、抽出された文字を翻訳するなどの用途が検討されている。

このような用途においては、画像から抽出された各々の文字を文字列単位にまとめることが要求されている。このように文字列単位にまとめられることにより、画像内の単語や文章を正確に認識することが可能となるということが理由の一つである。

画像から抽出された各々の文字を文字列単位にまとめるためには、まず、文字列の上下を通る平行線を決定する必要がある。即ち、文字列の上下高さや文字列の方向などを決定する必要がある。このような技術の例として、文字の画素全てをハフ変換（Ｈｏｕｇｈ変換）し文字列の方向及び文字高さを算出する方法（特許文献１参照）や、各文字の重心（具体的には、各文字を構成する連結成分の重心）をハフ変換し文字列の方向及び文字高さを算出する方法（特許文献２参照）等がある。
特許第２８４４７３８号公報特開２０００−１１３１０６号公報

しかしながら、従来のこれらの技術では、それぞれ異なる方向に伸びる複数の文字列やそれぞれ異なる大きさの文字によって構成される複数の文字列が存在している場合に、それぞれの文字列を精度良く検出することができないという問題があった。また、画像中から文字として抽出された情報の中に、実際には文字ではない情報（いわゆるノイズ）が含まれてしまっている場合にも、このノイズの影響によって文字列を精度良く検出することができないという問題があった。

そこで本発明はこれらの問題を解決し、画像中に複数の異なる文字列が含まれている場合やノイズが含まれている場合であっても、精度良く各文字列の方向やその高さ等を検出することを可能とする装置を提供することを目的とする。

上記問題を解決するため、本発明は以下のような構成をとる。本発明の第一の態様は、文字列領域抽出装置であって、抽出手段，選択手段，及び情報取得手段を含む。抽出手段は、入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する。文字成分とは文字の画像を構成する要素であり、例えば１以上の連続する画素（連結成分）によって構成される。このとき、文字成分は一つの連結成分によって構成されても良いし、複数の連結成分によって構成されても良い。選択手段は、抽出手段によって抽出された文字成分の中から、同一の文字列に含まれると推定される文字成分を選択する。情報取得手段は、選択手段により選択された文字成分に基づいて文字列の方向及び／又は高さの情報を取得
する。文字列の方向とは文字列がのびる方向を示し、高さとは文字列を構成する文字の高さを示す。

このように構成された本発明の第一の態様では、情報取得手段は、文字列の方向や高さの情報を取得する際に、画像に含まれる全ての文字列における文字成分を処理の対象とするのではなく、選択手段によって選択された文字成分のみ、即ち同一の文字列に含まれると推定された文字成分のみを処理の対象とする。このため、例えば画像中に複数の異なる文字列が含まれている場合にも、その内の一つの文字列に含まれると推定された文字成分のみが処理対象となるため、他の文字列に含まれる文字成分による影響を受けることなく、正確に文字列の方向や文字の高さの情報を取得することが可能となる。また、このような選択を行うことにより、明らかに文字列には含まれないようなノイズを処理の対象から外し、情報の取得をより正確に行うことが可能となる。

また、本発明の第一の態様における選択手段は、少なくとも各文字成分の文字としての大きさに基づいて選択を行うように構成されても良い。このように構成されることにより、同一の文字列に含まれるか否かについて、文字としての大きさに基づいて判断をすることが可能となる。一般的に、同一の文字列に含まれる各文字は、同じ大きさの文字であることが多い。このため、文字としての大きさを判断基準にすることで、同一の文字列に含まれるか否かについて正確に判断し、正確に文字成分を選択することが可能となる。

また、本発明の第一の態様における選択手段は、少なくとも各文字成分の文字としての線幅に基づいて選択を行うように構成されても良い。このように構成されることにより、同一の文字列に含まれるか否かについて、文字としての線幅に基づいて判断をすることが可能となる。一般的に、同一の文字列に含まれる各文字は、同じ線幅の文字であることが多い。このため、文字としての線幅を判断基準にすることで、同一の文字列に含まれるか否かについて正確に判断し、正確に文字成分を選択することが可能となる。

また、本発明の第一の態様における選択手段は、少なくとも、ある文字成分の位置に基づいて設定された所定の領域に基づいて選択を行うように構成されても良い。このように構成されることにより、同一の文字列に含まれるか否かについて、ある文字成分の位置に基づいて設定された所定の領域に基づいて判断することが可能となる。一般的に、同一の文字列に含まれる各文字は、互いに近い領域に存在することが多い。このため、このように設定された領域内に位置するか否かを判断基準にすることで、同一の文字列に含まれるか否かについて正確に判断し、正確に文字成分を選択することが可能となる。

また、本発明の第一の態様における情報取得手段は、選択手段により選択された文字成分に対してハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び／又は高さを文字列情報として取得するように構成されても良い。このように構成されることにより、従来技術においては不特定の文字成分に対して実施されていたハフ変換が、本発明の第一の態様においては同一の文字列に含まれると推定される文字成分に対してのみ実施される。従って、ハフ変換の結果から文字列の方向や文字の高さなどの情報をより正確に取得することが可能となる。

また、本発明の第一の態様は、文字成分を構成する線分に対して折線近似を実施する近似手段をさらに備えるように構成されても良い。この場合、情報取得手段は、近似手段によって折線近似が行われた結果に対してハフ変換を行うように構成される。このように構成されることにより、文字成分を構成する線分の数が削減される。従って、ハフ変換の処理回数を減少させ、処理時間を削減することが可能となる。

また、本発明の第一の態様は、文字成分の輪郭線を取得する輪郭線取得手段をさらに備
えるように構成されても良い。この場合、近似手段は、輪郭線取得手段により取得された輪郭線に対して折線近似を実施するように構成される。このように構成されることにより、折線近似は、文字成分の中心線などではなく、その輪郭線に対して実施される。従って、文字の高さの情報を取得する際に、より正確にその値を得ることが可能となる。

また、本発明の第一の態様における選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、注目している基点文字と似た大きさの文字成分を選択するように構成されても良い。このように構成された選択手段は、まず文字成分の中から一以上の基点文字を所定の基準に従って選択する。次に、選択手段は、選択された基点文字の中から注目する基点文字を選択する。そして、選択手段は、注目している基点文字と似た大きさの文字成分（即ち、注目している基点文字と、文字としての大きさが似ている文字成分）を選択する。

また、本発明の第一の態様における選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、注目している基点文字と似た線幅を有する文字成分を選択するように構成されても良い。このように構成された選択手段は、まず文字成分の中から一以上の基点文字を所定の基準に従って選択する。次に、選択手段は、選択された基点文字の中から注目する基点文字を選択する。そして、選択手段は、注目している基点文字と似た線幅を有する文字成分（即ち、注目している基点文字と、文字としての線幅が似ている文字成分）を選択する。

また、本発明の第一の態様における選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、注目している基点文字の位置に基づいて設定された所定の領域内に存在する文字成分を選択するように構成されても良い。このように構成された選択手段は、まず文字成分の中から一以上の基点文字を選択する。次に、選択手段は、選択された基点文字の中から注目する基点文字を選択する。そして、選択手段は、注目している基点文字の位置に基づいて設定された所定の領域内に存在する文字成分を選択する。

本発明の第二の態様は、文字列領域抽出装置であって、抽出手段，輪郭線取得手段，近似手段，選択手段，及び情報取得手段を含む。抽出手段は、入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する。輪郭線取得手段は、文字成分の輪郭線を取得する。近似手段は、輪郭線取得手段により取得された輪郭線に対して折線近似を実施する。選択手段は、文字成分の中でも特に文字である可能性が高いと判断できる基点文字を選択し、文字としての大きさ及び文字としての線幅が注目している基点文字と似ており、且つ、注目している基点文字を中心とする所定の領域内に存在する文字成分を選択する。情報取得手段は、選択手段により選択された文字成分の輪郭線に対して実施された折線近似の結果に対し、ハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び／又は高さを文字列情報として取得する。

本発明の第二の態様によっても、本発明の第一の態様と同様の効果を得ることが可能となる。

また、本発明の第一の態様又は第二の態様における選択手段は、文字としての高さと文字としての幅との比が所定の範囲内の値であること及び／又はその文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とのヒストグラムにおける分離度が高い場合に、その文字成分を基点文字として選択するように構成されても良い。このように構成された本発明の第一の態様又は第二の態様では、選択手段による基点文字の選択がより正確に実現される。

第一，第二の態様は、プログラムが情報処理装置によって実行されることによって実現されても良い。即ち、本発明は、上記した第一，第二の態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録した記録媒体として特定することができる。また、本発明は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されても良い。

本発明によれば、画像中に複数の異なる文字列が含まれていることやノイズが含まれていることに関わらず、即ち他の文字列に含まれる文字成分やノイズによる影響を受けることなく、正確に文字列の方向や文字の高さの情報を取得することが可能となる。

［システム構成］
まず、文字列抽出装置１のシステム構成について説明する。文字列抽出装置１は、ハードウェア的には、バスを介して接続されたＣＰＵ（中央演算処理装置），主記憶装置（ＲＡＭ），補助記憶装置などを備える。補助記憶装置は、不揮発性記憶装置を用いて構成される。ここで言う不揮発性記憶装置とは、いわゆるＲＯＭ（Read-Only Memory：ＥＰＲＯＭ（Erasable Programmable Read-Only Memory），ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory），マスクＲＯＭ等を含む），ＦＲＡＭ（Ferroelectric RAM），ハードディスク等を指す。

図１は、文字列抽出装置１の機能ブロックの例を示す図である。文字列抽出装置１は、補助記憶装置に記憶された各種のプログラム（ＯＳ，アプリケーション等）が主記憶装置にロードされＣＰＵにより実行されることによって、画像入力部２，文字情報抽出装置３，文字線抽出部４，文字列判定装置５，及び文字列出力部６等を含む装置として機能する。文字情報抽出装置３，文字線抽出部４，及び文字列判定装置５は、プログラムがＣＰＵによって実行されることにより実現される。また、文字情報抽出装置３，文字線抽出部４，及び文字列判定装置５は専用のチップとして構成されても良い。次に、文字列抽出装置１が含む各機能部や各装置について説明する。

〔画像入力部〕
画像入力部２は、情景画像の原画像のデータ（以下、「原画像のデータ」と呼ぶ）を文字列抽出装置１へ入力するためのインタフェースとして機能する。画像入力部２によって、文字列抽出装置１の外部から、原画像のデータが文字列抽出装置１へ入力される。画像入力部２は、文字列抽出装置１へ原画像のデータを入力するためのどのような既存技術を用いて構成されても良い。

例えば、ネットワーク（例えばローカル・エリア・ネットワークやインターネット）を介して原画像のデータが文字列抽出装置１へ入力されても良い。この場合、画像入力部２はネットワークインタフェースを用いて構成される。また、デジタルカメラやスキャナやパーソナルコンピュータや記録装置（例えばハードディスクドライブ）等から原画像のデータが文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、デジタルカメラやパーソナルコンピュータや記録装置などと文字列抽出装置１とをデータ通信可能に接続する規格（例えばＵＳＢ（Universal Serial Bus）やＳＣＳＩ（Small Computer System Interface）等の有線接続やｂｌｕｅｔｏｏｔｈ等の無線接続の規格）に応じて構成さ
れる。また、記録媒体（例えば各種フラッシュメモリやフロッピー（登録商標）ディスクやＣＤ（Compact Disk）やＤＶＤ（Digital Versatile Disc、Digital Video Disc））に記録された原画像のデータが文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、記録媒体からデータを読み出す装置（例えばフラッシュメモリリーダやフロッピーディスクドライブやＣＤドライブやＤＶＤドライブ）を用いて構成される。

また、文字列抽出装置１がデジタルカメラ等の撮像装置又はデジタルカメラ等の撮像装置を備える各種装置（例えばＰＤＡ（Personal Digital Assistant）や携帯電話機）の内部に含まれ、撮像された情景画像が原画像のデータとして文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、ＣＣＤ（Charge-Coupled Devices）やＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサ等を用いて構成されても良いし、ＣＣ
ＤやＣＭＯＳセンサなどによって撮像された原画像のデータを文字情報抽出装置３に入力させるためのインタフェースとして構成されても良い。また、文字列抽出装置１が、プリンタやディスプレイ等の画像出力装置の内部に含まれ、出力データとしてこの画像出力装置に入力された情景画像が原画像のデータとして文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、これらの画像出力装置に入力された原画像のデータを文字列抽出装置１において取り扱い可能なデータに変換する装置などを用いて構成される。

また、画像入力部２は上記された複数の場合に応じることが可能となるように構成されても良い。

〔文字情報抽出装置〕
文字情報抽出装置３は、入力された情景画像から、文字と推測される画像（文字成分）の位置や大きさ等を取得する。例えば、文字情報抽出装置３は、文字と推測される画像を内包する最小の矩形（外接矩形）の大きさやその位置などを含む情報を文字情報として取得する。

上記のような作用を実現するため、文字情報抽出装置３は、画像変換部７，文字候補判定部８，及び文字成分抽出部９を含む装置として構成される。文字情報抽出装置３は、文字列抽出装置１から独立してＣＰＵ及び／又はＲＡＭ等を備える装置として構成されても良いし、文字列抽出装置１に備えられたＣＰＵ及び／又はＲＡＭ等を用いて処理を行う装置として構成されても良い。また、文字情報抽出装置３は、文字列抽出装置１のＣＰＵやＲＡＭ等によって実行されるプログラムによって実現される仮想的な装置として構成されても良い。以下、文字情報抽出装置３に含まれる各機能部について説明する。

〈画像変換部〉
画像変換部７は、文字候補判定部８及び文字成分抽出部９において用いられる二値画像を生成する。図２は、画像変換部７によって実行される各処理により生成される画像の例を示す図である。以下、図２を用いて画像変換部７の具体的な処理例について説明する。

まず、画像変換部７は、原画像を８ビット（ｂｉｔ）のグレースケールの画像（以下、この画像を「濃淡画像」と呼ぶ）に変換する（図２（ａ）に相当）。当然、原画像が８ビットのグレースケールの画像である場合にはこの変換処理は実行されない。

次に、画像変換部７は、濃淡画像からエッジを抽出する。画像中のエッジは、画像をいったんぼかした後に二次微分フィルタをかけることによって得ることができる。ここでは、このようなフィルタの一例としてＬｏＧ（Laplacian of Gaussian：ラプラシアン・ガ
ウシアン）フィルタを適用する。即ち、画像変換部７は、濃淡画像に対しＬｏＧフィルタをかけ、ＬｏＧ画像を生成する（図２（ｂ）に相当）。図３は、画像変換部７によって用いられるＬｏＧフィルタの例を示す図である。ＬｏＧフィルタは、画像をぼかし、その後画像のエッジを強調する効果を有するフィルタである。ＬｏＧフィルタを適用することにより、濃淡画像をぼかしてからエッジを抽出することが可能となり、ノイズの影響を軽減しながら濃淡画像中のエッジを抽出することが可能となる。このようなＬｏＧフィルタを濃淡画像中の全ての画素（ただし、濃淡画像の周囲２画素を除く）に対してかけることによりＬｏＧ画像が生成される。なお、図３に示されるＬｏＧフィルタは例であり、ＬｏＧ
フィルタの大きさや各格子の値はこの図に示された大きさ（５×５）や各格子の値に制限されない。

次に、画像変換部７は、ＬｏＧ画像中の絶対値が小さいものを“０”に置き換えることにより、変更後ＬｏＧ画像を作成する。このとき、画像変換部７は、所定の閾値をもって、各値の絶対値が小さいか否か、即ち“０”に置き換えるべきか否か判断する。

次に、画像変換部７は、変更後ＬｏＧ画像から二値画像を作成する。具体的には、画像変換部７は、変更後ＬｏＧ画像中の正又は“０”の値を有する画素を文字候補と判断し、これらの画素を例えば“０”に置き換える。以下、このようにして生じる“０”を有する画素を「黒画素」と呼ぶ。また、画像変換部７は、変更後ＬｏＧ画像中の負の値を有する画素を背景候補と判断し、これらの画素を例えば“１”に置き換える。以下、このようにして生じる“１”を有する画素を「白画素」と呼ぶ。このような処理によって、画像変換部７は二値画像を生成する（図２（ｃ）に相当）。また、画像変換部７は、変更後ＬｏＧ画像中の負又は“０”の値を文字候補と判断しこれらの画素を例えば“０”に置き換え、変更後ＬｏＧ画像中の正の値を背景候補と判断しこれらの画素を例えば“１”に置き換えることによっても二値画像を生成する。以下、前者の二値画像を「正二値画像」と呼び、後者の二値画像を「負二値画像」と呼ぶ。画像変換部７は、この二つの二値画像（正二値画像と負二値画像）を生成する。

〈文字候補判定部〉
文字候補判定部８は、画像変換部７によって生成された二値画像（正二値画像，負二値画像）から連結成分を抽出し文字候補となる連結成分を判断する。ここで、連結成分とは、二値画像中において、黒画素又は白画素のいずれかに注目した場合に（注目された方の画素を「注目画素」と呼ぶ）、縦，横，斜めに隣接する注目画素のかたまりのことを示す。図４は、連結成分の例を示す図である。図４（ａ）のような二値画像には、黒画素に注目した場合、図４（ｂ）と図４（ｃ）に示される二つの連結成分が存在する。

連結成分の抽出方法について説明する。文字候補判定部８は、ラベリングを行うことにより連結成分の抽出を実行する。ラベリングとは、二値画像の連結成分ごとに異なったラベル（番号）を付す処理のことである。ラベリングにより作成された画像をラベル画像と呼ぶ。図５は、図４（ａ）に示される二値画像におけるラベル画像の例を示す図である。図５では、背景候補の画素には“０”が与えられ、各連結成分の画素には“１”以上の値で連結成分ごとに異なる値が与えられている。

次に、文字候補判定部８の具体的な処理例について、正二値画像に対する処理を例として説明する。文字候補判定部８は、正二値画像において、黒画素に注目し連結成分を抽出する。また、文字候補判定部８は、抽出された連結成分を内包する最小の矩形を外接矩形として取得する。図６は、外接矩形の例を示す図である。図６において、破線によって示される矩形が、“あ”という文字を構成する連結成分（黒画素の連結成分）を内包する外接矩形となる。

次に、文字候補判定部８は、抽出された各連結成分について、連結成分全体の画素数Ｓと、連結成分の輪郭線を構成する画素数Ｌとを取得する。ここで、輪郭線とは、連結成分と背景（連結成分以外の画素）との境界に位置する連結成分の画素を示す。図７は輪郭線の例を示す図である。図７（ａ）に示される連結成分においては、図７（ｂ）に示される斜線部分が輪郭線として判断される。

次に、文字候補判定部８は、抽出された各連結成分について、連結成分全体の画素のうち、変更後ＬｏＧ画像における画素の値（以下、「ＬｏＧ値」と呼ぶ）が閾値以上である
画素の数をＳ’として取得する。また、文字候補判定部８は、抽出された各連結成分について、輪郭線を構成する画素のうち、ＬｏＧ値が閾値以上である画素の数をＬ’として取得する。このとき、閾値は予め定められても良いし、変更後ＬｏＧ画像中の全画素のＬｏＧ値の平均値が閾値として適用されても良いし、ＬｏＧ画像や変更後ＬｏＧ画像から他の統計的手法によって得られた値が閾値として適用されても良い。

次に、文字候補判定部８は、各連結成分について、Ｓ’／Ｓ及びＬ’／Ｌを算出する。そして、文字候補判定部８は、各連結成分についてＳ’／ＳとＬ’／Ｌとがそれぞれ閾値ＴＳとＴＬとよりも大きいか否か判定し、この二つの値がそれぞれの閾値よりも大きい連結成分を文字候補として判断する。一般的に、文字画像と背景画像との境界では濃度勾配が大きくなるため、領域の輪郭部分に大きなＬｏＧ値を有する画素が現れる。従って、文字画像の連結成分における輪郭線は、全体的にＬｏＧ値が大きくなり、Ｌ’／Ｌの値が大きくなる。また、文字画像は一般的に幅の細い線によって構成されるため、その連結成分中の輪郭線が占める割合は大きくなる。従って、文字画像の連結成分におけるＳ’／Ｓの値は大きくなる。

なお、デジタルカメラ画像の場合、ＴＳの値は０．４程度（０．３≦ＴＳ≦０．５）、ＴＬの値は０．８程度（０．７≦ＴＬ≦０．９）が適切である。また、低品質な画像（例えば携帯電話機やＰＤＡに付随するデジタルカメラにより撮像された画像）の場合、ＴＳとＴＬとの値は上記より少し低め、例えばそれぞれ０．３程度、０．７程度が適切である。

〈文字成分抽出部〉
文字成分抽出部９は、文字候補判定部８によって文字候補と判断された各連結成分の中から文字と推測される連結成分（以下、「文字成分」と呼ぶ）を選択し、各文字成分に係る文字情報を取得する。ここで選択される各文字成分が、文字情報抽出装置３によって文字であると最終的に判断された連結成分となる。また、文字成分抽出部９は、文字候補と判断された連結成分のみによって構成される画像（以下、「文字候補画像」と呼ぶ）からノイズ（文字と推測されない連結成分）を除去することにより、文字成分のみによって構成される画像（以下、「文字成分画像」と呼ぶ）を生成する。以下、文字成分抽出部９の具体的な処理例について説明する。

文字成分抽出部９は、文字候補と判断された連結成分のみによって構成される文字候補画像を取得する。次に、文字成分抽出部９は、以下に示す全ての条件を満たす連結成分を文字成分と判断する。
（条件１）外接矩形の高さと幅とがそれぞれ一定の範囲の大きさである。
（条件２）画像（原画像，濃淡画像，ＬｏＧ画像，変更後ＬｏＧ画像，文字候補画像のいずれか。いずれであるかは設計者によって適宜設定されて良い）の端に接していない。
（条件３）濃淡画像において、背景画素との濃度差が大きい。

なお、背景画素とは、連結成分の周囲の画素を示し、例えば連結成分の各画素から数ピクセル以内の距離にある全画素を示す。図８は、連結成分の各画素から３ピクセル以内の距離にある画素を背景画素とした場合の例を示す図である。図８において、黒い画素は連結成分を構成する画素を示し、縦縞の画素は背景画素を示す。条件３において、濃淡画像における背景画素の平均濃度と連結成分の画素の平均濃度との差が閾値（例えば“２０”：この値は設計者によって適宜決定されて良い）よりも大きい場合に、この連結成分（文字候補）は条件を満たすと判断される。図９は、文字候補画像と文字成分画像の例を示す図である。図９（ａ）は、文字候補画像の例を示す。図９（ｂ）は、文字成分画像の例を示す。文字成分抽出部９の処理により、上記三つの条件を満たさなかった連結成分（例えば左上に存する複数の直線）が、文字成分画像において削除されている。文字成分抽出部
９は、正二値画像と負二値画像とのそれぞれについて、このような文字成分画像を取得する。このとき、文字成分抽出部９は、それぞれの文字成分画像における各文字成分に係る外接矩形の大きさやその位置などを文字情報として取得しておく。この他、文字成分抽出部９は、各外接矩形の中心点の座標や連結成分の太さ（即ち文字線の太さ）などをさらに文字情報として取得しても良い。

ここでは、上記三つの条件を全て満たす連結成分のみが文字成分として判断されているが、この条件は適宜増減されても良い。例えば、条件２を省き、条件１及び条件３を満たす連結成分が文字成分として判断されるように構成されても良いし、上記三つの条件に加えてさらに他の条件を満たす場合に文字成分として判断されるように構成されても良い。

文字成分抽出部９は、正二値画像と負二値画像とについて文字成分画像やそれぞれの画像における各文字成分の文字情報を取得すると、これらのデータを文字情報抽出装置３の外部へ出力する。この場合、文字情報抽出装置３は文字列抽出装置１に含まれているため、文字線抽出部４に対しこれらのデータを出力する。

〔文字線抽出部〕
文字線抽出部４は、各文字成分の輪郭線を折線近似することにより、文字輪郭線を取得する。文字線抽出部４は、既存のどのような手法を適用することにより折線近似を実施しても良い。以下に折線近似の手法の例について説明する。

図１０は、折線近似の処理例を示す図である。まず、文字線抽出部４は、各文字成分の輪郭線に対して細線化を実施することにより、各輪郭線を１ドットの太さに細める。図１０（ａ）は、ある輪郭線が細線化された場合の例を示す図である。次に、文字線抽出部４は、細線化された輪郭線（以下の文字線抽出部４の説明において、「輪郭線」は「細線化された輪郭線」を指すものとする）の端点（二つの端点のうちいずれが選択されても良い。ここでは、例えば左上方向に位置する端点）を近似開始点として設定する。なお、輪郭線が円のように周回しているために端点が存在しない場合、文字線抽出部４は輪郭線上の適当な点を近似開始点としても良い。図１０（ａ）において、白抜きの矩形が近似開始点の例である。

次に、文字線抽出部４は、近似開始点から順に一つずつ輪郭線の画素を探索し、各画素において近似開始点と現在探索している画素とを結ぶ直線を作成する。次に、文字線抽出部４は、この直線と、これまで探索してきた各画素との距離を算出し、その距離の中で最大のものを選択する。そして、文字線抽出部４は、選択された最大の距離と閾値とを比較し、この距離が閾値を超えるまで次の画素の探索を続ける。この閾値は、設計者によって適宜決定されて良い。この閾値が小さいほど正確な近似が実施され、この閾値が大きいほど大雑把な近似が実施される。

算出された距離の最大値が閾値を超えた場合、文字線抽出部４は、その時点で探索している画素と近似開始点とを結ぶ直線を生成し、この直線をもって、これまで探索してきた画素の近似を行う。この場合、文字線抽出部４は、この時点で探索している画素を新たな近似開始点として設定し、同様の処理を行うことでそれ以後の画素の近似を行う。そして、輪郭線全てが直線に近似された時点で処理を終了する。例えば、輪郭線を構成する全ての画素について探索が完了した時点で、例えその時点における直線と各画素との距離の最大値が閾値を超えていなくとも近似を行い、処理を終了する。

文字線抽出部４は、折線近似を、文字情報抽出装置３によって抽出された全ての文字成分の輪郭線に対して実行し、各文字成分の文字輪郭線を取得する。そして、文字線抽出部４は、取得された文字輪郭線により構成される画像（以下、「文字輪郭線画像」と呼ぶ）
を文字列判定装置５へ出力する。図１１は、文字輪郭線画像の例を示す図である。図１１（ａ）は文字成分画像の例であり、図１１（ｂ）は図１１（ａ）に示される文字成分画像から作成される文字輪郭線画像の例である。

〔文字列判定装置〕
文字列判定装置５は、入力された文字輪郭線画像（例えば図１１（ｂ））から、文字情報を用いることにより、ほぼ同じ大きさの文字成分のみで構成された文字列領域を抽出する。文字列判定装置５は、文字線抽出部４によって折線近似された輪郭線に対して線分Ｈｏｕｇｈ変換（以下、「ハフ変換」と呼ぶ）を実行することで、文字列の上下辺をなす平行線を求め、文字列の傾きを決定し、抽出すべき文字列領域を特定する。

上記のような作用を実現するため、文字列判定装置５は、基点文字パターン抽出部１０，文字列判定部１１，及び重複情報除去部１２を含む装置として構成される。文字列判定装置５は、文字列抽出装置１から独立してＣＰＵ及び／又はＲＡＭ等を備える装置として構成されても良いし、文字列抽出装置１に備えられたＣＰＵ及び／又はＲＡＭ等を用いて処理を行う装置として構成されても良い。また、文字列判定装置５は、文字列抽出装置１のＣＰＵやＲＡＭ等によって実行されるプログラムによって実現される仮想的な装置として構成されても良い。以下、文字列判定装置５に含まれる各機能部について説明する。

〈基点文字パターン抽出部〉
基点文字パターン抽出部１０は、文字情報抽出装置３によって判断された文字成分の中から、文字である可能性が高い文字成分を基点文字パターンとして抽出する。基点文字パターン抽出部１０は、以下に示す両条件を満たす文字成分を基点文字パターンとして抽出する。
（条件１）外接矩形の縦横比が所定の範囲内（例えば、１／２〜２の範囲内）にある。
（条件２）濃淡画像において、文字成分を構成する画素と背景画素との濃度ヒストグラムを生成した場合に、その分離度が閾値（この閾値は設計者によって適宜設定されて良い）以上である。

まず、条件１について説明する。文字をなす連結成分の外接矩形は、「一」などの特殊な例外を除いてほぼ正方形かそれに近い縦横比の長方形をなす。このため、基点文字パターン抽出部１０は、条件１を満たす文字成分を抽出することにより、文字である可能性が高い文字成分を抽出することが可能となる。

次に条件２について説明する。まず、分離度について説明する。分離度とは、画像の濃度ヒストグラムをある閾値で二つのクラス（Ｃ１，Ｃ２）に分けたときの画素の分離の度合いを示す値である。分離度が高いほど二つのクラス間でヒストグラムがはっきり分離されることとなり、その閾値は有効な（良い）閾値であるといえる。閾値をＴとしたときの分離度η（Ｔ）は、数１によって得られる。

ここで、σＢ^２（Ｔ）はクラス間分散、σＷ^２（Ｔ）はクラス内分散を示す。また、ここで、μ１，μ２，μＴはそれぞれＣ１，Ｃ２，全体に属する画素の濃度の平均値を示し、ｉは画素の濃度を示し、ｎｉは濃度ｉを持つ画素の個数（度数）を示す。なお、ここで示した分離度の算出法は例であり、その他の方法によって同様の趣旨の値が分離度として算出されるように構成されても良い。

文字は一般的に背景に対して目立つ色で描かれるため、一般的には、文字成分を構成する画素と背景画素との間には明確な明度の差が生じる。このため、条件２を満たす文字成分を抽出することにより、文字である可能性が高い文字成分を抽出することが可能となる。

ここでは、上記二つの条件を全て満たす文字成分のみが基点文字パターンとして判断されるが、この条件は適宜増減されても良い。例えば、条件１又は条件２のいずれかを満たす文字成分が基点文字パターンとして抽出されるように構成されても良いし、上記二つの条件に加えてさらに他の条件を満たす場合に文字成分が基点文字パターンとして抽出されるように構成されても良い。

〈文字列判定部〉
文字列判定部１１は、各基点文字パターンについて、その基点文字パターンを含む文字列を判定する。具体的には、文字列判定部１１は、各基点文字パターンについて以下の処理を実行する。

まず、文字列判定部１１は、文字成分の中から、処理の対象としている基点文字パターンと外接矩形の大きさや線幅（文字としての線幅）などが似ている文字成分を選択する。以下、このように選択された文字成分を「文字列候補成分」と呼ぶ。

次に、文字列判定部１１は、文字列を探索するための領域を設定する。この領域は、例えば処理の対象となっている基点文字パターンの外接矩形の幅と高さのうち長い方の数倍の長さの幅及び高さを有する正方形領域として設定される。図１２は、「甬」という基点文字パターンが処理の対象となっている場合に設定された領域の例を示す図である。図１２において示される領域は、「甬」という基点文字パターンの外接矩形の幅と高さのうち長い方の６倍の長さを一辺の長さとして有する正方形によって表される領域であり、この外接矩形の中心点（図中の黒丸）を中心として位置する領域である。そして、文字列判定部１１は、文字列候補成分の中から、設定された領域の中にその外接矩形の中心が含まれる文字成分を選択する。以下、このように選択された文字成分を「変換対象文字成分」と呼ぶ。

次に、文字列判定部１１は、変換対象文字成分の文字輪郭線に対し、ハフ変換を行う。なお、文字列判定部１１は、ハフ変換を行う前に、ハフ変換の対象となる線分に対し座標
変換を行う。具体的には、文字列判定部１１は、ハフ変換の対象となる線分の座標を、それまで使用されていた座標系（例えば画像の左上を原点（０，０）とする座標系）から、処理の対象となっている基点文字パターンの外接矩形の中心座標を原点（０，０）とする座標系に変換する。このような座標変換を行うことにより、ハフ変換された文字成分は、ハフ平面内にρ＝０を中心に存在することとなる。

図１３は、図１２に例示された変換対象文字成分に対して実施されたハフ変換の結果の例を示す図である。図１３（ａ）はハフ平面の例を示す図である。文字列判定部１１は、ハフ平面の各θにおけるρ方向のヒストグラムを解析し、以下の条件１〜条件３の全てを満たす尾根（以下、「文字列尾根候補」と呼ぶ）の情報、即ち（ρ１，ρ２，θ０）を検出する。ここで、尾根とは、あるθにおけるヒストグラムに表される一つの山を示す。例えば、図１３（ｂ）において丸に囲まれている黒い部分が一つの尾根として判断される。また、θ０は、該当する尾根が検出されたヒストグラムのハフ平面における角度（図１３（ａ）における横軸の値）を示す。また、ρ１，ρ２は、該当する尾根の両端のエッジの位置（図１３（ｂ）の各ヒストグラムにおいて二本の破線によって示されるρの値）を示す。
（条件１）注目している尾根を含むヒストグラムの分離度が非常に大きい（即ち、ヒストグラムの分離度が、設定されている閾値よりも大きい）。
（条件２）尾根がρ＝０をはさんで存在する。
（条件３）尾根のρ方向の長さが、処理対象となっている基点文字パターンの外接矩形の長さと似ている（即ち、尾根のρ方向の長さ（ρ１とρ２との差の絶対値）と、処理対象となっている基点文字パターンの外接矩形の長さとの差が閾値よりも小さい）。

画像中に含まれる文字列を、その文字列の方向（即ちその文字列を構成する各文字が並ぶ方向・角度）へ投影すると、各文字が重なる。従って、文字列の方向を示すθ０におけるヒストグラムでは、その分離度は高くなる。このため、条件１を満たす角度θ０の尾根を検出することにより、基点文字パターンを含む文字列による尾根を検出することが可能となる。

また、文字列判定部１１により実施されるハフ変換は、処理対象となっている基点文字パターンの外接矩形の中心を原点として実施されるため、この基点文字パターンを含む文字列による尾根は、ρ＝０をほぼ中心にはさんで存在する。このため、条件２を満たす尾根を検出することで、処理対象となっている基点文字パターンを含む文字列による尾根を検出することが可能となる。

また、尾根のρ方向の長さは、尾根に対応する文字列の高さを示している。このため、条件３を満たす尾根を検出することにより、基点文字パターンを含む文字列による尾根を検出することが可能となる。

このような三つの条件を全て満たす全ての尾根が検出されても良い。図１３（ｂ）は、図１３（ａ）に示されるハフ平面から検出された文字列尾根候補を含むヒストグラムの形状の例であり、それぞれθ０．１，θ０．２，θ０．３における尾根を示す図である。

ここでは、上記三つの条件を全て満たす尾根のみが文字列尾根候補として検出されているが、この条件は適宜増減されても良い。例えば、条件１を省き、条件２及び条件３を満たす尾根が検出されるように構成されても良いし、上記三つの条件に加えてさらに他の条件を満たす尾根のみが検出されるように構成されても良い。

次に、文字列判定部１１は、検出された各文字列尾根候補に対応する文字列の傾き及び文字列領域の上下辺をなす直線を、文字列候補情報として取得する。ここで、文字列領域
とは、一つの文字列を内包する四角形であり、各頂点（四頂点）の座標によって表される。また、文字列の傾きは、検出されたθ０を９０度ずらしたものに相当する。また、文字列領域の上下辺をなす直線は、それぞれθ０とρ１，ρ２を用いて数２のように求められる。

文字列判定部１１は、検出された全ての文字列候補情報について、以下の処理を実施する。まず、文字列判定部１１は、文字列候補成分のうち、その外接矩形の中心点が、文字列候補情報によって表される二本の直線の間に存在する文字列候補成分を抽出する。次に、文字列判定部１１は、抽出された文字列候補成分を、文字列の傾き（文字列候補情報に含まれる値）分だけ回転させることにより、各文字列候補成分が水平方向に並ぶようにする。次に、文字列判定部１１は、回転後の文字列候補成分の外接矩形を垂直方向に投影し、それらが重なるものもしくは内包される文字列候補成分を一つに統合する。図１４は、このような統合の例を示す図である。図１４には各文字列候補成分の外接矩形が示されている。図１４（ａ）は実際の文字列の画像を示す図であり、図１４（ｂ）は統合前の外接矩形の状態を示す図であり、図１４（ｃ）は統合後の外接矩形の状態を示す図である。この処理により、それまで複数の部位に分かれた文字列候補成分として保持されていた「橋」や「通」の文字が、一つの文字列候補成分として統合される。このような統合を行うことにより、各文字列候補成分の外接矩形の中心点をより正確に取得することが可能となる。文字列候補情報によって表される二本の直線の間に存在する文字列候補成分がこのように統合された後の各文字列候補成分を「文字列成分」と呼ぶ。

次に、文字列判定部１１は、各文字列候補情報に含まれる上下辺をなす二直線の中心線を取得する。文字列判定部１１は、この中心線と、文字列成分の外接矩形の中心点との距離を算出する。そして、文字列判定部１１は、算出された距離に基づいて、一つの文字列候補情報を最終的に選択する。例えば、文字列判定部１１は、算出された距離の合計値や平均値が最小の文字列候補情報を選択する。図１５は、三つの文字列候補情報における文字列の傾きの例を示す図である。図１５において、点線は各文字列候補情報における中心線を示し、各黒点は各文字列成分の外接矩形の中心点を示す。図１５の例では、（ｂ）に示される文字列候補情報が選択される。

次に、文字列判定部１１は、この文字列候補情報に従って、処理の対象となっている基点文字パターンを含む文字列の文字列情報を取得する。具体的には、文字列判定部１１は、文字列成分の外接矩形全てを内包する矩形のうち最小の外接矩形を取得する。このとき、文字列判定部１１は、この外接矩形を構成する四点の頂点座標を取得する。図１６は、このような矩形の例を示す図である。そして、文字列判定部１１は、このようにして得られた矩形に対し回転処理や並進処理を実施することにより、この矩形を原画像における座標系に戻し、原画像の座標系におけるこの矩形の四頂点の座標を文字列情報として取得する。

上記したように、文字列判定部１１は、このような処理を全ての基点文字パターンについて実施する。従って、文字列判定部１１は、基点文字パターン抽出部１０によって抽出された基点文字パターンの数だけ、文字列情報を取得する。図１７は、このような処理によって取得された文字列情報により表される文字列領域の例を示す図である。

〈重複情報除去部〉
重複情報除去部１２は、文字列判定部１１によって取得された複数の文字列情報の中から、重複している情報を削除し、残ったものを最終的な文字列情報として取得する。具体的には、各文字列情報における四頂点の座標や文字列の傾き等の値から文字列情報同士の類似度を判断し、類似である文字列情報を重複した文字列情報として削除する。例えば、四頂点の距離の平均や合計などが閾値よりも小さい場合や文字列の傾きの差が閾値よりも小さい場合などに、類似した文字列情報として判断される。図１８は、重複情報の除去の例を示す図である。図１８（ａ）は重複情報が除去される前の文字列情報の例を示す図であり、図１８（ｂ）は重複情報が除去された後の文字列情報の例を示す図である。

〔文字列出力部〕
文字列出力部６は、文字列判定装置５によって判定された結果を、文字列抽出装置１の外部に対して出力するためのインタフェースとして機能する。文字列出力部６は、文字列判定装置１から上記判定結果を出力するためのどのような既存技術を用いて構成されても良い。

［動作例］
図１９〜図２３は、文字列判定装置１の動作例を示すフローチャートである。以下、図１９〜図２３を用いて、文字判定装置１の動作例について説明する。

まず、画像入力部２を介して画像が入力されると、画像変換部７は、この画像を８ｂｉｔのグレースケールに変換することにより、濃淡画像を生成する（Ｓ０１）。次に、画像変換部７は、濃淡画像に対してＬｏＧフィルタをかけることにより、ＬｏＧ画像を生成する（Ｓ０２）。次に、画像変換部７は、ＬｏＧ画像を元に変換後ＬｏＧ画像を生成し（Ｓ０３）、さらに変換後ＬｏＧ画像を元に二値画像を生成する（Ｓ０４）。なお、この動作例の説明では、Ｓ０４の処理において正二値画像と負二値画像のいずれか片方が生成され、後に説明するＳ１７の処理終了後に他方がさらに生成されるが、Ｓ０４の処理において双方が一度に生成されるように構成されても良い。

Ｓ０４の処理の後、文字候補判定部８は、生成された二値画像から連結成分を抽出し（Ｓ０５）、各連結成分の外接矩形を取得する（Ｓ０６）。次に、文字候補判定部８は、各連結成分について、Ｓ’／ＳとＬ’／Ｌとの値を算出する（Ｓ０７）。文字候補判定部８は、Ｓ’／Ｓの値が閾値ＴＳ以上でありかつＬ’／Ｌの値がＴＬ以上である場合に（Ｓ０８−Ｙｅｓ）、この連結成分を文字候補として判断する（Ｓ０９）。一方、Ｓ’／Ｓの値が閾値ＴＳ未満またはＬ’／Ｌの値がＴＬ未満である場合（Ｓ０８−Ｎｏ）、文字候補判定部８は、この連結成分を文字候補とは判断しない。文字候補判定部８は、Ｓ０７〜Ｓ０９に渡る処理を全ての連結成分について行う（Ｓ１０）。

次に、図２０を用いてＳ１１以降の処理について説明する。全ての連結成分について文字候補に係る判断が終了すると（Ｓ１０−Ｙｅｓ）、文字候補判定部８は、ある文字候補について、その外接矩形の高さと幅とが一定の範囲内の大きさであるか否か判断する。外接矩形の高さと幅とが一定の範囲内の大きさである場合（Ｓ１１−Ｙｅｓ）、文字候補判定部８は、この文字候補としての連結成分が画像の端に接しているか否か判断する。連結成分が画像の端に接していない場合（Ｓ１２−Ｙｅｓ）、さらに文字候補判定部８は、濃淡画像においてこの文字候補の画素と背景画像との濃度差が閾値を超えているか否か判断する。濃度差が閾値を超えている場合（Ｓ１３−Ｙｅｓ）、文字候補判定部８は、この文字候補を文字成分と判断する（Ｓ１４）。一方、文字候補判定部８は、Ｓ１１〜Ｓ１３の条件を満たさない文字候補については、文字成分とは判断しない（Ｓ１１−Ｎｏ，Ｓ１２−Ｎｏ，Ｓ１３−Ｎｏ）。

文字候補判定部８は、Ｓ１１〜Ｓ１４に渡る処理を全ての文字候補について実行する（Ｓ１５）。文字候補判定部８は、全ての文字候補について文字成分に係る判断を終了すると（Ｓ１５−Ｙｅｓ）、各文字成分についての文字情報を取得する（Ｓ１６）。そして、文字候補判定部８は、Ｓ０５〜Ｓ１６に渡る処理を、正二値画像と負二値画像との双方に実行する（Ｓ１７）。ここに示す動作例においては、Ｓ１６の処理の後、文字候補判定部８は正二値画像と負二値画像との双方についての処理が終了したか否か判断する。終了していない場合（Ｓ１７−Ｎｏ）、画像変換部７は、他方の二値画像（即ちＳ０４において生成されていない方の二値画像）を生成し、この二値画像について文字候補判定部８はＳ０５〜Ｓ１６の処理を実行する。

次に、図２１を用いてＳ１８以降の処理について説明する。双方の二値画像について文字成分を抽出するための処理が終了すると（Ｓ１７−Ｙｅｓ）、文字線抽出部４は、全ての文字成分の輪郭線を折線近似する（Ｓ１８，Ｓ１９）。全ての文字成分について折線近似が終了すると（Ｓ１９−Ｙｅｓ）、基点文字パターン抽出部１０は、各文字成分の外接矩形の縦横比を取得し、その比が所定の範囲内の値であるか否か判断する。取得された比が所定の範囲内の値である場合（Ｓ２０−Ｙｅｓ）、基点文字パターン抽出部１０は、さらにこの文字成分の画素と背景画素との分離度を算出し、その分離度が閾値以上であるか否か判断する。算出された分離度が閾値以上である場合（Ｓ２１−Ｙｅｓ）、基点文字パターン抽出部１０は、この文字成分を基点文字パターンとして抽出する（Ｓ２２）。一方、基点文字パターン抽出部１０は、Ｓ２０又はＳ２１の条件を満たさない文字成分については、基点文字パターンとは判断しない（Ｓ２０−Ｎｏ，Ｓ２１−Ｎｏ）。

基点文字パターン抽出部１０は、Ｓ２０〜Ｓ２２に渡る処理を全ての文字成分について実行する（Ｓ２３）。基点文字パターン抽出部１０が全ての文字成分について基点文字パターンに係る判断を終了すると（Ｓ２３−Ｙｅｓ）、文字列判定部１１は、各基点文字パターンに基づいて文字列を判定する処理を開始する。Ｓ２４以降の処理例について、図２２を用いて説明する。まず、文字列判定部１１は、処理の対象としている（注目している）基点文字パターンに基づいて、文字列候補成分を選択する（Ｓ２４）。次に、文字列判定部１１は、処理の対象としている基点文字パターンに基づいて変換対象文字成分を選択し（Ｓ２５）、変換対象文字成分に対しハフ変換を実行し（Ｓ２６）、ハフ平面を取得する。

文字列判定部１１は、ハフ平面の各θにおける各尾根について文字列尾根候補となるか否か判断する。具体的には、文字列判定部１１は、その尾根を含むヒストグラムについて、その分離度が閾値よりも大きいか否か判断する。この分離度が閾値よりも大きい場合（Ｓ２７−Ｙｅｓ）、文字列判定部１１は、そのヒストグラムにおける尾根がρ＝０をはさんで存在するか否か判断する。尾根がρ＝０をはさんで存在する場合（Ｓ２８−Ｙｅｓ）、その尾根のρ方向の長さが基点文字パターンの外接矩形の長さ（高さ）と似ているか否か判断する。尾根のρ方向の長さと外接矩形の長さとが似ている場合（Ｓ２９−Ｙｅｓ）、文字列判定部１１は、この尾根を文字列尾根候補と判断する（Ｓ３０）。一方、文字列判定部１１は、Ｓ２７〜Ｓ２９の条件を満たさない尾根については、文字列尾根候補とは判断しない。

文字列判定部１１は、Ｓ２７〜Ｓ３０に渡る処理を全ての尾根について実行する（Ｓ３１）。文字列判定部１１は、全ての尾根について文字列尾根候補に係る判断を終了すると（Ｓ３１−Ｙｅｓ）、各文字列尾根候補に基づいて文字列領域の上下辺を成す二本の直線を、文字列の傾きとともに文字列候補情報として取得する（Ｓ３２）。Ｓ３２以降の処理例について、図２３を用いて説明する。次に、文字列判定部１１は、この二本の直線の間にある文字列候補成分を抽出する（Ｓ３３）。次に、文字列判定部１１は、抽出された文字列候補成分を統合する（Ｓ３４）。そして、文字列判定部１１は、各文字列候補情報に
よって示される二本の直線の中心線を取得し（Ｓ３５）、この中心線とＳ３３の処理で抽出された各文字列候補成分の中心点との距離の和を算出し（Ｓ３６）、この距離の和が最小となった中心線に係る文字列候補情報を選択する。そして、文字列判定部１１は、この文字列候補情報に基づいて、文字列情報を取得する（Ｓ３７）。

文字列判定部１１は、Ｓ２４〜Ｓ３７に渡る処理を全ての基点文字パターンに基づいて実行する（Ｓ３８）。文字列判定部１１が全ての基点文字パターンに基づいた処理を終了すると（Ｓ３８−Ｙｅｓ）、重複情報除去部１２は、重複した文字列情報を削除する（Ｓ３９）。そして、文字列出力部６は、重複情報除去部１２によって重複部分が削除された結果残った文字列情報を出力する（Ｓ４０）。

上記動作例の中で、Ｓ０１〜Ｓ１７の処理が文字情報抽出装置３によって実行される処理である。このため、文字情報抽出装置３が単体として動作する場合には、Ｓ０１〜Ｓ１７までの処理が実行され、文字情報や文字成分画像などが出力されても良い。また、上記動作例の中で、Ｓ２０〜Ｓ３９の処理が文字列判定装置５によって実行される処理である。このため、文字列判定装置５が単体として動作する場合には、Ｓ２０〜Ｓ３９までの処理が実行され、文字列情報などが出力されるように構成されても良い。

［作用／効果］
文字列抽出装置１に含まれる文字列判定装置５は、文字列の傾きを算出するためにハフ変換を実行する場合、全ての文字成分をハフ変換の対象とするのではなく、特定の文字成分のみをハフ変換の対象とする。具体的には、文字である可能性の高い基点文字パターンを抽出し、注目している基点文字パターンを含む文字列の構成である可能性の高い文字成分のみがハフ変換の対象とされる。このような対象の選択は、基点文字パターンの外接矩形の大きさや文字線幅が似ている文字列候補成分を選択することや、基点文字パターンの中心から所定の範囲内にその中心が含まれる文字列候補成分を選択することにより実現される。このため、例え同一画像中に異なる方向に伸びる複数の文字列が含まれているとしても、それぞれの文字列についてハフ変換による文字列の方向を算出し、その方向をより正確に得ることが可能となる。

また、文字列判定装置５は、ハフ変換によって得られたハフ平面の解析において、分離度が非常に大きいヒストグラムに含まれる尾根を文字列尾根候補として選択する。また、文字列判定装置５は、ハフ変換の前に基点文字パターンの中心が原点となるような座標変換を施し、ρ＝０をはさんで存在する尾根を文字列尾根候補として選択する。さらに、文字列判定装置５は、ρ方向の長さが処理の対象となっている（注目している）基点文字パターンの外接矩形の高さと似ている尾根を文字列尾根候補として選択する。このような判断基準が採用されることにより、文字列の方向をより正確に算出することが可能となる。

また、文字列判定装置５は、折線近似された線分をハフ変換の対象とする。このため、折線近似されていない線分をハフ変換の対象とする場合に比べて、ハフ変換に要する計算時間を削減することが可能となる。同様の理由により、携帯機器などの処理能力の低い装置上にも、文字列判定装置５を実装することが可能となる。このような場合は、文字列判定装置５が文字線抽出部４を含むように構成されても良い。

文字列抽出装置の機能ブロック例を示す図である。画像変換部によって実行される各処理により生成される画像の例を示す図である。画像変換部によって用いられるＬｏＧフィルタの例を示す図である。連結成分の例を示す図である。ラベル画像の例を示す図である。外接矩形の例を示す図である。輪郭線の例を示す図である。背景画素の例を示す図である。文字候補画像と文字成分画像の例を示す図である。折線近似の処理例を示す図である。文字輪郭線画像の例を示す図である。基点文字パターンに基づいた正方形領域の例を示す図である。ハフ変換の結果の例を示す図である。文字列候補成分の統合処理の例を示す図である。文字列の傾きの例を示す図である。文字列成分の外接矩形全てを内包する矩形の例を示す図である。文字列領域の例を示す図である。重複情報の除去の例を示す図である。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。

符号の説明

１文字列抽出装置
２画像入力部
３文字情報抽出装置
４文字線抽出部
５文字列判定装置
６文字列出力部
７画像変換部
８文字候補判定部
９文字成分抽出部
１０基点文字パターン抽出部
１１文字列判定部
１２重複情報除去部

Claims

入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する抽出手段と、
前記抽出手段によって抽出された文字成分の中から、文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、基点文字に基づいて当該基点文字と同一の文字列に含まれると推定される文字成分を選択する選択手段と、
前記選択手段により選択された文字成分に基づいて文字列の方向及び／又は高さの情報を取得する情報取得手段と
を含む文字列領域抽出装置。
前記選択手段は、
μ_１を文字成分を構成する画素の濃淡値の平均値、
μ_２を文字成分に隣接する背景を構成する画素の濃淡値の平均値、
μ_Ｔを文字成分および該文字成分に隣接する背景を構成する画素の濃淡値の平均値、
ｉを画素の濃淡値、
ｎ_ｉを濃淡値ｉを有する画素の個数、として
クラス間分散σ_Ｂ ^２（Ｔ）、クラス内分散σ_Ｗ ^２（Ｔ）、分離度η（Ｔ）を、

により算出する請求項１に記載の文字列領域抽出装置。
前記選択手段は、前記抽出手段によって抽出された文字成分の中から、文字としての高さと文字としての幅の比が所定の範囲内の値である場合に、その文字成分を基点文字として選択する請求項１又は２に記載の文字列領域抽出装置。
前記選択手段は、注目している基点文字と似た大きさの文字成分を、当該基点文字と同一の文字列に含まれると推定される文字成分として選択する請求項１〜３のいずれかに記載の文字列領域抽出装置。
前記選択手段は、注目している基点文字と似た線幅を有する文字成分を、当該基点文字と同一の文字列に含まれると推定される文字成分として選択する請求項１〜４のいずれかに記載の文字列領域抽出装置。
前記選択手段は、少なくとも、注目している基点文字の位置に基づいて設定された所定の領域に基づいて、当該基点文字と同一の文字列に含まれると推定される文字成分の選択を行う請求項１〜５のいずれかに記載の文字列領域抽出装置。
前記情報取得手段は、前記選択手段により選択された文字成分に対してハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び／又は高さを文字列情報として取得する請求項１〜６のいずれかに記載の文字列領域抽出装置。
文字成分を構成する線分に対して折線近似を実施する近似手段をさらに備え、
前記情報取得手段は、前記近似手段によって折線近似が行われた結果に対してハフ変換を行う
請求項７に記載の文字列領域抽出装置。
文字成分の輪郭線を取得する輪郭線取得手段をさらに備え、
前記近似手段は、前記輪郭線取得手段により取得された輪郭線に対して折線近似を実施する
請求項８に記載の文字列領域抽出装置。
入力画像から文字の全部又は文字の一部を構成する文字成分を抽出する抽出手段と、
文字成分の輪郭線を取得する輪郭線取得手段と、
前記輪郭線取得手段により取得された輪郭線に対して折線近似を実施する近似手段と、
前記輪郭線に対して接線近似が実施された文字成分の中から、文字成分を構成する画素
の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、文字としての大きさ及び文字としての線幅が注目している基点文字と似ており、且つ、注目している基点文字を中心とする所定の領域内に存在する文字成分を選択する選択手段と、
前記選択手段により選択された文字成分の輪郭線に対して実施された折線近似の結果に対し、ハフ変換を行い、ハフ変換の結果に基づいて文字列の方向及び／又は高さを文字列情報として取得する情報取得手段と
を含む文字列領域抽出装置。
前記選択手段は、
μ_１を文字成分を構成する画素の濃淡値の平均値、
μ_２を文字成分に隣接する背景を構成する画素の濃淡値の平均値、
μ_Ｔを文字成分および該文字成分に隣接する背景を構成する画素の濃淡値の平均値、
ｉを画素の濃淡値、
ｎ_ｉを濃淡値ｉを有する画素の個数、として
クラス間分散σ_Ｂ ^２（Ｔ）、クラス内分散σ_Ｗ ^２（Ｔ）、分離度η（Ｔ）を、

により算出する請求項１０に記載の文字列領域抽出装置。
入力画像から文字の全部又は文字の一部を構成する文字成分を抽出するステップと、
抽出された文字成分の中から、文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、基点文字に基づいて当該基点文字と同一の文字列に含まれると推定される文字成分を選択するステップと、
選択された文字成分に基づいて文字列の方向及び／又は高さの情報を取得するステップと
を情報処理装置に実行させるためのプログラム。
情報処理装置が、入力画像から文字の全部又は文字の一部を構成する文字成分を抽出するステップと、
情報処理装置が、抽出された文字成分の中から、文字成分を構成する画素の濃淡値とその文字成分に隣接する背景を構成する画素の濃淡値とについて、クラス内分散に対するクラス間分散の比である分離度が閾値以上の場合に、その文字成分を特に文字である可能性が高いと判断できる基点文字として選択し、基点文字に基づいて当該基点文字と同一の文字列に含まれると推定される文字成分を選択するステップと、
情報処理装置が、選択された文字成分に基づいて文字列の方向及び／又は高さの情報を取得するステップと
を行う文字列領域抽出方法。