JP2014044470A

JP2014044470A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2014044470A
Application number: JP2012184906A
Authority: JP
Inventors: Hiromi Hirano; 廣美平野; Makoto Okabe; 誠岡部
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2012-08-24
Filing date: 2012-08-24
Publication date: 2014-03-13
Anticipated expiration: 2032-08-24
Also published as: JP5679229B2; WO2014030406A1; US20150213312A1; US9619700B2

Abstract

【課題】画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能な画像処理装置を提供すること。
【解決手段】特徴点検出部４０は、対象画像内のエッジのコーナーを特徴点として検出する。領域取得部４２は、特徴点検出部４０の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する。文字領域検出部４４は、領域取得部４２によって取得される領域に基づいて、対象画像内の文字領域を検出する。
【選択図】図３

Description

本発明は画像処理装置、画像処理方法、及びプログラムに関する。

画像処理の分野では、画像編集によって挿入された文字領域が画像に含まれている否かを判定したい場合や、画像編集によって挿入された全ての文字領域を画像からもれなく検出したい場合がある。

例えば、仮想商店街サイトでは、仮想商店街に出店している複数の店舗が掲載している商品画像のうちから、例えば「送料無料」や「グランプリ受賞」等のテキストが書き込まれていない商品画像を抽出し、その商品画像をトップページ等に掲載したい場合がある。このような場合、画像編集によって挿入された文字領域が商品画像に含まれている否かを判定する必要がある。

また例えば、仮想商店街サイトでは、薬事法等の法律上不正となるテキストが商品画像に書き込まれているか否かを確認したい場合がある。このような場合、画像編集によって挿入された全ての文字領域を画像からもれなく検出する必要がある。

画像に含まれている文字領域を検出するための技術としては、例えば特許文献１に開示された技術が知られている。特許文献１は、文字及び画像がレイアウトされた折込チラシの文字領域を検出するための技術について開示している（第００１９段落、第００２０段落、及び図３参照）。特許文献１に開示された技術では、画像データを色ごとに分離することによって、複数の色画像データを生成する。また、画像データの濃淡からエッジ部分を検出し、エッジ量が所定値未満しか含まれない領域を写真領域として特定する。そして、この写真領域に基づいて、各色画像データごとに文字領域を検出する。

特開２０１０−２２５１１２号公報

画像に含まれる写真領域における濃淡差が大きい場合には写真領域のエッジ量も大きくなる。特許文献１に記載された技術では、エッジ量が所定値未満しか含まれない領域を写真領域として特定しているため、写真領域における濃淡差が大きい場合には、写真領域を正確に特定できなくなり、文字領域を検出できなくなってしまうおそれがある。

本発明は上記課題に鑑みてなされたものであって、その目的は、画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能な画像処理装置、画像処理方法、及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る画像処理装置は、対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段と、前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段と、前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段と、を含むことを特徴とする。

また、本発明に係る画像処理方法は、対象画像内のエッジのコーナーを特徴点として検出する特徴点検出ステップと、前記特徴点検出ステップにおける検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得ステップと、前記領域取得ステップにおいて取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出ステップと、を含むことを特徴とする。

また、本発明に係るプログラムは、対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段、前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段、及び、前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段、としてコンピュータを機能させることを特徴とするプログラムである。

また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。

また、本発明の一態様では、前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域に基づいて、前記文字領域を検出するようにしてもよい。

また、本発明の一態様では、前記領域取得手段は、略直線上に並び、かつ、同一又は類似の色を有する複数の特徴点を含む領域を取得するようにしてもよい。

また、本発明の一態様では、前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域を結合することによって、前記文字領域を検出し、前記文字領域検出手段は、前記領域取得手段によって取得された第１の領域及び第２の領域がお互いに近接している場合、前記第１の領域に含まれる特徴点の色と、前記第２の領域に含まれる特徴点の色と、が同一又は類似でなかったとしても、前記第１の領域と前記第２の領域とを結合することによって、前記文字領域を検出するようにしてもよい。

また、本発明の一態様では、前記特徴点検出手段は、前記対象画像内のエッジのコーナーを第１特徴点として検出する第１検出手段と、前記対象画像を縮小してなる縮小画像内のエッジのコーナーを第２特徴点として検出する第２検出手段と、を含み、前記領域取得手段は、前記第１検出手段の検出結果に基づいて、略直線上に並ぶ複数の第１特徴点を含む領域を取得する第１取得手段と、前記第２検出手段の検出結果に基づいて、略直線上に並ぶ複数の第２特徴点を含む領域を取得する第２取得手段と、を含み、前記文字領域検出手段は、前記第１取得手段によって取得される領域と、前記第２取得手段によって取得される領域と、に基づいて、前記対象画像内の文字領域を検出するようにしてもよい。なお、第２検出手段による検出や第２取得手段による取得は、縮小画像を徐々に小さくしながら繰り返し実行するようにしてもよい。すなわち、第２検出手段による検出や第２取得手段による取得は、縮小画像の大きさが十分に小さくなるまで繰り返し実行するようにしてもよい。

また、本発明の一態様では、前記文字領域検出手段は、グラフカット法を用いて、前記領域取得手段によって取得された領域のうちから、前記文字領域に含まれる領域を抽出する抽出手段と、前記抽出手段によって抽出された領域に基づいて、前記対象画像内の文字領域を検出する手段と、を含むようにしてもよい。

本発明によれば、画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能になる。また、本発明によれば、文字を含んでいない画像に関しては、濃淡差が大きい領域を誤って文字領域として検出することを防止可能になる。すなわち、文字を含んでいない画像に関しては、濃淡差が大きいような場合であっても、文字が画像に含まれていないと判定することが可能になる。

本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示す図である。商品画像の一例を示す図である。画像処理装置で実現される機能の一例を示す機能ブロック図である。画像処理装置で実行される処理の一例を示す図である。画素がコーナーに相当するか否かを判定するための処理について説明するための図である。画像処理装置において検出される特徴点の一例を示す図である。画像処理装置において取得されるスーパーコーナーの一例を示す図である。グラフカット法について説明するための図である。スーパーコーナーの結合について説明するための図である。縮小画像からスーパーコーナーを検出する意義について説明するための図である。結合領域の統合について説明するための図である。

以下、本発明の実施形態の例について図面に基づき詳細に説明する。

図１は、本発明の実施形態に係る画像処理装置１０のハードウェア構成の一例を示す。画像処理装置１０は、例えばサーバコンピュータ、デスクトップ型コンピュータ、ラップトップ型コンピュータ、又はタブレット型コンピュータ等によって実現される。

図１に示すように、画像処理装置１０は制御部１１、記憶部１２、光ディスクドライブ部１３、通信インタフェース部１４、操作部１５、表示部１６、及び音声出力部１７を含む。

制御部１１は例えば１又は複数のマイクロプロセッサを含み、記憶部１２に記憶されたオペレーティングシステム又はプログラムに従って情報処理を実行する。記憶部１２は例えばＲＡＭ、ハードディスク、又はソリッドステートドライブを含む。光ディスクドライブ部１３は、光ディスク（情報記憶媒体）に記憶されたプログラムやデータを読み取る。

プログラムやデータは光ディスクを介して記憶部１２に供給される。すなわち、プログラムやデータは光ディスクドライブ部１３によって光ディスクから読み出され、記憶部１２に記憶される。なお、光ディスク以外の情報記憶媒体（例えばメモリカード）に記憶されたプログラム又はデータを読み取るための構成要素が画像処理装置１０に含まれていてもよい。そして、光ディスク以外の情報記憶媒体を介してプログラムやデータが記憶部１２に供給されるようにしてもよい。

通信インタフェース部１４は画像処理装置１０を通信ネットワークに接続するためのインタフェースである。画像処理装置１０は通信ネットワークを介して他の装置とデータを授受できるようになっている。なお、プログラム及びデータは通信ネットワークを介して記憶部１２に供給されるようにしてもよい。

操作部１５はユーザが操作を行うためのものである。例えば、キーボード、マウス、タッチパッド、タッチパネル、又はスティック（レバー）等が操作部１５に相当する。表示部１６は例えば液晶表示ディスプレイ又は有機ＥＬディスプレイ等であり、音声出力部１７は例えばスピーカ又はヘッドホン端子等である。

画像処理装置１０はデータベース２０にアクセスできるようになっている。データベース２０は、画像処理装置１０以外の装置（例えばサーバ）において実現されていてもよいし、画像処理装置１０において実現されていてもよい。

データベース２０には画像が記憶される。例えば、図示しないＷｅｂサーバによって提供される仮想商店街サイトにおいて利用される商品画像がデータベース２０に記憶される。すなわち、仮想商店街に出店している店舗の担当者によって用意された商品画像がデータベース２０に記憶される。例えば、商品を撮影した写真画像に「送料無料」や「グランプリ受賞」等のテキストが店舗の担当者によって書き込まれた商品画像がデータベース２０に記憶される。

図２はデータベース２０に記憶される商品画像の一例を示す。図２に示す商品画像３０では、商品（招き猫）を撮影してなる写真画像上に「日本」を示すテキスト３２（文字列）が書き込まれている。なお、このような商品画像３０では、一般的に、テキスト３２が商品自体の色とは異なる目立つ色で書かれていることが多い。また、テキスト３２は単色で書かれることが多く、縦方向、横方向、又は斜め方向に整列している場合が多い。

以下、図２に示すような商品画像３０から、画像編集によってテキスト３２が書き込まれた領域（文字領域）を検出するための技術について説明する。

図３は、画像処理装置１０で実現される機能ブロックのうち、本発明に関連する機能ブロックを示す機能ブロック図である。図３に示すように、画像処理装置１０は特徴点検出部４０、領域取得部４２、及び文字領域検出部４４を含む。図３に示す機能ブロックは画像処理装置１０の制御部１１によって実現される。

特徴点検出部４０は対象画像内のエッジのコーナーを特徴点として検出する。なお、「エッジのコーナー」とは対象画像内の複数のエッジの交点である。

特徴点検出部４０は第１検出部４０Ａ及び第２検出部４０Ｂを含む。第１検出部４０Ａは、対象画像内のエッジのコーナーを第１特徴点として検出する。一方、第２検出部４０Ｂは、対象画像を縮小してなる縮小画像内のエッジのコーナーを第２特徴点として検出する。

なお、特徴点検出部４０、第１検出部４０Ａ、及び第２検出部４０Ｂの機能の詳細については後述する（後述の図４のステップＳ１０３参照）。

領域取得部４２は、特徴点検出部４０の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する。

領域取得部４２は第１取得部４２Ａ及び第２取得部４２Ｂを含む。第１取得部４２Ａは、第１検出部４０Ａの検出結果に基づいて、略直線上に並ぶ複数の第１特徴点を含む領域を取得する。一方、第２取得部４２Ｂは、第２検出部４０Ｂの検出結果に基づいて、略直線上に並ぶ複数の第２特徴点を含む領域を取得する。

なお、領域取得部４２、第１取得部４２Ａ、及び第２取得部４２Ｂの機能の詳細については後述する（後述の図４のステップＳ１０４参照）。

文字領域検出部４４は、領域取得部４２によって取得される領域に基づいて、対象画像内の文字領域を検出する。例えば、文字領域検出部４４は、第１取得部４２Ａによって取得される領域と、第２取得部４２Ｂによって取得される領域と、に基づいて、対象画像内の文字領域を検出する。

より具体的には、文字領域検出部４４は、領域取得部４２（第１取得部４２Ａ及び第２取得部４２Ｂ）によって取得される領域のうちの、互いに近接する領域に基づいて、対象画像内の文字領域を検出する。

例えば、文字領域検出部４４は、領域取得部４２（第１取得部４２Ａ及び第２取得部４２Ｂ）によって取得される領域のうちの、互いに近接する領域を結合することによって、対象画像内の文字領域を検出する。

なお、文字領域検出部４４の機能の詳細については後述する（後述の図４のステップＳ１０５，Ｓ１０６，Ｓ１１１参照）。

図４は、特徴点検出部４０、領域取得部４２、及び文字領域検出部４４を実現するために画像処理装置１０によって実行される処理の一例を示すフロー図である。制御部１１が図４に示す処理をプログラムに従って実行することによって、制御部１１が特徴点検出部４０、領域取得部４２、及び文字領域検出部４４として機能するようになる。以下、図４を参照しながら、特徴点検出部４０、領域取得部４２、及び文字領域検出部４４の詳細について説明する。

図４に示すように、まず、制御部１１は変数ｘを１００％に初期化する（Ｓ１０１）。この変数ｘは後述のステップＳ１０７，Ｓ１０８において用いられる。

また、制御部１１はデータベース２０から画像（例えば商品画像３０）を取得し、その画像を処理対象として設定する（Ｓ１０２）。

そして、制御部１１（特徴点検出部４０、第１検出部４０Ａ）は、処理対象の画像内のエッジのコーナーを特徴点として検出する（Ｓ１０３）。すなわち、制御部１１は、複数の濃淡エッジの交点を特徴点として検出する。

上記特徴点（コーナー）を検出するための手法としては公知の手法が用いられる。例えば、ＦＡＳＴ（Features from Accelerated Segment Test）法が用いられる。以下では、ＦＡＳＴ法を用いる場合について説明する。ただし、ＦＡＳＴ法以外の方法を用いるようにしてもよい。

まず、処理対象の画像がカラー画像である場合、制御部１１は処理対象の画像をグレースケール画像に変換する。そして、制御部１１は、処理対象の画像の各画素に関し、その画素がコーナーに相当するか否かを判定する。図５は、画素がコーナーに相当するか否かを判定するための処理（ＦＡＳＴ法）について説明するための図である。

例えば、図５に示す画素Ｐ０が下記に説明するような条件を満足する場合、制御部１１は画素Ｐ０がコーナー（より詳しくはコーナー内側の点）に相当すると判定する。

まず、制御部１１は、画素Ｐ０を中心とする所定半径の円上の画素を特定する。図５に示す例の場合、画素Ｐ１〜Ｐ１６が上記円上の画素に相当している。また、制御部１１は、画素Ｐ０の値と、画素Ｐ１〜Ｐ１６の各々の値と、の差が閾値以上であるか否かを判定する。

そして、画素Ｐ１〜Ｐ１６のうちで、画素Ｐ０の値よりも閾値以上大きい値を有するピクセルが所定数以上連続している場合に、制御部１１は画素Ｐ０がコーナーに相当していると判定する。また、画素Ｐ１〜Ｐ１６のうちで、画素Ｐ０の値よりも閾値以上小さい値を有する画素が所定数以上連続している場合にも、制御部１１は画素Ｐ０がコーナーに相当していると判定する。

ステップＳ１０３において、制御部１１は、ＦＡＳＴ法を用いた処理を実行することによって、処理対象の画像のＦＡＳＴ特徴量を取得することになる。このＦＡＳＴ特徴量には、コーナー（より詳しくはコーナー内側の点）に相当する点の座標と、その点の色情報と、が含まれる。

図６は、図２に示す商品画像３０が処理対象である場合にステップＳ１０３で検出される特徴点の一例を示す。図６に示された黒丸及び白丸は、ステップＳ１０３で検出される特徴点５０を示している。なお、図６では、商品画像３０内のテキスト３２の周辺部分のみについて示している。

例えば、漢字には、縦方向に伸びる線や横方向に伸びる線等が含まれ、それらの線が交わるため、図６では、「日本」を示す漢字内の線同士が交わる箇所が特徴点５０として検出されている。図６ではこれらの特徴点５０を黒丸で表している。

なお、商品画像３０では、テキスト３２（漢字）が記載された部分以外の部分においても、延伸方向が異なる複数のエッジが交わる箇所が存在し得るため、図６では、テキスト３２（漢字）が記載された部分以外の部分においても特徴点５０が検出されている。図６ではこれらの特徴点５０を白丸で表している。

ステップＳ１０３が実行された後、制御部１１（領域取得部４２、第１取得部４２Ａ）はスーパーコーナーを取得する（Ｓ１０４）。なお、ここでは、略直線上に並ぶ複数の特徴点５０であって、かつ、同一又は類似の色を有する複数の特徴点５０を含む領域のことを「スーパーコーナー」と呼んでいる。

先述したように、商品画像３０に書き込まれるテキスト３２は単色であることが多く、縦方向や横方向に整列している場合が多い。このため、文字領域に含まれる特徴点５０は一般的に下記のような特徴を有している。
（１）特徴点５０は互いに直交する縦方向又は横方向の直線上に並ぶ。
（２）一つの直線上に並ぶ特徴点５０は同一又は類似の色を有する。

そこで、これらの点に着目して、ステップＳ１０４では、下記条件（Ａ）〜（Ｄ）をすべて満足するような特徴点群を探し出し、その特徴点群を含む矩形領域をスーパーコーナーとして取得する。
（Ａ）複数の特徴点５０が縦、横、又は斜め方向に略直線上に並んでいる。
（Ｂ）複数の特徴点５０が同一又は類似の色を有している。
（Ｃ）隣り合う特徴点５０同士の距離が第１の閾値以下である。
（Ｄ）一方の端側の特徴点５０から他方の端側の特徴点５０までの距離が第２の閾値（第１の閾値よりも大きい閾値）以上である。

なお、上記条件（Ａ）に関し、例えば、直線からの距離（すなわち、直線への垂線の長さ）が閾値（例えば数ドット）以下である複数の特徴点５０が存在している場合に、制御部１１はそれら複数の特徴点５０が略直線上に並んでいるとみなす。

また、上記条件（Ｂ）に関し、例えば、複数の特徴点５０の色が予め定められたＮ個（例えば３２個）の色グループのうちの同一の色グループに属する場合に、制御部１１はそれら複数の特徴点５０の色が同一又は類似であるとみなす。

なお、上記条件（Ｃ）は、文字領域に含まれる特徴点５０と、文字領域以外の領域に含まれる特徴点５０と、をできる限り分けるために設けられた条件である。

図７は、ステップＳ１０４で取得されるスーパーコーナーの一例を示す。図７に示す例では、スーパーコーナー６０Ａ〜６０Ｉが取得されている。なお、図７では、説明の簡便のため、ステップＳ１０４で取得されるスーパーコーナーの一部を記載しており、実際には、スーパーコーナー６０Ａ〜６０Ｉ以外のスーパーコーナー６０も取得される。また、以下では、スーパーコーナー６０Ａ〜６０Ｉ等のことを総称して「スーパーコーナー６０」と記載する場合である。

ステップＳ１０４が実行された後、制御部１１（抽出手段）は、ステップＳ１０４で取得されたスーパーコーナー６０のうちから、文字領域に含まれるスーパーコーナー６０を抽出する（Ｓ１０５）。

例えば、図７に示した例では、文字領域に含まれるスーパーコーナー６０Ａ〜６０Ｈと、文字領域に含まれていないスーパーコーナー６０Ｉと、が取得されている。ステップＳ１０５では、これらのスーパーコーナー６０Ａ〜６０Ｉのうちから、文字領域に含まれるスーパーコーナー６０Ａ〜６０Ｈを抽出するための処理が実行される。

例えば、画像処理装置１０では、公知のグラフカット法を応用することによって、ステップＳ１０４で取得されたスーパーコーナー６０のうちから、文字領域に含まれるスーパーコーナー６０を抽出する。

グラフカット法は、通常、画像の前景と背景を分離するために用いられる公知の手法であり、例えば、画像内のオブジェクト領域を検出するために用いられる。ステップＳ１０５では、文字領域に含まれるスーパーコーナー６０を抽出するべく、文字領域を前景とみなし、かつ、その他の領域を背景とみなして、グラフカット法が用いられる。なお、通常、グラフカット法では、「スーパーピクセル」という面（領域）を定義して用いるようになっているが、ステップＳ１０５では、「スーパーピクセル」ではなく、スーパーコーナー６０を用いる。

図８はグラフカット法の応用について説明するための図である。グラフカット法では、図８に示すように、Ｓｏｕｒｃｅに相当するターミナルＳと、Ｓｉｎｋに相当するターミナルＴとが設定される。また、各スーパーコーナー６０がノードとして設定される。

また、ターミナルＳと各ノード（スーパーコーナー６０）との間にエッジＴＬ_Ｓが設定され、ターミナルＴと各ノード（スーパーコーナー６０）との間にエッジＴＬ_Ｔが設定される。なお、図８では、説明の簡便のため、ターミナルＳとスーパーコーナー６０Ａ，６０Ｂ，６０Ｃとの間のエッジＴＬ_Ｓと、ターミナルＴとスーパーコーナー６０Ａ，６０Ｂ，６０Ｃとの間のエッジＴＬ_Ｔとのみが示されており、他のエッジＴＬ_Ｓ，ＴＬ_Ｔは省略している。

ステップＳ１０５では、エッジＴＬ_Ｓ側のエネルギー量よりもエッジＴＬ_Ｔ側のエネルギー量が多いスーパーコーナー６０を、文字領域に含まれるスーパーコーナー６０として抽出する。

なお、エネルギー関数は下記式（１）〜（３）のように定義される。

また、エッジＴＬ_Ｓに関するコストＣ_Ｓは下記式（４）のように設定され、各エッジＴＬ_Ｔに関するコストＣ_Ｔが下記式（５）のように設定される。

なお、上記式（２）において記載したように、上記式（４）に示す関数は、スーパーコーナー６０（すなわち、スーパーコーナー６０に含まれる特徴点５０）が背景領域（文字領域以外の領域）に含まれる確率が高いほど、値が小さくなるような関数である。このため、コストＣ_Ｓは、スーパーコーナー６０が背景領域に含まれる場合に値が小さくなるようになっている。

同様に、上記式（５）に示す関数は、スーパーコーナー６０（すなわち、スーパーコーナー６０に含まれる特徴点５０）が文字領域に含まれる確率が高いほど、値が小さくなるような関数である。このため、コストＣ_Ｔは、スーパーコーナー６０が文字領域に含まれる場合に値が小さくなるようになっている。

一般的に、文字領域では背景領域に比べて特徴点５０の密度が高くなるため、文字領域におけるスーパーコーナー６０に含まれる特徴点５０の数は、背景領域におけるスーパーコーナー６０に含まれる特徴点５０の数よりも多くなる傾向がある。また、文字領域に含まれるスーパーコーナー６０の長さは、背景領域に含まれるスーパーコーナー６０の長さよりも長くなる傾向がある。このため、スーパーコーナー６０に含まれる特徴点５０の数が多いほど、そのスーパーコーナー６０は文字領域に含まれている可能性が高くなる。また、スーパーコーナー６０が長いほど、そのスーパーコーナー６０は文字領域に含まれている可能性が高くなる。このため、上記式（４）及び（５）は、スーパーコーナー６０に含まれる特徴点５０の数が多いほど、コストＣ_Ｓが大きくなり、かつ、コストＣ_Ｔが小さくなるように設定される。また、上記式（４）及び（５）は、スーパーコーナー６０が長いほど、コストＣ_Ｓが大きくなり、かつ、コストＣ_Ｔが小さくなるように設定される。

また、図８では省略しているが、ノード（スーパーコーナー６０）間にもエッジＮＬが設定される。そして、ノードｓ_ｉ（スーパーコーナー６０）と、ノードｓ_ｊ（スーパーコーナー６０）と、の間のエッジＮＬに関するコストＣ_Ｎが下記式（６）〜（９）のように設定される。

上記式（６）に示すように、コストＣ_Ｎは、上記式（７）が示すコストＣ_Ａと、上記式（８）が示すコストＣ_Ｂと、上記式（９）が示すコストＣ_Ｃとの和になっている。

先述したように、商品画像３０に書き込まれるテキスト３２は単色であることが多く、縦方向や横方向に整列している場合が多い。このため、例えば図７に示すスーパーコーナー６０Ａ〜６０Ｈのように、一般的に、文字領域に含まれるスーパーコーナー６０同士は、互いに略平行で、かつ、近接する傾向がある。あるいは、文字領域に含まれるスーパーコーナー６０同士は交わる傾向がある。また、文字領域に含まれるスーパーコーナー６０同士は同一又は類似の色を有している傾向がある。

このため、二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）が略平行で、かつ、近接している場合にコストＣ_Ｎが小さくなるように、上記式（６）〜（９）は設定される。また、二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）が交わる場合にコストＣ_Ｎが小さくなるように、上記式（６）〜（９）は設定される。同様に、二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）の色が同一又は類似である場合にコストＣ_Ｎが小さくなるように、上記式（６）〜（９）は設定される。

例えば、上記式（７）において、関数ｅｖａｌ（ｓ_ｉ，ｓ_ｊ）は、二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）が平行又は直角に近いほど小さい値になるような関数である。このため、二つのスーパーコーナー６０（ノードｓｉ，ｓｊ）が平行で近接しているほど、上記式（７）が示すコストＣ_Ａは小さくなる。

なお、上記式（７）はガウス分布（確率分布）を示し、上記式（７）における分母は分散を示している。この分散の値が大きくなるほど、ガウス分布の裾野が広がり、値が小さいほど、鋭いピークを有する。この値は予め行われる実験によって決められる。例えば、ピークを鋭くすると、複数のガウス分布同士が交わる確率が小さくなり、その結果として、近接するスーパーコーナー６０同士が分離されやすくなる。一方、ガウス分布の裾野を広げると、複数のガウス分布同士が交わる確率が大きくなり、その結果として、近接するスーパーコーナー６０同士が分離されにくくなる。

また、上記式（８）において、関数ｏｒｔｈ（ｓ_ｉ，ｓ_ｊ）は、二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）の直交関係を示す関数であり、二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）が直交する場合に小さい値になるような関数である。このため、二つのスーパーコーナー６０（ノードｓｉ，ｓｊ）が直交しているほど、上記式（８）が示すコストＣ_Ｂは小さくなる。なお、上記式（７）と同様、上記式（８）はガウス分布（確率分布）を示し、上記式（８）における分母は分散を示している。

なお、二つのスーパーコーナー６０のなす角度が９０度であったとしても、二つのスーパーコーナー６０が実際に交わらなければ、これらの二つのスーパーコーナー６０が直交しているとは判断しない。例えば、図７に示した例の場合、スーパーコーナー６０Ａ，６０Ｂは実際に交わっているため、スーパーコーナー６０Ａ，６０Ｂは直交していると判断される。一方、スーパーコーナー６０Ａ，６０Ｄのなす角度は略９０度であるが、スーパーコーナー６０Ａ，６０Ｄは実際に交わっていないため、スーパーコーナー６０Ａ，６０Ｄは直交していないと判断される。

また、上記式（９）において、ｃｄｉｓｔ（ｓ_ｉ，ｓ_ｊ）は二つのスーパーコーナー６０（ノードｓ_ｉ，ｓ_ｊ）の間の色の差を示す関数であり、色の差が小さいほど小さい値になるような関数である。このため、二つのスーパーコーナー６０（ノードｓｉ，ｓｊ）の間の色の差が小さいほど、上記式（９）が示すコストＣ_Ｃは小さくなる。すなわち、二つのスーパーコーナー６０（ノードｓｉ，ｓｊ）が属する色グループが同一であるほど、上記式（９）が示すコストＣ_Ｃは小さくなる。なお、上記式（７）と同様、上記式（９）はガウス分布（確率分布）を示し、上記式（９）における分母は分散を示している。

グラフカット法では、どのように各ノード（スーパーコーナー６０）を文字領域又は背景領域に分類すれば、上記に説明したコストＣ_Ｓ，Ｃ_Ｔ，Ｃ_Ｎの和が最小となるのかを判断する。

すなわち、ステップＳ１０５では、上記に説明したコストＣ_Ｓ，Ｃ_Ｔ，Ｃ_Ｎの和が最小となるように、各ノード（スーパーコーナー６０）を文字領域又は背景領域に分類することによって、文字領域に含まれるスーパーコーナー６０が抽出される。

ステップＳ１０５が実行された後、制御部１１は、所定条件の下、ステップＳ１０５で抽出されたスーパーコーナー６０を結合する（Ｓ１０６）。

例えば、制御部１１は、ステップＳ１０５で抽出されたスーパーコーナー６０のうちの、互いに近接し、かつ、略平行するスーパーコーナー６０を結合する。すなわち、略平行するスーパーコーナー６０の間の距離が基準距離未満である場合に、制御部１１はそれらのスーパーコーナー６０を結合する。また例えば、制御部１１は、ステップＳ１０５で抽出されたスーパーコーナー６０のうちの、互いに交わるスーパーコーナー６０を結合する。

この場合、一方のスーパーコーナー６０に含まれる特徴点５０の属する色グループと、他方のスーパーコーナー６０に含まれる特徴点５０の属する色グループと、が異なっていたとしても、すなわち、一方のスーパーコーナー６０に含まれる特徴点５０の色と、他方のスーパーコーナー６０に含まれる特徴点５０の色と、が同一又は類似でなかったとしても、制御部１１はそれら二つのスーパーコーナー６０を結合する。

複数のスーパーコーナー６０を結合する場合、制御部１１は、それら複数のスーパーコーナー６０を含むような矩形領域を、それら複数のスーパーコーナー６０を結合してなる結合領域として生成する。

ここで、ステップＳ１０５において、図７に示すスーパーコーナー６０Ａ〜６０Ｈが、文字領域に含まれるスーパーコーナー６０として抽出された場合を想定する。

この場合、スーパーコーナー６０Ａ，６０Ｃは互いに近接し、かつ、略平行しているため、制御部１１はスーパーコーナー６０Ａ，６０Ｃを結合する。同様に、スーパーコーナー６０Ｅ，６０Ｆは互いに近接し、かつ、略平行しているため、制御部１１はスーパーコーナー６０Ｅ，６０Ｆを結合する。さらに、スーパーコーナー６０Ｇ，６０Ｈは互いに近接し、かつ、略平行しているため、制御部１１はスーパーコーナー６０Ｇ，６０Ｈを結合する。

また、スーパーコーナー６０Ｂはスーパーコーナー６０Ａ，６０Ｃ，６０Ｅ，６０Ｆ，６０Ｇと交わっているため、制御部１１はスーパーコーナー６０Ｂをスーパーコーナー６０Ａ，６０Ｃ，６０Ｅ，６０Ｆ，６０Ｇと結合する。同様に、スーパーコーナー６０Ｄはスーパーコーナー６０Ｃ，６０Ｅ，６０Ｆ，６０Ｇ，６０Ｈと交わっているため、制御部１１はスーパーコーナー６０Ｄをスーパーコーナー６０Ｃ，６０Ｅ，６０Ｆ，６０Ｇ，６０Ｈと結合する。

以上より、上記の場合、制御部１１はスーパーコーナー６０Ａ〜６０Ｈを結合することになる。すなわち、制御部１１は、図９に示すように、スーパーコーナー６０Ａ〜６０Ｈを含む矩形領域を、スーパーコーナー６０Ａ〜６０Ｈを結合してなる結合領域７０として取得する。

複数のスーパーコーナー６０を結合することによって結合領域７０を取得した場合には、結合したスーパーコーナー６０の数を結合領域７０に関連付けて保持しておく。この数は後述のステップＳ１１１において用いられる。

なお、複数のスーパーコーナー６０を結合することによって生成される結合領域７０の縦辺及び横辺の長さがともに第１の閾値（例えば２０ピクセル）未満である場合には、それら複数のスーパーコーナー６０を結合しないようにするとよい。

通常、文字領域（テキストが書き込まれた領域）は横長又は縦長の領域になる可能性が高い。この点、結合領域７０の縦辺及び横辺の長さがともに短い場合、その結合領域７０は文字領域に相当していない可能性が高い。このため、上記のようにすれば、文字領域に相当していない可能性が高い結合領域７０が無視されるようになり、その結果として、文字領域の検出精度を向上することが可能になる。

また、複数のスーパーコーナー６０を結合することによって生成される結合領域７０の縦辺及び横辺の長さが第１の閾値（例えば２０ピクセル）よりも大きく、第２の閾値（第１の閾値よりも大きい閾値：例えば３０ピクセル）未満であり、かつ、結合領域７０と最も近い他のスーパーコーナー６０との間の距離が閾値以上である場合にも、それら複数のスーパーコーナー６０を結合しないようにするとよい。

結合領域７０がそれ程大きくない場合であっても、その結合領域７０（複数のスーパーコーナー６０）の付近に他のスーパーコーナー６０が存在しているのであれば、結合領域７０と当該他のスーパーコーナー６０とがさらに結合されてなる結合領域７０は文字領域に相当している可能性がある。一方、結合領域７０の付近に他のスーパーコーナー６０が存在していないのであれば、その結合領域７０は文字領域に相当していない可能性が高い。このため、上記のようにすれば、文字領域に相当していない可能性が高い結合領域７０が無視されるようになり、その結果として、文字領域の検出精度を向上することが可能になる。

ステップＳ１０６が実行された後、制御部１１は変数ｘに０．５を乗じ（Ｓ１０７）、元々の画像をｘ％に縮小してなる縮小画像を取得する（Ｓ１０８）。なお、ステップＳ１０７において、変数ｘに乗じる値は０．５に限られず、０よりも大きく、かつ、１よりも小さい他の値を変数ｘに乗じるようにしてもよい。

ステップＳ１０８が実行された後、制御部１１は、ステップＳ１０８で取得された縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値（例えば６４ピクセル）以下であるか否かを判定する（Ｓ１０９）。縮小画像の縦辺及び横辺のいずれもが閾値以下でない場合（Ｓ１０９：Ｎ）、制御部１１はステップＳ１０８で取得された縮小画像を処理対象として設定する（Ｓ１１０）。その後、制御部１１（第２検出部４０Ｂ及び第２取得部４２Ｂ）はステップＳ１０３〜Ｓ１０９を実行する。この場合、縮小画像を処理対象として、特徴点５０の検出、スーパーコーナー６０の検出や、結合領域７０の取得が実行される。

ここで、縮小画像を処理対象としてステップＳ１０３〜Ｓ１０６を実行する意義について説明する。図１０はこの意義について説明するための図である。ここでは、図１０（Ａ）に示すような「口」を示す漢字が商品画像３０に書き込まれている場合を想定する。なお、図１０（Ａ）〜（Ｃ）では、「口」を示す漢字が記載されている部分の周辺のみを示している。

このような場合、縮小されていない状態の商品画像３０では、図１０（Ａ）に示すような特徴点５０（第１の特徴点）がステップＳ１０３において検出される。そして、スーパーコーナー６０Ｊ，６０Ｋ，６０Ｌ，６０ＭがステップＳ１０４において取得される。しかしながら、この場合、スーパーコーナー６０Ｊ〜６０Ｍが、文字領域に含まれるスーパーコーナー６０としてステップＳ１０５において抽出されたとしても、これらのスーパーコーナー６０Ｊ〜６０Ｍは近接しておらず、かつ、交わってもいないため、これらのスーパーコーナー６０Ｊ〜６０Ｍは結合されない。その結果、このままでは文字領域が十分に検出されなくなってしまう。

一方、図１０（Ｂ）に示すような縮小された状態の商品画像３０では、図１０（Ｂ）に示すような特徴点５０（第２の特徴点）がステップＳ１０３において検出される。そして、スーパーコーナー６０Ｎ，６０Ｏ，６０Ｐ，６０ＱがステップＳ１０４において取得される。なお、実際には、スーパーコーナー６０Ｎ〜６０Ｑ以外のスーパーコーナー６０も取得されるが、説明の簡便のため、図１０（Ｂ）では省略している。

そして、ステップＳ１０５において、スーパーコーナー６０Ｎ〜６０Ｑが文字領域に含まれるスーパーコーナー６０として抽出された場合には、スーパーコーナー６０Ｎ，６０Ｏがスーパーコーナー６０Ｐ，６０Ｑと交わっているため、ステップＳ１０６において、スーパーコーナー６０Ｎ〜６０Ｑが結合される。すなわち、図１０（Ｃ）に示すように、スーパーコーナー６０Ｎ〜６０Ｑを結合してなる結合領域７０が生成される。

なお、互いに近接する又は交わるスーパーコーナー６０が検出されないことは、画像（商品画像３０）内に書き込まれた文字のサイズが大きいような場合にも起こり得る。このような場合にも、画像を縮小してなる縮小画像からスーパーコーナー６０を検出することによって不都合を解消することができる。

以上のように、画像（商品画像３０）内に書き込まれた文字の種類やサイズによっては、原サイズの画像においてスーパーコーナー６０を十分に検出できなくなる場合があることを考慮して、画像処理装置１０では、画像を縮小してなる縮小画像からもスーパーコーナー６０を検出するようにしている。

なお、ステップＳ１０３〜Ｓ１０８は、縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値以下になるまで繰り返し実行される。縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値以下になった場合とは、縮小画像がかなり小さくなった場合である。処理対象の画像が小さくなりすぎると、特徴点５０やスーパーコーナー６０の検出等に不都合が生じるため、画像処理装置１０では、縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値以下になったら、ステップＳ１０３〜Ｓ１０８を実行しないようになっている。

縮小画像の縦辺及び横辺の少なくとも一方が閾値以下になった場合（Ｓ１０９：Ｙ）、制御部１１は、原サイズの画像（原画像）において取得された結合領域７０と、縮小画像において取得された結合領域７０と、を統合することによって、文字領域を検出する（Ｓ１１１）。

図１１は結合領域７０の統合について説明するための図である。なお、図１１は図１０に示した場合を想定している。すなわち、図１１は、例えば図１０（Ａ）に示すようなスーパーコーナー６０Ｊ〜６０Ｍが原サイズの画像において取得され、図１０（Ｃ）に示すような結合領域７０が縮小画像において取得された場合を想定している。

このような場合、制御部１１は、縮小画像において取得された結合領域７０を、縮小画像と元のサイズ（原サイズ）の画像とのサイズ比に応じて拡大する。すなわち、制御部１１は、縮小画像において取得された結合領域７０を、縮小画像を原サイズの画像に戻す場合の拡大率で拡大する。つまり、制御部１１は、縮小画像を原サイズに戻すべく縮小画像を拡大した場合における結合領域７０を取得する。例えば、縮小画像が原サイズの画像を５０％に縮小したものである場合、制御部１１は、縮小画像を２倍に拡大した場合における結合領域７０を取得する。

その後、制御部１１は、原サイズの画像において取得された結合領域７０と、縮小画像において取得された結合領域７０を拡大したものと、を統合することによって、文字領域を取得する。すなわち、制御部１１は、原サイズの画像において取得された結合領域７０と、縮小画像において取得された結合領域７０を拡大したものと、を含むような矩形領域を取得する。そして、制御部１１はこの矩形領域を文字領域８０とみなす。

なお、図１１に示す例の場合、原サイズの画像において結合領域７０が取得されていないため、制御部１１は、縮小画像において取得された結合領域７０を拡大したものを文字領域８０としてみなすことになる。

ところで、一又は複数の文字が画像に書き込まれている場合、例えば図７に示すように、ある程度の数のスーパーコーナー６０が存在しているはずである。このため、個々の画像（原サイズの画像又は縮小画像）において取得されたスーパーコーナー６０の数が所定数（例えば２個）以下である場合、その画像には文字領域が存在しないとみなすようにするとよい。このようにすれば、文字領域の検出精度を向上することができる。

また、結合領域７０が文字領域に相当しているのであれば、その結合領域７０には、ある程度の数のスーパーコーナー６０が含まれているはずである。このため、個々の画像（原サイズの画像又は縮小画像）において取得された結合領域７０が所定数未満のスーパーコーナー６０を結合したものである場合、そのような結合領域７０をステップＳ１１１において他の結合領域７０と統合しないようにしてもよい。すなわち、このような結合領域７０は文字領域の一部としてみなさないようにするとよい。このようにすれば、文字領域の検出精度を向上することができる。

また、ある画像（例えば原サイズの画像）の結合領域７０と、他の画像（例えば縮小画像）の結合領域７０とを統合する場合、それらの結合領域７０の共通領域の広さが、それらの結合領域７０を統合した場合の領域の広さの所定割合以下であるならば、それらの結合領域７０を統合しないようにするとよい。例えば、縦方向に伸びる結合領域７０の一方の端と、横方向に伸びる結合領域７０の一方の端と、が交わっているような場合にそれらの結合領域７０を統合すると、結合領域７０以外の領域が大部分を占めるような領域が文字領域８０としてみなされるようになってしまう。このような領域を文字領域８０としてみなすのは適切でない。この点、上記のようにすれば、上記のような領域が文字領域８０としてみなされないようになり、その結果として、文字領域の検出精度を向上することができる。なお、スーパーコーナー６０を結合する場合にも同様にするようにしてもよい。

以上説明した画像処理装置１０では、画像内のエッジ（濃淡エッジ）のコーナーが特徴点５０として検出される。そして、画像処理装置１０では、文字領域内に含まれる特徴点５０（エッジのコーナー）が有する傾向に着目して、画像内の文字領域が特徴点５０に基づいて検出されるようになっている。その結果、本実施形態に係る画像処理装置１０によれば、画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能になる。

また、本実施形態に係る画像処理装置１０によれば、画像が文字を含んでいない場合には、画像内の濃淡差が大きかったとしても、文字領域が検出されない。すなわち、画像処理装置１０によれば、画像が文字を含んでいない場合には、濃淡差が大きかったとしても、文字が画像に含まれていないと判定されるようになる。つまり、画像処理装置１０は、画像に文字領域が含まれていないことを判定するような場合（画像に文字領域が含まれているか否かを判定するような場合）にも利用することができる。

画像内の文字領域を検出するための方法としては、画像内のエッジ（濃淡エッジ）を検出し、それらのエッジに基づいて、文字領域を検出する方法も考えられる。しかしながら、画像処理装置１０によれば、文字領域の検出に必要なエッジ部分（エッジのコーナー）のみを検出することによって、文字領域を検出するようになっているため、画像内のエッジ部分をすべて検出する場合に比べて、全体の処理負荷を軽減することが可能になる。

なお、図６に示されるように、文字を構成する線がコーナーを形成している場合、そのコーナーの内側及び外側の二つの特徴点５０が得られる。また、文字に縁取りが施されていれば、その縁取りに関しても特徴点５０が得られる。このように、画像内のエッジ部分（濃淡エッジ）をすべて用いなくても、文字領域を検出するために十分な数の特徴点５０は得られる。

また、画像処理装置１０では、グラフカット法を応用することによって、画像から取得されたスーパーコーナー６０のうちから、文字領域に含まれるスーパーコーナー６０を抽出することが可能になっている。

さらに、画像処理装置１０では、縮小画像からもスーパーコーナー６０を取得するようになっており、その結果として、文字領域の検出精度が向上するようになっている。

また、ＦＡＳＴ法を用いた場合、文字を構成する線のコーナーにおける内側の特徴点５０は背景色を有し、外側の特徴点５０は文字色を有することになる。そして、画像処理装置１０では、複数のスーパーコーナー６０が略平行で近接している場合や、複数のスーパーコーナー６０が交わっている場合、スーパーコーナー６０に含まれる特徴点５０の色がスーパーコーナー６０の間で同一又は類似でなかったとしても、それら複数のスーパーコーナー６０を結合するようになっている。その結果、画像処理装置１０によれば、文字領域をもれなく検出できるようになる。

なお、本発明は以上に説明した実施形態に限定されるものではない。

例えば、本発明は、商品画像３０以外の画像から文字領域を検出する場合にも適用することが可能である。

１０画像処理装置、１１制御部、１２記憶部、１３光ディスクドライブ部、１４通信インタフェース部、１５操作部、１６表示部、１７音声出力部、２０データベース、３０画像、３２テキスト、４０特徴点検出部、４０Ａ第１検出部、４０Ｂ第２検出部、４２領域取得部、４２Ａ第１取得部、４２Ｂ第２取得部、４４文字領域検出部、５０特徴点、６０Ａ〜６０Ｓスーパーコーナー、７０結合領域、８０文字領域。

Claims

対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段と、
前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段と、
前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段と、
を含むことを特徴とする画像処理装置。
請求項１に記載の画像処理装置において、
前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域に基づいて、前記文字領域を検出する、
ことを特徴とする画像処理装置。
請求項１又は２に記載の画像処理装置において、
前記領域取得手段は、略直線上に並び、かつ、同一又は類似の色を有する複数の特徴点を含む領域を取得する、
ことを特徴とする画像処理装置。
請求項３に記載の画像処理装置において、
前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域を結合することによって、前記文字領域を検出し、
前記文字領域検出手段は、前記領域取得手段によって取得された第１の領域及び第２の領域が互いに近接している場合、前記第１の領域に含まれる特徴点の色と、前記第２の領域に含まれる特徴点の色と、が同一又は類似でなかったとしても、前記第１の領域と前記第２の領域とを結合することによって、前記文字領域を検出する、
ことを特徴とする画像処理装置。
請求項１乃至４のいずれかに記載の画像処理装置において、
前記特徴点検出手段は、
前記対象画像内のエッジのコーナーを第１特徴点として検出する第１検出手段と、
前記対象画像を縮小してなる縮小画像内のエッジのコーナーを第２特徴点として検出する第２検出手段と、を含み、
前記領域取得手段は、
前記第１検出手段の検出結果に基づいて、略直線上に並ぶ複数の第１特徴点を含む領域を取得する第１取得手段と、
前記第２検出手段の検出結果に基づいて、略直線上に並ぶ複数の第２特徴点を含む領域を取得する第２取得手段と、を含み、
前記文字領域検出手段は、前記第１取得手段によって取得される領域と、前記第２取得手段によって取得される領域と、に基づいて、前記対象画像内の文字領域を検出する、
ことを特徴とする画像処理装置。
請求項１乃至５のいずれかに記載の画像処置装置において、
前記文字領域検出手段は、
グラフカット法を用いて、前記領域取得手段によって取得された領域のうちから、前記文字領域に含まれる領域を抽出する抽出手段と、
前記抽出手段によって抽出された領域に基づいて、前記対象画像内の文字領域を検出する手段と、を含む、
ことを特徴とする画像処理装置。
対象画像内のエッジのコーナーを特徴点として検出する特徴点検出ステップと、
前記特徴点検出ステップにおける検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得ステップと、
前記領域取得ステップにおいて取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出ステップと、
を含むことを特徴とする画像処理方法。
対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段、
前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段、及び、
前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段、
としてコンピュータを機能させることを特徴とするプログラム。