JP2014044470A - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2014044470A
JP2014044470A JP2012184906A JP2012184906A JP2014044470A JP 2014044470 A JP2014044470 A JP 2014044470A JP 2012184906 A JP2012184906 A JP 2012184906A JP 2012184906 A JP2012184906 A JP 2012184906A JP 2014044470 A JP2014044470 A JP 2014044470A
Authority
JP
Japan
Prior art keywords
area
region
image
character
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012184906A
Other languages
English (en)
Other versions
JP2014044470A5 (ja
JP5679229B2 (ja
Inventor
Hiromi Hirano
廣美 平野
Makoto Okabe
誠 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2012184906A priority Critical patent/JP5679229B2/ja
Priority to US14/423,437 priority patent/US9619700B2/en
Priority to PCT/JP2013/065115 priority patent/WO2014030406A1/ja
Publication of JP2014044470A publication Critical patent/JP2014044470A/ja
Publication of JP2014044470A5 publication Critical patent/JP2014044470A5/ja
Application granted granted Critical
Publication of JP5679229B2 publication Critical patent/JP5679229B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1473Recognising objects as potential recognition candidates based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

【課題】画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能な画像処理装置を提供すること。
【解決手段】特徴点検出部40は、対象画像内のエッジのコーナーを特徴点として検出する。領域取得部42は、特徴点検出部40の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する。文字領域検出部44は、領域取得部42によって取得される領域に基づいて、対象画像内の文字領域を検出する。
【選択図】図3

Description

本発明は画像処理装置、画像処理方法、及びプログラムに関する。
画像処理の分野では、画像編集によって挿入された文字領域が画像に含まれている否かを判定したい場合や、画像編集によって挿入された全ての文字領域を画像からもれなく検出したい場合がある。
例えば、仮想商店街サイトでは、仮想商店街に出店している複数の店舗が掲載している商品画像のうちから、例えば「送料無料」や「グランプリ受賞」等のテキストが書き込まれていない商品画像を抽出し、その商品画像をトップページ等に掲載したい場合がある。このような場合、画像編集によって挿入された文字領域が商品画像に含まれている否かを判定する必要がある。
また例えば、仮想商店街サイトでは、薬事法等の法律上不正となるテキストが商品画像に書き込まれているか否かを確認したい場合がある。このような場合、画像編集によって挿入された全ての文字領域を画像からもれなく検出する必要がある。
画像に含まれている文字領域を検出するための技術としては、例えば特許文献1に開示された技術が知られている。特許文献1は、文字及び画像がレイアウトされた折込チラシの文字領域を検出するための技術について開示している(第0019段落、第0020段落、及び図3参照)。特許文献1に開示された技術では、画像データを色ごとに分離することによって、複数の色画像データを生成する。また、画像データの濃淡からエッジ部分を検出し、エッジ量が所定値未満しか含まれない領域を写真領域として特定する。そして、この写真領域に基づいて、各色画像データごとに文字領域を検出する。
特開2010−225112号公報
画像に含まれる写真領域における濃淡差が大きい場合には写真領域のエッジ量も大きくなる。特許文献1に記載された技術では、エッジ量が所定値未満しか含まれない領域を写真領域として特定しているため、写真領域における濃淡差が大きい場合には、写真領域を正確に特定できなくなり、文字領域を検出できなくなってしまうおそれがある。
本発明は上記課題に鑑みてなされたものであって、その目的は、画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能な画像処理装置、画像処理方法、及びプログラムを提供することにある。
上記課題を解決するために、本発明に係る画像処理装置は、対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段と、前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段と、前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段と、を含むことを特徴とする。
また、本発明に係る画像処理方法は、対象画像内のエッジのコーナーを特徴点として検出する特徴点検出ステップと、前記特徴点検出ステップにおける検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得ステップと、前記領域取得ステップにおいて取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出ステップと、を含むことを特徴とする。
また、本発明に係るプログラムは、対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段、前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段、及び、前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段、としてコンピュータを機能させることを特徴とするプログラムである。
また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。
また、本発明の一態様では、前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域に基づいて、前記文字領域を検出するようにしてもよい。
また、本発明の一態様では、前記領域取得手段は、略直線上に並び、かつ、同一又は類似の色を有する複数の特徴点を含む領域を取得するようにしてもよい。
また、本発明の一態様では、前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域を結合することによって、前記文字領域を検出し、前記文字領域検出手段は、前記領域取得手段によって取得された第1の領域及び第2の領域がお互いに近接している場合、前記第1の領域に含まれる特徴点の色と、前記第2の領域に含まれる特徴点の色と、が同一又は類似でなかったとしても、前記第1の領域と前記第2の領域とを結合することによって、前記文字領域を検出するようにしてもよい。
また、本発明の一態様では、前記特徴点検出手段は、前記対象画像内のエッジのコーナーを第1特徴点として検出する第1検出手段と、前記対象画像を縮小してなる縮小画像内のエッジのコーナーを第2特徴点として検出する第2検出手段と、を含み、前記領域取得手段は、前記第1検出手段の検出結果に基づいて、略直線上に並ぶ複数の第1特徴点を含む領域を取得する第1取得手段と、前記第2検出手段の検出結果に基づいて、略直線上に並ぶ複数の第2特徴点を含む領域を取得する第2取得手段と、を含み、前記文字領域検出手段は、前記第1取得手段によって取得される領域と、前記第2取得手段によって取得される領域と、に基づいて、前記対象画像内の文字領域を検出するようにしてもよい。なお、第2検出手段による検出や第2取得手段による取得は、縮小画像を徐々に小さくしながら繰り返し実行するようにしてもよい。すなわち、第2検出手段による検出や第2取得手段による取得は、縮小画像の大きさが十分に小さくなるまで繰り返し実行するようにしてもよい。
また、本発明の一態様では、前記文字領域検出手段は、グラフカット法を用いて、前記領域取得手段によって取得された領域のうちから、前記文字領域に含まれる領域を抽出する抽出手段と、前記抽出手段によって抽出された領域に基づいて、前記対象画像内の文字領域を検出する手段と、を含むようにしてもよい。
本発明によれば、画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能になる。また、本発明によれば、文字を含んでいない画像に関しては、濃淡差が大きい領域を誤って文字領域として検出することを防止可能になる。すなわち、文字を含んでいない画像に関しては、濃淡差が大きいような場合であっても、文字が画像に含まれていないと判定することが可能になる。
本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示す図である。 商品画像の一例を示す図である。 画像処理装置で実現される機能の一例を示す機能ブロック図である。 画像処理装置で実行される処理の一例を示す図である。 画素がコーナーに相当するか否かを判定するための処理について説明するための図である。 画像処理装置において検出される特徴点の一例を示す図である。 画像処理装置において取得されるスーパーコーナーの一例を示す図である。 グラフカット法について説明するための図である。 スーパーコーナーの結合について説明するための図である。 縮小画像からスーパーコーナーを検出する意義について説明するための図である。 結合領域の統合について説明するための図である。
以下、本発明の実施形態の例について図面に基づき詳細に説明する。
図1は、本発明の実施形態に係る画像処理装置10のハードウェア構成の一例を示す。画像処理装置10は、例えばサーバコンピュータ、デスクトップ型コンピュータ、ラップトップ型コンピュータ、又はタブレット型コンピュータ等によって実現される。
図1に示すように、画像処理装置10は制御部11、記憶部12、光ディスクドライブ部13、通信インタフェース部14、操作部15、表示部16、及び音声出力部17を含む。
制御部11は例えば1又は複数のマイクロプロセッサを含み、記憶部12に記憶されたオペレーティングシステム又はプログラムに従って情報処理を実行する。記憶部12は例えばRAM、ハードディスク、又はソリッドステートドライブを含む。光ディスクドライブ部13は、光ディスク(情報記憶媒体)に記憶されたプログラムやデータを読み取る。
プログラムやデータは光ディスクを介して記憶部12に供給される。すなわち、プログラムやデータは光ディスクドライブ部13によって光ディスクから読み出され、記憶部12に記憶される。なお、光ディスク以外の情報記憶媒体(例えばメモリカード)に記憶されたプログラム又はデータを読み取るための構成要素が画像処理装置10に含まれていてもよい。そして、光ディスク以外の情報記憶媒体を介してプログラムやデータが記憶部12に供給されるようにしてもよい。
通信インタフェース部14は画像処理装置10を通信ネットワークに接続するためのインタフェースである。画像処理装置10は通信ネットワークを介して他の装置とデータを授受できるようになっている。なお、プログラム及びデータは通信ネットワークを介して記憶部12に供給されるようにしてもよい。
操作部15はユーザが操作を行うためのものである。例えば、キーボード、マウス、タッチパッド、タッチパネル、又はスティック(レバー)等が操作部15に相当する。表示部16は例えば液晶表示ディスプレイ又は有機ELディスプレイ等であり、音声出力部17は例えばスピーカ又はヘッドホン端子等である。
画像処理装置10はデータベース20にアクセスできるようになっている。データベース20は、画像処理装置10以外の装置(例えばサーバ)において実現されていてもよいし、画像処理装置10において実現されていてもよい。
データベース20には画像が記憶される。例えば、図示しないWebサーバによって提供される仮想商店街サイトにおいて利用される商品画像がデータベース20に記憶される。すなわち、仮想商店街に出店している店舗の担当者によって用意された商品画像がデータベース20に記憶される。例えば、商品を撮影した写真画像に「送料無料」や「グランプリ受賞」等のテキストが店舗の担当者によって書き込まれた商品画像がデータベース20に記憶される。
図2はデータベース20に記憶される商品画像の一例を示す。図2に示す商品画像30では、商品(招き猫)を撮影してなる写真画像上に「日本」を示すテキスト32(文字列)が書き込まれている。なお、このような商品画像30では、一般的に、テキスト32が商品自体の色とは異なる目立つ色で書かれていることが多い。また、テキスト32は単色で書かれることが多く、縦方向、横方向、又は斜め方向に整列している場合が多い。
以下、図2に示すような商品画像30から、画像編集によってテキスト32が書き込まれた領域(文字領域)を検出するための技術について説明する。
図3は、画像処理装置10で実現される機能ブロックのうち、本発明に関連する機能ブロックを示す機能ブロック図である。図3に示すように、画像処理装置10は特徴点検出部40、領域取得部42、及び文字領域検出部44を含む。図3に示す機能ブロックは画像処理装置10の制御部11によって実現される。
特徴点検出部40は対象画像内のエッジのコーナーを特徴点として検出する。なお、「エッジのコーナー」とは対象画像内の複数のエッジの交点である。
特徴点検出部40は第1検出部40A及び第2検出部40Bを含む。第1検出部40Aは、対象画像内のエッジのコーナーを第1特徴点として検出する。一方、第2検出部40Bは、対象画像を縮小してなる縮小画像内のエッジのコーナーを第2特徴点として検出する。
なお、特徴点検出部40、第1検出部40A、及び第2検出部40Bの機能の詳細については後述する(後述の図4のステップS103参照)。
領域取得部42は、特徴点検出部40の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する。
領域取得部42は第1取得部42A及び第2取得部42Bを含む。第1取得部42Aは、第1検出部40Aの検出結果に基づいて、略直線上に並ぶ複数の第1特徴点を含む領域を取得する。一方、第2取得部42Bは、第2検出部40Bの検出結果に基づいて、略直線上に並ぶ複数の第2特徴点を含む領域を取得する。
なお、領域取得部42、第1取得部42A、及び第2取得部42Bの機能の詳細については後述する(後述の図4のステップS104参照)。
文字領域検出部44は、領域取得部42によって取得される領域に基づいて、対象画像内の文字領域を検出する。例えば、文字領域検出部44は、第1取得部42Aによって取得される領域と、第2取得部42Bによって取得される領域と、に基づいて、対象画像内の文字領域を検出する。
より具体的には、文字領域検出部44は、領域取得部42(第1取得部42A及び第2取得部42B)によって取得される領域のうちの、互いに近接する領域に基づいて、対象画像内の文字領域を検出する。
例えば、文字領域検出部44は、領域取得部42(第1取得部42A及び第2取得部42B)によって取得される領域のうちの、互いに近接する領域を結合することによって、対象画像内の文字領域を検出する。
なお、文字領域検出部44の機能の詳細については後述する(後述の図4のステップS105,S106,S111参照)。
図4は、特徴点検出部40、領域取得部42、及び文字領域検出部44を実現するために画像処理装置10によって実行される処理の一例を示すフロー図である。制御部11が図4に示す処理をプログラムに従って実行することによって、制御部11が特徴点検出部40、領域取得部42、及び文字領域検出部44として機能するようになる。以下、図4を参照しながら、特徴点検出部40、領域取得部42、及び文字領域検出部44の詳細について説明する。
図4に示すように、まず、制御部11は変数xを100%に初期化する(S101)。この変数xは後述のステップS107,S108において用いられる。
また、制御部11はデータベース20から画像(例えば商品画像30)を取得し、その画像を処理対象として設定する(S102)。
そして、制御部11(特徴点検出部40、第1検出部40A)は、処理対象の画像内のエッジのコーナーを特徴点として検出する(S103)。すなわち、制御部11は、複数の濃淡エッジの交点を特徴点として検出する。
上記特徴点(コーナー)を検出するための手法としては公知の手法が用いられる。例えば、FAST(Features from Accelerated Segment Test)法が用いられる。以下では、FAST法を用いる場合について説明する。ただし、FAST法以外の方法を用いるようにしてもよい。
まず、処理対象の画像がカラー画像である場合、制御部11は処理対象の画像をグレースケール画像に変換する。そして、制御部11は、処理対象の画像の各画素に関し、その画素がコーナーに相当するか否かを判定する。図5は、画素がコーナーに相当するか否かを判定するための処理(FAST法)について説明するための図である。
例えば、図5に示す画素P0が下記に説明するような条件を満足する場合、制御部11は画素P0がコーナー(より詳しくはコーナー内側の点)に相当すると判定する。
まず、制御部11は、画素P0を中心とする所定半径の円上の画素を特定する。図5に示す例の場合、画素P1〜P16が上記円上の画素に相当している。また、制御部11は、画素P0の値と、画素P1〜P16の各々の値と、の差が閾値以上であるか否かを判定する。
そして、画素P1〜P16のうちで、画素P0の値よりも閾値以上大きい値を有するピクセルが所定数以上連続している場合に、制御部11は画素P0がコーナーに相当していると判定する。また、画素P1〜P16のうちで、画素P0の値よりも閾値以上小さい値を有する画素が所定数以上連続している場合にも、制御部11は画素P0がコーナーに相当していると判定する。
ステップS103において、制御部11は、FAST法を用いた処理を実行することによって、処理対象の画像のFAST特徴量を取得することになる。このFAST特徴量には、コーナー(より詳しくはコーナー内側の点)に相当する点の座標と、その点の色情報と、が含まれる。
図6は、図2に示す商品画像30が処理対象である場合にステップS103で検出される特徴点の一例を示す。図6に示された黒丸及び白丸は、ステップS103で検出される特徴点50を示している。なお、図6では、商品画像30内のテキスト32の周辺部分のみについて示している。
例えば、漢字には、縦方向に伸びる線や横方向に伸びる線等が含まれ、それらの線が交わるため、図6では、「日本」を示す漢字内の線同士が交わる箇所が特徴点50として検出されている。図6ではこれらの特徴点50を黒丸で表している。
なお、商品画像30では、テキスト32(漢字)が記載された部分以外の部分においても、延伸方向が異なる複数のエッジが交わる箇所が存在し得るため、図6では、テキスト32(漢字)が記載された部分以外の部分においても特徴点50が検出されている。図6ではこれらの特徴点50を白丸で表している。
ステップS103が実行された後、制御部11(領域取得部42、第1取得部42A)はスーパーコーナーを取得する(S104)。なお、ここでは、略直線上に並ぶ複数の特徴点50であって、かつ、同一又は類似の色を有する複数の特徴点50を含む領域のことを「スーパーコーナー」と呼んでいる。
先述したように、商品画像30に書き込まれるテキスト32は単色であることが多く、縦方向や横方向に整列している場合が多い。このため、文字領域に含まれる特徴点50は一般的に下記のような特徴を有している。
(1)特徴点50は互いに直交する縦方向又は横方向の直線上に並ぶ。
(2)一つの直線上に並ぶ特徴点50は同一又は類似の色を有する。
そこで、これらの点に着目して、ステップS104では、下記条件(A)〜(D)をすべて満足するような特徴点群を探し出し、その特徴点群を含む矩形領域をスーパーコーナーとして取得する。
(A)複数の特徴点50が縦、横、又は斜め方向に略直線上に並んでいる。
(B)複数の特徴点50が同一又は類似の色を有している。
(C)隣り合う特徴点50同士の距離が第1の閾値以下である。
(D)一方の端側の特徴点50から他方の端側の特徴点50までの距離が第2の閾値(第1の閾値よりも大きい閾値)以上である。
なお、上記条件(A)に関し、例えば、直線からの距離(すなわち、直線への垂線の長さ)が閾値(例えば数ドット)以下である複数の特徴点50が存在している場合に、制御部11はそれら複数の特徴点50が略直線上に並んでいるとみなす。
また、上記条件(B)に関し、例えば、複数の特徴点50の色が予め定められたN個(例えば32個)の色グループのうちの同一の色グループに属する場合に、制御部11はそれら複数の特徴点50の色が同一又は類似であるとみなす。
なお、上記条件(C)は、文字領域に含まれる特徴点50と、文字領域以外の領域に含まれる特徴点50と、をできる限り分けるために設けられた条件である。
図7は、ステップS104で取得されるスーパーコーナーの一例を示す。図7に示す例では、スーパーコーナー60A〜60Iが取得されている。なお、図7では、説明の簡便のため、ステップS104で取得されるスーパーコーナーの一部を記載しており、実際には、スーパーコーナー60A〜60I以外のスーパーコーナー60も取得される。また、以下では、スーパーコーナー60A〜60I等のことを総称して「スーパーコーナー60」と記載する場合である。
ステップS104が実行された後、制御部11(抽出手段)は、ステップS104で取得されたスーパーコーナー60のうちから、文字領域に含まれるスーパーコーナー60を抽出する(S105)。
例えば、図7に示した例では、文字領域に含まれるスーパーコーナー60A〜60Hと、文字領域に含まれていないスーパーコーナー60Iと、が取得されている。ステップS105では、これらのスーパーコーナー60A〜60Iのうちから、文字領域に含まれるスーパーコーナー60A〜60Hを抽出するための処理が実行される。
例えば、画像処理装置10では、公知のグラフカット法を応用することによって、ステップS104で取得されたスーパーコーナー60のうちから、文字領域に含まれるスーパーコーナー60を抽出する。
グラフカット法は、通常、画像の前景と背景を分離するために用いられる公知の手法であり、例えば、画像内のオブジェクト領域を検出するために用いられる。ステップS105では、文字領域に含まれるスーパーコーナー60を抽出するべく、文字領域を前景とみなし、かつ、その他の領域を背景とみなして、グラフカット法が用いられる。なお、通常、グラフカット法では、「スーパーピクセル」という面(領域)を定義して用いるようになっているが、ステップS105では、「スーパーピクセル」ではなく、スーパーコーナー60を用いる。
図8はグラフカット法の応用について説明するための図である。グラフカット法では、図8に示すように、Sourceに相当するターミナルSと、Sinkに相当するターミナルTとが設定される。また、各スーパーコーナー60がノードとして設定される。
また、ターミナルSと各ノード(スーパーコーナー60)との間にエッジTLが設定され、ターミナルTと各ノード(スーパーコーナー60)との間にエッジTLが設定される。なお、図8では、説明の簡便のため、ターミナルSとスーパーコーナー60A,60B,60Cとの間のエッジTLと、ターミナルTとスーパーコーナー60A,60B,60Cとの間のエッジTLとのみが示されており、他のエッジTL,TLは省略している。
ステップS105では、エッジTL側のエネルギー量よりもエッジTL側のエネルギー量が多いスーパーコーナー60を、文字領域に含まれるスーパーコーナー60として抽出する。
なお、エネルギー関数は下記式(1)〜(3)のように定義される。
Figure 2014044470
また、エッジTLに関するコストCは下記式(4)のように設定され、各エッジTLに関するコストCが下記式(5)のように設定される。
Figure 2014044470
なお、上記式(2)において記載したように、上記式(4)に示す関数は、スーパーコーナー60(すなわち、スーパーコーナー60に含まれる特徴点50)が背景領域(文字領域以外の領域)に含まれる確率が高いほど、値が小さくなるような関数である。このため、コストCは、スーパーコーナー60が背景領域に含まれる場合に値が小さくなるようになっている。
同様に、上記式(5)に示す関数は、スーパーコーナー60(すなわち、スーパーコーナー60に含まれる特徴点50)が文字領域に含まれる確率が高いほど、値が小さくなるような関数である。このため、コストCは、スーパーコーナー60が文字領域に含まれる場合に値が小さくなるようになっている。
一般的に、文字領域では背景領域に比べて特徴点50の密度が高くなるため、文字領域におけるスーパーコーナー60に含まれる特徴点50の数は、背景領域におけるスーパーコーナー60に含まれる特徴点50の数よりも多くなる傾向がある。また、文字領域に含まれるスーパーコーナー60の長さは、背景領域に含まれるスーパーコーナー60の長さよりも長くなる傾向がある。このため、スーパーコーナー60に含まれる特徴点50の数が多いほど、そのスーパーコーナー60は文字領域に含まれている可能性が高くなる。また、スーパーコーナー60が長いほど、そのスーパーコーナー60は文字領域に含まれている可能性が高くなる。このため、上記式(4)及び(5)は、スーパーコーナー60に含まれる特徴点50の数が多いほど、コストCが大きくなり、かつ、コストCが小さくなるように設定される。また、上記式(4)及び(5)は、スーパーコーナー60が長いほど、コストCが大きくなり、かつ、コストCが小さくなるように設定される。
また、図8では省略しているが、ノード(スーパーコーナー60)間にもエッジNLが設定される。そして、ノードs(スーパーコーナー60)と、ノードs(スーパーコーナー60)と、の間のエッジNLに関するコストCが下記式(6)〜(9)のように設定される。
Figure 2014044470
上記式(6)に示すように、コストCは、上記式(7)が示すコストCと、上記式(8)が示すコストCと、上記式(9)が示すコストCとの和になっている。
先述したように、商品画像30に書き込まれるテキスト32は単色であることが多く、縦方向や横方向に整列している場合が多い。このため、例えば図7に示すスーパーコーナー60A〜60Hのように、一般的に、文字領域に含まれるスーパーコーナー60同士は、互いに略平行で、かつ、近接する傾向がある。あるいは、文字領域に含まれるスーパーコーナー60同士は交わる傾向がある。また、文字領域に含まれるスーパーコーナー60同士は同一又は類似の色を有している傾向がある。
このため、二つのスーパーコーナー60(ノードs,s)が略平行で、かつ、近接している場合にコストCが小さくなるように、上記式(6)〜(9)は設定される。また、二つのスーパーコーナー60(ノードs,s)が交わる場合にコストCが小さくなるように、上記式(6)〜(9)は設定される。同様に、二つのスーパーコーナー60(ノードs,s)の色が同一又は類似である場合にコストCが小さくなるように、上記式(6)〜(9)は設定される。
例えば、上記式(7)において、関数eval(s,s)は、二つのスーパーコーナー60(ノードs,s)が平行又は直角に近いほど小さい値になるような関数である。このため、二つのスーパーコーナー60(ノードsi,sj)が平行で近接しているほど、上記式(7)が示すコストCは小さくなる。
なお、上記式(7)はガウス分布(確率分布)を示し、上記式(7)における分母は分散を示している。この分散の値が大きくなるほど、ガウス分布の裾野が広がり、値が小さいほど、鋭いピークを有する。この値は予め行われる実験によって決められる。例えば、ピークを鋭くすると、複数のガウス分布同士が交わる確率が小さくなり、その結果として、近接するスーパーコーナー60同士が分離されやすくなる。一方、ガウス分布の裾野を広げると、複数のガウス分布同士が交わる確率が大きくなり、その結果として、近接するスーパーコーナー60同士が分離されにくくなる。
また、上記式(8)において、関数orth(s,s)は、二つのスーパーコーナー60(ノードs,s)の直交関係を示す関数であり、二つのスーパーコーナー60(ノードs,s)が直交する場合に小さい値になるような関数である。このため、二つのスーパーコーナー60(ノードsi,sj)が直交しているほど、上記式(8)が示すコストCは小さくなる。なお、上記式(7)と同様、上記式(8)はガウス分布(確率分布)を示し、上記式(8)における分母は分散を示している。
なお、二つのスーパーコーナー60のなす角度が90度であったとしても、二つのスーパーコーナー60が実際に交わらなければ、これらの二つのスーパーコーナー60が直交しているとは判断しない。例えば、図7に示した例の場合、スーパーコーナー60A,60Bは実際に交わっているため、スーパーコーナー60A,60Bは直交していると判断される。一方、スーパーコーナー60A,60Dのなす角度は略90度であるが、スーパーコーナー60A,60Dは実際に交わっていないため、スーパーコーナー60A,60Dは直交していないと判断される。
また、上記式(9)において、cdist(s,s)は二つのスーパーコーナー60(ノードs,s)の間の色の差を示す関数であり、色の差が小さいほど小さい値になるような関数である。このため、二つのスーパーコーナー60(ノードsi,sj)の間の色の差が小さいほど、上記式(9)が示すコストCは小さくなる。すなわち、二つのスーパーコーナー60(ノードsi,sj)が属する色グループが同一であるほど、上記式(9)が示すコストCは小さくなる。なお、上記式(7)と同様、上記式(9)はガウス分布(確率分布)を示し、上記式(9)における分母は分散を示している。
グラフカット法では、どのように各ノード(スーパーコーナー60)を文字領域又は背景領域に分類すれば、上記に説明したコストC,C,Cの和が最小となるのかを判断する。
すなわち、ステップS105では、上記に説明したコストC,C,Cの和が最小となるように、各ノード(スーパーコーナー60)を文字領域又は背景領域に分類することによって、文字領域に含まれるスーパーコーナー60が抽出される。
ステップS105が実行された後、制御部11は、所定条件の下、ステップS105で抽出されたスーパーコーナー60を結合する(S106)。
例えば、制御部11は、ステップS105で抽出されたスーパーコーナー60のうちの、互いに近接し、かつ、略平行するスーパーコーナー60を結合する。すなわち、略平行するスーパーコーナー60の間の距離が基準距離未満である場合に、制御部11はそれらのスーパーコーナー60を結合する。また例えば、制御部11は、ステップS105で抽出されたスーパーコーナー60のうちの、互いに交わるスーパーコーナー60を結合する。
この場合、一方のスーパーコーナー60に含まれる特徴点50の属する色グループと、他方のスーパーコーナー60に含まれる特徴点50の属する色グループと、が異なっていたとしても、すなわち、一方のスーパーコーナー60に含まれる特徴点50の色と、他方のスーパーコーナー60に含まれる特徴点50の色と、が同一又は類似でなかったとしても、制御部11はそれら二つのスーパーコーナー60を結合する。
複数のスーパーコーナー60を結合する場合、制御部11は、それら複数のスーパーコーナー60を含むような矩形領域を、それら複数のスーパーコーナー60を結合してなる結合領域として生成する。
ここで、ステップS105において、図7に示すスーパーコーナー60A〜60Hが、文字領域に含まれるスーパーコーナー60として抽出された場合を想定する。
この場合、スーパーコーナー60A,60Cは互いに近接し、かつ、略平行しているため、制御部11はスーパーコーナー60A,60Cを結合する。同様に、スーパーコーナー60E,60Fは互いに近接し、かつ、略平行しているため、制御部11はスーパーコーナー60E,60Fを結合する。さらに、スーパーコーナー60G,60Hは互いに近接し、かつ、略平行しているため、制御部11はスーパーコーナー60G,60Hを結合する。
また、スーパーコーナー60Bはスーパーコーナー60A,60C,60E,60F,60Gと交わっているため、制御部11はスーパーコーナー60Bをスーパーコーナー60A,60C,60E,60F,60Gと結合する。同様に、スーパーコーナー60Dはスーパーコーナー60C,60E,60F,60G,60Hと交わっているため、制御部11はスーパーコーナー60Dをスーパーコーナー60C,60E,60F,60G,60Hと結合する。
以上より、上記の場合、制御部11はスーパーコーナー60A〜60Hを結合することになる。すなわち、制御部11は、図9に示すように、スーパーコーナー60A〜60Hを含む矩形領域を、スーパーコーナー60A〜60Hを結合してなる結合領域70として取得する。
複数のスーパーコーナー60を結合することによって結合領域70を取得した場合には、結合したスーパーコーナー60の数を結合領域70に関連付けて保持しておく。この数は後述のステップS111において用いられる。
なお、複数のスーパーコーナー60を結合することによって生成される結合領域70の縦辺及び横辺の長さがともに第1の閾値(例えば20ピクセル)未満である場合には、それら複数のスーパーコーナー60を結合しないようにするとよい。
通常、文字領域(テキストが書き込まれた領域)は横長又は縦長の領域になる可能性が高い。この点、結合領域70の縦辺及び横辺の長さがともに短い場合、その結合領域70は文字領域に相当していない可能性が高い。このため、上記のようにすれば、文字領域に相当していない可能性が高い結合領域70が無視されるようになり、その結果として、文字領域の検出精度を向上することが可能になる。
また、複数のスーパーコーナー60を結合することによって生成される結合領域70の縦辺及び横辺の長さが第1の閾値(例えば20ピクセル)よりも大きく、第2の閾値(第1の閾値よりも大きい閾値:例えば30ピクセル)未満であり、かつ、結合領域70と最も近い他のスーパーコーナー60との間の距離が閾値以上である場合にも、それら複数のスーパーコーナー60を結合しないようにするとよい。
結合領域70がそれ程大きくない場合であっても、その結合領域70(複数のスーパーコーナー60)の付近に他のスーパーコーナー60が存在しているのであれば、結合領域70と当該他のスーパーコーナー60とがさらに結合されてなる結合領域70は文字領域に相当している可能性がある。一方、結合領域70の付近に他のスーパーコーナー60が存在していないのであれば、その結合領域70は文字領域に相当していない可能性が高い。このため、上記のようにすれば、文字領域に相当していない可能性が高い結合領域70が無視されるようになり、その結果として、文字領域の検出精度を向上することが可能になる。
ステップS106が実行された後、制御部11は変数xに0.5を乗じ(S107)、元々の画像をx%に縮小してなる縮小画像を取得する(S108)。なお、ステップS107において、変数xに乗じる値は0.5に限られず、0よりも大きく、かつ、1よりも小さい他の値を変数xに乗じるようにしてもよい。
ステップS108が実行された後、制御部11は、ステップS108で取得された縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値(例えば64ピクセル)以下であるか否かを判定する(S109)。縮小画像の縦辺及び横辺のいずれもが閾値以下でない場合(S109:N)、制御部11はステップS108で取得された縮小画像を処理対象として設定する(S110)。その後、制御部11(第2検出部40B及び第2取得部42B)はステップS103〜S109を実行する。この場合、縮小画像を処理対象として、特徴点50の検出、スーパーコーナー60の検出や、結合領域70の取得が実行される。
ここで、縮小画像を処理対象としてステップS103〜S106を実行する意義について説明する。図10はこの意義について説明するための図である。ここでは、図10(A)に示すような「口」を示す漢字が商品画像30に書き込まれている場合を想定する。なお、図10(A)〜(C)では、「口」を示す漢字が記載されている部分の周辺のみを示している。
このような場合、縮小されていない状態の商品画像30では、図10(A)に示すような特徴点50(第1の特徴点)がステップS103において検出される。そして、スーパーコーナー60J,60K,60L,60MがステップS104において取得される。しかしながら、この場合、スーパーコーナー60J〜60Mが、文字領域に含まれるスーパーコーナー60としてステップS105において抽出されたとしても、これらのスーパーコーナー60J〜60Mは近接しておらず、かつ、交わってもいないため、これらのスーパーコーナー60J〜60Mは結合されない。その結果、このままでは文字領域が十分に検出されなくなってしまう。
一方、図10(B)に示すような縮小された状態の商品画像30では、図10(B)に示すような特徴点50(第2の特徴点)がステップS103において検出される。そして、スーパーコーナー60N,60O,60P,60QがステップS104において取得される。なお、実際には、スーパーコーナー60N〜60Q以外のスーパーコーナー60も取得されるが、説明の簡便のため、図10(B)では省略している。
そして、ステップS105において、スーパーコーナー60N〜60Qが文字領域に含まれるスーパーコーナー60として抽出された場合には、スーパーコーナー60N,60Oがスーパーコーナー60P,60Qと交わっているため、ステップS106において、スーパーコーナー60N〜60Qが結合される。すなわち、図10(C)に示すように、スーパーコーナー60N〜60Qを結合してなる結合領域70が生成される。
なお、互いに近接する又は交わるスーパーコーナー60が検出されないことは、画像(商品画像30)内に書き込まれた文字のサイズが大きいような場合にも起こり得る。このような場合にも、画像を縮小してなる縮小画像からスーパーコーナー60を検出することによって不都合を解消することができる。
以上のように、画像(商品画像30)内に書き込まれた文字の種類やサイズによっては、原サイズの画像においてスーパーコーナー60を十分に検出できなくなる場合があることを考慮して、画像処理装置10では、画像を縮小してなる縮小画像からもスーパーコーナー60を検出するようにしている。
なお、ステップS103〜S108は、縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値以下になるまで繰り返し実行される。縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値以下になった場合とは、縮小画像がかなり小さくなった場合である。処理対象の画像が小さくなりすぎると、特徴点50やスーパーコーナー60の検出等に不都合が生じるため、画像処理装置10では、縮小画像の縦辺及び横辺の少なくとも一方の長さが閾値以下になったら、ステップS103〜S108を実行しないようになっている。
縮小画像の縦辺及び横辺の少なくとも一方が閾値以下になった場合(S109:Y)、制御部11は、原サイズの画像(原画像)において取得された結合領域70と、縮小画像において取得された結合領域70と、を統合することによって、文字領域を検出する(S111)。
図11は結合領域70の統合について説明するための図である。なお、図11は図10に示した場合を想定している。すなわち、図11は、例えば図10(A)に示すようなスーパーコーナー60J〜60Mが原サイズの画像において取得され、図10(C)に示すような結合領域70が縮小画像において取得された場合を想定している。
このような場合、制御部11は、縮小画像において取得された結合領域70を、縮小画像と元のサイズ(原サイズ)の画像とのサイズ比に応じて拡大する。すなわち、制御部11は、縮小画像において取得された結合領域70を、縮小画像を原サイズの画像に戻す場合の拡大率で拡大する。つまり、制御部11は、縮小画像を原サイズに戻すべく縮小画像を拡大した場合における結合領域70を取得する。例えば、縮小画像が原サイズの画像を50%に縮小したものである場合、制御部11は、縮小画像を2倍に拡大した場合における結合領域70を取得する。
その後、制御部11は、原サイズの画像において取得された結合領域70と、縮小画像において取得された結合領域70を拡大したものと、を統合することによって、文字領域を取得する。すなわち、制御部11は、原サイズの画像において取得された結合領域70と、縮小画像において取得された結合領域70を拡大したものと、を含むような矩形領域を取得する。そして、制御部11はこの矩形領域を文字領域80とみなす。
なお、図11に示す例の場合、原サイズの画像において結合領域70が取得されていないため、制御部11は、縮小画像において取得された結合領域70を拡大したものを文字領域80としてみなすことになる。
ところで、一又は複数の文字が画像に書き込まれている場合、例えば図7に示すように、ある程度の数のスーパーコーナー60が存在しているはずである。このため、個々の画像(原サイズの画像又は縮小画像)において取得されたスーパーコーナー60の数が所定数(例えば2個)以下である場合、その画像には文字領域が存在しないとみなすようにするとよい。このようにすれば、文字領域の検出精度を向上することができる。
また、結合領域70が文字領域に相当しているのであれば、その結合領域70には、ある程度の数のスーパーコーナー60が含まれているはずである。このため、個々の画像(原サイズの画像又は縮小画像)において取得された結合領域70が所定数未満のスーパーコーナー60を結合したものである場合、そのような結合領域70をステップS111において他の結合領域70と統合しないようにしてもよい。すなわち、このような結合領域70は文字領域の一部としてみなさないようにするとよい。このようにすれば、文字領域の検出精度を向上することができる。
また、ある画像(例えば原サイズの画像)の結合領域70と、他の画像(例えば縮小画像)の結合領域70とを統合する場合、それらの結合領域70の共通領域の広さが、それらの結合領域70を統合した場合の領域の広さの所定割合以下であるならば、それらの結合領域70を統合しないようにするとよい。例えば、縦方向に伸びる結合領域70の一方の端と、横方向に伸びる結合領域70の一方の端と、が交わっているような場合にそれらの結合領域70を統合すると、結合領域70以外の領域が大部分を占めるような領域が文字領域80としてみなされるようになってしまう。このような領域を文字領域80としてみなすのは適切でない。この点、上記のようにすれば、上記のような領域が文字領域80としてみなされないようになり、その結果として、文字領域の検出精度を向上することができる。なお、スーパーコーナー60を結合する場合にも同様にするようにしてもよい。
以上説明した画像処理装置10では、画像内のエッジ(濃淡エッジ)のコーナーが特徴点50として検出される。そして、画像処理装置10では、文字領域内に含まれる特徴点50(エッジのコーナー)が有する傾向に着目して、画像内の文字領域が特徴点50に基づいて検出されるようになっている。その結果、本実施形態に係る画像処理装置10によれば、画像に含まれる文字領域以外の領域における濃淡差が大きいような場合であっても、画像に含まれる文字領域を検出することが可能になる。
また、本実施形態に係る画像処理装置10によれば、画像が文字を含んでいない場合には、画像内の濃淡差が大きかったとしても、文字領域が検出されない。すなわち、画像処理装置10によれば、画像が文字を含んでいない場合には、濃淡差が大きかったとしても、文字が画像に含まれていないと判定されるようになる。つまり、画像処理装置10は、画像に文字領域が含まれていないことを判定するような場合(画像に文字領域が含まれているか否かを判定するような場合)にも利用することができる。
画像内の文字領域を検出するための方法としては、画像内のエッジ(濃淡エッジ)を検出し、それらのエッジに基づいて、文字領域を検出する方法も考えられる。しかしながら、画像処理装置10によれば、文字領域の検出に必要なエッジ部分(エッジのコーナー)のみを検出することによって、文字領域を検出するようになっているため、画像内のエッジ部分をすべて検出する場合に比べて、全体の処理負荷を軽減することが可能になる。
なお、図6に示されるように、文字を構成する線がコーナーを形成している場合、そのコーナーの内側及び外側の二つの特徴点50が得られる。また、文字に縁取りが施されていれば、その縁取りに関しても特徴点50が得られる。このように、画像内のエッジ部分(濃淡エッジ)をすべて用いなくても、文字領域を検出するために十分な数の特徴点50は得られる。
また、画像処理装置10では、グラフカット法を応用することによって、画像から取得されたスーパーコーナー60のうちから、文字領域に含まれるスーパーコーナー60を抽出することが可能になっている。
さらに、画像処理装置10では、縮小画像からもスーパーコーナー60を取得するようになっており、その結果として、文字領域の検出精度が向上するようになっている。
また、FAST法を用いた場合、文字を構成する線のコーナーにおける内側の特徴点50は背景色を有し、外側の特徴点50は文字色を有することになる。そして、画像処理装置10では、複数のスーパーコーナー60が略平行で近接している場合や、複数のスーパーコーナー60が交わっている場合、スーパーコーナー60に含まれる特徴点50の色がスーパーコーナー60の間で同一又は類似でなかったとしても、それら複数のスーパーコーナー60を結合するようになっている。その結果、画像処理装置10によれば、文字領域をもれなく検出できるようになる。
なお、本発明は以上に説明した実施形態に限定されるものではない。
例えば、本発明は、商品画像30以外の画像から文字領域を検出する場合にも適用することが可能である。
10 画像処理装置、11 制御部、12 記憶部、13 光ディスクドライブ部、14 通信インタフェース部、15 操作部、16 表示部、17 音声出力部、20 データベース、30 画像、32 テキスト、40 特徴点検出部、40A 第1検出部、40B 第2検出部、42 領域取得部、42A 第1取得部、42B 第2取得部、44 文字領域検出部、50 特徴点、60A〜60S スーパーコーナー、70 結合領域、80 文字領域。

Claims (8)

  1. 対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段と、
    前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段と、
    前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段と、
    を含むことを特徴とする画像処理装置。
  2. 請求項1に記載の画像処理装置において、
    前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域に基づいて、前記文字領域を検出する、
    ことを特徴とする画像処理装置。
  3. 請求項1又は2に記載の画像処理装置において、
    前記領域取得手段は、略直線上に並び、かつ、同一又は類似の色を有する複数の特徴点を含む領域を取得する、
    ことを特徴とする画像処理装置。
  4. 請求項3に記載の画像処理装置において、
    前記文字領域検出手段は、前記領域取得手段によって取得される領域のうちの、互いに近接する領域を結合することによって、前記文字領域を検出し、
    前記文字領域検出手段は、前記領域取得手段によって取得された第1の領域及び第2の領域が互いに近接している場合、前記第1の領域に含まれる特徴点の色と、前記第2の領域に含まれる特徴点の色と、が同一又は類似でなかったとしても、前記第1の領域と前記第2の領域とを結合することによって、前記文字領域を検出する、
    ことを特徴とする画像処理装置。
  5. 請求項1乃至4のいずれかに記載の画像処理装置において、
    前記特徴点検出手段は、
    前記対象画像内のエッジのコーナーを第1特徴点として検出する第1検出手段と、
    前記対象画像を縮小してなる縮小画像内のエッジのコーナーを第2特徴点として検出する第2検出手段と、を含み、
    前記領域取得手段は、
    前記第1検出手段の検出結果に基づいて、略直線上に並ぶ複数の第1特徴点を含む領域を取得する第1取得手段と、
    前記第2検出手段の検出結果に基づいて、略直線上に並ぶ複数の第2特徴点を含む領域を取得する第2取得手段と、を含み、
    前記文字領域検出手段は、前記第1取得手段によって取得される領域と、前記第2取得手段によって取得される領域と、に基づいて、前記対象画像内の文字領域を検出する、
    ことを特徴とする画像処理装置。
  6. 請求項1乃至5のいずれかに記載の画像処置装置において、
    前記文字領域検出手段は、
    グラフカット法を用いて、前記領域取得手段によって取得された領域のうちから、前記文字領域に含まれる領域を抽出する抽出手段と、
    前記抽出手段によって抽出された領域に基づいて、前記対象画像内の文字領域を検出する手段と、を含む、
    ことを特徴とする画像処理装置。
  7. 対象画像内のエッジのコーナーを特徴点として検出する特徴点検出ステップと、
    前記特徴点検出ステップにおける検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得ステップと、
    前記領域取得ステップにおいて取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出ステップと、
    を含むことを特徴とする画像処理方法。
  8. 対象画像内のエッジのコーナーを特徴点として検出する特徴点検出手段、
    前記特徴点検出手段の検出結果に基づいて、略直線上に並ぶ複数の特徴点を含む領域を取得する領域取得手段、及び、
    前記領域取得手段によって取得される領域に基づいて、前記対象画像内の文字領域を検出する文字領域検出手段、
    としてコンピュータを機能させることを特徴とするプログラム。
JP2012184906A 2012-08-24 2012-08-24 画像処理装置、画像処理方法、及びプログラム Active JP5679229B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012184906A JP5679229B2 (ja) 2012-08-24 2012-08-24 画像処理装置、画像処理方法、及びプログラム
US14/423,437 US9619700B2 (en) 2012-08-24 2013-05-30 Image processing device, image processing method, program, and information storage medium
PCT/JP2013/065115 WO2014030406A1 (ja) 2012-08-24 2013-05-30 画像処理装置、画像処理方法、プログラム、及び情報記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012184906A JP5679229B2 (ja) 2012-08-24 2012-08-24 画像処理装置、画像処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2014044470A true JP2014044470A (ja) 2014-03-13
JP2014044470A5 JP2014044470A5 (ja) 2015-01-08
JP5679229B2 JP5679229B2 (ja) 2015-03-04

Family

ID=50149724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012184906A Active JP5679229B2 (ja) 2012-08-24 2012-08-24 画像処理装置、画像処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US9619700B2 (ja)
JP (1) JP5679229B2 (ja)
WO (1) WO2014030406A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372632A (zh) * 2016-08-23 2017-02-01 山西同方知网数字出版技术有限公司 一种基于ocr的漏识文字自动检测的方法
JP2019192959A (ja) * 2018-04-18 2019-10-31 富士ゼロックス株式会社 情報処理装置及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2599401A (en) 1999-12-23 2001-07-03 David Todjar Hengami Multiple compartment package design
TW201421423A (zh) * 2012-11-26 2014-06-01 Pixart Imaging Inc 影像感測器及其運作方法
WO2017089865A1 (en) * 2015-11-24 2017-06-01 Czech Technical University In Prague, Department Of Cybernetics Efficient unconstrained stroke detector

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212292A (ja) * 1995-02-03 1996-08-20 Matsushita Electric Ind Co Ltd 枠線認識装置
JP2000235618A (ja) * 1999-02-16 2000-08-29 Mitsubishi Electric Corp 文字検出装置
JP2009043265A (ja) * 2007-08-09 2009-02-26 Fujitsu Ltd 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム
JP2011087144A (ja) * 2009-10-16 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045346A1 (en) * 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
JP2007335920A (ja) * 2006-06-12 2007-12-27 Fuji Xerox Co Ltd 画像処理装置および画像処理プログラム
US8351707B2 (en) * 2007-07-31 2013-01-08 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP5368141B2 (ja) 2009-03-25 2013-12-18 凸版印刷株式会社 データ生成装置およびデータ生成方法
KR101207127B1 (ko) * 2010-03-19 2012-11-30 전남대학교산학협력단 문자 인식 전처리 방법 및 장치
JP5857704B2 (ja) * 2011-12-13 2016-02-10 富士ゼロックス株式会社 画像処理装置及びプログラム
US8917910B2 (en) * 2012-01-16 2014-12-23 Xerox Corporation Image segmentation based on approximation of segmentation similarity
JP6061502B2 (ja) * 2012-06-04 2017-01-18 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212292A (ja) * 1995-02-03 1996-08-20 Matsushita Electric Ind Co Ltd 枠線認識装置
JP2000235618A (ja) * 1999-02-16 2000-08-29 Mitsubishi Electric Corp 文字検出装置
JP2009043265A (ja) * 2007-08-09 2009-02-26 Fujitsu Ltd 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム
JP2011087144A (ja) * 2009-10-16 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372632A (zh) * 2016-08-23 2017-02-01 山西同方知网数字出版技术有限公司 一种基于ocr的漏识文字自动检测的方法
JP2019192959A (ja) * 2018-04-18 2019-10-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7031465B2 (ja) 2018-04-18 2022-03-08 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP5679229B2 (ja) 2015-03-04
WO2014030406A1 (ja) 2014-02-27
US20150213312A1 (en) 2015-07-30
US9619700B2 (en) 2017-04-11

Similar Documents

Publication Publication Date Title
US10885644B2 (en) Detecting specified image identifiers on objects
JP6000899B2 (ja) テキストを自動的に検出する方法
US8000529B2 (en) System and method for creating an editable template from a document image
JP5679229B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US7613363B2 (en) Image superresolution through edge extraction and contrast enhancement
US9424479B2 (en) Systems and methods for resizing an image
JP4646797B2 (ja) 画像処理装置及びその制御方法、プログラム
CN112612911A (zh) 一种图像处理方法、系统、设备及介质、程序产品
JP2012044634A (ja) デジタルメディアの提供方法、物品及びプログラム
Chen et al. Improved seam carving combining with 3D saliency for image retargeting
CN107679442A (zh) 单证信息录入的方法、装置、计算机设备及存储介质
JP2016162420A (ja) 注目領域検出装置、注目領域検出方法及びプログラム
WO2008101422A1 (fr) Procédé et système de recherche d&#39;image
JPWO2013171857A1 (ja) 画像処理装置、画像処理装置の制御方法、プログラム、及び情報記憶媒体
US8824778B2 (en) Systems and methods for depth map generation
JP3471578B2 (ja) 行方向判定装置、画像傾き検出装置及び画像傾き補正装置
TW200937342A (en) Line drawing processor, program and line drawing processing method
Bloomberg et al. Document image applications
CN106951897A (zh) 一种医疗单据相片的倾斜程度判断方法
US20170017370A1 (en) Device and method for processing data
JP2008181015A (ja) 画像表示装置、画像表示プログラム
AU2014277851A1 (en) Detecting a gap between text columns from text line fragments
KR101458155B1 (ko) 편집 문서 생성 장치 및 방법
JP6438369B2 (ja) 帳票画像判定プログラム、帳票画像判定方法および帳票画像判定システム
Liu et al. Embedded media barcode links: optimally blended barcode overlay on paper for linking to associated media

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141114

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20141114

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20141205

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141224

R150 Certificate of patent or registration of utility model

Ref document number: 5679229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250