JP4757001B2 - 画像処理装置、画像処理方法 - Google Patents

画像処理装置、画像処理方法 Download PDF

Info

Publication number
JP4757001B2
JP4757001B2 JP2005340918A JP2005340918A JP4757001B2 JP 4757001 B2 JP4757001 B2 JP 4757001B2 JP 2005340918 A JP2005340918 A JP 2005340918A JP 2005340918 A JP2005340918 A JP 2005340918A JP 4757001 B2 JP4757001 B2 JP 4757001B2
Authority
JP
Japan
Prior art keywords
image
area
region
feature amount
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005340918A
Other languages
English (en)
Other versions
JP2007148677A5 (ja
JP2007148677A (ja
Inventor
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005340918A priority Critical patent/JP4757001B2/ja
Priority to US11/598,026 priority patent/US8077976B2/en
Publication of JP2007148677A publication Critical patent/JP2007148677A/ja
Publication of JP2007148677A5 publication Critical patent/JP2007148677A5/ja
Application granted granted Critical
Publication of JP4757001B2 publication Critical patent/JP4757001B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、文字や記号等を含む画像を取り扱うための技術に関するものである。
特許文献1に記載の発明は、ロゴの色の単一性に着目し、その領域を抽出する事を実現したものであり、ロゴの検索は行っていない。また、特許文献2に記載の発明では、画像オブジェクトによる類似画像検索を行っている。
特開平3−174658号公報 特開平10−171826号公報
しかし係る従来技術は、あくまで画像特徴量による厳密でない検索を実現するものであり、ロゴを厳密に検索するものではない。単一のロゴマークの検索を詳細に行うためには、オブジェクト検索を行った後、単純テンプレートマッチングを行う必要がある。しかしながら、文字ロゴの様に領域がくっついたり(文字の領域が入り組むときに生ずる)離れたりする複数のオブジェクトから成るロゴを網羅するには至らない。
この様に、単一のオブジェクトとして切り出されるロゴ(例えば桐の家紋)などに関しては、オブジェクト単位の画像特徴量検索やテンプレートマッチングが行われてきた。しかし、1塊でないロゴ、端的に言うと文字ベースのロゴの場合には、文字ごとにオブジェクトが切り出され、文字と言ってもデザイン文字のためOCRで認識されたり認識されずに画像扱いと成ったりするため、有効な検索の手法が無かった。
従って、単一のオブジェクトとして切り出されるロゴも、1塊でないロゴ、端的に言うと文字ベースのロゴの場合には文字ごとにオブジェクトが切り出されるロゴに対してもロバストなロゴ検索を行う技術の実現が課題である。
本発明は以上の問題に鑑みてなされたものであり、画像中におけるロゴに対するロバストな検索を可能にするための技術を提供することを目的とする。
本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。
即ち、第1の画像を入力する入力手段と、
像域分離処理により前記第1の画像から複数の部分領域を抽出し、該複数の部分領域のうち2つ以上の隣接する部分領域を組み合わせた領域の外接矩形を合成領域として作成する部分領域抽出手段と、
前記複数の部分領域から特徴量を抽出する特徴量抽出手段と、
前記第1の画像とは異なる第2の画像中の複数の部分領域のそれぞれから抽出した特徴量と、前記特徴量抽出手段が抽出したそれぞれの特徴量と、を比較する比較手段と、
前記第2の画像において、前記特徴量抽出手段が前記第1の画像から抽出した特徴量と類似する特徴量を有する複数の部分領域に外接する領域を類似領域とし、該類似領域内の画素値と、前記第1の画像内の前記合成領域内の画素値と、の類似度を算出する算出手段と
を備えることを特徴とする。
本発明の構成により、画像中におけるロゴ等に対する適切な検索を可能にすることができる。
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
[第1の実施形態]
図1は、本実施形態に係る画像処理装置に適用可能なコンピュータのハードウェア構成を示すブロック図である。同図において101はCPUで、ROM102やRAM103に格納されているプログラムやデータを用いて本コンピュータ全体の制御を行うと共に、コンピュータが行う後述の各処理を実行する。
102はROMで、本コンピュータの設定データや、ブートプログラムなどを格納する。
103はRAMで、同図に103aに示す各種のモジュールのプログラムや処理情報を一時的に記憶するためのエリアを有すると共に、CPU101が後述の各処理を実行する際に用いるワークエリア(作業領域)を有する。なお、RAM103にはこれ以外にも適宜提供可能なエリアが存在する。また、この各種のモジュールの動作については後述する。
104、105はそれぞれキーボード、マウスで、本コンピュータの操作者が操作することで、各種の指示をCPU101に対して入力することができる。
106は外部記憶装置で、ハードディスクに代表される大容量情報記憶装置であって、ここにはOS(オペレーティングシステム)や、同図に示す如く、各種の情報が保存されている。これらはCPU101による制御に従って適宜RAM103にロードされ、CPU101による処理対象となる。なお、以下の説明で登場する各種テーブルについても外部記憶装置106内に作成され、そこで保存され、使用時にはRAM103にロードされる。
107は表示装置で、CRTや液晶画面などにより構成されており、CPU101による処理結果を画像や文字などでもって表示することができる。
108はNIC(ネットワークインターフェースコントローラ)で、本コンピュータをLANやインターネットなどのネットワークに接続するためのものである。本コンピュータは、このNIC108を介してネットワーク上に接続されている各種装置とのデータ通信を行う。
110は画像入力装置であって、ディジタルカメラやスキャナ装置など、画像を本コンピュータに入力するための装置により構成されている。画像入力装置110によって入力された画像は、I/F(インターフェース)109、バス111を介して外部記憶装置106やRAM103に出力される。
111は上述の各部を繋ぐバスである。
次に、上記構成を有するコンピュータが行う処理について説明する。
<ロゴ登録処理>
図2は、画像入力装置110により本コンピュータに入力した画像中におけるロゴを外部記憶装置106に登録する為の処理のフローチャートである。なお、同図のフローチャートに従った処理をCPU101に実行させるためのプログラムやデータは、外部記憶装置106に保存されている。そしてこのプログラムやデータは、CPU101による制御に従って適宜RAM103にロードされる。そしてCPU101がこのプログラムやデータを用いて処理を実行することにより、本コンピュータは以下説明する各処理を実行する。
先ず、画像入力装置110により入力された画像データをRAM103に取得する(ステップS201)。なお、RAM103への画像取得形態についてはその他にも考えられ、例えば、NIC108を介して外部から取得するようにしても良いし、予め外部記憶装置106に保存されていた画像をRAM103に取得するようにしても良い。
次に、外部記憶装置106に保存されているインデックス管理情報を読み出し、読み出したインデックス管理情報に含まれている登録画像数、登録領域数をそれぞれ1つインクリメントしたものを画像ID、領域IDとする(ステップS202)。図6は、インデックス管理情報の構成例を示す図で、同図に示す如く、インデックス管理情報は、現在外部記憶装置106に登録された画像に対して発行した画像ID、領域IDにより構成されている。
図2に戻って次に、ステップS201で入力した画像に対するIDとしてステップS202で求めた画像ID、この画像の各画素のビット数、画像サイズ、外部記憶装置106への登録(格納)パスをセットにして、図7に示す構成を有するテーブルに登録する(ステップS203)。なお、各画素のビット数、画像サイズの取得については、画像データに添付されているヘッダを参照すればよい。図7は、このセット(画像管理情報)を登録するためのテーブルの構成例を示す図である。
図4,5はそれぞれ、ステップS201で取得した画像の例を示す図である。それぞれの図に示す如く、図4に示した画像、図5に示した画像がこの順に入力されると、順に画像IDが1,2と割り当てられる。
次に、CPU101は像域分離+OCRモジュールのプログラムをRAM103にロードして実行し、ステップS201で入力した画像に対して像域分離処理、及びOCR処理を行う(ステップS204)。これにより、画像中におけるロゴを文字や記号毎に分割すると共に、分割したそれぞれの領域内における文字を認識する。なお、本ステップでは、ロゴを構成している各文字(若しくは記号)が1つずつOCR処理されるように、手動でロゴ中の各文字や記号の位置などを調整するようにしても良い。
ここで、像域分離処理について図3を用いて説明する。図3は、像域分離処理の対象となる画像の例を示す図である。同図右側に示した画像について像域分離処理を行うと、同図左側に示す如く、テキストやテーブルといったオブジェクト毎に領域分割を行うと共に、それぞれのオブジェクトが、文字、図画、写真、線、表等の何れの属性を有するものであるのかを判別する。
このような処理では先ず、入力画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出し、一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、大きさや形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素群とし、更に近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素群を線領域、一定の大きさ以上で且つ四角系の白画素群を整列よく内包する黒画素群の占める範囲を表領域、不定形の画素群が散在している領域を写真領域、それ以外の任意形状の画素群を図画領域、というように判別する。
部分領域抽出処理では、不定形の画素群が散在している写真領域で、且つその領域が矩形状のものを画像領域とし、領域を表現する座標とその領域の属性、即ち画像領域であるか文字領域であるかを抽出結果として出力する。
また、OCR処理について簡単に説明すると、文字相当の画素群の細線情報のエッジ方向成分などの画像特徴を算出し、辞書においてこれと文字コードと対で記憶した画像特徴を比較する事により文字相当の画素群に対応する文字の認識を行う。
以上説明した像域分離+OCR処理については周知の技術であるので、これ以上の説明は省略する。
図2に戻って、次に、ステップS204で分割したそれぞれの領域において、隣接する領域(合成領域)の組み合わせ数を求め、これと、分割領域数との合計を変数Nrに代入する(ステップS205)。例えば、画像中に「Abcde」の5文字がロゴとして記されている場合、ステップS204では、「A」の領域(以下、領域A)、「b」の領域(以下、領域b)、「c」の領域(以下、領域c)、「d」の領域(以下、領域d)、「e」の領域(以下、領域e)を得ることになる。そしてステップS205では、合成領域の組み合わせの数を求めるのであるが、合成領域の組み合わせは、「Ab」、「Abc」、「Abcd」、「bc」、「bcd」、「bcde」、「cd」、「cde」、「de」の9つである。また、分割領域数はここでは「5」(領域A〜領域eの5つ)であるので、Nrには「14」が代入されることになる。
次にステップS206では先ず、上記14の領域(上記5つの分割領域+上記9つの合成領域)を一列に並べた場合に、先頭に対してステップS202で発行した領域IDを割り当て、後続の領域については1つずつ領域IDをインクリメントしながら領域IDを割り当てる。即ち、領域A〜領域e、「Ab」の領域、「Abc」の領域、「Abcd」の領域、「bc」の領域、「bcd」の領域、「bcde」の領域、「cd」の領域、「cde」の領域、「de」の領域を一列に並べたとすると、領域AにはステップS202で発行した領域IDを割り当て、領域b〜「de」の領域に対してはそれぞれ(ステップS202で発行した領域ID+1)〜(領域AにはステップS202で発行した領域ID+13)を割り当てる。
そしてステップS206では次に、ステップS201で入力した画像に対してステップS202で発行した画像ID、それぞれの領域について割り当てた領域ID、それぞれの領域の外接矩形のこの画像における座標位置、それぞれの領域内の画像データ、それぞれの領域に対するOCR結果のセットを、オブジェクト情報として図8に示すテーブルに登録する。なお、合成領域に対するOCR結果についてはNULL(文字認識結果無し)とする。図8は、オブジェクト情報を登録するテーブルの構成例を示す図である。
ここで、図8のテーブルに示す如く、オブジェクト情報には上記要素の他に、それぞれの領域内の画像特徴量(最外接領域の画像特徴量)があるが、これについてはステップS207で求める。
ステップS207では、上記14の領域のそれぞれについて、領域内の画像に対する画像特徴量抽出処理を行い、図8、9のテーブルに登録する。ここで、画像特徴量抽出処理には様々な処理が考えられるが、ここではその一例として、色特徴情報抽出処理について説明する。
色特徴情報抽出処理では図11に示す如く、色空間を立体的に複数の部分空間(色ビン)に分割したものを用いてヒストグラムを算出する事になる。
まず、画像を複数の領域に分割し、複数の分割領域を得る。次に、それぞれの分割領域における色ヒストグラムを作成し、作成した色ヒストグラムにおける最頻色を持つ色ビンのIDを代表色とし、それぞれ領域の位置と対応付けた特徴を抽出する。
ここで、色特徴情報抽出処理について具体的な例を挙げ、より詳細に説明する。ここではその例として、図10に示す如く、画像を9×9の分割領域に分割し、図11に示す如く、RGB色空間を3x3x3=27ビンへ均等階級化する場合について説明する(実際には6x6x6=216程度の色ビンがある方が個好ましい)。
先ず、図10に示す如く、画像を複数の分割領域に分割する。同図では9x9=81の領域に分割したが、実際には15x15=225の数に分割することが好ましい。次に、注目分割領域について図12に示す如く、各列について左から右側にスキャンし、各画素値を参照する。そして参照した画素値が示す色を図11に示す色ビンに射影し、色ビンに対するヒストグラムを作成する(なお、図12は、3×3の分割例で示している)。
そして、最も頻度の高い色ビンに対応する色ビンIDを注目分割領域の代表色と決定する。このような処理を全ての分割領域について行い、参照した分割領域順で色ビンIDを並べたものを色特徴情報とする。
また、ステップS207では更に、各領域の前後にどの領域が位置しているのかを記すために、図9に示すテーブルを作成する。図9は、各領域IDで指定される領域の前後関係を記したテーブルの構成例を示す図である。即ち同図のテーブルには、それぞれの領域について、領域ID、前後に位置する領域のID(存在しない場合にはNULL)、領域座標位置、領域サイズ、OCR結果、OCRゆう度(OCR処理時に求まるものである)、領域内の画像の先に求めた特徴量、のセットを領域情報として登録する。
そして、最後に、上記インデックス管理情報を構成している登録画像数を1つインクリメントすると共に、登録領域数をNrだけインクリメントする。
<ロゴ検索処理>
次に、新たに画像入力装置110等によりRAM103に取得された画像中にロゴが含まれているのか否かを、上記登録処理により登録された情報を用いて検証する処理について、同処理のフローチャートを示す図13を用いて説明する。なお、同図のフローチャートに従った処理をCPU101に実行させるためのプログラムやデータは外部記憶装置106に保存されている。そしてこのプログラムやデータはCPU101による制御に従って適宜RAM103にロードされる。そしてCPU101がこのプログラムやデータを用いて処理を実行することにより、本コンピュータは以下説明する各処理を実行する。
先ず、ロゴを含んでいるか否かを検証する対象となる画像を被験画像としてRAM103に取得する(ステップS1301)。被験画像の取得形態については上記ステップS1201と同様に、画像入力装置110によって取得しても良いし、NIC108、外部記憶装置106から取得するようにしても良い。
次に、取得した被験画像に対して、上記ステップS204と同様にして、像域分離+OCR処理を行う(ステップS1302)。その結果RAM103には図15に示すような情報が作成されることになる。
そして次に、像域分離処理の結果として得られる各領域の連続性の検証を行う(ステップS1303)。ここで、ステップS1303における検証処理について、図14を用いて詳細に説明する。
図14は、像域分離処理の結果、3つの領域(領域1,領域2,領域3)が得られた場合に、これらの領域の連続性の検証について説明する図である。
先ず、領域1,2に着目すると、領域1,2を水平方向に射影したときに重なり部分の長さを求める。同図では、領域1の鉛直方向の長さはV1、領域2の鉛直方向の長さはV2であり、水平方向に着目すると、領域2は領域1に包含されていることになるので、水平方向における領域1と領域2との重なり部分の長さはV2となる。そして次に、この重なり部分の長さDV12が、長さV1,V2のうち小さい方に対して占める割合を計算する。この場合、DV12=V2であり、且つV1>V2であるので、V2/V2=1を計算することになる。そして、この割合が所定の閾値以上の場合には、領域1,2は水平方向については連続していると判断する。
これは鉛直方向に対する連続性の検証についても同様で、領域1,3に着目すると、領域1,3を鉛直方向に射影したときに重なり部分の長さを求める。同図では、領域1の水平方向の長さはH1、領域3の水平方向の長さはH3であり、鉛直方向に着目すると、領域3は領域1に包含されていることになるので、鉛直方向における領域1と領域3との重なり部分の長さはH3となる。そして次に、この重なり部分の長さDH13が、長さH1,H3のうち小さい方に対して占める割合を計算する。この場合、DH13=H3であり、且つH1>H3であるので、H3/H3=1を計算することになる。そして、この割合が所定の閾値以上の場合には、領域1,3は鉛直方向については連続していると判断する。
以上のことを一般的に説明すると、領域1,2,3に対しての連続性の検証処理では、以下の計算を行うことになる。
If(V1>V2)
ContV=DV12/V2
Else
ContV=DV12/V1

If(H1>H3)
ContH=DH13/H3
Else
ContH=DH13/H1
そして、ContVが所定の閾値以上であれば、領域1と領域2とは水平方向に連続していると判断することができ、ContHが所定の閾値以上であれば、領域1と領域3とは鉛直方向に連続していると判断することができる。そしてこのような連続性が有る場合、領域1,2,3の領域IDがそれぞれ1,2,3であるとすると、ステップS1303では、図16に示す如く、各領域の前後関係をテーブルに登録する。図16は、各領域の前後関係を記したテーブルの構成例を示す図で、例えば領域ID=1の領域(領域1)に着目すると、領域1の前に存在する領域の領域ID、領域1の後に存在する領域の領域ID、領域1の座標位置、領域1のサイズ、領域1に対するOCR結果、OCRゆう度のセットが領域情報として図16に示すテーブルに登録される。
図13に戻って次に、これら各領域内の画像の画像特徴量を求め、図16に示すテーブルにおいて対応する箇所に登録する(ステップS1304)。なお、ここで求める画像特徴量は、以下のステップにおいてステップS207において求めた特徴量と比較するために用いるので、ステップS207において求めたものと同じ種類のものを求める。
次に、図16に示したテーブルに登録した領域のうち最初の領域(図16では領域ID=1の領域)を、以下の処理で用いる「比較基準」にセットする(ステップS1305)。次に、このテーブルに登録した全ての領域を比較基準にセットしたか否かを判断する(ステップS1306)。未だ比較基準にセットしていない領域がある場合には処理をステップS1307に進める。そして、外部記憶装置106に登録されている全ての画像の全ての領域の画像特徴量と、比較基準の画像特徴量との類似度を求める処理を処理を行い、比較基準の画像特徴量との類似度が最も高かった画像特徴量の画像ID、領域IDを特定する(ステップS1307)。
類似度の計算については、例えば、色空間上での幾何距離を参考にして図17に例示するような色ビンIDのペナルティのデータを予め作成し、外部記憶装置106に登録しておく。そして、このデータを用いて、比較基準の色ビンと、比較対照の画像特徴量の色ビンとのペナルティを計算する。
次に、比較基準のOCR結果と、外部記憶装置106に登録されている全ての画像の全ての領域のOCR結果(しかし、所定ゆう度以上を有するOCR結果)との比較を行い、比較基準のOCR結果と一致するOCR結果を有する領域の画像ID、領域IDを特定する(ステップS1308)。
そして、比較基準の画像IDと領域ID、ステップS1307で特定した画像IDと領域ID、ステップS1308で特定した画像IDと領域IDをセットにしてRAM103に一時的に格納する(ステップS1309)。なお、ステップS1308による特定処理では、特定結果が「なし」である場合もある。その場合には、ステップS1308による特定結果を格納する領域には、例えばNULLを格納する。
そして次に、図16のテーブルを参照し、未だ比較基準にセットしていない次の領域を比較基準にセットする。そして処理をステップS1306に戻し、以降の処理を繰り返す。これにより、画像特徴量の点で比較基準と類似している領域、OCR結果の点で比較基準と一致している領域の2つの観点から、比較基準と類似する領域を網羅する事が可能となる。
一方、ステップS1306において、比較基準にセットしていない領域が存在しない場合、即ち、全ての領域について比較基準にセットした場合には処理をステップS1311に進める。そして、ステップS1307,S1308で特定したそれぞれの領域の並び順に基づいて、このそれぞれの領域のうち、被験画像上における各領域に対応する領域の候補を決定する処理を行う(ステップS1311)。本ステップにおける処理についてより詳細に説明すべく、図18に示した具体例を用いる。
図18に、被験画像中の領域と登録画像データの領域IDの対応を示したデータ構造を示す。図において、被験画像領域ID=1に対して登録領域ID=4が、被験画像領域ID=2に対して登録領域ID=2とID=3が、被験画像領域ID=3に対して登録領域ID=6が画像特徴量比較により類似していると仮定した場合の例である。
被験画像中の領域に類似する登録画像中の領域に対し、その前後に有るべき領域を図9のテーブルに含まれる領域リンク関係(前領域ID,後領域ID)を参照して照合する。
図9によれば、登録領域ID=4の後に登録領域ID=3は連続可能であり、登録領域ID=3の後に続く登録領域は無いので、被験画像の領域ID=1と領域ID=2の組み合わせは、登録画像ID=1に適合する可能性があると判断する。
他方、図9によれば登録領域ID=4の後に登録領域ID=2は連続不可能であり、且つ図9のテーブルによれば登録領域ID=2は単独で登録画像には成りえない事から、被験画像の領域ID=2に適合する可能性のある登録画像はない。他方、図9のテーブルによれば登録領域ID=4の後に登録領域ID=6は連続不可であるが、登録領域ID=6は単独で登録画像2と成りえることから、被験画像の領域ID=3は登録画像ID=2に適合する可能性があると判断する。
以上の処理により、外部記憶装置106に登録されている各領域のうち、被験画像上における各領域に対応するものが決定する。ここで、外部記憶装置106に登録されている各領域はロゴを構成している各文字や記号であるので、上記処理によれば、被験画像上における各領域のうち、ロゴ部分候補(ロゴ部分の部分領域であるかもしれないし、ロゴ以外を含む部分であるかもしれないので、ここではロゴ部分と断定することはできず、候補部分となる)がどれであるのかを決定することができる。
図13に戻って、次に、被験画像上において、ロゴ部分候補と決定された部分を包含する外接矩形を設定する(ステップS1312)。ロゴ候補部分は複数存在する場合がある。次に、設定した外接矩形のうち、アスペクト比ずれが大きいものについてはロゴ候補部分から外す(ステップS1313)。
そして、被験画像上におけるロゴ候補部分に設定した外接矩形のサイズと同じになるように、外部記憶装置106に登録されている各領域内の画像部分をリサイズする。外部記憶装置106に登録されている各領域に係る情報については、全ての画像について作成した図8に示すようなテーブルを参照すればよい。
そして、被験画像上におけるロゴ候補部分内の各画素と、外部記憶装置106に登録されている領域j(j=1,,,K)内の画像部分(リサイズ済み)を構成している各画素とで位置的に対応するもの同士の画素値の差分の絶対値を求める処理を行う。そしてそれぞれ位置的に対応するもの同士で求めた絶対値の和を求め、これをSjとする。この処理を全てのj、及び被験画像上における全てのロゴ候補部分について行う。
全てのロゴ候補部分について、外部記憶装置106に登録されている全ての領域とのSjを求めると次に、Sjが所定の閾値以下となるようなロゴ候補部分を特定し、特定したロゴ候補部分の座標位置を表示装置107上に表示する(ステップS1314)。なお、表示する情報はこれに限定するものではなく、Sjが所定の閾値以下となるようなロゴ候補部分に係る情報であればよい。
以上の説明により、本実施形態によれば、単一のオブジェクトとして切り出されるロゴも、1塊でないロゴ、端的に言うと文字ベースのロゴの場合には文字ごとにオブジェクトが切り出されるロゴに対してもロバストなロゴ検索を行う事が可能となる。
[第2の実施形態]
本実施形態では、第1の実施形態とは異なるロゴ検索処理について説明する。本実施形態に係るロゴ検索処理は基本的には図13に示したフローチャートに従った処理を行うのであるが、以下の点で異なる。
本実施形態では上記ステップS1303では図14に示す如く、領域1と領域2とは水平方向に連続しており、領域1と領域3とは鉛直方向に連続していると判断したとする。更に、図19上部に示す如く、外部記憶装置106に登録されている画像ID=1の画像上の各領域(領域ID=1〜5)に対しては、画像ID=NULL、2,2,1,NULLの被験画像が対応しており、外部記憶装置106に登録されている画像ID=2の画像上の領域(領域ID=6)に対しては、画像ID=3の被験画像が対応しているとする。
この場合、ID=1の被験画像とID=2の被験画像に夫々、領域ID=4,3の領域が対応していることを読み取り、図9の登録画像領域の隣接情報から、領域ID=4,3の領域の並びは、ID=1の被験画像を構成するのに十分であることがわかるので、ID=1の被験画像とID=2の被験画像は、外部記憶装置106に登録されている画像ID=1の画像に相当する候補であることがわかる。
また、領域ID=1,3の領域は夫々、外部記憶装置106に登録されている領域ID=4,6の領域が対応していることを読み取り、図9の登録画像領域の隣接情報から、外部記憶装置106に登録されている領域ID=4,6の領域の並びはどの登録画像も構成していないが、領域ID=6の領域は単独で外部記憶装置106に登録されている画像ID=2の画像を構成するのに十分であることがわかるので、領域ID=6の領域が外部記憶装置106に登録されている画像ID=2の画像に相当する候補であることがわかる。
[その他の実施形態]
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実行することにより、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行う。その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
本発明の第1の実施形態に係る画像処理装置に適用可能なコンピュータのハードウェア構成を示すブロック図である。 画像入力装置110により本コンピュータに入力した画像中におけるロゴを外部記憶装置106に登録する為の処理のフローチャートである。 像域分離処理の対象となる画像の例を示す図である。 ステップS201で取得した画像の例を示す図である。 ステップS201で取得した画像の例を示す図である。 インデックス管理情報の構成例を示す図である。 セット(画像管理情報)を登録するためのテーブルの構成例を示す図である。 オブジェクト情報を登録するテーブルの構成例を示す図である。 各領域IDで指定される領域の前後関係を記したテーブルの構成例を示す図である。 画像を9×9の分割領域に分割した例を示す図である。 色空間を立体的に複数の部分空間(色ビン)に分割した例を示す図である。 分割矩形のスキャンの例を示す図である。 新たに画像入力装置110等によりRAM103に取得された画像中にロゴが含まれているのか否かを、上記登録処理により登録された情報を用いて検証する処理のフローチャートである。 像域分離処理の結果、3つの領域(領域1,領域2,領域3)が得られた場合に、これらの領域の連続性の検証について説明する図である。 ステップS102における処理の結果作成される情報である。 各領域の前後関係を記したテーブルの構成例を示す図である。 ペナルティのデータの例を示す図である。 ステップS1311における処理の詳細を説明する為に用いる図である。 第2の実施形態における処理を説明する図である。

Claims (6)

  1. 第1の画像を入力する入力手段と、
    像域分離処理により前記第1の画像から複数の部分領域を抽出し、該複数の部分領域のうち2つ以上の隣接する部分領域を組み合わせた領域の外接矩形を合成領域として作成する部分領域抽出手段と、
    前記複数の部分領域から特徴量を抽出する特徴量抽出手段と、
    前記第1の画像とは異なる第2の画像中の複数の部分領域のそれぞれから抽出した特徴量と、前記特徴量抽出手段が抽出したそれぞれの特徴量と、を比較する比較手段と、
    前記第2の画像において、前記特徴量抽出手段が前記第1の画像から抽出した特徴量と類似する特徴量を有する複数の部分領域に外接する領域を類似領域とし、該類似領域内の画素値と、前記第1の画像内の前記合成領域内の画素値と、の類似度を算出する算出手段と
    を備えることを特徴とする画像処理装置。
  2. 前記特徴量抽出手段は、前記特徴量抽出手段が抽出した複数の部分領域のそれぞれから色特徴量を抽出することを特徴とする請求項1に記載の画像処理装置。
  3. 前記算出手段は、前記第1の画像内の前記合成領域を、前記第2の画像中における前記類似領域と同じサイズになるようにリサイズし、該リサイズ済みの合成領域内の画素値と、前記第2の画像中における類似領域の画素値と、の差分を前記類似度として算出することを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記第1の画像はロゴを含む画像であることを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
  5. 画像処理装置が行う画像処理方法であって、
    入力手段が、第1の画像を入力する入力工程と、
    部分領域抽出手段が、像域分離処理により前記第1の画像から複数の部分領域を抽出し、該複数の部分領域のうち2つ以上の隣接する部分領域を組み合わせた領域の外接矩形を合成領域として作成する部分領域抽出工程と、
    特徴量抽出手段が、前記複数の部分領域から特徴量を抽出する特徴量抽出工程と、
    比較手段が、前記第1の画像とは異なる第2の画像中の複数の部分領域のそれぞれから抽出した特徴量と、前記特徴量抽出工程で抽出したそれぞれの特徴量と、を比較する比較工程と、
    算出手段が、前記第2の画像において、前記特徴量抽出工程で前記第1の画像から抽出した特徴量と類似する特徴量を有する複数の部分領域に外接する領域を類似領域とし、該類似領域内の画素値と、前記第1の画像内の前記合成領域内の画素値と、の類似度を算出する算出工程と
    を備えることを特徴とする画像処理方法。
  6. コンピュータを、請求項1乃至4の何れか1項に記載の画像処理装置が有する各手段として機能させるためのコンピュータプログラム。
JP2005340918A 2005-11-25 2005-11-25 画像処理装置、画像処理方法 Expired - Fee Related JP4757001B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005340918A JP4757001B2 (ja) 2005-11-25 2005-11-25 画像処理装置、画像処理方法
US11/598,026 US8077976B2 (en) 2005-11-25 2006-11-13 Image search apparatus and image search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005340918A JP4757001B2 (ja) 2005-11-25 2005-11-25 画像処理装置、画像処理方法

Publications (3)

Publication Number Publication Date
JP2007148677A JP2007148677A (ja) 2007-06-14
JP2007148677A5 JP2007148677A5 (ja) 2010-05-06
JP4757001B2 true JP4757001B2 (ja) 2011-08-24

Family

ID=38087609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005340918A Expired - Fee Related JP4757001B2 (ja) 2005-11-25 2005-11-25 画像処理装置、画像処理方法

Country Status (2)

Country Link
US (1) US8077976B2 (ja)
JP (1) JP4757001B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4850652B2 (ja) * 2006-10-13 2012-01-11 キヤノン株式会社 画像検索装置及びその制御方法、プログラム、記憶媒体
JP5096776B2 (ja) * 2007-04-04 2012-12-12 キヤノン株式会社 画像処理装置及び画像検索方法
JP4989308B2 (ja) * 2007-05-16 2012-08-01 キヤノン株式会社 画像処理装置及び画像検索方法
JP5139716B2 (ja) * 2007-05-16 2013-02-06 キヤノン株式会社 画像検索装置及び画像検索方法
JP5151394B2 (ja) * 2007-10-25 2013-02-27 株式会社リコー 情報管理装置、情報管理方法、及びプログラム
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
CN102395998B (zh) * 2009-04-14 2015-06-10 日本电气株式会社 图像签名提取设备
WO2011078174A1 (ja) * 2009-12-24 2011-06-30 株式会社ニコン 検索支援システム、検索支援方法及び検索支援プログラム
JP5495934B2 (ja) 2010-05-18 2014-05-21 キヤノン株式会社 画像処理装置、その処理方法及びプログラム
US8218875B2 (en) * 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
EP2825998A4 (en) 2012-03-16 2015-08-12 Hewlett Packard Development Co IMAGE CLASSIFICATION
JP5920293B2 (ja) 2013-08-23 2016-05-18 富士ゼロックス株式会社 画像処理装置及びプログラム
EP3044731A4 (en) * 2013-09-11 2017-02-22 See-Out Pty Ltd. Image searching method and apparatus
JP6900164B2 (ja) * 2016-09-27 2021-07-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11227153B2 (en) 2019-12-11 2022-01-18 Optum Technology, Inc. Automated systems and methods for identifying fields and regions of interest within a document image
US11210507B2 (en) 2019-12-11 2021-12-28 Optum Technology, Inc. Automated systems and methods for identifying fields and regions of interest within a document image

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231376A (ja) * 1996-02-28 1997-09-05 Oki Electric Ind Co Ltd ナンバープレート検出システム
WO2004095374A1 (ja) * 2003-04-21 2004-11-04 Nec Corporation 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム
JP2004355370A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書処理装置
JP2005293576A (ja) * 2004-03-31 2005-10-20 Fuji Xerox Co Ltd ビデオにおける重要度の高い領域を判別する方法、装置及びプログラム
JP2006065764A (ja) * 2004-08-30 2006-03-09 Sharp Corp 画像照合装置、画像照合方法、画像照合プログラムおよび画像照合プログラムを記録したコンピュータ読取り可能な記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2584876B2 (ja) 1989-12-01 1997-02-26 松下電器産業株式会社 画像検索装置
JP3446797B2 (ja) 1996-12-11 2003-09-16 日本電信電話株式会社 類似オブジェクト検索方法および装置
US7075683B1 (en) * 1999-02-15 2006-07-11 Canon Kabushiki Kaisha Dynamic image digest automatic editing system and dynamic image digest automatic editing method
US20060195858A1 (en) * 2004-04-15 2006-08-31 Yusuke Takahashi Video object recognition device and recognition method, video annotation giving device and giving method, and program
JP4235604B2 (ja) * 2004-11-22 2009-03-11 キヤノン株式会社 画像処理装置、画像処理方法、ならびにプログラム
JP4641414B2 (ja) * 2004-12-07 2011-03-02 キヤノン株式会社 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231376A (ja) * 1996-02-28 1997-09-05 Oki Electric Ind Co Ltd ナンバープレート検出システム
WO2004095374A1 (ja) * 2003-04-21 2004-11-04 Nec Corporation 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム
JP2004355370A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書処理装置
JP2005293576A (ja) * 2004-03-31 2005-10-20 Fuji Xerox Co Ltd ビデオにおける重要度の高い領域を判別する方法、装置及びプログラム
JP2006065764A (ja) * 2004-08-30 2006-03-09 Sharp Corp 画像照合装置、画像照合方法、画像照合プログラムおよび画像照合プログラムを記録したコンピュータ読取り可能な記録媒体

Also Published As

Publication number Publication date
US8077976B2 (en) 2011-12-13
JP2007148677A (ja) 2007-06-14
US20070122037A1 (en) 2007-05-31

Similar Documents

Publication Publication Date Title
JP4757001B2 (ja) 画像処理装置、画像処理方法
JP3950498B2 (ja) イメージ処理方法及び装置
CN108960229B (zh) 一种面向多方向的文字检测方法和装置
US6711292B2 (en) Block selection of table features
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
JP4443576B2 (ja) パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法
JPH08255236A (ja) 画像のファイリング装置及びファイリング方法
CN113139445A (zh) 表格识别方法、设备及计算机可读存储介质
JP2012203458A (ja) 画像処理装置及びプログラム
WO2009147840A1 (ja) 画像検索装置および同画像検索装置に適用される画像検索用コンピュータプログラム
Shafait et al. Pixel-accurate representation and evaluation of page segmentation in document images
US9066036B2 (en) Determining transparent fills based on a reference background colour
US11055526B2 (en) Method, system and apparatus for processing a page of a document
JP2003150902A (ja) 画像を文字画像行に分割する方法および装置、ならびに、文字画像認識方法および装置
JPH0320882A (ja) 関心領域抽出方法及び切り出し方法
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
JPH0612540B2 (ja) 文書作成支援装置
US20030103673A1 (en) Shape searcher
KR102102394B1 (ko) 문자 인식을 위한 영상 전처리 장치 및 방법
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JPH01129358A (ja) 表数値演算装置
JP2803736B2 (ja) 文字認識方式
JP3305367B2 (ja) データベースへのデータ入力装置
JP2009193170A (ja) 文字認識装置及び文字認識方法
JPH11187231A (ja) 画像検索装置及び画像検索方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110523

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110531

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees