JP2009110526A - 画像解析方法及び画像解析装置 - Google Patents
画像解析方法及び画像解析装置 Download PDFInfo
- Publication number
- JP2009110526A JP2009110526A JP2008282401A JP2008282401A JP2009110526A JP 2009110526 A JP2009110526 A JP 2009110526A JP 2008282401 A JP2008282401 A JP 2008282401A JP 2008282401 A JP2008282401 A JP 2008282401A JP 2009110526 A JP2009110526 A JP 2009110526A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature data
- stored
- segments
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Abstract
【課題】 画像アイテムを検索するための有用な方法を提供する。
【解決手段】 複数の格納された画像を解析する方法が提供される。当該方法は、複数の格納された画像の各々を複数のセグメントに分割し、それぞれが異なる組み合わせのセグメントを有する、上記各セグメントの複数のセットを抽出し、前記各セグメントのセットの特性に対応する特徴データを抽出し、前記生成された特徴データを前記格納された画像と関連付けて格納する。
【選択図】 図11
【解決手段】 複数の格納された画像を解析する方法が提供される。当該方法は、複数の格納された画像の各々を複数のセグメントに分割し、それぞれが異なる組み合わせのセグメントを有する、上記各セグメントの複数のセットを抽出し、前記各セグメントのセットの特性に対応する特徴データを抽出し、前記生成された特徴データを前記格納された画像と関連付けて格納する。
【選択図】 図11
Description
本発明は、複数の格納された画像を解析する方法及び装置に関する。
テキスト情報アイテム、又は少なくともいくらかのテキストコンテンツを有するアイテムをインデックス化及び検索する技術が開発されてきた。こうした技術の一例は、テキストアイテム(例えば、単語の配列)から特徴データを生成し、この特徴データに基づくアイテム間の比較を可能にするものである。
しかしながら、画像アイテムに関しては、有用な技術はほとんど考案されていない。
一つの簡単な技術は、テキストを画像に関連付けることである。これは単に、タイトルであることもあり、又は1段落の説明文、アイテムの一覧表、または画像内の人物、画像の取得時刻、その取得に関連する一覧表等のより詳細な「メタデータ」であることもある。そして、テキストベースの検索技術を用いて類似の画像を識別することもできる。しかし、当然、正確且つ有用なメタデータを提供するためには時間がかかり、高価であり、且つメタデータを生成するユーザの主観に左右される。
その他の技術では、画像自体の特性に基づいて特徴データを確立する。特徴データは、色特性、テクスチャ特性等を含む。
しかし、この技術もまた制限のあるものである。なぜなら、画像を見る人にとっては同じ物事を表す2つの画像が、非常に異なる画像特性を有している場合があるからである。例えば、特定の人物を表す一対の画像は、それらの背景が異なるために、非常に異なる画像特性を有している場合がある。
また、画像解析は、一般的に時間がかかる。しかし、ユーザは画像の検索及び解析を迅速に実行することを望む。速度を向上させると、計算資源が増加する。これにより、コスト及びシステムの複雑性が増す。
本発明の目的は、これらの問題に対処することである。
本発明の一態様では、画像解析方法が提供される。当該画像解析方法は、複数の記憶された画像の各々を複数のセグメントに分割し、それぞれが異なる組み合わせのセグメントを有する、前記各セグメントの複数のセットを抽出し、前記各セグメントのセットの特性に対応する特徴データを抽出し、前記生成された特徴データを前記記憶された画像と関連付けて記憶する。
本発明において実施される技術により、例えばユーザが指定した初期検索基準に基づいて複数の画像を検索するのにかかる時間及び/又は計算処理が低減される。これは、検索基準が確立されれば、画像全体ではなく、複数の画像の各画像からのセグメントのセットを検索しさえすればよいからである。さらに、いくつかの実施形態では、検索する領域の形状、大きさ又は向き等の検索基準となる特徴を用いて、複数の画像から、所与の検索に特に関連する特徴データを有する適切なセグメントのセットを特定することができる。
いくつかの実施形態では、前記特徴データは、前記各セグメントのセットの色特性データである。
いくつかの実施形態では、前記記憶された画像は、複数の等しい大きさの前記セグメントに分割される。
いくつかの実施形態では、前記セグメントは四角形である。
いくつかの実施形態では、当該解析する方法は、さらに、第1の画像において領域を規定し、前記抽出され、記憶された特徴データに対応する、前記第1の画像において規定された領域の特性に対応する特徴データを抽出し、当該第1の画像から抽出された特徴データと、前記抽出され、記憶された特徴データとを比較する。
いくつかの実施形態では、当該方法は、前記第1の画像から抽出された特徴データと、前記抽出され、記憶された特徴データとの前記比較の結果に応じて決定される順序により、前記記憶された画像の順序付きリストを生成する。
さらに、いくつかの実施形態では、前記第1の画像の前記特徴データ及び前記記憶された特徴データは、前記規定された領域の大きさ及び位置に依存せずに抽出される。
いくつかの実施形態では、前記前記第1の画像において規定された領域の形状は、前記記憶されたセグメントのセットのうちの少なくとも1つの形状と合致し、前記比較は、前記記憶されたセグメントのセットのうち、前記形状が合致するものに対して実行される。
いくつかの実施形態では、前記第1の画像において規定された領域は、ユーザの入力に応じて生成される。
いくつかの実施形態では、当該解析する方法は、さらに、前記比較の結果に応じて、前記記憶された画像のうちの少なくとも1つを選択する。
いくつかの実施形態では、前記比較に応じて前記記憶された画像が選択されたときに、当該記憶され、選択された画像のうち、前記特徴データを有するセグメントのセットをユーザに対して強調表示する。
別の態様によれば、類似画像検索システムが提供される。当該システムは、処理対象の画像において、前景オブジェクトの周囲の領域を、該処理対象の画像の背景の少なくとも一部を含むように規定する領域規定部と、前記領域における前記前景オブジェクトの特性に対応する特徴データ及び前記背景に相当する特徴データを生成する特徴データ生成部と、当該生成された特徴データを、前記記憶された画像の前景オブジェクト及び背景に対応する他のそれぞれの特徴データと比較し、当該特徴データの比較に応じて、当該記憶された画像の特徴データのうち少なくともいくつかについて、当該記憶された画像の各特徴データと、前記処理対象の画像から抽出された特徴データとの関連度を示す関連度データを返す比較装置とを具備する。
これより、本発明の実施形態を、添付の図面を参照して例示としてのみ説明する。図面において、同様の部分には対応する参照符号を付す。
図1Aは、汎用コンピュータ10からなる画像処理システムの概略図である。汎用コンピュータ10は、処理部20と、表示装置60と、キーボード70と、マウス80等のユーザ入力装置とを有する。処理部20は、プログラム及びデータを記憶するディスク記憶装置30と、イーサネット(登録商標)又はインターネット等のネットワーク50に接続されたネットワークインタフェースカード40とを有する。表示装置60は、陰極線管表示装置又は液晶表示装置である。当該システムはプログラムの制御下で動作し、当該プログラムはディスク記憶装置30に記憶され、例えば、ネットワーク50、リムーバブルディスク(図示せず)を介して提供されるか、又はディスク記憶装置30に事前にインストールされることにより提供される。
大まかに言えば、画像処理システムは、ユーザが指定した種々の検索基準(条件)に合致する画像を特定するために、ユーザが、画像リポジトリ内の多数の画像の中から画像を検索することができるように構成される。典型的には、ユーザは、第1の画像を取得することによって検索基準を指定し、その第1の画像の部分又は特徴を選択する。実施形態においては、その第1の画像(又はその選択された1つ又は複数の部分)が処理対象となる。この処理を以下に説明する。ここで、第1の画像に対して実行される処理は、検索されるリポジトリ内の1つ又は複数の画像に対しても実行されてもよいことに留意されたい。このリポジトリ内の画像に対する処理は、検索が行われる前に実行されてもよく(「事前解析」と呼ぶ)又は、画像の検索と並行して(「オンザフライ」と呼ぶ)実行されてもよい。この処理については後に説明する。
その後、画像処理システムは、ユーザが選択した第1の画像の部分又は特徴を基準として、画像リポジトリ内を検索する。例えば、ユーザはリポジトリから、鳥を含む画像を検索したいと思うかもしれない。この場合、ユーザは鳥を含む第1の画像を選択し、その画像のうちの、鳥を包含する特定の部分又は特徴を選択する。検索が行われると、画像リポジトリからの検索画像のリストが生成される。このリストは、ユーザが選択した第1の画像の部分又は特徴に類似しているか又は類似の要素を含むと考えられるリポジトリ内の画像を特定する。これにより、ユーザは、特定の検索のために、関連する画像の特徴だけを抽出できるようになる。例えば、この例では、鳥のくちばしが選択され、類似のくちばしを有する画像だけが検索で返されてもよい。これにより、関連する部分のみがユーザに返されるため、コンピュータリソースをより効率的に用いることができる。さらに、以下に説明する方法で処理された、選択された部分だけを検索することにより、返される画像は大きさの影響を受けない。言い換えれば、上記の例において、くちばしの画像に占める割合が20%であろうと70%であろうと問題ではなく、どちらも関連するものとして返される。これにより、検索のメカニズムが改善される。いくつかの実施形態では、システムは、指定された検索基準に最も合致する画像を特定することにより、生成されたリスト内の画像をランク付けする。
画像リポジトリは、システム内、例えばディスク記憶装置30に記憶された複数の画像から構成されてもよい。或いは、画像リポジトリは、システムから遠隔にある何らかの形態の記録媒体に記憶されてもよい。この場合、システムは、ネットワーク50に接続されたネットワークインタフェースカード40等の何らかの形態の中間リンクを介して、その記録媒体にアクセスする。画像は、ネットワーク50に接続された複数の記憶ノードを介して送信されてもよい。
画像は様々な形式であってよく、例えば、カメラによって取得された「静止」画であってもよく、または画像はビデオストリームを含む一連の画像から取得されてもよい。
図1Bは、表示装置60上に表示されるグラフィカルユーザインタフェース11を示す概略図である。グラフィカルユーザインタフェース11は、検索ウィンドウ114及び検索結果ウィンドウ113を有する。検索ウィンドウ114は、検索基準の抽出対象となる第1の画像112を表示する。
上述のように、この第1の画像(又は、いくつかの実施形態では、選択された部分)が、画像処理対象となる。
[画像検索機構]
画像リポジトリ内の画像を検索するために、画像処理システムは、以下のステップを実行する。
画像リポジトリ内の画像を検索するために、画像処理システムは、以下のステップを実行する。
まず、検索基準の抽出対象となる第1の画像が選択される。この第1の画像は画像リポジトリ内から選択したものであってもよく、又は外部ソースからネットワーク50を介して、若しくはディスク若しくはシステムに装着された他の記録媒体からシステムにロードされた新たな画像であってもよい。
典型的には、この画像は表示装置60上でユーザに対して提示され、ユーザはマウス80等の入力装置を用いて、この画像のうちの領域を選択する。いくつかの実施形態では、画像はグリッド状にセグメント化され、ユーザはそのグリッドの中から、ユーザが検索の基準とする画像特徴を含む1つ又は複数のセグメントを選択する。しかし、本発明はこれに限定されず、以下に説明するように、ユーザはマウス80を用いて、自分で領域を規定することができる。図2Aは、グリッド状にセグメント化された画像、及びグリッドのブロックを選択することにより強調表示された注目領域の一例を示す。この注目領域は、注目特徴を有し、この注目特徴から、検索基準領域が抽出される。
上述のように、画像リポジトリからの画像のうち少なくともいくつかは、事前解析される。リポジトリ内の画像の事前解析により、検索の際にシステムに対する処理負荷が低減され、したがって、画像の検索速度が向上する。検索速度をさらに向上させるために、リポジトリの画像の事前解析は、第1の画像の解析に用いた技術と同様の技術を用いて実行される。さらに、リポジトリ内の画像の事前解析の一部として、事前解析された画像のうちの少なくともいくつかは、例えば2×2のグリッド、3×3のグリッド、4×4のグリッド等のグリッドを適用することにより、複数のブロックにセグメント化される。或いは、2×3のグリッド又は3×4のグリッド等の非正方形のグリッドを用いてもよい。個々のブロック又はブロックのグループは、画像全体とは独立して解析することができる。したがって、画像リポジトリからの画像だけではなく、画像リポジトリからの各画像の種々の異なる部分を検索することができる。さらに、上述のように、システムは、画像のうち、ユーザが指定した領域に形状が合致する部分を検索することができる。したがって、ユーザが図2Aに示すように領域を選択した場合、形状が合致する領域が画像リポジトリ内の画像から検索される。この原理が図2Bに示される。図2Bでは、対象領域に形状が対応する4つの領域21、22、23、24が示されている。これらの領域が、図2Aにおいて強調表示される。図2Bは4つのみの形状が対応する領域を示すが、図2Bに示す4×4グリッドは、実際には、より多くの形状が対応する領域を有してもよいことが理解されるであろう。
上述したように、別の実施形態では、ユーザは単に、検索基準となる画像特徴を含む領域を規定する。この領域が、図3に破線のボックスで示されている。典型的には、注目領域の規定は、マウス80等のユーザ入力装置を用いて実行される。
本発明の別の実施形態では、画像リポジトリからの画像は、複数のセグメントのセットに分割される。画像処理システムは、画像リポジトリに記憶された複数のセグメントのセットを解析して、各セグメントのセットの特性を表す特徴データを抽出する。この解析の結果は、画像と関連付けられて記憶される。
その後、ユーザは、第1の画像から、例えば注目特徴に合致するセグメントのセットを選択することができる。システムは、この選択されたセグメントにいくつかの点で合致するセグメントのセットを、画像リポジトリの画像から検索する。図11はこの例を示す。図11は、複数のセグメントに分割された第1の画像1111を簡略して示す図である(図示されるセグメントの数は、3×3のグリッドに対応して9個であるが、これは単に例示であり、実際には、第1の画像は4×4のグリッドの場合に16個、又は5×5のグリッドの場合に25個等、他の数のセグメントに分割されてもよいことは理解されるであろう)。さらに、図11には、セグメントのすべての可能な組み合わせが示されているわけではないことが理解されるであろう。上述の選択方法に従ってユーザにより選択されたセグメントのセット1112が、破線で示される。ユーザがセグメントのセットを選択すると、システムは、選択されたセグメントに合致する記憶セグメントのセットを、画像リポジトリに記憶された画像から検索する。図11では、画像リポジトリからの画像を表す複数の画像1113〜1126が示されている。複数の画像1113〜1126はセグメント及びセグメントのセットに分割され、それらのうちいくつかは、ユーザが選択したセグメントのセットに対応する。複数の画像1113〜1126において検索された画像は、濃色のセグメントによって示される。複数の画像1113、1114、1115、1116、1117、1118からなる第1のグループの検索されたセグメントのセットは、ユーザが選択したセグメントのセットの形状、サイズ及び向きに対応する。複数の画像1119、1120、1121、1122、1123からなる第2のグループの検索されたセグメントのセットは、ユーザが選択したセグメントのセットの形状及びサイズに対応する。複数の画像1124、1125、1126からなる第3のグループの検索されたセグメントのセットは、ユーザが選択したセグメントのセットの形状に対応する。
注目特徴を含む領域が選択された後、画像リポジトリ内の検索が続行される。検索を実行するために、第1の画像(又はその選択された部分)が処理される必要がある。
[画像処理]
検索を開始するために、いくつかの実施形態では、システムは画像に対して色解像度低減処理を実行する。当然のことながら、画像の各画素は、典型的には、「R」、「G」及び「B」値(それぞれ、赤成分、緑成分及び青成分を定義する)等の画素の色成分値を表すデータ、又は「Y」、「CB」及び「CR」等(それぞれ、「輝度」及び「彩度」値を定義する)の色成分値を提供する色符号化方式を表すデータによって定義される。このような値は、各画素の色を決定する。画素の色を提供するために用いられ得る色の数は、画素の色成分値を表すために用いられたビット数によって決定される。典型的には、この色の数は1600万色であるが、これに限られない。色解像度低減処理は、典型的には、各色成分値に対する「ダウンサンプリング」又はデシメーション処理を含む。この結果、画素の存在し得る色の総数が低減される。色解像度低減処理が画像に適用されると、画像における色数が低減される。色解像度低減処理の適用後の効果として、多くの画像は、同じ色を有する複数の領域にセグメント化される。この効果により、画像が「ブロック状の」外観になることが明らかになる。図4は、この効果の例を簡略化して示した図である。
検索を開始するために、いくつかの実施形態では、システムは画像に対して色解像度低減処理を実行する。当然のことながら、画像の各画素は、典型的には、「R」、「G」及び「B」値(それぞれ、赤成分、緑成分及び青成分を定義する)等の画素の色成分値を表すデータ、又は「Y」、「CB」及び「CR」等(それぞれ、「輝度」及び「彩度」値を定義する)の色成分値を提供する色符号化方式を表すデータによって定義される。このような値は、各画素の色を決定する。画素の色を提供するために用いられ得る色の数は、画素の色成分値を表すために用いられたビット数によって決定される。典型的には、この色の数は1600万色であるが、これに限られない。色解像度低減処理は、典型的には、各色成分値に対する「ダウンサンプリング」又はデシメーション処理を含む。この結果、画素の存在し得る色の総数が低減される。色解像度低減処理が画像に適用されると、画像における色数が低減される。色解像度低減処理の適用後の効果として、多くの画像は、同じ色を有する複数の領域にセグメント化される。この効果により、画像が「ブロック状の」外観になることが明らかになる。図4は、この効果の例を簡略化して示した図である。
図4は、図3に示す画像の選択された領域に適用された色解像度低減処理の結果を示す。図4において、画像は、同じ色を有する画像要素41、42、43、44にセグメント化される。簡潔にするために、図示される色の数は4色に減らしてあるが、典型的には、色数はこれよりも多いことは理解されるであろう。いくつかの実施形態では、色解像度低減処理を受けた後の画像における色数は67色であるが、これに限られず、元の画像の色数よりも少ない任意の色数が想定される。
色解像度低減処理により画像が複数の同じ色を有する領域にセグメント化された後、画像はさらに、それぞれ一色の画像要素のみを有する複数の色平面に分割され。したがって、色平面の数は、色解像度低減処理後の画像における色の総数と同じになる。図5A〜図5Dは、画像を、各色の色成分を有する色平面に分割する様子を示した図である。
その後、1つ又は複数の画像要素に含まれる特性に対応する特徴ベクトル等の特徴データを抽出するために、各平面が解析される。この特性は、簡単にはその画像要素のサイズ若しくは色、又は形状等のより複雑な要件等、画像要素の1つ又は多数の側面に関するものであり得る。さらに、当然のことながら、特徴ベクトルは、画像要素の特性の抽象的な測度の一例である。その他、この特性は、例えば絶対差の和であってもよい。いくつかの実施形態では、1つ又は複数の色平面についての特徴ベクトルは、まず各画像要素についてエッジ画素を検出し、その後、色平面における各画像要素の外周の画素の画素値を算出することにより生成される。エッジ画素の検出は以下でさらに説明するが、ブロブ解析等の周知の技術を用いてもよい。その後、この外周の値の平均が算出され、各色平面について1つのスカラー値が生成される。この処理が各色平面について繰り返される。各色平面について、算出された平均スカラー値が取得され、ヒストグラムが生成される。図6は、このヒストグラムを簡略化して示した図である。
このヒストグラムは、画像リポジトリからの各画像について、このヒストグラムと同様に生成されたヒストグラムと比較される。
第1の画像から抽出されたヒストグラムと、画像リポジトリからの同様に抽出されたヒストグラムとを比較するための技術として、多くのものがある。非常に簡単な例では、2つのヒストグラムの対応するビンを位置合わせすることで、ヒストグラム間の絶対差を算出してもよい。この減算の結果を、さらなるヒストグラムとして表現してもよい。このようにして得られたヒストグラムのビンが合計され、1つの値が生成される。この値がゼロに近いほど、両ヒストグラムは類似している。この合計されたデータが閾値未満であるとき、リポジトリ内の類似した画像が特定される。ヒストグラムを比較するための簡単な技術だけを説明したが、より洗練された技術が存在することを当業者は理解するであろう。
典型的には、ヒストグラムの比較の結果により、画像リポジトリからの類似の画像に対応する複数の「ヒット」が生成される。これらの類似の画像は、表示画面上でユーザに提示することができる。当然のことながら、検索結果として返される画像の数は、いくつかのパラメータを指定することによって制御することができる。例えば、システムは、第1の画像のヒストグラムに最も合致するヒストグラムを有する上位10個の画像を返すように構成されてもよい。或いは、システムは、上述のように、第1の画像から抽出されたヒストグラムとの類似度が一定の閾値レベルを満たすヒストグラムを有するすべての画像を返すように構成されてもよい。ユーザを支援するために、ユーザが選択したセグメントのセットに対応する「ヒット」画像中のセグメントのセットが、「ヒット」画像中においてアウトラインで強調される。
いくつかの実施形態では、各色平面について特徴ベクトルを提供するために、各画像要素の外周の画素の総数がカウントされる。エッジ画素を検出するための当該技術分野において周知の方法は、典型的には、計算量が多く、画素毎の解析を必要とする。これにより、高解像度画像のリアルタイムのエッジ検出は非常に困難となることが多い。システムのいくつかの実施形態では、画像処理方法において、以下のエッジ検出技術が用いられる。他の実施形態では、別のエッジ検出技術が用いられてもよいことは理解されたい。
[エッジ検出]
この技術は、処理する画像を、エッジ画素毎に8回複製することを含む。各複製は、存在し得る8つの方向(すなわち、x+1,y+0;x−1,y+0;x+0,y+1;x+0,y−1;x+1,y+1;x+1,y−1;x−1,y−1;x−1,y+1)に、1画素ずつシフトされる(すなわち、空間的に変換される)。その後、XOR関数が、8個の変換された複製画像のすべての対応する画素に適用される。このXOR関数の結果は、エッジ画素を表す「1」と、非エッジ画素を表す「0」を有するバイナリ行列である。図7、図8及び図9は、この技術を簡略化して示した図である。
この技術は、処理する画像を、エッジ画素毎に8回複製することを含む。各複製は、存在し得る8つの方向(すなわち、x+1,y+0;x−1,y+0;x+0,y+1;x+0,y−1;x+1,y+1;x+1,y−1;x−1,y−1;x−1,y+1)に、1画素ずつシフトされる(すなわち、空間的に変換される)。その後、XOR関数が、8個の変換された複製画像のすべての対応する画素に適用される。このXOR関数の結果は、エッジ画素を表す「1」と、非エッジ画素を表す「0」を有するバイナリ行列である。図7、図8及び図9は、この技術を簡略化して示した図である。
図7は、画像73上の点72に対応する、簡略化され、拡大された領域71を示す。簡略化され、拡大された領域71を用いて、画像73の小さい領域を処理する技術を説明する。当然のことながら、以下は例示に過ぎず、実際には、この技術を画像73のすべての部分に適用してもよい。上述のように、この技術によれば、システムは、全体画像73を8回複製して、各複製を存在し得る8つの方向(すなわち、上、右上、右、右下、下、左下、左、左上)に1画素ずつシフトさせるように構成される。1画素に関しての相対的な動きが、簡略化され、拡大された領域71上で、矢印76によって示される。変換された複製が生成されると、XOR関数が、各複製された画像及びテストされている画素からの対応する画素についての色データに適用される。これは図8及び図9に図示されている。図をさらに簡略化するために、図8は、図7において破線75で囲まれて示された領域71の部分のみを示す。図示のように、破線で囲まれた領域75の中心の画素76がエッジ画素である。図8に示すように、この領域は8回複製され、各複製81、82、83、84、85、86、87、88は各考え得る方向に1画素ずつシフトされる。処理されている画素76の色データ並びにそれらの複製及び変換された画像81、82、83、84、85、86、87、88からの対応する画素(図8において破線で囲まれたボックス89により示される)にXOR関数が適用される。図7の拡大部分で示される例では、2色しか存在しないため、色データは、「1」又は「0」のいずれかであると考えられる。これは、画像リポジトリの検索においてエッジ検出を用いる実施形態でも同様である。しかし、当然のことであるが、この特定の技術はこれに限定されず、3つ以上の色が存在してもよい。図8を参照すると、処理されている画素76について生じるXOR関数は以下の通りである。
1XOR1XOR0XOR0XOR0XOR1XOR1=1
1XOR1XOR0XOR0XOR0XOR1XOR1=1
したがって、処理されている画素76はエッジ画素として示される。
図9は、非エッジ画素の例、すなわち中心画素91が同じ色を有する画素に囲まれた例を示す。図9において、処理されている画素91について生じるXOR関数は以下の通りである。
1XOR1XOR1XOR1XOR1XOR1XOR1=0
1XOR1XOR1XOR1XOR1XOR1XOR1=0
したがって、処理されている画素91は非エッジ画素として示される。
上述のように、領域71内の各画素についてXOR関数が実行されると、エッジ画素を表す「1」及び非エッジ画素を表す「0」を有するバイナリ行列が生成される。これは図10に示される。当然のことながら、画素からのデータは、XOR論理関数のみで処理されなければいけないわけではなく、NAND関数、OR関数又は任意の論理関数との組み合わせ等、他の論理関数との組み合わせで処理してもよい。画像を1画素ずつシフトすることは計算コストが低いため、エッジ画素を検出するためのこの特定の技術は有用である。さらに、シフトされた画像に論理関数を適用することも、従来技術に比べて計算コストが少ない。したがって、このエッジ検出技術によりリアルタイムのエッジ検出が可能になる。さらに、検索技術を図7、図8及び図9において説明した検出技術と共に用いると、実質的にリアルタイムでリポジトリに記憶されたビデオ画像を検索することができる。
先に述べたように、上記の処理は第1の画像(又はその選択された部分)に関して説明されたが、実施形態では、同じ処理又は類似の処理を、リポジトリに記憶された1つ又は複数の画像に対して実行してもよい。これにより、「事前解析された」画像を生成してもよく、又はこれを「オンザフライ」で実行してもよい。
他の実施形態を、画像の復元、例えば、元々フィルムに記録されていたものを取り込んでデジタル形式にした画像マテリアルのデジタル表現における傷の検出等において用いてもよい。本発明の実施形態の他の用途は、一般的なビデオ処理に関する。例えば、オブジェクトは画像から分離され、処理された後、画像に複製されてもよい。処理は例えば、色補正であってもよく、又は他の特殊効果であってもよい。他の用途は、画像内のオブジェクトに、ターゲットのハイパーリンクを正確にタギング又はマーキングすることであってもよい。写真内の顔に手動でタギングするためのシステムは、ユーザが長方形を用いて顔を認識することを可能にするものが多いが、長方形は他の顔に重なってしまうことが多く、ユーザがハイパーリンクをクリックすることによる混乱が生じる。本発明の実施形態は、ハイパーリンクを割り当てる領域をより正確に認識するのを支援することができる。
上記の処理は、全体画像に対して行われる色解像度低減処理について説明したが、この処理は代わりに、画像の選択された部分に対してのみ実行されることが想定される。これによりシステムの処理負荷が低減される。
上記のいくつかの実施形態は、セグメントの特徴データを探索すること(すなわち、前景成分及び背景成分が比較的等しく扱われる)に関して説明されたが、いくつかの実施形態では、画像又は画像の一部(例えば、セグメント)内の前景オブジェクトの特徴データ及び背景の特徴データを探索することが可能である。実施形態では、これを用いて、前景オブジェクトの特徴データが生成される。さらに、セグメント内の背景の一部又はすべての特徴データが生成される。生成された前景オブジェクト及び背景の双方の特徴データは、その後、リポジトリに記憶された画像における類似の前景特徴データ及び背景特徴データの組み合わせと比較される。この比較の結果として、実施形態では、関連度を示すインジケータを生成することが可能である。このインジケータは、順序付きのリストを生成するために用いることができる。実施形態において、最も関連度の高い記憶された画像は、ユーザによって最初に閲覧される。これにより、前景オブジェクトが背景中で閲覧されるため、より関連性の高い結果がユーザに返される。例えば、処理されているセグメントが、くちばしの画像及び森林の背景からなる場合、森林の背景内にある同様のくちばしは、砂漠にある同様のくちばしよりも関連性が高い。したがって、この実施形態ではより関連性の高い画像が返される。
いくつかの実施形態では、処理される画像は、空間的に8回複製されるのではなく(したがって、想定し得る1つのピクセルの変位毎に空間的な変換が適用されずに)、画像は8回よりも少ない回数複製され、空間的に変換されてもよい。これにより、エッジ画素の存在についての解析は不完全なものとなるが、生成された情報は、いくつかの実施形態では、有用なエッジ画素に関する十分な情報を提供するために十分である。当然のことながら、本発明の発明の概念から逸脱することなく、種々の変更を行うことができる。例えば、本発明の実施形態は、個別のコンピュータ装置を参照して説明されたが、本発明の実施形態は、複数の接続されたコンピュータにわたって動作する、より分散的なシステムにおいて実行してもよい。例えば、サーバが、画像リポジトリからの画像を記憶し、検索を実行してもよく、一方、ネットワーク接続を介してサーバに接続されたリモートコンピュータが、検索基準を指定してもよい。これは、システムの部分、例えばグラフィカルユーザインタフェースを、ウェブブラウザの「プラグイン」に組み込むことによって達成される。
本明細書において、本発明の例示的な実施形態を、添付の図面を参照して詳細に説明したが、本発明はこれらの厳密な実施形態に限定されず、当業者は、添付の特許請求の範囲において規定される本発明の範囲及び精神を逸脱することなく、種々の変更及び変形を行うことができることを理解されたい。
Claims (25)
- 複数の記憶された画像の各々を複数のセグメントに分割し、
それぞれが異なる組み合わせのセグメントを有する、前記各セグメントの複数のセットを抽出し、
前記各セグメントのセットの特性に対応する特徴データを抽出し、
前記生成された特徴データを前記記憶された画像と関連付けて記憶する
記憶画像解析方法。 - 請求項1に記載の画像解析方法であって、
前記特徴データは、前記各セグメントのセットの色特性データである
画像解析方法。 - 請求項1に記載の画像解析方法であって、
前記記憶された画像は、複数の等しい大きさの前記セグメントに分割される
画像解析方法。 - 請求項1に記載の画像解析方法であって、
前記セグメントは四角形である
画像解析方法。 - 請求項1に記載の方法により解析された、記憶された画像を検索する画像検索方法であって、
第1の画像において領域を規定し、
前記抽出され記憶された特徴データに対応する、前記第1の画像において規定された領域の特性に対応する特徴データを抽出し、
前記第1の画像から抽出された特徴データと、前記抽出され、記憶された特徴データとを比較する
画像検索方法。 - 請求項5に記載の画像検索方法であって、さらに、
前記第1の画像から抽出された特徴データと、前記抽出され記憶された特徴データとの前記比較の結果に応じて決定される順序により、前記記憶された画像の順序付きリストを生成する
画像検索方法。 - 請求項5に記載の画像検索方法であって、
前記第1の画像の前記特徴データ及び前記記憶された特徴データは、前記規定された領域の大きさ及び位置に依存せずに抽出される
画像検索方法。 - 請求項5に記載の画像検索方法であって、
前記第1の画像において規定された領域の形状は、前記記憶されたセグメントのセットのうちの少なくとも1つの形状と合致し、
前記比較は、前記記憶されたセグメントのセットのうち、前記形状が合致するものに対して実行される
画像検索方法。 - 請求項5に記載の画像検索方法であって、
前記第1の画像において規定された領域は、ユーザの入力に応じて生成される
画像検索方法。 - 請求項5に記載の画像検索方法であって、さらに、
前記比較の結果に応じて、前記記憶された画像のうちの少なくとも1つを選択する
画像検索方法。 - 請求項10に記載の画像検索方法であって、さらに、
前記比較に応じて前記記憶された画像が選択されたときに、当該記憶され選択された画像のうち、前記特徴データを有するセグメントのセットをユーザに対して強調表示する
画像検索方法。 - 複数の記憶された画像の各々を複数のセグメントに分割する分割部と、
それぞれ異なるセグメントを有する前記セグメントの複数のセットを抽出するセグメント抽出部と、
前記各セグメントのセットの特性に対応する特徴データを抽出する特徴データ抽出部と、
前記抽出された特徴データを前記記憶された画像と関連付けて記憶する記憶媒体と
を具備する画像解析装置。 - 請求項12に記載の画像解析装置であって、
前記特徴データは、前記各セグメントのセットの色特性データである
画像解析装置。 - 請求項12に記載の画像解析装置であって、
前記記憶された画像は、複数の等しい大きさの前記セグメントに分割される
画像解析装置。 - 請求項12に記載の画像解析装置であって、
前記セグメントは四角形である
画像解析装置。 - 請求項12に記載の装置によって解析された、記憶された画像を検索する画像検索装置であって、
第1の画像において領域を規定する領域規定部と、
前記抽出され記憶された特徴データに対応する、前記第1の画像において規定された領域の特性に対応する特徴データを抽出する特徴データ検索抽出部と、
前記第1の画像から抽出された特徴データと、前記抽出され記憶された特徴データとを比較する比較部と
を具備する画像検索装置。 - 請求項16に記載の画像検索装置であって、
前記第1の画像から抽出された特徴データと、前記記憶された画像に対応する、抽出され記憶された特徴データとの前記比較の結果に応じて決定される順序により、前記記憶された画像の順序付きリストを生成するリスト生成部
をさらに具備する画像検索装置。 - 請求項16に記載の画像検索装置であって、
前記特徴データ抽出部及び前記特徴データ検索抽出部は、前記第1の画像の前記特徴データ及び前記記憶された特徴データを、前記規定された領域の大きさ及び位置に依存せずに抽出する
画像検索装置。 - 請求項16に記載の画像検索装置であって、
前記第1の画像において規定された領域の形状は、前記記憶されたセグメントのセットのうちの少なくとも1つの形状と合致し、
前記比較は、前記記憶されたセグメントのセットのうち、前記形状が一致するものに対して実行される
画像検索装置。 - 請求項16に記載の画像検索装置であって、
前記第1の画像において規定された領域は、ユーザの入力に応じて生成される
画像検索装置。 - 請求項16に記載の画像検索装置であって、
前記比較の結果に応じて、前記記憶された画像のうちの少なくとも1つを選択する選択部
をさらに具備する画像検索装置。 - 請求項21に記載の画像検索装置であって、
前記比較に応じて前記記憶された画像が選択されたときに、当該記憶され選択された画像内の、前記特徴データを有するセグメントのセットをユーザに対して強調表示する強調表示部
をさらに具備する画像検索装置。 - コンピュータに、請求項1に記載の画像解析方法における各ステップを実行させるためのプログラム。
- 請求項23に記載のプログラムを記録する記録媒体。
- 処理 処理対象の画像において、前景オブジェクトの周囲の領域を、該処理対象の画像の背景の少なくとも一部を含むように規定する領域規定部領域規定部と、
前記領域における前記前景オブジェクトの特性に対応する特徴データ及び前記背景に対応する特徴データを生成する特徴データ生成部と、
前記生成された特徴データを、記憶された画像の前景オブジェクト及び背景に対応する他のそれぞれの特徴データと比較し、当該特徴データの比較に応じて、当該記憶された画像の特徴データのうち少なくともいくつかについて、当該記憶された画像の各特徴データと、前記処理対象の画像から抽出された特徴データとの関連度を示す関連度データを返す比較装置と
を具備する類似画像検索システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0721405A GB2454213A (en) | 2007-10-31 | 2007-10-31 | Analyzing a Plurality of Stored Images to Allow Searching |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009110526A true JP2009110526A (ja) | 2009-05-21 |
Family
ID=38834624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008282401A Pending JP2009110526A (ja) | 2007-10-31 | 2008-10-31 | 画像解析方法及び画像解析装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20090110277A1 (ja) |
EP (1) | EP2058741A3 (ja) |
JP (1) | JP2009110526A (ja) |
CN (1) | CN101425074A (ja) |
GB (1) | GB2454213A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011018238A (ja) * | 2009-07-09 | 2011-01-27 | Hitachi Ltd | 画像検索システム及び画像検索方法 |
JP2016201135A (ja) * | 2009-08-07 | 2016-12-01 | グーグル インコーポレイテッド | ソーシャルネットワークの支援による顔認識 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5572120B2 (ja) * | 2011-05-02 | 2014-08-13 | 日本放送協会 | 構図データ生成装置及び構図データ生成プログラム |
US8824031B2 (en) * | 2012-06-28 | 2014-09-02 | Xerox Corporation | Method and apparatus for object assisted image editing and transmission of scanned documents |
CN103900697A (zh) * | 2012-12-27 | 2014-07-02 | 杭州美盛红外光电技术有限公司 | 红外记录控制装置和红外记录控制方法 |
CN104748861A (zh) * | 2013-12-26 | 2015-07-01 | 杭州美盛红外光电技术有限公司 | 选择装置和选择方法 |
RU2634225C1 (ru) * | 2016-06-20 | 2017-10-24 | Общество с ограниченной ответственностью "САТЕЛЛИТ ИННОВАЦИЯ" (ООО "САТЕЛЛИТ") | Способы и системы поиска объекта в видеопотоке |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5671296A (en) * | 1994-02-15 | 1997-09-23 | Unisys Corporation | Method of electronically processing a quantized image |
US6477269B1 (en) * | 1999-04-20 | 2002-11-05 | Microsoft Corporation | Method and system for searching for images based on color and shape of a selected image |
JP3921015B2 (ja) * | 1999-09-24 | 2007-05-30 | 富士通株式会社 | 画像解析装置及び方法並びにプログラム記録媒体 |
JP2001117928A (ja) * | 1999-10-14 | 2001-04-27 | Olympus Optical Co Ltd | 類似画像検索装置及び類似画像検索方法並びに類似画像検索処理プログラムを記録した記録媒体 |
JP3438719B2 (ja) * | 2000-11-28 | 2003-08-18 | ミノルタ株式会社 | 画像検出装置、画像検出方法、ディジタルカメラおよびプリンタ |
IL141650A (en) * | 2001-02-26 | 2005-12-18 | Elop Electrooptics Ind Ltd | Method and system for tracking an object |
US6915011B2 (en) * | 2001-03-28 | 2005-07-05 | Eastman Kodak Company | Event clustering of images using foreground/background segmentation |
FR2825814B1 (fr) * | 2001-06-07 | 2003-09-19 | Commissariat Energie Atomique | Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique |
FR2845186B1 (fr) * | 2002-09-27 | 2004-11-05 | Thomson Licensing Sa | Procede et dispositif de mesure de similarite entre images |
JP4217954B2 (ja) * | 2003-02-12 | 2009-02-04 | 富士ゼロックス株式会社 | 画像探索装置 |
US7831599B2 (en) * | 2005-03-04 | 2010-11-09 | Eastman Kodak Company | Addition of new images to an image database by clustering according to date/time and image content and representative image comparison |
US7639890B2 (en) * | 2005-10-25 | 2009-12-29 | General Electric Company | Automatic significant image generation based on image characteristics |
-
2007
- 2007-10-31 GB GB0721405A patent/GB2454213A/en not_active Withdrawn
-
2008
- 2008-09-12 EP EP08253017A patent/EP2058741A3/en not_active Withdrawn
- 2008-09-22 US US12/234,993 patent/US20090110277A1/en not_active Abandoned
- 2008-10-31 CN CNA2008101739481A patent/CN101425074A/zh active Pending
- 2008-10-31 JP JP2008282401A patent/JP2009110526A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011018238A (ja) * | 2009-07-09 | 2011-01-27 | Hitachi Ltd | 画像検索システム及び画像検索方法 |
JP2016201135A (ja) * | 2009-08-07 | 2016-12-01 | グーグル インコーポレイテッド | ソーシャルネットワークの支援による顔認識 |
US10031927B2 (en) | 2009-08-07 | 2018-07-24 | Google Llc | Facial recognition with social network aiding |
US10515114B2 (en) | 2009-08-07 | 2019-12-24 | Google Llc | Facial recognition with social network aiding |
Also Published As
Publication number | Publication date |
---|---|
GB2454213A (en) | 2009-05-06 |
US20090110277A1 (en) | 2009-04-30 |
EP2058741A3 (en) | 2009-12-30 |
GB0721405D0 (en) | 2007-12-12 |
EP2058741A2 (en) | 2009-05-13 |
CN101425074A (zh) | 2009-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621755B1 (en) | Image file compression using dummy data for non-salient portions of images | |
US8526728B2 (en) | Establishing clusters of user preferences for image enhancement | |
Bianco et al. | Predicting image aesthetics with deep learning | |
JP2009110526A (ja) | 画像解析方法及び画像解析装置 | |
EP1700269A2 (en) | Detection of sky in digital color images | |
Ip et al. | Saliency-assisted navigation of very large landscape images | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN111178394B (zh) | 一种基于自适应图像信息熵的特征点提取方法 | |
Clouard et al. | An ontology-based model for representing image processing application objectives | |
CN110688524A (zh) | 视频检索方法、装置、电子设备及存储介质 | |
CN107545049A (zh) | 图片处理方法及相关产品 | |
Shete et al. | Tasselgan: An application of the generative adversarial model for creating field-based maize tassel data | |
Khokher et al. | Early lessons in deploying cameras and artificial intelligence technology for fisheries catch monitoring: where machine learning meets commercial fishing | |
JP2009110525A (ja) | 画像検索方法及び画像検索装置 | |
CN110765314A (zh) | 一种视频语义结构化提取与标注的方法 | |
Saini et al. | Chop & learn: Recognizing and generating object-state compositions | |
Sharma et al. | Video interframe forgery detection: Classification, technique & new dataset | |
Banerjee et al. | TWD: a new deep E2E model for text watermark/caption and scene text detection in video | |
CN116433634A (zh) | 一种基于域自适应的工业图像异常检测方法 | |
Zhang et al. | Perceptual artifacts localization for image synthesis tasks | |
CN105913024A (zh) | 基于lap算子的抵抗重放攻击的安卓手机终端检测方法 | |
Kalakoti | Key-Frame Detection and Video Retrieval Based on DC Coefficient-Based Cosine Orthogonality and Multivariate Statistical Tests. | |
Boros et al. | Automatic page classification in a large collection of manuscripts based on the International Image Interoperability Framework | |
Padilha et al. | Unraveling the Notre-Dame Cathedral fire in space and time: an X-coherence approach | |
CN113706636A (zh) | 一种用于篡改图像识别的方法与装置 |