JP5916886B2

JP5916886B2 - 画像特徴の類似性に基づく画像索引作成

Info

Publication number: JP5916886B2
Application number: JP2014547576A
Authority: JP
Inventors: ドゥオン・ユイ; チェン・コーア
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-01-17
Filing date: 2013-01-16
Publication date: 2016-05-11
Anticipated expiration: 2033-01-16
Also published as: EP2805262B1; TWI552007B; CN103207879B; JP2015506045A; WO2013109625A1; HK1183357A1; CN103207879A; US20130195361A1; US9330341B2; EP2805262A1; TW201331772A

Description

［関連出願の相互参照］
本出願は、あらゆる目的のために、参照によって本明細書に組み込まれる、２０１２年１月１７日に出願された発明の名称を「ＡＮＩＭＡＧＥＩＮＤＥＸＧＥＮＥＲＡＴＩＯＮＭＥＴＨＯＤＡＮＤＥＱＵＩＰＭＥＮＴ（画像索引作成の方法及び機器）」とする中国特許出願第２０１２１００１５２９０．８号に基づく優先権を主張する。

本出願は、画像索引作成の方法及び機器に関する。

情報検索分野において、キーワードに基づく従来の情報検索方法には限界がある。同じワードでも、異なる文脈では異なる意味を有することがある。例えば、「アップル」というワードは、異なる分野で大幅に異なる意味を有する。「アップル」というワードは、果物の一種を表すとともに、電子機器のブランドも表す。ユーザが、果物の一種を検索する目的でキーワードとして検索エンジンに「アップル」を入力すると、返ってくる検索結果は、果物と電子製品という大幅に異なる２つの対象に関する情報を含むのが一般的である。この場合は、電子製品のブランドに関係する情報が、ユーザの検索目的に合致しない。したがって、キーワードに基づく情報検索方法は、検索結果とユーザの検索目的とが相違するような結果を返すだろう。

オンラインデータ情報の大半に対しては、対応する画像が多岐にわたるような結果を処理する技術が存在する。例えば、一部の検索システムでは、ユーザは、情報検索を実行するときに、検索エンジンに画像を入力することができる。したがって、ユーザによって検索エンジンに入力された画像に基づいて、その画像に関係する全ての情報（以下、画像情報と称される）を取り出すことによって、画像ライブラリから、入力された画像情報に合致する画像情報を有する画像を取り出すことができる。入力された画像情報を、画像ライブラリ内の画像情報と突き合わせることによって、上述されたキーワードに基づく情報検索方法の欠点を克服することができる。

キーワードに基づく情報検索方法における情報索引の作成と同様に、上述された画像に基づく情報検索方法もまた、その後に続く検索方法に対するデータサポートを提供するために、画像ライブラリ内の大量の画像についての索引を作成する。画像ライブラリ内の画像について画像索引が作成されたときに、画像に基づく従来の情報検索技術は、画像に関係するファイル名（又は画像に関係するその他のテキスト情報）を使用する。この使用される方法は、その前提条件として、ユーザが手動で記述的テキスト情報を画像に追加することを伴う。記述的テキスト情報を手動で追加することを伴う画像索引作成方法の限界の１つに、画像ライブラリ内の画像の数が一般に非常に大きいという事実がある。したがって、記述的テキスト情報を手動で追加することを伴う従来の画像索引作成方法は、処理リソースの大量消費をもたらす。更に、記述的テキスト情報には、画像に関するユーザの主観的感覚が組み込まれるので、上述の画像索引作成方法は、ユーザの主観的感覚からの影響ゆえに精度が低下する恐れがある。

以下の詳細な説明及び添付の図面において、本発明の様々な実施形態が開示される。

画像索引作成システムの一実施形態を示す図である。

画像索引作成プロセスの一実施形態を示すフローチャートである。

多特徴融合式画像検索方法の一実施形態を示すフローチャートである。

クラスタ化操作の方法の一実施形態を示すフローチャートである。

画像内の少なくとも１つの標的領域を決定する方法の一実施形態を示すフローチャートである。

画像索引作成機器の一実施形態の図である。

本発明は、プロセス、装置、システム、合成物、コンピュータ読み取り可能なストレージ媒体に実装されたコンピュータプログラム製品、並びに／又は結合先のメモリに記憶された命令及び／若しくは結合先のメモリによって提供される命令を実行するように構成されるプロセッサなどのプロセッサのような、数々の形態で実現することができる。本明細書では、これらの実現形態、又は本発明がとりうるその他のあらゆる形態が、技術と称されるだろう。総じて、開示されたプロセスのステップの順序は、本発明の範囲内で変更されてよい。別途明記されない限り、タスクを実行するように構成されたものとして説明されるプロセッサ又はメモリなどの構成要素は、所定時にタスクを実行するように一時的に構成された汎用の構成要素として、又はタスクを実行するように製造された特殊な構成要素として実現されてよい。本明細書で使用される「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された１つ以上のデバイス、回路、並びに／又は処理コアを言う。

本発明の原理を例示す添付の図面とともに、以下で、本発明の１つ以上の実施形態の詳細な説明が提供される。本発明は、このような実施形態との関わりのもとで説明されるが、いずれの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、数々の代替形態、変更形態、及び均等物を包含している。以下の説明では、本発明の完全な理解を与えるために、数々の具体的詳細が明記されている。これらの詳細は、例示を目的として提供されたものであり、本発明は、これらの詳細の一部又は全部を伴わずとも、特許請求の範囲にしたがって実行されえる。明瞭さを期するために、本発明に関係する技術分野で知られる技術要素は、本発明が不必要に不明瞭にされないように、詳細な説明を省略されている。

従来の方法を使用して作成される画像索引の、比較的低い精度を向上させるために、以下の開示において、画像作成の方法、機器、及びシステムが開示される。

図面を参照して、以下では、画像索引作成の方法、機器、及びシステムが説明される。図１は、画像索引作成システムの一実施形態の図である。システム１００は、ネットワーク１３０を介して接続された、ユーザのクライアント端末１１０と、画像検索サーバ１２０とを含む。

ユーザは、ネットワーク１３０を通じて画像検索サーバ１２０に対して検索要求を発行することができる。

画像検索サーバ１２０は、画像索引を作成される画像ライブラリに含まれる画像を選択し、この画像に含まれる少なくとも１つの標的領域を決定し、決定された少なくとも１つの標的領域から視覚特徴を抽出し、抽出された視覚特徴に基づいて、画像ライブラリに含まれる画像の類似値を決定し、決定された画像の間の類似値に基づいて、画像ライブラリに含まれる画像が属する画像カテゴリを決定し、識別子割当方法にしたがって、画像ライブラリに含まれる画像にカテゴリ識別子を割り当てるように構成される。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を、異なる画像カテゴリに属する画像には異なるカテゴリ識別子を割り当てる。

画像検索サーバ１２０は、検索要求の結果を、ユーザに提示するためにクライアント端末１１０に送信することができる。

図２は、画像索引作成方法の一実施形態のフローチャートである。方法２００は、画像索引作成システム１００によって実現することができる。画像索引作成方法２００は、以下のステップを含む。

ステップ２１０において、画像検索サーバ１２０は、索引を作成される画像ライブラリから画像を選択する。様々な実施形態において、画像ライブラリは、ローカルに（例えば、画像検索サーバの一部であるストレージ要素上に）配置することができる、又はリモートに（例えば、画像検索サーバとは物理的に切り離されておりネットワークを通じてアクセス可能である別個のデータベースサーバ若しくはその他のストレージデバイス上に）配置することができる。

ステップ２２０において、画像検索サーバ１２０は、画像に含まれる少なくとも１つの標的領域（目標領域、対象領域）を決定する。

ステップ２３０において、画像検索サーバ１２０は、画像の少なくとも１つの標的領域から視覚特徴を抽出する。

総じて、画像は、前景と背景とを有すると想定され、画像の前景が、画像の主要なコンテンツを反映している。また、ユーザは、主に画像の前景を重要視し、画像の背景をあまり重要視しないとも想定される。したがって、本出願では、画像の前景が、画像の少なくとも１つの標的領域として機能することができる。言い換えると、画像ライブラリからの画像の前景が、画像の標的領域であると決定され、それらの画像の前景のみから、視覚特徴が抽出される。標的領域は、前景とも称される。１つの画像には、１つ以上の標的領域があるだろう。標的領域の数は、画像がどのように分割されるかに依存する。例えば、コートの画像が、それが１つの分割（例えばコート自体）のみを有するゆえに１つの標的領域を有する一方で、コートを着用している女性の画像は、それが２つの領域（例えばコートと女性の顔）に分割されるゆえに２つの標的領域を有する。

ステップ２４０において、画像検索サーバ１２０は、選択された画像及び別の画像に関する類似値を、画像の少なくとも１つの標的領域から抽出された視覚特徴に基づいて決定する。類似値は、２つの画像の類似性を示すことができるので、一部の実施形態では、類似値を、０から１までの間の値に正規化することができる。例えば、２つの画像間の類似値は、０．９２５であってよい。

一部の実施形態では、画像検索サーバ１２０は、画像ライブラリ内の特定の画像を選択し、その選択された画像内の少なくとも１つの標的領域を決定し、その画像に含まれる少なくとも１つの標的領域から視覚特徴を抽出することができる。抽出された視覚特徴は、色、形、質感、スケール不変性特徴変換（ＳＩＦＴ）などの特徴を含むことができる。ＳＩＦＴは、よく知られた技術である。基本的に、ＳＩＦＴ特徴は、空間スケールにおける端点に対応しており、この端点の場所、スケール、及び回転は、不変性である。画像の視覚特徴の抽出の際に、画像検索サーバ１２０は、選択された画像及び画像ライブラリ内の別の画像に関する類似値を決定することができる。言い換えると、類似値は、選択された画像の視覚特徴と、選択された画像及び画像ライブラリ内の別の画像の視覚特徴とに基づいて決定することができる。類似値は、２つの画像間の視覚特徴の類似度を算出することによって得ることができる。

ステップ２５０において、画像検索サーバ１２０は、画像ライブラリの画像の間の類似値に基づいて、画像ライブラリの画像が属する少なくとも１つの画像カテゴリを決定する。

一部の実施形態では、類似値の相違が比較的小さい幾つかの画像を、同じ画像カテゴリ内であると決定することができる。

ステップ２６０において、画像検索サーバ１２０は、識別子割当方法に基づいて、画像ライブラリの画像に個々にカテゴリ識別子を割り当てる。識別子割当方法は、同じカテゴリに属する画像には同じカテゴリ識別子を、異なる画像カテゴリに属する画像には互いに異なるカテゴリ識別子を割り当てる。

言い換えると、同じ画像カテゴリ内の画像の場合は、カテゴリ識別子は、各画像について同じである。異なる画像カテゴリ内の画像の場合は、カテゴリ識別子は、画像ごとに異なる。画像に割り当てられたカテゴリ識別子は、したがって、作成された画像索引として機能する。その後に続く検索プロセスでは、画像ライブラリ内における検索を、画像の画像索引に基づいて実行することができる。例えば、画像ライブラリ内における検索を、画像のカテゴリ識別子に対して実行することができる。

方法２００において、画像検索サーバ１２０は、画像ライブラリに含まれる画像の標的領域から個々に視覚特徴を抽出し、抽出された視覚特徴に基づいて画像ライブラリ内の画像の類似値を決定し、画像が属する画像カテゴリを決定し、最後に、類似値に基づいて、同じ画像カテゴリに属する画像に同じカテゴリ識別子を割り当てるとともに、類似値に基づいて、異なる画像カテゴリに属する画像に異なるカテゴリ識別子を割り当て、割り当てられた画像のカテゴリ識別子を、画像ライブラリ用に作成された画像索引として使用する。

従来の方法と比較すると、方法２００は、画像索引に記述的テキストを手動で追加する必要なしに、画像索引作成システム１００上で実行され得、これは、画像索引の作成の効率を向上させる。更に、作成される画像索引は、画像から抽出される視覚特徴と、決定される画像の類似値と、引き続き決定される画像が属する画像カテゴリとに基づいて作成されるので、画像索引が手動で作成されるときに盛り込まれるオペレータの主観的感覚による影響が軽減され、作成される画像索引の精度が向上する。

以下は、画像索引作成方法及び画像検索方法の一例についての説明である。

画像索引作成方法及び画像検索方法は、互いに独立した２つの方法であるが、これら２つの方法は、１つの流れに反映させることができる。これらの方法を説明するために、これら２つの方法を含む１つの流れを、「多特徴融合式画像検索方法」と称する。図３Ａは、多特徴融合式画像検索方法の一実施形態を示すフローチャートである。画像索引作成方法が、システムがオフラインである間に完全に実施可能である一方で、画像検索方法は、システムがオンラインである間に生じる。したがって、実行される時間に関して画像索引作成方法及び画像検索方法が有する特性の相違を名称に反映させるために、画像索引作成方法を「オフライン処理プロセス」と称し、画像検索方法は「オンライン検索プロセス」と称する。もちろん、本出願は、画像索引の作成をオフライン処理技術に限定しない。当業者ならば、画像索引の作成がオンライン処理技術を使用しても実行可能であることがわかる。

図３Ａは、オフライン処理プロセスに属するステップ３１０〜３３０及びオンライン検索プロセスに属するステップ３４０〜３６０を説明している。

３１０において、画像検索サーバ１２０は、画像索引を作成される画像ライブラリに含まれる画像を選択し、この画像から少なくとも１つの標的領域を抽出する。

本出願では、画像の少なくとも１つの標的領域を抽出するために、画像分割化と機械学習とが組み合わされる。例えば、ステップ３１０は、図３Ｃに示されるように、ステップ３１２〜３１６を使用して実現され得る。図３Ｃは、画像内の少なくとも１つの標的領域を決定する方法の一実施形態を示すフローチャートである。

ステップ３１２において、画像検索サーバ１２０は、画像に対して画像平滑化操作を実行する。一部の実施形態では、画像平滑化操作は、平均シフト技術に基づいて実行される。

平均シフト技術は、成熟した技術であり、クラスタ化、画像平滑化、画像分割化、及び追跡の分野に適用することができる。平均シフト技術は、当該分野で良く理解されている。したがって、簡潔さを期するために、平均シフトアルゴリズムの詳細な説明は省略される。

平均シフト技術は、基本的に、自己適応式上昇（アセント）ピーク検索方法である。自己適応式上昇ピーク検索方法は、以下のとおりである。すなわち、データ集合｛ｘ_i，ｉ＝１，２，……，ｎ｝が確率密度関数ｆ（ｘ）にしたがう場合に、初期点ｘが与えられ、初期点ｘを対象として平均シフト技術が実行されるとすると、平均シフト技術は、初期点を、それがピーク点に収束するまで段階的に移動させる。画像に照らして、｛ｘ_i，ｉ＝１，２，……，ｎ｝が画像内の各種の画素点に対応している場合に、データ集合内の各画素点が初期点として使用され、各画素点に対して個々に平均シフト技術が実行されるならば、データ集合内の各画素点は、最終的に、対応するピーク点に収束することができる。各画素点を対応するピーク点に収束させることによって、画像が平滑化される。

平均シフト技術の実行に基づくと、画像は、２次元格子点上のｐ次元ベクトルとして表すことができ、各格子点は、１つの画素に対応している。例えば、ｐ＝１は、画像がグレースケール画像であることを示し、ｐ＝３は、画像がカラー画像であることを示し、ｐ＞３は、画像がマルチスペクトル画像であることを示している。格子点座標は、一般に、画像の空間情報を示すために使用される。画像の空間情報及びカラー（又はグレースケールなど）情報をあわせて用いることによって、ｐ＋２次元ベクトルｘ＝（ｘ^S，ｘ^γ）を形成することができる。ここで、ｘ^Sは、格子点座標を示し、ｘ^γは、格子上のｐ次元ベクトルの特徴を示している。

ｘの分布が、カーネル関数

を使用して推定されるならば、

は、次式［１］によって表すことができる。

式［１］において、ｈ_S及びｈ_γは、平滑化の解像度（この文脈では、解像度は、画像の写像性を言う）を制御し、Ｃは、正規化定数であり、以下の条件が満たされる。

ｋは、非負である。

ｋは、非増分性である。例えば、ａ＜ｂであるならば、ｋ（ａ）≧ｋ（ｂ）である。

ｋは、区分的に連続しており、

である。

ｘ_i及びｚ_i（ｉ＝１，２，……，ｎ）が、それぞれ原画像及び平滑化された画像を示すと想定する。画像の平滑化を実行するための平均シフト技術は、以下のステップを含む。

各画素点に対し、以下の操作が実行される。

１．ｊ＝１に初期化し、ｙ_i,1＝ｘ_iにする。

２．平均シフト技術を適用し、ｙ_i,j+1がピーク点に収束するまでｙ_i,j+1を計算し、その収束値をｙ_i,eとして記録する。

３．

の値を割り当てる。ｚ_iは、平滑化された画像である。

画像を平滑化する目的は、１つには、ノイズのある画素を排除することにある。したがって、その後に続くその他の画像処理操作に対し、より高品質の画像を提供することができる。当業者ならば、画像平滑技術が、その後に続くその他の画像処理操作に大きな影響を及ぼすことなく省略可能であることがわかる。また、画像の平滑化を実行するために、クリミンのスペックル除去技術、三角波発振器、順序統計フィルタなどの、その他の画像平滑化技術も使用可能である。

ステップ３１４において、画像検索サーバ１２０は、平滑化された画像の各画素点を、領域拡張を実行するための種子として個々に使用する。領域拡張は、事前に分割（区分化）された画像を取得するために実行される。平滑化された画像は、分割化を通じて得られた異なる領域で構成される。

画像の異なる領域どうしを区別するためには、領域内の画素のグレースケール値を、その領域の画像識別子として使用することができる。

「領域拡張」は、画素点の集まり、すなわち領域を、より大きい領域に発展させることを言う。領域拡張は、種子（すなわち、個々の画素）から始まる。具体的に言うと、領域拡張は、類似の属性を有する種子及び隣接画素点を、１つの領域に融合させることを言う。属性としては、グレースケール、質感、色などが挙げられる。領域拡張は、画像の各画素点がいずれかの領域に融合されるまで各種子を対象にして繰り返されるプロセスである。こうして、画像を様々な領域に分割することができる。異なる領域の間の境界は、一般に、閉じられた多角形として画定される。

画像を分割するには、その他の画像分割化技術も使用可能である。その他の画像分割化技術としては、閾値分割化技術、領域分割・融合技術、余白に基づく分割化技術などが挙げられる。

ステップ３１６において、画像検索サーバ１２０は、各分割された領域に対して個々に背景信頼性決定を実行するために、サポートベクトルマシン（ＳＶＭ）方法を使用する。

画像の各分割された領域に対して実行される背景信頼性決定は、各分割された領域が背景領域であるか又は前景領域であるかを決定する。言い換えると、背景信頼性決定は、各分割された領域が画像の背景であるか又は前景であるかを決定する。画像の前景領域が、標的領域である。

別の一態様としては、第１のサンプル画像ライブラリを構築するために、画像ライブラリから所定の数のサンブル画像を選択することができる。第１のサンプル画像ライブラリ内の各サンプル画像に含まれる背景領域及び前景領域は、事前に手動で決定可能であり、それらに基づいて、背景領域決定モデルをトレーニングすることができる。第１のサンプル画像ライブラリ内の画像に含まれる背景領域及び前景領域は、既に決定されているので、第１のサンプル画像ライブラリ内の画像は、ＳＶＭ方法を使用して背景領域決定モデルを適合するためのトレーニングサンプルとして使用することができる。したがって、適合された背景領域決定モデルが、サンプル画像ライブラリ内の画像の背景領域及び前景領域を決定するために使用される場合は、得られる結果の大半が、既知の結果に照らして正しいものになる。言い換えると、既定の背景領域及び前景領域を有するトレーニングサンプルの集合が与えられたとすると、モデルが許容可能であるとみなされるためには、そのモデルから得られた結果の大半が（すなわち、画素が前景にある又は背景にあるにかかわらず）、既定の結果と同じである必要がる。例えば、適合された背景領域決定モデルが、その他の未知の標的領域内の個々の画像に対して使用されるのに許容可能であるとみなされるためには、閾値である９０％を超える結果が正しいものである必要がある。したがって、背景領域決定モデルに基づくと、画像内の各分割された領域が突き合わされた後は、画像に含まれるそれら分割された領域のなかから背景領域及び前景領域を決定することができる。

この時点で、画像内の標的領域が決定されており、上述されたステップ３１２〜３１６を使用し、画像ライブラリに含まれる画像の標的領域を決定することができる。

ステップ３２０において、画像検索サーバ１２０は、決定された少なくとも１つの標的領域から視覚特徴を抽出する。

総じて、抽出された視覚特徴は、グローバルな視覚特徴と、ローカルな視覚特徴とを含む。様々な実施形態において、画像検索サーバ１２０は、グローバルな視覚特徴のみ、ローカルな視覚特徴のみ、又はグローバルな視覚特徴及びローカルな視覚特徴の両方を抽出することができる。グローバルな視覚特徴としては、色特徴や形状特徴などが挙げられるが、これらに限定はされない。ローカルな視覚特徴としては、質感特徴やＳＩＦＴ特徴などが挙げられるが、これらに限定はされない。

異なる視覚特徴を抽出するために使用される特徴抽出技術は、以下を含む。

１．色特徴を抽出するための特徴抽出技術

本出願では、画像の少なくとも１つの標的領域内で統計的に得られた色ヒストグラムが、画像の色特徴として機能することができる。色ヒストグラムを計算するためには、先ず、少なくとも１つの標的領域の色特徴に対して定量化処理を実行することができる。例えば、定量化処理として、スパースコーディングを使用することができる。

例えば、色ヒストグラムは、２４瓶を含むことができ、各瓶は、赤、緑、及び青の３原色（ＲＧＢ）で構成された２４の一般色のうちの１つにそれぞれに且つ重複なしに対応している。この例では、２４の一般色を、多数の写真に基づいて統計的に得ることができるが、このやり方は、非限定的なものである。画像内の各画素点について、この画素点に対応するＲＧＢ三原色で構成される各色が、１つの瓶に対応している。任意の画像について、色ヒストグラムの瓶は、画像内でその対応する色を有している画素点の数を反映している。したがって、画像の少なくとも１つの標的領域内の各画素点について、上記２４の色がそれぞれ対応している画素点の数に対して個々に統計的計数操作を実行すれば、画像内の標的領域に対応する色ヒストグラムが得られるだろう。言い換えると、画素の色値を全て数え上げることによって、２４次元の色ヒストグラムを得ることができる。色ヒストグラムは、その結果、画像内の少なくとも１つの標的領域の色特徴を表すことになる。

更に、色ヒストグラムは、画像の少なくとも１つの標的領域内の様々な画素点の、２４色に対応する統計的数に関係しているので、２４色に含まれる画素点の数は、２４次元の色特徴ベクトルを表すのに使用することができる。２４次元の色特徴ベクトルは、色ヒストグラムに対応しており、色ヒストグラムは、画像内の少なくとも１つの標的領域の色特徴として機能することができる。その他の実施形態では、異なる数の色瓶を使用することができる。

２．形状特徴を抽出するための特徴抽出技術

本出願では、形状特徴を抽出するための特徴抽出技術として、形状コンテキスト（ＳＣ）技術を使用することができる。

画像を分析することによって、画像検索サーバ１２０は、画像（画像の標的領域など）が合計ｍ個の画素点を含むときに、特定の画素点Ｐ_iが残りｍ−１個の全ての画素点との間に関係を有することを決定することができる。続いて、Ｐ_iと残りｍ−１個の画素点との間の関係に基づいて、ｍ−１個のベクトルを生成することができる。ｍ−１個のベクトルは、標的領域の形状特徴を決定する情報を表すことができる。物体の輪郭は、その物体の形状特徴の最も直接的な記述の１つであるので、輪郭に沿った一定数の離散点は、その物体の形状特徴を表すことができる。したがって、ＳＣ技術は、画像の標的領域から輪郭が抽出された後に、対数−極座標変換の実行のために、輪郭に沿って均等に分布した画素点を選択することを含む。選択された画素点に対して対数−極座標変換を実行することによって、対応する対数−極座標ヒストグラムを得ることができる。輪郭に沿って合計Ｑ個の画素点が選択された場合は、対数−極座標ヒストグラムの次元数は、Ｑである。対数−極座標ヒストグラムは、輪郭に沿った各画素点間の空間的位置関係を表すので、画像検索サーバ１２０は、標的の形を決定することができる。したがって、対数−極座標ヒストグラムは、画像の形を反映した形状特徴として機能することができる。更に、ＳＣ技術にしたがって得られた画像の標的領域の対数−極座標ヒストグラムは、画像の標的領域から抽出された形状特徴として機能することができる。色特徴と同様に、対数−極座標ヒストグラムを表すために、形状特徴ベクトルも使用することができる。したがって、形状特徴ベクトルもまた、画像の標的領域の形状特徴として機能することができる。

ＳＣ技術は、既に比較的成熟した技術であるので、簡潔さを期するために、この技術の更に詳細な議論は省略される。

３．質感特徴を抽出するための特徴抽出技術。

本出願では、画像の少なくとも１つの標的領域の質感特徴を抽出するために、ローカルバイナリパターン（ＬＢＰ）技術を使用することができる。ＬＢＰ技術によって抽出される質感特徴は、指定の画素点からそれぞれ等距離にあるＮ個の画素点の集まりを含む。言い換えると、Ｎ個の画素点は、指定の画素点から等距離にあって、この指定の画素点は、中心点に対応している。例えば、ここで言う距離は、Ｒで示すことができる。指定の画素点から等距離にある点を含むＮ個の画素点は、指定の画素点を円の中心として有する円の周に沿って均等に分布される。円は、また、半径Ｒと、例えば、中心点として画素点（ｘ_D，ｙ_D）を有する８個の隣接領域とを有する。中心画素点のグレースケール値Ｉ_Dが、閾値として機能することができ、この閾値と、中心画素点（ｘ_D，ｙ_D）から距離Ｒにある８つの隣接画素点のグレースケール値Ｉ_φ（ここで、φは、それぞれ０，１，２，……，７である）との間のサイズ関係に基づいて、８つの隣接画素点のグレースケール値Ｉ₀，Ｉ₁，……，Ｉ₇が、それぞれ１又は０としてコード化され、最終的に、８桁の二進数が得られる。続いて、この８桁の二進数は、基数が１０の整数に変換され、この基数が１０の整数は、中心として画素点（ｘ_D，ｙ_D）を有する８つの隣接領域内における質感原コードＬＢＰ_N,R（ｘ_D，ｙ_D）として使用される。したがって、質感原コードＬＢＰ_N,R（ｘ_D，ｙ_D）は、８つの隣接領域についての質感特徴である。言い換えると、質感原コードＬＢＰ_N,R（ｘ_D，ｙ_D）は、グレースケール値の中の上記順序測定特徴の集まりである。質感原コードＬＢＰ_N,R（ｘ_D，ｙ_D）を計算するための具体的な式は、次式［２］に対応する。

Ｎが、中心として画素点（ｘ_D，ｙ_D）を有し且つこの画素点（ｘ_D，ｙ_D）からの距離が指定の距離に等しい隣接領域内に位置する画素点の数であるときに（例えば、上記の状況を例として使用すると、画素点の数は８であってよい）、ｓｇｎは、再定義されたサイン関数に相当し、ｓｇｎ（Ｉ_φ―Ｉ_D）は、グレースケール値Ｉ_φのサイズとグレースケール値Ｉ_Dのサイズとの間の関係を比較することによって実行に移されるＩ_φのコード化を表す。別の例では、Ｉ_φ―Ｉ_D≧０であるときに、ｓｇｎ（Ｉ_φ―Ｉ_D）＝１であり、Ｉ_φ―Ｉ_D＜０であるときに、ｓｇｎ（Ｉ_φ―Ｉ_D）＝０である。

本出願では、画像の少なくとも１つの標的領域の質感特徴を、より効率良く抽出するために、画像の少なくとも１つの標的領域を、先ず、Ｌ×Ｌ個の小領域に分割することができる。続いて、全ての小領域から、並行して質感特徴を抽出することができる。一例では、Ｌの値は、４であってよい。分割された小領域の形は、矩形であってよい。小領域は、重複していなくてよい、又は重複していてよい。一態様として、総じて、小領域は、別の小領域に完全には重複しない。

各小領域が標的にされるので、以下を、並行して実行することができる。各小領域に含まれる各画素点について、画像検索サーバ１２０は、その画素点を中心として有する隣接領域について質感原コードを決定することができる。例えば、Ｎ₁個の画素点を含む１つの小領域について、合計Ｎ₁個の質感原コードを決定することができる。画像検索サーバ１２０は、決定されたＮ₁個の質感原コードを標的にし、それら決定されたＮ₁個の質感原コードに含まれる異なる質感原コードの発生回数を数え上げ、そして、数え上げられたそれら異なる質感原コードの発生回数を表すためにヒストグラムを使用することによって、ＬＢＰ特徴ヒストグラムを得ることができる。ＬＢＰ特徴ヒストグラムは、各小領域についての質感特徴に対応することができる。各小領域についてのＬＢＰ特徴ヒストグラムが得られた後は、それら全ての小領域で構成される少なくとも１つの標的領域についての質感特徴を決定することができる。例えば、画像の少なくとも１つの標的領域の質感特徴を、各ＬＢＰ特徴ヒストグラムを組み合わせることによって決定することができる。色特徴と同様に、組み合わされたＬＢＰ特徴ヒストグラムを表すために、質感特徴ベクトルも使用することができる。したがって、質感特徴ベクトルもまた、画像の少なくとも１つの標的領域の質感特徴に対応することができる。

４．ＳＩＦＴ特徴を抽出するための特徴抽出技術。

ＳＩＦＴ特徴は、画像の検出及び記述のためにコンピュータ視覚技術を使用するローカルな特徴である。便宜上、ＳＩＦＴ特徴を抽出するための特徴抽出技術を、ＳＩＦＴ技術と称する。この技術は、空間スケールにおける端点を見つけ出し、この端点の場所、スケール、及び回転の不変性を抽出する。

本出願では、ステップ３１０において、画像の少なくとも１つの標的領域のそれぞれについて、以下のステップを実行する。先ず、少なくとも１つの標的領域内で、回転不変性及びスケール不変性を有する画素点を決定することができる。これらの画素は、ＳＩＦＴ特徴画素、又はキー画素とも呼ばれる。画素は、画像が任意の角度で回転されたときに又は任意のスケールで変換されたときに、対応する画素のＳＩＦＴ特徴が変化しない場合に、回転不変性及びスケール不変性を有すると見なされる。回転不変性及びスケール不変性の決定は、よく知られているので、簡潔さを期するために、回転不変性及びスケール不変性の決定の詳細は省略される。続いて、画像の少なくとも１つの標的領域に含まれる画素点のなかから、各キー画素点について、そのキー画素点を中心とする隣接領域内にあってそのキー画素点の周囲に分布された６４個の画素点が選択される。一部の実施形態では、６４個の画素点は、キー画素点を中心とする８×８構造の形に配置することができる。選択された６４個の画素点は、隣接する４つの画素点を同じ画素グループに割り当てるグループ分け方法に基づいてグループ分けされる。したがって、選択された６４個の画素点は、合計１６個の画素グループに分割される。１６個の画素グループのそれぞれについて、各画素グループに含まれる４つの画素点の方向に対してベクトル加算が実行され、画素グループ方向が得られる。画素グループ方向は、次いで、各キー画素点に相対的な８つの方向に投影され、８つの座標値が得られる。８つの方向は、上、下、左、右、左上、右上、左下、及び右下を含む。最終的に、１６個の画素グループは、１２８（すなわち、１６×８）の座標値に対応する。１２８個の座標値から形成された１２８次元の特徴ベクトルが、各キー画素点のＳＩＦＴ特徴である。本出願では、画像の少なくとも１つの標的領域に含まれる各キー画素点について決定された１２８個の座標値から形成された１２８次元の特徴ベクトルが、画像に含まれる少なくとも１つの標的領域の抽出ＳＩＦＴ特徴として機能することができる。

別の一態様としては、上述されたＳＩＦＴ技術の原理に基づいて、画像の少なくとも１つの標的領域内の１つのキー画素点を標的にして、１つの１２８次元特徴ベクトルを決定することができる。画像の少なくとも１つの標的領域が、合計ｒ個のキー画素点を含んでいると想定すると、画像の少なくとも１つの標的領域について決定されるＳＩＦＴ特徴は、ｒ×１２８次元の特徴ベクトルになるだろう。ｒ×１２８次元の特徴ベクトルは、次元数が大きく、その後に続く応用において、大量の計算リソースを消費する。計算リソースの使用量を減らすために、本出願は、別のＳＩＦＴ技術を開示している。このＳＩＦＴ技術は、キー画素点のＳＩＦＴ特徴を表すために、視覚ワード（例えば数又は記号）を使用する。この技術は、２つの部分に分割することができ、第１の部分はモデルトレーニング部分であり、第２の部分はＳＩＦＴ特徴決定部分である。第１の部分は、以下のステップを含む。

第１に、多数の画像を有する第２のサンプル画像ライブラリについて、上述された方法と同様な技術を使用し、第２のサンプル画像ライブラリ内の各画像の少なくとも１つの標的領域に含まれるキー画素点を個々に決定して複数のキー画素点を得る。

続いて、Ｋ平均クラスタ技術を使用し、得られた全てのキー画素点を含むキー画素点集合をトレーニングして視覚ワードツリーを得る。視覚ワードツリーをどのように得るかの詳細が、以下で説明される。視覚ワードツリーは、Ｌ個のレベルを有し、Ｋ本の枝を有する。視覚ワードツリーの各ノードが、１つのキー画素点に対応する。Ｌ及びＫの値は、手動で設定することができる。

Ｋ平均クラスタ化技術は、当該分野で知られている。Ｋ平均クラスタ化技術の目的は、ｓ個のデータオブジェクトを標的にすることにある。入力量ｐに基づいて、ｓ個のデータオブジェクトが、ｐ個のクラスタに分割される。これらｐ個のクラスタは、「同じクラスタ内のデータオブジェクトの類似値は比較的高く、異なるクラスタ内のデータオブジェクトの類似値は比較的低い」という条件を満たす。言い換えると、プロセスは、以下のステップを含む。ｓ個のデータオブジェクトのなかから、初期クラスタ中心としてそれぞれ機能させるためのｐ個のデータオブジェクトが選択される。初期クラスタ中心は、ｐ個のクラスタに対応している。例えば、ｓ個のデータオブジェクトは、ｐ個のクラスタにグループ分けされる、データオブジェクトからなる初期集合に対応している。最初に、ｓ個のデータオブジェクトのなかから、ｐ個のデータオブジェクトからなる集合が選択される。これらｐ個のデータオブジェクトは、それぞれ、ｐ個のクラスタのうちの対応する一クラスタのための初期クラスタ中心である。続いて、選択されていないその他のデータオブジェクト（すなわち、残りのデータオブジェクト）を、各初期クラスタ中心の類似値に基づいて、最も類似性を有するクラスタに個々に割り当てることができる。この例では、類似値は、データオブジェクトと初期クラスタ中心との間の距離を使用して測定することができる。距離は、データオブジェクトのＳＩＦＴ特徴（例えば１２８次元の特徴ベクトル）と、初期クラスタ中心のＳＩＦＴ特徴との間の距離（例えばユークリッド距離）を言うことができる。その他のデータオブジェクト（すなわち、残りのデータオブジェクト）がクラスタに割り当てられた後は、各クラスタのクラスタ中心が、クラスタに含まれる全てのデータオブジェクトの平均に対応するように再計算される。このようして、計算された各クラスタの中心は、新しいクラスタ中心に対応するようになる。上記のプロセスは、決定された新しいクラスタ中心に対し、標準測定関数が収束し始めるまで連続して繰り返される。標準測定関数としては、平均二乗誤差を使用することができる。

上述されたＫ平均クラスタ化技術に基づくと、Ｌ個のレベル及びＫ本の枝を有する視覚ワードツリーを得るために、第２のサンプル画像ライブラリ内の各画像の少なくとも１つの標的領域内で決定された全てのキー画素点に対してクラスタ化を実行することができる。得られたＫ個のクラスタは、第１のレベルに対応している。次いで、得られたＫ個のクラスタの各クラスタについて、各クラスタ下においてＫ個の小クラスタを得るために、Ｋ平均クラスタ化技術を使用し、各クラスタに含まれる全てのキー画素点がクラスタ化される。第１のレベルにおけるＫ個のクラスタを個々にクラスタ化して得られるＫ×Ｋ個の小クラスタが、第２のレベルである。上記のステップを合計Ｌ回にわたって繰り返すことによって、Ｌ個のレベルとＫ本の枝とを有する視覚ワードツリーを得ることができる。レベルＬを有する視覚ワードツリーは、合計Ｋ^L個のクラスタを有する。視覚ワードツリーのレベルＬに位置する各クラスタは、リーフノードと称することができる。本出願では、各リーフノードに対し、各リーフノードに割り当てられる番号が一意である限りにおいて異なる番号を割り当てることができる。例えば、リーフノードに番号を割り当てるためのルールは、０からＫ^L−１までの範囲の番号を左から右に向かって０から順に割り振ることができる。

上記のステップは、「モデルトレーニング部分」を構成するものである。以下のステップは、「ＳＩＦＴ特徴決定部分」を説明するものである。

先ず、実行ステップ３１０によって決定された画像の少なくとも１つの標的領域について、画像検索サーバ１２０は、少なくとも１つの標的領域内のキー画素点を決定する。

続いて、少なくとも１つの標的領域内の各決定されたキー画素点について、画像検索サーバ１２０は、以下のステップを実行する。すなわち、ＳＩＦＴ特徴決定部分に基づいて、各キー画素点に対応する１２８次元の特徴ベクトルを決定する。次いで、視覚ワードツリーのレベル１のＫ個のクラスタを提供し、現キー画素点と、現クラスタのクラスタ中心との間の距離を比較する（すなわち、現キー画素点に対応する１２８次元の特徴ベクトルと、現クラスタのクラスタ中心に対応する１２８次元特徴ベクトルとの間の距離を比較する）ことによって、レベル１のＫ個のクラスタのなかから、現キー画素点への距離が最も短いクラスタを見つけることができる。続いて、現クラスタ下における次のレベル（すなわち、レベル２）に位置するＫ個のクラスタのなかから、現キー画素点への距離が最も短いクラスタを見つけることができる。現キー画素点への距離が最も短い視覚ワードツリーの枝を見つけることは、プロセスが特定のリーフノードに達するまで下方に進むことによって続けられる。プロセスは、このリーフノードに対応するクラスタのクラスタ中心と、現キー画素点との間の距離が最短になるまで続けられ、このリーフノードに対応するクラスタのクラスタ中心が、第１のキー画素点と称される。プロセスが進んだ先のリーフノードの番号、すなわち第１のキー画素点の番号が、現キー画素点の番号であると決定される。現キー画素点の番号は、現キー画素点についての視覚ワードとして機能し、この視覚ワードが、現キー画素点のＳＩＦＴ特徴である。

上記の方法は、画像の少なくとも１つの標的領域内で決定された各キー画素点に対して使用される。視覚ワードツリーのなかで、各キー画素点への距離が最も短い第１のキー画素点が決定される。第１のキー画素点の番号が決定され、各キー画素点について決定された第１のキー画素点の番号で構成されるベクトルが、画像に含まれる少なくとも１つの標的領域の抽出ＳＩＦＴ特徴として機能する。

上記のステップに基づいて、本出願は、番号を使用してキー画素点のＳＩＦＴ特徴を表し、各キー画素点のＳＩＦＴ特徴で構成されるベクトルを、画像の少なくとも１つの標的領域のＳＩＦＴ特徴として使用する。番号は、リーフノードの番号に対応することができ、これは、視覚ワードでもある。画像の少なくとも１つの標的領域から、合計ｒ個のキー画素点が抽出されると想定する。次いで、上記のＳＩＦＴ特徴決定部分を使用し、画像の少なくとも１つの標的領域について最終的に決定されるＳＩＦＴ特徴は、ｒ次元のベクトルである。ｒ次元ベクトルの各要素は、１つのキー画素点に対応する視覚ワードに関係している。各キー画素点に対応する１２８次元の特徴ベクトルで構成されるｒ×１２８次元の特徴ベクトルを直接使用する方法と比較すると、本出願で提供されるＳＩＦＴ特徴を抽出する方法は、ＳＩＦＴ特徴を表すために特徴ベクトルが使用する寸法の数を大幅に低減させる。したがって、計算リソースの消費が減らされる。

この時点で、画像の少なくとも１つの標的領域の視覚特徴が抽出されている。抽出された視覚特徴は、色特徴、形状特徴、質感特徴、及びＳＩＦＴ特徴を含む。上述された方法は、抽出された視覚特徴として機能させるために上記４種類の特徴の１つ又は２つ以上を抽出するために使用されてよい。

ステップ３３０において、抽出された視覚特徴に基づいて、画像検索サーバ１２０は、画像ライブラリに含まれる画像に対してクラスタ化操作を実行し、クラスタ化された画像にカテゴリ識別子を割り当てる。

本出願では、クラスタ化操作を実行する間に参照されるパラメータとして、画像の記述的情報及び抽出された視覚特徴が挙げられる、又は抽出された視覚特徴のみが挙げられる。クラスタ化操作は、階層的クラスタ化とＫ平均とを組み合わせた技術を言うことができる。

図３Ｂは、クラスタ化操作の方法の一実施形態を示すフローチャートである。異なるパラメータを参照するクラスタ化操作が、以下で説明される。

或る状況では、参照されるパラメータは、画像の記述的情報及び抽出された視覚特徴の両方を含むことができる。この状況では、画像ライブラリに含まれる画像のクラスタ化は、以下のステップを含んでいてよい。

ステップ３３２において、画像検索サーバ１２０は、画像ライブラリに含まれる異なる画像の記述的情報を取得し、この記述的情報に基づいて、異なる画像に対応するテキスト注釈情報を個々に決定する。画像の記述的情報としては、画像が属するカテゴリを記述するテキストに基づく情報、画像ヘッダ情報、画像のコンテンツに関係する記述的情報などが挙げられる。

言い換えると、画像ライブラリに含まれる異なる画像の記述的情報に基づくと、それら異なる画像の主要なコンテンツを記述するために使用されるものとして決定された記述的情報のキーワードは、それら異なる画像についてのテキスト注釈情報として機能することができる。記述的情報についてのキーワードは、画像のテキスト注釈情報に対応することができる。各画像についてのテキスト注釈情報のサイズは、固定することができる。

ステップ３３４において、画像検索サーバ１２０は、異なる画像について決定されたテキスト注釈情報に基づいて、階層的クラスタ化を使用して画像をクラスタ化し、このクラスタ化された画像を複数の画像集合に割り当てることができる。

階層的クラスタ化は、以下の意味を有する、比較的成熟した距離に基づくクラスタ化技術である。すなわち、階層的クラスタ化は、異なる画像のテキスト注釈情報の間の相関性を決定し、テキスト注釈情報に関して高い相関性を有する画像を同じ画像カテゴリに割り当てる。言い換えると、画像のテキスト注釈情報を計算することによって、高い相関性を有する画像のテキスト注釈情報を同じクラスにグループ分けすることができる。この例では、相関性は、テキストの関連性を言い、これは、コサイン類似性などの一般的なテキスト相関性計算方法によって計算することができる。

別の例では、階層的クラスタ化方法にしたがって、相関値を決定することができる。相関値は、異なる画像のテキスト注釈情報の間の相関性の程度を測るために使用することができる。所定の相関性閾値を超える相関値を有する画像は、同じ画像カテゴリに割り当てることができる。したがって、テキスト注釈情報に関して高い相関性を有する画像は、１つの画像集合を形成する１つの画像カテゴリに割り当てることができる。したがって、意味レベルで高いまとまりを有する画像集合を形成することができる。

ステップ３３６において、階層的クラスタ化から得られた画像集合について、画像から抽出された視覚特徴に基づいて、画像検索サーバ１２０は、更に、Ｋ平均クラスタ化技術を使用し、視覚特徴に基づく画像クラスタ化を実施する。抽出される視覚特徴は、色特徴、形状特徴、質感特徴、及びＳＩＦＴ特徴を含む。

ステップ３３４で得られた画像集合に関し、画像集合に含まれる画像の数は、一般に、非常に大きい可能性がある。また、視覚コンテンツの視点から見て、画像集合の画像は、激しく異なる可能性がある。関連技術において、画像に対応する記述的テキスト情報は、オペレータの主観的感覚による影響を受ける可能性がある。したがって、ステップ３３４で得られた画像集合もまた、オペレータの主観的感覚による影響を受けている可能性がある。ステップ３３６において、主観的感覚の影響を最小限に抑えるために、本出願は、得られた画像集合を、画像から抽出された視覚特徴に基づいて更にクラスタ化することを考えている。

一例において、クラスタ化操作は、以下を含む。すなわち、階層的クラスタ化によって得られた画像集合について及びこの画像集合に含まれる画像について、その画像から、視覚特徴を表すために使用される視覚特徴ベクトルを抽出することができる。例えば、抽出された視覚特徴が、色特徴、形状特徴、質感特徴、及びＳＩＦＴ特徴を含むときは、色特徴ベクトルは抽出された色特徴を表すために使用可能であり、形状特徴ベクトルは抽出された形状特徴ベクトルを表すために使用可能であり、質感特徴ベクトルは抽出された質感特徴を表すために使用可能であり、画像の少なくとも１つの標的領域内の各キー画素点の視覚ワードで構成されたベクトルは抽出されたＳＩＦＴ特徴を表すために使用可能であるゆえに、これら４つのベクトルを一定の順序で配置することによって形成されるベクトルは、その画像についての視覚特徴ベクトルとして機能することができる。視覚ワードは、各キー画素点からの距離が最も短い各第１のキー画素点の番号に対応している。４つのベクトルは、色特徴ベクトル、形状特徴ベクトル、質感特徴ベクトル、及び画像の少なくとも１つの標的領域内の各キー画素点の視覚ワードで構成されたベクトルを含む。視覚特徴ベクトルは、画像の視覚コンテンツを表している。異なる画像に対応する決定された視覚特徴ベクトルに基づいて、異なる画像の視覚特徴ベクトルの間の類似値を決定することができる。視覚特徴ベクトルの類似値は、異なる画像の間の類似値に対応する。Ｋ平均クラスタ化技術にしたがって、画像集合に含まれる画像に対してクラスタ化操作が実施される。クラスタ化操作は、画像が属する画像カテゴリを決定することができる。異なる画像の視覚特徴ベクトルの間の類似値は、異なる画像の視覚特徴ベクトル間の距離に基づいて決定することができる。こうして、画像ライブラリ内の画像をクラスタ化することができる。ＳＩＦＴ特徴を表す視覚特徴ベクトルの次元数は、ＳＩＦＴ特徴が抽出されたときに既に減らされているので、異なる画像の視覚特徴ベクトル間の距離を決定するときの計算リソースの使用量は、更に低減される。

最後に、識別子割当方法にしたがって、画像集合に含まれる画像にカテゴリ識別子が割り当てられる。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる。画像及びそれらに対応するカテゴリ識別子は、保存される。

上記の画像クラスタ化プロセスは、参照されるパラメータとして、画像の記述的情報及び抽出された視覚特徴を使用する。上記のステップ３３２〜３３６を使用し、画像検索サーバ１２０は、画像から抽出された視覚特徴に基づく第１のクラスタ化で得られた画像集合に含まれる画像を、画像のテキスト記述的情報に基づいて更にクラスタ化する。第２のクラスタ化の際に参照されるパラメータは、比較的客観的に得られた視覚特徴であるので、第１のクラスタ化の際に、第１のクラスタ化で得られた画像集合に対してテキスト記述的情報に関するオペレータの主観的感覚によって生じた影響は、軽減される。したがって、各種の画像カテゴリは、最終的に、より客観的に得られる。

第２の状況において、画像ライブラリに含まれる画像のクラスタ化の際に参照されるパラメータは、抽出された視覚特徴のみを含む。別の例では、第２の状況における、画像ライブラリに含まれる画像のクラスタ化は、第１の状況下における、ステップ３３６と同様である。画像ライブラリに含まれる異なる画像から個々に抽出された視覚特徴に基づいて、視覚特徴に基づく画像クラスタ化操作を実行するために、Ｋ平均技術が使用される。視覚特徴は、色特徴、形状特徴、質感特徴、及びＳＩＦＴ特徴を含む。

クラスタ化プロセスは、以下のステップを含む。

画像ライブラリ内の画像について、視覚特徴ベクトルは、その画像から抽出された視覚特徴を表す。視覚特徴ベクトルは、画像の視覚的コンテンツを一意に表すことができる。視覚特徴ベクトルを決定する方法は、基本的に、上記の第１の状況に関係してステップ３３６において視覚特徴ベクトルを決定する方法と同じである。

次いで、Ｋ平均クラスタ化技術にしたがって、異なる画像についての視覚特徴ベクトルの類似値に基づいて、画像ライブラリに含まれる画像に対してクラスタ化操作が実行され、画像が属する画像カテゴリが決定される。本出願は、Ｋ平均クラスタ化技術の使用に限定されず、代わりにその他のクラスタ化技術が使用されてもよい。別のクラスタ化技術の一例として、ＣＵＲＥが挙げられる。

最後に、識別子割当方法にしたがって、画像にカテゴリ識別子がそれぞれ割り当てられる。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられ、画像及びカテゴリ識別子は、対応付けて保存される。

本出願において、各画像に割り当てられたカテゴリ識別子は、画像索引を形成する。

この時点で、画像索引を作成される画像ライブラリ内の各画像に対し、クラスタ化操作が完了している。画像索引として機能するカテゴリ識別子は、既に、全ての画像に割り当てられている。カテゴリ識別子は、具体的には、クラスＩＤであってよい。

本出願において、上記ステップ３１０〜３３０は、オフライン処理プロセスに関するものである。オフライン処理プロセスの目的の１つは、その後に続くオンライン検索プロセスに対してデータサポートを提供するために、画像ライブラリを作成することにある。オンライン検索プロセスは、ステップ３４０〜３６０に関するものである。図面に照らして、以下で、オンライン検索プロセスに含まれるステップ３４０〜３６０の実行が説明される。

ステップ３４０において、実際のオンライン検索プロセスでは、検索される画像のカテゴリ識別子に基づいて、画像検索サーバ１２０は、画像ライブラリ内で、検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する全ての画像を決定する。

本出願において、画像検索についての一例は、以下のとおりである。ユーザは、キーワードに基づく検索を実行するためのキーワード又は用語を入力する。例えば、「ワンピース」が入力される。各検索結果は、対応する画像をそれぞれ有しており、これら対応する画像は、画像索引を既に作成された画像ライブラリ内にある。関連のボタンをクリックすることによって、ユーザは、特定の検索結果に対応する画像を、取り出されるべき画像として選択することができる。言い換えると、キーワードを使用して得られた検索結果に対応する画像に基づいて、第２の検索が実行される。この第２の検索は、画像に基づく情報検索である。

ステップ３５０において、検索される画像と同じカテゴリ識別子を有するものと決定された各画像について、画像検索サーバ１２０は、各画像についての類似値を個々に決定する。類似値は、各画像の視覚特徴と、検索される画像の視覚特徴との間の類似度を測るものである。

ステップ３６０において、画像検索サーバ１２０は、類似値を使用し、同じカテゴリ識別子を有する画像のなかから、検索される画像に対応する画像を選択する。所定の類似性閾値を超える類似値を有する画像を、検索結果としてユーザのクライアント端末１１０に返すことができる。

随意として、上述された選択された画像に関し、類似値にしたがって、画像の配置を順序付けるために使用されるソート情報を決定することができる。画像は、最も大きい類似値から最も小さい類似値へとソートすることができる。選択された画像が、検索結果としてユーザのクライアント端末に返されるときに、ソート情報もまた、画像をソート情報に基づいてソート及び表示するようにユーザのクライアント端末に指示するために、ユーザのクライアント端末に返すことができる。検索される画像と同じカテゴリ識別子及び視覚特徴を有する個別の画像間の類似値を決定するときに、この決定は、各画像の視覚特徴ベクトルと、検索される画像の視覚特徴ベクトルとの間の距離に基づいてもよい。また、ＳＩＦＴを表す視覚特徴ベクトルにおけるベクトルの次元数は、オフライン処理プロセスにおいてＳＩＦＴ特徴を抽出するプロセスの際に既に低減されているので、この時点で視覚特徴ベクトル間の距離を決定するための計算リソースの消費は、大幅に減らすことができる。

なお、視覚特徴が、不可分な一体として画像から抽出されたならば、この抽出プロセスによって抽出された視覚特徴は、画像に含まれるコンテンツ間の空間的相違を捉えることができないだろう。このような抽出プロセスは、画像の特定の特性を、全体的なものとして反映することしかできないだろう。したがって、異なる画像の間の類似性を、画像のコンテンツレベルの相違の視点から比較することは難しいだろう。一部の実施形態では、検索が実行されるときに、異なる画像の間の全体的な類似性は、ほとんど重視されず、その代わりに、前景のみを含む画像領域、すなわち画像の標的領域の類似性が、より重視される。したがって、画像の標的領域の視覚特徴のみを抽出するほうが、実際の要求を良く満足させる。また、画像の背景領域の視覚特徴が抽出されないので、そうでなければ背景領域から視覚特徴を抽出するために使用されるだろう計算リソースを節約することができる。

本出願では、画像索引の作成の際に、画像が客観的に持つ視覚特徴が参照されるので、作成される画像索引の精度が向上する。

本出願における画像索引作成方法に対応して、画像索引作成機器もまた開示される。図４は、画像索引作成機器の一実施形態の概略図である。画像索引作成機器４００は、選択モジュール４１０と、割当モジュール４２０と、カテゴリ決定モジュール４３０と、類似性決定モジュール４４０と、抽出モジュール４５０と、標的領域決定モジュール４６０とを含む。

選択モジュール４１０は、索引を作成される画像ライブラリから画像を選択するように構成される。

割当モジュール４２０は、識別子割当方法にしたがって、画像ライブラリに含まれる画像にカテゴリ識別子をそれぞれ割り当てるように構成される。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を、異なる画像カテゴリに属する画像には異なるカテゴリ識別子を割り当てる。

カテゴリ決定モジュール４３０は、決定された画像の類似値に基づいて、画像ライブラリに含まれる画像が属する画像カテゴリを決定するように構成される。

類似性決定モジュール４４０は、異なる画像から抽出された視覚特徴に基づいて、画像ライブラリに含まれる画像の類似値を決定するように構成される。

抽出モジュール４５０は、画像索引を作成される画像ライブラリに含まれる各画像について、画像内の少なくとも１つの標的領域を決定し、決定された少なくとも１つの標的領域から視覚特徴を抽出するように構成される。

抽出モジュール４５０は、更に、以下のステップを実行するように構成される。決定された少なくとも１つの標的領域から抽出された視覚特徴は、色特徴、形状特徴、質感特徴、及びスケール不変性特徴変換（ＳＩＦＴ）特徴のうちの、少なくとも１つを含む。抽出された視覚特徴がＳＩＦＴ特徴である場合は、画像内の決定された少なくとも１つの標的領域について、ＳＩＦＴ技術は、画像の少なくとも１つの標的領域内の各キー画素点を決定し、各キー画素点に対応する１２８次元の特徴ベクトルが決定される。各キー画素点に対応する１２８次元特徴ベクトルについて、そのキー画素点に対応する１２８次元特徴ベクトルと、所定のサンプル画像ライブラリ内の各キー画素点に対応する１２８次元特徴ベクトルとの間の距離が比較される。サンプル画像ライブラリ内のキー画素点であって、対応する１２８次元特徴ベクトルからの距離が最も短い第１のキー画素点が決定され、この第１のキー画素点に事前に割り当てられた番号が決定される。各キー画素点について決定された第１のキー画素点の番号で形成されたベクトルが、画像の少なくとも１つの標的領域から抽出されたＳＩＦＴ特徴として使用される。

類似性決定モジュール４４０は、更に、画像ライブラリに含まれる異なる画像の記述的情報に基づいて、それら異なる画像に対応するテキスト注釈情報を個々に決定し、異なる画像に対応するテキスト注釈情報の間の相関性の程度を測るために使用される相関値を決定し、１つの画像集合について決定された相関値に基づいて、階層的クラスタ化方法を使用して、画像ライブラリに含まれる画像を複数の画像集合に割り振り、画像集合に含まれる異なる画像から取り出された視覚特徴に基づいて、異なる画像に対応する視覚特徴ベクトルを決定し、異なる画像に対応する決定された視覚特徴ベクトルに基づいて、異なる画像の間の類似値を決定するように構成される。

類似性決定モジュール４４０は、また、画像ライブラリに含まれる異なる画像から抽出された視覚特徴に基づいて、異なる画像に対応する視覚特徴ベクトルを決定し、異なる画像に対応する決定された視覚特徴ベクトルに基づいて、異なる画像の間の類似値を決定するようにも構成される。

抽出モジュール４５０は、画像に対して画像平滑化操作を実行し、画像平滑化操作を実行された画像について、その画像内の各画素点を、領域拡張操作を実行するための種子として使用し、画像を複数の領域に分割するように構成される。

標的領域決定モジュール４６０は、画像の複数の分割された領域のなかから少なくとも１つの標的領域を決定するように構成される。

カテゴリ決定モジュール４３０は、Ｋ平均クラスタ化技術にしたがって、決定された画像間の類似値に基づいて、画像ライブラリに含まれる画像に対してクラスタ化操作を実行し、画像ライブラリに含まれる画像が属する画像カテゴリを決定するように構成される。

上述されたモジュールは、１つ以上の汎用プロセッサ上で実行されるソフトウェア要素として、又はプログラム可能論理装置及び／若しくは特定の機能を実行するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装することができる。一部の実施形態では、モジュールは、本発明の実施形態で説明される方法を（パソコン、サーバ、ネットワーク機器などの）計算装置に実行させるための幾つかの命令を含み尚且つ（光ディスク、フラッシュストレージデバイス、モバイルハードディスクなどの）不揮発性のストレージ媒体に記憶させることができるソフトウェア製品の形で具現化することができる。モジュールは、１つのデバイスに実装されてよい、又は複数のデバイスに分散されてよい。モジュールの機能は、互いに合体されてよい、又は複数の小モジュールに更に分割されてよい。

本出願は、画像索引作成の方法及び機器を開示している。方法では、視覚特徴は、画像ライブラリに含まれる画像内の少なくとも１つの標的領域から個々に抽出される。画像ライブラリに含まれる画像の間の類似値は、抽出された視覚特徴に基づいて決定される。画像が属する画像カテゴリが決定される。同じ画像カテゴリに属する画像には同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には異なるカテゴリ識別子が割り当てられる。画像に割り当てられたカテゴリ識別子は、画像ライブラリのための画像索引を作成するために使用される。先行技術と比較すると、本方法は、画像索引作成の作成効率を高めるために画像索引を手動で追加する必要なしに、自動的に実行され得る。また、画像索引は、画像からの視覚特徴の抽出に基づいて作成されるので、画像の間の類似性の決定、及びその後に続く、画像が属する画像カテゴリの決定において、画像索引が手動で作成されるときにもたらされるオペレータの主観的感覚による影響が軽減され、したがって、作成される画像索引の精度が向上する。

以上の実施形態は、理解を明瞭にする目的で幾分詳細に説明されてきたが、本発明は、提供される詳細に限定されない。本発明を実現するには、多くの代替的手法がある。開示された実施形態は、例示的なものであり、非限定的である。
適用例１：画像を管理するための方法であって、ストレージデバイスから、画像索引が作成される画像ライブラリに含まれる画像を選択し、前記画像に含まれる少なくとも１つの標的領域を決定し、前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出し、１つ以上のコンピュータプロセッサを使用し、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることを備え、同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、方法。
適用例２：適用例１に記載の方法であって、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合は、色特徴、形状特徴、質感特徴、スケール不変性特徴変換（ＳＩＦＴ）特徴、又はそれらの任意の組み合わせを含み、前記視覚特徴の集合がＳＩＦＴ特徴を含む場合、前記決定された少なくとも１つの標的領域から前記視覚特徴の集合を抽出することは、前記画像内の前記決定された少なくとも１つの標的領域について、前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、ことと、前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、を個々に実行することと、を含む、方法。
適用例３：適用例１に記載の方法であって、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、前記画像集合の１つについて、前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、こと、を備える、方法。
適用例４：適用例１に記載の方法であって、前記選択された画像と前記別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、を備える、方法。
適用例５：適用例１に記載の方法であって、前記画像内の少なくとも１つの標的領域を決定することは、前記画像に対して画像平滑化操作を実行し、前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも１つの標的領域は、前記分割された複数の領域のなかから決定される、こと、を備える、方法。
適用例６：適用例１に記載の方法であって、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、方法。
適用例７：適用例２に記載の方法であって、Ｎは１２８である、方法。
適用例８：画像作成機器であって、少なくとも１つのプロセッサであって、画像索引が作成される画像ライブラリに含まれる画像を選択し、前記画像に含まれる少なくとも１つの標的領域を決定し、前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出し、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることであって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子を割り当てるように構成されている少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに接続され、前記少なくとも１つのプロセッサに命令を提供するように構成されているメモリと、を備える、機器。
適用例９：適用例８に記載の機器であって、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合は、色特徴、形状特徴、質感特徴、スケール不変性特徴変換（ＳＩＦＴ）特徴、又はそれらの任意の組み合わせを含み、前記視覚特徴の集合がＳＩＦＴ特徴を含む場合、前記決定された少なくとも１つの標的領域から前記視覚特徴の集合を抽出することは、前記画像内の前記決定された少なくとも１つの標的領域について、前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、ことと、前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、を個々に実行することと、を含む、機器。
適用例１０：適用例８に記載の機器であって、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、前記画像集合の１つについて、前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、こと、を備える、機器。
適用例１１：適用例８に記載の機器であって、前記選択された画像と前記別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、を備える、機器。
適用例１２：適用例８に記載の機器であって、前記画像内の少なくとも１つの標的領域を決定することは、前記画像に対して画像平滑化操作を実行し、前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも１つの標的領域は、前記分割された複数の領域のなかから決定される、こと、を含む、機器。
適用例１３：適用例８に記載の機器であって、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを含む、機器。
適用例１４：非一時的なコンピュータ読み取り可能ストレージ媒体に実装された、画像索引を作成するためのコンピュータプログラム製品であって、画像索引が作成される画像ライブラリに含まれる画像を選択するためのコンピュータ命令と、前記画像に含まれる少なくとも１つの標的領域を決定するためのコンピュータ命令と、前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出するためのコンピュータ命令と、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定するためのコンピュータ命令と、前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定するためのコンピュータ命令と、前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てるためのコンピュータ命令であって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、コンピュータ命令と、を備えるコンピュータプログラム製品。
適用例１５：適用例１４に記載のコンピュータプログラム製品であって、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合は、色特徴、形状特徴、質感特徴、スケール不変性特徴変換（ＳＩＦＴ）特徴、又はそれらの任意の組み合わせを含み、前記視覚特徴の集合がＳＩＦＴ特徴を含む場合、前記決定された少なくとも１つの標的領域から前記視覚特徴の集合を抽出することは、前記画像内の前記決定された少なくとも１つの標的領域について、前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、ことと、前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、を個々に実行すること、を含む、コンピュータプログラム製品。
適用例１６：適用例１４に記載のコンピュータプログラム製品であって、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、前記画像集合の１つについて、前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、こと、を備える、コンピュータプログラム製品。
適用例１７：適用例１４に記載のコンピュータプログラム製品であって、前記選択された画像と前記別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、を備える、コンピュータプログラム製品。
適用例１８：適用例１４に記載のコンピュータプログラム製品であって、前記画像内の少なくとも１つの標的領域を決定することは、前記画像に対して画像平滑化操作を実行し、前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも１つの標的領域は、前記分割された複数の領域の中から決定される、こと、を備える、コンピュータプログラム製品。
適用例１９：適用例１４に記載のコンピュータプログラム製品であって、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、コンピュータプログラム製品。
適用例２０：適用例１５に記載の方法であって、Ｎは１２８である、方法。
適用例２１：画像を管理するための方法であって、検索される画像ライブラリに含まれる画像に含まれる少なくとも１つの標的領域を決定し、前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出し、前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行し、前記クラスタ化された画像にカテゴリ識別子を割り当て、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられること、１つ以上のプロセッサを使用し、前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも１つの画像を決定し、前記１つ以上のプロセッサを使用し、前記決定された少なくとも１つの画像と前記検索される画像との類似値を決定し、前記１つ以上のプロセッサを使用し、前記類似値に基づいて前記少なくとも１つの画像から画像を選択すること、を備える方法。
適用例２２：非一時的なコンピュータ読み取り可能ストレージ媒体に実装された、画像索引を作成するためのコンピュータプログラム製品であって、検索される画像ライブラリに含まれる画像に含まれる少なくとも１つの標的領域を決定するためのコンピュータ命令と、前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出するためのコンピュータ命令と、前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行するためのコンピュータ命令と、前記クラスタ化された画像にカテゴリ識別子を割り当てるためのコンピュータ命令であって、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられる、コンピュータ命令と、前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも１つの画像を決定するためのコンピュータ命令と、前記決定された少なくとも１つの画像と前記検索される画像との類似値を決定するためのコンピュータ命令と、前記類似値に基づいて前記少なくとも１つの画像から画像を選択するためのコンピュータ命令と、を備えるコンピュータプログラム製品。

Claims

画像を管理するための方法であって、
ストレージデバイスから、画像索引が作成される画像ライブラリに含まれる画像を選択し、
前記画像に含まれる少なくとも１つの標的領域を決定し、前記画像の前景の少なくとも一部は前記少なくとも１つの標的領域に含まれ、前記画像の背景は前記少なくとも１つの標的領域に含まれず、
前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出し、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はスケール不変性特徴変換（ＳＩＦＴ）特徴を含み、前記１つ以上の視覚特徴からなる集合を抽出することは、
前記画像内の前記決定された少なくとも１つの標的領域について、
前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、
Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、
ことと、
前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、
キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、
前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、
前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、
前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、
を個々に実行することと、を含み、
１つ以上のコンピュータプロセッサを使用し、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、
前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、
前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることを備え、
同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、方法。
請求項１に記載の方法であって、
前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はさらに、色特徴、形状特徴、質感特徴、又はこれらと前記ＳＩＦＴ特徴の任意の組み合わせを含む、方法。
請求項１に記載の方法であって、
前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、
前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、
前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、
前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、
前記画像集合の１つについて、
前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、
こと、
を備える、方法。
請求項１に記載の方法であって、
前記選択された画像と前記別の画像との類似値を決定することは、
前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、
を備える、方法。
請求項１に記載の方法であって、
前記画像内の少なくとも１つの標的領域を決定することは、
前記画像に対して画像平滑化操作を実行し、
前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも１つの標的領域は、前記分割された複数の領域のなかから決定される、こと、
を備える、方法。
請求項１に記載の方法であって、
前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、
前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、方法。
請求項１に記載の方法であって、
Ｎは１２８である、方法。
画像作成機器であって、
少なくとも１つのプロセッサであって、
画像索引が作成される画像ライブラリに含まれる画像を選択し、
前記画像に含まれる少なくとも１つの標的領域を決定し、前記画像の前景の少なくとも一部は前記少なくとも１つの標的領域に含まれ、前記画像の背景は前記少なくとも１つの標的領域に含まれず、
前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出し、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はスケール不変性特徴変換（ＳＩＦＴ）特徴を含み、前記１つ以上の視覚特徴からなる集合を抽出することは、
前記画像内の前記決定された少なくとも１つの標的領域について、
前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、
Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、
ことと、
前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、
キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、
前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、
前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、
前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、
を個々に実行することと、を含み、
前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、
前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、
前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることであって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子を割り当てるように構成されている少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに接続され、前記少なくとも１つのプロセッサに命令を提供するように構成されているメモリと、
を備える、機器。
請求項８に記載の機器であって、
前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はさらに、色特徴、形状特徴、質感特徴、又はこれらと前記ＳＩＦＴ特徴の任意の組み合わせを含む、機器。
請求項８に記載の機器であって、
前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、
前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、
前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、
前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、
前記画像集合の１つについて、
前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、
こと、
を備える、機器。
請求項８に記載の機器であって、
前記選択された画像と前記別の画像との類似値を決定することは、
前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、
を備える、機器。
請求項８に記載の機器であって、
前記画像内の少なくとも１つの標的領域を決定することは、
前記画像に対して画像平滑化操作を実行し、
前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも１つの標的領域は、前記分割された複数の領域のなかから決定される、こと、
を含む、機器。
請求項８に記載の機器であって、
前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、
前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを含む、機器。
画像索引を作成するためのコンピュータプログラムであって、
画像索引が作成される画像ライブラリに含まれる画像を選択するための機能と、
前記画像に含まれる少なくとも１つの標的領域を決定するための機能と、前記画像の前景の少なくとも一部は前記少なくとも１つの標的領域に含まれ、前記画像の背景は前記少なくとも１つの標的領域に含まれず、
前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出するための機能と、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はスケール不変性特徴変換（ＳＩＦＴ）特徴を含み、前記１つ以上の視覚特徴からなる集合を抽出するための機能は、
前記画像内の前記決定された少なくとも１つの標的領域について、
前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、
Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、
ことと、
前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、
キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、
前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、
前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、
前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、
を個々に実行することと、を含み、
前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定するための機能と、
前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定するための機能と、
前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てるための機能であって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、機能と、
をコンピュータによって実現させるコンピュータプログラム。
請求項１４に記載のコンピュータプログラムであって、
前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はさらに、色特徴、形状特徴、質感特徴、又はこれらと前記ＳＩＦＴ特徴の任意の組み合わせを含む、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムであって、
前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、
前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、
前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、
前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、
前記画像集合の１つについて、
前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、
こと、
を備える、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムであって、
前記選択された画像と前記別の画像との類似値を決定することは、
前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、
を備える、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムであって、
前記画像内の少なくとも１つの標的領域を決定することは、
前記画像に対して画像平滑化操作を実行し、
前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも１つの標的領域は、前記分割された複数の領域の中から決定される、こと、
を備える、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムであって、
前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、
前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムであって、
Ｎは１２８である、コンピュータプログラム。
画像を管理するための方法であって、
検索される画像ライブラリに含まれる画像に含まれる少なくとも１つの標的領域を決定し、前記画像の前景の少なくとも一部は前記少なくとも１つの標的領域に含まれ、前記画像の背景は前記少なくとも１つの標的領域に含まれず、
前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出し、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はスケール不変性特徴変換（ＳＩＦＴ）特徴を含み、前記１つ以上の視覚特徴からなる集合を抽出することは、
前記画像内の前記決定された少なくとも１つの標的領域について、
前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、
Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、
ことと、
前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、
キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、
前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、
前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、
前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、
を個々に実行することと、を含み、
前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行し、
前記クラスタ化された画像にカテゴリ識別子を割り当て、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられること、
１つ以上のプロセッサを使用し、前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも１つの画像を決定し、
前記１つ以上のプロセッサを使用し、前記決定された少なくとも１つの画像と前記検索される画像との類似値を決定し、
前記１つ以上のプロセッサを使用し、前記類似値に基づいて前記少なくとも１つの画像から画像を選択すること、
を備える方法。
非一時的なコンピュータ読み取り可能ストレージ媒体に実装された、画像索引を作成するためのコンピュータプログラムであって、
検索される画像ライブラリに含まれる画像に含まれる少なくとも１つの標的領域を決定するための機能と、前記画像の前景の少なくとも一部は前記少なくとも１つの標的領域に含まれ、前記画像の背景は前記少なくとも１つの標的領域に含まれず、
前記決定された少なくとも１つの標的領域から、１つ以上の視覚特徴からなる集合を抽出するための機能と、前記決定された少なくとも１つの標的領域から抽出された前記１つ以上の視覚特徴からなる集合はスケール不変性特徴変換（ＳＩＦＴ）特徴を含み、前記１つ以上の視覚特徴からなる集合を抽出するための機能は、
前記画像内の前記決定された少なくとも１つの標的領域について、
前記少なくとも１つの標的領域内の各キー画素点を決定するために、ＳＩＦＴを実行し、
Ｎを整数として、前記各キー画素点に対応するＮ次元特徴ベクトルを個々に決定する、
ことと、
前記各キー画素点に対応する前記Ｎ次元特徴ベクトルについて、
キー画素点に対応するＮ次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するＮ次元特徴ベクトルとの間の距離を比較するステップと、
前記画像ライブラリ内のキー画素点であって、対応する前記Ｎ次元特徴ベクトルからの距離が最も短い第１のキー画素点を決定するステップと、
前記第１のキー画素点に事前に割り当てられた番号を決定するステップと、
前記各キー画素点について決定された、前記第１のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたＳＩＦＴ特徴として形成するステップと、
を個々に実行することと、を含み、
前記１つ以上の視覚特徴からなる集合に少なくとも部分的に基づいて、前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行するための機能と、
前記クラスタ化された画像にカテゴリ識別子を割り当てるための機能であって、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられる、機能と、
前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも１つの画像を決定するための機能と、
前記決定された少なくとも１つの画像と前記検索される画像との類似値を決定するための機能と、
前記類似値に基づいて前記少なくとも１つの画像から画像を選択するための機能と、
をコンピュータによって実現させるコンピュータプログラム。
請求項２１に記載の方法において、前記画像に対して前記クラスタ化操作を実行することは、
前記画像にそれぞれ関連付けられている記述的情報を取得し、
前記画像にそれぞれ関連付けられている前記記述的情報に少なくとも部分的に基づいて、クラスタ化によって画像集合を取得し、
前記画像集合に含まれている前記画像からそれぞれ抽出された１以上の視覚特徴からなる集合の少なくとも１つに少なくとも部分的に基づいて、少なくとも、前記画像集合に含まれている画像をクラスタ化すること、
を備える、方法。
請求項２３に記載の方法において、前記記述的情報は、前記画像が属するカテゴリを記述するテキストに基づく情報、画像ヘッダ情報、および前記画像のコンテンツに関係する記述的情報を１つ以上含む、方法。