JP5916886B2 - 画像特徴の類似性に基づく画像索引作成 - Google Patents

画像特徴の類似性に基づく画像索引作成 Download PDF

Info

Publication number
JP5916886B2
JP5916886B2 JP2014547576A JP2014547576A JP5916886B2 JP 5916886 B2 JP5916886 B2 JP 5916886B2 JP 2014547576 A JP2014547576 A JP 2014547576A JP 2014547576 A JP2014547576 A JP 2014547576A JP 5916886 B2 JP5916886 B2 JP 5916886B2
Authority
JP
Japan
Prior art keywords
image
determining
pixel point
determined
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014547576A
Other languages
English (en)
Other versions
JP2015506045A (ja
Inventor
ドゥオン・ユイ
チェン・コーア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2015506045A publication Critical patent/JP2015506045A/ja
Application granted granted Critical
Publication of JP5916886B2 publication Critical patent/JP5916886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions

Description

[関連出願の相互参照]
本出願は、あらゆる目的のために、参照によって本明細書に組み込まれる、2012年1月17日に出願された発明の名称を「AN IMAGE INDEX GENERATION METHOD AND EQUIPMENT(画像索引作成の方法及び機器)」とする中国特許出願第201210015290.8号に基づく優先権を主張する。
本出願は、画像索引作成の方法及び機器に関する。
情報検索分野において、キーワードに基づく従来の情報検索方法には限界がある。同じワードでも、異なる文脈では異なる意味を有することがある。例えば、「アップル」というワードは、異なる分野で大幅に異なる意味を有する。「アップル」というワードは、果物の一種を表すとともに、電子機器のブランドも表す。ユーザが、果物の一種を検索する目的でキーワードとして検索エンジンに「アップル」を入力すると、返ってくる検索結果は、果物と電子製品という大幅に異なる2つの対象に関する情報を含むのが一般的である。この場合は、電子製品のブランドに関係する情報が、ユーザの検索目的に合致しない。したがって、キーワードに基づく情報検索方法は、検索結果とユーザの検索目的とが相違するような結果を返すだろう。
オンラインデータ情報の大半に対しては、対応する画像が多岐にわたるような結果を処理する技術が存在する。例えば、一部の検索システムでは、ユーザは、情報検索を実行するときに、検索エンジンに画像を入力することができる。したがって、ユーザによって検索エンジンに入力された画像に基づいて、その画像に関係する全ての情報(以下、画像情報と称される)を取り出すことによって、画像ライブラリから、入力された画像情報に合致する画像情報を有する画像を取り出すことができる。入力された画像情報を、画像ライブラリ内の画像情報と突き合わせることによって、上述されたキーワードに基づく情報検索方法の欠点を克服することができる。
キーワードに基づく情報検索方法における情報索引の作成と同様に、上述された画像に基づく情報検索方法もまた、その後に続く検索方法に対するデータサポートを提供するために、画像ライブラリ内の大量の画像についての索引を作成する。画像ライブラリ内の画像について画像索引が作成されたときに、画像に基づく従来の情報検索技術は、画像に関係するファイル名(又は画像に関係するその他のテキスト情報)を使用する。この使用される方法は、その前提条件として、ユーザが手動で記述的テキスト情報を画像に追加することを伴う。記述的テキスト情報を手動で追加することを伴う画像索引作成方法の限界の1つに、画像ライブラリ内の画像の数が一般に非常に大きいという事実がある。したがって、記述的テキスト情報を手動で追加することを伴う従来の画像索引作成方法は、処理リソースの大量消費をもたらす。更に、記述的テキスト情報には、画像に関するユーザの主観的感覚が組み込まれるので、上述の画像索引作成方法は、ユーザの主観的感覚からの影響ゆえに精度が低下する恐れがある。
以下の詳細な説明及び添付の図面において、本発明の様々な実施形態が開示される。
画像索引作成システムの一実施形態を示す図である。
画像索引作成プロセスの一実施形態を示すフローチャートである。
多特徴融合式画像検索方法の一実施形態を示すフローチャートである。
クラスタ化操作の方法の一実施形態を示すフローチャートである。
画像内の少なくとも1つの標的領域を決定する方法の一実施形態を示すフローチャートである。
画像索引作成機器の一実施形態の図である。
本発明は、プロセス、装置、システム、合成物、コンピュータ読み取り可能なストレージ媒体に実装されたコンピュータプログラム製品、並びに/又は結合先のメモリに記憶された命令及び/若しくは結合先のメモリによって提供される命令を実行するように構成されるプロセッサなどのプロセッサのような、数々の形態で実現することができる。本明細書では、これらの実現形態、又は本発明がとりうるその他のあらゆる形態が、技術と称されるだろう。総じて、開示されたプロセスのステップの順序は、本発明の範囲内で変更されてよい。別途明記されない限り、タスクを実行するように構成されたものとして説明されるプロセッサ又はメモリなどの構成要素は、所定時にタスクを実行するように一時的に構成された汎用の構成要素として、又はタスクを実行するように製造された特殊な構成要素として実現されてよい。本明細書で使用される「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ以上のデバイス、回路、並びに/又は処理コアを言う。
本発明の原理を例示す添付の図面とともに、以下で、本発明の1つ以上の実施形態の詳細な説明が提供される。本発明は、このような実施形態との関わりのもとで説明されるが、いずれの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、数々の代替形態、変更形態、及び均等物を包含している。以下の説明では、本発明の完全な理解を与えるために、数々の具体的詳細が明記されている。これらの詳細は、例示を目的として提供されたものであり、本発明は、これらの詳細の一部又は全部を伴わずとも、特許請求の範囲にしたがって実行されえる。明瞭さを期するために、本発明に関係する技術分野で知られる技術要素は、本発明が不必要に不明瞭にされないように、詳細な説明を省略されている。
従来の方法を使用して作成される画像索引の、比較的低い精度を向上させるために、以下の開示において、画像作成の方法、機器、及びシステムが開示される。
図面を参照して、以下では、画像索引作成の方法、機器、及びシステムが説明される。図1は、画像索引作成システムの一実施形態の図である。システム100は、ネットワーク130を介して接続された、ユーザのクライアント端末110と、画像検索サーバ120とを含む。
ユーザは、ネットワーク130を通じて画像検索サーバ120に対して検索要求を発行することができる。
画像検索サーバ120は、画像索引を作成される画像ライブラリに含まれる画像を選択し、この画像に含まれる少なくとも1つの標的領域を決定し、決定された少なくとも1つの標的領域から視覚特徴を抽出し、抽出された視覚特徴に基づいて、画像ライブラリに含まれる画像の類似値を決定し、決定された画像の間の類似値に基づいて、画像ライブラリに含まれる画像が属する画像カテゴリを決定し、識別子割当方法にしたがって、画像ライブラリに含まれる画像にカテゴリ識別子を割り当てるように構成される。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を、異なる画像カテゴリに属する画像には異なるカテゴリ識別子を割り当てる。
画像検索サーバ120は、検索要求の結果を、ユーザに提示するためにクライアント端末110に送信することができる。
図2は、画像索引作成方法の一実施形態のフローチャートである。方法200は、画像索引作成システム100によって実現することができる。画像索引作成方法200は、以下のステップを含む。
ステップ210において、画像検索サーバ120は、索引を作成される画像ライブラリから画像を選択する。様々な実施形態において、画像ライブラリは、ローカルに(例えば、画像検索サーバの一部であるストレージ要素上に)配置することができる、又はリモートに(例えば、画像検索サーバとは物理的に切り離されておりネットワークを通じてアクセス可能である別個のデータベースサーバ若しくはその他のストレージデバイス上に)配置することができる。
ステップ220において、画像検索サーバ120は、画像に含まれる少なくとも1つの標的領域(目標領域、対象領域)を決定する。
ステップ230において、画像検索サーバ120は、画像の少なくとも1つの標的領域から視覚特徴を抽出する。
総じて、画像は、前景と背景とを有すると想定され、画像の前景が、画像の主要なコンテンツを反映している。また、ユーザは、主に画像の前景を重要視し、画像の背景をあまり重要視しないとも想定される。したがって、本出願では、画像の前景が、画像の少なくとも1つの標的領域として機能することができる。言い換えると、画像ライブラリからの画像の前景が、画像の標的領域であると決定され、それらの画像の前景のみから、視覚特徴が抽出される。標的領域は、前景とも称される。1つの画像には、1つ以上の標的領域があるだろう。標的領域の数は、画像がどのように分割されるかに依存する。例えば、コートの画像が、それが1つの分割(例えばコート自体)のみを有するゆえに1つの標的領域を有する一方で、コートを着用している女性の画像は、それが2つの領域(例えばコートと女性の顔)に分割されるゆえに2つの標的領域を有する。
ステップ240において、画像検索サーバ120は、選択された画像及び別の画像に関する類似値を、画像の少なくとも1つの標的領域から抽出された視覚特徴に基づいて決定する。類似値は、2つの画像の類似性を示すことができるので、一部の実施形態では、類似値を、0から1までの間の値に正規化することができる。例えば、2つの画像間の類似値は、0.925であってよい。
一部の実施形態では、画像検索サーバ120は、画像ライブラリ内の特定の画像を選択し、その選択された画像内の少なくとも1つの標的領域を決定し、その画像に含まれる少なくとも1つの標的領域から視覚特徴を抽出することができる。抽出された視覚特徴は、色、形、質感、スケール不変性特徴変換(SIFT)などの特徴を含むことができる。SIFTは、よく知られた技術である。基本的に、SIFT特徴は、空間スケールにおける端点に対応しており、この端点の場所、スケール、及び回転は、不変性である。画像の視覚特徴の抽出の際に、画像検索サーバ120は、選択された画像及び画像ライブラリ内の別の画像に関する類似値を決定することができる。言い換えると、類似値は、選択された画像の視覚特徴と、選択された画像及び画像ライブラリ内の別の画像の視覚特徴とに基づいて決定することができる。類似値は、2つの画像間の視覚特徴の類似度を算出することによって得ることができる。
ステップ250において、画像検索サーバ120は、画像ライブラリの画像の間の類似値に基づいて、画像ライブラリの画像が属する少なくとも1つの画像カテゴリを決定する。
一部の実施形態では、類似値の相違が比較的小さい幾つかの画像を、同じ画像カテゴリ内であると決定することができる。
ステップ260において、画像検索サーバ120は、識別子割当方法に基づいて、画像ライブラリの画像に個々にカテゴリ識別子を割り当てる。識別子割当方法は、同じカテゴリに属する画像には同じカテゴリ識別子を、異なる画像カテゴリに属する画像には互いに異なるカテゴリ識別子を割り当てる。
言い換えると、同じ画像カテゴリ内の画像の場合は、カテゴリ識別子は、各画像について同じである。異なる画像カテゴリ内の画像の場合は、カテゴリ識別子は、画像ごとに異なる。画像に割り当てられたカテゴリ識別子は、したがって、作成された画像索引として機能する。その後に続く検索プロセスでは、画像ライブラリ内における検索を、画像の画像索引に基づいて実行することができる。例えば、画像ライブラリ内における検索を、画像のカテゴリ識別子に対して実行することができる。
方法200において、画像検索サーバ120は、画像ライブラリに含まれる画像の標的領域から個々に視覚特徴を抽出し、抽出された視覚特徴に基づいて画像ライブラリ内の画像の類似値を決定し、画像が属する画像カテゴリを決定し、最後に、類似値に基づいて、同じ画像カテゴリに属する画像に同じカテゴリ識別子を割り当てるとともに、類似値に基づいて、異なる画像カテゴリに属する画像に異なるカテゴリ識別子を割り当て、割り当てられた画像のカテゴリ識別子を、画像ライブラリ用に作成された画像索引として使用する。
従来の方法と比較すると、方法200は、画像索引に記述的テキストを手動で追加する必要なしに、画像索引作成システム100上で実行され得、これは、画像索引の作成の効率を向上させる。更に、作成される画像索引は、画像から抽出される視覚特徴と、決定される画像の類似値と、引き続き決定される画像が属する画像カテゴリとに基づいて作成されるので、画像索引が手動で作成されるときに盛り込まれるオペレータの主観的感覚による影響が軽減され、作成される画像索引の精度が向上する。
以下は、画像索引作成方法及び画像検索方法の一例についての説明である。
画像索引作成方法及び画像検索方法は、互いに独立した2つの方法であるが、これら2つの方法は、1つの流れに反映させることができる。これらの方法を説明するために、これら2つの方法を含む1つの流れを、「多特徴融合式画像検索方法」と称する。図3Aは、多特徴融合式画像検索方法の一実施形態を示すフローチャートである。画像索引作成方法が、システムがオフラインである間に完全に実施可能である一方で、画像検索方法は、システムがオンラインである間に生じる。したがって、実行される時間に関して画像索引作成方法及び画像検索方法が有する特性の相違を名称に反映させるために、画像索引作成方法を「オフライン処理プロセス」と称し、画像検索方法は「オンライン検索プロセス」と称する。もちろん、本出願は、画像索引の作成をオフライン処理技術に限定しない。当業者ならば、画像索引の作成がオンライン処理技術を使用しても実行可能であることがわかる。
図3Aは、オフライン処理プロセスに属するステップ310〜330及びオンライン検索プロセスに属するステップ340〜360を説明している。
310において、画像検索サーバ120は、画像索引を作成される画像ライブラリに含まれる画像を選択し、この画像から少なくとも1つの標的領域を抽出する。
本出願では、画像の少なくとも1つの標的領域を抽出するために、画像分割化と機械学習とが組み合わされる。例えば、ステップ310は、図3Cに示されるように、ステップ312〜316を使用して実現され得る。図3Cは、画像内の少なくとも1つの標的領域を決定する方法の一実施形態を示すフローチャートである。
ステップ312において、画像検索サーバ120は、画像に対して画像平滑化操作を実行する。一部の実施形態では、画像平滑化操作は、平均シフト技術に基づいて実行される。
平均シフト技術は、成熟した技術であり、クラスタ化、画像平滑化、画像分割化、及び追跡の分野に適用することができる。平均シフト技術は、当該分野で良く理解されている。したがって、簡潔さを期するために、平均シフトアルゴリズムの詳細な説明は省略される。
平均シフト技術は、基本的に、自己適応式上昇(アセント)ピーク検索方法である。自己適応式上昇ピーク検索方法は、以下のとおりである。すなわち、データ集合{xi,i=1,2,……,n}が確率密度関数f(x)にしたがう場合に、初期点xが与えられ、初期点xを対象として平均シフト技術が実行されるとすると、平均シフト技術は、初期点を、それがピーク点に収束するまで段階的に移動させる。画像に照らして、{xi,i=1,2,……,n}が画像内の各種の画素点に対応している場合に、データ集合内の各画素点が初期点として使用され、各画素点に対して個々に平均シフト技術が実行されるならば、データ集合内の各画素点は、最終的に、対応するピーク点に収束することができる。各画素点を対応するピーク点に収束させることによって、画像が平滑化される。
平均シフト技術の実行に基づくと、画像は、2次元格子点上のp次元ベクトルとして表すことができ、各格子点は、1つの画素に対応している。例えば、p=1は、画像がグレースケール画像であることを示し、p=3は、画像がカラー画像であることを示し、p>3は、画像がマルチスペクトル画像であることを示している。格子点座標は、一般に、画像の空間情報を示すために使用される。画像の空間情報及びカラー(又はグレースケールなど)情報をあわせて用いることによって、p+2次元ベクトルx=(xS,xγ)を形成することができる。ここで、xSは、格子点座標を示し、xγは、格子上のp次元ベクトルの特徴を示している。
xの分布が、カーネル関数
Figure 0005916886
を使用して推定されるならば、
Figure 0005916886
は、次式[1]によって表すことができる。
Figure 0005916886
式[1]において、hS及びhγは、平滑化の解像度(この文脈では、解像度は、画像の写像性を言う)を制御し、Cは、正規化定数であり、以下の条件が満たされる。
kは、非負である。
kは、非増分性である。例えば、a<bであるならば、k(a)≧k(b)である。
kは、区分的に連続しており、
Figure 0005916886
である。
i及びzi(i=1,2,……,n)が、それぞれ原画像及び平滑化された画像を示すと想定する。画像の平滑化を実行するための平均シフト技術は、以下のステップを含む。
各画素点に対し、以下の操作が実行される。
1. j=1に初期化し、yi,1=xiにする。
2. 平均シフト技術を適用し、yi,j+1がピーク点に収束するまでyi,j+1を計算し、その収束値をyi,eとして記録する。
3.
Figure 0005916886
の値を割り当てる。ziは、平滑化された画像である。
画像を平滑化する目的は、1つには、ノイズのある画素を排除することにある。したがって、その後に続くその他の画像処理操作に対し、より高品質の画像を提供することができる。当業者ならば、画像平滑技術が、その後に続くその他の画像処理操作に大きな影響を及ぼすことなく省略可能であることがわかる。また、画像の平滑化を実行するために、クリミンのスペックル除去技術、三角波発振器、順序統計フィルタなどの、その他の画像平滑化技術も使用可能である。
ステップ314において、画像検索サーバ120は、平滑化された画像の各画素点を、領域拡張を実行するための種子として個々に使用する。領域拡張は、事前に分割(区分化)された画像を取得するために実行される。平滑化された画像は、分割化を通じて得られた異なる領域で構成される。
画像の異なる領域どうしを区別するためには、領域内の画素のグレースケール値を、その領域の画像識別子として使用することができる。
「領域拡張」は、画素点の集まり、すなわち領域を、より大きい領域に発展させることを言う。領域拡張は、種子(すなわち、個々の画素)から始まる。具体的に言うと、領域拡張は、類似の属性を有する種子及び隣接画素点を、1つの領域に融合させることを言う。属性としては、グレースケール、質感、色などが挙げられる。領域拡張は、画像の各画素点がいずれかの領域に融合されるまで各種子を対象にして繰り返されるプロセスである。こうして、画像を様々な領域に分割することができる。異なる領域の間の境界は、一般に、閉じられた多角形として画定される。
画像を分割するには、その他の画像分割化技術も使用可能である。その他の画像分割化技術としては、閾値分割化技術、領域分割・融合技術、余白に基づく分割化技術などが挙げられる。
ステップ316において、画像検索サーバ120は、各分割された領域に対して個々に背景信頼性決定を実行するために、サポートベクトルマシン(SVM)方法を使用する。
画像の各分割された領域に対して実行される背景信頼性決定は、各分割された領域が背景領域であるか又は前景領域であるかを決定する。言い換えると、背景信頼性決定は、各分割された領域が画像の背景であるか又は前景であるかを決定する。画像の前景領域が、標的領域である。
別の一態様としては、第1のサンプル画像ライブラリを構築するために、画像ライブラリから所定の数のサンブル画像を選択することができる。第1のサンプル画像ライブラリ内の各サンプル画像に含まれる背景領域及び前景領域は、事前に手動で決定可能であり、それらに基づいて、背景領域決定モデルをトレーニングすることができる。第1のサンプル画像ライブラリ内の画像に含まれる背景領域及び前景領域は、既に決定されているので、第1のサンプル画像ライブラリ内の画像は、SVM方法を使用して背景領域決定モデルを適合するためのトレーニングサンプルとして使用することができる。したがって、適合された背景領域決定モデルが、サンプル画像ライブラリ内の画像の背景領域及び前景領域を決定するために使用される場合は、得られる結果の大半が、既知の結果に照らして正しいものになる。言い換えると、既定の背景領域及び前景領域を有するトレーニングサンプルの集合が与えられたとすると、モデルが許容可能であるとみなされるためには、そのモデルから得られた結果の大半が(すなわち、画素が前景にある又は背景にあるにかかわらず)、既定の結果と同じである必要がる。例えば、適合された背景領域決定モデルが、その他の未知の標的領域内の個々の画像に対して使用されるのに許容可能であるとみなされるためには、閾値である90%を超える結果が正しいものである必要がある。したがって、背景領域決定モデルに基づくと、画像内の各分割された領域が突き合わされた後は、画像に含まれるそれら分割された領域のなかから背景領域及び前景領域を決定することができる。
この時点で、画像内の標的領域が決定されており、上述されたステップ312〜316を使用し、画像ライブラリに含まれる画像の標的領域を決定することができる。
ステップ320において、画像検索サーバ120は、決定された少なくとも1つの標的領域から視覚特徴を抽出する。
総じて、抽出された視覚特徴は、グローバルな視覚特徴と、ローカルな視覚特徴とを含む。様々な実施形態において、画像検索サーバ120は、グローバルな視覚特徴のみ、ローカルな視覚特徴のみ、又はグローバルな視覚特徴及びローカルな視覚特徴の両方を抽出することができる。グローバルな視覚特徴としては、色特徴や形状特徴などが挙げられるが、これらに限定はされない。ローカルな視覚特徴としては、質感特徴やSIFT特徴などが挙げられるが、これらに限定はされない。
異なる視覚特徴を抽出するために使用される特徴抽出技術は、以下を含む。
1. 色特徴を抽出するための特徴抽出技術
本出願では、画像の少なくとも1つの標的領域内で統計的に得られた色ヒストグラムが、画像の色特徴として機能することができる。色ヒストグラムを計算するためには、先ず、少なくとも1つの標的領域の色特徴に対して定量化処理を実行することができる。例えば、定量化処理として、スパースコーディングを使用することができる。
例えば、色ヒストグラムは、24瓶を含むことができ、各瓶は、赤、緑、及び青の3原色(RGB)で構成された24の一般色のうちの1つにそれぞれに且つ重複なしに対応している。この例では、24の一般色を、多数の写真に基づいて統計的に得ることができるが、このやり方は、非限定的なものである。画像内の各画素点について、この画素点に対応するRGB三原色で構成される各色が、1つの瓶に対応している。任意の画像について、色ヒストグラムの瓶は、画像内でその対応する色を有している画素点の数を反映している。したがって、画像の少なくとも1つの標的領域内の各画素点について、上記24の色がそれぞれ対応している画素点の数に対して個々に統計的計数操作を実行すれば、画像内の標的領域に対応する色ヒストグラムが得られるだろう。言い換えると、画素の色値を全て数え上げることによって、24次元の色ヒストグラムを得ることができる。色ヒストグラムは、その結果、画像内の少なくとも1つの標的領域の色特徴を表すことになる。
更に、色ヒストグラムは、画像の少なくとも1つの標的領域内の様々な画素点の、24色に対応する統計的数に関係しているので、24色に含まれる画素点の数は、24次元の色特徴ベクトルを表すのに使用することができる。24次元の色特徴ベクトルは、色ヒストグラムに対応しており、色ヒストグラムは、画像内の少なくとも1つの標的領域の色特徴として機能することができる。その他の実施形態では、異なる数の色瓶を使用することができる。
2. 形状特徴を抽出するための特徴抽出技術
本出願では、形状特徴を抽出するための特徴抽出技術として、形状コンテキスト(SC)技術を使用することができる。
画像を分析することによって、画像検索サーバ120は、画像(画像の標的領域など)が合計m個の画素点を含むときに、特定の画素点Piが残りm−1個の全ての画素点との間に関係を有することを決定することができる。続いて、Piと残りm−1個の画素点との間の関係に基づいて、m−1個のベクトルを生成することができる。m−1個のベクトルは、標的領域の形状特徴を決定する情報を表すことができる。物体の輪郭は、その物体の形状特徴の最も直接的な記述の1つであるので、輪郭に沿った一定数の離散点は、その物体の形状特徴を表すことができる。したがって、SC技術は、画像の標的領域から輪郭が抽出された後に、対数−極座標変換の実行のために、輪郭に沿って均等に分布した画素点を選択することを含む。選択された画素点に対して対数−極座標変換を実行することによって、対応する対数−極座標ヒストグラムを得ることができる。輪郭に沿って合計Q個の画素点が選択された場合は、対数−極座標ヒストグラムの次元数は、Qである。対数−極座標ヒストグラムは、輪郭に沿った各画素点間の空間的位置関係を表すので、画像検索サーバ120は、標的の形を決定することができる。したがって、対数−極座標ヒストグラムは、画像の形を反映した形状特徴として機能することができる。更に、SC技術にしたがって得られた画像の標的領域の対数−極座標ヒストグラムは、画像の標的領域から抽出された形状特徴として機能することができる。色特徴と同様に、対数−極座標ヒストグラムを表すために、形状特徴ベクトルも使用することができる。したがって、形状特徴ベクトルもまた、画像の標的領域の形状特徴として機能することができる。
SC技術は、既に比較的成熟した技術であるので、簡潔さを期するために、この技術の更に詳細な議論は省略される。
3. 質感特徴を抽出するための特徴抽出技術。
本出願では、画像の少なくとも1つの標的領域の質感特徴を抽出するために、ローカルバイナリパターン(LBP)技術を使用することができる。LBP技術によって抽出される質感特徴は、指定の画素点からそれぞれ等距離にあるN個の画素点の集まりを含む。言い換えると、N個の画素点は、指定の画素点から等距離にあって、この指定の画素点は、中心点に対応している。例えば、ここで言う距離は、Rで示すことができる。指定の画素点から等距離にある点を含むN個の画素点は、指定の画素点を円の中心として有する円の周に沿って均等に分布される。円は、また、半径Rと、例えば、中心点として画素点(xD,yD)を有する8個の隣接領域とを有する。中心画素点のグレースケール値IDが、閾値として機能することができ、この閾値と、中心画素点(xD,yD)から距離Rにある8つの隣接画素点のグレースケール値Iφ(ここで、φは、それぞれ0,1,2,……,7である)との間のサイズ関係に基づいて、8つの隣接画素点のグレースケール値I0,I1,……,I7が、それぞれ1又は0としてコード化され、最終的に、8桁の二進数が得られる。続いて、この8桁の二進数は、基数が10の整数に変換され、この基数が10の整数は、中心として画素点(xD,yD)を有する8つの隣接領域内における質感原コードLBPN,R(xD,yD)として使用される。したがって、質感原コードLBPN,R(xD,yD)は、8つの隣接領域についての質感特徴である。言い換えると、質感原コードLBPN,R(xD,yD)は、グレースケール値の中の上記順序測定特徴の集まりである。質感原コードLBPN,R(xD,yD)を計算するための具体的な式は、次式[2]に対応する。
Figure 0005916886
Nが、中心として画素点(xD,yD)を有し且つこの画素点(xD,yD)からの距離が指定の距離に等しい隣接領域内に位置する画素点の数であるときに(例えば、上記の状況を例として使用すると、画素点の数は8であってよい)、sgnは、再定義されたサイン関数に相当し、sgn(Iφ―ID)は、グレースケール値Iφのサイズとグレースケール値IDのサイズとの間の関係を比較することによって実行に移されるIφのコード化を表す。別の例では、Iφ―ID≧0であるときに、sgn(Iφ―ID)=1であり、Iφ―ID<0であるときに、sgn(Iφ―ID)=0である。
本出願では、画像の少なくとも1つの標的領域の質感特徴を、より効率良く抽出するために、画像の少なくとも1つの標的領域を、先ず、L×L個の小領域に分割することができる。続いて、全ての小領域から、並行して質感特徴を抽出することができる。一例では、Lの値は、4であってよい。分割された小領域の形は、矩形であってよい。小領域は、重複していなくてよい、又は重複していてよい。一態様として、総じて、小領域は、別の小領域に完全には重複しない。
各小領域が標的にされるので、以下を、並行して実行することができる。各小領域に含まれる各画素点について、画像検索サーバ120は、その画素点を中心として有する隣接領域について質感原コードを決定することができる。例えば、N1個の画素点を含む1つの小領域について、合計N1個の質感原コードを決定することができる。画像検索サーバ120は、決定されたN1個の質感原コードを標的にし、それら決定されたN1個の質感原コードに含まれる異なる質感原コードの発生回数を数え上げ、そして、数え上げられたそれら異なる質感原コードの発生回数を表すためにヒストグラムを使用することによって、LBP特徴ヒストグラムを得ることができる。LBP特徴ヒストグラムは、各小領域についての質感特徴に対応することができる。各小領域についてのLBP特徴ヒストグラムが得られた後は、それら全ての小領域で構成される少なくとも1つの標的領域についての質感特徴を決定することができる。例えば、画像の少なくとも1つの標的領域の質感特徴を、各LBP特徴ヒストグラムを組み合わせることによって決定することができる。色特徴と同様に、組み合わされたLBP特徴ヒストグラムを表すために、質感特徴ベクトルも使用することができる。したがって、質感特徴ベクトルもまた、画像の少なくとも1つの標的領域の質感特徴に対応することができる。
4. SIFT特徴を抽出するための特徴抽出技術。
SIFT特徴は、画像の検出及び記述のためにコンピュータ視覚技術を使用するローカルな特徴である。便宜上、SIFT特徴を抽出するための特徴抽出技術を、SIFT技術と称する。この技術は、空間スケールにおける端点を見つけ出し、この端点の場所、スケール、及び回転の不変性を抽出する。
本出願では、ステップ310において、画像の少なくとも1つの標的領域のそれぞれについて、以下のステップを実行する。先ず、少なくとも1つの標的領域内で、回転不変性及びスケール不変性を有する画素点を決定することができる。これらの画素は、SIFT特徴画素、又はキー画素とも呼ばれる。画素は、画像が任意の角度で回転されたときに又は任意のスケールで変換されたときに、対応する画素のSIFT特徴が変化しない場合に、回転不変性及びスケール不変性を有すると見なされる。回転不変性及びスケール不変性の決定は、よく知られているので、簡潔さを期するために、回転不変性及びスケール不変性の決定の詳細は省略される。続いて、画像の少なくとも1つの標的領域に含まれる画素点のなかから、各キー画素点について、そのキー画素点を中心とする隣接領域内にあってそのキー画素点の周囲に分布された64個の画素点が選択される。一部の実施形態では、64個の画素点は、キー画素点を中心とする8×8構造の形に配置することができる。選択された64個の画素点は、隣接する4つの画素点を同じ画素グループに割り当てるグループ分け方法に基づいてグループ分けされる。したがって、選択された64個の画素点は、合計16個の画素グループに分割される。16個の画素グループのそれぞれについて、各画素グループに含まれる4つの画素点の方向に対してベクトル加算が実行され、画素グループ方向が得られる。画素グループ方向は、次いで、各キー画素点に相対的な8つの方向に投影され、8つの座標値が得られる。8つの方向は、上、下、左、右、左上、右上、左下、及び右下を含む。最終的に、16個の画素グループは、128(すなわち、16×8)の座標値に対応する。128個の座標値から形成された128次元の特徴ベクトルが、各キー画素点のSIFT特徴である。本出願では、画像の少なくとも1つの標的領域に含まれる各キー画素点について決定された128個の座標値から形成された128次元の特徴ベクトルが、画像に含まれる少なくとも1つの標的領域の抽出SIFT特徴として機能することができる。
別の一態様としては、上述されたSIFT技術の原理に基づいて、画像の少なくとも1つの標的領域内の1つのキー画素点を標的にして、1つの128次元特徴ベクトルを決定することができる。画像の少なくとも1つの標的領域が、合計r個のキー画素点を含んでいると想定すると、画像の少なくとも1つの標的領域について決定されるSIFT特徴は、r×128次元の特徴ベクトルになるだろう。r×128次元の特徴ベクトルは、次元数が大きく、その後に続く応用において、大量の計算リソースを消費する。計算リソースの使用量を減らすために、本出願は、別のSIFT技術を開示している。このSIFT技術は、キー画素点のSIFT特徴を表すために、視覚ワード(例えば数又は記号)を使用する。この技術は、2つの部分に分割することができ、第1の部分はモデルトレーニング部分であり、第2の部分はSIFT特徴決定部分である。第1の部分は、以下のステップを含む。
第1に、多数の画像を有する第2のサンプル画像ライブラリについて、上述された方法と同様な技術を使用し、第2のサンプル画像ライブラリ内の各画像の少なくとも1つの標的領域に含まれるキー画素点を個々に決定して複数のキー画素点を得る。
続いて、K平均クラスタ技術を使用し、得られた全てのキー画素点を含むキー画素点集合をトレーニングして視覚ワードツリーを得る。視覚ワードツリーをどのように得るかの詳細が、以下で説明される。視覚ワードツリーは、L個のレベルを有し、K本の枝を有する。視覚ワードツリーの各ノードが、1つのキー画素点に対応する。L及びKの値は、手動で設定することができる。
K平均クラスタ化技術は、当該分野で知られている。K平均クラスタ化技術の目的は、s個のデータオブジェクトを標的にすることにある。入力量pに基づいて、s個のデータオブジェクトが、p個のクラスタに分割される。これらp個のクラスタは、「同じクラスタ内のデータオブジェクトの類似値は比較的高く、異なるクラスタ内のデータオブジェクトの類似値は比較的低い」という条件を満たす。言い換えると、プロセスは、以下のステップを含む。s個のデータオブジェクトのなかから、初期クラスタ中心としてそれぞれ機能させるためのp個のデータオブジェクトが選択される。初期クラスタ中心は、p個のクラスタに対応している。例えば、s個のデータオブジェクトは、p個のクラスタにグループ分けされる、データオブジェクトからなる初期集合に対応している。最初に、s個のデータオブジェクトのなかから、p個のデータオブジェクトからなる集合が選択される。これらp個のデータオブジェクトは、それぞれ、p個のクラスタのうちの対応する一クラスタのための初期クラスタ中心である。続いて、選択されていないその他のデータオブジェクト(すなわち、残りのデータオブジェクト)を、各初期クラスタ中心の類似値に基づいて、最も類似性を有するクラスタに個々に割り当てることができる。この例では、類似値は、データオブジェクトと初期クラスタ中心との間の距離を使用して測定することができる。距離は、データオブジェクトのSIFT特徴(例えば128次元の特徴ベクトル)と、初期クラスタ中心のSIFT特徴との間の距離(例えばユークリッド距離)を言うことができる。その他のデータオブジェクト(すなわち、残りのデータオブジェクト)がクラスタに割り当てられた後は、各クラスタのクラスタ中心が、クラスタに含まれる全てのデータオブジェクトの平均に対応するように再計算される。このようして、計算された各クラスタの中心は、新しいクラスタ中心に対応するようになる。上記のプロセスは、決定された新しいクラスタ中心に対し、標準測定関数が収束し始めるまで連続して繰り返される。標準測定関数としては、平均二乗誤差を使用することができる。
上述されたK平均クラスタ化技術に基づくと、L個のレベル及びK本の枝を有する視覚ワードツリーを得るために、第2のサンプル画像ライブラリ内の各画像の少なくとも1つの標的領域内で決定された全てのキー画素点に対してクラスタ化を実行することができる。得られたK個のクラスタは、第1のレベルに対応している。次いで、得られたK個のクラスタの各クラスタについて、各クラスタ下においてK個の小クラスタを得るために、K平均クラスタ化技術を使用し、各クラスタに含まれる全てのキー画素点がクラスタ化される。第1のレベルにおけるK個のクラスタを個々にクラスタ化して得られるK×K個の小クラスタが、第2のレベルである。上記のステップを合計L回にわたって繰り返すことによって、L個のレベルとK本の枝とを有する視覚ワードツリーを得ることができる。レベルLを有する視覚ワードツリーは、合計KL個のクラスタを有する。視覚ワードツリーのレベルLに位置する各クラスタは、リーフノードと称することができる。本出願では、各リーフノードに対し、各リーフノードに割り当てられる番号が一意である限りにおいて異なる番号を割り当てることができる。例えば、リーフノードに番号を割り当てるためのルールは、0からKL−1までの範囲の番号を左から右に向かって0から順に割り振ることができる。
上記のステップは、「モデルトレーニング部分」を構成するものである。以下のステップは、「SIFT特徴決定部分」を説明するものである。
先ず、実行ステップ310によって決定された画像の少なくとも1つの標的領域について、画像検索サーバ120は、少なくとも1つの標的領域内のキー画素点を決定する。
続いて、少なくとも1つの標的領域内の各決定されたキー画素点について、画像検索サーバ120は、以下のステップを実行する。すなわち、SIFT特徴決定部分に基づいて、各キー画素点に対応する128次元の特徴ベクトルを決定する。次いで、視覚ワードツリーのレベル1のK個のクラスタを提供し、現キー画素点と、現クラスタのクラスタ中心との間の距離を比較する(すなわち、現キー画素点に対応する128次元の特徴ベクトルと、現クラスタのクラスタ中心に対応する128次元特徴ベクトルとの間の距離を比較する)ことによって、レベル1のK個のクラスタのなかから、現キー画素点への距離が最も短いクラスタを見つけることができる。続いて、現クラスタ下における次のレベル(すなわち、レベル2)に位置するK個のクラスタのなかから、現キー画素点への距離が最も短いクラスタを見つけることができる。現キー画素点への距離が最も短い視覚ワードツリーの枝を見つけることは、プロセスが特定のリーフノードに達するまで下方に進むことによって続けられる。プロセスは、このリーフノードに対応するクラスタのクラスタ中心と、現キー画素点との間の距離が最短になるまで続けられ、このリーフノードに対応するクラスタのクラスタ中心が、第1のキー画素点と称される。プロセスが進んだ先のリーフノードの番号、すなわち第1のキー画素点の番号が、現キー画素点の番号であると決定される。現キー画素点の番号は、現キー画素点についての視覚ワードとして機能し、この視覚ワードが、現キー画素点のSIFT特徴である。
上記の方法は、画像の少なくとも1つの標的領域内で決定された各キー画素点に対して使用される。視覚ワードツリーのなかで、各キー画素点への距離が最も短い第1のキー画素点が決定される。第1のキー画素点の番号が決定され、各キー画素点について決定された第1のキー画素点の番号で構成されるベクトルが、画像に含まれる少なくとも1つの標的領域の抽出SIFT特徴として機能する。
上記のステップに基づいて、本出願は、番号を使用してキー画素点のSIFT特徴を表し、各キー画素点のSIFT特徴で構成されるベクトルを、画像の少なくとも1つの標的領域のSIFT特徴として使用する。番号は、リーフノードの番号に対応することができ、これは、視覚ワードでもある。画像の少なくとも1つの標的領域から、合計r個のキー画素点が抽出されると想定する。次いで、上記のSIFT特徴決定部分を使用し、画像の少なくとも1つの標的領域について最終的に決定されるSIFT特徴は、r次元のベクトルである。r次元ベクトルの各要素は、1つのキー画素点に対応する視覚ワードに関係している。各キー画素点に対応する128次元の特徴ベクトルで構成されるr×128次元の特徴ベクトルを直接使用する方法と比較すると、本出願で提供されるSIFT特徴を抽出する方法は、SIFT特徴を表すために特徴ベクトルが使用する寸法の数を大幅に低減させる。したがって、計算リソースの消費が減らされる。
この時点で、画像の少なくとも1つの標的領域の視覚特徴が抽出されている。抽出された視覚特徴は、色特徴、形状特徴、質感特徴、及びSIFT特徴を含む。上述された方法は、抽出された視覚特徴として機能させるために上記4種類の特徴の1つ又は2つ以上を抽出するために使用されてよい。
ステップ330において、抽出された視覚特徴に基づいて、画像検索サーバ120は、画像ライブラリに含まれる画像に対してクラスタ化操作を実行し、クラスタ化された画像にカテゴリ識別子を割り当てる。
本出願では、クラスタ化操作を実行する間に参照されるパラメータとして、画像の記述的情報及び抽出された視覚特徴が挙げられる、又は抽出された視覚特徴のみが挙げられる。クラスタ化操作は、階層的クラスタ化とK平均とを組み合わせた技術を言うことができる。
図3Bは、クラスタ化操作の方法の一実施形態を示すフローチャートである。異なるパラメータを参照するクラスタ化操作が、以下で説明される。
或る状況では、参照されるパラメータは、画像の記述的情報及び抽出された視覚特徴の両方を含むことができる。この状況では、画像ライブラリに含まれる画像のクラスタ化は、以下のステップを含んでいてよい。
ステップ332において、画像検索サーバ120は、画像ライブラリに含まれる異なる画像の記述的情報を取得し、この記述的情報に基づいて、異なる画像に対応するテキスト注釈情報を個々に決定する。画像の記述的情報としては、画像が属するカテゴリを記述するテキストに基づく情報、画像ヘッダ情報、画像のコンテンツに関係する記述的情報などが挙げられる。
言い換えると、画像ライブラリに含まれる異なる画像の記述的情報に基づくと、それら異なる画像の主要なコンテンツを記述するために使用されるものとして決定された記述的情報のキーワードは、それら異なる画像についてのテキスト注釈情報として機能することができる。記述的情報についてのキーワードは、画像のテキスト注釈情報に対応することができる。各画像についてのテキスト注釈情報のサイズは、固定することができる。
ステップ334において、画像検索サーバ120は、異なる画像について決定されたテキスト注釈情報に基づいて、階層的クラスタ化を使用して画像をクラスタ化し、このクラスタ化された画像を複数の画像集合に割り当てることができる。
階層的クラスタ化は、以下の意味を有する、比較的成熟した距離に基づくクラスタ化技術である。すなわち、階層的クラスタ化は、異なる画像のテキスト注釈情報の間の相関性を決定し、テキスト注釈情報に関して高い相関性を有する画像を同じ画像カテゴリに割り当てる。言い換えると、画像のテキスト注釈情報を計算することによって、高い相関性を有する画像のテキスト注釈情報を同じクラスにグループ分けすることができる。この例では、相関性は、テキストの関連性を言い、これは、コサイン類似性などの一般的なテキスト相関性計算方法によって計算することができる。
別の例では、階層的クラスタ化方法にしたがって、相関値を決定することができる。相関値は、異なる画像のテキスト注釈情報の間の相関性の程度を測るために使用することができる。所定の相関性閾値を超える相関値を有する画像は、同じ画像カテゴリに割り当てることができる。したがって、テキスト注釈情報に関して高い相関性を有する画像は、1つの画像集合を形成する1つの画像カテゴリに割り当てることができる。したがって、意味レベルで高いまとまりを有する画像集合を形成することができる。
ステップ336において、階層的クラスタ化から得られた画像集合について、画像から抽出された視覚特徴に基づいて、画像検索サーバ120は、更に、K平均クラスタ化技術を使用し、視覚特徴に基づく画像クラスタ化を実施する。抽出される視覚特徴は、色特徴、形状特徴、質感特徴、及びSIFT特徴を含む。
ステップ334で得られた画像集合に関し、画像集合に含まれる画像の数は、一般に、非常に大きい可能性がある。また、視覚コンテンツの視点から見て、画像集合の画像は、激しく異なる可能性がある。関連技術において、画像に対応する記述的テキスト情報は、オペレータの主観的感覚による影響を受ける可能性がある。したがって、ステップ334で得られた画像集合もまた、オペレータの主観的感覚による影響を受けている可能性がある。ステップ336において、主観的感覚の影響を最小限に抑えるために、本出願は、得られた画像集合を、画像から抽出された視覚特徴に基づいて更にクラスタ化することを考えている。
一例において、クラスタ化操作は、以下を含む。すなわち、階層的クラスタ化によって得られた画像集合について及びこの画像集合に含まれる画像について、その画像から、視覚特徴を表すために使用される視覚特徴ベクトルを抽出することができる。例えば、抽出された視覚特徴が、色特徴、形状特徴、質感特徴、及びSIFT特徴を含むときは、色特徴ベクトルは抽出された色特徴を表すために使用可能であり、形状特徴ベクトルは抽出された形状特徴ベクトルを表すために使用可能であり、質感特徴ベクトルは抽出された質感特徴を表すために使用可能であり、画像の少なくとも1つの標的領域内の各キー画素点の視覚ワードで構成されたベクトルは抽出されたSIFT特徴を表すために使用可能であるゆえに、これら4つのベクトルを一定の順序で配置することによって形成されるベクトルは、その画像についての視覚特徴ベクトルとして機能することができる。視覚ワードは、各キー画素点からの距離が最も短い各第1のキー画素点の番号に対応している。4つのベクトルは、色特徴ベクトル、形状特徴ベクトル、質感特徴ベクトル、及び画像の少なくとも1つの標的領域内の各キー画素点の視覚ワードで構成されたベクトルを含む。視覚特徴ベクトルは、画像の視覚コンテンツを表している。異なる画像に対応する決定された視覚特徴ベクトルに基づいて、異なる画像の視覚特徴ベクトルの間の類似値を決定することができる。視覚特徴ベクトルの類似値は、異なる画像の間の類似値に対応する。K平均クラスタ化技術にしたがって、画像集合に含まれる画像に対してクラスタ化操作が実施される。クラスタ化操作は、画像が属する画像カテゴリを決定することができる。異なる画像の視覚特徴ベクトルの間の類似値は、異なる画像の視覚特徴ベクトル間の距離に基づいて決定することができる。こうして、画像ライブラリ内の画像をクラスタ化することができる。SIFT特徴を表す視覚特徴ベクトルの次元数は、SIFT特徴が抽出されたときに既に減らされているので、異なる画像の視覚特徴ベクトル間の距離を決定するときの計算リソースの使用量は、更に低減される。
最後に、識別子割当方法にしたがって、画像集合に含まれる画像にカテゴリ識別子が割り当てられる。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる。画像及びそれらに対応するカテゴリ識別子は、保存される。
上記の画像クラスタ化プロセスは、参照されるパラメータとして、画像の記述的情報及び抽出された視覚特徴を使用する。上記のステップ332〜336を使用し、画像検索サーバ120は、画像から抽出された視覚特徴に基づく第1のクラスタ化で得られた画像集合に含まれる画像を、画像のテキスト記述的情報に基づいて更にクラスタ化する。第2のクラスタ化の際に参照されるパラメータは、比較的客観的に得られた視覚特徴であるので、第1のクラスタ化の際に、第1のクラスタ化で得られた画像集合に対してテキスト記述的情報に関するオペレータの主観的感覚によって生じた影響は、軽減される。したがって、各種の画像カテゴリは、最終的に、より客観的に得られる。
第2の状況において、画像ライブラリに含まれる画像のクラスタ化の際に参照されるパラメータは、抽出された視覚特徴のみを含む。別の例では、第2の状況における、画像ライブラリに含まれる画像のクラスタ化は、第1の状況下における、ステップ336と同様である。画像ライブラリに含まれる異なる画像から個々に抽出された視覚特徴に基づいて、視覚特徴に基づく画像クラスタ化操作を実行するために、K平均技術が使用される。視覚特徴は、色特徴、形状特徴、質感特徴、及びSIFT特徴を含む。
クラスタ化プロセスは、以下のステップを含む。
画像ライブラリ内の画像について、視覚特徴ベクトルは、その画像から抽出された視覚特徴を表す。視覚特徴ベクトルは、画像の視覚的コンテンツを一意に表すことができる。視覚特徴ベクトルを決定する方法は、基本的に、上記の第1の状況に関係してステップ336において視覚特徴ベクトルを決定する方法と同じである。
次いで、K平均クラスタ化技術にしたがって、異なる画像についての視覚特徴ベクトルの類似値に基づいて、画像ライブラリに含まれる画像に対してクラスタ化操作が実行され、画像が属する画像カテゴリが決定される。本出願は、K平均クラスタ化技術の使用に限定されず、代わりにその他のクラスタ化技術が使用されてもよい。別のクラスタ化技術の一例として、CUREが挙げられる。
最後に、識別子割当方法にしたがって、画像にカテゴリ識別子がそれぞれ割り当てられる。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられ、画像及びカテゴリ識別子は、対応付けて保存される。
本出願において、各画像に割り当てられたカテゴリ識別子は、画像索引を形成する。
この時点で、画像索引を作成される画像ライブラリ内の各画像に対し、クラスタ化操作が完了している。画像索引として機能するカテゴリ識別子は、既に、全ての画像に割り当てられている。カテゴリ識別子は、具体的には、クラスIDであってよい。
本出願において、上記ステップ310〜330は、オフライン処理プロセスに関するものである。オフライン処理プロセスの目的の1つは、その後に続くオンライン検索プロセスに対してデータサポートを提供するために、画像ライブラリを作成することにある。オンライン検索プロセスは、ステップ340〜360に関するものである。図面に照らして、以下で、オンライン検索プロセスに含まれるステップ340〜360の実行が説明される。
ステップ340において、実際のオンライン検索プロセスでは、検索される画像のカテゴリ識別子に基づいて、画像検索サーバ120は、画像ライブラリ内で、検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する全ての画像を決定する。
本出願において、画像検索についての一例は、以下のとおりである。ユーザは、キーワードに基づく検索を実行するためのキーワード又は用語を入力する。例えば、「ワンピース」が入力される。各検索結果は、対応する画像をそれぞれ有しており、これら対応する画像は、画像索引を既に作成された画像ライブラリ内にある。関連のボタンをクリックすることによって、ユーザは、特定の検索結果に対応する画像を、取り出されるべき画像として選択することができる。言い換えると、キーワードを使用して得られた検索結果に対応する画像に基づいて、第2の検索が実行される。この第2の検索は、画像に基づく情報検索である。
ステップ350において、検索される画像と同じカテゴリ識別子を有するものと決定された各画像について、画像検索サーバ120は、各画像についての類似値を個々に決定する。類似値は、各画像の視覚特徴と、検索される画像の視覚特徴との間の類似度を測るものである。
ステップ360において、画像検索サーバ120は、類似値を使用し、同じカテゴリ識別子を有する画像のなかから、検索される画像に対応する画像を選択する。所定の類似性閾値を超える類似値を有する画像を、検索結果としてユーザのクライアント端末110に返すことができる。
随意として、上述された選択された画像に関し、類似値にしたがって、画像の配置を順序付けるために使用されるソート情報を決定することができる。画像は、最も大きい類似値から最も小さい類似値へとソートすることができる。選択された画像が、検索結果としてユーザのクライアント端末に返されるときに、ソート情報もまた、画像をソート情報に基づいてソート及び表示するようにユーザのクライアント端末に指示するために、ユーザのクライアント端末に返すことができる。検索される画像と同じカテゴリ識別子及び視覚特徴を有する個別の画像間の類似値を決定するときに、この決定は、各画像の視覚特徴ベクトルと、検索される画像の視覚特徴ベクトルとの間の距離に基づいてもよい。また、SIFTを表す視覚特徴ベクトルにおけるベクトルの次元数は、オフライン処理プロセスにおいてSIFT特徴を抽出するプロセスの際に既に低減されているので、この時点で視覚特徴ベクトル間の距離を決定するための計算リソースの消費は、大幅に減らすことができる。
なお、視覚特徴が、不可分な一体として画像から抽出されたならば、この抽出プロセスによって抽出された視覚特徴は、画像に含まれるコンテンツ間の空間的相違を捉えることができないだろう。このような抽出プロセスは、画像の特定の特性を、全体的なものとして反映することしかできないだろう。したがって、異なる画像の間の類似性を、画像のコンテンツレベルの相違の視点から比較することは難しいだろう。一部の実施形態では、検索が実行されるときに、異なる画像の間の全体的な類似性は、ほとんど重視されず、その代わりに、前景のみを含む画像領域、すなわち画像の標的領域の類似性が、より重視される。したがって、画像の標的領域の視覚特徴のみを抽出するほうが、実際の要求を良く満足させる。また、画像の背景領域の視覚特徴が抽出されないので、そうでなければ背景領域から視覚特徴を抽出するために使用されるだろう計算リソースを節約することができる。
本出願では、画像索引の作成の際に、画像が客観的に持つ視覚特徴が参照されるので、作成される画像索引の精度が向上する。
本出願における画像索引作成方法に対応して、画像索引作成機器もまた開示される。図4は、画像索引作成機器の一実施形態の概略図である。画像索引作成機器400は、選択モジュール410と、割当モジュール420と、カテゴリ決定モジュール430と、類似性決定モジュール440と、抽出モジュール450と、標的領域決定モジュール460とを含む。
選択モジュール410は、索引を作成される画像ライブラリから画像を選択するように構成される。
割当モジュール420は、識別子割当方法にしたがって、画像ライブラリに含まれる画像にカテゴリ識別子をそれぞれ割り当てるように構成される。識別子割当方法は、同じ画像カテゴリに属する画像には同じカテゴリ識別子を、異なる画像カテゴリに属する画像には異なるカテゴリ識別子を割り当てる。
カテゴリ決定モジュール430は、決定された画像の類似値に基づいて、画像ライブラリに含まれる画像が属する画像カテゴリを決定するように構成される。
類似性決定モジュール440は、異なる画像から抽出された視覚特徴に基づいて、画像ライブラリに含まれる画像の類似値を決定するように構成される。
抽出モジュール450は、画像索引を作成される画像ライブラリに含まれる各画像について、画像内の少なくとも1つの標的領域を決定し、決定された少なくとも1つの標的領域から視覚特徴を抽出するように構成される。
抽出モジュール450は、更に、以下のステップを実行するように構成される。決定された少なくとも1つの標的領域から抽出された視覚特徴は、色特徴、形状特徴、質感特徴、及びスケール不変性特徴変換(SIFT)特徴のうちの、少なくとも1つを含む。抽出された視覚特徴がSIFT特徴である場合は、画像内の決定された少なくとも1つの標的領域について、SIFT技術は、画像の少なくとも1つの標的領域内の各キー画素点を決定し、各キー画素点に対応する128次元の特徴ベクトルが決定される。各キー画素点に対応する128次元特徴ベクトルについて、そのキー画素点に対応する128次元特徴ベクトルと、所定のサンプル画像ライブラリ内の各キー画素点に対応する128次元特徴ベクトルとの間の距離が比較される。サンプル画像ライブラリ内のキー画素点であって、対応する128次元特徴ベクトルからの距離が最も短い第1のキー画素点が決定され、この第1のキー画素点に事前に割り当てられた番号が決定される。各キー画素点について決定された第1のキー画素点の番号で形成されたベクトルが、画像の少なくとも1つの標的領域から抽出されたSIFT特徴として使用される。
類似性決定モジュール440は、更に、画像ライブラリに含まれる異なる画像の記述的情報に基づいて、それら異なる画像に対応するテキスト注釈情報を個々に決定し、異なる画像に対応するテキスト注釈情報の間の相関性の程度を測るために使用される相関値を決定し、1つの画像集合について決定された相関値に基づいて、階層的クラスタ化方法を使用して、画像ライブラリに含まれる画像を複数の画像集合に割り振り、画像集合に含まれる異なる画像から取り出された視覚特徴に基づいて、異なる画像に対応する視覚特徴ベクトルを決定し、異なる画像に対応する決定された視覚特徴ベクトルに基づいて、異なる画像の間の類似値を決定するように構成される。
類似性決定モジュール440は、また、画像ライブラリに含まれる異なる画像から抽出された視覚特徴に基づいて、異なる画像に対応する視覚特徴ベクトルを決定し、異なる画像に対応する決定された視覚特徴ベクトルに基づいて、異なる画像の間の類似値を決定するようにも構成される。
抽出モジュール450は、画像に対して画像平滑化操作を実行し、画像平滑化操作を実行された画像について、その画像内の各画素点を、領域拡張操作を実行するための種子として使用し、画像を複数の領域に分割するように構成される。
標的領域決定モジュール460は、画像の複数の分割された領域のなかから少なくとも1つの標的領域を決定するように構成される。
カテゴリ決定モジュール430は、K平均クラスタ化技術にしたがって、決定された画像間の類似値に基づいて、画像ライブラリに含まれる画像に対してクラスタ化操作を実行し、画像ライブラリに含まれる画像が属する画像カテゴリを決定するように構成される。
上述されたモジュールは、1つ以上の汎用プロセッサ上で実行されるソフトウェア要素として、又はプログラム可能論理装置及び/若しくは特定の機能を実行するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装することができる。一部の実施形態では、モジュールは、本発明の実施形態で説明される方法を(パソコン、サーバ、ネットワーク機器などの)計算装置に実行させるための幾つかの命令を含み尚且つ(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなどの)不揮発性のストレージ媒体に記憶させることができるソフトウェア製品の形で具現化することができる。モジュールは、1つのデバイスに実装されてよい、又は複数のデバイスに分散されてよい。モジュールの機能は、互いに合体されてよい、又は複数の小モジュールに更に分割されてよい。
本出願は、画像索引作成の方法及び機器を開示している。方法では、視覚特徴は、画像ライブラリに含まれる画像内の少なくとも1つの標的領域から個々に抽出される。画像ライブラリに含まれる画像の間の類似値は、抽出された視覚特徴に基づいて決定される。画像が属する画像カテゴリが決定される。同じ画像カテゴリに属する画像には同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には異なるカテゴリ識別子が割り当てられる。画像に割り当てられたカテゴリ識別子は、画像ライブラリのための画像索引を作成するために使用される。先行技術と比較すると、本方法は、画像索引作成の作成効率を高めるために画像索引を手動で追加する必要なしに、自動的に実行され得る。また、画像索引は、画像からの視覚特徴の抽出に基づいて作成されるので、画像の間の類似性の決定、及びその後に続く、画像が属する画像カテゴリの決定において、画像索引が手動で作成されるときにもたらされるオペレータの主観的感覚による影響が軽減され、したがって、作成される画像索引の精度が向上する。
以上の実施形態は、理解を明瞭にする目的で幾分詳細に説明されてきたが、本発明は、提供される詳細に限定されない。本発明を実現するには、多くの代替的手法がある。開示された実施形態は、例示的なものであり、非限定的である。
適用例1:画像を管理するための方法であって、ストレージデバイスから、画像索引が作成される画像ライブラリに含まれる画像を選択し、前記画像に含まれる少なくとも1つの標的領域を決定し、前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出し、1つ以上のコンピュータプロセッサを使用し、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることを備え、同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、方法。
適用例2:適用例1に記載の方法であって、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合は、色特徴、形状特徴、質感特徴、スケール不変性特徴変換(SIFT)特徴、又はそれらの任意の組み合わせを含み、前記視覚特徴の集合がSIFT特徴を含む場合、前記決定された少なくとも1つの標的領域から前記視覚特徴の集合を抽出することは、前記画像内の前記決定された少なくとも1つの標的領域について、前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、ことと、前記各キー画素点に対応する前記N次元特徴ベクトルについて、キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、を個々に実行することと、を含む、方法。
適用例3:適用例1に記載の方法であって、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、前記画像集合の1つについて、前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、こと、を備える、方法。
適用例4:適用例1に記載の方法であって、前記選択された画像と前記別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、を備える、方法。
適用例5:適用例1に記載の方法であって、前記画像内の少なくとも1つの標的領域を決定することは、前記画像に対して画像平滑化操作を実行し、前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも1つの標的領域は、前記分割された複数の領域のなかから決定される、こと、を備える、方法。
適用例6:適用例1に記載の方法であって、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、方法。
適用例7:適用例2に記載の方法であって、Nは128である、方法。
適用例8:画像作成機器であって、少なくとも1つのプロセッサであって、画像索引が作成される画像ライブラリに含まれる画像を選択し、前記画像に含まれる少なくとも1つの標的領域を決定し、前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出し、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることであって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子を割り当てるように構成されている少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに接続され、前記少なくとも1つのプロセッサに命令を提供するように構成されているメモリと、を備える、機器。
適用例9:適用例8に記載の機器であって、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合は、色特徴、形状特徴、質感特徴、スケール不変性特徴変換(SIFT)特徴、又はそれらの任意の組み合わせを含み、前記視覚特徴の集合がSIFT特徴を含む場合、前記決定された少なくとも1つの標的領域から前記視覚特徴の集合を抽出することは、前記画像内の前記決定された少なくとも1つの標的領域について、前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、ことと、前記各キー画素点に対応する前記N次元特徴ベクトルについて、キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、を個々に実行することと、を含む、機器。
適用例10:適用例8に記載の機器であって、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、前記画像集合の1つについて、前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、こと、を備える、機器。
適用例11:適用例8に記載の機器であって、前記選択された画像と前記別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、を備える、機器。
適用例12:適用例8に記載の機器であって、前記画像内の少なくとも1つの標的領域を決定することは、前記画像に対して画像平滑化操作を実行し、前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも1つの標的領域は、前記分割された複数の領域のなかから決定される、こと、を含む、機器。
適用例13:適用例8に記載の機器であって、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを含む、機器。
適用例14:非一時的なコンピュータ読み取り可能ストレージ媒体に実装された、画像索引を作成するためのコンピュータプログラム製品であって、画像索引が作成される画像ライブラリに含まれる画像を選択するためのコンピュータ命令と、前記画像に含まれる少なくとも1つの標的領域を決定するためのコンピュータ命令と、前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出するためのコンピュータ命令と、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定するためのコンピュータ命令と、前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定するためのコンピュータ命令と、前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てるためのコンピュータ命令であって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、コンピュータ命令と、を備えるコンピュータプログラム製品。
適用例15:適用例14に記載のコンピュータプログラム製品であって、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合は、色特徴、形状特徴、質感特徴、スケール不変性特徴変換(SIFT)特徴、又はそれらの任意の組み合わせを含み、前記視覚特徴の集合がSIFT特徴を含む場合、前記決定された少なくとも1つの標的領域から前記視覚特徴の集合を抽出することは、前記画像内の前記決定された少なくとも1つの標的領域について、前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、ことと、前記各キー画素点に対応する前記N次元特徴ベクトルについて、キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、を個々に実行すること、を含む、コンピュータプログラム製品。
適用例16:適用例14に記載のコンピュータプログラム製品であって、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、前記画像集合の1つについて、前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、こと、を備える、コンピュータプログラム製品。
適用例17:適用例14に記載のコンピュータプログラム製品であって、前記選択された画像と前記別の画像との類似値を決定することは、前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、を備える、コンピュータプログラム製品。
適用例18:適用例14に記載のコンピュータプログラム製品であって、前記画像内の少なくとも1つの標的領域を決定することは、前記画像に対して画像平滑化操作を実行し、前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも1つの標的領域は、前記分割された複数の領域の中から決定される、こと、を備える、コンピュータプログラム製品。
適用例19:適用例14に記載のコンピュータプログラム製品であって、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、コンピュータプログラム製品。
適用例20:適用例15に記載の方法であって、Nは128である、方法。
適用例21:画像を管理するための方法であって、検索される画像ライブラリに含まれる画像に含まれる少なくとも1つの標的領域を決定し、前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出し、前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行し、前記クラスタ化された画像にカテゴリ識別子を割り当て、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられること、1つ以上のプロセッサを使用し、前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも1つの画像を決定し、前記1つ以上のプロセッサを使用し、前記決定された少なくとも1つの画像と前記検索される画像との類似値を決定し、前記1つ以上のプロセッサを使用し、前記類似値に基づいて前記少なくとも1つの画像から画像を選択すること、を備える方法。
適用例22:非一時的なコンピュータ読み取り可能ストレージ媒体に実装された、画像索引を作成するためのコンピュータプログラム製品であって、検索される画像ライブラリに含まれる画像に含まれる少なくとも1つの標的領域を決定するためのコンピュータ命令と、前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出するためのコンピュータ命令と、前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行するためのコンピュータ命令と、前記クラスタ化された画像にカテゴリ識別子を割り当てるためのコンピュータ命令であって、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられる、コンピュータ命令と、前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも1つの画像を決定するためのコンピュータ命令と、前記決定された少なくとも1つの画像と前記検索される画像との類似値を決定するためのコンピュータ命令と、前記類似値に基づいて前記少なくとも1つの画像から画像を選択するためのコンピュータ命令と、を備えるコンピュータプログラム製品。

Claims (24)

  1. 画像を管理するための方法であって、
    ストレージデバイスから、画像索引が作成される画像ライブラリに含まれる画像を選択し、
    前記画像に含まれる少なくとも1つの標的領域を決定し、前記画像の前景の少なくとも一部は前記少なくとも1つの標的領域に含まれ、前記画像の背景は前記少なくとも1つの標的領域に含まれず、
    前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出し、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はスケール不変性特徴変換(SIFT)特徴を含み、前記1つ以上の視覚特徴からなる集合を抽出することは、
    前記画像内の前記決定された少なくとも1つの標的領域について、
    前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、
    Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、
    ことと、
    前記各キー画素点に対応する前記N次元特徴ベクトルについて、
    キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、
    前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、
    前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、
    前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、
    を個々に実行することと、を含み、
    1つ以上のコンピュータプロセッサを使用し、前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、
    前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、
    前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることを備え、
    同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、方法。
  2. 請求項1に記載の方法であって、
    前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はさらに、色特徴、形状特徴、質感特徴、又はこれらと前記SIFT特徴の任意の組み合わせを含む、方法。
  3. 請求項1に記載の方法であって、
    前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、
    前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、
    前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、
    前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、
    前記画像集合の1つについて、
    前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
    前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、
    こと、
    を備える、方法。
  4. 請求項1に記載の方法であって、
    前記選択された画像と前記別の画像との類似値を決定することは、
    前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
    前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、
    を備える、方法。
  5. 請求項1に記載の方法であって、
    前記画像内の少なくとも1つの標的領域を決定することは、
    前記画像に対して画像平滑化操作を実行し、
    前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも1つの標的領域は、前記分割された複数の領域のなかから決定される、こと、
    を備える、方法。
  6. 請求項1に記載の方法であって、
    前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、
    前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、方法。
  7. 請求項に記載の方法であって、
    Nは128である、方法。
  8. 画像作成機器であって、
    少なくとも1つのプロセッサであって、
    画像索引が作成される画像ライブラリに含まれる画像を選択し、
    前記画像に含まれる少なくとも1つの標的領域を決定し、前記画像の前景の少なくとも一部は前記少なくとも1つの標的領域に含まれ、前記画像の背景は前記少なくとも1つの標的領域に含まれず、
    前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出し、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はスケール不変性特徴変換(SIFT)特徴を含み、前記1つ以上の視覚特徴からなる集合を抽出することは、
    前記画像内の前記決定された少なくとも1つの標的領域について、
    前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、
    Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、
    ことと、
    前記各キー画素点に対応する前記N次元特徴ベクトルについて、
    キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、
    前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、
    前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、
    前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、
    を個々に実行することと、を含み、
    前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定し、
    前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定し、
    前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てることであって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子を割り当て、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子を割り当てるように構成されている少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに接続され、前記少なくとも1つのプロセッサに命令を提供するように構成されているメモリと、
    を備える、機器。
  9. 請求項8に記載の機器であって、
    前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はさらに、色特徴、形状特徴、質感特徴、又はこれらと前記SIFT特徴の任意の組み合わせを含む、機器。
  10. 請求項8に記載の機器であって、
    前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、
    前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、
    前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、
    前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、
    前記画像集合の1つについて、
    前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
    前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、
    こと、
    を備える、機器。
  11. 請求項8に記載の機器であって、
    前記選択された画像と前記別の画像との類似値を決定することは、
    前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
    前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、
    を備える、機器。
  12. 請求項8に記載の機器であって、
    前記画像内の少なくとも1つの標的領域を決定することは、
    前記画像に対して画像平滑化操作を実行し、
    前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも1つの標的領域は、前記分割された複数の領域のなかから決定される、こと、
    を含む、機器。
  13. 請求項8に記載の機器であって、
    前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、
    前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを含む、機器。
  14. 画像索引を作成するためのコンピュータプログラムであって、
    画像索引が作成される画像ライブラリに含まれる画像を選択するための機能と、
    前記画像に含まれる少なくとも1つの標的領域を決定するための機能と、前記画像の前景の少なくとも一部は前記少なくとも1つの標的領域に含まれ、前記画像の背景は前記少なくとも1つの標的領域に含まれず、
    前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出するための機能と、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はスケール不変性特徴変換(SIFT)特徴を含み、前記1つ以上の視覚特徴からなる集合を抽出するための機能は、
    前記画像内の前記決定された少なくとも1つの標的領域について、
    前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、
    Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、
    ことと、
    前記各キー画素点に対応する前記N次元特徴ベクトルについて、
    キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、
    前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、
    前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、
    前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、
    を個々に実行することと、を含み、
    前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定するための機能と、
    前記選択された画像と前記別の画像との前記決定された類似値に少なくとも部分的に基づいて、前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定するための機能と、
    前記画像ライブラリに含まれる前記画像にカテゴリ識別子を割り当てるための機能であって、同じ画像カテゴリに属する画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属する画像には、異なるカテゴリ識別子が割り当てられる、機能と、
    をコンピュータによって実現させるコンピュータプログラム。
  15. 請求項14に記載のコンピュータプログラムであって、
    前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はさらに、色特徴、形状特徴、質感特徴、又はこれらと前記SIFT特徴の任意の組み合わせを含む、コンピュータプログラム。
  16. 請求項14に記載のコンピュータプログラムであって、
    前記抽出された視覚特徴の集合に基づいて、前記選択された画像と、前記画像ライブラリに含まれる別の画像との類似値を決定することは、
    前記画像ライブラリに含まれる異なる画像の記述的情報に基づいて、前記異なる画像に対応するテキスト注釈情報を決定し、
    前記異なる画像のテキスト注釈情報の間の相関度を測るために使用される相関値を決定し、
    前記決定された相関値に基づいて、階層的クラスタ化方法を使用し、前記画像ライブラリに含まれる前記画像を複数の画像集合に割り振り、
    前記画像集合の1つについて、
    前記画像集合に含まれる前記異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
    前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定する、
    こと、
    を備える、コンピュータプログラム。
  17. 請求項14に記載のコンピュータプログラムであって、
    前記選択された画像と前記別の画像との類似値を決定することは、
    前記画像ライブラリに含まれる異なる画像から抽出された前記視覚特徴の集合に基づいて、前記異なる画像に対応する視覚特徴ベクトルを決定し、
    前記異なる画像に対応する前記決定された視覚特徴ベクトルに基づいて、前記異なる画像の間の類似値を決定すること、
    を備える、コンピュータプログラム。
  18. 請求項14に記載のコンピュータプログラムであって、
    前記画像内の少なくとも1つの標的領域を決定することは、
    前記画像に対して画像平滑化操作を実行し、
    前記画像平滑化操作を実行された前記画像内の各画素点を、前記画像を複数の領域に分割するための領域拡張操作を実行するための種子として使用し、前記少なくとも1つの標的領域は、前記分割された複数の領域の中から決定される、こと、
    を備える、コンピュータプログラム。
  19. 請求項14に記載のコンピュータプログラムであって、
    前記画像ライブラリに含まれる前記画像が属する画像カテゴリを決定することは、
    前記画像ライブラリに含まれる画像が属する画像カテゴリを決定するために、クラスタ化技術にしたがって、前記選択された画像と前記別の画像との間の類似値に基づいて、前記画像ライブラリに含まれる前記画像に対してクラスタ化操作を実行することを備える、コンピュータプログラム。
  20. 請求項14に記載のコンピュータプログラムであって、
    Nは128である、コンピュータプログラム。
  21. 画像を管理するための方法であって、
    検索される画像ライブラリに含まれる画像に含まれる少なくとも1つの標的領域を決定し、前記画像の前景の少なくとも一部は前記少なくとも1つの標的領域に含まれ、前記画像の背景は前記少なくとも1つの標的領域に含まれず、
    前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出し、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はスケール不変性特徴変換(SIFT)特徴を含み、前記1つ以上の視覚特徴からなる集合を抽出することは、
    前記画像内の前記決定された少なくとも1つの標的領域について、
    前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、
    Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、
    ことと、
    前記各キー画素点に対応する前記N次元特徴ベクトルについて、
    キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、
    前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、
    前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、
    前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、
    を個々に実行することと、を含み、
    前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行し、
    前記クラスタ化された画像にカテゴリ識別子を割り当て、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられること、
    1つ以上のプロセッサを使用し、前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも1つの画像を決定し、
    前記1つ以上のプロセッサを使用し、前記決定された少なくとも1つの画像と前記検索される画像との類似値を決定し、
    前記1つ以上のプロセッサを使用し、前記類似値に基づいて前記少なくとも1つの画像から画像を選択すること、
    を備える方法。
  22. 非一時的なコンピュータ読み取り可能ストレージ媒体に実装された、画像索引を作成するためのコンピュータプログラムであって、
    検索される画像ライブラリに含まれる画像に含まれる少なくとも1つの標的領域を決定するための機能と、前記画像の前景の少なくとも一部は前記少なくとも1つの標的領域に含まれ、前記画像の背景は前記少なくとも1つの標的領域に含まれず、
    前記決定された少なくとも1つの標的領域から、1つ以上の視覚特徴からなる集合を抽出するための機能と、前記決定された少なくとも1つの標的領域から抽出された前記1つ以上の視覚特徴からなる集合はスケール不変性特徴変換(SIFT)特徴を含み、前記1つ以上の視覚特徴からなる集合を抽出するための機能は、
    前記画像内の前記決定された少なくとも1つの標的領域について、
    前記少なくとも1つの標的領域内の各キー画素点を決定するために、SIFTを実行し、
    Nを整数として、前記各キー画素点に対応するN次元特徴ベクトルを個々に決定する、
    ことと、
    前記各キー画素点に対応する前記N次元特徴ベクトルについて、
    キー画素点に対応するN次元特徴ベクトルと、所定のサンプル画素ライブラリ内の各キー画素点に対応するN次元特徴ベクトルとの間の距離を比較するステップと、
    前記画像ライブラリ内のキー画素点であって、対応する前記N次元特徴ベクトルからの距離が最も短い第1のキー画素点を決定するステップと、
    前記第1のキー画素点に事前に割り当てられた番号を決定するステップと、
    前記各キー画素点について決定された、前記第1のキー画素点の番号で構成されるベクトルを、前記標的領域から抽出されたSIFT特徴として形成するステップと、
    を個々に実行することと、を含み、
    前記1つ以上の視覚特徴からなる集合に少なくとも部分的に基づいて、前記画像ライブラリに含まれる画像に対し、クラスタ化操作を実行するための機能と、
    前記クラスタ化された画像にカテゴリ識別子を割り当てるための機能であって、同じ画像カテゴリに属するクラスタの画像には、同じカテゴリ識別子が割り当てられ、異なる画像カテゴリに属するクラスタの画像には、異なるカテゴリ識別子が割り当てられる、機能と、
    前記画像ライブラリ内で、前記検索される画像のカテゴリ識別子に一致するカテゴリ識別子に対応する少なくとも1つの画像を決定するための機能と、
    前記決定された少なくとも1つの画像と前記検索される画像との類似値を決定するための機能と、
    前記類似値に基づいて前記少なくとも1つの画像から画像を選択するための機能と、
    をコンピュータによって実現させるコンピュータプログラム。
  23. 請求項21に記載の方法において、前記画像に対して前記クラスタ化操作を実行することは、
    前記画像にそれぞれ関連付けられている記述的情報を取得し、
    前記画像にそれぞれ関連付けられている前記記述的情報に少なくとも部分的に基づいて、クラスタ化によって画像集合を取得し、
    前記画像集合に含まれている前記画像からそれぞれ抽出された1以上の視覚特徴からなる集合の少なくとも1つに少なくとも部分的に基づいて、少なくとも、前記画像集合に含まれている画像をクラスタ化すること、
    を備える、方法。
  24. 請求項23に記載の方法において、前記記述的情報は、前記画像が属するカテゴリを記述するテキストに基づく情報、画像ヘッダ情報、および前記画像のコンテンツに関係する記述的情報を1つ以上含む、方法。
JP2014547576A 2012-01-17 2013-01-16 画像特徴の類似性に基づく画像索引作成 Active JP5916886B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201210015290.8A CN103207879B (zh) 2012-01-17 2012-01-17 图像索引的生成方法及设备
CN201210015290.8 2012-01-17
US13/741,967 2013-01-15
US13/741,967 US9330341B2 (en) 2012-01-17 2013-01-15 Image index generation based on similarities of image features
PCT/US2013/021738 WO2013109625A1 (en) 2012-01-17 2013-01-16 Image index generation based on similarities of image features

Publications (2)

Publication Number Publication Date
JP2015506045A JP2015506045A (ja) 2015-02-26
JP5916886B2 true JP5916886B2 (ja) 2016-05-11

Family

ID=48755104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014547576A Active JP5916886B2 (ja) 2012-01-17 2013-01-16 画像特徴の類似性に基づく画像索引作成

Country Status (7)

Country Link
US (1) US9330341B2 (ja)
EP (1) EP2805262B1 (ja)
JP (1) JP5916886B2 (ja)
CN (1) CN103207879B (ja)
HK (1) HK1183357A1 (ja)
TW (1) TWI552007B (ja)
WO (1) WO2013109625A1 (ja)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI479431B (zh) * 2012-04-03 2015-04-01 Univ Chung Hua 物件追蹤方法
US10691743B2 (en) * 2014-08-05 2020-06-23 Sri International Multi-dimensional realization of visual content of an image collection
US20150371107A1 (en) * 2014-06-23 2015-12-24 Canon Kabushiki Kaisha Material classification using brdf feature vector
WO2015006894A1 (en) * 2013-07-15 2015-01-22 Microsoft Corporation Feature-based image set compression
CN104346370B (zh) * 2013-07-31 2018-10-23 阿里巴巴集团控股有限公司 图像搜索、获取图像文本信息的方法及装置
CN103412937B (zh) * 2013-08-22 2016-12-28 成都数之联科技有限公司 一种基于手持终端的搜索购物方法
US9286217B2 (en) 2013-08-26 2016-03-15 Qualcomm Incorporated Systems and methods for memory utilization for object detection
US10853407B2 (en) 2013-09-05 2020-12-01 Ebay, Inc. Correlating image annotations with foreground features
EP2869213A1 (en) * 2013-10-31 2015-05-06 Alcatel Lucent Media content ordering system and method for ordering media content
TWI472231B (zh) * 2013-11-27 2015-02-01 Ind Tech Res Inst 用於移動估計的視訊前處理方法與裝置
WO2015119711A1 (en) * 2014-02-07 2015-08-13 Zencolor Corporation System for normalizing, codifying and categorizing color-based product and data based on a universal digital color language
JP6194260B2 (ja) * 2014-02-21 2017-09-06 日本電信電話株式会社 画像分類装置、画像分類方法及び画像分類プログラム
KR20150100113A (ko) * 2014-02-24 2015-09-02 삼성전자주식회사 영상 처리 장치 및 이의 영상 처리 방법
CN104035971B (zh) * 2014-05-21 2018-03-27 华为技术有限公司 一种获取商品信息的方法和装置
WO2016011946A1 (en) * 2014-07-22 2016-01-28 The Hong Kong University Of Science And Technology System and methods for analysis of user-associated images to generate non-user generated labels and utilization of the generated labels
US10474949B2 (en) 2014-08-19 2019-11-12 Qualcomm Incorporated Knowledge-graph biased classification for data
CN104199931B (zh) * 2014-09-04 2018-11-20 厦门大学 一种商标图像一致语义提取方法及商标检索方法
US9449395B2 (en) 2014-09-15 2016-09-20 Winbond Electronics Corp. Methods and systems for image matting and foreground estimation based on hierarchical graphs
CN104317827B (zh) * 2014-10-09 2017-06-30 深圳码隆科技有限公司 一种商品的图片导航方法
TWI571753B (zh) * 2014-11-07 2017-02-21 財團法人資訊工業策進會 用於產生一影像之一互動索引碼圖之電子計算裝置、其方法及其電腦程式產品
US9652688B2 (en) 2014-11-26 2017-05-16 Captricity, Inc. Analyzing content of digital images
US10949460B2 (en) 2015-02-24 2021-03-16 Visenze Pte Ltd Product indexing method and system thereof
CN106156247B (zh) * 2015-04-28 2020-09-15 中兴通讯股份有限公司 图像管理方法及装置
CN104836974B (zh) * 2015-05-06 2019-09-06 京东方科技集团股份有限公司 视频播放器、显示装置、视频播放系统和视频播放方法
CN105023025B (zh) * 2015-08-03 2018-09-25 大连海事大学 一种开集痕迹图像分类方法及系统
US10810252B2 (en) * 2015-10-02 2020-10-20 Adobe Inc. Searching using specific attributes found in images
CN105354307B (zh) * 2015-11-06 2021-01-15 腾讯科技(深圳)有限公司 一种图像内容识别方法及装置
CN105608496B (zh) * 2015-11-09 2021-07-27 国家电网公司 一种基于k - means聚类算法的配抢工单激增原因分析方法
CN105335524B (zh) * 2015-11-27 2019-09-24 中国科学院自动化研究所 一种应用于大规模非规则结构数据的图搜索方法
CN107423294A (zh) * 2016-02-25 2017-12-01 北京联合大学 一种社群图像检索方法及系统
CN105871695B (zh) * 2016-05-19 2019-03-26 腾讯科技(深圳)有限公司 表情发送方法和装置
CN107515872A (zh) * 2016-06-15 2017-12-26 北京陌上花科技有限公司 搜索方法及装置
CN107562742B (zh) * 2016-06-30 2021-02-05 江苏苏宁云计算有限公司 一种图像数据处理方法及装置
CN105975643B (zh) * 2016-07-22 2019-08-16 南京维睛视空信息科技有限公司 一种基于文本索引的实时图像检索方法
CN106373144A (zh) * 2016-08-22 2017-02-01 湖南挚新科技发展有限公司 图像目标相对位置确定方法与系统
RU2647670C1 (ru) * 2016-09-27 2018-03-16 Общество с ограниченной ответственностью "Аби Девелопмент" Автоматизированные способы и системы выявления на изображениях, содержащих документы, фрагментов изображений для облегчения извлечения информации из выявленных содержащих документы фрагментов изображений
CN106844421A (zh) * 2016-11-30 2017-06-13 上海仙剑文化传媒股份有限公司 一种数字图片管理方法及系统
TWI636370B (zh) * 2016-12-09 2018-09-21 中華電信股份有限公司 Establishing chart indexing method and computer program product by text information
CN107066485B (zh) * 2016-12-27 2021-06-25 广东三维家信息科技有限公司 一种基于草图和特征检测的钻戒检索方法和系统
CN108460389B (zh) 2017-02-20 2021-12-03 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
US10628890B2 (en) * 2017-02-23 2020-04-21 International Business Machines Corporation Visual analytics based vehicle insurance anti-fraud detection
CN107688815B (zh) * 2017-08-31 2022-02-22 京东方科技集团股份有限公司 医学图像的分析方法和分析系统以及存储介质
CN110019903A (zh) 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像处理引擎组件的生成方法、搜索方法及终端、系统
CN107730357A (zh) * 2017-10-19 2018-02-23 上海斐讯数据通信技术有限公司 一种基于视觉词典库实现图像快速检索的方法及系统
CN107944454B (zh) * 2017-11-08 2021-09-14 国网电力科学研究院武汉南瑞有限责任公司 一种针对变电站的基于机器学习的语义标注方法
CN108133745B (zh) * 2017-12-21 2020-08-11 成都真实维度科技有限公司 一种以医学影像为核心的临床路径完整数据关联方法
US10896218B2 (en) * 2017-12-22 2021-01-19 Oracle International Corporation Computerized geo-referencing for images
CN108955718B (zh) * 2018-04-10 2022-08-09 中国科学院深圳先进技术研究院 一种视觉里程计及其定位方法、机器人以及存储介质
CN108829815B (zh) * 2018-06-12 2022-06-07 四川希氏异构医疗科技有限公司 一种医学影像图像筛选方法
CN109308325B (zh) * 2018-08-21 2022-07-01 董志忠 图像搜索方法及系统
US11024037B2 (en) * 2018-11-15 2021-06-01 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation
CN111368838A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种举报截图的识别方法及装置
CN111476253B (zh) * 2019-01-23 2024-04-02 阿里巴巴集团控股有限公司 服装图像分类、图像分类方法、装置及设备
CN111652239B (zh) * 2019-04-30 2023-06-20 上海铼锶信息技术有限公司 一种图像局部特征对整体特征贡献度的评估方法及系统
CN111652260B (zh) * 2019-04-30 2023-06-20 上海铼锶信息技术有限公司 一种人脸聚类样本数量的选择方法及系统
CN110597719B (zh) * 2019-09-05 2021-06-15 腾讯科技(深圳)有限公司 一种用于适配测试的图像聚类方法、装置及介质
US20210142210A1 (en) * 2019-11-11 2021-05-13 Alibaba Group Holding Limited Multi-task segmented learning models
CN110969170B (zh) * 2019-12-03 2024-03-08 北京奇艺世纪科技有限公司 一种图像主题色提取方法、装置及电子设备
CN111179283A (zh) * 2019-12-30 2020-05-19 深圳市商汤科技有限公司 图像语义分割方法及装置、存储介质
CN111310664B (zh) * 2020-02-18 2022-11-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113362351A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN111400431A (zh) * 2020-03-20 2020-07-10 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111401464B (zh) * 2020-03-25 2023-07-21 抖音视界有限公司 分类方法、装置、电子设备及计算机可读存储介质
CN111553365B (zh) * 2020-04-30 2023-11-24 广东小天才科技有限公司 一种题目选取的方法、装置、电子设备及存储介质
CN111627059B (zh) * 2020-05-28 2023-05-30 桂林市思奇通信设备有限公司 一种棉花叶片中心点位置定位方法
CN111797260A (zh) * 2020-07-10 2020-10-20 宁夏中科启创知识产权咨询有限公司 基于图像识别的商标检索方法及系统
CN111986785B (zh) * 2020-08-26 2023-09-12 北京至真互联网技术有限公司 医学影像标注方法和装置、设备及存储介质
US11823470B2 (en) * 2020-11-25 2023-11-21 International Business Machines Corporation Generating analytic applications from a media file
CN112507921B (zh) * 2020-12-16 2024-03-19 平安银行股份有限公司 基于目标区域的图形搜索方法、系统、电子装置及存储介质
CN112661013B (zh) * 2020-12-17 2023-06-30 北京航天自动控制研究所 一种自动化码头桥吊遗留锁垫检测方法及系统
CN113094465A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种设计产品查重方法和系统
CN113609317B (zh) * 2021-09-16 2024-04-02 杭州海康威视数字技术股份有限公司 一种图像库构建方法、装置及电子设备
WO2023084512A1 (en) * 2021-11-14 2023-05-19 Bria Artificial Intelligence Ltd Facilitating generation and usage of visual content
CN116433990B (zh) * 2023-06-12 2023-08-15 恒超源洗净科技(深圳)有限公司 基于视觉检测的超声波清洗机反馈调节系统
CN116664560B (zh) * 2023-07-28 2023-11-10 南方医科大学珠江医院 一种胃肠道影像数据分割方法
CN116662588B (zh) * 2023-08-01 2023-10-10 山东省大数据中心 一种海量数据智能搜索方法及系统

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579471A (en) 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US5911139A (en) 1996-03-29 1999-06-08 Virage, Inc. Visual image database search engine which allows for different schema
US5930783A (en) 1997-02-21 1999-07-27 Nec Usa, Inc. Semantic and cognition based image retrieval
JP2001521250A (ja) 1997-10-27 2001-11-06 マサチューセッツ・インスティチュート・オブ・テクノロジー 情報の検索および検索システム
US6026411A (en) 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6415282B1 (en) 1998-04-22 2002-07-02 Nec Usa, Inc. Method and apparatus for query refinement
US6285995B1 (en) * 1998-06-22 2001-09-04 U.S. Philips Corporation Image retrieval system using a query image
US7155033B1 (en) 1999-02-01 2006-12-26 Thomson Licensing Coarse representation of visual object's shape for search/query/filtering applications
US6882746B1 (en) 1999-02-01 2005-04-19 Thomson Licensing S.A. Normalized bitmap representation of visual object's shape for search/query/filtering applications
US6865302B2 (en) 2000-03-16 2005-03-08 The Regents Of The University Of California Perception-based image retrieval
FR2807543B1 (fr) 2000-04-06 2004-11-05 Imstar S A Appareil d'imagerie associe a une base de donnees images
AUPQ921600A0 (en) 2000-08-04 2000-08-31 Canon Kabushiki Kaisha Automatic person meta-data labeller
US7039229B2 (en) 2000-08-14 2006-05-02 National Instruments Corporation Locating regions in a target image using color match, luminance pattern match and hill-climbing techniques
US7212670B1 (en) * 2002-05-03 2007-05-01 Imagetree Corp. Method of feature identification and analysis
KR100438725B1 (ko) 2002-06-25 2004-07-05 삼성전자주식회사 메모리 카드를 이용한 영상 인쇄 방법 및 장치
KR100461019B1 (ko) 2002-11-01 2004-12-09 한국전자통신연구원 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
US20060170769A1 (en) * 2005-01-31 2006-08-03 Jianpeng Zhou Human and object recognition in digital video
US8732025B2 (en) 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US20070133947A1 (en) 2005-10-28 2007-06-14 William Armitage Systems and methods for image search
US20070274609A1 (en) 2006-05-23 2007-11-29 Hitachi High-Technologies Corporation Image Search Apparatus, Image Search System, Image Search Method, and Program for Executing Image Search Method
CN1851709A (zh) 2006-05-25 2006-10-25 浙江大学 嵌入式多媒体基于内容的查询和检索的实现方法
US20070288453A1 (en) 2006-06-12 2007-12-13 D&S Consultants, Inc. System and Method for Searching Multimedia using Exemplar Images
US7813561B2 (en) 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
US7684651B2 (en) 2006-08-23 2010-03-23 Microsoft Corporation Image-based face search
US8175394B2 (en) 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US8611673B2 (en) 2006-09-14 2013-12-17 Parham Aarabi Method, system and computer program for interactive spatial link-based image searching, sorting and/or displaying
CN101211341A (zh) 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN101211355B (zh) * 2006-12-30 2010-05-19 中国科学院计算技术研究所 一种基于聚类的图像查询方法
US8094948B2 (en) 2007-04-27 2012-01-10 The Regents Of The University Of California Photo classification using optical parameters of camera from EXIF metadata
EP2176799B1 (en) 2007-08-01 2019-09-11 Koninklijke Philips N.V. Accessing medical image detabases using medically relevant terms
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
CN101751439A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 基于层次聚类的图像检索方法
JP5503921B2 (ja) 2009-08-21 2014-05-28 ソニーモバイルコミュニケーションズ, エービー 情報端末、情報端末の情報制御方法及び情報制御プログラム
JP2011076575A (ja) 2009-09-04 2011-04-14 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP5346756B2 (ja) * 2009-09-25 2013-11-20 Kddi株式会社 画像分類装置
CN102110122B (zh) 2009-12-24 2013-04-03 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
KR20140093957A (ko) * 2011-11-24 2014-07-29 마이크로소프트 코포레이션 상호작용 멀티-모달 이미지 검색 기법

Also Published As

Publication number Publication date
EP2805262B1 (en) 2021-03-03
TWI552007B (zh) 2016-10-01
CN103207879B (zh) 2016-03-30
JP2015506045A (ja) 2015-02-26
WO2013109625A1 (en) 2013-07-25
HK1183357A1 (zh) 2013-12-20
CN103207879A (zh) 2013-07-17
US20130195361A1 (en) 2013-08-01
US9330341B2 (en) 2016-05-03
EP2805262A1 (en) 2014-11-26
TW201331772A (zh) 2013-08-01

Similar Documents

Publication Publication Date Title
JP5916886B2 (ja) 画像特徴の類似性に基づく画像索引作成
Wang et al. Correspondence driven saliency transfer
US8200010B1 (en) Image segmentation by clustering web images
Alsmadi et al. Fish recognition based on robust features extraction from size and shape measurements using neural network
Agathos et al. 3D articulated object retrieval using a graph-based representation
US8990199B1 (en) Content search with category-aware visual similarity
Salazar et al. Fully automatic expression-invariant face correspondence
WO2017181892A1 (zh) 前景分割方法及装置
Wang et al. Enhancing minimum spanning tree-based clustering by removing density-based outliers
Khelifi et al. A novel fusion approach based on the global consistency criterion to fusing multiple segmentations
Ahmad et al. Describing colors, textures and shapes for content based image retrieval-a survey
Berretti et al. Distinguishing facial features for ethnicity-based 3D face recognition
Jin et al. Content-based image retrieval based on shape similarity calculation
Bhattacharjee et al. Query adaptive multiview object instance search and localization using sketches
Lisanti et al. From person to group re-identification via unsupervised transfer of sparse features
JP2012022419A (ja) 学習データ作成装置、学習データ作成方法及びプログラム
Bergamasco et al. A graph-based technique for semi-supervised segmentation of 3D surfaces
Kang et al. Combining random forest with multi-block local binary pattern feature selection for multiclass head pose estimation
Divecha et al. Large-scale geolocalization of overhead imagery
JP2022176073A (ja) 画像照合システム
Yuan et al. Common spatial pattern discovery by efficient candidate pruning
JP2019021100A (ja) 画像探索装置、商品認識装置および画像探索プログラム
Nayef et al. Efficient symbol retrieval by building a symbol index from a collection of line drawings
Farhat et al. Captain: Comprehensive composition assistance for photo taking
Salazar et al. Multi-modal RGB-D image segmentation from appearance and geometric depth maps

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150630

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160226

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160405

R150 Certificate of patent or registration of utility model

Ref document number: 5916886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250