JP6278893B2 - 対話型マルチモード画像検索 - Google Patents

対話型マルチモード画像検索 Download PDF

Info

Publication number
JP6278893B2
JP6278893B2 JP2014542660A JP2014542660A JP6278893B2 JP 6278893 B2 JP6278893 B2 JP 6278893B2 JP 2014542660 A JP2014542660 A JP 2014542660A JP 2014542660 A JP2014542660 A JP 2014542660A JP 6278893 B2 JP6278893 B2 JP 6278893B2
Authority
JP
Japan
Prior art keywords
image
query
images
search
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014542660A
Other languages
English (en)
Other versions
JP2014534540A (ja
Inventor
メイ,タオ
リ,シペン
ワン,ジンドン
ワン,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014534540A publication Critical patent/JP2014534540A/ja
Application granted granted Critical
Publication of JP6278893B2 publication Critical patent/JP6278893B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

<著作権表示および許諾>
本特許文献の開示の一部分は、著作権の保護を受ける情報を含む場合がある。著作権所有者は、それが特許商標庁の特許ファイルまたは記録に見られる限りにおいては、いずれの人間による特許文献または特許開示のファクシミリ複製に対しても異議を唱えないが、それ以外の場合については、いかなる著作権も全て保有する。以下の表示は、本明細書に適用されるものとする:Copyright(C) 2011、Microsoft Corp。
インターネットおよびワールド・ワイド・ウェブにアクセスできるモバイル・デバイスは、ますます一般的になっており、移動しながらますます多くのデータにユーザがアクセスできるようにする個人用のネットサーフィン用コンシェルジュとして機能するようになっている。
モバイル・デバイス用の一部の検索アプリケーションは、モバイル・デバイスに内蔵されたカメラによって視覚的なクエリ(問い合わせ内容)として撮影された写真をサポートし、これは、キャプチャ・トゥ・サーチ(capture−to−search)と呼ばれる。キャプチャ・トゥ・サーチでは、通常は、最初に写真を撮影し、その後、そのスナップ・ショット画像を、様々な垂直ドメイン内で一致する情報を探す検索処理に対して、クエリ(問い合わせ)として提供する。既存の検索エンジンは、長い文を意味論的に解釈する際の機械学習における現実との乖離のために、長いクエリをうまく扱う能力が限られている。例えば、「白い家の前に緑の木が数本ある画像を見つける」のようなテキスト・クエリでは、関連検索結果が得られないことがある。
デスクトップ用の一部の検索エンジンでは、ユーザが提供する検索用のスケッチを使用し、例えば「類似画像」、色、スタイルまたは顔などの様々なフィルタを検索意図を示す指示として利用し、または上述のキャプチャ・トゥ・サーチ・モードのように既存の画像を検索用クエリとしてアップロードする機能をサポートする。ある検索プログラムは、ユーザが、クエリ画像の特定の領域をキー検索構成要素として強調することができるようにする一方、別の検索プログラムでは、タグのグループの位置およびサイズを使用して、テキストに基づくトップ検索結果をフィルタリングし、さらに別の検索プログラムでは、複合的なキャンバス上の複数の色ヒントを選択したものを視覚的なクエリとして使用する。しかしながら、デスクトップPC用のユーザ対話機能は、モバイル・デバイス上のそれとは異なる。
モバイル・デバイスは、現在のところ、いくつかの種類の検索、特に検索主題の写真の取込みを行わない画像またはビデオの検索の助けとなるプラットフォームを提供していない。さらに、テキスト入力または音声入力は、視覚的検索処理にはあまり適していない。例えば、電話機のキーパッド上でタイプ入力することはしばしばうんざりする作業であると同時に、口頭によるクエリ入力は、視覚的な意図を表現するのに適していない。さらに、視覚的検索プロセスにおいてユーザ意図を確認することは、幾分複雑であり、テキスト(またはテキスト表現に転換された音声)の断片では十分に表現されないことがある。
本明細書は、モバイル・デバイス上のタッチ入力を含むマルチモード入力を利用した、モバイル・デバイスの視覚的検索機構を開示するものである。口頭による検索クエリなどの検索クエリから語彙エンティティを抽出し、本発明に係る当該視覚的検索機構は、これらの語彙エンティティを画像タグとマッチングすることにより、各エントリの候補画像を提供する。続いて、当該視覚的検索機構は、特定の候補画像の選択を実現する。続いて、当該視覚的検索機構は、選択した候補画像のサイズおよび位置も含めて、それらの選択した候補画像を使用して、クエリ・キャンバス上に複合的な視覚クエリを構築する。当該複合的な視覚クエリは、既存の画像でなくてもよい。
この「発明の概要」の節は、いくつかの選択した発明概念を簡略化した形で紹介するためものであり、それらの発明概念については、以下の「発明を実施するための形態」の節でさらに詳細に説明する。この「発明の概要」の節は、特許請求の範囲に記載された発明の主題における重要な特徴または不可欠な特徴を特定するためのものではなく、また特許請求の範囲に記載された発明の主題の技術的範囲を決定する助けとして使用するためのものでもない。例えば、「技術」または「機構」という用語は、上記の文脈が許す限り、本明細書の全体を通じて、1つまたは複数のデバイス、1つまたは複数のシステム、1つまたは複数の方法、および/あるいはコンピュータ可読命令を指すことができる。
本明細著においては、添付の図面を参照しながら、発明を実施するための形態について説明する。これらの図面において、参照番号の一番左の1つまたは複数の数字は、その参照番号が最初に記載される図面を示す。全ての図面を通じて、同じ番号は、同じ特徴および構成要素を指している。
モバイル・デバイスを用いた対話型マルチモード画像検索を実施する例示的なフレームワークを示す絵入り図である。 モバイル・デバイス上の対話型マルチモード画像検索の例示的なユーザ・インタフェースを示す絵入り図である。 モバイル・デバイス上で実行される情報文脈を意識した画像検索処理を説明する、様々なマルチモード・クエリからの対話型マルチモード画像検索を実施する例示的なユーザ・インタフェースを示す絵入り図である。 複合的な視覚クエリを操作し形成するために選択されるエンティティを表す候補画像を示す絵入り図である。 モバイル用対話型マルチモード画像検索の例示的なモバイル・デバイスの選択構成要素を示すブロック図である。 モバイル用対話型マルチモード画像検索を実施する例示的な方法を示す流れ図である。 連結ヒストグラムを用いて記述される画像を比較する例示的な方法を示す流れ図である。 候補画像を生成する例示的なクラスタリング型方法を示す流れ図である。 情報文脈を意識した複合画像型画像検索プロセスを示す数学的に注釈付けされた図を示す流れ図である。
モバイル用の対話型マルチモード画像検索ツールは、視覚的検索処理に関連する結果を得るための豊富な機能を提供する。主にテキスト・トゥ・サーチ(text−to−search)に対応するデスクトップ型コンピュータと比較すると、モバイル・デバイスの方が、可用性を高め、より多くの関連する検索結果を得るために利用することができるユーザ対話用のインタフェースをより豊富に提供している。例えば、デスクトップ環境において受信する従来のキーボードおよびマウスによる入力内容に留まらず、モバイル・デバイスにおいては、追加のマルチモード入力を受信することができるようになっている。モバイル・デバイスのインタフェースは、場合によってはマルチ・タッチ入力操作を受け付けるタッチ・スクリーン・インタフェースに加え、内蔵カメラを介してテキスト入力を視覚的モダリティと結合し、音声認識を介して音声モダリティと結合することができる機能を具備する。マルチ・タッチ入力操作が可能なインタフェースは、同時に起こる複数のタッチ入力操作を認識することができる。
視覚的検索処理が直面する難題の1つは、検索意図が暗示的に示されている場合があることである。検索意図が暗示的であるとは、キャプチャ・トゥ・サーチが実行可能であるような特定の視覚的な検索意図に対応する環境内においてではなく、音声記述またはテキスト入力などその他のモダリティを通してユーザが検索意図を表明する場合があるということである。
例えば、ユーザが、ドアが赤く正面にライオンの石像が2体あるレストランを探しているとする。しかし、そのユーザは、検索を行う手掛かりとなるそのレストランの名前が思い出せないことがある。この例では、本明細書に記載するモバイル用の対話型マルチモード画像検索ツールが提供するような、例えば口頭によるクエリなどの長いテキストまたは音声を視覚クエリに変換してユーザ対話機能を向上させる(leverage)ことができるクライアント側ツールを使用して、そのレストランを特定し、そのレストランの名前および位置を突き止めることができる。別の例では、ユーザが、ある町を訪れていて、あるレストラン(またはレストラン・チェーン)がその町のどこかにあることを思い出したけれども、その場所を思い出せないので、口頭によるクエリの一部としてその町の名前を含めることもある。
モバイル用の対話型マルチモード画像検索ツールは、タッチ対話機能およびマルチ・タッチ対話機能などのマルチモード対話機能をレバレッジして、暗示的な検索意図を突き止め、クエリ画像が最初に利用可能でない場合を含めて視覚的検索処理の性能を向上させるのを助ける。本明細書に記載された検索手続きは、(1)モバイル・デバイスへのクエリとして例えば口頭による自然文などの音声入力などの初期入力を受信する段階と、(2)音声認識技術を使用して音声入力内容をテキスト表現に変換する段階と、(3)当該変換されたテキスト表現をエンティティ抽出技術によってキーワードに分解する段階と、(4)画像クラスタリング処理過程によって抽出したエンティティに従って複数の候補画像を識別する段階と、(5)各エンティティを視覚的に表現することができる特定の候補画像を選択する操作を受信する段階と、(6)当該選択された特定の候補画像同士の間における相対的なリファインメント(refinement)を受信して、クエリ画像を合成する段階と、(7)当該合成されたクエリ画像を視覚的クエリとして使用して、同様の画像を検索する段階とを含む。
本明細書に記載するモバイル用の対話型マルチモード画像検索ツールは、例えば視覚的単語を表現する小さなサブ画像などの画像パッチとして扱われる複数の別々の画像の間の空間的関係を考慮に入れて実行される画像検索処理のために、情報文脈を意識した手法を提供する。モバイル用の対話型マルチモード画像検索ツールは、ユーザが特定の候補画像を選択し、当該選択した候補画像をサイズ変更したり移動させたりするなどして操作し、これらの操作した画像をジグソー・パズルのピースのようにまとめて対話処理が可能なキャンバス上に複合的なクエリ画像として作成することにより、複合的なクエリ画像を構築することを可能にする新たな検索モード用のインタフェースを提示する。
<例示的なフレームワーク>
図1は、本明細書に記載するモバイル用の対話型画像検索のフレームワーク100を示す図である。例示的なフレームワーク100は、クラウド側102が少なくとも1つのサーバ104をホスティングしているものとして示してある。サーバ104は、メモリ106、記憶プログラム108、およびプロセッサ110を含む。クライアント側114の1つまたは複数のモバイル・デバイス112は、破線で示すネットワーク116を介してサーバ104およびその他のクラウド型デバイスに接続することができる。サーバ104としては、例えば、ウェブ・サーバ、アプリケーション・サーバ、およびその他の任意の個数のデータ・サーバなどが挙げられる。ネットワーク116は、例えばインターネットなど、任意のタイプの通信ネットワークを代表するものである。モバイル・デバイス112は、ネットワーク116を介してデータを送受信するように構成された任意のタイプのモバイル・デバイスを代表するものである。例えば、モバイル・デバイス112は、携帯電話、携帯情報端末(PDA)、ネットブック、タブレット型コンピュータ、ハンドヘルド型コンピュータ、およびその他のそのような低いフォーム・ファクタおよび低い計算リソース上限を特徴とするモバイル計算デバイスとして実装することができる。
フレームワーク100は、マルチモード対話性を利用して、モバイル・デバイス112からの検索意図を認識し、様々な視覚的記述子(例えばスケール不変な特徴変換(SIFT)、色彩、およびエッジ部分)を組み合わせて視覚的な検索処理を行うことができる。図1では特定の処理動作がクラウド102で起こるものとして示してあるが、本発明に係る様々な実施態様では、これらの処理動作のうちの1つまたは複数がモバイル・デバイス112上で行われてもよい。
図示された例では、モバイル・デバイス112は、118に示すように、マイクロフォンおよび音声プロセッサを介して自然文の音声入力内容を受信して、音声クエリを開始する。例えば、モバイル・デバイス112は、118に示すように、「湖、空、および木が写っている画像を見つける」というような文章を受信する。システムは、音声認識(SR)エンジン120を利用して、118で受信したスピーチ(発話内容)をテキスト表現に変換する。次いで、システムは、エンティティ抽出エンジン122を利用して、名詞などのエンティティをテキストから抽出する。その結果、このツールは、辞書124から、「湖」、「空」および「木」を3つのエンティティとして認識する。画像クラスタリング・エンジン126は、画像データベース128の中から、これら3つのエンティティそれぞれに対応し、かつそれら認識済みのエンティティをそれぞれ表す画像パッチとして使用することができる候補画像を識別する。
抽出したエンティティを画像検索のテキスト・クエリとしてそのまま使用したとしても、合致する画像タグの周りのテキストの検索処理では、複数のエンティティから成るグループに対してではなく、個々のエンティティに個別に対処するだけであるので、エンティティ間の関連を考慮した検索結果が得られないことがある。さらに、抽出した各エンティティを表す個々の画像同士の間における互いの相対的な位置および/またはサイズを考慮に入れる検索処理機構も得られない。したがって、この対話型マルチモード画像検索ツールは、130に示すように、個々のエンティティ毎の特定の画像を選択することができ、それらの選択された画像から複合的な視覚クエリを合成することができるように、既定数の候補画像を提示する。
この対話型マルチモード画像検索ツールは、この複合的な視覚クエリを活用して、画像データベース128から、または場合によってはインターネットなどその他の情報源から、関連する画像を検索することができる。この対話型マルチモード画像検索ツールは、132に示すように、選択した画像の相対的な位置および相対的なサイズならびにそれらの各々の視覚コンテンツに基づいて、情報文脈を意識した画像検索処理を行う。情報文脈を意識した画像検索処理の実行結果に応じて、対話型マルチモード画像検索ツールは、視覚的な検索結果をモバイル・デバイス112に戻す。
<例示的なユーザ・インタフェース>
図2は、200に、モバイル・デバイス112における対話型多モード画像検索に使用されるユーザ・インタフェースの構成要素の例を示す図である。図示の例では、モバイル・デバイス112は、Windows(登録商標) Phone(R)デバイスを表しているが、その他の携帯電話、スマートフォン、タブレット型コンピュータおよびその他の同種のモバイル・デバイスも、同様に利用することができる。モバイル・デバイス112では、ハードウェア式またはソフトウェア式のボタン202を押下して入力処理を起動することにより、音声入力を開始したいことを示す。上述のように、音声入力は、音声認識エンジン120を介するなどして受信され、テキストに変換される。変換されたテキストは、204に示すように、モバイル・デバイス112の画面上に提示することができ、これにより、誤って変換されたテキストのイベント部分の編集が可能になる。いくつかの代替の場合には、最初の音声入力の代わりに、モバイル・デバイス112のハードまたはソフト・キーを介してテキスト入力を受信して、対話型マルチモード画像検索の処理を開始することもできる。
したがって、本発明に係る様々な実施態様では、この対話型マルチモード画像検索ツールは、隠れマルコフ・モデル(HMM)型のSRエンジンなど、自然文およびフレーズの断片を受け取り、その後その発話内容をテキスト表現に転記することができるSRエンジンを利用することによって、音声入力をレバレッジして、ユーザがクエリを開始するのを助ける。
この例示的なSRエンジン120は、受信した発話内容を最初に特徴空間内のコンパクトな意味のある表現(ベクトル)に変換する統計モデル化フレームワークを使用する。この例示的なSRエンジン120のデコーダは、これらの特徴ベクトルを入力として採用し、音響モデルおよび言語モデルに基づいて仮定した単語シーケンスの確率を生成する。
この例示的なSRエンジン120の出力は、画像検索用のクエリとして使用することができる。この対話型マルチモード画像検索ツールは、SRエンジン120の出力を処理して、「木」、「湖」、「車」および「家」のような名詞のキーワードであるエンティティを抽出する。エンティティ抽出エンジン122は、いくつかの候補画像によって表現される可能性がある単語を検出することができる。複数の候補画像が識別された場合には、これらの候補画像のうちの特定の画像を選択してリファインし、検索意図を明らかにすることができる。したがって、このツールは、「家」、「湖」および「木」など視覚的に意味のある名詞の単語/句をエンティティとして検出し、「法律」および「休日」のような非視覚的な叙述名詞を破棄する。本発明に係るいくつかの実施態様では、エンティティとして検出された町名は、非視覚的な叙述名詞として扱うことができる。このようないくつかの場合には、町名は破棄されるが、他の場合には、町名は別の名詞カテゴリとして後に使用するために保持される。
この目的のために、この対話型マルチモード画像検索ツールは、具体的な視覚表現を有する名詞を収集する(例えば155287個の単語から117798個の名詞を収集する)ことによって、辞書124などのエンティティ辞書または辞典を構築することができる。本発明に係る例示的な実施態様では、名詞が具体的な視覚表現を有するかどうかの判定は、その名詞が、定期的に更新される画像データベース128中の画像の任意のタグに含まれるかどうかに基づいて行われる。本発明に係る少なくとも1つの実施態様では、この対話型マルチモード画像検索ツールは、画像データベース内に閾値未満の個数しか画像がない名詞を省略して、保持される一意的な単語の数を減らす(例えば22117個の一意的な単語を保持する)。
さらに、本発明に係る少なくとも1つの実施態様では、この対話型マルチモード画像検索ツールは、「スーパーマン」および「エッフェル」など、有名人の名前、人気製品および目印になるような建物など、入力を説明するその他のエンティティも含む。対話型マルチモード画像検索ツールは、インターネットを検索することによってこれらの追加エンティティを取得することができ、かつ/またはこれらの追加エンティティは、商用検索エンジンからのクエリに基づいて取得することもできる。本発明に係る例示的な実施態様では、エンティティ抽出エンジン122によって実行されるエンティティ抽出処理の一部として、口頭による検索クエリ中の単語を、辞書124において合致する最も長いものに割り当てる。例えば、「白熊」および「エッフェル塔」は、既知の意味論的解釈を与える句である。したがって、これらの語は、辞書124からの句と一致する句エンティティとして抽出される。上記のように抽出された各エンティティは、画像クラスタリング・エンジン126によって実行される画像クラスタリング処理において、その最も長い形態で独立して使用される。したがって、抽出される句エンティティは、画像クラスタリング・エンジン126により、個別の名詞ではなく句として使用される。したがって、後に情報文脈を意識した画像検索処理132において複合的な視覚クエリの画像パッチとして使用される選択された画像は、個別の名詞ではなく句を表すことができる。
本発明に係る例示的な実施態様では、206に示すように、抽出したエンティティを、モバイル・デバイス112の画面上にタグとして提示する。一方、これらのエンティティの候補画像は、208に示すようにモバイル・デバイス112の画面上に提示することができる。図示された例では、1つのエンティティ「木」に関する候補画像は、1つの水平リボン・フォーマットで提示され、そこから特定の画像をモバイル・デバイス112の画面のキャンバス領域210にドラッグすることによって選択している。一方、エンティティ「湖」および「空」に関する特定の候補画像は、既にモバイル・デバイス112上の画面のキャンバス領域210にドラッグされて選択されている。ただし、他のフォーマットを使用することも可能であり、また企図される。例えば、複数のエンティティに関する候補画像を、画面の一部を占める垂直または水平のリボン内に同時に提示して、各エンティティを表す特定の候補画像を選択させることもできる。
キャンバス領域210は、マルチ・タッチ入力機能などのタッチ入力機能を介して選択された画像の操作を受け付け、これらの画像をキャンバス領域210内でサイズ変更し、移動させる。このようにして、視覚検索用の複合的なクエリ画像は、既存のクエリ画像を必要とすることなく、その複合的なクエリ画像内の各画像パッチのサイズおよび位置によって定義される。図示された例では、この対話型マルチモード画像検索ツールは、湖の位置を、キャンバス領域210のフレーム内で木および空よりも低い場所にあるものとして記録する。一方、木は、キャンバス領域210のフレーム内で空より下の右の方に配置されるものとして記録され、空は、キャンバス領域210の一番上に位置するものとして記録される。本発明に係る様々な実施態様では、これらの選択された画像に含まれる1つまたは複数の画像の中の全てまたは一部が、キャンバス領域210内に複合的なクエリ画像を形成する際に別の選択された画像と重なり合っていてもよい。重なり合うことによって画像の一部分が隠蔽されているときには、この隠蔽された部分を破棄してもよいし、あるいは、この隠蔽された部分に低く計算した重みを付与し、かつ/また上に重なっている部分に高く計算した重みを付与してもよい。選択された特定の候補画像の視覚コンテンツに基づいて形成され、それぞれのエンティティから成るコンテンツとしては、空に浮かぶ積雲、葉のない木、および一部の湖岸線が見える静かな湖などがある。
検索ボタン212を起動すると、キャンバス領域210上に定義された複合的な視覚クエリ画像に基づいて情報文脈を意識した視覚的検索処理132が開始される。本発明に係る他の実施態様では、ダブル・タップ操作またはその他の入力操作により、情報文脈を意識した視覚的検索処理132を開始することもできる。本発明に係る様々な実施態様において、検索ボタン212を起動すると、さらに、対話型マルチモード画像検索ツールにより、選択された画像に関連するタグが後の処理において使用されるために記憶される。
図示された例における214に示すように、モバイル・デバイス112は、情報文脈を意識した視覚的検索処理132の検索結果を画面上に提示するように構成される。画面上のタッチ入力機能を使用して、検索結果の表示をスクロールすることができ、タップ操作またはその他の同様の入力操作を通して、それらの検索結果のうちの1つを選択して、例えば結果として得られた画像についての追加情報を取り出すことができる。あるいは、それらの検索結果の中に検索意図に合致するものがない場合には、バック・ボタン216を起動して、複合的なクエリ画像をさらに操作することができるように画面を直前のキャンバスに戻すことができる。一方、モバイル・デバイスのその他の機能には、開始ボタン218を起動することによってアクセスすることができる。
図3は、300に、モバイル用の対話型マルチモード画像検索ツールを用いて同じ特定の選択された候補画像から合成された2つの複合的な視覚クエリを示す図である。図示の例に示すように、選択された画像は、その相対的な配置およびサイズが複合的な画像を視覚クエリとして利用する「情報文脈を意識した画像検索処理」の実行に寄与する画像パッチとして扱われる。点線の左側の302に示される複合的な視覚クエリでは、木がキャンバスの上下方向において中央かつ水平方向において左寄りに位置した構成になっている。一方、点線の右側の304に示される複合的な視覚クエリでは、木がキャンバスの上下方向において中央かつ水平方向において右寄りに位置した構成になっている。その他の例では、これらの画像パッチのサイズを変化させて、さらに別の結果を得ることもできる。300に示すように、同じ記憶タグを有する同じ画像パッチでも、2つの複合的な視覚クエリで配置が異なっていれば、異なるクエリ結果が得られることがある。
上述のように、本明細書に記載する対話型マルチモード画像検索ツールは、タッチ・スクリーン対話機能などモバイル・デバイスのマルチモード機能を利用して、複数の視覚的クエリの合成を可能にする。音声入力またはテキスト入力などの初期段階の入力から抽出される個々のエンティティ毎に、このシステムは、1組の候補画像を戻り値として返す。個々のエンティティ毎に特定の画像を選択する操作は、複合的視覚クエリが形成されるキャンバス上に、その選択された画像がドラッグ操作されることから認識される。複合的視覚クエリの形成は、その複合的視覚クエリにおいて画像パッチとなっている選択された各画像を操作することによって行われる。この操作としては、例えば、タッチ入力操作および/またはマルチ・タッチ入力操作を介するなどしてキャンバス領域210上の各選択画像の位置およびサイズを調節することなどが挙げられる。このようなマルチモード対話処理は、例えば多義性、アスペクト、視点、位置および属性など、既存のテキスト型画像検索システムで生じる様々な曖昧さに対処する。
本開示の文脈では、多義性、アスペクト、視点、位置および属性は、以下の意味を有する。すなわち、「多義性」とは、例えば「apple」が果物または製品の何れかを意味したりや「football」がサッカーまたはアメリカン・フットボールの何れかを意味したりするなど、1つの単語が複数の意味を有することを意味する。「アスペクト」とは、例えば「apple」が企業または製品の何れかを意味したり、「football」が物体または試合の何れかを意味したりするなど、1つの単語が、複数の異なる概念を表す可能性があることを示す。「視点」とは、例えば、側面から見た場合または正面から見た場合の車や内部から見た場合または外部から見た場合のオフィスなど、ある物体が角度または見方によって様々な外観を有する可能性があることを意味する。「位置」は、対象画像内における物体の予想される位置を示す。「属性」は、色、種類および装飾など、エンティティの性質を定義する。これらの曖昧さはそれぞれ、音声クエリまたはテキスト・クエリから視覚的な検索意図を導出する際に技術的な困難性を生じる可能性がある。
表1は、図4に示すような様々な画像の特徴を表すために利用することができる表記を列挙したものである。
Figure 0006278893
図4の400に示すように、複合的なキャンバスの上で複数の選択された画像を操作することによる視覚的クエリの対話型合成処理により、検索意図を導出することができる。具体的には、402の「1個のリンゴと1房のバナナが写っている写真を見つける」という音声クエリから、この対話型マルチモード画像検索システムは、1組のエンティティ(キーワード)
<外1>

Figure 0006278893
404を認識し、各エンティティの候補画像のリストを戻り値として返す。本発明に係る様々な実施態様では、各エンティティの候補画像のリストは、対話型マルチモード画像検索ツールによって後の処理において使用するために記憶される。
図4に示すように、T(k)は、1つのエンティティを示し、Kは、テキスト・クエリT中のエンティティの個数であり、この図示された例では2に等しい。406に示すように、T(1)=「apple(リンゴ)」であり、408に示すように、T(2)=「bunch of bananas(1房のバナナ)」である。
本発明に係る代替的な実施態様では、ユーザは、多数の画像(例えば画像データベースまたは検索エンジンによって得られるトップ画像検索結果など)から手作業で候補画像を選択することができる。別の代替的な実施態様では、データベースから得られる画像を、単純にタグに基づいて使用して、データベースと一般的なウェブ画像の間のクロスドメイン差を吸収することができる。
本発明に係る少なくとも1つの実施態様では、この対話型マルチモード画像検索ツールは、自動化されたプロセスを利用して、各エンティティの候補画像を識別する。例えば、この対話型マルチモード画像検索ツールは、視覚的な特徴および類似性メトリックに基づくクラスタリング型手法を使用して、既知の画像データベースおよび画像検索エンジンの結果を活用することによって、所与のエンティティの候補画像を識別する。図4は、リボン・フォーマットのエンティティT(1)およびT(2)の候補画像の例を示している。T1の候補画像のリボンは、410(1)に示し、T2の候補画像のリボンは、410(2)に示してある。
この対話型マルチモード画像検索ツールは、各エンティティに対応する特定の候補画像の選択結果、ならびに対話型マルチモード画像検索ツールが複合的な視覚クエリを構築する材料とするキャンバス領域210上の選択された画像の位置変更およびサイズ変更を示す指示を受信する。したがって、複合的な視覚クエリは、1組の構成要素
<外2>
Figure 0006278893
として表すことができる。ここで、各構成要素C(k)は、1つのエンティティT(k)、ならびに選択された画像I(k)とその選択された画像を含むキャンバス領域210上の長方形領域の位置およびサイズR(k)とに対応する。したがって、412に示すように、C(k)は、3つ組(T(k)、I(k)、R(k))によって定義することができる。
複合的な視覚クエリが、認識されたエンティティ、選択された画像、およびそれらの意図された位置を含むと仮定すると、本発明に係る実施形態が実行すべきタスクはそのクエリと文脈上関連する対象画像を検索することである。本明細書で用いる「関連性」という用語は、その対象画像が、エンティティ・キーワードおよび視覚的に類似した物体の両方を所望の位置に表示すると予想されることを意味する。したがって、キャンバス領域210などキャンバス上に形成される複合的な視覚クエリ414の対象画像はそれぞれ、大きな1房のバナナの上方かつ右側に小さなリンゴを含む写真および写実画像を含むことになる。視覚的クエリと対象画像との間における関連性は、示される位置に基づく視覚的類似性および意図一貫性によって測定することができる。
この対話型マルチモード画像検索ツールは、複数種類の視覚的特徴解析技術を利用して画像の取出しを行う。例えば、本発明に係る少なくとも1つの実施態様では、このツールは、複合的な視覚クエリのスケール不変特徴変換(SIFT)、色彩ヒストグラムおよび勾配ヒストグラムを対象画像と比較して、画像の取出しを行う。SIFTのような局所的な記述子は、画像の種別によってはうまく機能しないことがあるので、このツールは、色彩ヒストグラムおよび勾配ヒストグラムの弁別能力を活用する。SIFTがうまく機能しない可能性がある1つの例示的な種別としては、光景、すなわち目印となるものを含まない風景または自然の光景が挙げられる。SIFTがうまく機能しない可能性がある種別の別の例としては、人間の画像、すなわち有名人を含まない無作為の、匿名の、または未知の1人または複数人の人物の写真または画像が挙げられる。このような種別は、見た目が変化するので、SIFTで共有される特徴を含まない可能性がある。ただし、この対話型マルチモード画像検索ツールは、このような種別内で色彩および/またはパターンの類似性を利用して、光景や人間などの種別を取り出すことができる。
<例示的なモバイル・デバイス>
図5は、本明細書に記載する対話型マルチモード画像検索機能を提供するように構成された例示的なモバイル・デバイス112の構成要素の中から選択された構成要素を示す図である。例示的なモバイル・デバイス112は、ネットワーク・インタフェース502と、マイクロプロセッサを含むことが可能な1つまたは複数のプロセッサ504と、音声プロセッサ506と、1つまたは複数のマイクロフォン508と、メモリ510とを含む。ネットワーク・インタフェース502は、モバイル・デバイス112がネットワーク116を介してデータを送信および/または受信できるようにする。ネットワーク・インタフェース502は、モバイル・デバイス112がウェブ・ベースのデータおよび携帯電話網ベースのデータなど(ただしこれらに限定されない)様々なタイプの通信を送信および/または受信できるようにする、その他の通信インタフェースの任意の組合せを表すこともある。
オペレーティング・システム(OS)512、ブラウザ・アプリケーション514、全世界測位システム(GPS)モジュール516、コンパス・モジュール518、対話型マルチモード画像検索ツール520、および任意の個数のその他のアプリケーション522は、コンピュータ可読命令としてメモリ510内に記憶され、少なくとも部分的にはプロセッサ504で実行される。
ブラウザ・アプリケーション514は、インターネットを介して入手可能なウェブ・コンテンツにアクセスできるようにするためのユーザ・インタフェースを提供するためにモバイル・デバイス112上で実行することができる様々なアプリケーションのいずれかを表す。
GPSモジュール516は、全地球測位システム(GPS)に従ってモバイル・デバイス112の地理的位置を決定、監視および/または追跡するためにモバイル・デバイス112に実装される任意の機能を表す。例えば、GPSモジュール516は、ユニバンドまたはマルチバンドのトランシーバに一体化することができる。別の例では、GPSモジュール516は、少なくとも部分的には、モバイル・デバイス112のユーザにマップおよび/またはナビゲーションの方向を提供するために使用することもできる。本明細書で述べるように、GPSモジュール516は、任意の所与の時点におけるモバイル・デバイス112の現在位置を特定し、かつ/または以前のモバイル・デバイス112の位置の履歴を保持するように構成することができる。
コンパス・モジュール518は、モバイル・デバイスの現在の地理的方向を決定するためにモバイル・デバイス112に実装される任意の機能を表す。本発明に係る例示的な実施態様では、コンパス・モジュール518から収集された情報を、例えばGPSモジュール516から収集した情報と結合して、追加の位置情報を形成することもできる。
その他のアプリケーション522としては、モバイル・デバイス112上で実行可能な任意の個数のその他のアプリケーションが含まれる。このようなその他のアプリケーションとしては、例えば、電子メール・アプリケーション、カレンダ・アプリケーション、トランザクション・モジュール、音楽プレイヤ、カメラ・アプリケーション、電卓ツール、1つまたは複数のゲーム、1つまたは複数の開発支援ツール、インスタント・メッセージ・アプリケーション、加速度計などが挙げられる。
対話型マルチモード画像検索ツール520は、音声認識モジュール524、エンティティ抽出モジュール526、画像クラスタリング・モジュール528、ユーザ・インタフェース・モジュール530、キャンバス・モジュール532、視覚的クエリ合成モジュール534、コンテキスト・アウェア・モジュール536、画像検索モジュール538、および場合によっては上記以外のその他の対話型マルチモード画像検索構成要素540のうちの1つまたは複数を含む。
音声認識モジュール524は、音声認識エンジン120のプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。音声認識モジュール524は、音声コンテンツまたは入力中の単語を識別し、当該識別した単語をテキスト表現に変換する。例えば、音声プロセッサ506によって音声認識モジュール524を実行して、マイクロフォン508からの入力を処理することができる。あるいは、またはこれに加えて、音声認識モジュール524は、音声プロセッサ506を迂回して音声入力を直接受信するように構成することもできる。音声認識モジュール524は、以前に記憶した音声ファイルおよびその他の同様のデータ・ソースにアクセスして、音声データのテキスト表現を生成することもできる。音声認識モジュール524は、テキスト形態でクエリを出力する。
エンティティ抽出モジュール526は、エンティティ抽出エンジン122のプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。エンティティ抽出モジュール526は、音声認識モジュール524から出力されたテキスト中の名詞、特に候補画像によって視覚的に表現することができる名詞を検出する。本発明に係るいくつかの実施形態では、エンティティ抽出モジュール526は、複数の方法のうちの1つに従って生成されたテキスト・クエリから視覚的に表現可能な名詞を検出する。例えば、プロセッサ504によって実行することができるエンティティ抽出モジュール526は、「家」、「湖」および「木」など、視覚的に意味のある単語/句をエンティティとして検出し、「法律」および「休日」のような非視覚的な叙述名詞を破棄する。本発明に係る様々な実施態様では、エンティティ抽出モジュール526は、具体的な視覚表現を有する名詞を収集することによって、エンティティを元に辞書124などのエンティティ辞書または辞典を構築する。
画像クラスタリング・モジュール528は、画像クラスタリング・エンジン126のプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。画像クラスタリング・モジュール528は、画像データベース128などから、エンティティ抽出モジュール526によって抽出されたエンティティのそれぞれに対応する候補画像を識別する。例えば、プロセッサ504によって実行することができる画像クラスタリング・モジュール528は、認識されたエンティティを表す複合画像中のそれぞれの画像パッチとして使用することが可能な予め規定された個数の候補画像を識別する。
画像データの様々な提供元の任意の組合せにアクセスして、画像コンテンツを識別することができる。本発明に係る例示的な実施態様では、検索サービスを使用して、通常はインターネット検索サービスによって維持される「注目記事」または「検索トップ」に基づいて、現在人気がある画像または画像の主題を識別することができる。その他のコンテキスト情報(情報文脈に関する情報)を使用して、画像コンテンツの提供元を識別することもできる。様々な技術を本発明に係る実施形態と任意に組み合わせて使用して、画像コンテンツの提供元を識別することができ、これらのコンテンツ提供元を任意に組み合わせて使用して、利用可能な候補画像を識別することができる。
ユーザ・インタフェース・モジュール530は、モバイル・デバイス112のユーザ・インタフェースのその他の機械的かつ/またはソフトウェア的な構成要素の動作のためのプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ504によって実行することができるユーザ・インタフェース・モジュール530は、対話型マルチモード画像検索ツール520の状況では、ハードウェア式のまたはソフトウェア式のボタン202、バック・ボタン216および/あるいは開始ボタン218の機能を制御することができる。ユーザ・インタフェース・モジュール530は、画像クラスタリング・モジュール528によって識別された候補画像の中から特定の画像を選択することを可能にする。例えば、ユーザ・インタフェース・モジュール530は、208に示すようにモバイル・デバイス112の画面上にスクロール可能なリボン・フォーマットで提示される特定の候補画像の選択を実現する。
図示された例のようにユーザ・インタフェース・モジュール530のプログラムの一部として含まれることもあれば、本発明に係るいくつかの実施態様のようにそこから分離していることもあるキャンバス・モジュール532は、モバイル・デバイス112のタッチ・スクリーン上におけるユーザ・インタフェースの対話型キャンバス領域210の動作のためのプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ504によって実行することができるキャンバス・モジュール532は、ユーザ・インタフェース・モジュール530を介して選択された画像を、それらの選択された画像がタッチ式のユーザ・インタフェースを用いて画面のキャンバス領域210に配置された際に記録する。
視覚的クエリ合成モジュール534は、キャンバス・モジュール532によって記録され選択された画像から複合的な視覚クエリを合成するプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ504によって実行することができる視覚的クエリ合成モジュール534は、選択された画像が、画面との間のタッチ操作による対話を介してユーザ・インタフェースのキャンバス領域210上に複合的視覚クエリの画像パッチを形成するように操作された際に、それらの選択された画像の相対的な位置および相対的なサイズを記録する。さらに、視覚的クエリ合成モジュール534は、この複合的な視覚クエリを検索処理のために提供することもできる。
コンテキスト・アウェア・モジュール536は、少なくとも視覚的クエリ合成モジュール534からの複合的な視覚クエリに基づいて情報文脈を意識した画像検索処理を実行するプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ504によって実行することができるコンテキスト・アウェア・モジュール536は、複合的な視覚クエリを合成する画像パッチの視覚的情報文脈を一意化することができる。コンテキスト・アウェア・モジュール536は、少なくとも部分的には、選択されない候補画像と比較して選択された特定の候補画像によって克服される曖昧さに基づいて、視覚的情報文脈を一意化することができる。例えば、図4の抽出されたエンティティ「apple(リンゴ)」の候補画像410(1)は、「apple」という名詞に関連する曖昧さを示している。果物の画像が選択されると、コンテキスト・アウェア・モジュール536は、そのクエリがApple社製の電子製品の画像を見つけようとしているものではないと推測することができる。コンテキスト・アウェア・モジュール536は、情報文脈を意識した画像検索処理の結果を、モバイル・デバイス112の画面に表示するために利用できるようにする。
場合によっては、エンティティ抽出モジュール526および/またはコンテキスト・アウェア・モジュール536は、音声入力中の「近くに」または「この付近に」などの入力を識別し、位置に基づくコンテキスト情報(情報文脈に関する情報)を、モバイル・デバイス112の現在位置または予想される将来の位置を含む任意の組合せに基づいて文脈上関連がある可能性がある候補画像および/または複合的視覚クエリから戻り値として返される結果に適用することもできる。例えば、ユーザが対話型マルチモード画像検索ツールにオプトインしてGPSモジュール516および/またはコンパス・モジュール518から位置情報を収集して使用した際に、GPSモジュール516およびコンパス・モジュール518から得られるコンテキスト情報(情報文脈に関する情報)に基づいて、現在の位置および進行方向を決定することができる。次いで、クエリに含まれる町、GPS情報および/またはコンパス情報のうちの1つまたは複数から得られる位置情報に基づいて、現在位置に関連する候補画像および/または複合的な視覚クエリ結果を、文脈上関連があるとして識別することができる。別の例では、このような位置情報を使用して、戻り値として返された視覚的クエリ結果をランク付けすることもできる。
画像検索モジュール538は、少なくとも視覚的クエリ合成モジュール534からの複合的な視覚クエリおよび/またはコンテキスト・アウェア・モジュール536からの結果に基づいて画像検索を実行するプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ504によって実行することができる画像検索モジュール538は、複合的な視覚クエリを合成する素材となる1つまたは複数の画像パッチについてのベクトル・マッチングに基づいて画像検索結果を識別することができる。画像検索モジュール538は、画像検索の結果を、モバイル・デバイス112の画面に表示するために利用できるようにする。
本発明に係るいくつかの実施形態では、上記以外のその他の対話型マルチモード画像検索構成要素540は、その他の対話型データのコンテキスト(情報文脈)を適用して、複合的な視覚クエリを実行することができる。例えば、使用することができるその他のコンテキスト・データ(情報文脈を表すデータ)としては、最近の検索内容、インスタント・メッセージ情報、最近アクセスしたアプリケーション(例えばゲーム、開発支援アプリケーションなど)を識別するデータ、モバイル・デバイス112が移動している速度を決定するために使用することができる加速度計データなどが挙げられるが、これらに限定されるわけではない。
図5においては、モバイル・デバイス112のメモリ510に記憶されるものとして示してあるが、本発明に係るいくつかの実施態様では、対話型マルチモード画像検索ツール520またはその一部分は、1つまたは複数のサーバ104の中に記憶され、かつ/またはクラウド102などのクラウド型の実施態様によって実装することもできる。さらに、本発明に係るいくつかの実施態様では、対話型マルチモード画像検索ツール520またはその一部分は、モバイル・デバイス112がアクセスできる任意の形態のコンピュータ可読媒体を用いて実装することができる。さらに、本発明に係るいくつかの実施形態では、オペレーティング・システム512、ブラウザ・アプリケーション514、GPSモジュール516、対話型マルチモード画像検索ツール520および/またはその他のアプリケーションのうちの1つまたは複数の構成要素は、モバイル・デバイス112の一部である、またはモバイル・デバイス112にアクセス可能である集積回路の一部として実装することもできる。さらに、モバイル・デバイス112上で実施されるものとして図示および説明しているが、本発明に係るいくつかの実施形態では、本明細書に記載するように対話型マルチモード画像検索ツール520によってもたらされるデータ・アクセスおよびその他の機能は、デスクトップ型コンピュータ・システムおよびラップトップ型コンピュータ・システムなど(ただしこれらに限定されない)、ユーザが対話型マルチモード視覚検索処理を実行できるようにするための、マルチモード入力用に構成されたその他の任意のタイプの計算デバイス上で実施することもできる。
本明細書で用いるコンピュータ可読媒体という用語は、少なくとも2種類のコンピュータ可読媒体、すなわちコンピュータ可読の記憶媒体および通信媒体を含む。コンピュータ可読の記憶媒体としては、コンピュータ可読命令、データ構造、プログラム・モジュールまたはその他のデータなどの情報を記憶するための任意の方法または技術で実装される揮発性記憶媒体および不揮発性記憶媒体、ならびに取外し可能記憶媒体および取外し不能記憶媒体が挙げられる。コンピュータ可読記憶媒体としては、RAM、ROM、EEPROM、フラッシュ・メモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)またはその他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは計算デバイスがアクセスできるように情報を記憶するために使用することができるその他の任意の非伝達媒体が挙げられるが、これらに限定されるわけではない。
これに対して、通信媒体は、コンピュータ可読命令、データ構造、プログラム・モジュールまたはその他のデータを、搬送波などの変調データ信号またはその他の伝達機構に含めて実施することができる。本明細書で定義するコンピュータ可読記憶媒体は、伝達を実行するのに必要な任意のハードウェア構成要素を除いて通信媒体を含まない。
<例示的な動作>
図6〜図9は、本明細書に記載する対話型マルチモード画像検索ツール520を実装する例示的な方法を示す図である。これらの方法は、ハードウェア、ソフトウェアまたはそれらの組合せとして実施することができる処理動作のシーケンスを表す論理フロー・グラフのブロックの集合として示してある。ソフトウェアとして実施される状況では、これらのブロックは、1つまたは複数のプロセッサによって実行されたときに、本実施形態に記載された処理動作を、それらのプロセッサに実行させる、1つまたは複数のコンピュータ可読媒体上のコンピュータ実行可能命令を表す。
ここでは、本発明を実施するためのソフトウェアは、有償で個別に取引き可能な商品である可能性があることを断っておく。当該ソフトウェアは、「ダム(dumb)」ハードウェアまたは標準的なハードウェア上で実行され、または当該ハードウェアを制御するための所望の機能を実行するソフトウェアを包含するものとする。また、本発明を実施するためのソフトウェアは、シリコン半導体チップを設計する際または汎用プログラマブル・チップを構成する際に使用され、所望の機能を実行するためのHDL(ハードウェア記述言語)ソフトウェアなどのように、ハードウェア構成を「記述」または「定義」するソフトウェアも包含するものとする。
なお、これらの方法を記載する順序は、限定的なものとして解釈すべきものではなく、本明細書中に記載される方法を構成する複数の処理ブロックのうちの任意の個数のブロックを任意の順序で組み合わせて、これらの方法または代替の方法を実施することができることに留意されたい。さらに、本明細書に記載する発明の主題の趣旨および範囲を逸脱することなく、個々の処理ブロックの実行を本発明に係る方法から省略することもできる。さらに、図1〜図5を参照して上述したモバイル・デバイス112に関連してこれらの方法について述べるが、本発明に係るいくつかの実施形態では、クラウド型アーキテクチャなどその他のコンピュータ・アーキテクチャによって、これらの方法の1つまたは複数の部分を、完全に、または部分的に実施することもできる。
図6は、対話型マルチモード画像検索ツールを実装する例示的な方法600を示す図である。
ブロック602で、音声入力を受信する。例えば、図1および図5に示すように、モバイル・デバイス112が、マイクロフォン508を介して口頭によるクエリを受信する。
ブロック604で、音声認識を使用して、音声入力内容をテキスト表現に変換する。図1および図5を参照して上述したように、音声認識エンジン120および/または音声認識モジュール524など、任意の組合せの音声認識(SR)エンジンまたはモジュールを使用して、受信した発話内容をテキスト表現に変換することができる。
ブロック606で、解析を実行して、テキスト中の、視覚的に表現することができる名詞および名詞句を識別する。これらの名詞または名詞句はそれぞれ、エンティティ抽出においてエンティティとして抽出される。例えば、図1および図5に示すように、エンティティ抽出エンジン122および/またはエンティティ抽出モジュール526など、任意の組合せのエンティティ抽出エンジンまたはモジュールを使用して、視覚的に表現することができる名詞および名詞句をテキストから識別して抽出することができる。
ブロック608で、抽出したエンティティの候補画像を識別する。画像コンテンツの様々な提供元にアクセスして、画像データベース128などの画像データベースを含む利用可能な候補画像および商用検索エンジンを識別することができる。上述のように、本発明に係る例示的な実施態様では、検索サービスを使用して、通常はインターネット検索サービスによって維持される「注目記事」または「検索トップ」に基づいて、現在人気のある画像コンテンツを識別することができる。本発明に係る少なくとも1つの実施態様では、視覚的特徴および類似性メトリックに基づくクラスタリング型手法を使用して、既知の画像データベースおよび画像検索エンジンからの検索結果を活用することにより、所与のエンティティの候補画像を識別する。例えば、図1および図5に示すように、画像クラスタリング・エンジン126および/または画像クラスタリング・モジュール528など、任意の組合せの画像クラスタリング・エンジンまたはモジュールを使用して、エンティティの候補画像を識別することができる。
ブロック610で、識別した候補画像を、そのエンティティの意図された意味を最も正確に表現する特定の画像の選択のために提供する。図1〜図5を参照して上述したように、候補画像は、モバイル・デバイス112のディスプレイなど、タッチ・スクリーン型ディスプレイを介して提供することができる。例えば、図1および図5に示すように、ユーザ・インタフェース・モジュール530および/またはキャンバス・モジュール532など、任意の組合せのユーザ・インタフェース・モジュールを使用して、抽出したエンティティを表す候補画像を選択操作のために提供することができる。本発明に係る少なくとも1つの実施態様では、これらの候補画像は、モバイル・デバイス112のユーザ・インタフェースへのタッチ入力操作を介した選択操作のために提供される。
ブロック612で、各エンティティを表す候補画像の中から特定の1つを選択する操作を受信する。本発明に係る様々な実施形態においては、この選択操作は、特定の候補画像をモバイル・デバイス112のユーザ・インタフェースのキャンバス領域210にドラッグ操作することによって受信される。例えば、図1および図5に示すように、ユーザ・インタフェース・モジュール530および/またはキャンバス・モジュール532など、任意の組合せのユーザ・インタフェース・モジュールを使用して、抽出されたエンティティを表す特定の候補画像の選択操作を受信することができる。本発明に係る少なくとも1つの実施態様では、候補画像の選択操作を示す指示を、モバイル・デバイス112のユーザ・インタフェースへのタッチ入力操作を介して受信する。
ブロック614で、選択した画像のリファインメントを、ユーザ・インタフェースのキャンバス領域210を介して受信する。様々な実施形態では、リファインメントは、複合画像を形成するためにキャンバス領域210で操作されている選択された画像についての情報を含む。この操作は、サイズの調整、位置の移動、ならびに選択された画像同士の間での相対的なサイズおよび位置のうちの一方または両方のアスペクトのうちの1つまたは複数を含む。本発明に係る少なくとも1つの実施態様では、選択された画像のリファインメントを示す指示を、モバイル・デバイス112のユーザ・インタフェースへのタッチ入力操作を介して受信する。
ブロック616で、複合画像を使用して、情報文脈を意識した画像検索処理に基づく視覚的クエリを実行する。
図7は、連結されたヒストグラムを使用して記述される画像を比較する例示的な方法700を示す図である。
本発明に係る少なくとも1つの実施態様に従うならば、ブロック702において、対話型マルチモード画像検索ツールは、128次元SIFT記述子など、画像の各キー・ポイントに関する記述子を抽出する。例えば、この画像は、画像データベース128から得られる画像、ウェブ検索によって得られる画像、および/または複合的視覚クエリ画像のうちの1つまたは複数を含むことができる。場合によっては、この抽出は、例えば画像データベース128から得られた各画像について、予めオフラインで行われる。その他の場合においては、この抽出は、例えばウェブ検索によって得られる画像および複合的視覚クエリ画像について、オンラインで実質的にリアルタイムに行われる。これらのオンライン抽出手法とオフライン抽出手法を組み合わせて、複数の画像提供元からの候補画像を識別することができる。例えば、本発明に係る少なくとも1つの実施態様では、あるエンティティについて、候補となる可能性のある画像のタグのテキスト検索に基づいて、ある候補画像が識別されたときに、SIFT、色彩および/または勾配など、識別された候補画像から得られる特徴記述子を、候補となる可能性がある画像のうち、タグのない、または追加の候補画像を識別するその他のタグを有するその他の画像とマッチングすることができる。
本発明に係る例示的な実施態様では、ある名詞が具体的な視覚的表現を有するかどうかの判定は、その名詞が、定期的に更新される画像データベース128中の画像の任意のタグに含まれるかどうかに基づいて行われる。
ブロック704において、対話型マルチモード画像検索ツールは、階層的K平均法によって識別されたエンティティの語彙ツリーを構築する。例えば、対話型マルチモード画像検索ツールは、階層的K平均法によって確立された語彙ツリーを用いて視覚的コード・ブックを構築する。他の例では、視覚的コード・ブックをKD木で置き換えることもできるし、あるいはその他の技術を使用することもできる。本発明に係る1つの例示的な実施態様では、これにより、例えば画像データベース128から得られた画像毎に、約6000個の視覚的単語が画像データベースから得られる。様々な例において、語彙ツリーの葉は、視覚的単語とみなすことができ、画像内の局所点を語彙ツリーの葉とマッチングして、その画像に最も類似した葉を見つけることができる。
ブロック706において、対話型マルチモード画像検索ツールは、ツリーを走査することによって、各SIFT記述子を視覚的単語にハッシング処理する。
ブロック708において、対話型マルチモード画像検索ツールは、視覚的単語に重み付けすることによって画像を記述する。例えば、本発明に係る1つの実施態様では、対話型マルチモード画像検索ツールは、視覚的単語に対して、中心から遠い画像パッチよりも中心に近い画像パッチの方が重みが大きくなるように、それらの画像パッチの各々に関して画像の中心からの相対的な距離に基づいて重み付けする。別の例では、少なくとも1つの実施態様では、対話型マルチモード画像検索ツールは、視覚的単語に対して、画像パッチが大きくなるほど重みが大きくなるように、それらの画像パッチの各々に関する相対的なサイズに基づいて重み付けする。
ブロック710において、対話型マルチモード画像検索ツールは、画像の色彩を量子化する。例えば、1つの例示的な実施態様では、対話型マルチモード画像検索ツールは、画像の色彩を、その画像を記述する色相/彩度/明度(HSV)空間の192個のビンに量子化する。
ブロック712において、対話型マルチモード画像検索ツールは、画像の勾配を量子化する。例えば、対話型マルチモード画像検索ツールは、画像の勾配を、8個の方向および8個の強度に量子化して、その画像を記述する64次元勾配ヒストグラムを生成する。
ブロック714において、対話型マルチモード画像検索ツールは、その画像を記述する特徴記述子を結合する。本発明に係る様々な実施態様において、特徴記述子は、線形結合、連結またはその他の形態の結合操作によって結合することができる。したがって、本発明に係る例示的な実施態様では、その結果として、このツールは、例えば(6256=6000個の視覚的単語+192個のビン+64次元勾配ヒストグラム)など、これら3種類の視覚的特徴の連結ヒストグラムによって画像を記述することになる。これら3種類の視覚的特徴を利用することは、画像の取出しに有効であることが分かっている。本発明に係る少なくとも1つの実施態様では、各種類の特徴を、結合する前に個別に正規化する。また、本発明に係るいくつかの実施態様では、対話型マルチモード画像検索ツールは、重み付け関数を使用して異なる種類の記述子のバランスをとり、ヒストグラム中の有益な要素を取り出す。
ブロック716において、対話型マルチモード画像検索ツールは、類似性メトリックを使用して、候補となる可能性がある画像のヒストグラムの類似性を比較する。例えば、fおよびfは、それぞれ画像iおよびjの正規化ヒストグラムを示すものとする。これら2つの画像の間の類似性は、数式1で表されるように、2つのヒストグラムの間の重み付け交差カーネルによって与えられる。
Figure 0006278893
数式1において、fi、nは、ヒストグラムfのn番目の要素を示し、wは、n番目の要素の類似性による寄与を測定するための重みであり、N(例えばN=6256)は、ヒストグラムの次元である。画像を比較する際にヒストグラム中の全ての要素が等しく重要であるわけではないので、重みによって、様々な特徴による寄与を区別する。対話型多モード画像検索ツールは、これらの画像の間で特徴を平均化し、平均ヒストグラム
<外3>
Figure 0006278893
を得、次いで、重みw
<外4>
Figure 0006278893
として定義する。全ての画像の間で頻度の高い要素ほど、重要性は低い。したがって、この重み関数は、ヒストグラム中の有益な要素を取り出し、異なる種類の記述子のバランスをとることができる。
図8は、各エンティティの候補画像を識別するために対話型マルチモード画像検索ツールが利用するクラスタリング型手法の例示的な方法800を示す図である。いくつかの実施態様では、方法800は、抽出されたエンティティの候補画像が図6のブロック608に従って識別される場合を示す。
ブロック802において、対話型マルチモード画像検索ツールは、エンティティ・キーワードに従って、画像データベースから候補となる可能性がある画像を選択し、商用画像検索エンジンから所定数(例えば1000個)のトップ画像を選択する。
ブロック804において、対話型マルチモード画像検索ツールは、上述した数式1に示した視覚的記述子および類似性メトリックに基づいて複数対の画像を比較することにより、類似性行列を計算する。
ブロック806において、本発明に係るいくつかの実施態様に従うならば、背景クラッタを回避するために、対話型マルチモード画像検索ツールは、特徴抽出処理の前に顕著領域検出プロセスを行う。例えば、ある物体を含む画像にクラッタが生じてその物体が識別しにくくなっているときには、対話型マルチモード画像検索ツールは、顕著領域検出プロセスを利用して、追加の背景構成要素によって画像のクラッタを生じることなく、その物体を反映する画像構成要素を得ることができる。
ブロック808において、対話型マルチモード画像検索ツールは、画像から特徴を抽出する。本発明に係る少なくとも1つの実施形態では、背景クラッタを回避するために、顕著領域内の視覚記述子のみを考慮する。
ブロック810において、本発明に係る様々な実施形態において、対話型マルチモード画像検索ツールは、特徴をいくつかのクラスにグループ化する教師なしクラスタリング方法を使用する。例えば、親和性伝播(affinity propagation)(AP)アルゴリズムは、クラスへのグループ化のために特徴の視覚的インスタンスを見つけるために使用される教師なしクラスタリング方法である。
ブロック812において、対話型マルチモード画像検索ツールは、各クラスタに含まれる画像の数の降順にクラスタを分類する。例えば、画像の数が100未満のクラスタは、画像の数が100を超えるクラスタより低くランク付けされる。
ブロック814において、対話型マルチモード画像検索ツールは、このエンティティの候補画像として、トップ・クラスタ(例えばトップ10)からの所定数の画像の中心を選択する。例えば、互いに異なる主題をそれぞれ示す複数の候補となる可能性がある画像が、エンティティと合致するタグを有することがある。これらの候補となる可能性がある画像は、特定のタグを探すことによって収集することができるが、対話型マルチモード画像検索ツールは、これらの候補となる可能性がある画像を、それらの見た目に従って複数のグループにクラスタリングして、それらの画像に示される様々な主題の代表画像を識別する。対話型マルチモード画像検索ツールは、これらのグループを、例えばそれぞれのグループ内の画像の数に従って、画像の数が最も多いグループが1位にランク付けされるように、ランク付けすることができる。さらに、場合によっては、対話型マルチモード画像検索ツールは、最も代表的であるとみなされるグループを、所定数、例えば上位10または5個保持する。場合によっては、保持されるグループの数は、ユーザが設定することができる。
ブロック814において、保持されたグループについて、対話型前うちモード画像検索ツールは、代表的な候補画像として各グループのクラスタ中心を選択する。その際、各クラスタの中から1つの画像を選択する。したがって、例えば、エンティティに対応するタグを有し、互いに異なる10個の主題をそれぞれ表す10個のグループのそれぞれから得られる代表画像は、そこから複合的視覚クエリの一部となる画像を選択することができる10個の候補画像として提示することができる。
ブロック816において、対話型マルチモード画像検索ツールは、記述子に重み付けする。例えば、ガウス窓を使用して記述子に重み付けして、中心に近い記述子ほど重要性が高くなるようにすることができる。
図9は、900に、文脈を意識した複合画像型画像検索プロセスを示す数学的に注釈付けされた図である。このプロセスは、902に示すように、2つの画像パッチを含む複合視覚クエリCから開始される。
904において、対話型マルチモード画像検索ツールは、例えば図4に関連して上述したようにエンティティ・キーワード{T(k)}を表す記憶されたタグを結合することにより、テキスト・クエリを生成する。別の例では、テキスト・クエリは、町名がタグに含まれないときに、位置カテゴリから得られた町名など、タグ以外のカテゴリからのテキストを含むように生成することができる。当該生成されたテキスト・クエリは、画像検索モジュール538および/または画像検索エンジン906を含む、図5および図9に示すものなど、任意の組合せの画像検索モジュールまたはエンジンに提出される。
908において、画像検索エンジン906は、このテキスト・クエリに従って、画像データベース128などの画像データベースから関連画像を検索する。場合によっては、検索結果の個数を減少させるためにGPS情報、位置カテゴリおよび/または町タグが利用可能である場合には、これらのうちの1つまたは複数を含むことができる位置に従って、関連画像をフィルタリングする。検索結果910が、候補画像である。候補画像910は、複合的な視覚クエリ902によって表され、テキスト・クエリ904から抽出されたエンティティからの候補画像を表す。これらの候補画像910は、それぞれ対象画像として複合的な視覚クエリ902と比較することができる、テキストに基づく画像検索結果である。
912において、対話型マルチモード画像検索ツールは、複合的な視覚クエリの各画像パッチ構成要素と対象画像J924中の対応する領域の間の視覚類似性
<外5>
Figure 0006278893
を計算する。
912の動作に関しては、複合的な視覚クエリ902の画像パッチ構成要素と対象画像J924中のそれに対応する領域の間の領域に基づく視覚類似性
<外6>
Figure 0006278893
を計算するために、対話型マルチモード画像検索ツールは、J924中の対応する領域の視覚的表現を得る。J924中の特定の領域の視覚的表現をリアルタイムで計算することは常に実用的であるとは限らない(例えば、ユーザが、複合画像の構築中に、この構成要素の位置およびサイズを頻繁に変更する可能性があるため)ので、対話型マルチモード画像検索ツールは、効率的なグリッドに基づく検索方式を利用して、対象画像Jを小さなグリッド
<外7>
Figure 0006278893
に分割する。ここで、Mは、対象画像jを分割するセルの個数(整数)を表し、i、jは、各セルの隅点の座標を表す。
k番目の画像パッチ構成要素(複合クエリ中の領域R(k)に対応する)およびJ中のグリッド(i、j)に対応するその中心位置については、J中の対応する領域
<外8>
Figure 0006278893
は、関連する各グリッドの和、すなわち
<外9>
Figure 0006278893
で与えられる。各グリッドにおいて、対話型マルチモード画像検索ツールは、上述のSIFT、色彩ヒストグラムおよび勾配ヒストグラムの3種類の視覚的特徴を利用する手法を用いて特徴ヒストグラムを得る。本発明に係る例示的な実施態様では、得られる特徴ヒストグラムは、予め保存してある。対話型マルチモード画像検索ツールは、対象画像Jを
<外10>
Figure 0006278893
として表すことができる。ここで、h(i、j)は、グリッド(i、j)の視覚的記述子である。本発明に係る1つの例示的な実施態様では、M=9(9×9グリッド)を使用する。対話型マルチモード画像検索ツールは、以下の数式2で表すように、関連するグリッドからのヒストグラムの線形結合を用いて、領域
<外11>
Figure 0006278893
の視覚表現を得る。
Figure 0006278893
数式2において、w(i、j)は、中心に近いグリッドに高い重要性を割り当てる、所与の領域を中心とする2Dガウス分布重みである。この場合、k番目の画像パッチ構成要素と領域
<外12>
Figure 0006278893
の間の領域に基づく視覚類似性は、以下の数式3で与えられる。
Figure 0006278893
数式3において、f(k)は、k番目の画像パッチ構成要素の視覚的記述子であり、sim(・)は、数式(1)で与えられる。なお、上記の数式では、対話型マルチモード画像検索ツールは、(i、j)およびkの指標を両方とも使用する。これは、対話型マルチモード画像検索ツールが、位置の許容差に対処するために領域に基づく類似性を計算するために移動ウィンドウ区間を使用するからである。したがって、
<外13>
Figure 0006278893
は、k番目の画像パッチ構成要素と対象画像J中の(i、j)を中心とする対応する領域
の間の視覚的類似性を示す。
914において、対話型マルチモード画像検索ツールは、複合的な視覚クエリ902の各画像パッチ構成要素の寸法を対象画像Jに重ねる。
916において、画像パッチ構成要素C(1)から延びる双頭矢印が示すように、対話型マルチモード画像検索ツールは、入力の不正確さを見込むために、パッチの領域を対象画像J上のより大きなサイズに拡大する。
918において、対話型マルチモード画像検索ツールは、920に示すように、意図マップ{d(k)(i、j)}を生成する。意図マップ920は、キャンバス領域210などのキャンバス上でリファインされた複合的な視覚クエリ902内の画像パッチ構成要素の位置に従って生成される。例えば、本発明に係る様々な実施形態において、図6のブロック614に関連して上述したように、リファインメントによって、選択された画像のうちの1つまたは複数のサイズおよび/または位置が変更されることがある。
918の動作に関しては、画像パッチ構成要素I(k)と対応する領域
<外14>
Figure 0006278893
の間の領域に基づく関連性の計算は、意図を考慮に入れなければならない。このような領域に基づく意図の関連性は、関連性
<外15>
Figure 0006278893
として示すことができる。直感的に分かるように、各領域R(k)の中心に近い意図は、中心から離れた意図より強い。さらに、画像パッチ構成要素I(k)内の意図は、その外部の意図より強い。対話型マルチモード画像検索ツールは、最初に、複合的な視覚クエリ内の意図のソフト測定結果である意図マップを規定する。
(x(k)、y(k))は、複合的な視覚クエリ内のk番目の画像パッチ構成要素の中心を示すものとする。ユーザによって指定されるこの位置の不確実性を許容するために、対話型マルチモード画像検索ツールは、以下の数式4が示すように意図を表現するソフト・マップを計算する。
Figure 0006278893
数式4において、w(k)およびh(k)は、それぞれ領域R(k)の幅および高さであり、θは、領域R(k)の境界でgを0.5まで低下させるために、
<外16>
Figure 0006278893
などの定数に設定される。その他の値を使用してもよい。
922の動作に関しては、対話型マルチモード画像検索ツールは、
<外17>
Figure 0006278893
の内外のグリッドの意図の一貫性を決定する。グリッド(i、j)におけるk番目の成分に関する意図の一貫性は、以下の数式5で与えられる。
Figure 0006278893
これは、主に
<外18>
Figure 0006278893
内のグリッドに集中するので、正の関連性と呼ばれる。また、対話型マルチモード画像検索ツールは、望ましくない位置(例えば指示された領域の外側)に存在するエンティティにペナルティ評価を付ける(penalize)方式を利用する。対話型マルチモード画像検索ツールは、領域外の各グリッドの関連性を、ペナルティ指数で表す。ペナルティ指数は、以下の数式6によって得ることができる。
Figure 0006278893
これは、
<外19>
Figure 0006278893
の外側のグリッドがペナルティ評価されるので、負の関連性と呼ばれる。これにより、複合的クエリ・キャンバス上の選択された画像の配置およびリファインメントから意図を示す際の不正確さを見込む(例えば、選択された画像は、正確な位置ではなく近似的な位置に位置決めされることがあり、適切にサイズ変更されていないこともある)。したがって、対話型マルチモード画像検索ツールは、各画像パッチ構成要素の位置およびサイズの許容差を維持する。
922において、対話型マルチモード画像検索ツールは、複合的クエリ画像内の各画像パッチ構成要素に対応する対象画像J924内の画像パッチの視覚類似性および生成された意図マップの両方考慮することによって、各画像パッチ構成要素について、正の関連性
<外20>
Figure 0006278893
および負の関連性
<外21>
Figure 0006278893
を計算する。
926で、対話型マルチモード画像検索ツールは、928に示すように(移動ウィンドウ区間を用いて)対象画像J924内の周囲グリッドを考慮することによって、各画像パッチ構成要素について、結合関連性
<外22>
Figure 0006278893
を計算する。
926の動作に関しては、許容差の問題に対処するために、対話型マルチモード画像検索ツールは、サイズがR(k)と同じである移動ウィンドウ区間を使用して、この移動ウィンドウ区間を、
<外23>
Figure 0006278893
内の全てのグリッド(i、j)に中心を合わせて配置する。換言すれば、元の画像パッチ構成要素を、これらの移動ウィンドウ区間上に位置変更して、ある程度の位置許容差を導入する。対話型多モード画像検索ツールは、図9に示すように、これらの移動ウィンドウ区間の間で常にベスト・マッチを探している。その結果として、k番目の画像パッチ構成要素と
<外24>
Figure 0006278893
の間の「正の関連性」および「負の関連性」は、以下の数式7によって計算される。
Figure 0006278893
k番目の画像パッチ構成要素と
<外25>
Figure 0006278893
の間の結合関連性は、以下の数式8によって与えられる。
Figure 0006278893
930で、対話型マルチモード画像検索ツールは、複合的な視覚クエリC902と対象画像J924の間の全体の関連性rを計算する。このようにして、対話型多モード画像検索ツールは、全体の関連性の評価指数に従って、908で戻される画像をランク付けすることができる。
930の動作に関しては、対話型マルチモード画像検索ツールは、それぞれの領域に基づく関連性
<外26>
Figure 0006278893
を得た後で、視覚的記述子の連結をCおよびJの両方の全ての画像パッチ構成要素にわたって比較することによって、CとJの間の全体の関連性を計算する。異なる画像パッチ構成要素の分散を考慮するために、全体の関連性は、以下の数式9に示すようにそれぞれの領域に基づく関連性の平均および分散の両方に感度のある融合関数で与えられる。
Figure 0006278893
数式9において、
<外27>
Figure 0006278893
は、平均関連性であり、γは、ペナルティ評価の程度を制御する正のパラメータである。このようなペナルティ評価は、領域のうちのいくつかに近い対象画像がないとき、またはいくつかの領域は良好にマッチングするが、いくつかの領域はマッチングが不十分であるときに、利用することができる。したがって、本発明に係るいくつかの実施態様では、少なくとも部分的には、課されるペナルティ評価の程度は、様々な領域の関連性マッチングで確認した不一致の量に基づく。本発明に係る少なくとも1つの実施態様では、ペナルティ評価の程度は、経験的に0.8に設定される。
<結論>
モバイル・デバイスを介して利用することができる機能およびデータ・アクセスがますます増加しているこのようなデバイスは、移動しながらますます多くのデータにユーザがアクセスできるようにする個人用のネットサーフィン用コンシェルジュとして機能することができる。モバイル・デバイスによって利用可能となるマルチモード対話機能をレバレッジすることにより、対話型マルチモード画像検索ツールは、既存のクエリ画像を必要とせずに、視覚的検索処理を効果的に実行することができる。
構造的特徴および/または方法論的動作に特有の用語を用いて対話型マルチモード視覚検索システムについて説明したが、本明細書に添付した特許請求の範囲に定義される発明の特徴および動作は、必ずしも本明細書中で上述した特定の特徴または動作に限定されるわけではないことを理解されたい。これらの特定の特徴および動作は、特許請求の範囲を具現化する例示的な形態として開示したものである。

Claims (10)

  1. 計算デバイスを介してクエリ入力内容を受信するステップであって、前記クエリ入力内容は、少なくとも第1のエンティティおよび第2のエンティティを含む、ステップと、
    前記計算デバイスのGPSモジュールから、前記計算デバイスの現在位置の情報を得るステップと、
    前記クエリ入力内容および前記現在位置の前記情報に基づいて、前記現在位置に関連する候補画像群を生成するステップであって、前記候補画像群は、少なくとも、前記第1のエンティティに関連付けられた第1の画像群と、前記第2のエンティティに関連付けられた第2の画像群と、を含む、ステップと、
    前記第1の画像群の中から第1の画像を選択する第1の操作を受信するステップと、
    前記計算デバイスのユーザ・インタフェースを介して、キャンバス上における前記第1の画像の配置に関する第1の指示を受信するステップと、
    前記第2の画像群の中から第2の画像を選択する第2の操作を受信するステップと、
    前記ユーザ・インタフェースを介して、前記キャンバス上における前記第2の画像の配置に関する第2の指示を受信するステップと、
    前記キャンバスに基づいて、視覚的検索処理を実行するためのクエリ画像を作成するステップであって、前記クエリ画像は第1の画像パッチおよび第2の画像パッチを含み、前記第1の画像パッチは前記第1の画像に対応し、前記第2の画像パッチは前記第2の画像に対応し、前記クエリ画像内における前記第1の画像パッチおよび前記第2の画像パッチの相対的な位置は、前記キャンバス上における前記第1の画像および前記第2の画像の相対的な位置に基づく、ステップと、
    前記クエリ画像を用いて前記視覚的検索処理を実行するステップと
    を含む、方法。
  2. 前記クエリ入力内容から前記第1のエンティティおよび前記第2のエンティティを抽出するステップをさらに含む、請求項1に記載の方法。
  3. 前記クエリ画像内における前記第1の画像パッチおよび前記第2の画像パッチの相対的なサイズは、前記キャンバス上における前記第1の画像および前記第2の画像の相対的なサイズに基づく、請求項1または2に記載の方法。
  4. 前記キャンバス上における前記第1の画像および前記第2の画像のうちの少なくとも1つのサイズの変更を指示する入力内容を受信するステップをさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記クエリ入力内容が、音声入力を含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記計算デバイスが、モバイル・デバイスを含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記ユーザ・インタフェースが、タッチ・インタフェースを含む、請求項1から6のいずれか一項に記載の方法。
  8. 前記クエリ画像をメモリに記録するステップをさらに含む、請求項1から7のいずれか一項に記載の方法。
  9. プロセッサおよびメモリを含むシステムであって、請求項1乃至請求項8の中のいずれか一項に記載の方法を実行するように構成されたシステム。
  10. 請求項1乃至請求項8の中のいずれか一項に記載の方法をデバイスに実行させるコンピュータ・プログラム。
JP2014542660A 2011-11-24 2011-11-24 対話型マルチモード画像検索 Active JP6278893B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/082865 WO2013075316A1 (en) 2011-11-24 2011-11-24 Interactive multi-modal image search

Publications (2)

Publication Number Publication Date
JP2014534540A JP2014534540A (ja) 2014-12-18
JP6278893B2 true JP6278893B2 (ja) 2018-02-14

Family

ID=48469015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014542660A Active JP6278893B2 (ja) 2011-11-24 2011-11-24 対話型マルチモード画像検索

Country Status (6)

Country Link
US (1) US9411830B2 (ja)
EP (1) EP2783305A4 (ja)
JP (1) JP6278893B2 (ja)
KR (1) KR20140093957A (ja)
CN (1) CN103946838B (ja)
WO (1) WO2013075316A1 (ja)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5009577B2 (ja) * 2005-09-30 2012-08-22 富士フイルム株式会社 画像検索装置および方法並びにプログラム
US9075825B2 (en) 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
CN103207879B (zh) * 2012-01-17 2016-03-30 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
US10656808B2 (en) * 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US20140156704A1 (en) * 2012-12-05 2014-06-05 Google Inc. Predictively presenting search capabilities
US9483518B2 (en) * 2012-12-18 2016-11-01 Microsoft Technology Licensing, Llc Queryless search based on context
US20140207758A1 (en) * 2013-01-24 2014-07-24 Huawei Technologies Co., Ltd. Thread Object-Based Search Method and Apparatus
US10795528B2 (en) 2013-03-06 2020-10-06 Nuance Communications, Inc. Task assistant having multiple visual displays
US10783139B2 (en) * 2013-03-06 2020-09-22 Nuance Communications, Inc. Task assistant
JP2014186372A (ja) * 2013-03-21 2014-10-02 Toshiba Corp 図絵描画支援装置、方法、及びプログラム
US20140358882A1 (en) * 2013-05-28 2014-12-04 Broadcom Corporation Device content used to bias a search infrastructure
CN104239359B (zh) * 2013-06-24 2017-09-01 富士通株式会社 基于多模态的图像标注装置以及方法
KR101720250B1 (ko) * 2013-07-30 2017-03-27 주식회사 케이티 이미지를 추천하는 장치 및 방법
US20150088923A1 (en) * 2013-09-23 2015-03-26 Google Inc. Using sensor inputs from a computing device to determine search query
KR20150090966A (ko) * 2014-01-29 2015-08-07 삼성전자주식회사 전자 장치 및 전자 장치의 검색 결과 제공 방법
CN104834933B (zh) * 2014-02-10 2019-02-12 华为技术有限公司 一种图像显著性区域的检测方法和装置
KR101864240B1 (ko) * 2014-05-15 2018-06-04 후아웨이 테크놀러지 컴퍼니 리미티드 객체 검색 방법 및 장치
US9916079B2 (en) 2014-06-05 2018-03-13 Openpeak Llc Method and system for enabling the sharing of information between applications on a computing device
US9996623B1 (en) 2014-06-27 2018-06-12 Pubsonic, Inc. Computer-implemented method of carrying out a search for information available over a network
CN105224121B (zh) * 2014-07-03 2017-12-12 深圳Tcl新技术有限公司 密码输入方法及系统
EP3172683A4 (en) * 2014-07-25 2018-01-10 Samsung Electronics Co., Ltd. Method for retrieving image and electronic device thereof
WO2016017987A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Method and device for providing image
US20160063096A1 (en) * 2014-08-27 2016-03-03 International Business Machines Corporation Image relevance to search queries based on unstructured data analytics
TWI571753B (zh) 2014-11-07 2017-02-21 財團法人資訊工業策進會 用於產生一影像之一互動索引碼圖之電子計算裝置、其方法及其電腦程式產品
US10083238B2 (en) * 2015-09-28 2018-09-25 Oath Inc. Multi-touch gesture search
US9959872B2 (en) * 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
US11294957B2 (en) * 2016-02-11 2022-04-05 Carrier Corporation Video searching using multiple query terms
KR101859050B1 (ko) * 2016-06-02 2018-05-21 네이버 주식회사 내용 기반의 지도 이미지 탐색 방법 및 시스템
US11580186B2 (en) * 2016-06-14 2023-02-14 Google Llc Reducing latency of digital content delivery over a network
EP3502840B1 (en) * 2016-08-16 2020-11-04 Sony Corporation Information processing device, information processing method, and program
US12020174B2 (en) 2016-08-16 2024-06-25 Ebay Inc. Selecting next user prompt types in an intelligent online personal assistant multi-turn dialog
US10860898B2 (en) 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
US11004131B2 (en) 2016-10-16 2021-05-11 Ebay Inc. Intelligent online personal assistant with multi-turn dialog based on visual search
US11748978B2 (en) * 2016-10-16 2023-09-05 Ebay Inc. Intelligent online personal assistant with offline visual search database
US10346727B2 (en) * 2016-10-28 2019-07-09 Adobe Inc. Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US10970768B2 (en) * 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
US10650814B2 (en) 2016-11-25 2020-05-12 Electronics And Telecommunications Research Institute Interactive question-answering apparatus and method thereof
WO2018106663A1 (en) * 2016-12-06 2018-06-14 Ebay Inc. Anchored search
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10642887B2 (en) * 2016-12-27 2020-05-05 Adobe Inc. Multi-modal image ranking using neural networks
KR102652362B1 (ko) 2017-01-23 2024-03-29 삼성전자주식회사 전자 장치 및 전자 장치 제어 방법
US10565256B2 (en) 2017-03-20 2020-02-18 Google Llc Contextually disambiguating queries
CN107133257A (zh) * 2017-03-21 2017-09-05 华南师范大学 一种基于中心连通子图的相似实体识别方法及系统
US10408624B2 (en) * 2017-04-18 2019-09-10 Microsoft Technology Licensing, Llc Providing familiarizing directional information
US20180300301A1 (en) * 2017-04-18 2018-10-18 Microsoft Technology Licensing, Llc Enhanced inking capabilities for content creation applications
US10620911B2 (en) * 2017-10-25 2020-04-14 International Business Machines Corporation Machine learning to identify a user interface trace
US10620912B2 (en) * 2017-10-25 2020-04-14 International Business Machines Corporation Machine learning to determine and execute a user interface trace
US10970900B2 (en) * 2018-03-12 2021-04-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20190118108A (ko) * 2018-03-12 2019-10-17 삼성전자주식회사 전자 장치 및 그의 제어방법
CN108632621B (zh) * 2018-05-09 2019-07-02 北京大学深圳研究生院 一种基于层次划分的点云属性压缩方法
KR20200024618A (ko) 2018-08-28 2020-03-09 십일번가 주식회사 이미지 검색 방법 및 이를 위한 장치
KR102634375B1 (ko) 2018-08-31 2024-02-06 구글 엘엘씨 동적 키보드 인터페이스내의 애니메이션 이미지 포지셔닝 방법 및 시스템
CN109348275B (zh) * 2018-10-30 2021-07-30 百度在线网络技术(北京)有限公司 视频处理方法和装置
US11010421B2 (en) * 2019-05-09 2021-05-18 Microsoft Technology Licensing, Llc Techniques for modifying a query image
CN110134808B (zh) * 2019-05-22 2020-06-05 北京旷视科技有限公司 图片检索方法、装置、电子设备及存储介质
TWI735899B (zh) * 2019-06-28 2021-08-11 國立臺北商業大學 具狀況判斷之通話系統及方法
US11048975B2 (en) * 2019-07-17 2021-06-29 Walmart Apollo, Llc Systems and methods for identifying items in a digital image
CN110598739B (zh) * 2019-08-07 2023-06-23 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质
US20220028299A1 (en) * 2019-11-27 2022-01-27 Mariano Garcia, III Educational Puzzle Generation Software
CN113282779A (zh) 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 图像搜索方法、装置、设备
US11645323B2 (en) 2020-02-26 2023-05-09 Samsung Electronics Co.. Ltd. Coarse-to-fine multimodal gallery search system with attention-based neural network models
KR102415366B1 (ko) * 2020-04-02 2022-07-01 네이버 주식회사 서로 다른 모달의 피처를 이용한 복합 랭킹 모델을 통해 연관 이미지를 검색하는 방법 및 시스템
CN113190153A (zh) * 2021-04-26 2021-07-30 中山市云经纪网络科技有限公司 一种房产楼盘竖屏显示交互方法及系统
US11573706B2 (en) 2021-06-07 2023-02-07 Western Digital Technologies, Inc. Data storage device and method for efficient image searching
CN113901177B (zh) * 2021-10-27 2023-08-08 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN114998607B (zh) * 2022-05-11 2023-01-31 北京医准智能科技有限公司 超声图像的特征提取方法、装置、电子设备及存储介质
US20240125609A1 (en) * 2022-10-18 2024-04-18 SparkCognition, Inc. Image-based navigation
KR102539376B1 (ko) * 2022-11-07 2023-06-02 주식회사 드랩 자연어 기반 상품 사진 생성 방법, 서버 및 컴퓨터 프로그램
CN115690556B (zh) * 2022-11-08 2023-06-27 河北北方学院附属第一医院 一种基于多模态影像学特征的图像识别方法及系统
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
US11809688B1 (en) 2023-02-08 2023-11-07 Typeface Inc. Interactive prompting system for multimodal personalized content generation

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579471A (en) * 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US5530793A (en) * 1993-09-24 1996-06-25 Eastman Kodak Company System for custom imprinting a variety of articles with images obtained from a variety of different sources
US5790132A (en) * 1995-12-07 1998-08-04 Object Technology Licensing Corp. Image rendering system with extensible mechanism for providing visual user feedback when an image graphic is selected
US5963670A (en) * 1996-02-12 1999-10-05 Massachusetts Institute Of Technology Method and apparatus for classifying and identifying images
US5913205A (en) * 1996-03-29 1999-06-15 Virage, Inc. Query optimization for visual information retrieval system
US5915250A (en) * 1996-03-29 1999-06-22 Virage, Inc. Threshold-based comparison
US6075905A (en) * 1996-07-17 2000-06-13 Sarnoff Corporation Method and apparatus for mosaic image construction
US5901245A (en) * 1997-01-23 1999-05-04 Eastman Kodak Company Method and system for detection and characterization of open space in digital images
WO1999022318A1 (en) * 1997-10-27 1999-05-06 Massachusetts Institute Of Technology Image search and retrieval system
US6915301B2 (en) * 1998-08-25 2005-07-05 International Business Machines Corporation Dynamic object properties
US7302114B2 (en) * 2000-01-18 2007-11-27 Branders.Com, Inc. Methods and apparatuses for generating composite images
US7032179B2 (en) * 2000-06-12 2006-04-18 Peer Image, Inc. System for creating on a computer display screen composite images from diverse sources
KR100451649B1 (ko) * 2001-03-26 2004-10-08 엘지전자 주식회사 이미지 검색방법과 장치
JP2003196306A (ja) * 2001-12-28 2003-07-11 Canon Inc 画像検索装置及びその方法、プログラム
US8213917B2 (en) 2006-05-05 2012-07-03 Waloomba Tech Ltd., L.L.C. Reusable multimodal application
US7383513B2 (en) * 2002-09-25 2008-06-03 Oracle International Corporation Graphical condition builder for facilitating database queries
US7391424B2 (en) * 2003-08-15 2008-06-24 Werner Gerhard Lonsing Method and apparatus for producing composite images which contain virtual objects
US7400761B2 (en) 2003-09-30 2008-07-15 Microsoft Corporation Contrast-based image attention analysis framework
US7003140B2 (en) * 2003-11-13 2006-02-21 Iq Biometrix System and method of searching for image data in a storage medium
US20050187911A1 (en) * 2004-02-24 2005-08-25 Microsoft Corporation Visual query
JP2006050469A (ja) * 2004-08-09 2006-02-16 Ricoh Co Ltd コンテンツ生成装置、コンテンツ生成方法、プログラムおよび記録媒体
US7853582B2 (en) 2004-08-31 2010-12-14 Gopalakrishnan Kumar C Method and system for providing information services related to multimodal inputs
US7532771B2 (en) * 2004-11-12 2009-05-12 Microsoft Corporation Image processing system for digital collage
US7653261B2 (en) * 2004-11-12 2010-01-26 Microsoft Corporation Image tapestry
US7702681B2 (en) * 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
US8073700B2 (en) * 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US7457825B2 (en) 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
US7865492B2 (en) * 2005-09-28 2011-01-04 Nokia Corporation Semantic visual search engine
JP5009577B2 (ja) * 2005-09-30 2012-08-22 富士フイルム株式会社 画像検索装置および方法並びにプログラム
US7873946B2 (en) * 2006-03-23 2011-01-18 Oracle America, Inc. Scalable vector graphics, tree and tab as drag and drop objects
US20070260582A1 (en) * 2006-05-05 2007-11-08 Inetsoft Technology Method and System for Visual Query Construction and Representation
US8971667B2 (en) * 2006-10-23 2015-03-03 Hewlett-Packard Development Company, L.P. Digital image auto-resizing
JP2008192055A (ja) * 2007-02-07 2008-08-21 Fujifilm Corp コンテンツ検索方法、およびコンテンツ検索装置
US7576755B2 (en) * 2007-02-13 2009-08-18 Microsoft Corporation Picture collage systems and methods
US7657507B2 (en) * 2007-03-02 2010-02-02 Microsoft Corporation Pseudo-anchor text extraction for vertical search
US20100309226A1 (en) * 2007-05-08 2010-12-09 Eidgenossische Technische Hochschule Zurich Method and system for image-based information retrieval
US8260809B2 (en) 2007-06-28 2012-09-04 Microsoft Corporation Voice-based search processing
US8068693B2 (en) * 2007-07-18 2011-11-29 Samsung Electronics Co., Ltd. Method for constructing a composite image
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
US20090070321A1 (en) 2007-09-11 2009-03-12 Alexander Apartsin User search interface
JP2009105769A (ja) * 2007-10-24 2009-05-14 Visionere Corp オーサリングサーバ、オーサリングシステム及びオーサリング方法
CN101159064B (zh) 2007-11-29 2010-09-01 腾讯科技(深圳)有限公司 画像生成系统以及按照图像生成画像的方法
US20090287626A1 (en) * 2008-05-14 2009-11-19 Microsoft Corporation Multi-modal query generation
US20090327236A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Visual query suggestions
US20110078055A1 (en) * 2008-09-05 2011-03-31 Claude Faribault Methods and systems for facilitating selecting and/or purchasing of items
CN101515275A (zh) * 2008-12-17 2009-08-26 无敌科技(西安)有限公司 通过图形特征查询信息的方法
CN102016909A (zh) * 2008-12-19 2011-04-13 松下电器产业株式会社 图像检索装置以及图像检索方法
US9087059B2 (en) * 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US8335784B2 (en) * 2009-08-31 2012-12-18 Microsoft Corporation Visual search and three-dimensional results
US20110196864A1 (en) * 2009-09-03 2011-08-11 Steve Mason Apparatuses, methods and systems for a visual query builder
US8392430B2 (en) 2009-09-23 2013-03-05 Microsoft Corp. Concept-structured image search
US8489641B1 (en) * 2010-07-08 2013-07-16 Google Inc. Displaying layers of search results on a map
EP2418588A1 (en) * 2010-08-10 2012-02-15 Technische Universität München Visual localization method
US9098767B2 (en) * 2011-04-11 2015-08-04 Hewlett-Packard Development Company, L.P. System and method for determining the informative zone of an image
US20140222783A1 (en) * 2011-04-21 2014-08-07 The Trustees Of Columbia University In The City Of New York Systems and methods for automatically determining an improved view for a visual query in a mobile search
US20130114900A1 (en) * 2011-11-07 2013-05-09 Stanford University Methods and apparatuses for mobile visual search
US9009149B2 (en) * 2011-12-06 2015-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for mobile search using Bag of Hash Bits and boundary reranking

Also Published As

Publication number Publication date
JP2014534540A (ja) 2014-12-18
KR20140093957A (ko) 2014-07-29
EP2783305A4 (en) 2015-08-12
CN103946838B (zh) 2017-10-24
US9411830B2 (en) 2016-08-09
WO2013075316A1 (en) 2013-05-30
US20140250120A1 (en) 2014-09-04
CN103946838A (zh) 2014-07-23
EP2783305A1 (en) 2014-10-01

Similar Documents

Publication Publication Date Title
JP6278893B2 (ja) 対話型マルチモード画像検索
US20220075806A1 (en) Natural language image search
US11361018B2 (en) Automatically curated image searching
US11461386B2 (en) Visual recognition using user tap locations
CN108701161B (zh) 为搜索查询提供图像
US8706740B2 (en) Concept-structured image search
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
US8243988B1 (en) Clustering images using an image region graph
US11704357B2 (en) Shape-based graphics search
CN111639228B (zh) 视频检索方法、装置、设备及存储介质
US20140348400A1 (en) Computer-readable recording medium storing program for character input
CN118296173A (zh) 文本配图方法及装置、电子设备和介质
Bankar et al. Multimodal Image Search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141027

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180116

R150 Certificate of patent or registration of utility model

Ref document number: 6278893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250