JP6240916B2 - 視覚的クエリーに応答したテキスト用語の識別 - Google Patents

視覚的クエリーに応答したテキスト用語の識別 Download PDF

Info

Publication number
JP6240916B2
JP6240916B2 JP2015526579A JP2015526579A JP6240916B2 JP 6240916 B2 JP6240916 B2 JP 6240916B2 JP 2015526579 A JP2015526579 A JP 2015526579A JP 2015526579 A JP2015526579 A JP 2015526579A JP 6240916 B2 JP6240916 B2 JP 6240916B2
Authority
JP
Japan
Prior art keywords
image
query
feature values
relevance
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015526579A
Other languages
English (en)
Other versions
JP2015529908A (ja
Inventor
サミー・ベンジオ
デイヴィット・ペトロー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2015529908A publication Critical patent/JP2015529908A/ja
Application granted granted Critical
Publication of JP6240916B2 publication Critical patent/JP6240916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Description

開示された態様は一般に画像処理の分野に関し、特に、視覚的クエリーに応答して1又は複数のテキスト用語(term)を決定することに関する。
テキストベース又は用語ベースのサーチ(ユーザが、サーチエンジンに単語又はフレーズを入力し、かつさまざまな結果を受信する)は、サーチに有用なツールである。用語ベースのクエリーは、単語、フレーズ、および/又は、他の用語の形式で、サーチ用語を明確に提供することをユーザに要求する。時には、ユーザは、物理的な世界でオブジェクトを見て、オブジェクトに関連する情報を突き止めることを望み得る。しかし、サーチエンジンで用語ベースのクエリーに如何なる用語を使用するのかを知りえない。したがって、視覚的クエリー(たとえば、画像)を受信し、かつ、1又は複数の用語を決定するためにそれを使用することができるシステムが望まれている。
一部の態様によれば、1又は複数のプロセッサと、1又は複数のプロセッサによる実行のための1又は複数のプログラムを格納したメモリとを備えたサーバシステム上で、方法が実行される。その方法で、サーバシステムは、クライアントシステムから視覚的クエリーを受信する。サーバシステムは、視覚的クエリーの画像特徴値のセットを生成すること、画像特徴値のセット(複数のテキスト用語内のテキスト用語のそれぞれの重みを含む)を複数のテキスト用語にマッピングすること、テキスト用語の重みに従ってテキスト用語を順位付けすること、および、テキスト用語の順位付けに従って、クライアントシステムへ順位付けされたテキスト用語のうちの1又は複数を送信することによって、視覚的クエリーに応答する。
サーバシステムは、1又は複数のプロセッサと、1又は複数のプロセッサによる実行のための1又は複数のプログラムを格納したメモリとを含む。1又は複数のプログラムは、クライアントシステムから視覚的クエリーを受信することと、視覚的クエリーに、視覚的クエリーの画像特徴値のセットを生成すること、画像特徴値のセット(複数のテキスト用語内のテキスト用語のそれぞれの重みを含む)を複数のテキスト用語にマッピングすること、テキスト用語の重みに従ってテキスト用語を順位付けすること、および、テキスト用語の順位付けに従って、クライアントシステムへ順位付けされたテキスト用語のうちの1又は複数を送信することによって応答することとのための命令を含む。
非一時的なコンピュータ可読記録媒体は、コンピュータ(たとえば、プログラムを実行する1又は複数のプロセッサを含むサーバシステム)による実行用に構成された1又は複数のプログラムを格納する。1又は複数のプログラムは、クライアントシステムから視覚的クエリーを受信することと、視覚的クエリーに、視覚的クエリーの画像特徴値のセットを生成すること、画像特徴値のセット(複数のテキスト用語内のテキスト用語のそれぞれの重みを含む)を複数のテキスト用語にマッピングすること、テキスト用語の重みに従ってテキスト用語を順位付けすること、および、テキスト用語の順位付けに従って、クライアントシステムへ順位付けされたテキスト用語のうちの1又は複数を送信することによって応答することとのための命令を含む。
視覚的クエリーサーバシステムを含むコンピュータネットワークを図示したブロック図である。 一部の実施例によるクライアントシステムを図示したブロック図である。 一部の実施例によるフロントエンド視覚的クエリー処理サーバシステムを図示したブロック図である。 一部の実施例による視覚的クエリーを処理するのに利用される画像から用語へのサーチシステムを図示したブロック図である。 一部の実施例による画像特徴をテキスト用語にマッピングすることにより画像関連性モデルをトレーニングするプロセスを図示したフローチャートである。 一部の実施例による画像特徴をテキスト用語にマッピングすることにより画像関連性モデルをトレーニングする例のデータ構造を図示したブロック図である。 図7Aおよび図7Bは、一部の実施例による視覚的クエリーに応答して1又は複数のテキスト用語を決定するプロセスを図示したフローチャートである。 一部の実施例による例の視覚的クエリーのスクリーンショットを含むクライアントシステムである。 一部の実施例によるテキスト用語のリストと同時に表示されるインタラクティブ結果ドキュメントおよび視覚的クエリーのスクリーンショットである。 一部の実施例による対応した画像と同時に表示されるテキスト用語のリストのスクリーンショットである。 一部の実施例によるラベルを有するインタラクティブ結果ドキュメントのスクリーンショットを含むクライアントシステムである。
添付図面に図示された例は実施例を詳細に説明する。以下の詳細な説明において、多数の特定の詳細が実施例の完全な理解を提供するために述べられる。しかし、さまざまな実施例がこれらの特定の詳細なしに実施され得ることは当業者には明らかである。他の例において、周知の方法、手順、コンポーネント、回路、およびネットワークは、実施例の態様を不必要に曖昧にしないように、詳細に説明されていない。
また、用語(第1、第2など)はさまざまな要素を説明するために本明細書に使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことが理解される。これらの用語は、ある要素を別の要素から区別するためだけに使用される。たとえば、「第1のコンタクト」のすべての出現が一貫して名称変更され、かつ、「第2のコンタクト」のすべての出現が一貫して名称変更される限りは、説明の意味を変えることなく、第1のコンタクトが第2のコンタクトと称され、同様に、第2のコンタクトが第1のコンタクトと称され得る。第1のコンタクトと第2のコンタクトとは両方ともコンタクトであるが、それらは同じコンタクトではない。
本明細書の実施例の説明で使用される用語は、特定の実施例を説明するためのものであり、特許請求の範囲を限定することを意図するものではない。実施例および添付の特許請求の範囲の記載において使用される場合、単数形「a」、「an」、および「the」は、文脈が明らかに別な方法を示さない限り、複数形も含むことを意図している。また、本明細書で使用される用語「および/又は」は、関連するリスト化されたアイテムのうちの1又は複数のいずれかおよびすべての可能な組合せを指し、かつ包含することが理解される。さらに、本明細書で使用される場合の「comprises」および/又は「comprising」という用語は、述べられた特徴、整数、ステップ、動作、要素、および/又は構成要素の存在を特定するが、1又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、および/又はそれらの群の存在又は付加を排除するものではないことが理解される。
本明細書で使用されるように、用語「場合(if)」は、文脈に応じて、「時(when)」又は「すると(upon)」又は「決定に応答して(in response to determining)」又は「検出に応答して(in response to detecting)」を意味すると解釈することができる。同様に、「決定された場合」又は「(述べられた条件又は事象が)検出された場合」という句は、文脈に応じて、「決定すると」又は「決定に応答して」又は「(述べられた条件又は事象を)検出すると」又は「(述べられた条件又は事象の)検出に応答して」を意味すると解釈することができる。
図1は、一部の実施例による視覚的クエリーサーバシステムを含むコンピュータネットワークを図示したブロック図である。コンピュータネットワーク100は、1又は複数のクライアントシステム102と視覚的クエリーサーバシステム106とを含む。1又は複数の通信ネットワーク104が、これらのコンポーネントを相互接続する。通信ネットワーク104は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ネットワーク、有線ネットワーク、インターネット、又は、そのようなネットワークの組み合わせを含む多様なネットワークのいずれかであり得る。
クライアントシステム102は、視覚的クエリー(たとえば、図8の視覚的クエリー802)を受信するために、クライアントシステムによって実行されるクライアントアプリケーション108を含む。視覚的クエリーは、サーチエンジン又はサーチシステムへクエリーとして提出されている画像である。視覚的クエリーの例は、写真、スキャンしたドキュメントおよび画像、および図面を含んでいるが、これに限定されない。一部の実施例では、クライアントアプリケーション108は、サーチアプリケーション、ブラウザアプリケーションのためのサーチエンジンプラグイン、および、ブラウザアプリケーションのためのサーチエンジンエクステンションを含むセットから選択される。一部の実施例では、クライアントアプリケーション108は、ユーザが視覚的クエリーとして使用されるサーチボックスにどんなフォーマットの画像でも、ドラッグアンドドロップすることができる「雑食性(omnivorous)」サーチボックスである。
クライアントシステム102は、視覚的クエリーサーバシステム106へクエリーを送信し、かつ、視覚的クエリーサーバシステム106からデータを受信する。クライアントシステム102は、視覚的クエリーサーバシステム106と通信することができるコンピュータ又は他のデバイスであり得る。実施例は、デスクトップおよびノートブック型コンピュータ、メインフレームコンピュータ、サーバコンピュータ、モバイルデバイス(たとえば、携帯電話およびパーソナルデジタルアシスタント)、ネットワーク端末、およびセットトップボックスを含んでいるが、これに限定されない。
視覚的クエリーサーバシステム106は、フロントエンド視覚的クエリー処理サーバ110を含む。フロントエンドサーバ110は、クライアント102から視覚的クエリーを受信し、かつ、同時処理のために、複数の並列サーチシステム112へ視覚的クエリーを送信する。サーチシステム112は、それぞれ個別の視覚的クエリーサーチ処理を実現し、かつ、その個別のサーチ処理による視覚的クエリーを処理するために、必要に応じて、それらに対応するデータベース114にアクセスする。たとえば、顔認識サーチシステム112-Aは、顔画像データベース114-Aにアクセスして、画像クエリーに対する顔のマッチ(facial match)を探す。視覚的クエリーが顔を含む場合、顔認識サーチシステム112-Aは、顔画像データベース114-Aから1又は複数のサーチ結果(たとえば、名前、マッチングした顔など)をリターンする。別の例では、光学式文字認識(OCR)サーチシステム112-Bが、1又は複数のサーチ結果としてのリターンのために、視覚的クエリー内の認識可能なテキストをテキストに変換する。光学式文字認識(OCR)サーチシステム112-Bでは、OCRデータベース114-Bは、特定のフォント又はテキストパターンを認識するためにアクセスされ得る。
どんな数の並列サーチシステム112を使用してもよい。一部の実施例は、顔認識サーチシステム112-A、OCRサーチシステム112-B、画像から用語への(image-to-term)サーチシステム112-C(オブジェクト又はオブジェクトカテゴリを認識してもよい)、製品認識サーチシステム(ブックカバーやCDなどの2D画像を認識するように構成してもよく、かつ、家具のような3D画像を認識するように構成してもよい)、バーコード認識サーチシステム(1Dおよび2Dスタイルのバーコードを認識する)、名称付きエンティティ認識サーチシステム、ランドマーク認識(エッフェル塔のような特定の有名なランドマークを認識するように構成してもよく、かつ、ビルボードのような指定の画像のコーパスを認識するように構成してもよい)、クライアントシステム102又は携帯電話ネットワークにおけるGPS受信機によって提供される地理位置情報により支援された場所認識、色認識サーチシステム、および、類似の画像サーチシステム(視覚的クエリーに類似する画像をサーチおよび特定する)を含む。さらなるサーチシステムを、システム112-Nにより図1に示される追加の並列サーチシステムとして加えることができる。サーチシステムのすべて(OCRサーチシステムを除く)は、集合的に、画像マッチ処理を実行するサーチシステムとして本明細書に定義される。OCRサーチシステムを含むサーチシステムのすべてを総称して、画像によるクエリーのサーチシステム(query-by-image search system)と称す。一部の実施例では、視覚的クエリーサーバシステム106は、顔認識サーチシステム112-A、OCRサーチシステム112-B、画像から用語へのサーチシステム114-C、および、少なくとも1つの他の画像によるクエリーのサーチシステム112を含む。
並列サーチシステム112は、それぞれ個別に、視覚的サーチクエリーを処理し、かつ、フロントエンドサーバシステム110にその結果をリターンする。一部の実施例では、フロントエンドサーバ100は、サーチ結果に関する1又は複数の分析を実行してもよい(図3を関連してより詳細に説明されるように、たとえば、複合ドキュメントに結果を集約すること、表示する結果のサブセットを選択すること、および、結果を順位付けすることのうちの1又は複数)。フロントエンドサーバ110は、クライアントシステム102へサーチ結果を通信する。
クライアントシステム102は、ユーザに1又は複数のサーチ結果を提示する。結果は、オーディオスピーカ、又はユーザに情報を通信するために使用される他の手段により、ディスプレイ上に提示され得る。ユーザは、さまざまな方法で、サーチ結果と相互作用してもよい。一部の実施例では、ユーザの選択、注釈、および、サーチ結果との他の相互作用が、視覚的クエリーサーバシステム106に送信され、かつ、クエリーおよび注釈データベース116に視覚的クエリーとともに記録される。クエリーおよび注釈データベース内の情報を使用して、視覚的クエリーの結果を改善することができる。一部の実施例では、クエリーおよび注釈データベース116からの情報は、定期的に、並列サーチシステム112にプッシュされる(それぞれの個々のデータベース114へ情報の関連部分を組み込む)。
コンピュータネットワーク100は、選択的に、用語クエリーに応答してサーチを実行するための用語クエリーサーバシステム118を含んでいる。用語クエリーは、画像が含まれている視覚的クエリーとは対照的に、1又は複数の用語を含むクエリーである。用語クエリーサーバシステム118を使用して、視覚的クエリーサーバシステム106のさまざまなサーチエンジンにより生成された情報を補うサーチ結果を生成してもよい。用語クエリーサーバシステム118からリターンされた結果は、どんなフォーマットを含んでもよい。用語クエリーサーバシステム118は、テキストドキュメント、画像、ビデオなどを含んでもよい。用語クエリーサーバシステム118は、図1に別個のシステムとして示されているが、選択的に、視覚的クエリーサーバシステム106は、用語クエリーサーバシステム118を含んでもよい。
視覚的クエリーサーバシステム106の動作についての追加情報が、図5および図7のフローチャートに関連して以下に提供される。
図2は、一部の実施例によるクライアントシステム102を図示したブロック図である。一般に、クライアントシステム102は、1又は複数の処理ユニット(CPU)202と、1又は複数のネットワーク又は他の通信インターフェース204と、メモリ212と、これらのコンポーネントを相互接続する1又は複数の通信バス214とを含む。通信バス214は、選択的に、システムコンポーネント間の通信を相互接続および制御する回路(チップセットと称されるときもある)を含む。クライアントシステム102は、ユーザインターフェース205を含む。ユーザインターフェース205は、ディスプレイデバイス206を含み、かつ、選択的に、入力手段(たとえば、キーボード、マウス、又は他の入力ボタン208)を含む。代わりに、又は、加えて、ディスプレイデバイス206は、タッチセンシティブ面(touch sensitive surface)209を含み、その場合、ディスプレイ206/209は、タッチセンシティブディスプレイである。タッチセンシティブディスプレイ206/209を含むクライアントシステムで、物理キーボードはオプションである(たとえば、ソフトキーボードを、キーボードエントリが必要とされるときに表示してもよい)。さらに、一部のクライアントシステムは、マイクおよび音声認識を使用して、キーボードを補うか、又は、キーボードを置き換える。選択的に、クライアント102は、GPS(全地球測位システム)受信機(又は、クライアントシステム102の位置を決定する他の位置検出装置207)を含む。一部の実施例では、視覚的クエリーサーチサービスが設けられて、クライアントシステム102に要求して、視覚的クエリーサーバシステムを提供し、クライアントシステム102の位置を示す位置情報を受信する。
また、クライアントシステム102は、カメラ又はスキャナなどの画像取得デバイス210を含む。メモリ212は、DRAM、SRAM、DDR RAM又は他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリを含み、かつ、1又は複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、又は他の不揮発性固体記憶装置などの不揮発性メモリを含んでもよい。メモリ212は、選択的に、CPU(複数可)202から遠隔に配置された1又は複数の記憶装置を含んでもよい。メモリ212(又は代わりに、メモリ212内の不揮発性メモリデバイス(複数可))は、非一時的なコンピュータ可読記録媒体を含む。一部の実施例では、メモリ212又はメモリ212のコンピュータ可読記録媒体は、以下のプログラム、モジュールおよびデータ構造、又はそのサブセットを格納する。
さまざまな基本システムサービスを扱うための、かつ、ハードウェア依存タスクを実行するための手順を含むオペレーティングシステム216
1又は複数の通信ネットワークインターフェース204(有線又は無線)および1又は複数の通信ネットワーク(たとえば、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなど)を介して、他のコンピュータへクライアントシステム102を接続するのに使用されるネットワーク通信モジュール218
画像取得デバイス/カメラ210により取得された各画像を処理する画像取得モジュール220。各画像は視覚的クエリーサーバシステムへ視覚的クエリーとして送信され得る(たとえば、クライアントアプリケーションモジュールによって)。
視覚的クエリーサーバシステムへ視覚的クエリーを提出する画像によるクエリー(query-by-image)の提出モジュール224と、選択的に、画像内の関心領域の選択(たとえば、タッチセンシティブディスプレイ206/209でのジェスチャ)を検出し、かつ、その関心領域を視覚的クエリーとして準備する関心領域選択モジュール225と、視覚的クエリーの結果を表示する結果ブラウザ226と、選択的に、書式に記入するような構造化注釈テキストエントリ230、又は、多様なフォーマットの注釈を許可することができる自由形式注釈テキストエントリ232、および、ユーザが注釈のための画像の特定のサブ部分を選択できるようにする画像領域選択モジュール234(結果選択モジュールと本明細書で称されるときもある)のためのオプションのモジュールを有する注釈モジュール228とを含んでいるが、これに限定されない画像によりクエリーを行うことのさまざまな態様を扱う1又は複数のクライアントアプリケーションモジュール222
画像取得デバイス210を介して画像を取得するだけというよりはむしろ、ユーザが画像を生成又は編集することによって視覚的クエリーを生み出すことができる選択的なコンテンツオーサリングアプリケーション(複数可)236。選択的に、そのようなアプリケーション236のうちの1つは、ユーザが、視覚的クエリーとして使用するために画像のサブ部分を選択することができる命令を含んでもよい。
視覚的クエリーサーバシステムに視覚的クエリーを送信する前に、視覚的クエリーを前処理するオプションのローカル画像分析モジュール238。ローカル画像分析は、画像の特定のタイプ(又は、画像内のサブ領域)を認識してもよい。そのようなモジュール238によって認識され得る画像タイプの例は、顔タイプ(視覚的クエリー内で認識された顔画像)、バーコードタイプ(視覚的クエリー内で認識されたバーコード)、および、テキストタイプ(視覚的クエリー内で認識されたテキスト)のうちの1又は複数を含む。
追加のオプションのクライアントアプリケーション240(たとえば、電子メールアプリケーション、電話アプリケーション、ブラウザアプリケーション、マッピングアプリケーション、インスタントメッセージングアプリケーション、ソーシャルネットワーキングアプリケーションなど)。一部の実施例では、アクショナブルサーチ結果(actionable search result)が選択されたとき、適切なアクショナブルサーチ結果に対応するアプリケーションを起動することができ、又は、それにアクセスすることができる。
選択的に、(ユーザは注釈のために画像の特定のサブ部分を選択することができる)画像領域選択モジュール234も、ユーザは、必ずしもさらにそれに注釈を付けることなく、「正しい」ヒットとして、サーチ結果を選択することができる。たとえば、ユーザは、上位N個の数の顔認識のマッチを提示され、かつ、その結果リストから正しい人物を選択してもよい。一部のサーチクエリーについて、1つより多くの結果のタイプが提示され、かつ、ユーザは、結果のタイプを選択する。たとえば、画像クエリーは、樹木の隣に立っている人を含んでもよいが、人に関する結果のみがユーザに関心がある。したがって、画像選択モジュール234によって、ユーザは、どの画像のタイプが「正しい」タイプ(すなわち、ユーザが受信するのに興味を持っているタイプ)であるかを示すことができる。また、ユーザは、(フォームに入力するための)注釈テキストエントリモジュール230又は自由形式の注釈テキストエントリモジュール232のいずれかを使用して、個人のコメント又は記述の単語を追加することにより、サーチ結果に注釈を付けることを望み得る。
一部の実施例では、オプションのローカル画像分析モジュール238は、クライアントアプリケーションの一部である(108、図1)。さらに、一部の実施例において、オプションのローカル画像分析モジュール238は、視覚的クエリー又はその一部を前処理するか、又は分類するためにローカル画像分析を実行するための1又は複数のプログラムを含む。たとえば、クライアントアプリケーション222は、サーチエンジンに視覚的クエリーを提出する前に、画像がバーコード、顔、又はテキストを含むことを認識してもよい。一部の実施例では、ローカル画像分析モジュール238が、視覚的なクエリーが画像の特定のタイプを含むことを検出したときに、モジュールは、ユーザに、サーチ結果の対応するタイプに興味があるか否かを尋ねる。たとえば、ローカル画像分析モジュール238は、(すなわち、人物の顔を判断することなく)その一般的な特性に基づいて顔を検出してもよく、かつ、視覚的クエリーサーバシステムにクエリーを送信する前に、ユーザに即座にフィードバックを提供する。それは「顔が検出されました。あなたは、この顔のために顔認識マッチを行うことに興味を持っていますか?」のような結果をリターンしてもよい。これは視覚的クエリーサーバシステムのために時間節約し得る(106、図1)。一部の視覚的クエリーについて、フロントエンド視覚的クエリー処理サーバ(110、図1)は、単に、ローカル画像分析モジュール238によって認識された画像のタイプに対応するサーチシステム112へ視覚的クエリーを送信する。他の実施例では、サーチシステム112への視覚的クエリーは、すべてのサーチシステム112A〜Nへ視覚的クエリーを送信するが、ローカル画像分析モジュール238によって認識された画像のタイプに対応するサーチシステム112からの結果に順位を付ける。一部の実施例では、ローカル画像分析が視覚的クエリーサーバシステムの動作に影響する方法は、クライアントシステムの構成、又は、ユーザ又はクライアントシステムのいずれかに関連付けられた構成又は処理パラメータに依存する。さらに、特定の視覚的クエリーおよびローカル画像分析により生成された結果の実際の内容は、異なる視覚的クエリーが、クライアントシステムおよび視覚的クエリーサーバシステムのうちのいずれか又は両方で、異なって扱われるようにし
てもよい。
一部の実施例では、バーコード認識は2つのステップで実行される(視覚的クエリーが、ローカル画像分析モジュール238においてクライアントシステム上で実行されるバーコードを含むか否かの分析を含む)。次いで、視覚的クエリーがバーコードを含む可能性が高いとクライアントが決定した場合のみ、視覚的クエリーはバーコードサーチシステムへ渡される。他の実施例では、バーコードサーチシステムは、すべての視覚的クエリーを処理する。
図3は、一部の実施例によるフロントエンド視覚的クエリー処理サーバシステム110を図示したブロック図である。一般に、フロントエンドサーバ110は、1又は複数の処理ユニット(CPU)302と、1又は複数のネットワーク又は他の通信インターフェース304と、メモリ312と、これらのコンポーネントを相互接続する1又は複数の通信バス314とを含む。選択的に、通信バス314は、システムコンポーネント間の通信を相互接続および制御する回路(チップセットと称されることがある)を含む。メモリ312は、DRAM、SRAM、DDR RAM又は他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリを含み、かつ、1又は複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、又は他の不揮発性固体記憶装置などの不揮発性メモリを含んでもよい。選択的に、メモリ312は、CPU(複数可)302から遠隔に配置された1又は複数の記憶装置を含んでもよい。メモリ312(又は代わりに、メモリ312内の不揮発性メモリデバイス(複数可))は、非一時的なコンピュータ可読記録媒体を含む。一部の実施例では、メモリ312又はメモリ312のコンピュータ可読記録媒体は、次のプログラム、モジュールおよびデータ構造、又は、そのサブセットを格納する。
さまざまな基本システムサービスを扱うための、かつ、ハードウェア依存タスクを実行するための手順を含むオペレーティングシステム316
1又は複数の通信ネットワークインターフェース304(有線又は無線)および1又は複数の通信ネットワーク(たとえば、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなど)を介して、他のコンピュータへフロントエンドサーバシステム110を接続するのに使用されるネットワーク通信モジュール318
クライアントシステム102からの入力視覚的クエリーを扱い、かつ、2つ以上の並列サーチシステムへそれらを送信するためのクエリーマネージャ320。本明細書の他の箇所に記載されたように、一部の特別な状況では(たとえば、視覚的クエリーがクライアントにより生成された命令を含むとき(たとえば、「顔認識サーチのみ」))、視覚的クエリーは、サーチシステムのうちのただ1つに向けられる。
1又は複数の並列サーチシステムからの結果を選択的にフィルタリングし、かつ、表示のため、クライアントシステム102へ上位又は「関連」結果を送信するための結果フィルタリングモジュール322
1又は複数の並列サーチシステムからの結果を選択的に順位付けし、かつ、表示のため、結果をフォーマットするための結果順位付けおよびフォーマットモジュール324
適切な場合に使用され、インタラクティブサーチ結果ドキュメントを生成するための結果ドキュメント生成モジュール326。モジュール326は、境界ボックス生成モジュール328およびリンク生成モジュール330を含んでいるが、これに限定されないサブモジュールを含んでもよい。
視覚的クエリーの各サブ部分の視覚的識別子であるラベルを生成するためのラベル生成モジュール331
ユーザから注釈を受信し、かつ、それらを注釈データベース116へ送信するための注釈モジュール332
視覚的クエリーに応答して、クライアントサイドアクションを起動するようにそれぞれ構成された1又は複数のアクショナブルサーチ結果要素を生成するためのアクショナブルサーチ結果モジュール338。アクショナブルサーチ結果要素の例は、電話の呼び出しを開始し、電子メールメッセージを開始し、住所をマッピングし、レストランを予約し、かつ、製品を購入するための選択肢を提供するボタンである。
データベースそれ自体334およびデータベースへのインデックス336を含むクエリーおよび注釈データベース116
結果順位付けおよびフォーマットモジュール324は、1又は複数の並列サーチシステム(図1の112-A〜112-N)からリターンされた結果に順位を付ける。すでに述べたとおり、一部の視覚的クエリーについて、1つのサーチシステムからの結果のみが関連してもよい。そのような例では、その1つのサーチシステムからの関連サーチ結果のみが順位付けされる。一部の視覚的クエリーについて、サーチ結果のいくつかのタイプが関連してもよい。これら例では、一部の実施例では、結果順位付けおよびフォーマットモジュール324は、関連のより少ないサーチシステムに対する結果より上に、最も関連のある結果(たとえば、最も高い関連スコアを有する結果)を有するサーチシステムからの結果のすべてに順位を付ける。他の実施例では、結果順位付けおよびフォーマットモジュール324は、残りの結果より上に、各関連サーチシステムからの上位結果を順位付ける。一部の実施例では、結果順位付けおよびフォーマットモジュール324は、サーチ結果のそれぞれに対して演算される関連スコアに従って、結果に順位を付ける。一部の視覚的クエリーについて、並列視覚的サーチシステムでのサーチに加えて、拡張テキストクエリーが実行される。一部の実施例では、テキストクエリーも実行されるとき、それらの結果が、視覚的サーチシステム結果とは視覚的に区別された方法で提示される。
また、結果順位付けおよびフォーマットモジュール324は、結果をフォーマットする。一部の実施例では、結果はリストフォーマットで提示される。一部の実施例では、結果はインタラクティブ結果ドキュメントによって提示される。一部の実施例では、インタラクティブ結果ドキュメントおよび結果のリストの両方が提示される。一部の実施例では、クエリーのタイプは、結果が提示される方法に影響する。たとえば、1つより多くのサーチ可能なテーマが視覚的クエリー内で検出された場合、インタラクティブ結果ドキュメントが生成され、一方で、単に1つのサーチ可能なテーマが検出された場合、結果はリストフォーマットのみで表示される。
ラベル生成モジュールを使用して、視覚的クエリー内の1又は複数の画像に対するラベルを生成する。一部の実施例では、1又は複数のテキスト用語が視覚的クエリー内の1又は複数の画像に対応すると判断されるとき、ラベル生成モジュール331は、用語を使用して、視覚的クエリー内の画像(複数可)にラベルを付ける。一部の実施例では、ユーザがラベルをクリックしたとき、用語ベースのクエリーがその用語のために起動される。他の実施例では、ラベルは、ラベルを付けられた用語に関連付けられた用語ベースのクエリーに対する結果へのリンクである。これらの実施例では、ラベルは、以下に説明されるインタラクティブ結果ドキュメントの一部である。
結果ドキュメント生成モジュール326を使用して、インタラクティブサーチ結果ドキュメント(その例は図11に示されている)を生成する。インタラクティブサーチ結果ドキュメントは、1又は複数の検出およびサーチされたテーマを有してもよい。境界ボックス生成モジュール328は、サーチされるテーマのうちの1又は複数の周りに境界ボックスを生成する。境界ボックスは、矩形のボックスであってもよく、又は、テーマ(複数可)の形(複数可)の輪郭を描いてもよい。リンク生成モジュール330は、インタラクティブサーチ結果ドキュメント内の各テーマに関連付けられたサーチ結果へのリンクを生成する。一部の実施例では、サーチされるテーマは、視覚的クエリー内の画像に対応する1又は複数のテキスト用語に関連付けられている。一部の実施例では、境界ボックス領域内をクリックすることが、リンク生成モジュールによって挿入された対応するリンクをアクティブにする。
クエリーおよび注釈データベース116は、視覚的クエリー結果を改善するのに使用することができる情報を含む。一部の実施例では、視覚的クエリー結果が提示された後に、ユーザが画像に注釈を付けてもよい。さらに、一部の実施例では、画像を視覚的クエリーサーチシステムへ送信する前に、ユーザは画像に注釈を付けてもよい。事前の注釈は、結果に集中することによって視覚的クエリー処理を助け得る(又は、視覚的クエリーサーチと並列に注釈の付いた単語に対して、テキストベースのサーチを実行する)。一部の実施例では、潜在的な画像マッチヒットとしてリターンされるように、写真の注釈の付いたバージョンを公表することができる(たとえば、ユーザが、たとえば、画像および注釈(複数可)を公開であると指定することによって、公開に対する許可を与えているとき)。たとえば、ユーザが、花の写真を撮り、かつ、その花について詳細な属および種情報を与えることによって、画像に注釈を付ける場合、ユーザは、その花を探す視覚的クエリーサーチを実行する誰に対しても、その画像が提示されることを所望し得る。一部の実施例では、クエリーおよび注釈データベース116からの情報は、並列サーチシステムへ定期的にプッシュされ、(存在すれば)情報の関連部分をそのそれぞれの個別データベース114に組み込む。
図4は、一部の実施例による視覚的クエリーを処理するのに利用される画像から用語へ(image-to-term)のサーチシステム112-Cを図示したブロック図である。一部の実施例では、画像から用語へのサーチシステムは、視覚的クエリー内のオブジェクトを認識する(インスタンス認識)。他の実施例では、画像から用語へのサーチシステムは、視覚的クエリー内のオブジェクトカテゴリを認識する(タイプ認識)。一部の実施例では、画像から用語へのシステムは、オブジェクトおよびオブジェクトカテゴリの両方を認識する。画像から用語へのサーチシステムは、視覚的クエリー内の画像について、潜在的な用語マッチをリターンする。一般に、画像から用語へのサーチシステム112-Cは、1又は複数の処理ユニット(CPU)402と、1又は複数のネットワーク又は他の通信インターフェース404と、メモリ412と、これらのコンポーネントを相互接続する1又は複数の通信バス414とを含む。選択的に、通信バス414は、システムコンポーネント間の通信を相互接続および制御する回路(チップセットと称されることがある)を含む。メモリ412は、DRAM、SRAM、DDR RAM又は他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリを含み、かつ、1又は複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、又は他の不揮発性固体記憶装置などの不揮発性メモリを含んでもよい。選択的に、メモリ412は、CPU(複数可)402から遠隔に配置された1又は複数の記憶装置を含んでもよい。メモリ412(又は代わりに、メモリ412内の不揮発性メモリデバイス(複数可))は、非一時的なコンピュータ可読記録媒体を含む。一部の実施例では、メモリ412又はメモリ412のコンピュータ可読記録媒体は、次のプログラム、モジュールおよびデータ構造、又は、そのサブセットを格納する。
さまざまな基本システムサービスを扱うための、かつ、ハードウェア依存タスクを実行するための手順を含むオペレーティングシステム416
1又は複数の通信ネットワークインターフェース404(有線又は無線)および1又は複数の通信ネットワーク(たとえば、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなど)を介して、他のコンピュータへ画像から用語へのサーチシステム112-Cを接続するのに使用されるネットワーク通信モジュール418
視覚的クエリーおよび他の画像から画像特徴値を抽出する画像特徴識別子419
画像関連性モデルデータベース442からの画像関連性モデルを使用して、1又は複数の用語へ視覚的クエリーからの画像特徴値をマッピングする画像から用語へのサーチアプリケーション420
テキストクエリーのために画像関連性モデルを格納する画像関連性モデルデータベース422(視覚的クエリーに関連する用語を見つけ出すために、画像から用語へのサーチアプリケーション420によってサーチされる)
画像から用語へのサーチアプリケーション420で識別された視覚的クエリーに関連する用語の順位を付ける結果順位付けおよびフォーマットモジュール424
テキストベースのクエリーサーチエンジン406からのテキストクエリーに応答して画像をサーチし、かつ、そのようなサーチを記録するオプションの用語から画像へのサーチアプリケーション425
注釈データベース(図1の116)から注釈情報を受信し、注釈情報のいずれかが画像から用語へのサーチシステム112-Cに関連するか否かを判断し、かつ、判断された注釈情報の関連部分を各注釈データベース428に格納する注釈モジュール426
図2〜4は、本明細書に記載の実施例の構造概略としてよりも、コンピュータシステムのセットに存在するさまざまな特徴の機能説明となることをより意図している。実際に、かつ当業者によって認識されるように、別々に示されるアイテムを組み合わせることができ、かつ、一部のアイテムを分離することができる。たとえば、これらの図に別々に示された一部のアイテムは、単一のサーバ上で実現することができ、かつ、単一のアイテムは、1又は複数のサーバによって実現することができる。視覚的クエリー処理を実現するのに使用されるシステムの実際の数、および、特徴がそれらの間でどのように割り当てられるかは、実施例それぞれに異なる。
一般に、本明細書に記載の方法のそれぞれは、非一時的なコンピュータ可読記録媒体に記憶され、1又は複数のサーバ又はクライアントの1又は複数のプロセッサによって実行される命令によって決定される。上記の識別されたモジュール又はプログラム(すなわち、命令セット)は、個別のソフトウェアプログラム、手順又はモジュールとして実現される必要はなく、したがって、これらのモジュールのさまざまなサブセットが組み合わされ、そうでなければ、様々な実施例において、再配置される。図5〜10に示す各動作は、コンピュータメモリ又は非一時的なコンピュータ可読記録媒体に格納された命令に対応してもよい。
図5は、一部の実施例による画像特徴をテキスト用語にマッピングすることにより画像関連性モデルをトレーニングするプロセスを図示したフローチャートである。図5に示された動作のそれぞれは、コンピュータメモリ又はコンピュータ可読記録媒体に格納された命令に対応してもよい。
ログ又は画像結果のテキストクエリーの記録が、アクセスされる(502)。画像から用語へのサーバ112-Cが、画像のテキストサーチのログにアクセスする(たとえば、用語から画像へのサーチアプリケーション425により生成されたログ)。ログは、画像サーチに使用されるクエリー用語に関する情報を含む(および、各クエリー用語について、サーチ結果からユーザにより選択された画像)。
ログ内の上位N個のクエリー用語が識別される(504)。動作502でアクセスされるログにドキュメント化されたように、画像クエリーで使用されるN個のユニークなクエリー用語(又は、N個の画像クエリー)が、識別される(Nは整数である)。一般に、Nは100より大きい。一部の実施例では、Nは5,000から30,000の範囲の整数である。一部の実施例では、N個のクエリー用語は、ログにドキュメント化されたように、ログ内の出現数に基づき識別され、識別されるN個のクエリー用語は、定義された期間の範囲(たとえば、3カ月)にわたり画像クエリーに最も頻繁に現れる用語である。
上位N個のクエリー用語の各クエリー用語について、代表的な画像が識別される(506)。一部の実施例では、それぞれのクエリー用語のための代表的な画像は、クエリーとしてそれぞれのクエリー用語を使用した画像のためのテキストサーチのサーチ結果において、あらかじめ定義された数の上位画像(たとえば、クエリーへの関連性に基づいた最も高く順位付けされた画像)である。たとえば、それぞれのクエリー用語を使用した画像のサーチが、用語から画像サーチへのアプリケーション425で実行され、かつ、サーチ結果の上位部分が識別される。一部の他の実施例では、動作502でアクセスされたログにドキュメント化されているように、代表的な画像は、それぞれのクエリー用語を使用した画像サーチのためのサーチ結果から、最も頻繁に、ユーザによって選択された画像である。
それぞれの代表画像について、関連した画像特徴値が抽出される(508)。たとえば、画像特徴識別子419は、各代表画像の画像特徴値を抽出してもよい。一部の実施例では、画像特徴値は、画像の一部の視覚特性である。画像特徴値の例には、色ヒストグラム値、輝度値、エッジ統計値、テクスチャ値などを含む。画像特徴値を抽出することに関するさらなる詳細は、2009年7月17日に出願され、発明の名称を「Image Relevance Model」とする米国特許出願番号_に開示されており(代理人整理番号16113-1606001)、その全体が参照により本明細書に組み込まれる。
機械学習が、上位N個のクエリー用語のそれぞれの画像関連性モデルを生成するために適用される(510)。一部の実施例では、画像関連性モデルは、クエリー用語への対応する画像特徴の相対的な重要性を表す重みのベクトルである(512)。それぞれのクエリー用語について、機械学習は、それぞれのクエリー用語のための画像関連性モデルをトレーニング(および生成)するために、それぞれのクエリー用語のための代表画像の抽出された画像特徴値に適用される。一部の実施例では、画像関連性モデルは、画像検索のためのパッシブアグレッシブモデル(PAMIR)として実現され、その例は、「A Discriminative Kernel-Based Model to Rank Images from Text Queries」(D. GrangierおよびS. Bengio, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30 (2008), pp. 1371-1384)に開示され、背景情報として、その全体が参照により本明細書に組み込まれる。画像関連性モデルをトレーニングおよび生成することに関するさらなる詳細は、2009年7月17日に出願され、発明の名称を「Image Relevance Model」とする米国特許出願番号_に開示されており(代理人整理番号16113-1606001)、上記の参照により組み込まれている。
上位N個のクエリー用語のための画像関連性モデルが組み合わせられて、N個の(クエリー用語、スコア)ペアに、視覚的クエリーの画像特徴ベクトルをマッピングするための行列を生成する(514)。それぞれのクエリー用語の各画像関連性モデルベクトルが、N個の(クエリー用語、スコア)ペアに視覚的クエリーの画像特徴ベクトルをマッピングするためのN行の行列の行になる。
図6は、一部の実施例による画像特徴をテキスト用語にマッピングすることにより画像関連性モデルをトレーニングする例のデータ構造を図示したブロック図である。クエリー用語から画像結果選択のログ601は、(クエリー用語X 602について)クエリー用語Xのためのユーザにより選択された画像サーチ結果の1又は複数のレコード604を含む。レコード604は、画像の識別子および位置(たとえば、それぞれに、ファイル名および画像のユニバーサルリソースロケータ)と、選択の日付に関するデータとを含む。レコード604から、代表画像の数が、クエリー用語X 602のために識別される。
代表画像について(たとえば、画像1 606)、画像特徴値608が抽出又は識別され、かつ、画像特徴を表すベクトル605が生成される。
クエリー用語X 602について、画像特徴重み612を含む画像関連性モデルベクトル610が生成および初期化される。画像関連性モデルベクトル610は、クエリー用語X 602のための代表画像の画像特徴ベクトル605を使用して、トレーニングされる。
異なるクエリー用語のためのトレーニングされた画像関連性モデルベクトル610は、画像関連性モデル614の行列に組み合わせられる。後述するように、行列614を使用して、視覚的クエリーに応答して1又は複数のテキスト用語を識別する。
図7は、一部の実施例による視覚的クエリーに応答して1又は複数のテキスト用語を決定するプロセス700を図示したフローチャートである。一般に、図7に示す各動作は、コンピュータメモリ又は非一時的なコンピュータ可読記録媒体に格納された命令に対応している。
視覚的クエリーサーバシステムが、クライアントシステムから視覚的クエリーを受信する(702)。たとえば、クライアントシステムは、デスクトップコンピューティングデバイス、モバイルデバイス、又は図1を参照して説明された他の類似の装置であってもよい。例のクライアントシステム上の例の視覚的クエリーが、図8に示される。
視覚的クエリーは、適切なフォーマットの画像ドキュメントである。たとえば、視覚的クエリーは、写真、スクリーンショット、スキャンした画像、又はビデオの複数のフレームのうちのフレーム又はシーケンスであり得る。一部の実施例では、視覚的クエリーは、コンテンツオーサリングプログラム(図2の236)によって生成される図である。このように、一部の実施例では、ユーザは視覚的クエリーを「描く」が、他の実施例では、ユーザは視覚的クエリーをスキャン又は撮影する。一部の視覚的クエリーは、画像生成アプリケーション(たとえば、ADOBE ACROBAT、写真編集プログラム、描画プログラム、又は画像編集プログラム)を使用して作成される。たとえば、視覚的クエリーは、ユーザの携帯電話でユーザの友人の写真を撮影し、次いで、サーバシステムへの視覚的クエリーとして写真を提出するユーザから来る可能性がある。また、視覚的クエリーは、雑誌のページをスキャンするか、又は、デスクトップコンピュータ上のウェブページのスクリーンショットを取得し、次いで、サーバシステムへの視覚的クエリーとして、スキャン又はスクリーンショットを提出するユーザから来る可能性がある。一部の実施例では、視覚的クエリーは、ブラウザアプリケーションのサーチエンジンエクステンションを通じて(ブラウザアプリケーションのためのプラグインを通じて)、又は、クライアントシステム102により実行されるサーチアプリケーションによって、サーバシステム106へ提出される。また、視覚的クエリーは、クライアントシステムによって遠隔に配置されたサーバへ送信される画像をサポート又は生成する(クライアントシステムにより実行される)他のアプリケーションプログラムによって提出される。
視覚的クエリーは、テキスト要素と非テキスト要素との組み合わせであり得る。たとえば、クエリーは、画像およびテキストを含む雑誌のページのスキャンであり得る(たとえば、道路標識の隣に立っている人)。視覚的クエリーは、人の顔の画像を含むことができる(クライアントシステムに埋め込まれたカメラで撮影されたか、又は、クライアントシステムによりスキャンされたか、又は、他の方法で受信されたドキュメントであろうとなかろうと)。また、視覚的クエリーは、テキストのみを含むドキュメントのスキャンであり得る。また、視覚的クエリーは、多数の個別の被写体の画像であり得る(たとえば、森の中の数羽の鳥、人とオブジェクト(たとえば、自動車、公園のベンチなど)、人と動物(たとえば、ペット、家畜、蝶、など))。視覚的クエリーは、2つ以上の個別の要素を有することができる。たとえば、視覚的クエリーは、バーコードと、製品パッケージ上の製品又は製品名の画像とを含むことができる。たとえば、視覚的クエリーは、本のタイトル、カバーアート、およびバーコードを含むブックカバーの写真であり得る。以下でより詳細に説明するように一部の例では、1つの視覚的クエリーは、視覚的クエリーの異なる部分に対応する2つ以上の個別のサーチ結果を生成する。
視覚的クエリーサーバシステムは、視覚的クエリーのための画像特徴値のセットを生成することによって、視覚的クエリーに応答する(704)。視覚的クエリーサーバシステムは、視覚的クエリー内の画像特徴のセットを識別し、かつ、視覚的クエリー内の画像特徴のための値のセットを生成する。各画像特徴値は、視覚的クエリーの個別の画像特性を表す。画像特徴値の生成の例は、2009年7月17日に出願され、発明の名称を「Image Relevance Model」とする米国特許出願番号_に開示されており(代理人整理番号16113-1606001)、上記の参照により組み込まれている。一部の実施例では、画像特徴値のセットは、色ヒストグラム値、輝度値、エッジ統計値を含む(706)。画像特徴値の他の例は、テクスチャおよび画像の一部の他の特性を含む。一部の実施例では、画像特徴値のセットは、より多くの特徴値を含むか、又は、上述よりもより少ない特徴値を含む。
視覚的クエリーサーバシステムは、複数のテキスト用語へ画像特徴値のセットをマッピングする(複数のテキストの用語内のテキスト用語のそれぞれのための重みを含む)(708)。一部の実施例では、複数のテキスト用語は、図5を参照して上述した上位N個のクエリー用語又は上位N個の画像クエリーである。各テキスト用語は、フレーズ、複数の単語、又は単一の単語である。マッピングは、視覚的クエリーに対する複数のテキストの用語のそれぞれのための重み又はスコアを与える。重み又はスコアは、それぞれのテキスト用語への視覚的クエリーの関連性尺度である。
一部の実施例では、マッピングは、画像関連性モデルのセットを利用し、各モデルは、あらかじめ定義されたテキスト用語に対応する(710)。テキスト用語のための画像関連性モデルは、画像がテキスト用語に関連するか否かを決定する際に使用される対応する画像特徴の相対的な重要性を表す重みのベクトルである。一部の実施例では、あらかじめ定義されたテキスト用語は、上位N個のクエリー用語であり、かつ、画像関連性モデルのセット内の各モデルは、それぞれの上位N個のクエリー用語に対応している。
一部の実施例では、視覚的クエリーの画像特徴値のセットは、画像特徴値の画像特徴ベクトルを含み、かつ、マッピングは、画像特徴ベクトルに画像関連性モデルの行列を乗算することを含み、行列の各行は、あらかじめ定義されたテキスト用語に対応する(712)。別の書き方をすれば、画像特徴値のセットは、値のベクトルによって表現され、かつ、画像特徴値ベクトルは、画像関連性モデルの行列と乗算され、行列の各行は、クエリー用語に対応する画像関連性モデルベクトルであり、その例は、図5,6を参照して上述されている。得られた積は、視覚的クエリーに対する複数のテキスト用語のそれぞれのための重み又はスコアのセットである。
視覚的クエリーサーバシステムは、テキスト用語の重みに従って、テキスト用語を順位付けする(714)。たとえば、テキスト用語は、その重みによって順序付けされる。
視覚的クエリーサーバシステムは、テキスト用語を順位付けすることに従って、クライアントシステムに順位付けされたテキスト用語のうちの1又は複数を送信する(716)。一部の実施例では、視覚的クエリーに対して最も高く重み付け又はスコア付けされるテキスト用語が、上述のマッピングから計算された重み又はスコアに従って、ユーザに表示するためにクライアントシステムに送信される(この例は後述される)。
一部の実施例では、視覚的クエリーサーバシステムは、クライアントシステムに送信される順位付けされたテキスト用語に関連付けられた1又は複数の画像を、クライアントシステムに送信する(718)。別の書き方をすれば、視覚的クエリーサーバシステムは、順位付けされた用語とともに、クライアントシステムに順位付けされた用語に関連付けられた画像を送信する。一部の実施例では、クライアントシステムで、テキスト用語が、視覚的クエリーサーバシステムから受信した関連画像をともなって表示される。クライアントシステムにおける結果となる表示の例を図10を参照して以下に説明する。
一部のケースでは、順位付けされたテキスト用語に関連付けられた画像のうちの1又は複数は、視覚的クエリーのために識別された画像特徴値に類似する画像特徴値を有する(720)。たとえば、順位付けされたテキスト用語に関連付けられた画像が、順位付けされたテキスト用語を使用した画像サーチから識別される(たとえば、用語から画像へのサーチアプリケーション425を使用して)。順位付けされたテキスト用語に関連付けられたベスト画像のセットが、それらの画像特徴値と視覚的クエリーの画像特徴値と間の類似度の測定基準に従って、視覚的クエリーサーバシステムによって選択される。そのような類似度の測定基準の一例は、候補画像の画像特徴値と視覚的クエリーの画像特徴値とのドット積である。各上位順位のテキスト用語について、最も高い類似度の測定基準(たとえば、ドット積)を有する1又は複数の画像が選択される。
一部の実施例では、順位付けされたテキスト用語のユーザによる用語の選択に応答して、選択された用語に関するテキストクエリーサーチが実行される(722)。たとえば、ユーザは、表示された順位付けされたテキスト用語うちの1つをクリックしてもよく、かつ、それに応答して、クエリー用語として選択されたテキスト用語を使用したテキストサーチが(たとえば、用語クエリーサーバシステム118によって)実行される。リターンされたサーチ結果は、テキスト用語クエリーを満たす(たとえば、マッチ、又は最大マッチする)ウェブページ、動画、ニュース記事等を含んでもよい。
一部の実施例では、視覚的クエリーサーバシステムは、視覚的クエリーのそれぞれのサブ部分の1又は複数の識別子を含み、また、少なくとも視覚的識別子のサブセット内の各視覚的識別子について、順位付けされたテキスト用語のうちの各テキスト用語を含む少なくとも1つのユーザが選択可能なリンクを含むインタラクティブ結果ドキュメントを、クライアントシステムへ送信する(724)。たとえば、視覚的クエリーサーバシステムは、クライアントに、視覚的クエリー画像上にオーバーラップされた特定のサブ領域の視覚的識別子を有する視覚的クエリー画像を送信する。一部の実装形態では、視覚的識別子のうちの1又は複数は、対応するテキスト用語として表示されるユーザが選択可能なリンクである。ユーザにより選択可能なリンクがユーザによって選択されると、クエリー用語として、選択されたテキスト用語を使用したテキストサーチが、応答して実行される。視覚的クエリーの各サブ部分の視覚的識別子を有するインタラクティブ結果ドキュメントの例は、図11を参照して以下に説明する。
図8は、一部の実施例による例の視覚的クエリー802のスクリーンショットを含むクライアントシステム102を示す。図8に示されているクライアントシステム102は、携帯電話、携帯音楽プレーヤ、又は携帯用の電子メールデバイス等のモバイルデバイスである。クライアントシステム102は、ディスプレイ206と、1又は複数の入力手段208(例えば、図に示されているボタン)とを含む。一部の実施例では、ディスプレイ206は、タッチセンシティブディスプレイ209である。タッチセンシティブディスプレイ209を有する実施例では、ディスプレイ209に表示されるソフトボタンが、選択的に、電気機械的なボタン208の一部又は全部と置換され得る。また、タッチセンシティブディスプレイは、以下に詳細に説明される視覚的クエリーの結果との相互作用に役立つ。また、クライアントシステム102は、カメラ210などの画像取得機構を含む。
図8は、店の棚上のパッケージの写真又はビデオフレームである視覚的クエリー802を図示している。ここで説明する実施例では、視覚的クエリーは、2次元のそれぞれのピクセルにおける視覚的クエリーのサイズに対応する解像度を有する2次元画像である。この例では、視覚的クエリー802は、3次元物体の2次元画像である。視覚的クエリー802は、背景要素、製品パッケージ804、および人物806の画像、商標808の画像、製品810の画像、多様なテキスト要素812を含むパッケージ上のエンティティの様々なタイプを含む。
図7を参照して説明したように、視覚的クエリー802が、フロントエンドサーバ110に送信される(複数の並列サーチシステム(112A-N)へ視覚的クエリー802を送信し、結果を受信し、かつ、インタラクティブ結果ドキュメントを作成する)。
図9は、一部の実施例によるテキスト用語のリストと同時に表示されたインタラクティブ結果ドキュメントおよび視覚的クエリーのスクリーンショットを図示している。図9のスクリーンショットは、視覚的クエリー結果リスト902と同時に表示されたインタラクティブ結果ドキュメント900および元の視覚的クエリー802を示す。一部の実施例では、インタラクティブ結果ドキュメント900は、それ自体で表示される。一部の他の実施例では、図9に示すように、インタラクティブ結果ドキュメント900は、元の視覚的クエリーと同時に表示される。一部の実施例では、視覚的クエリー結果のリスト902は、元の視覚的クエリー802および/又はインタラクティブ結果ドキュメント900を伴って同時に表示される。クライアントシステムのタイプおよびディスプレイ206上の余地の量が、結果902のリストが、インタラクティブ結果ドキュメント900と同時に表示されるか否かを決定してもよい。一部の実施例では、クライアントシステム102は、(視覚的クエリーサーバシステムに提出された視覚的クエリーに応答して)結果のリスト902およびインタラクティブ結果ドキュメント900の両方を受信するが、ユーザがインタラクティブ結果ドキュメント900を下にスクロールすると、結果のリスト902のみを表示する。
図9では、結果のリスト902は、テキスト用語のリスト903を含む。テキスト用語のリスト903は、1又は複数のテキスト用語結果905を含む。テキスト用語905は、図7Aおよび7Bを参照して上述したプロセスに従って、視覚的クエリー802のために識別された用語である。ユーザによるテキスト用語905の選択(例えば、用語をクリックすることによる)が、クエリーとして選択したテキスト用語905を使用したテキストサーチをアクティブにする。
一部の実施例では、結果のリスト902も、視覚的クエリーに応答して見つけられた他のサーチ結果を含む。視覚的クエリーに応答して表示されたサーチ結果の例は、2010年8月6日に出願され、発明の名称を「Identifying Matching Canonical Documents in Response to a Visual Query」とする米国特許出願番号12/852,189に開示されており、その全体は参照により組み込まれる。
一部の実施例では、テキスト用語リスト903内のテキスト用語905のうちの1又は複数が、図10に示すように、1又は複数の添付画像を含んで表示される。一部の実装では、画像1002は、クエリーとしてテキスト用語を使用した画像サーチに基づく、テキスト用語905に対応する最も関連性のある画像である。画像1002は、視覚的クエリー802の全体、又は、視覚的クエリー802のサブ部分に関連付けられた画像である。テキスト用語905および添付画像1002のペアリングが、テキスト用語905が視覚的クエリー802および視覚的クエリー802のサブ部分にどのように関係しているかについて、ユーザにさらなるコンテキストを提供する。
図11は、一部の実施例による、図8の視覚的クエリー802のそれぞれのサブ部分の視覚的識別子であるラベル1102を有するインタラクティブ結果ドキュメント1100のスクリーンショットを含むクライアントデバイス102を示す。ラベル視覚的識別子1102は、サブ部分に関連付けられたテキスト用語をそれぞれに含む。また、ラベル視覚的識別子1102は、クエリーとしてテキスト用語を使用したテキストサーチ結果へのユーザが選択可能なリンク(アンカーテキストとしてテキスト用語を含む)を含む。
図11で、ラベル1102は、インタラクティブ結果ドキュメントのそれぞれのサブ部分の上に配置されているテキストを有する部分的に透明な領域として表示される。一部の他の実施例では、各ラベルが、インタラクティブ結果ドキュメントのそれぞれのサブ部分の近くに配置されるが、上に配置されない。一部の実施例では、ユーザは、ラベル1102の縁部又は周縁によって輪郭を描かれた空間内のアクティブ化領域をタップすることによって、ラベル1102に対応するテキストサーチ結果の表示をアクティブにする。
上記の説明は、説明の目的のために、特定の実施例を参照して説明されてきた。しかし、上記の例示的な議論は、網羅的であること又は開示された正確な形態に本発明を限定することを意図したものではない。多くの改良例および変形例が上記の教示を考慮して可能となる。実施例は、本発明の原理およびその実際の応用例をもっともよく説明するために選択されて説明され、それによって、検討される特定の使用に適したものとしてさまざまな変形例を有する本発明およびさまざまな実施例をもっともよく利用することが当業者に可能である。
102 クライアント
108 クライアントアプリケーション
104 通信ネットワーク(複数可)
118 用語クエリーサーバシステム
106 視覚的クエリーサーバシステム
110 フロントエンド視覚的クエリー処理サーバ
116 クエリーおよび注釈データベース
112-A 顔認識サーチシステム
112-B OCRサーチシステム
112-C 画像から用語へのサーチシステム
112-N 他のサーチシステム
114-A 顔画像データベース
114-B OCRデータベース
114-C 画像サーチデータベース
114-N 他のデータベース

Claims (20)

  1. クエリー画像を受信するステップと、
    前記クエリー画像に関連付けられた画像特徴のセットを取得するステップと、
    画像特徴の前記セットについて1又は複数の画像特徴値を取得するステップと、
    前記画像特徴値のうちの1又は複数を、異なるクエリー用語にそれぞれ関連付けられた複数の画像関連性モデルに提供するステップであって、各画像関連性モデルは、前記画像関連性モデルに関連付けられた前記クエリー用語に対し、前記画像特徴値が取得された所与のクエリー画像の関連性を反映するスコアを出力するようにトレーニングされる、ステップと、
    前記複数の画像関連性モデルのそれぞれから、前記画像関連性モデルに関連付けられた前記クエリー用語に対し、前記クエリー画像の前記関連性を反映する前記スコアを取得するステップと、
    少なくとも前記スコアに基づいて、前記複数の画像関連性モデルに関連付けられた前記クエリー用語のサブセットを選択するステップと、
    出力のため、前記クエリー用語の前記サブセットの前記クエリー用語のうちの1又は複数を提供するステップと
    を含む、コンピュータ実行方法。
  2. 前記1又は複数の画像特徴値を取得するステップは、画像特徴値のベクトルを取得するステップを含む、請求項1に記載のコンピュータ実行方法。
  3. クエリー用語ごとに、前記クエリー用語についての各画像関連性ベクトルに対し、画像特徴値の前記ベクトルを適用することによって、前記クエリー用語についての重みを取得するステップであって、前記画像関連性ベクトルの各構成要素は、前記クエリー用語が関係しているか否かを決定することにおいて、画像特徴値の前記ベクトルのそれぞれの対応する構成要素の相対的な重要性を示す、ステップ
    をさらに含み、
    前記クエリー用語の前記サブセットを選択するステップは、クエリー用語ごとのそれぞれの重みに基づく、請求項2に記載のコンピュータ実行方法。
  4. 1又は複数のクエリー用語と重みとのペアに対し、画像特徴値の前記ベクトルをマッピングするステップをさらに含む、請求項3に記載のコンピュータ実行方法。
  5. クエリー用語ごとに、各画像関連性モデルに対し、画像特徴値の前記ベクトルを適用するステップをさらに含み、前記各画像関連性モデルは、前記各画像関連性ベクトルを含む、請求項2に記載のコンピュータ実行方法。
  6. 画像関連性ベクトルの行列を識別するステップと、
    画像関連性ベクトルの前記行列によって画像特徴値の前記ベクトルを乗算するステップと
    をさらに含み、
    画像関連性ベクトルの前記行列の各行は、クエリー用語の前記セットのうちのそれぞれのクエリー用語に対応する、請求項2に記載のコンピュータ実行方法。
  7. 各クエリー用語と重みとのペアに対し、画像特徴値の各ベクトルをマッピングするステップをさらに含む、請求項6に記載のコンピュータ実行方法。
  8. クエリー用語ごとに、画像関連性ベクトルの前記行列によって画像特徴値の前記ベクトルを乗算するステップに基づいて、前記クエリー用語についての重みを取得するステップをさらに含む、請求項6に記載のコンピュータ実行方法。
  9. それぞれの前記重みに基づいて、前記クエリー用語の前記サブセットの各クエリー用語を順位付けするステップをさらに含む、請求項8に記載のコンピュータ実行方法。
  10. システムであって、
    1又は複数のコンピュータと、
    命令を格納した1又は複数の記憶装置と
    を備え、
    前記1又は複数のコンピュータによって実行されるとき、前記命令は、
    クエリー画像を受信するステップと、
    前記クエリー画像に関連付けられた画像特徴のセットを取得するステップと、
    画像特徴の前記セットについて1又は複数の画像特徴値を取得するステップと、
    前記画像特徴値のうちの1又は複数を、異なるクエリー用語にそれぞれ関連付けられた複数の画像関連性モデルに提供するステップであって、各画像関連性モデルは、前記画像関連性モデルに関連付けられた前記クエリー用語に対し、前記画像特徴値が取得された所与のクエリー画像の関連性を反映するスコアを出力するようにトレーニングされる、ステップと、
    前記複数の画像関連性モデルのそれぞれから、前記画像関連性モデルに関連付けられた前記クエリー用語に対し、前記クエリー画像の前記関連性を反映する前記スコアを取得するステップと、
    少なくとも前記スコアに基づいて、前記複数の画像関連性モデルに関連付けられた前記クエリー用語のサブセットを選択するステップと、
    出力のため、前記クエリー用語の前記サブセットの前記クエリー用語のうちの1又は複数を提供するステップと
    を含む動作を前記1又は複数のコンピュータに実行させるように構成される、システム。
  11. 前記1又は複数の画像特徴値を取得するステップは、画像特徴値のベクトルを取得するステップを含む、請求項10に記載のシステム。
  12. 前記動作は、
    クエリー用語ごとに、前記クエリー用語についての各画像関連性ベクトルに対し、画像特徴値の前記ベクトルを適用することによって、前記クエリー用語についての重みを取得するステップであって、前記画像関連性ベクトルの各構成要素は、前記クエリー用語が関係しているか否かを決定することにおいて、画像特徴値の前記ベクトルのそれぞれの対応する構成要素の相対的な重要性を示す、ステップ
    をさらに含み、
    前記クエリー用語の前記サブセットを選択するステップは、クエリー用語ごとのそれぞれの重みに基づく、請求項11に記載のシステム。
  13. 前記動作は、
    1又は複数のクエリー用語と重みとのペアに対し、画像特徴値の前記ベクトルをマッピングするステップをさらに含む、請求項12に記載のシステム。
  14. 前記動作は、
    クエリー用語ごとに、各画像関連性モデルに対し、画像特徴値の前記ベクトルを適用するステップをさらに含み、前記各画像関連性モデルは、前記各画像関連性ベクトルを含む、請求項12に記載のシステム。
  15. 前記動作は、
    画像関連性ベクトルの行列を識別するステップと、
    画像関連性ベクトルの前記行列によって画像特徴値の前記ベクトルを乗算するステップと
    をさらに含み、
    画像関連性ベクトルの前記行列の各行は、クエリー用語の前記セットのうちのそれぞれのクエリー用語に対応する、請求項12に記載のシステム。
  16. 前記動作は、
    各クエリー用語と重みとのペアに対し、画像特徴値の各ベクトルをマッピングするステップをさらに含む、請求項15に記載のシステム。
  17. 1又は複数のコンピュータによって実行可能な命令を含むソフトウェアを格納したコンピュータ読み取り可能な記録媒体であって、
    前記1又は複数のコンピュータによって実行されるとき、前記命令は、
    クエリー画像を受信するステップと、
    前記クエリー画像に関連付けられた画像特徴のセットを取得するステップと、
    画像特徴の前記セットについて1又は複数の画像特徴値を取得するステップと、
    前記画像特徴値のうちの1又は複数を、異なるクエリー用語にそれぞれ関連付けられた複数の画像関連性モデルに提供するステップであって、各画像関連性モデルは、前記画像関連性モデルに関連付けられた前記クエリー用語に対し、前記画像特徴値が取得された所与のクエリー画像の関連性を反映するスコアを出力するようにトレーニングされる、ステップと、
    前記複数の画像関連性モデルのそれぞれから、前記画像関連性モデルに関連付けられた前記クエリー用語に対し、前記クエリー画像の前記関連性を反映する前記スコアを取得するステップと、
    少なくとも前記スコアに基づいて、前記複数の画像関連性モデルに関連付けられた前記クエリー用語のサブセットを選択するステップと、
    出力のため、前記クエリー用語の前記サブセットの前記クエリー用語のうちの1又は複数を提供するステップと
    を含む動作を前記1又は複数のコンピュータに実行させる、コンピュータ読み取り可能な記録媒体。
  18. 前記1又は複数の画像特徴値を取得するステップは、画像特徴値のベクトルを取得するステップを含む、請求項17に記載のコンピュータ読み取り可能な記録媒体。
  19. 前記動作は、
    クエリー用語ごとに、前記クエリー用語についての各画像関連性ベクトルに対し、画像特徴値の前記ベクトルを適用することによって、前記クエリー用語についての重みを取得するステップであって、前記画像関連性ベクトルの各構成要素は、前記クエリー用語が関係しているか否かを決定することにおいて、画像特徴値の前記ベクトルのそれぞれの対応する構成要素の相対的な重要性を示す、ステップ
    をさらに含み、
    前記クエリー用語の前記サブセットを選択するステップは、クエリー用語ごとのそれぞれの重みに基づく、請求項18に記載のコンピュータ読み取り可能な記録媒体。
  20. 前記動作は、
    1又は複数のクエリー用語と重みとのペアに対し、画像特徴値の前記ベクトルをマッピングするステップをさらに含む、請求項19に記載のコンピュータ読み取り可能な記録媒体。
JP2015526579A 2012-08-08 2013-07-31 視覚的クエリーに応答したテキスト用語の識別 Active JP6240916B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/570,162 2012-08-08
US13/570,162 US8935246B2 (en) 2012-08-08 2012-08-08 Identifying textual terms in response to a visual query
PCT/US2013/053080 WO2014025592A1 (en) 2012-08-08 2013-07-31 Identifying textual terms in response to a visual query

Publications (2)

Publication Number Publication Date
JP2015529908A JP2015529908A (ja) 2015-10-08
JP6240916B2 true JP6240916B2 (ja) 2017-12-06

Family

ID=48980337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015526579A Active JP6240916B2 (ja) 2012-08-08 2013-07-31 視覚的クエリーに応答したテキスト用語の識別

Country Status (5)

Country Link
US (2) US8935246B2 (ja)
EP (1) EP2883158B1 (ja)
JP (1) JP6240916B2 (ja)
CN (2) CN104685501B (ja)
WO (1) WO2014025592A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8935246B2 (en) 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
JP5999582B2 (ja) * 2012-10-11 2016-09-28 カシオ計算機株式会社 情報出力装置及びプログラム
KR102072113B1 (ko) 2012-10-17 2020-02-03 삼성전자주식회사 사용자 단말 장치 및 제어 방법
US20140156704A1 (en) 2012-12-05 2014-06-05 Google Inc. Predictively presenting search capabilities
US9104905B2 (en) * 2013-05-02 2015-08-11 Emotient, Inc. Automatic analysis of individual preferences for attractiveness
JP2015032253A (ja) * 2013-08-06 2015-02-16 ソニー株式会社 情報処理装置および情報処理方法
US9386275B2 (en) * 2014-01-06 2016-07-05 Intel IP Corporation Interactive video conferencing
US9348885B2 (en) * 2014-02-04 2016-05-24 Adobe Systems Incorporated System and method for ranking and selecting data features
US9830391B1 (en) 2014-06-24 2017-11-28 Google Inc. Query modification based on non-textual resource context
US9811592B1 (en) 2014-06-24 2017-11-07 Google Inc. Query modification based on textual resource context
US9824079B1 (en) * 2014-07-11 2017-11-21 Google Llc Providing actions for mobile onscreen content
US9516220B2 (en) 2014-10-02 2016-12-06 Intel Corporation Interactive video conferencing
US10021346B2 (en) 2014-12-05 2018-07-10 Intel IP Corporation Interactive video conferencing
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
US20160217157A1 (en) * 2015-01-23 2016-07-28 Ebay Inc. Recognition of items depicted in images
KR102402511B1 (ko) * 2015-02-03 2022-05-27 삼성전자주식회사 영상 검색 방법 및 이를 위한 장치
US9940575B2 (en) * 2015-06-04 2018-04-10 Yahoo Holdings, Inc. Image searching
JP2018523251A (ja) * 2015-08-03 2018-08-16 オランド エセ.ア. カタログ内の製品を検索するためのシステムおよび方法
US11609946B2 (en) * 2015-10-05 2023-03-21 Pinterest, Inc. Dynamic search input selection
US11055343B2 (en) 2015-10-05 2021-07-06 Pinterest, Inc. Dynamic search control invocation and visual search
US10162865B2 (en) * 2015-10-08 2018-12-25 Microsoft Technology Licensing, Llc Generating image tags
US10489410B2 (en) 2016-04-18 2019-11-26 Google Llc Mapping images to search queries
US10176198B1 (en) * 2016-05-09 2019-01-08 A9.Com, Inc. Techniques for identifying visually similar content
US11003667B1 (en) * 2016-05-27 2021-05-11 Google Llc Contextual information for a displayed resource
US10152521B2 (en) 2016-06-22 2018-12-11 Google Llc Resource recommendations for a displayed resource
US10802671B2 (en) 2016-07-11 2020-10-13 Google Llc Contextual information for a displayed resource that includes an image
US10489459B1 (en) 2016-07-21 2019-11-26 Google Llc Query recommendations for a displayed resource
US10051108B2 (en) 2016-07-21 2018-08-14 Google Llc Contextual information for a notification
US10467300B1 (en) 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
US10212113B2 (en) 2016-09-19 2019-02-19 Google Llc Uniform resource identifier and image sharing for contextual information display
US10452688B2 (en) 2016-11-08 2019-10-22 Ebay Inc. Crowd assisted query system
US11176189B1 (en) * 2016-12-29 2021-11-16 Shutterstock, Inc. Relevance feedback with faceted search interface
US10565256B2 (en) * 2017-03-20 2020-02-18 Google Llc Contextually disambiguating queries
US10621417B2 (en) * 2017-04-16 2020-04-14 Facebook, Inc. Systems and methods for generating content
US10679068B2 (en) 2017-06-13 2020-06-09 Google Llc Media contextual information from buffered media data
US11841735B2 (en) 2017-09-22 2023-12-12 Pinterest, Inc. Object based image search
US10942966B2 (en) 2017-09-22 2021-03-09 Pinterest, Inc. Textual and image based search
US11126653B2 (en) * 2017-09-22 2021-09-21 Pinterest, Inc. Mixed type image based search results
US10496364B2 (en) * 2017-10-31 2019-12-03 Baidu Usa Llc System and method for controlling colors of smart lights based on user intent using natural language processing
CN112020712A (zh) * 2018-06-21 2020-12-01 谷歌有限责任公司 视觉搜索的数字补充关联和检索
US10740400B2 (en) 2018-08-28 2020-08-11 Google Llc Image analysis for results of textual image queries
US11080324B2 (en) * 2018-12-03 2021-08-03 Accenture Global Solutions Limited Text domain image retrieval
US11392659B2 (en) * 2019-02-28 2022-07-19 Adobe Inc. Utilizing machine learning models to generate experience driven search results based on digital canvas gesture inputs
CN110688483B (zh) * 2019-09-16 2022-10-18 重庆邮电大学 文景转换中基于词典的名词可视性标注方法、介质及系统
US11645323B2 (en) 2020-02-26 2023-05-09 Samsung Electronics Co.. Ltd. Coarse-to-fine multimodal gallery search system with attention-based neural network models
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2813728B2 (ja) 1993-11-01 1998-10-22 インターナショナル・ビジネス・マシーンズ・コーポレイション ズーム/パン機能付パーソナル通信機
US5764799A (en) 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5724571A (en) 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
JPH1139332A (ja) * 1997-07-22 1999-02-12 Hitachi Ltd 画像検索方法およびその装置およびこれを利用した検索サービス
US5987448A (en) 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
FR2776095B1 (fr) 1998-03-12 2000-06-23 Commissariat Energie Atomique Procede et systeme de lecture multiple d'un ensemble dynamique d'etiquettes avec synchronisation de communication entre les etiquettes et le lecteur
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6137907A (en) 1998-09-23 2000-10-24 Xerox Corporation Method and apparatus for pixel-level override of halftone detection within classification blocks to reduce rectangular artifacts
GB9903451D0 (en) 1999-02-16 1999-04-07 Hewlett Packard Co Similarity searching for documents
US6408293B1 (en) 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
JP3738631B2 (ja) * 1999-09-27 2006-01-25 三菱電機株式会社 画像検索システムおよび画像検索方法
IL154586A0 (en) 2000-08-24 2003-09-17 Olive Software Inc System and method for automatic preparation and searching of scanned documents
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
US6748398B2 (en) 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US7313617B2 (en) 2001-09-28 2007-12-25 Dale Malik Methods and systems for a communications and information resource manager
DE10245900A1 (de) 2002-09-30 2004-04-08 Neven jun., Hartmut, Prof.Dr. Bildbasiertes Anfragesystem für Suchmaschinen für mobile Endgeräte mit eingebauter Kamera
US7472110B2 (en) 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7394947B2 (en) * 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7370034B2 (en) 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US20050083413A1 (en) 2003-10-20 2005-04-21 Logicalis Method, system, apparatus, and machine-readable medium for use in connection with a server that uses images or audio for initiating remote function calls
US7415456B2 (en) 2003-10-30 2008-08-19 Lucent Technologies Inc. Network support for caller identification based on biometric measurement
US7872669B2 (en) 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
WO2005114476A1 (en) 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
JP2007537337A (ja) 2004-05-14 2007-12-20 ダウ・コーニング・コーポレイション 分岐ポリシランの調製方法
US20060020630A1 (en) 2004-07-23 2006-01-26 Stager Reed R Facial database methods and systems
US7890871B2 (en) 2004-08-26 2011-02-15 Redlands Technology, Llc System and method for dynamically generating, maintaining, and growing an online social network
US8489583B2 (en) 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
EP2264622A3 (en) 2004-12-31 2011-12-21 Nokia Corp. Provision of target specific information
US20060150119A1 (en) 2004-12-31 2006-07-06 France Telecom Method for interacting with automated information agents using conversational queries
WO2006082979A1 (ja) 2005-02-07 2006-08-10 Matsushita Electric Industrial Co., Ltd. 画像処理装置および画像処理方法
JP4267584B2 (ja) 2005-02-28 2009-05-27 株式会社東芝 機器制御装置及びその方法
JP4332556B2 (ja) * 2005-03-01 2009-09-16 公立大学法人大阪府立大学 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
JP2006277169A (ja) * 2005-03-29 2006-10-12 Seiko Epson Corp 画像データの管理
US7773822B2 (en) 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
US7809722B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
KR100754656B1 (ko) 2005-06-20 2007-09-03 삼성전자주식회사 이미지와 관련한 정보를 사용자에게 제공하는 방법 및시스템과 이를 위한 이동통신단말기
US7457825B2 (en) * 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
US20090060289A1 (en) 2005-09-28 2009-03-05 Alex Shah Digital Image Search System And Method
US7876978B2 (en) 2005-10-13 2011-01-25 Penthera Technologies, Inc. Regions of interest in video frames
US8849821B2 (en) 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7725477B2 (en) 2005-12-19 2010-05-25 Microsoft Corporation Power filter for online listing service
US8874591B2 (en) 2006-01-31 2014-10-28 Microsoft Corporation Using user feedback to improve search results
US9336333B2 (en) 2006-02-13 2016-05-10 Linkedin Corporation Searching and reference checking within social networks
US7698332B2 (en) * 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space
US7668405B2 (en) 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
US7917514B2 (en) 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US20080031506A1 (en) 2006-08-07 2008-02-07 Anuradha Agatheeswaran Texture analysis for mammography computer aided diagnosis
US7934156B2 (en) 2006-09-06 2011-04-26 Apple Inc. Deletion gestures on a portable multifunction device
KR100811834B1 (ko) * 2006-10-25 2008-03-10 주식회사 에스원 영상 특징량 추출방법 및 이를 이용한 내용 기반 영상 검색방법
KR100865973B1 (ko) 2007-02-08 2008-10-30 (주)올라웍스 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
US8861898B2 (en) 2007-03-16 2014-10-14 Sony Corporation Content image search
CN104866469B (zh) 2007-04-11 2018-10-02 谷歌有限责任公司 具有第二语言模式的输入法编辑器
US20080267504A1 (en) 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
US10069924B2 (en) 2007-07-25 2018-09-04 Oath Inc. Application programming interfaces for communication systems
CN101387824B (zh) * 2007-09-13 2012-03-28 鸿富锦精密工业(深圳)有限公司 照片内容自动注解系统及方法
KR101435140B1 (ko) 2007-10-16 2014-09-02 삼성전자 주식회사 영상 표시 장치 및 방법
US9237213B2 (en) 2007-11-20 2016-01-12 Yellowpages.Com Llc Methods and apparatuses to initiate telephone connections
KR100969298B1 (ko) 2007-12-31 2010-07-09 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US20090237546A1 (en) 2008-03-24 2009-09-24 Sony Ericsson Mobile Communications Ab Mobile Device with Image Recognition Processing Capability
US8190604B2 (en) 2008-04-03 2012-05-29 Microsoft Corporation User intention modeling for interactive image retrieval
CN101587478B (zh) * 2008-05-20 2013-07-24 株式会社理光 图像训练、自动标注、检索方法及装置
JP5109836B2 (ja) 2008-07-01 2012-12-26 株式会社ニコン 撮像装置
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
JP2010271769A (ja) * 2009-05-19 2010-12-02 Seiko Epson Corp 画像処理方法及び装置、並びに、そのためのコンピュータプログラム
JP2010286960A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 食事log作成装置、食事log作成方法および食事log作成プログラム
US9087059B2 (en) * 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US8805079B2 (en) * 2009-12-02 2014-08-12 Google Inc. Identifying matching canonical documents in response to a visual query and in accordance with geographic information
US8977639B2 (en) * 2009-12-02 2015-03-10 Google Inc. Actionable search results for visual queries
US9183224B2 (en) * 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US9405772B2 (en) * 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US8489589B2 (en) * 2010-02-05 2013-07-16 Microsoft Corporation Visual search reranking
US9015139B2 (en) * 2010-05-14 2015-04-21 Rovi Guides, Inc. Systems and methods for performing a search based on a media content snapshot image
WO2012014130A1 (en) * 2010-07-26 2012-02-02 Koninklijke Philips Electronics N.V. Obtaining keywords for searching
CN102012934A (zh) * 2010-11-30 2011-04-13 百度在线网络技术(北京)有限公司 图片搜索方法及搜索系统
US8935246B2 (en) 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query

Also Published As

Publication number Publication date
US9372920B2 (en) 2016-06-21
CN108959586A (zh) 2018-12-07
US8935246B2 (en) 2015-01-13
US20140046935A1 (en) 2014-02-13
WO2014025592A1 (en) 2014-02-13
US20150193528A1 (en) 2015-07-09
EP2883158A1 (en) 2015-06-17
EP2883158B1 (en) 2019-11-06
CN104685501A (zh) 2015-06-03
CN104685501B (zh) 2018-08-07
CN108959586B (zh) 2022-02-01
JP2015529908A (ja) 2015-10-08

Similar Documents

Publication Publication Date Title
JP6240916B2 (ja) 視覚的クエリーに応答したテキスト用語の識別
JP6148367B2 (ja) 視覚クエリに応答するためのアーキテクチャ
JP6025812B2 (ja) 視覚クエリの複数の領域についての検索結果を提示するためのユーザインターフェイス
JP6470713B2 (ja) 画像に基づいて検索結果を提供する方法、システム、およびコンピュータ読取可能記憶装置
AU2016200659B2 (en) Architecture for responding to a visual query

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171011

R150 Certificate of patent or registration of utility model

Ref document number: 6240916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250