JP2013501975A - 視覚クエリに応答するためのアーキテクチャ - Google Patents

視覚クエリに応答するためのアーキテクチャ Download PDF

Info

Publication number
JP2013501975A
JP2013501975A JP2012523960A JP2012523960A JP2013501975A JP 2013501975 A JP2013501975 A JP 2013501975A JP 2012523960 A JP2012523960 A JP 2012523960A JP 2012523960 A JP2012523960 A JP 2012523960A JP 2013501975 A JP2013501975 A JP 2013501975A
Authority
JP
Japan
Prior art keywords
search
recognition
visual query
visual
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012523960A
Other languages
English (en)
Other versions
JP2013501975A5 (ja
Inventor
ペトロウ,ダビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2013501975A publication Critical patent/JP2013501975A/ja
Publication of JP2013501975A5 publication Critical patent/JP2013501975A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Abstract

写真、スクリーンショット、スキャン画像、映像フレーム、またはコンテンツオーサリングアプリケーションによって作成される画像などの視覚クエリを、視覚クエリ検索システムにサブミットする。その検索システムは、それぞれが互いに異なる視覚クエリ検索処理を実施する複数の並列検索システムに、その視覚クエリを送ることによりその視覚クエリを処理する。これらの並列検索システムには、これだけに限定されないが、光学的文字認識(OCR)、顔認識、製品認識、バーコード認識、オブジェクトまたはオブジェクトカテゴリ認識、固有表現認識、および色認識が含まれ得る。次いで、少なくとも1つの検索結果をクライアントシステムに送る。一部の実施形態では、視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、少なくとも1つの検索結果は、テキスト要素については光学的文字認識結果を含み、非テキスト要素については少なくとも1つの画像一致結果を含む。

Description

開示する諸実施形態は、一般に、視覚クエリを処理するための複数の並列検索システムを包含するサーバシステムアーキテクチャに関する。
ユーザが語または語句を検索エンジンに入力し、様々な結果を受け取るテキストベースの検索または用語ベースの検索は、検索を行うための有用なツールである。しかし用語ベースのクエリでは、ユーザが関連語を入力できることが必要である。ときとして、ユーザは画像に関する情報を知りたい場合がある。例えば、ユーザは写真の中の人物の名前を知りたい場合があり、または絵の中の花や鳥の名前を知りたいこともある。したがって、視覚クエリを受け取り、検索結果を提供することができるシステムが望ましい。
一部の実施形態によれば、サーバシステムにおいて視覚クエリを処理する、コンピュータによって実施される方法がある。クライアントシステムから視覚クエリを受け取る。その視覚クエリを、同時処理用の複数の並列検索システムに送ることによって処理する。その複数の検索システムのそれぞれは、複数の視覚クエリ検索処理のうちの互いに異なる視覚クエリ検索処理を実施する。その複数の視覚クエリ検索処理には、少なくとも、光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の第1の画像によるクエリ(query-by-image)処理が含まれる。複数の並列検索システムの1つまたは複数から複数の検索結果を受け取る。その複数の検索結果の少なくとも1つをクライアントシステムに送る。
一部の実施形態では、この方法は、受け取った検索結果の少なくとも2つが所定の基準を満たすとき、所定の基準を満たす受け取った検索結果をランク付けし、ランク付けした検索結果のうちの少なくとも1つの検索結果をクライアントシステムに送ることをさらに含む。
一部の実施形態では、第1の画像によるクエリ処理は、製品認識、バーコード認識、オブジェクトもしくはオブジェクトカテゴリ認識、固有表現認識、または色認識である。
一部の実施形態では、視覚クエリは、写真、スクリーンショット、スキャン画像、または映像フレームである。クライアントシステムは、モバイル機器、デスクトップ装置、または他の装置とすることができる。
一部の実施形態では、視覚クエリは、検索アプリケーション、ブラウザアプリケーション用の検索エンジンプラグイン、ブラウザアプリケーション用の検索エンジン拡張機能など、クライアントシステムが実行するクライアントアプリケーションから受け取られる。一部の実施形態では、視覚クエリはクライアントシステムが実行するコンテンツオーサリングアプリケーションから受け取られる。
視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、一部の実施形態では、検索結果はテキスト要素については光学的文字認識結果を含み、非テキスト要素については少なくとも1つの画像一致結果を含む。
一部の実施形態では、視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、検索結果は、光学的文字認識処理によってもたらされる検索結果へのリンクを有する、テキスト要素についての第1の視覚的識別子と、画像一致処理によってもたらされる検索結果へのリンクを有する、非テキスト要素についての第2の視覚的識別子とを含む対話型結果ドキュメントを含む。
一部の実施形態では、この方法は、複数の検索結果のうちの少なくとも2つを複合検索結果へと組み合わせることをさらに含む。
一部の実施形態によれば、視覚クエリを処理するための検索エンジンシステムが提供される。このシステムは、プログラムを実行するための1個または複数個の中央処理装置と、その1個または複数個の中央処理装置が実行するための1つまたは複数のプログラムを記憶するメモリとを含む。その1つまたは複数のプログラムは、以下のことを実行するための命令を含む。クライアントシステムから視覚クエリを受け取る。その視覚クエリを、同時処理用の複数の並列検索システムに送ることによって処理する。その複数の検索システムのそれぞれは、複数の視覚クエリ検索処理のうちの互いに異なる視覚クエリ検索処理を実施する。その複数の視覚クエリ検索処理には、少なくとも光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の第1の画像によるクエリ処理が含まれる。複数の並列検索システムの1つまたは複数から複数の検索結果を受け取る。その複数の検索結果の少なくとも1つをクライアントシステムに送る。そのようなシステムは、上記で論じた追加のオプションを実行するためのプログラム命令を含むこともできる。
一部の実施形態によれば、視覚クエリを処理するためのコンピュータ可読記憶媒体システムが提供される。このコンピュータ可読記憶媒体は、コンピュータが実行するように構成される1つまたは複数のプログラムを記憶し、その1つまたは複数のプログラムは以下のことを実行するための命令を含む。クライアントシステムから視覚クエリを受け取る。その視覚クエリを、同時処理用の複数の並列検索システムに送ることによって処理する。その複数の検索システムのそれぞれは、複数の視覚クエリ検索処理のうちの互いに異なる視覚クエリ検索処理を実施する。その複数の視覚クエリ検索処理には、少なくとも光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の第1の画像によるクエリ処理が含まれる。複数の並列検索システムの1つまたは複数から複数の検索結果を受け取る。その複数の検索結果の少なくとも1つをクライアントシステムに送る。そのようなコンピュータ可読記憶媒体は、上記で論じた追加のオプションを実行するためのプログラム命令を含んでもよい。
図面全体を通して、同様の参照番号は一致する部分を指す。
視覚クエリサーバシステムを含むコンピュータネットワークを示すブロック図である。 一部の実施形態による、視覚クエリに応答するプロセスを示すフローチャートである。 一部の実施形態による、対話型結果ドキュメントにより視覚クエリに応答するプロセスを示すフローチャートである。 一部の実施形態による、クライアントと視覚クエリサーバシステムとの間の通信を示すフローチャートである。 一部の実施形態によるクライアントシステムを示すブロック図である。 一部の実施形態によるフロントエンド視覚クエリ処理サーバシステムを示すブロック図である。 一部の実施形態による、視覚クエリを処理するために利用する並列検索システムの汎用システムを示すブロック図である。 一部の実施形態による、視覚クエリを処理するために利用するOCR検索システムを示すブロック図である。 一部の実施形態による、視覚クエリを処理するために利用する顔認識検索システムを示すブロック図である。 一部の実施形態による、視覚クエリを処理するために利用する画像−用語検索システムを示すブロック図である。 一部の実施形態による、例示的な視覚クエリのスクリーンショットを有するクライアントシステムを示す図である。 一部の実施形態による、境界ボックスを伴う対話型結果ドキュメントのスクリーンショットを有するクライアントシステムを示す図である。 一部の実施形態による、境界ボックスを伴う対話型結果ドキュメントのスクリーンショットを有するクライアントシステムを示す図である。 一部の実施形態による、タイプごとにコード化された対話型結果ドキュメントのスクリーンショットを有するクライアントシステムを示す図である。 一部の実施形態による、ラベルを伴う対話型結果ドキュメントのスクリーンショットを有するクライアントシステムを示す図である。 一部の実施形態による、結果一覧と同時に表示される対話型結果ドキュメントおよび視覚クエリのスクリーンショットを示す図である。
次に、その例を添付図面に示す諸実施形態について詳しく言及する。以下の詳細な説明では、本発明の完全な理解を与えるために数多くの具体的詳細を記載する。しかし、本発明はそれらの具体的詳細なしに実施され得ることが当業者には明らかであろう。他の例では、実施形態の諸側面を無用に不明瞭にしないように、よく知られている方法、手法、コンポーネント、回路、およびネットワークについて詳しくは記載していない。
本明細書では様々な要素を説明するために第1の、第2のなどの語を使用する場合があるが、これらの要素はこれらの語によって限定されるべきではないことも理解されたい。これらの語は、単にある要素を別の要素と区別するために使用する。例えば、本発明の範囲から逸脱せずに第1の接点を第2の接点と称することができ、同様に第2の接点を第1の接点と称することもできる。第1の接点および第2の接点はいずれも接点だが、同じ接点ではない、
本明細書の本発明の説明の中で使用する用語は、特定の実施形態を説明するためのものに過ぎず、本発明を限定するように意図されていない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「a」、「an」および「the」は、特に明確な指示がない限り複数形も含むことを意図する。本明細書で使用するとき、用語「および/または」は、列挙する関連項目の1つまたは複数の任意のおよびあり得るすべての組合せを指し、包含することも理解されたい。さらに本明細書で使用するとき、用語「備える(comprises)」および/または「備えている(comprising)」は、述べた特徴、完全体、ステップ、動作、要素、および/またはコンポーネントが存在することを規定するが、1つもしくは複数の他の特徴、完全体、ステップ、動作、要素、コンポーネント、および/またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されたい。
本明細書で使用するとき、用語「もし(if)」は、文脈に応じて「場合(when)」もしくは「とき(upon)」、または「決定することに応答して(in response to determining)」もしくは「検出することに応答して(in response to detecting)」を意味するものと解釈されてもよい。同様に、語句「決定する場合(if it is determined)」または「検出する場合(if it is detected)」は、文脈に応じて「決定するとき(upon determining)」もしくは「決定することに応答して(in response to determining)」、または「(述べた条件または事象を)検出するとき(upon detecting)」もしくは「(述べた条件または事象を)検出することに応答して(in response to detecting)」を意味するものと解釈されてもよい。
図1は、一部の実施形態による視覚クエリサーバシステムを含むコンピュータネットワークを示すブロック図である。コンピュータネットワーク100は、1つまたは複数のクライアントシステム102および視覚クエリサーバシステム106を含む。これらのコンポーネントを1つまたは複数の通信ネットワーク104が相互接続する。通信ネットワーク104は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、無線ネットワーク、有線ネットワーク、インターネット、またはそうしたネットワークの組合せを含む、様々なネットワークのうちの任意のものとしてもよい。
クライアントシステム102は、視覚クエリ(例えば図11の視覚クエリ1102)を受け取るためにクライアントシステムが実行するクライアントアプリケーション108を含む。視覚クエリとは、検索エンジンまたは検索システムにクエリとしてサブミットされる画像である。視覚クエリの非限定的な例には、写真、スキャンドキュメントおよびスキャン画像、ならびに絵図が含まれる。一部の実施形態では、クライアントアプリケーション108は、検索アプリケーション、ブラウザアプリケーション用の検索エンジンプラグイン、およびブラウザアプリケーション用の検索エンジン拡張機能からなる組から選択される。一部の実施形態では、クライアントアプリケーション108は、視覚クエリとして使用する任意形式の画像をユーザが検索ボックスの中にドラッグアンドドロップすることを可能にする「手当たり次第の(omnivorous)」検索ボックスである。
クライアントシステム102は、視覚クエリサーバシステム106にクエリを送り、視覚クエリサーバシステム106からデータを受け取る。クライアントシステム102は、視覚クエリサーバシステム106と通信することができる任意のコンピュータまたは他の装置としてもよい。非限定的な例には、デスクトップコンピュータおよびノートブックコンピュータ、メインフレームコンピュータ、サーバコンピュータ、携帯電話や携帯情報端末などのモバイル機器、ネットワーク端末、およびセットトップボックスが含まれる。
視覚クエリサーバシステム106は、フロントエンド視覚クエリ処理サーバ110を含む。フロントエンドサーバ110はクライアント102から視覚クエリを受け取り、その視覚クエリを同時処理用の複数の並列検索システム112に送る。検索システム112は互いに異なる視覚クエリ検索処理をそれぞれ実施し、自らの別個の検索処理により視覚クエリを処理するために、必要に応じて自らの対応するデータベース114にアクセスする。例えば顔認識検索システム112−Aは、画像クエリに対する顔の一致を探すために顔画像データベース114−Aにアクセスする。図9に関してより詳細に説明するように、視覚クエリが顔を含む場合、顔認識検索システム112−Aは顔画像データベース114−Aから1つまたは複数の検索結果(例えば名前、一致する顔等)を返す。別の例では、光学的文字認識(OCR)検索システム112−Bが、視覚クエリ内の任意の認識可能テキストを、1つまたは複数の検索結果として返すためのテキストへと変換する。光学的文字認識(OCR)検索システム112−Bでは、図8に関してより詳細に説明するように、特定のフォントまたはテキストパターンを認識するためにOCRデータベース114−Bにアクセスすることができる。
任意の数の並列検索システム112を使用してもよい。一部の例には、顔認識検索システム112−A、OCR検索システム112−B、(オブジェクトまたはオブジェクトカテゴリを認識し得る)画像−用語検索システム112−C、(本の表紙やCDなどの2D画像を認識するように構成してもよく、家具などの3D画像を認識するように構成してもよい)製品認識検索システム、(1Dおよび2D形式のバーコードを認識する)バーコード認識検索システム、固有表現認識検索システム、(エッフェル塔のような特定の有名な名所を認識するように構成することができ、ビルボードなど、特定の画像のコーパスを認識するように構成してもよい)ランドマーク認識、クライアントシステム102内のGPS受信機または携帯電話網が提供する地理位置情報によって支援される場所認識、色認識検索システム、および(視覚クエリに似た画像を検索して特定する)類似画像検索システムが含まれる。図1のシステム112−Nによって示す、さらなる検索システムを追加の並列検索システムとして加えることができる。OCR検索システムを除くすべての検索システムを、画像一致処理を実行する検索システムとして本明細書では集合的に定義する。OCR検索システムを含むすべての検索システムを、画像によるクエリ検索システムと集合的に呼ぶ。一部の実施形態では、視覚クエリサーバシステム106が、顔認識検索システム112−A、OCR検索システム112−B、および少なくとも1つの他の画像によるクエリ検索システム112を含む。
並列検索システム112は視覚検索クエリを個々に処理し、自らの結果をフロントエンドサーバシステム110に返す。一部の実施形態では、フロントエンドサーバ100は、結果を複合ドキュメントへと集約すること、表示するための結果の一部を選択すること、および結果をランク付けすることのうちの1つまたは複数など、図6に関してより詳細に説明するように検索結果に対して1つまたは複数の解析を行ってもよい。フロントエンドサーバ110は、検索結果をクライアントシステム102に伝える。
クライアントシステム102は、1つまたは複数の検索結果をユーザに提供し得る。それらの結果はディスプレイ上に、音声スピーカにより、またはユーザに情報を伝えるために使用する他の任意の手段によって提供することができる。ユーザは、様々な方法で検索結果と対話してもよい。一部の実施形態では、ユーザの選択、注釈、および検索結果との他の対話を視覚クエリサーバシステム106に伝送し、視覚クエリとともにクエリ/注釈データベース116内に記録する。クエリ/注釈データベース内の情報は、視覚クエリの結果を改善するために使用することができる。一部の実施形態では、クエリ/注釈データベース116からの情報を並列検索システム112に周期的にプッシュし、並列検索システム112はその情報の任意の関連部分を個々のデータベース114内に取り入れる。
コンピュータネットワーク100は、用語クエリに応答して検索を行うための用語クエリサーバシステム118を場合により含んでもよい。用語クエリとは、画像を含む視覚クエリとは対照的に、1つまたは複数の用語を含むクエリである。用語クエリサーバシステム118は、視覚クエリサーバシステム106内の様々な検索エンジンによってもたらされる情報を補足する検索結果を生成するために使用してもよい。用語クエリサーバシステム118から返される結果は、任意の形式を含み得る。用語クエリサーバシステム118は、テキストドキュメント、画像、映像等を含み得る。図1では用語クエリサーバシステム118を別個のシステムとして図示するが、場合により視覚クエリサーバシステム106が用語クエリサーバシステム118を含んでもよい。
視覚クエリサーバシステム106の動作に関するさらなる情報は、図2〜4のフローチャートに関して以下に示す。
図2は、本発明の特定の実施形態による、視覚クエリに応答するための視覚クエリサーバシステムの方法を示すフローチャートである。図2に示す操作のそれぞれは、コンピュータメモリまたはコンピュータ可読記憶媒体の中に記憶される命令に対応し得る。
視覚クエリサーバシステムが、クライアントシステムから視覚クエリを受け取る(202)。図1に関して説明したように、このクライアントシステムは、例えばデスクトップコンピューティング装置、モバイル機器、または別の同様の装置としてもよい(204)。図11に、クライアントシステムの一例上の視覚クエリの一例を示す。
視覚クエリは、任意の適切な形式の画像ドキュメントである。例えば視覚クエリは、写真、スクリーンショット、スキャン画像、または映像の複数のフレームのうちの1フレームもしくはシーケンスとすることができる(206)。一部の実施形態では、視覚クエリはコンテンツオーサリングプログラム(図5、736)が作成する絵図である。そのため、一部の実施形態ではユーザが視覚クエリを「描く」のに対し、他の実施形態ではユーザが視覚クエリをスキャンしまたは撮影する。一部の視覚クエリは、Acrobat、写真編集プログラム、描画プログラム、画像編集プログラムなどの画像生成アプリケーションを使用して作成される。例えば視覚クエリは、ユーザが自身の携帯電話上で友人の写真を撮り、その写真を視覚クエリとしてサーバシステムにサブミットすることから生じることができる。視覚クエリは、ユーザが雑誌のページをスキャンし、またはデスクトップコンピュータ上でウェブページのスクリーンショットをとり、そのスキャンまたはスクリーンショットを視覚クエリとしてサーバシステムにサブミットすることから生じることもできる。一部の実施形態では、視覚クエリはブラウザアプリケーションの検索エンジン拡張機能により、ブラウザアプリケーション用のプラグインにより、またはクライアントシステム102が実行する検索アプリケーションによりサーバシステム106にサブミットされる。視覚クエリは、クライアントシステムが遠隔設置されたサーバに伝送可能な画像をサポートするか、または生成する、(クライアントシステムが実行する)他のアプリケーションプログラムによってサブミットしてもよい。
視覚クエリは、テキスト要素と非テキスト要素との組合せとすることができる(208)。例えばクエリは、道路標識の隣に立っている人物など、画像およびテキストを含む雑誌ページのスキャンとすることができる。視覚クエリは、クライアントシステム内に埋め込まれるカメラによって撮影されたか、またはクライアントシステムによって、スキャンもしくは他の方法で受け取られたドキュメントからの人物の顔の画像を含むことができる。視覚クエリは、テキストだけを含むドキュメントのスキャンとすることもできる。視覚クエリは、森の中にいる数羽の鳥、人物とオブジェクト(例えば車、公園のベンチ等)、人物と動物(例えばペット、家畜、蝶等)など、数多くの別個のサブジェクトの画像とすることもできる。視覚クエリは、2つ以上の別個の要素を有してもよい。例えば視覚クエリは、バーコードと、製品の画像または製品パッケージ上の製品名とを含むことができる。例えば視覚クエリは、本のタイトル、表紙絵、およびバーコードを含む本の表紙の写真とすることができる。以下により詳細に論じるように、一部の例では1つの視覚クエリが、その視覚クエリの様々な部分に対応する2つ以上の別個の検索結果をもたらす。
サーバシステムは、以下のように視覚クエリを処理する。フロントエンドサーバシステムが、同時処理用の複数の並列検索システムに視覚クエリを送る(210)。各検索システムは互いに異なる視覚クエリ検索処理を実施し、すなわち個々の検索システムは独自の処理スキームにより視覚クエリを処理する。
一部の実施形態では、処理するために視覚クエリが送られる検索システムの1つが光学的文字認識(OCR)検索システムである。一部の実施形態では、処理するために視覚クエリが送られる検索システムの1つが顔認識検索システムである。一部の実施形態では、互いに異なる視覚クエリ検索処理を実行する複数の検索システムは、少なくとも光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の別の画像によるクエリ処理を含む(212)。他の画像によるクエリ処理は、これだけに限定されないが、製品認識、バーコード認識、オブジェクトまたはオブジェクトカテゴリ認識、固有表現認識、および色認識が含まれる1組の処理から選択される(212)。
一部の実施形態では、OCR検索システムの後処理として固有表現認識が行われ、有名な人物、位置、オブジェクトなどがあるかどうかOCRのテキスト結果を解析し、固有表現であると特定した用語を用語クエリサーバシステム(図1、118)内で検索する。他の実施形態では、画像−用語検索システムが、有名な名所、ロゴ、人物、アルバムカバー、商標等の画像を認識する。他の実施形態では、画像−用語検索システムとは別に、独特の固有表現の画像によるクエリ処理を利用する。オブジェクトまたはオブジェクトカテゴリ認識システムは、「車」のような総称的な結果の種類を認識する。一部の実施形態では、このシステムは製品ブランド、特定の製品モデルなども認識し、「ポルシェ」のようなより具体的な説明を提供する。検索システムの一部は、特別なユーザに固有の検索システムとすることができる。例えば、色認識および顔認識の特定のバージョンを、目の不自由な人が使用する専用の検索システムとすることができる。
フロントエンドサーバシステムが、並列検索システムから結果を受け取る(214)。一部の実施形態では、それらの結果に検索スコアが付随する。一部の視覚クエリでは、検索システムの一部は関連する結果を見出さない。例えば視覚クエリが花の写真であった場合、顔認識検索システムおよびバーコード検索システムは関連する結果を一切見出さない。一部の実施形態では、関連する結果が見出されない場合、ヌルまたはゼロの検索スコアをその検索システムから受け取る(216)。一部の実施形態では、あらかじめ定めた期間(例えば0.2秒、0.5秒、1秒、2秒、または5秒)を過ぎてもフロントエンドサーバが検索システムから結果を受け取らない場合、フロントエンドサーバは、あたかもそのタイムアウトしたサーバがヌルの検索スコアを生成したかのように受け取られる結果を処理し、他の検索システムから受け取る結果を処理する。
場合により、受け取った検索結果の少なくとも2つが所定の基準を満たすとき、それらの検索結果をランク付けする(218)。一部の実施形態では、所定の基準の1つが無効な結果を除去する。所定の基準は、結果が無効ではないことである。一部の実施形態では、所定の基準の1つが、所定の最小スコアを下回る(例えば適合率に関する)数値スコアを有する結果を除去する。場合により、複数の検索結果をフィルタする(220)。一部の実施形態では、結果の総数が定義済み閾値を上回る場合にのみ結果をフィルタする。一部の実施形態ではすべての結果をランク付けするが、所定の最小スコアを下回る結果は除外する。一部の視覚クエリでは、結果のコンテンツをフィルタする。例えば、結果の一部が個人情報または個人が保護する情報を含む場合、それらの結果をフィルタにかけて除去する。
場合により、視覚クエリサーバシステムは複合検索結果を作成する(222)。複合検索結果を作成することの一実施形態は、図3に関して説明するように、対話型結果ドキュメント内に複数の検索システムの結果を埋め込む場合である。用語クエリサーバシステム(図1、118)は、用語検索の結果を用いて並列検索システムのうちの1つからの結果を増補してもよく、その追加の結果はドキュメントもしくは情報源へのリンク、または視覚クエリに関連し得る追加情報を含むテキストおよび/もしくは画像である。したがって、例えば複合検索結果は、OCRの結果とOCRドキュメント内の固有表現へのリンクとを含んでもよい(224)。
一部の実施形態では、OCR検索システム(図1、112−B)またはフロントエンド視覚クエリ処理サーバ(図1、110)が、テキスト内の関連しそうな語を認識する。例えば、有名な人物や場所などの固有表現を認識し得る。固有表現は、クエリ用語として用語クエリサーバシステム(図1、118)にサブミットされる。一部の実施形態では、用語クエリサーバシステムがもたらす用語クエリの結果を、視覚クエリの結果の中に「リンク」として埋め込む。一部の実施形態では、用語クエリの結果が別個のリンクとして返される。例えば本の表紙の写真が視覚クエリである場合、その本についてオブジェクト認識検索システムが高スコアのヒットをもたらす可能性が高い。そのため、その本のタイトルを得るための用語クエリが用語クエリサーバシステム118上で実行され、視覚クエリの結果とともに用語クエリの結果が返される。一部の実施形態では、用語クエリの結果をラベル付けしたグループ内に提示して、それらを視覚クエリの結果と区別する。結果は個々に検索してもよく、または特に関連のある追加の検索結果をもたらすために、検索クエリ内で認識されるすべての固有表現を使用して検索を行ってもよい。例えば、視覚クエリがパリに関するスキャンされた旅行パンフレットである場合、返される結果は、用語クエリ「ノートルダム」についての検索を開始するための、用語クエリサーバシステム118へのリンクを含むことができる。同様に、複合検索結果は、一般に認められた有名な画像に関するテキスト検索の結果を含む。例えば同じ旅行パンフレットにおいて、「エッフェル塔」や「ルーブル」のようにパンフレット内に写真として示されている有名な目的地についての用語クエリの結果へのライブリンクも(たとえ用語「エッフェル塔」および「ルーブル」がパンフレット自体に登場しなくても)示してもよい。
次いで、視覚クエリサーバシステムが少なくとも1つの結果をクライアントシステムに送る(226)。典型的には、視覚クエリ処理サーバが複数の検索システムの少なくとも一部から複数の検索結果を受け取る場合、視覚クエリ処理サーバは、その複数の検索結果のうちの少なくとも1つをクライアントシステムに送る。一部の視覚クエリでは、1つの検索システムだけが関連する結果を返す。例えば、テキストの画像だけを含む視覚クエリでは、OCRサーバの結果だけが関連する場合がある。一部の視覚クエリでは、1つの検索システムからの1つの結果だけが関連する場合がある。例えば、スキャンしたバーコードに関係する製品だけが関連する場合がある。これらの例では、フロントエンド視覚処理サーバは、関連する1つまたは複数の検索結果だけを返す。一部の視覚クエリでは、複数の検索結果がクライアントシステムに送られ、その複数の検索結果は並列検索システムのうちの複数からの検索結果を含む(228)。これは、視覚クエリの中に複数の別個の画像がある場合に起こり得る。例えば、視覚クエリが馬に乗っている人物の写真であった場合、馬に関するオブジェクト認知結果とともに、その人物の顔認識の結果を表示することができる。一部の実施形態では、特定の画像によるクエリ検索システムのすべての結果をグループ化し、まとめて提供する。例えば、上位N個の顔認識結果を見出し「顔認識結果」の下に表示し、上位N個のオブジェクト認識結果を見出し「オブジェクト認識結果」の下にまとめて表示する。あるいは、以下に論じるように、特定の画像検索システムからの検索結果を画像領域によってグループ化することができる。例えば視覚クエリが2つの顔を含む場合、その両方が顔認識結果をもたらし、それぞれの顔についての結果が別個のグループとして提示される。一部の視覚クエリ(例えばテキストおよび1つまたは複数のオブジェクトの両方の画像を含む視覚クエリ)では、検索結果はOCRの結果と1つまたは複数の画像一致の結果とを含み得る(230)。
一部の実施形態では、ユーザが特定の検索結果についてもっと詳しく知りたい場合がある。例えば、視覚クエリがイルカの写真であり、「画像−用語」検索システムが用語「水」、「イルカ」、「青」、および「ひれ足」を返す場合、ユーザは「ひれ足」についてのテキストベースクエリ用語検索を実行したい場合がある。ユーザが(例えば検索結果内の対応するリンクをクリックし、または他の方法で選択することにより指示するように)用語クエリによる検索を実行したい場合、クエリ用語サーバシステム(図1、118)にアクセスし、選択した1つまたは複数の用語による検索を実行する。対応する検索語の結果が、別個にまたは視覚クエリの結果と併せてクライアントシステム上に表示される(232)。一部の実施形態では、フロントエンド視覚クエリ処理サーバ(図1、110)が、自動で(すなわち最初の視覚クエリ以外のユーザコマンドを一切受け取ることなしに)視覚クエリについての1つまたは複数の最も可能性があるテキスト結果を選択し、用語クエリサーバシステム118上でそれらのテキスト結果を実行し、少なくとも1つの検索結果をクライアントシステムに送ることの一部として、視覚クエリの結果とともにそれらの用語クエリの結果をクライアントシステムに返す(232)。上記の例では、「ひれ足」がイルカの視覚クエリ写真についての第1の用語結果であった場合、フロントエンドサーバは「ひれ足」による用語クエリを実行し、視覚クエリの結果とともにそれらの用語クエリの結果をクライアントシステムに返す。視覚クエリの検索結果をユーザに送る前に、ユーザが選択するのではないかと思われる用語結果を自動で実行するこの実施形態は、ユーザの時間を節約する。一部の実施形態では、上記で説明したようにこれらの結果を複合検索結果として表示する(222)。他の実施形態では、結果は、複合検索結果の代わりに、または複合検索結果に加えて、検索結果一覧の一部である。
図3は、対話型結果ドキュメントにより視覚クエリに応答するプロセスを示すフローチャートである。最初の3つの動作(202、210、214)は図2に関して上述した。並列検索システムから受け取った検索結果から(214)、対話型結果ドキュメントを作成する(302)。
次に対話型結果ドキュメントを作成すること(302)について詳しく説明する。一部の視覚クエリでは、対話型結果ドキュメントが、視覚クエリのそれぞれの副部分の1つまたは複数の視覚的識別子を含む。それぞれの視覚的識別子は、検索結果の少なくとも1つへの少なくとも1つのユーザ選択可能リンクを有する。視覚的識別子は、視覚クエリのそれぞれの副部分を識別する。一部の視覚クエリでは、対話型結果ドキュメントが、1つまたは複数の結果への1つのユーザ選択可能リンクを有する1つの視覚的識別子しか有さない。一部の実施形態では、検索結果の1つまたは複数へのそれぞれのユーザ選択可能リンクが活性化領域を有し、その活性化領域は、対応する視覚的識別子に関連する視覚クエリの副部分に対応する。
一部の実施形態では、視覚的識別子が境界ボックスである(304)。一部の実施形態では、その境界ボックスは、図12Aに示すように視覚クエリの副部分を囲む。境界ボックスは正方形または長方形のボックス型である必要はなく、図12Bに示すように円形、楕円形、(例えば視覚クエリ内のオブジェクトに、視覚クエリ内のエンティティに、または視覚クエリの領域に)準拠する形、不整形、または他の任意の形を含む任意の種類の形とすることができる。一部の視覚クエリでは、境界ボックスが視覚クエリの副部分内の識別可能エンティティの境界の輪郭を描く(306)。一部の実施形態では、各境界ボックスが1つまたは複数の検索結果へのユーザ選択可能リンクを含み、そのユーザ選択可能リンクは、境界ボックスによって囲まれる、視覚クエリの副部分に対応する活性化領域を有する。ユーザが境界ボックス内の空間(ユーザ選択可能リンクの活性化領域)を選択すると、輪郭が描かれた副部分の中の画像に対応する検索結果が返される。
一部の実施形態では、図14に示すように視覚的識別子がラベルである(307)。一部の実施形態では、ラベルは、視覚クエリのそれぞれの副部分内の画像に関連する少なくとも1つの用語を含む。各ラベルは、それぞれの副部分上またはその付近において対話型結果ドキュメント内で提示するためにフォーマットされる。一部の実施形態ではラベルを色分けする。
一部の実施形態では、視覚クエリのそれぞれの副部分内で認識されるエンティティの種類に応じて、視覚的に区別できる方法で提示するためにそれぞれの視覚的識別子をフォーマットする。例えば図13に示すように、製品、人物、商標、および2つのテキスト領域を取り囲む境界ボックスを、各様に特色を与えられた透明な境界ボックスを表す互いに異なるクロスハッチングパターンを使ってそれぞれ提示する。一部の実施形態では、オーバーレイの色、オーバーレイパターン、ラベルの背景色、ラベルの背景パターン、ラベルのフォントの色、枠線色など、視覚的に区別できる方法で提示するために視覚的識別子をフォーマットする。
一部の実施形態では、対話型結果ドキュメント内のユーザ選択可能リンクは、視覚クエリの対応する副部分に関係する1つまたは複数の結果を含むドキュメントもしくはオブジェクトへのリンクである(308)。一部の実施形態では、少なくとも1つの検索結果が視覚クエリの対応する副部分に関係するデータを含む。そのため、ユーザがそれぞれの副部分に関連する選択可能リンクを選択すると、ユーザは視覚クエリのそれぞれの副部分内で認識されるエンティティに対応する検索結果に導かれる。
例えば、視覚クエリがバーコードの写真であった場合、そのバーコードが添付された包装の無関連部分である写真の部分があり得る。対話型結果ドキュメントは、バーコードだけを取り囲む境界ボックスを含んでもよい。ユーザが、輪郭が描かれたバーコードの境界ボックス内を選択すると、そのバーコードの検索結果が表示される。バーコードの検索結果は、1つの結果、そのバーコードに対応する製品名を含んでもよく、またはバーコードの結果は、その製品を購入、吟味等できる様々な場所など、いくつかの結果を含んでもよい。
一部の実施形態では、それぞれの視覚的識別子に対応する視覚クエリの副部分が1つまたは複数の語からなるテキストを含む場合、それぞれの視覚的識別子に対応する検索結果は、そのテキスト内の語の少なくとも1つによる用語クエリ検索の結果を含む。一部の実施形態では、それぞれの視覚的識別子に対応する視覚クエリの副部分が、所定の信頼性(または他の)基準を満たす少なくとも1つの一致(すなわち検索結果)が見出される人物の顔を含む場合、それぞれの視覚的識別子に対応する検索結果は、選択可能な副部分内に顔が含まれている人物、選択可能な副部分内に顔が含まれている人物の他の画像、およびその人物の顔に関する潜在的な画像の一致に関連する名前、ハンドル、連絡先情報、アカウント情報、アドレス情報、かかわりのあるモバイル機器の現在地のうちの1つまたは複数を含む。一部の実施形態では、それぞれの視覚的識別子に対応する視覚クエリの副部分が、所定の信頼性(または他の)基準を満たす少なくとも1つの一致(すなわち検索結果)が見出される製品を含む場合、それぞれの視覚的識別子に対応する検索結果は、製品情報、製品レビュー、その製品の購入を開始するオプション、その製品に対する入札を開始するオプション、同様の製品の一覧、および関連製品の一覧のうちの1つまたは複数を含む。
場合により、対話型結果ドキュメント内のそれぞれのユーザ選択可能リンクは、リンクを活性化する必要なしにドキュメント内に表示されるアンカーテキストを含む。アンカーテキストは、リンクを活性化するときに得られる情報に関係する主要語や重要語などの情報を提供する。アンカーテキストは、ラベルの一部として(307)、または境界ボックスの一部の中に(304)、またはユーザが1秒などの所定期間にわたりユーザ選択可能リンク上にカーソルを乗せるときに表示される追加情報として表示されてもよい。
場合により、対話型結果ドキュメント内のそれぞれのユーザ選択可能リンクは、テキストベースクエリ(本明細書では用語クエリと呼ぶこともある)に対応する情報またはドキュメントを検索するための検索エンジンへのリンクである。リンクを活性化することは検索エンジンによる検索の実行を引き起こし、クライアントシステムに結果が返されることを伴い、クエリおよび検索エンジンはリンクによって指定される(例えば検索エンジンはリンク内のURLによって指定され、テキストベースの検索クエリはリンクのURLパラメータによって指定される)。場合により、この例におけるリンクは、検索クエリ内のテキストまたは語に特性をもたせるアンカーテキストを含んでもよい。
一部の実施形態では、視覚クエリに応答して生成される対話型結果ドキュメントが、同じ検索システムからの結果に対応する複数のリンクを含むことができる。例えば、視覚クエリを人の集団の画像または写真としてもよい。対話型結果ドキュメントは、それぞれの人物を取り囲む境界ボックスを含んでもよく、その境界ボックスは活性化されると、その集団の中の顔ごとに顔認識検索システムからの結果を返す。一部の視覚クエリでは、対話型結果ドキュメント内の複数のリンクが、複数の検索システムからの検索結果に対応する(310)。例えば、人物と犬の写真が視覚クエリとしてサブミットされた場合、対話型結果ドキュメント内の境界ボックスは、その人物と犬とで別々に輪郭を描いてもよい。(対話型結果ドキュメント内の)人物を選択すると、顔認識検索システムからの検索結果が返され、(対話型結果ドキュメント内の)犬を選択すると、画像−用語検索システムからの結果が返される。一部の視覚クエリでは、対話型結果ドキュメントがOCRの結果と画像一致の結果とを含む(312)。例えば、標識の隣に立っている人物の写真が視覚クエリとしてサブミットされた場合、対話型結果ドキュメントは、その人物の視覚的識別子とその標識内のテキストの視覚的識別子とを含んでもよい。同様に、雑誌のスキャンが視覚クエリとして使用された場合、対話型結果ドキュメントは、そのページ上の広告内の写真または商標の視覚的識別子、ならびに同じくそのページ上の記事のテキストの視覚的識別子を含んでもよい。
対話型結果ドキュメントを作成した後、その対話型結果ドキュメントをクライアントシステムに送る(314)。一部の実施形態では、対話型結果ドキュメント(例えば図15、ドキュメント1200)を、図2に関して上記で論じたように1つまたは複数の並列検索システムからの検索結果一覧と併せて送る。一部の実施形態では、図15に示すように、対話型結果ドキュメントを、1つまたは複数の並列検索システムからの検索結果一覧の上にあるいはその一覧に隣接してクライアントシステムにおいて表示する(315)。
場合により、ユーザは、結果ドキュメント内の視覚的識別子を選択することにより結果ドキュメントと対話する。サーバシステムは、対話型結果ドキュメント内の視覚的識別子についてのユーザ選択に関する情報をクライアントシステムから受け取る(316)。上記で論じたように、一部の実施形態では、リンクは境界ボックス内の活性化領域を選択することによって活性化される。他の実施形態では、リンクは、境界ボックスではない視覚クエリの副部分の視覚的識別子をユーザが選択することによって活性化される。一部の実施形態では、リンクされた視覚的識別子は、ホットボタン、副部分の近くに位置するラベル、テキスト内の下線を引いた語、または視覚クエリ内のオブジェクトもしくはサブジェクトの他の表現である。
検索結果一覧が対話型結果ドキュメントとともに提示される実施形態では(315)、ユーザがユーザ選択可能リンクを選択すると(316)、選択されたリンクに対応する検索結果一覧内の検索結果が特定される。一部の実施形態では、選択されたリンクに対応する最初の結果にカーソルがジャンプし、または自動的に移動する。対話型結果ドキュメントおよび全検索結果一覧の両方を表示するにはクライアント102のディスプレイが小さすぎる一部の実施形態では、対話型結果ドキュメント内のリンクを選択することが、選択されたリンクに対応する少なくとも最初の結果を表示するように、検索結果一覧をスクロールまたはジャンプさせる。他の一部の実施形態では、対話型結果ドキュメント内のリンクをユーザが選択することに応答し、そのリンクに対応する最初の結果が結果一覧の最も上に表示されるように結果一覧を並べ替える。
一部の実施形態では、ユーザがユーザ選択可能リンクを選択すると(316)、視覚クエリサーバシステムが、視覚クエリの対応する副部分に関係する結果の少なくとも一部をユーザに表示するためにクライアントに送る(318)。一部の実施形態では、ユーザは複数の視覚的識別子を同時に選択することができ、選択した視覚的識別子のすべての結果の一部を同時に受け取る。他の実施形態では、対話型結果ドキュメント内の1つまたは複数のリンクをユーザが選択することに応答してほぼ瞬時に検索結果をユーザに提供するために、ユーザ選択可能リンクのいずれかをユーザが選択する前に、ユーザ選択可能リンクに対応する検索結果をクライアント上にあらかじめロードしておく。
図4は、クライアントと視覚クエリサーバシステムとの間の通信を示すフローチャートである。クライアント102が、ユーザ/クエリ側から視覚クエリを受け取る(402)。一部の実施形態では、視覚クエリシステムにサインアップし、または「オプトイン」しているユーザからのみ視覚クエリを受け付けることができる。一部の実施形態では、顔認識の一致を得るための検索は顔認識視覚クエリシステムにサインアップしているユーザに対してのみ実行される一方で、他の種類の視覚クエリは、顔認識部分に「オプトイン」しているかいないかに関係なく誰に対しても実行される。
上記で説明したように、視覚クエリの形式は多くの形態をとることができる。視覚クエリは、視覚クエリドキュメントの副部分内に位置する1つまたは複数のサブジェクトを含む可能性が高い。一部の視覚クエリでは、クライアントシステム102が視覚クエリに対してタイプ認識事前処理を実行する(404)。一部の実施形態では、クライアントシステム102が、この事前処理システム内で特定の認識可能パターンを検索する。例えば一部の視覚クエリでは、クライアントが色を認識し得る。一部の視覚クエリでは、クライアントは特定の副部分が(その領域が淡い空間によって囲まれる小さな濃い文字で構成されている等の理由で)テキストを含む可能性が高いと認識し得る。クライアントは、任意の数の事前処理タイプ認識器またはタイプ認識モジュールを含み得る。一部の実施形態では、クライアントが、バーコードを認識するためのタイプ認識モジュール(バーコード認識406)を有する。クライアントは、長方形領域内の特有の縞模様を認識することによってバーコードを認識し得る。一部の実施形態では、クライアントは、視覚クエリの特定のサブジェクトまたは副部分が顔を含む可能性が高いことを認識するためのタイプ認識モジュール(顔検出408)を有する。
一部の実施形態では、認識した「タイプ」を検証するためにユーザに返す。例えばクライアントシステム102は、「あなたの視覚クエリの中にバーコードが見つかりました。バーコードのクエリ結果を受け取りたいですか?」と述べるメッセージを返すことができる。一部の実施形態では、メッセージは、そのタイプが見つかった視覚クエリの副部分さえも示し得る。一部の実施形態では、この提示は図3に関して論じた対話型結果ドキュメントに似ている。例えばこの提示は、視覚クエリの副部分の輪郭を描いてもよく、その副部分が顔を含む可能性が高いことを示してもよく、ユーザに顔認識結果を受け取りたいかどうか尋ねてもよい。
クライアント102が視覚クエリのオプションの事前処理を実行した後、クライアントは、その視覚クエリを視覚クエリサーバシステム106、とりわけフロントエンド視覚クエリ処理サーバ110に送る。一部の実施形態では、事前処理が関連する結果をもたらした場合、すなわちタイプ認識モジュールの1つが、クエリまたはクエリの副部分が特定のタイプ(顔、テキスト、バーコード等)のものである可能性が高いことを示す一定の閾値を上回る結果をもたらした場合、クライアントは事前処理の結果に関する情報を伝える。例えばクライアントは、視覚クエリの特定の副部分が顔を含むと顔認識モジュールが75%確信していることを示し得る。より一般には、事前処理の結果が、もしあれば、1つまたは複数のサブジェクトタイプ値(例えばバーコード、顔、テキスト等)を含む。場合により、視覚クエリサーバシステムに送られる事前処理の結果は、事前処理結果内の各サブジェクトタイプ値について、そのサブジェクトタイプ値に対応する視覚クエリの副部分を特定する情報、ならびに事前処理結果内の各サブジェクトタイプ値について、そのサブジェクトタイプ値の信頼水準を示す信頼値および/または視覚クエリの対応する副部分の特定についての信頼水準を示す信頼値のうちの1つまたは複数を含む。
フロントエンドサーバ110が、クライアントシステムから視覚クエリを受け取る(202)。受け取られる視覚クエリは、上記で論じた事前処理情報を含み得る。上記で説明したように、フロントエンドサーバが視覚クエリを複数の並列検索システムに送る(210)。特定の種類のサブジェクトを副部分が含んでいた可能性に関する事前処理情報をフロントエンドサーバ110が受け取る場合、フロントエンドサーバは、この情報を並列検索システムの1つまたは複数に伝えてもよい。例えばフロントエンドサーバは、特定の副部分が顔である可能性が高いという情報を伝えてもよく、それにより、顔認識検索システム112−Aは視覚クエリのその小区分を最初に処理することができる。同様に、その副部分を無視するために、または他の副部分を最初に解析するために、他の並列検索システムは(特定の副部分が顔である可能性が高いという)同一情報を送ることを使用してもよい。一部の実施形態では、フロントエンドサーバは、事前処理情報を並列検索システムに伝えないが、代わりにこの情報を使用して、並列検索システムから受け取る結果を自らが処理する方法を増強する。
図2に関して説明したように、一部の視覚クエリに関しては、フロントエンドサーバ110が並列検索システムから複数の検索結果を受け取る(214)。次いで、図2および図3に関して説明したように、フロントエンドサーバは、様々なランク付けおよびフィルタリングを実行してもよく、対話型検索結果ドキュメントを作成してもよい。特定の種類のサブジェクトを副部分が含んでいた可能性に関する事前処理情報をフロントエンドサーバ110が受け取る場合、フロントエンドサーバは、事前処理され認識されたサブジェクトタイプに一致する結果を優先することにより、フィルタおよび順序付けしてもよい。特定の種類の結果を要求したことをユーザが示した場合、フロントエンドサーバは結果を処理する際にユーザの要求を考慮に入れる。例えばフロントエンドサーバは、ユーザがバーコード情報だけを要求した場合、他のすべての結果をフィルタにかけて除去してもよく、または他の結果を列挙する前に要求された種類に関連するすべての結果を列挙する。対話型視覚クエリドキュメントが返される場合、サーバは、ユーザが関心をもっていると示した結果の種類に関連するリンクを事前に検索し得る一方で、対話型結果ドキュメント内に示される他のサブジェクトについては、関係する検索を行うためのリンクを提供するに過ぎない。次いで、フロントエンドサーバ110が、検索結果をクライアントシステムに送る(226)。
クライアント102が、サーバシステムから結果を受け取る(412)。該当する場合、これらの結果は事前処理段階で見つかる結果の種類に一致する結果を含む。例えば一部の実施形態では、これらの結果は、1つもしくは複数のバーコードの結果(414)、または1つもしくは複数の顔認識の結果(416)を含む。特定の種類の結果が見込まれることをクライアントの事前処理モジュールが示し、その結果が見つかった場合、その種類の見つかった結果を目立つように列挙する。
場合により、ユーザが結果の1つまたは複数を選択し、または注釈を付ける(418)。ユーザは、1つの検索結果を選択してもよく、特定の種類の検索結果を選択してもよく、かつ/または対話型結果ドキュメントの一部を選択してもよい(420)。結果が選択されることは、返した結果がクエリに関連していたという暗黙のフィードバックである。そのようなフィードバック情報は、将来のクエリ処理操作で利用することができる。注釈は返された結果に関する明示的なフィードバックを提供し、同じく将来のクエリ処理操作で利用することができる。注釈は、(誤ってOCRされた語を訂正するように)返された結果の一部を訂正すること、または(自由な形式のまたは構造化された)別個の注釈の形をとる。
ユーザが1つの検索結果を選択すること、一般にいくつかの同じ種類から「正しい」結果を選択すること(例えば顔認識サーバからの正しい結果を選択すること)は、解釈の中での選択(selection among interpretations)と呼ばれるプロセスである。ユーザが特定の種類の検索結果を選択すること、一般にいくつかの異なる種類の返される結果から関心のある結果の「種類」を選択すること(例えば雑誌の中の広告の視覚的結果ではなく、やはり同じページ上の記事のOCRされたテキストを選択すること)は、意図の曖昧性除去と呼ばれるプロセスである。図8に関して詳しく説明するように、ユーザは、OCRされたドキュメント内の特定のリンクされた語(認識されている固有表現など)を同様に選択してもよい。
ユーザは、代わりにまたは加えて、特定の検索結果に注釈を付けたいことがある。この注釈を付けることは、自由形式スタイルで、または構造化された形式で行ってもよい(422)。注釈は、結果の説明としてもよく、または結果のレビューとしてもよい。例えば注釈は、結果内の1つもしくは複数のサブジェクトの名前を示してもよく、または「これは良書だ」や「この製品は購入してから1年以内に壊れた」ことを示すことができる。注釈の別の例は、視覚クエリの副部分を取り囲むユーザによって描かれる境界ボックス、および境界ボックス内のオブジェクトまたはサブジェクトを特定するユーザによって提供されるテキストである。ユーザの注釈については図5に関してより詳細に説明する。
検索結果のユーザ選択および他の注釈をサーバシステムに送る(424)。フロントエンドサーバ110がその選択および注釈を受け取り、それらをさらに処理する(426)。この情報が、対話型結果ドキュメント内のオブジェクト、副領域、または用語の選択であった場合、その選択に関するさらなる情報を必要に応じて要求してもよい。例えば選択が1つの視覚的結果についての選択であった場合、その視覚的結果に関するさらなる情報が要求される。選択が(OCRサーバまたは画像−用語サーバからの)語であった場合、その語のテキスト検索が用語クエリサーバシステム118に送られる。選択が顔画像認識検索システムからの人物についての選択であった場合、その人物のプロファイルが要求される。選択が対話型検索結果ドキュメントの特定の部分についてのものであった場合、基礎をなす視覚クエリの結果が要求される。
サーバシステムが注釈を受け取る場合、図5に関して説明するように、その注釈はクエリ/注釈データベース116内に記憶される。その後、図7〜10に関して以下で論じるように、注釈データベース116からの情報を、並列サーバシステムの1つまたは複数のための個々の注釈データベースに周期的にコピーする。
図5は、本発明の一実施形態によるクライアントシステム102を示すブロック図である。クライアントシステム102は、典型的には1個または複数個の処理ユニット(CPU)702、1つまたは複数のネットワークインターフェイスもしくは他の通信インターフェイス704、メモリ712、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス714を含む。クライアントシステム102は、ユーザインターフェイス705を含む。ユーザインターフェイス705は、ディスプレイ装置706を含み、場合によりキーボード、マウス、他の入力ボタン708などの入力手段を含む。あるいは、またはそれに加えて、ディスプレイ装置706はタッチセンス表面709を含み、その場合、ディスプレイ706/709はタッチセンスディスプレイである。タッチセンスディスプレイ706/709を有するクライアントシステムでは、物理的なキーボードはオプションである(例えばキーボード入力が必要な場合はソフトキーボードを表示してもよい)。さらに、一部のクライアントシステムは、マイクロフォンおよび音声認識を使用してキーボードを補足しまたは置換する。場合により、クライアント102は、自らの位置を求めるためのGPS(地球投影位置決定衛星)受信機または他の位置検出機器707を含む。一部の実施形態では、クライアントシステム102の位置を示す位置情報をクライアントシステム102が視覚クエリサーバシステムに提供することを必要とする、視覚クエリ検索サービスが提供される。
クライアントシステム102は、カメラやスキャナなどの画像取込装置710も含む。メモリ712には、DRAM、SRAM、DDR RAM、または他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリが含まれ、1つまたは複数の磁気ディスク記憶装置、光学ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶デバイスなどの不揮発性メモリが含まれ得る。メモリ712には、1個または複数個のCPU702から離れて位置する1つまたは複数の記憶装置が場合により含まれ得る。メモリ712あるいはメモリ712内の1つまたは複数の不揮発性メモリ装置は、持続性コンピュータ可読記憶媒体を含む。一部の実施形態では、メモリ712またはメモリ712のコンピュータ可読記憶媒体が、以下のプログラム、モジュール、およびデータ構造またはその一部を記憶する。
・ 様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム716。
・ クライアントシステム102を、1つまたは複数の通信ネットワークインターフェイス704(有線または無線)、およびインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して他のコンピュータに接続するために使用するネットワーク通信モジュール718。
・ 画像取込装置/カメラ710が取り込んだそれぞれの画像を処理するための画像取込モジュール720であって、それぞれの画像は(例えばクライアントアプリケーションモジュールにより)、視覚クエリとして視覚クエリサーバシステムに送ってもよい。
・ これだけに限定されないが、視覚クエリサーバシステムに視覚クエリをサブミットするための画像によるクエリサブミットモジュール724、場合により、画像内の関心領域が選択されたこと(タッチセンスディスプレイ706/709上でのジェスチャなど)を検出し、その関心領域を視覚クエリとして準備する関心領域選択モジュール725、視覚クエリの結果を表示するための結果ブラウザ726、および場合により、フォームに記入するなどの構造化された注釈テキスト入力のためのオプションモジュール730を有し、または様々な形式からの注釈を受け付けることができる自由形式の注釈テキスト入力のためのオプションモジュール732を有し、ユーザが注釈用に画像の特定の副部分を選択することを可能にする画像領域選択モジュール734(本明細書では結果選択モジュールと呼ぶこともある)を有する注釈モジュール728を含む、画像によるクエリを行う様々な側面を処理するための1つまたは複数のクライアントアプリケーションモジュール722。
・ 画像取込装置710により単に画像を取り込むのではなく、画像を作成しまたは編集することによりユーザが視覚クエリを作成することを可能にする、1つまたは複数のオプションのコンテンツオーサリングアプリケーション736、場合により、そのようなアプリケーション736の1つは、視覚クエリとして使用するための画像の副部分をユーザが選択できるようにする命令を含んでもよい。
・ 視覚クエリサーバシステムに送る前に視覚クエリを事前処理する、オプションのローカル画像解析モジュール738。ローカル画像解析は、特定の種類の画像または画像内の副領域を認識し得る。そのようなモジュール738が認識し得る画像の種類の例には、顔タイプ(視覚クエリ内で認識される顔画像)、バーコードタイプ(視覚クエリ内で認識されるバーコード)、およびテキストタイプ(視覚クエリ内で認識されるテキスト)のうちの1つまたは複数が含まれる。
・ 電子メールアプリケーション、電話アプリケーション、ブラウザアプリケーション、マッピングアプリケーション、インスタントメッセージングアプリケーション、ソーシャルネットワーキングアプリケーションなど、さらなるオプションのクライアントアプリケーション740。一部の実施形態では、作動可能検索結果を選択すると、該当する作動可能検索結果に対応するアプリケーションを起動し、またはそのアプリケーションにアクセスすることができる。
場合により、ユーザが注釈用に画像の特定の副部分を選択することを可能にする画像領域選択モジュール734は、ユーザが、必ずしもさらなる注釈を付けることなく検索結果を「正しい」ヒットとして選択することも可能にする。例えば、ユーザに上位N個の顔認識の一致を提示してもよく、ユーザがその結果一覧から正しい人物を選択してもよい。一部の検索クエリでは、複数の種類の結果が提示され、ユーザは結果の種類を選択する。例えば、画像クエリが木の隣に立っている人物を含むが、ユーザはその人物に関する結果だけに興味がある場合がある。したがって画像選択モジュール734は、ユーザが、どの画像の種類が「正しい」種類であるか、すなわちそのユーザが受け取りたいと思う種類であるかを指示することを可能にする。ユーザは、(フォームに記入するための)注釈テキスト入力モジュール730または自由形式注釈テキスト入力モジュール732のいずれかを使用し、個人的なコメントまたは説明的な言葉を加えることにより検索結果に注釈を付けたい場合もある。
一部の実施形態では、オプションのローカル画像解析モジュール738がクライアントアプリケーション(図1、108)の一部である。さらに一部の実施形態では、オプションのローカル画像解析モジュール738が、視覚クエリまたは視覚クエリの一部を事前処理しもしくは分類するためのローカル画像解析を実行するための、1つまたは複数のプログラムを含む。例えばクライアントアプリケーション722は、検索エンジンに視覚クエリをサブミットする前に画像がバーコード、顔、またはテキストを含むことを認識し得る。一部の実施形態では、視覚クエリが特定の種類の画像を含むとローカル画像解析モジュール738が検出する場合、そのモジュールは、対応する種類の検索結果に興味があるかどうかをユーザに尋ねる。例えば、ローカル画像解析モジュール738は、その一般的特徴に基づいて(すなわち誰の顔かを決定することなしに)顔を検出し得、視覚クエリサーバシステムにクエリを送る前にユーザに即時フィードバックを提供する。ローカル画像解析モジュール738は、「顔を検出しました。この顔について顔認識の一致を得たいですか?」のような結果を返してもよい。このようにすることで、視覚クエリサーバシステム(図1、106)の時間を節約し得る。一部の視覚クエリでは、フロントエンド視覚クエリ処理サーバ(図1、110)は、ローカル画像解析モジュール738が認識した画像の種類に対応する検索システム112にしか視覚クエリを送らない。他の実施形態では、検索システム112への視覚クエリは、検索システム112A〜Nのすべてに視覚クエリを送ってもよいが、ローカル画像解析モジュール738が認識した画像の種類に対応する、検索システム112からの結果をランク付けする。一部の実施形態では、視覚クエリサーバシステムの動作にローカル画像解析が影響を及ぼす様式は、クライアントシステムの構成、またはユーザもしくはクライアントシステムに関連する構成または処理パラメータによって決まる。さらに、任意の特定の視覚クエリの実際のコンテンツおよびローカル画像解析によってもたらされる結果は、クライアントシステムおよび視覚クエリサーバシステムのいずれかまたは両方において異なるように処理すべき異なる視覚クエリをもたらす場合がある。
一部の実施形態では、バーコード認識を2つのステップで行い、視覚クエリがバーコードを含むかどうかの解析を、ローカル画像解析モジュール738においてクライアントシステム上で実行する。次いで、視覚クエリがバーコードを含む可能性が高いとクライアントが判断する場合にのみ、視覚クエリをバーコード検索システムに渡す。他の実施形態では、バーコード検索システムがすべての視覚クエリを処理する。
場合により、クライアントシステム102は、追加のクライアントアプリケーション740を含む。
図6は、本発明の一実施形態によるフロントエンド視覚クエリ処理サーバシステム110を示すブロック図である。フロントエンドサーバ110は、典型的には1個または複数個の処理ユニット(CPU)802、1つまたは複数のネットワークインターフェイスもしくは他の通信インターフェイス804、メモリ812、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス814を含む。メモリ812には、DRAM、SRAM、DDR RAM、または他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリが含まれ、1つまたは複数の磁気ディスク記憶装置、光学ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶デバイスなどの不揮発性メモリが含まれ得る。メモリ812には、1個または複数個のCPU802から離れて位置する1つまたは複数の記憶装置が場合により含まれ得る。メモリ812あるいはメモリ812内の1つまたは複数の不揮発性メモリ装置は、持続性コンピュータ可読記憶媒体を含む。一部の実施形態では、メモリ812またはメモリ812のコンピュータ可読記憶媒体が、以下のプログラム、モジュール、およびデータ構造またはその一部を記憶する。
・ 様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム816。
・ フロントエンドサーバシステム110を、1つまたは複数の通信ネットワークインターフェイス804(有線または無線)、およびインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して他のコンピュータに接続するために使用するネットワーク通信モジュール818。
・ クライアントシステム102から来る視覚クエリを処理し、それらの視覚クエリを複数の並列検索システムに送るためのクエリマネージャ820であって、本明細書のいたるところに記載するように、視覚クエリがクライアントによって生成された命令(例えば「顔認識検索のみ」)を含む場合など、一部の特別な状況では視覚クエリを検索システムのうちの1つだけに導くことがある。
・ 1つまたは複数の並列検索システムからの結果を場合によりフィルタし、提示するために最上位のまたは「関連する」結果をクライアントシステム102に送るための結果フィルタリングモジュール822。
・ 1つまたは複数の並列検索システムからの結果を場合によりランク付けし、提示するために結果をフォーマットするための結果ランク付け/フォーマットモジュール824。
・ 結果ドキュメント作成モジュール826は、対話型検索結果ドキュメントを作成するために適切な場合に使用し、モジュール826は、これだけに限定されないが、境界ボックス作成モジュール828およびリンク作成モジュール830を含むサブモジュールを含んでもよい。
・ 視覚クエリのそれぞれの副部分の視覚的識別子であるラベルを作成するための、ラベル作成モジュール831。
・ ユーザから注釈を受け取り、それらの注釈を注釈データベース116に送るための注釈モジュール832。
・ 視覚クエリに応答し、クライアント側のアクションを起動するようにそれぞれが構成される、1つまたは複数の作動可能検索結果要素を生成するための作動可能検索結果モジュール838であって、作動可能検索結果要素の例は、通話を開始するためのボタン、電子メールメッセージを開始するためのボタン、住所の地図を描くためのボタン、レストランを予約するためのボタン、および製品を購入するオプションを提供するためのボタンである。
・ データベース自体834およびデータベースの索引836を含む、クエリ/注釈データベース116。
結果ランク付け/フォーマットモジュール824は、1つまたは複数の並列検索システム(図1、112−A〜112−N)から返される結果をランク付けする。既に上記で述べたように、一部の視覚クエリでは、1つの検索システムからの結果しか関連しない場合がある。そのような場合、その1つの検索システムからの関連する検索結果だけをランク付けする。一部の視覚クエリでは、数種類の検索結果が関連することがある。これらの例では、一部の実施形態において、結果ランク付け/フォーマットモジュール824は、より関連性が低い検索システムの結果に優先して、最も関連する結果(例えば最も高い関連性スコアを有する結果)を有する検索システムからの結果のすべてをランク付けする。他の実施形態では、結果ランク付け/フォーマットモジュール824が、関連する各検索システムからの最上位の結果を残りの結果に優先してランク付けする。一部の実施形態では、結果ランク付け/フォーマットモジュール824が、検索結果のそれぞれについて計算される関連性スコアに従って結果をランク付けする。一部の視覚クエリでは、並列視覚検索システムによる検索に加えて拡張(augmented)テキストクエリを実行する。一部の実施形態では、テキストクエリも実行する場合、それらの結果を視覚検索システムの結果と視覚的に区別できる方法で提示する。
結果ランク付け/フォーマットモジュール824はさらに、結果をフォーマットする。一部の実施形態では、結果が一覧形式で提示される。一部の実施形態では、結果が対話型結果ドキュメントによって提示される。一部の実施形態では、対話型結果ドキュメントおよび結果一覧の両方が提示される。一部の実施形態では、クエリの種類が、結果を提示する方法を決定づける。例えば、視覚クエリ内で複数の検索可能サブジェクトが検出される場合、対話型結果ドキュメントが作成されるのに対し、検索可能サブジェクトが1つしか検出されない場合、結果は一覧形式でのみ表示される。
結果ドキュメント作成モジュール826は、対話型検索結果ドキュメントを作成するために使用する。対話型検索結果ドキュメントは、1つまたは複数の検出済みおよび検索済みサブジェクトを有し得る。境界ボックス作成モジュール828は、検索済みサブジェクトのうちの1つまたは複数を取り囲む境界ボックスを作成する。境界ボックスは長方形のボックスとしてもよく、または1つもしくは複数のサブジェクトの1つもしくは複数の形の輪郭を描いてもよい。リンク作成モジュール830は、対話型検索結果ドキュメント内のそれぞれのサブジェクトに関連する検索結果へのリンクを作成する。一部の実施形態では、境界ボックス領域内でクリックすることは、リンク作成モジュールが挿入した対応するリンクを活性化する。
クエリ/注釈データベース116は、視覚クエリの結果を改善するために使用することができる情報を含む。一部の実施形態では、視覚クエリの結果が提示された後、ユーザは画像に注釈を付けてもよい。さらに一部の実施形態では、ユーザは、画像に注釈を付けてからその画像を視覚クエリ検索システムに送ってもよい。事前に注釈を付けることは、結果の的を絞ることにより、または視覚クエリ検索に並列して注釈が付けられた語に対するテキストベース検索を実行することにより、視覚クエリの処理を促進し得る。一部の実施形態では、潜在的な画像一致ヒットとして返されるように、注釈を付けたバージョンの写真を(例えばその画像および1つまたは複数の注釈を非公開ではないと指定することにより、例えばユーザに公開する許可が与えられている場合)公開することができる。例えば、ユーザが花の写真を撮り、その花に関する詳細な属および種の情報を与えることによりその画像に注釈を付ける場合、ユーザは、その花を探している視覚クエリ調査を行うすべての人にその画像を提示したい場合がある。一部の実施形態では、クエリ/注釈データベース116からの情報を並列検索システム112に周期的にプッシュし、並列検索システム112はその情報の関連部分を(もしあれば)個々のデータベース114内に取り入れる。
図7は、視覚クエリを処理するために利用する並列検索システムのうちの1つを示すブロック図である。図7は、本発明の一実施形態による「汎用」サーバシステム112−Nを示す。このサーバシステムは、視覚クエリ検索サーバ112−Nのうちのいずれか1つを表すという点でのみ汎用である。汎用サーバシステム112−Nは、典型的には1個または複数個の処理ユニット(CPU)502、1つまたは複数のネットワークインターフェイスもしくは他の通信インターフェイス504、メモリ512、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス514を含む。メモリ512には、DRAM、SRAM、DDR RAM、または他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリが含まれ、1つまたは複数の磁気ディスク記憶装置、光学ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶デバイスなどの不揮発性メモリが含まれ得る。メモリ512には、1個または複数個のCPU502から離れて位置する1つまたは複数の記憶装置が場合により含まれ得る。メモリ512あるいはメモリ512内の1つまたは複数の不揮発性メモリ装置は、持続性コンピュータ可読記憶媒体を含む。一部の実施形態では、メモリ512またはメモリ512のコンピュータ可読記憶媒体が、以下のプログラム、モジュール、およびデータ構造またはその一部を記憶する。
・ 様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム516。
・ 汎用サーバシステム112−Nを、1つまたは複数の通信ネットワークインターフェイス504(有線または無線)、およびインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して他のコンピュータに接続するために使用するネットワーク通信モジュール518。
・ 特定のサーバシステムに固有の検索アプリケーション520であって、検索アプリケーション520は、例えばバーコード検索アプリケーション、色認識検索アプリケーション、製品認識検索アプリケーション、オブジェクトまたはオブジェクトカテゴリ検索アプリケーション等としてもよい。
・ 特定の検索アプリケーションが索引を利用する場合は、オプションの索引522。
・ 特定の検索アプリケーションに関連する画像を記憶するためのオプションの画像データベース524であって、記憶される画像データは、もしあれば、検索処理の種類に依拠する。
・ 検索アプリケーションからの結果にランク付けするためのオプションの結果ランク付けモジュール526(関連性スコアリングモジュールと呼ぶこともある)であって、このランク付けモジュールは、検索アプリケーションからの結果ごとに関連性スコアを割り当ててもよく、所定の最小スコアに達する結果がない場合、このサーバシステムの結果が関連しないことを示すヌルまたはゼロ値スコアをフロントエンド視覚クエリ処理サーバに返してもよい。
・ 注釈データベース(図1、116)から注釈情報を受け取り、注釈情報のいずれかが特定の検索アプリケーションに関連するかどうかを判定し、注釈情報のうちの決定した任意の関連部分をそれぞれの注釈データベース530内に取り入れるための注釈モジュール528。
図8は、本発明の一実施形態による、視覚クエリを処理するために利用するOCR検索システム112−Bを示すブロック図である。OCR検索システム112−Bは、典型的には1個または複数個の処理ユニット(CPU)602、1つまたは複数のネットワークインターフェイスもしくは他の通信インターフェイス604、メモリ612、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス614を含む。メモリ612には、DRAM、SRAM、DDR RAM、または他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリが含まれ、1つまたは複数の磁気ディスク記憶装置、光学ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶デバイスなどの不揮発性メモリが含まれ得る。メモリ612には、1個または複数個のCPU602から離れて位置する1つまたは複数の記憶装置が場合により含まれ得る。メモリ612あるいはメモリ612内の1つまたは複数の不揮発性メモリ装置は、持続性コンピュータ可読記憶媒体を含む。一部の実施形態では、メモリ612またはメモリ612のコンピュータ可読記憶媒体が、以下のプログラム、モジュール、およびデータ構造またはその一部を記憶する。
・ 様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム616。
・ OCR検索システム112−Bを、1つまたは複数の通信ネットワークインターフェイス604(有線または無線)、およびインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して他のコンピュータに接続するために使用するネットワーク通信モジュール618。
・ 視覚クエリ内のテキストを認識しようと試み、文字画像を文字へと変換する光学的文字認識(OCR)モジュール620。
・ OCRモジュール620が特定のフォント、テキストパターン、および文字認識に固有の他の特徴を認識するために利用する、オプションのOCRデータベース114−B。
・ 変換された語を辞書と突き合わせて確認し、さもなければ辞書の語に一致する語の中のもしかしたら誤変換された文字を置換することにより、文字画像の文字への変換を改善するオプションのスペルチェックモジュール622。
・ 変換されたテキスト内で固有表現を探し、認識した固有表現を用語クエリ内の用語として用語クエリサーバシステム(図1、118)に送り、用語クエリサーバシステムからの結果を、認識した固有表現に関連するOCR済みテキスト内に埋め込まれたリンクとして提供する、オプションの固有表現認識モジュール624。
・ 変換されたセグメント(変換された文や段落など)をテキストセグメントのデータベースと突き合わせて確認し、さもなければテキスト一致アプリケーションのテキストセグメントに一致するOCR済みテキストセグメントの中のもしかしたら誤変換された文字を置換することにより、文字画像の文字への変換を改善するオプションのテキスト一致アプリケーション632であって、一部の実施形態では、テキスト一致アプリケーションが見つけるテキストセグメントがリンクとしてユーザに提供される(例えばユーザがNew York Timesの1ページをスキャンした場合、テキスト一致アプリケーションはNew York Timesのウェブサイト上に投稿されたすべての記事へのリンクを提供してもよい)。
・ OCRされた結果を提示するためにフォーマットし、固有表現へのオプションのリンクをフォーマットし、さらにテキスト一致アプリケーションからの関係する任意の結果を場合によりランク付けするための結果ランク付け/フォーマットモジュール626。
・ 注釈データベース(図1、116)から注釈情報を受け取り、注釈情報のいずれかがOCR検索システムに関連するかどうかを判定し、注釈情報のうちの決定した任意の関連部分をそれぞれの注釈データベース630内に取り入れるためのオプションの注釈モジュール628。
図9は、本発明の一実施形態による、視覚クエリを処理するために利用する顔認識検索システム112−Aを示すブロック図である。顔認識検索システム112−Aは、典型的には1個または複数個の処理ユニット(CPU)902、1つまたは複数のネットワークインターフェイスもしくは他の通信インターフェイス904、メモリ912、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス914を含む。メモリ912には、DRAM、SRAM、DDR RAM、または他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリが含まれ、1つまたは複数の磁気ディスク記憶装置、光学ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶デバイスなどの不揮発性メモリが含まれ得る。メモリ912には、1個または複数個のCPU902から離れて位置する1つまたは複数の記憶装置が場合により含まれ得る。メモリ912あるいはメモリ912内の1つまたは複数の不揮発性メモリ装置は、持続性コンピュータ可読記憶媒体を含む。一部の実施形態では、メモリ912またはメモリ912のコンピュータ可読記憶媒体が、以下のプログラム、モジュール、およびデータ構造またはその一部を記憶する。
・ 様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム916。
・ 顔認識検索システム112−Aを、1つまたは複数の通信ネットワークインターフェイス904(有線または無線)、およびインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して他のコンピュータに接続するために使用するネットワーク通信モジュール918。
・ 視覚クエリ内で提示される1つまたは複数の顔に一致する顔画像を顔画像データベース114−A内で検索し、顔画像データベース114−A内で見つかったそれぞれの一致に関連する情報を求めてソーシャルネットワークデータベース922を検索するための、顔認識検索アプリケーション920。
・ 複数のユーザの1つまたは複数の顔画像を記憶するための顔画像データベース114−Aであって、場合によりこの顔画像データベースは、家族や、ユーザおよび顔画像データベース114−A内に含まれる画像内にいると確認されている人物が知っている他者など、ユーザ以外の人物の顔画像を含み、場合によりこの顔画像データベースは、パブリックドメイン内で適法な顔画像の供給業者など、外部の情報源から得た顔画像を含む。
・ 場合により、図12Aに関してより詳細に論じるように、ソーシャルネットワークのユーザに関する名前、住所、職業、グループの帰属関係、ソーシャルネットワークのつながり、モバイル機器の現在のGPS位置、共有設定、関心、年齢、出身地、個人的統計、仕事情報などの情報を含む、ソーシャルネットワークデータベース922。
・ 顔画像データベース114−Aからの潜在的な顔の一致をランク付けし(例えば、潜在的な顔の一致に関連性スコアおよび/または一致品質スコアを割り当て)、提示するために結果をフォーマットするための結果ランク付け/フォーマットモジュール924であって、一部の実施形態では、結果のランク付けまたはスコア付けに、前述のソーシャルネットワークデータベースから取得した関連情報を利用し、一部の実施形態では、フォーマットされた検索結果が、潜在的な画像の一致ならびにソーシャルネットワークデータベースからの情報の一部を含む。
・ 注釈データベース(図1、116)から注釈情報を受け取り、注釈情報のいずれかが顔認識検索システムに関連するかどうかを判定し、注釈情報のうちの決定した任意の関連部分をそれぞれの注釈データベース928内に記憶するための注釈モジュール926。
図10は、本発明の一実施形態による、視覚クエリを処理するために利用する画像−用語検索システム112−Cを示すブロック図である。一部の実施形態では、この画像−用語検索システムは視覚クエリ内のオブジェクトを認識する(インスタンス認識)。他の実施形態では、この画像−用語検索システムは視覚クエリ内のオブジェクトカテゴリを認識する(タイプ認識)。一部の実施形態では、この画像−用語システムは、オブジェクトおよびオブジェクトカテゴリの両方を認識する。この画像−用語検索システムは、視覚クエリ内の画像に関する潜在的な用語の一致を返す。画像−用語検索システム112−Cは、典型的には1個または複数個の処理ユニット(CPU)1002、1つまたは複数のネットワークインターフェイスもしくは他の通信インターフェイス1004、メモリ1012、およびこれらのコンポーネントを相互接続するための1つまたは複数の通信バス1014を含む。メモリ1012には、DRAM、SRAM、DDR RAM、または他のランダムアクセス固体メモリデバイスなどの高速ランダムアクセスメモリが含まれ、1つまたは複数の磁気ディスク記憶装置、光学ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶デバイスなどの不揮発性メモリが含まれ得る。メモリ1012には、1個または複数個のCPU1002から離れて位置する1つまたは複数の記憶装置が場合により含まれ得る。メモリ1012あるいはメモリ1012内の1つまたは複数の不揮発性メモリ装置は、持続性コンピュータ可読記憶媒体を含む。一部の実施形態では、メモリ1012またはメモリ1012のコンピュータ可読記憶媒体が、以下のプログラム、モジュール、およびデータ構造またはその一部を記憶する。
・ 様々な基本システムサービスを処理し、ハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム1016。
・ 画像−用語検索システム112−Cを、1つまたは複数の通信ネットワークインターフェイス1004(有線または無線)、およびインターネット、他の広域ネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つまたは複数の通信ネットワークを介して他のコンピュータに接続するために使用するネットワーク通信モジュール1018。
・ 画像検索データベース114−C内で、視覚クエリ内の1つまたは複数のサブジェクトに一致する画像を検索する、画像−用語検索アプリケーション1020。
・ 視覚クエリの1つまたは複数のサブジェクトに似た画像を探すために、検索アプリケーション1020によって検索され得る画像検索データベース114−C。
・ テキストベースクエリ検索エンジン1006を使用して画像を検索する際にユーザが使用するテキスト用語を記憶する、用語−画像逆索引1022。
・ 潜在的な画像の一致をランク付けし、かつ/または用語−画像逆索引1022内で確認される、潜在的な画像の一致に関連する用語をランク付けするための、結果ランク付け/フォーマットモジュール1024。
・ 注釈データベース(図1、116)から注釈情報を受け取り、注釈情報のいずれかが画像−用語検索システム112−Cに関連するかどうかを判定し、注釈情報のうちの決定した任意の関連部分をそれぞれの注釈データベース1028内に記憶するための注釈モジュール1026。
図5〜図10は、本明細書に記載の諸実施形態の構造上の概略図であるよりも、むしろ1組のコンピュータシステム内にあり得る様々な機能についての機能上の説明であることを意図する。実際には、および当業者によって理解されているように、別々に図示した項目を組み合わせることができ、一部の項目を分けてもよい。例えば、これらの図面の中で別々に示した一部の項目を単一のサーバ上に実装することができ、単一の項目を1つまたは複数のサーバによって実装することができる。視覚クエリの処理を実施するために使用するシステムの実際の数、およびそれらのシステム間でどのように機能を割り振るのかは実施形態ごとに異なる。
本明細書に記載の方法のそれぞれは、持続性コンピュータ可読記憶媒体の中に記憶され、1つまたは複数のサーバもしくはクライアントの1個または複数個のプロセッサによって実行される命令に準拠し得る。上記に特定したモジュールまたはプログラム(すなわち命令のセット)は、必ずしも別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装する必要はなく、よって様々な実施形態において、これらのモジュールの様々なサブセットを組み合わせ、またさもなければ再編成してもよい。図5〜図10に示す操作のそれぞれは、コンピュータメモリまたは持続性コンピュータ可読記憶媒体の中に記憶される命令に対応し得る。
図11は、例示的な視覚クエリ1102のスクリーンショットを有するクライアントシステム102を示す。図11に示すクライアントシステム102は、携帯電話、携帯型音楽プレーヤ、携帯型電子メール装置などのモバイル機器である。クライアントシステム102は、ディスプレイ706、およびこの図面の中に示すボタンのような1つまたは複数の入力手段708を含む。一部の実施形態では、ディスプレイ706がタッチセンスディスプレイ709である。タッチセンスディスプレイ709を有する実施形態では、ディスプレイ709上に表示されるソフトボタンが電気機械的ボタン708の一部またはすべてを場合により置換してもよい。以下により詳細に説明するように、タッチセンスディスプレイは、視覚クエリの結果と対話する際にも役立つ。クライアントシステム102は、カメラ710などの画像取込機構も含む。
図11は、店の棚の上にあるパッケージの写真または映像フレームである視覚クエリ1102を示す。ここに記載する実施形態では、視覚クエリは、2つの次元のそれぞれにおいて視覚クエリのサイズに画素単位で対応する解像度を有する、二次元画像である。この例における視覚クエリ1102は、三次元オブジェクトの二次元画像である。視覚クエリ1102は、背景要素、製品パッケージ1104、ならびに人物の画像1106、商標の画像1108、製品の画像1110および様々なテキスト要素1112を含む、パッケージ上の様々な種類のエンティティを含む。
図3に関して説明したように、視覚クエリ1102をフロントエンドサーバ110に送り、フロントエンドサーバ110は視覚クエリ1102を複数の並列検索システム(112A〜N)に送り、結果を受け取って対話型結果ドキュメントを作成する。
図12Aおよび図12Bは、対話型結果ドキュメント1200の一実施形態のスクリーンショットを有するクライアントシステム102をそれぞれ示す。対話型結果ドキュメント1200は、視覚クエリ1102のそれぞれの副部分についての1つまたは複数の視覚的識別子1202を含み、その副部分は、検索結果の一部へのユーザ選択可能リンクをそれぞれ含む。図12Aおよび図12Bは、境界ボックス1202(例えば境界ボックス1202−1、1202−2、1202−3)である視覚的識別子を有する対話型結果ドキュメント1200を示す。図12Aおよび図12Bに示す実施形態では、ユーザは、境界ボックス1202によって輪郭が描かれる空間内の活性化領域上でタップすることにより、特定の副部分に対応する検索結果の表示を活性化する。例えばユーザは、人物の画像を取り囲んでいる境界ボックス1306(図13)上でタップすることにより、その人物の画像に対応する検索結果を活性化することになる。他の実施形態では、タッチセンスディスプレイではなく、マウスまたはキーボードを使用して選択可能リンクを選択する。一部の実施形態では、ユーザが境界ボックス1202をプレビューするとき(すなわちユーザが境界ボックス上でシングルクリックし、一度タップし、またはポインタを乗せるとき)、第1の対応する検索結果を表示する。ユーザがその境界ボックスを選択するとき(すなわちユーザがダブルクリックし、二度タップし、または別の機構を使用して選択したことを示すとき)、そのユーザは複数の対応する検索結果の表示を活性化する。
図12Aおよび図12Bでは、視覚的識別子は、視覚クエリの副部分を取り囲んでいる境界ボックス1202である。図12Aは、正方形または長方形の境界ボックス1202を示す。図12Bは、ドリンクボトルの境界ボックス1202−3など、視覚クエリの副部分内の特定可能エンティティの境界の輪郭を描く境界ボックス1202を示す。一部の実施形態では、それぞれの境界ボックス1202が、その中により小さな境界ボックス1202を含む。例えば、図12Aおよび図12Bでは、パッケージを識別する境界ボックス1202−1が、商標を識別する境界ボックス1202−2および残りの境界ボックス1202のすべてを取り囲む。テキストを含む一部の実施形態では、テキスト用語の一部のためのアクティブホットリンク1204も含まれる。図12Bは、「Active Drink」および「United States」がホットリンク1204として表示されている一例を示す。これらの用語に対応する検索結果は、用語クエリサーバシステム118から受け取る結果であるのに対し、境界ボックスに対応する結果は、画像によるクエリ検索システムからの結果である。
図13は、視覚クエリ内で認識されたエンティティのタイプごとにコード化された対話型結果ドキュメント1200のスクリーンショットを有するクライアントシステム102を示す。図11の視覚クエリは、人物の画像1106、商標の画像1108、製品の画像1110、および様々なテキスト要素1112を含む。そのため、図13内に表示される対話型結果ドキュメント1200は、人物1306、商標1308、製品1310、および2つのテキスト領域1312を取り囲む複数の境界ボックス1202を含む。図13の境界ボックスは、各様に特色を与えられた透明な境界ボックス1202を表す別個のクロスハッチングを使ってそれぞれ提示する。一部の実施形態では、オーバーレイの色、オーバーレイパターン、ラベルの背景色、ラベルの背景パターン、ラベルのフォントの色、境界ボックスの枠線色など、視覚的に区別できる方法で提示するために境界ボックスの視覚的識別子(および/または対話型結果ドキュメント1200内のラベルもしくは他の視覚的識別子)をフォーマットする。認識される特定のエンティティについてのタイプコード化を図13の境界ボックスに関して図示するが、タイプごとのコード化は、ラベルである視覚的識別子にも適用することができる。
図14は、ラベル1402が図11の視覚クエリ1102のそれぞれの副部分の視覚的識別子である、対話型結果ドキュメント1200のスクリーンショットを有するクライアント装置102を示す。ラベルの視覚的識別子1402は、対応する検索結果の一部へのユーザ選択可能リンクをそれぞれ含む。一部の実施形態では、その選択可能リンクは、ラベル1402の領域内に表示される説明的テキストによって識別される。一部の実施形態は、1つのラベル1402の中に複数のリンクを含む。例えば図14では、飲み物を飲んでいる女性の上にあるラベルが、その女性に関する顔認識の結果へのリンクと、その特定の写真に関する画像認識の結果(例えば同じ写真を使用する他の製品や広告の画像)へのリンクとを含む。
図14では、ラベル1402が、対話型結果ドキュメントのそれぞれの副部分上に位置する、テキストを有する部分的に透明な領域として表示される。他の実施形態では、それぞれのラベルが、対話型結果ドキュメントのそれぞれの副部分上には位置しないが、その付近に配置される。一部の実施形態では、図13に関して論じたのと同じ方法でラベルをタイプごとにコード化する。一部の実施形態では、ユーザは、ラベル1302の縁または外周縁によって輪郭が描かれる空間内の活性化領域上でタップすることにより、ラベル1302に対応する特定の副部分に対応する検索結果の表示を活性化する。図12Aおよび図12Bの境界ボックスに関して上記で論じたのと同じプレビュー機能および選択機能が、ラベルである視覚的識別子1402にも当てはまる。
図15は、結果一覧1500と同時に表示される対話型結果ドキュメント1200および元の視覚クエリ1102のスクリーンショットを示す。図12〜図14に示すように、一部の実施形態では対話型結果ドキュメント1200を単独で表示する。図15に示すように、他の実施形態では対話型結果ドキュメント1200を元の視覚クエリと同時に表示する。一部の実施形態では、視覚クエリの結果一覧1500を、元の視覚クエリ1102および/または対話型結果ドキュメント1200とともに同時に表示する。結果一覧1500を対話型結果ドキュメント1200と同時に表示するかどうかは、クライアントシステムの種類およびディスプレイ706上の空間量によって決まり得る。一部の実施形態では、クライアントシステム102は、(視覚クエリサーバシステムにサブミットする視覚クエリに応答して)結果一覧1500および対話型結果ドキュメント1200の両方を受け取るが、ユーザが対話型結果ドキュメント1200の下方にスクロールする場合、結果一覧1500だけを表示する。クライアントシステム102は、視覚クエリに応答して結果一覧1500を受け取り、クライアントシステム102において局所的に記憶するので、これらの実施形態の一部では、クライアントシステム102は、ユーザが選択する視覚的識別子1202/1402に対応する結果を再度サーバにクエリする必要なしに表示する。
一部の実施形態では、結果一覧1500を複数のカテゴリ1502へと編成する。各カテゴリは少なくとも1つの結果1503を含む。一部の実施形態では、結果1503と区別するためにカテゴリのタイトルを強調表示する。カテゴリ1502は、その計算されたカテゴリウェイトに応じて順序付けられる。一部の実施形態では、カテゴリウェイトは、そのカテゴリ内の最上位のN個の結果の重みの組合せである。そのため、より関連性のある結果をもたらした可能性が高いカテゴリを最初に表示する。認識された同一エンティティについて複数のカテゴリ1502(図15に示す顔画像認識の一致および画像の一致など)が返される実施形態では、最初に表示されるカテゴリがより高いカテゴリウェイトを有する。
図3に関して説明したように、一部の実施形態では、クライアントシステム102のユーザが対話型結果ドキュメント1200内の選択可能リンクを選択すると、カーソルが適切なカテゴリ1502またはそのカテゴリ内の最初の結果1503に自動的に移動する。あるいは、クライアントシステム102のユーザが対話型結果ドキュメント内の選択可能リンクを選択すると、選択されたリンクに関連する1つまたは複数のカテゴリが最初に表示されるように、結果一覧1500が並べ替えられる。これは、例えば対応する検索結果を識別する情報を使って選択可能リンクをコード化することにより、または対応する選択可能リンクを示すように、もしくは対応する結果カテゴリを示すように検索結果をコード化することによって達成される。
一部の実施形態では、検索結果のカテゴリが、それらの検索結果をもたらす画像によるクエリ検索システムに対応する。例えば図15では、カテゴリの一部は、製品の一致1506、ロゴの一致1508、顔認識の一致1510、画像の一致1512である。元の視覚クエリ1102および/または対話型結果ドキュメント1200も、クエリ1504などのカテゴリタイトルにより同様に表示してもよい。同様に、用語クエリサーバが行う任意の用語検索の結果も、ウェブの結果1514などの別個のカテゴリとして表示してもよい。他の実施形態では、視覚クエリ内の複数のエンティティが、同じ画像によるクエリ検索システムからの結果をもたらす。例えば視覚クエリは、顔認識検索システムからの別個の結果を返すことになる2つの異なる顔を含むことができる。そのため一部の実施形態では、カテゴリ1502を、検索システムごとにではなく、認識するエンティティごとに分ける。一部の実施形態では、認識したエンティティの画像を認識エンティティカテゴリヘッダ1502の中に表示し、それにより、たとえ両方の結果が同じ画像によるクエリ検索システムによってもたらされても、認識したそのエンティティの結果を認識した別のエンティティの結果と区別することができる。例えば図15では、製品の一致カテゴリ1506が2つのエンティティ製品のエンティティを含み、そのため、それぞれが複数の対応する検索結果1503を有する、箱入りの製品1516およびボトル入りの製品1518である2つのエンティティカテゴリ1502を含む。一部の実施形態では、カテゴリを、認識するエンティティおよび画像によるクエリシステムの種類ごとに分けることができる。例えば図15では、製品の一致カテゴリの製品の下で、関連する結果を返した2つの別個のエンティティがある。
一部の実施形態では、結果1503がサムネイル画像を含む。例えば、図15の顔認識の一致結果について示すように、「女優X」および「ソーシャルネットワークの友人Y」に関する顔の一致写真の小さなバージョン(サムネイル画像とも呼ぶ)が、その画像内の人物の名前などの何らかのテキスト記述とともに表示される。
上記の記載は、説明目的で特定の実施形態に関して記載してきた。しかし上記の実例的な解説は、網羅的であることも本発明を開示した厳密な形態に限定することも意図しない。上記の教示に照らし、多くの修正形態および改変形態があり得る。本発明の原理およびその実用的応用を最も良く説明して、それにより当業者が本発明、および考えられる特定の用法に適合される様々な修正が加えられる様々な実施形態を最も良く利用できるようにするために実施形態を選択して説明した。

Claims (24)

  1. 視覚クエリを処理する、コンピュータによって実施される方法であって、
    1個または複数個のプロセッサ、および前記1個または複数個のプロセッサが実行するための1つまたは複数のプログラムを記憶するメモリを有するサーバシステムにおいて、
    クライアントシステムから視覚クエリを受け取るステップと、
    前記視覚クエリを同時処理用の複数の並列検索システムに送ることによって前記視覚クエリを処理するステップであって、前記複数の検索システムのうちの一部が、複数の視覚クエリ検索処理のうちのそれぞれの視覚クエリ検索処理を実施し、前記複数の視覚クエリ検索処理には、少なくとも光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の、第1の画像によるクエリ処理が含まれる、処理するステップと、
    前記複数の並列検索システムの1つまたは複数から、複数の検索結果を受け取るステップと、
    前記複数の検索結果のうちの少なくとも1つを前記クライアントシステムに送るステップと
    を含む、コンピュータによって実施される方法。
  2. 前記受け取った検索結果の少なくとも2つが所定の基準を満たすとき、前記所定の基準を満たす前記受け取った検索結果をランク付けするステップと、
    前記ランク付けした検索結果のうちの少なくとも1つの検索結果を前記クライアントシステムに送るステップと
    を含む、請求項1に記載のコンピュータによって実施される方法。
  3. 前記第1の画像によるクエリ処理が、製品認識、バーコード認識、ランドマーク認識、地理位置情報によって支援される場所認識、類似画像認識、オブジェクトまたはオブジェクトカテゴリ認識、固有表現認識、および色認識からなる組から選択される、請求項1または2に記載のコンピュータによって実施される方法。
  4. 前記視覚クエリが、写真、スクリーンショット、スキャン画像、映像フレーム、複数の映像フレームからなる群から選択される、請求項1〜3のいずれか一項に記載のコンピュータによって実施される方法。
  5. 前記クライアントシステムが、モバイル機器およびデスクトップ装置からなる群から選択される、請求項1〜4のいずれか一項に記載のコンピュータによって実施される方法。
  6. 前記視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、前記少なくとも1つの検索結果は、前記テキスト要素については光学的文字認識結果を含み、前記非テキスト要素については少なくとも1つの画像一致結果を含む、請求項1〜5のいずれか一項に記載のコンピュータによって実施される方法。
  7. 前記視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、前記少なくとも1つの検索結果は、光学的文字認識処理によってもたらされる検索結果へのリンクを有する、前記テキスト要素についての第1の視覚的識別子と、画像一致処理によってもたらされる検索結果へのリンクを有する、前記非テキスト要素についての第2の視覚的識別子とを含む対話型結果ドキュメントを含む、請求項1〜5のいずれか一項に記載のコンピュータによって実施される方法。
  8. 前記複数の検索結果のうちの少なくとも2つを複合検索結果へと組み合わせるステップ
    をさらに含む、請求項1〜7のいずれか一項に記載のコンピュータによって実施される方法。
  9. 視覚クエリを処理するための検索エンジンシステムであって、
    プログラムを実行するための1個または複数個の中央処理装置と、
    前記1個または複数個の中央処理装置が実行するための1つまたは複数のプログラムを記憶するメモリと
    を備え、
    前記1つまたは複数のプログラムが、
    クライアントシステムから視覚クエリを受け取ることと、
    前記視覚クエリを同時処理用の複数の並列検索システムに送ることによって前記視覚クエリを処理することであって、前記複数の検索システムのうちの一部が、複数の視覚クエリ検索処理のうちのそれぞれの視覚クエリ検索処理を実施し、前記複数の視覚クエリ検索処理には、少なくとも、光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の、第1の画像によるクエリ処理が含まれる、処理することと、
    前記複数の並列検索システムの1つまたは複数から、複数の検索結果を受け取ることと、
    前記複数の検索結果のうちの少なくとも1つを前記クライアントシステムに送ることと
    を行うための命令を含む、システム。
  10. 前記受け取った検索結果の少なくとも2つが所定の基準を満たすとき、前記所定の基準を満たす前記受け取った検索結果をランク付けすることと、
    前記ランク付けした検索結果のうちの少なくとも1つの検索結果を前記クライアントシステムに送ることと
    を行うための命令を含む、請求項9に記載のシステム。
  11. 前記第1の画像によるクエリ処理が、製品認識、バーコード認識、ランドマーク認識、地理位置情報によって支援される場所認識、類似画像認識、オブジェクトまたはオブジェクトカテゴリ認識、固有表現認識、および色認識からなる組から選択される、請求項9または10に記載のシステム。
  12. 前記視覚クエリが、写真、スクリーンショット、スキャン画像、映像フレーム、複数の映像フレームからなる群から選択される、請求項9〜11のいずれか一項に記載のシステム。
  13. 前記クライアントシステムが、モバイル機器およびデスクトップ装置からなる群から選択される、請求項9〜12のいずれか一項に記載のシステム。
  14. 前記視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、前記少なくとも1つの検索結果は、前記テキスト要素については光学的文字認識結果を含み、前記非テキスト要素については少なくとも1つの画像一致結果を含む、請求項9〜13のいずれか一項に記載のシステム。
  15. 前記視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、前記少なくとも1つの検索結果は、光学的文字認識処理によってもたらされた検索結果へのリンクを有する、前記テキスト要素についての第1の視覚的識別子と、画像一致処理によってもたらされた検索結果へのリンクを有する、前記非テキスト要素についての第2の視覚的識別子とを含む対話型結果ドキュメントを含む、請求項9〜13のいずれか一項に記載のシステム。
  16. 前記複数の検索結果のうちの少なくとも2つを複合検索結果へと組み合わせる
    ための命令をさらに含む、請求項9〜15のいずれか一項に記載のシステム。
  17. コンピュータが実行するように構成される1つまたは複数のプログラムを記憶する、視覚クエリを処理するための持続性コンピュータ可読記憶媒体であって、前記1つまたは複数のプログラムは、
    クライアントシステムから視覚クエリを受け取ることと、
    前記視覚クエリを、同時処理用の複数の並列検索システムに送ることによって処理することであって、前記複数の検索システムのうちの一部が、複数の視覚クエリ検索処理のうちのそれぞれの視覚クエリ検索処理を実施し、前記複数の視覚クエリ検索処理には、少なくとも、光学的文字認識(OCR)、顔認識、ならびにOCRおよび顔認識以外の、第1の画像によるクエリ処理が含まれる、処理することと、
    前記複数の並列検索システムの1つまたは複数から、複数の検索結果を受け取ることと、
    前記複数の検索結果のうちの少なくとも1つを前記クライアントシステムに送ることと
    を行うための命令を含む、コンピュータ可読記憶媒体。
  18. 前記受け取った検索結果の少なくとも2つが所定の基準を満たすとき、前記所定の基準を満たす前記受け取った検索結果をランク付けすることと、
    前記ランク付けした検索結果のうちの少なくとも1つの検索結果を前記クライアントシステムに送ることと
    を行うための命令を含む、請求項17に記載のコンピュータ可読記憶媒体。
  19. 前記第1の画像によるクエリ処理が、製品認識、バーコード認識、ランドマーク認識、地理位置情報によって支援される場所認識、類似画像認識、オブジェクトまたはオブジェクトカテゴリ認識、固有表現認識、および色認識からなる組から選択される、請求項17または18に記載のコンピュータ可読記憶媒体。
  20. 前記視覚クエリが、写真、スクリーンショット、スキャン画像、映像フレーム、複数の映像フレームからなる群から選択される、請求項17〜19のいずれか一項に記載のコンピュータ可読記憶媒体。
  21. 前記クライアントシステムが、モバイル機器およびデスクトップ装置からなる群から選択される、請求項17〜20のいずれか一項に記載のコンピュータ可読記憶媒体。
  22. 前記視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、前記少なくとも1つの検索結果は、前記テキスト要素については光学的文字認識結果を含み、前記非テキスト要素については少なくとも1つの画像一致結果を含む、請求項17〜21のいずれか一項に記載のコンピュータ可読記憶媒体。
  23. 前記視覚クエリがテキスト要素および非テキスト要素を含む画像である場合、前記少なくとも1つの検索結果は、光学的文字認識処理によってもたらされた検索結果へのリンクを有する、前記テキスト要素についての第1の視覚的識別子と、画像一致処理によってもたらされる検索結果へのリンクを有する、前記非テキスト要素についての第2の視覚的識別子とを含む対話型結果ドキュメントを含む、請求項17〜21のいずれか一項に記載のコンピュータ可読記憶媒体。
  24. 前記複数の検索結果のうちの少なくとも2つを複合検索結果へと組み合わせる
    ための命令をさらに含む、請求項17〜23のいずれか一項に記載のコンピュータ可読記憶媒体。
JP2012523960A 2009-08-07 2010-08-05 視覚クエリに応答するためのアーキテクチャ Pending JP2013501975A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US23239709P 2009-08-07 2009-08-07
US61/232,397 2009-08-07
US26611609P 2009-12-02 2009-12-02
US61/266,116 2009-12-02
US12/850,483 US9135277B2 (en) 2009-08-07 2010-08-04 Architecture for responding to a visual query
US12/850,483 2010-08-04
PCT/US2010/044603 WO2011017557A1 (en) 2009-08-07 2010-08-05 Architecture for responding to a visual query

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014254872A Division JP5933677B2 (ja) 2009-08-07 2014-12-17 視覚クエリに応答するためのアーキテクチャ

Publications (2)

Publication Number Publication Date
JP2013501975A true JP2013501975A (ja) 2013-01-17
JP2013501975A5 JP2013501975A5 (ja) 2013-09-19

Family

ID=42752283

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2012523960A Pending JP2013501975A (ja) 2009-08-07 2010-08-05 視覚クエリに応答するためのアーキテクチャ
JP2014254872A Active JP5933677B2 (ja) 2009-08-07 2014-12-17 視覚クエリに応答するためのアーキテクチャ
JP2016050616A Active JP6148367B2 (ja) 2009-08-07 2016-03-15 視覚クエリに応答するためのアーキテクチャ

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2014254872A Active JP5933677B2 (ja) 2009-08-07 2014-12-17 視覚クエリに応答するためのアーキテクチャ
JP2016050616A Active JP6148367B2 (ja) 2009-08-07 2016-03-15 視覚クエリに応答するためのアーキテクチャ

Country Status (9)

Country Link
US (3) US9135277B2 (ja)
EP (1) EP2462520B1 (ja)
JP (3) JP2013501975A (ja)
KR (2) KR101725885B1 (ja)
CN (1) CN102625937B (ja)
AU (2) AU2010279333B2 (ja)
BR (1) BR112012002815B8 (ja)
CA (2) CA2771094C (ja)
WO (1) WO2011017557A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015062119A (ja) * 2013-09-22 2015-04-02 株式会社リコー 医療関係者用モバイル情報ゲートウェイ
JP2017076282A (ja) * 2015-10-15 2017-04-20 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JPWO2016039273A1 (ja) * 2014-09-08 2017-04-27 日本電信電話株式会社 表示制御装置、表示制御方法および表示制御プログラム
JP2018528492A (ja) * 2015-06-26 2018-09-27 ロヴィ ガイズ, インコーポレイテッド ユーザプロファイルに基づくメディアアセットのための画像の自動フォーマットのためのシステムおよび方法
JP2018181081A (ja) * 2017-04-18 2018-11-15 日本電信電話株式会社 画像認識エンジン連携装置およびプログラム
JP2019191794A (ja) * 2018-04-23 2019-10-31 株式会社ワコム 物品検索システム
JP2019197534A (ja) * 2018-05-09 2019-11-14 富士ゼロックス株式会社 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム
JP2020101946A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 情報処理装置、制御プログラム、情報処理方法及び情報処理プログラム
JP2020521219A (ja) * 2017-09-13 2020-07-16 グーグル エルエルシー 関連コンテンツを使用した画像の効率的な増強
JP2021513699A (ja) * 2018-02-06 2021-05-27 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 コンテンツ投稿方法、コンテンツ投稿装置並びに読み取り可能な記憶媒体
US11481095B2 (en) 2015-06-26 2022-10-25 ROVl GUIDES, INC. Systems and methods for automatic formatting of images for media assets based on user profile

Families Citing this family (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327235A1 (en) * 2008-06-27 2009-12-31 Google Inc. Presenting references with answers in forums
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US9405772B2 (en) 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US9143603B2 (en) 2009-12-31 2015-09-22 Digimarc Corporation Methods and arrangements employing sensor-equipped smart phones
US8600173B2 (en) * 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
US20120096354A1 (en) * 2010-10-14 2012-04-19 Park Seungyong Mobile terminal and control method thereof
US8861896B2 (en) * 2010-11-29 2014-10-14 Sap Se Method and system for image-based identification
US8995775B2 (en) * 2011-05-02 2015-03-31 Facebook, Inc. Reducing photo-tagging spam
JP5316582B2 (ja) * 2011-05-23 2013-10-16 コニカミノルタ株式会社 画像処理システム、画像処理装置、端末装置、および制御プログラム
EP2533141A1 (en) * 2011-06-07 2012-12-12 Amadeus S.A.S. A personal information display system and associated method
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
KR101814120B1 (ko) * 2011-08-26 2018-01-03 에스프린팅솔루션 주식회사 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
EP2758956B1 (en) 2011-09-23 2021-03-10 Digimarc Corporation Context-based smartphone sensor logic
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
US8825671B1 (en) * 2011-10-05 2014-09-02 Google Inc. Referent determination from selected content
US8890827B1 (en) 2011-10-05 2014-11-18 Google Inc. Selected content refinement mechanisms
US8878785B1 (en) 2011-10-05 2014-11-04 Google Inc. Intent determination using geometric shape input
US8930393B1 (en) 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US9032316B1 (en) 2011-10-05 2015-05-12 Google Inc. Value-based presentation of user-selectable computing actions
WO2013052866A2 (en) 2011-10-05 2013-04-11 Google Inc. Semantic selection and purpose facilitation
US8589410B2 (en) * 2011-10-18 2013-11-19 Microsoft Corporation Visual search using multiple visual input modalities
EP2587745A1 (en) 2011-10-26 2013-05-01 Swisscom AG A method and system of obtaining contact information for a person or an entity
TWI451347B (zh) * 2011-11-17 2014-09-01 Univ Nat Chiao Tung 物品資料查詢系統及方法
US8891907B2 (en) 2011-12-06 2014-11-18 Google Inc. System and method of identifying visual objects
JP6153086B2 (ja) 2011-12-14 2017-06-28 日本電気株式会社 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
JP2015062090A (ja) * 2011-12-15 2015-04-02 日本電気株式会社 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
JP6168355B2 (ja) * 2011-12-16 2017-07-26 日本電気株式会社 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム
US8855375B2 (en) 2012-01-12 2014-10-07 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) * 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US8620021B2 (en) 2012-03-29 2013-12-31 Digimarc Corporation Image-related methods and arrangements
US8935246B2 (en) 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
US8868598B2 (en) * 2012-08-15 2014-10-21 Microsoft Corporation Smart user-centric information aggregation
CN102930263A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 一种信息处理方法及装置
CN102902771A (zh) * 2012-09-27 2013-01-30 百度国际科技(深圳)有限公司 一种图片搜索方法、装置及服务器
US8990194B2 (en) * 2012-11-02 2015-03-24 Google Inc. Adjusting content delivery based on user submissions of photographs
US20140149257A1 (en) * 2012-11-28 2014-05-29 Jim S. Baca Customized Shopping
US9298712B2 (en) 2012-12-13 2016-03-29 Microsoft Technology Licensing, Llc Content and object metadata based search in e-reader environment
CA2900765A1 (en) * 2013-02-08 2014-08-14 Emotient Collection of machine learning training data for expression recognition
US10235358B2 (en) * 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9208176B2 (en) * 2013-03-12 2015-12-08 International Business Machines Corporation Gesture-based image shape filtering
US9258597B1 (en) 2013-03-13 2016-02-09 Google Inc. System and method for obtaining information relating to video images
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9247309B2 (en) * 2013-03-14 2016-01-26 Google Inc. Methods, systems, and media for presenting mobile content corresponding to media content
US9705728B2 (en) 2013-03-15 2017-07-11 Google Inc. Methods, systems, and media for media transmission and management
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
US20140330814A1 (en) * 2013-05-03 2014-11-06 Tencent Technology (Shenzhen) Company Limited Method, client of retrieving information and computer storage medium
AU2014271204B2 (en) * 2013-05-21 2019-03-14 Fmp Group (Australia) Pty Limited Image recognition of vehicle parts
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
US10408613B2 (en) 2013-07-12 2019-09-10 Magic Leap, Inc. Method and system for rendering virtual content
GB201314642D0 (en) * 2013-08-15 2013-10-02 Summerfield Gideon Image Identification System and Method
CN104424257A (zh) * 2013-08-28 2015-03-18 北大方正集团有限公司 信息检索装置和信息检索方法
CN103455590B (zh) * 2013-08-29 2017-05-31 百度在线网络技术(北京)有限公司 在触屏设备中进行检索的方法和装置
US11853377B2 (en) * 2013-09-11 2023-12-26 See-Out Pty Ltd Image searching method and apparatus
WO2015073920A1 (en) 2013-11-15 2015-05-21 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9456237B2 (en) 2013-12-31 2016-09-27 Google Inc. Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US10002191B2 (en) 2013-12-31 2018-06-19 Google Llc Methods, systems, and media for generating search results based on contextual information
US9411825B2 (en) * 2013-12-31 2016-08-09 Streamoid Technologies Pvt. Ltd. Computer implemented system for handling text distracters in a visual search
US9491522B1 (en) 2013-12-31 2016-11-08 Google Inc. Methods, systems, and media for presenting supplemental content relating to media content on a content interface based on state information that indicates a subsequent visit to the content interface
US9915545B2 (en) 2014-01-14 2018-03-13 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10024679B2 (en) 2014-01-14 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
KR101791518B1 (ko) 2014-01-23 2017-10-30 삼성전자주식회사 사용자 인증 방법 및 장치
US9832353B2 (en) 2014-01-31 2017-11-28 Digimarc Corporation Methods for encoding, decoding and interpreting auxiliary data in media signals
PL3066591T4 (pl) 2014-02-10 2020-04-30 Geenee Gmbh Systemy i sposoby rozpoznawania oparte na obrazie
US9811592B1 (en) 2014-06-24 2017-11-07 Google Inc. Query modification based on textual resource context
US9830391B1 (en) 2014-06-24 2017-11-28 Google Inc. Query modification based on non-textual resource context
US9824079B1 (en) 2014-07-11 2017-11-21 Google Llc Providing actions for mobile onscreen content
US10062099B2 (en) * 2014-07-25 2018-08-28 Hewlett Packard Enterprise Development Lp Product identification based on location associated with image of product
KR101690528B1 (ko) * 2015-06-05 2016-12-28 오드컨셉 주식회사 검색 정보를 표시하는 방법, 장치 및 컴퓨터 프로그램
US10024667B2 (en) 2014-08-01 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
US9965559B2 (en) 2014-08-21 2018-05-08 Google Llc Providing automatic actions for mobile onscreen content
US10024678B2 (en) 2014-09-17 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable clip for providing social and environmental awareness
US9922236B2 (en) * 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN104391938B (zh) * 2014-11-24 2017-10-10 武汉海川云谷软件技术有限公司 一种实物资产管理中的图片批量导入数据库的方法及系统
CN104615639B (zh) * 2014-11-28 2018-08-24 北京百度网讯科技有限公司 一种用于提供图片的呈现信息的方法和设备
CN104536995B (zh) * 2014-12-12 2016-05-11 北京奇虎科技有限公司 基于终端界面触控操作进行搜索的方法及系统
CN104572986A (zh) * 2015-01-04 2015-04-29 百度在线网络技术(北京)有限公司 信息搜索方法和装置
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
US20160217157A1 (en) * 2015-01-23 2016-07-28 Ebay Inc. Recognition of items depicted in images
US10490102B2 (en) 2015-02-10 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for braille assistance
US9586318B2 (en) 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Modular robot with smart device
US9811752B2 (en) 2015-03-10 2017-11-07 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device and method for redundant object identification
US9922271B2 (en) 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
US9760792B2 (en) 2015-03-20 2017-09-12 Netra, Inc. Object detection and classification
US9972216B2 (en) 2015-03-20 2018-05-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for storing and playback of information for blind users
US9703541B2 (en) 2015-04-28 2017-07-11 Google Inc. Entity action suggestion on a mobile device
CN104794220A (zh) * 2015-04-28 2015-07-22 百度在线网络技术(北京)有限公司 信息搜索方法和信息搜索装置
US10062015B2 (en) 2015-06-25 2018-08-28 The Nielsen Company (Us), Llc Methods and apparatus for identifying objects depicted in a video using extracted video frames in combination with a reverse image search engine
CN105518678B (zh) * 2015-06-29 2018-07-31 北京旷视科技有限公司 搜索方法、搜索装置和用户设备
US10769200B1 (en) * 2015-07-01 2020-09-08 A9.Com, Inc. Result re-ranking for object recognition
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105069083B (zh) 2015-07-31 2019-03-08 小米科技有限责任公司 关联用户的确定方法及装置
US9898039B2 (en) 2015-08-03 2018-02-20 Toyota Motor Engineering & Manufacturing North America, Inc. Modular smart necklace
JP2018523251A (ja) * 2015-08-03 2018-08-16 オランド エセ.ア. カタログ内の製品を検索するためのシステムおよび方法
ITUB20153277A1 (it) * 2015-08-28 2017-02-28 St Microelectronics Srl Procedimento per ricerche visuali, sistema, apparecchiatura e prodotto informatico corrispondenti
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US11609946B2 (en) * 2015-10-05 2023-03-21 Pinterest, Inc. Dynamic search input selection
US11055343B2 (en) 2015-10-05 2021-07-06 Pinterest, Inc. Dynamic search control invocation and visual search
US20180004845A1 (en) * 2015-10-16 2018-01-04 Carlos A. Munoz Web Based Information Search Method
US10178527B2 (en) 2015-10-22 2019-01-08 Google Llc Personalized entity repository
US10055390B2 (en) 2015-11-18 2018-08-21 Google Llc Simulated hyperlinks on a mobile device based on user intent and a centered selection of text
US9881236B2 (en) 2015-12-28 2018-01-30 Google Llc Organizing images associated with a user
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
US10043102B1 (en) 2016-01-20 2018-08-07 Palantir Technologies Inc. Database systems and user interfaces for dynamic and interactive mobile image analysis and identification
US9779293B2 (en) * 2016-01-27 2017-10-03 Honeywell International Inc. Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition and intelligent character recognition
US10024680B2 (en) 2016-03-11 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Step based guidance system
US10445355B2 (en) * 2016-04-07 2019-10-15 RELX Inc. Systems and methods for providing a visualizable results list
US11003667B1 (en) 2016-05-27 2021-05-11 Google Llc Contextual information for a displayed resource
US9958275B2 (en) 2016-05-31 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for wearable smart device communications
US10152521B2 (en) 2016-06-22 2018-12-11 Google Llc Resource recommendations for a displayed resource
US10353950B2 (en) 2016-06-28 2019-07-16 Google Llc Visual recognition using user tap locations
US10802671B2 (en) 2016-07-11 2020-10-13 Google Llc Contextual information for a displayed resource that includes an image
US10561519B2 (en) 2016-07-20 2020-02-18 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device having a curved back to reduce pressure on vertebrae
US10467300B1 (en) 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
US10051108B2 (en) 2016-07-21 2018-08-14 Google Llc Contextual information for a notification
US10489459B1 (en) 2016-07-21 2019-11-26 Google Llc Query recommendations for a displayed resource
US20180068370A1 (en) * 2016-09-06 2018-03-08 Wal-Mart Stores, Inc. Product part picture picker
JP2019531548A (ja) * 2016-09-08 2019-10-31 エイアイキュー ピーティーイー.リミテッド 視覚検索プラットフォームのための映像取り込みフレームワーク
US10949605B2 (en) * 2016-09-13 2021-03-16 Bank Of America Corporation Interprogram communication with event handling for online enhancements
US10212113B2 (en) 2016-09-19 2019-02-19 Google Llc Uniform resource identifier and image sharing for contextual information display
US10535005B1 (en) 2016-10-26 2020-01-14 Google Llc Providing contextual actions for mobile onscreen content
US10346727B2 (en) * 2016-10-28 2019-07-09 Adobe Inc. Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US10432851B2 (en) 2016-10-28 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device for detecting photography
USD827143S1 (en) 2016-11-07 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Blind aid device
US10012505B2 (en) 2016-11-11 2018-07-03 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable system for providing walking directions
US10521669B2 (en) 2016-11-14 2019-12-31 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing guidance or feedback to a user
US11237696B2 (en) 2016-12-19 2022-02-01 Google Llc Smart assist for repeated actions
US20180218237A1 (en) * 2017-01-30 2018-08-02 International Business Machines Corporation System, method and computer program product for creating a contact group using image analytics
US11449495B2 (en) * 2017-02-01 2022-09-20 United Parcel Service Of America, Inc. Indexable database profiles comprising multi-language encoding data and methods for generating the same
KR102368847B1 (ko) 2017-04-28 2022-03-02 삼성전자주식회사 객체에 대응하는 콘텐트를 출력하기 위한 방법 및 그 전자 장치
JP6353118B1 (ja) * 2017-05-10 2018-07-04 ヤフー株式会社 表示プログラム、情報提供装置、表示装置、表示方法、情報提供方法および情報提供プログラム
US11928482B2 (en) * 2017-06-13 2024-03-12 Google Llc Interaction with electronic chat interfaces
US10679068B2 (en) 2017-06-13 2020-06-09 Google Llc Media contextual information from buffered media data
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
EP3584717A1 (en) 2017-08-01 2019-12-25 Samsung Electronics Co., Ltd. Electronic device and method for providing search result thereof
KR102469717B1 (ko) * 2017-08-01 2022-11-22 삼성전자주식회사 오브젝트에 대한 검색 결과를 제공하기 위한 전자 장치 및 이의 제어 방법
KR102586170B1 (ko) * 2017-08-01 2023-10-10 삼성전자주식회사 전자 장치 및 이의 검색 결과 제공 방법
US11841735B2 (en) 2017-09-22 2023-12-12 Pinterest, Inc. Object based image search
US10942966B2 (en) 2017-09-22 2021-03-09 Pinterest, Inc. Textual and image based search
US11126653B2 (en) 2017-09-22 2021-09-21 Pinterest, Inc. Mixed type image based search results
KR102599947B1 (ko) * 2017-10-27 2023-11-09 삼성전자주식회사 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
WO2019133891A1 (en) * 2017-12-29 2019-07-04 Ebay Inc. Computer vision user segment, and missing item determination
US10740394B2 (en) * 2018-01-18 2020-08-11 Oath Inc. Machine-in-the-loop, image-to-video computer vision bootstrapping
KR102068535B1 (ko) * 2018-02-28 2020-01-21 엔에이치엔 주식회사 대화방 내 상담 메시지를 기초로 서비스를 예약하는 방법
US10558857B2 (en) * 2018-03-05 2020-02-11 A9.Com, Inc. Visual feedback of process state
CN108897841A (zh) * 2018-06-27 2018-11-27 百度在线网络技术(北京)有限公司 全景图搜索方法、装置、设备、服务器及存储介质
KR102544781B1 (ko) 2018-08-08 2023-06-19 삼성전자주식회사 우선 순위에 기반하여 상품과 관련된 정보를 제공하는 방법 및 그 전자 장치
KR102661596B1 (ko) 2018-08-08 2024-04-29 삼성전자주식회사 이미지에 대한 인식 정보, 인식 정보와 관련된 유사 인식 정보, 및 계층 정보를 이용하여 외부 객체에 대한 인식 결과를 제공하는 전자 장치 및 그의 동작 방법
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
WO2020106524A2 (en) * 2018-11-25 2020-05-28 Google Llc Finding and filtering elements of a visual scene
KR101982990B1 (ko) * 2018-12-27 2019-05-27 건국대학교 산학협력단 챗봇을 이용한 질의 응답 방법 및 장치
KR101982991B1 (ko) * 2018-12-28 2019-05-27 건국대학교 산학협력단 복수의 챗봇을 이용한 질의 응답 방법 및 장치
US11494884B2 (en) 2019-02-21 2022-11-08 Canon U.S.A., Inc. Method and system for evaluating image sharpness
KR102245774B1 (ko) 2019-11-06 2021-04-27 연세대학교 산학협력단 공정성 분류 네트워크를 이용한 시각 질의 응답 방법 및 장치
KR102368560B1 (ko) 2020-01-31 2022-02-25 연세대학교 산학협력단 선택적 잔여학습을 이용한 시각 질의 응답 방법 및 장치
KR102104246B1 (ko) * 2020-02-17 2020-04-24 주식회사 비에이템 화면 분할을 이용한 이미지 병렬 검색 시스템
CN111539438B (zh) * 2020-04-28 2024-01-12 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
US20220092105A1 (en) * 2020-09-18 2022-03-24 Google Llc Intelligent Systems and Methods for Visual Search Queries
CN112733779B (zh) * 2021-01-19 2023-04-07 三星电子(中国)研发中心 一种基于人工智能的视频海报展示方法和系统
CN112766269B (zh) * 2021-03-04 2024-03-12 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质
US20220300550A1 (en) * 2021-03-19 2022-09-22 Google Llc Visual Search via Free-Form Visual Feature Selection
CN114969479B (zh) * 2021-04-21 2023-08-15 中移互联网有限公司 一种搜索方法、装置及存储介质
US11835995B2 (en) * 2022-02-10 2023-12-05 Clarifai, Inc. Automatic unstructured knowledge cascade visual search

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331006A (ja) * 1999-05-18 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP2002259973A (ja) * 2001-02-27 2002-09-13 Ntt Docomo Inc 特徴領域抽出方法およびその装置ならびに情報提供方法およびその装置
JP2005165461A (ja) * 2003-11-28 2005-06-23 Nifty Corp 情報提供装置及び情報提供プログラム
JP2008071311A (ja) * 2006-09-15 2008-03-27 Ricoh Co Ltd 画像検索装置、画像検索方法、画像検索プログラム、及び、情報記憶媒体
JP2009059050A (ja) * 2007-08-30 2009-03-19 Canon Inc 画像処理装置および統合ドキュメント生成方法

Family Cites Families (214)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4888690A (en) 1985-01-11 1989-12-19 Wang Laboratories, Inc. Interactive error handling means in database management
US4899292A (en) 1988-03-02 1990-02-06 Image Storage/Retrieval Systems, Inc. System for storing and retrieving text and associated graphics
CA2048306A1 (en) 1990-10-02 1992-04-03 Steven P. Miller Distributed configuration profile for computing system
US5649183A (en) 1992-12-08 1997-07-15 Microsoft Corporation Method for compressing full text indexes with document identifiers and location offsets
US5574898A (en) 1993-01-08 1996-11-12 Atria Software, Inc. Dynamic software version auditor which monitors a process to provide a list of objects that are accessed
US5544051A (en) 1993-09-17 1996-08-06 Digital Equipment Corporation Document management system using multiple threaded processes and having asynchronous repository responses and no busy cursor
JP2813728B2 (ja) 1993-11-01 1998-10-22 インターナショナル・ビジネス・マシーンズ・コーポレイション ズーム/パン機能付パーソナル通信機
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US6216138B1 (en) 1994-04-22 2001-04-10 Brooks Automation Inc. Computer interface system for automatically generating graphical representations of computer operations linked together according to functional relationships
US6029195A (en) 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5764799A (en) 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US6006221A (en) 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5815415A (en) 1996-01-19 1998-09-29 Bentley Systems, Incorporated Computer system for portable persistent modeling
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5778378A (en) 1996-04-30 1998-07-07 International Business Machines Corporation Object oriented information retrieval framework mechanism
US6014661A (en) 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
JPH09330336A (ja) 1996-06-11 1997-12-22 Sony Corp 情報処理装置
US5870739A (en) 1996-09-20 1999-02-09 Novell, Inc. Hybrid query apparatus and method
JP3099756B2 (ja) 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US6480194B1 (en) 1996-11-12 2002-11-12 Silicon Graphics, Inc. Computer-related method, system, and program product for controlling data visualization in external dimension(s)
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US5946692A (en) 1997-05-08 1999-08-31 At & T Corp Compressed representation of a data base that permits AD HOC querying
CA2242158C (en) 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US5987448A (en) 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
US6188403B1 (en) 1997-11-21 2001-02-13 Portola Dimensional Systems, Inc. User-friendly graphics generator using direct manipulation
US6105030A (en) 1998-02-27 2000-08-15 Oracle Corporation Method and apparatus for copying data that resides in a database
US6173287B1 (en) 1998-03-11 2001-01-09 Digital Equipment Corporation Technique for ranking multimedia annotations of interest
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6327574B1 (en) 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
US6137907A (en) 1998-09-23 2000-10-24 Xerox Corporation Method and apparatus for pixel-level override of halftone detection within classification blocks to reduce rectangular artifacts
US6529900B1 (en) 1999-01-14 2003-03-04 International Business Machines Corporation Method and apparatus for data visualization
US6377943B1 (en) 1999-01-20 2002-04-23 Oracle Corp. Initial ordering of tables for database queries
GB9903451D0 (en) 1999-02-16 1999-04-07 Hewlett Packard Co Similarity searching for documents
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6263328B1 (en) 1999-04-09 2001-07-17 International Business Machines Corporation Object oriented query model and process for complex heterogeneous database queries
US20030195872A1 (en) 1999-04-12 2003-10-16 Paul Senn Web-based information content analyzer and information dimension dictionary
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6629097B1 (en) 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6721713B1 (en) 1999-05-27 2004-04-13 Andersen Consulting Llp Business alliance identification in a web architecture framework
EP1058236B1 (en) 1999-05-31 2007-03-07 Nippon Telegraph and Telephone Corporation Speech recognition based database query system
US6408293B1 (en) * 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
US6873982B1 (en) 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US6341306B1 (en) 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
CA2281331A1 (en) 1999-09-03 2001-03-03 Cognos Incorporated Database management system
JP4770875B2 (ja) 1999-09-27 2011-09-14 三菱電機株式会社 画像特徴データ生成装置、画像特徴判定装置および画像検索システム
US6105020A (en) 1999-10-11 2000-08-15 International Business Machines Corporation System and method for identifying and constructing star joins for execution by bitmap ANDing
US6850896B1 (en) 1999-10-28 2005-02-01 Market-Touch Corporation Method and system for managing and providing sales data using world wide web
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6606659B1 (en) 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
US20030120659A1 (en) 2000-03-20 2003-06-26 Sridhar Mandayam Anandampillai Systems for developing websites and methods therefor
US6643641B1 (en) 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US7325201B2 (en) 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7401131B2 (en) 2000-05-22 2008-07-15 Verizon Business Global Llc Method and system for implementing improved containers in a global ecosystem of interrelated services
US6754677B1 (en) 2000-05-30 2004-06-22 Outlooksoft Corporation Method and system for facilitating information exchange
US7328349B2 (en) 2001-12-14 2008-02-05 Bbn Technologies Corp. Hash-based systems and methods for detecting, preventing, and tracing network worms and viruses
US7640489B2 (en) 2000-08-01 2009-12-29 Sun Microsystems, Inc. Methods and systems for inputting data into spreadsheet documents
US7100083B2 (en) 2000-08-04 2006-08-29 Sun Microsystems, Inc. Checks for product knowledge management
ATE322051T1 (de) 2000-08-24 2006-04-15 Olive Software Inc System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
AU2001288597A1 (en) 2000-09-01 2002-03-13 Togethersoft Corporation Methods and systems for animating a workflow and a project plan
US6832218B1 (en) 2000-09-22 2004-12-14 International Business Machines Corporation System and method for associating search results
US6823084B2 (en) 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20020065815A1 (en) 2000-10-04 2002-05-30 Xcelerix, Inc. Systems and methods for searching a database
US7016532B2 (en) 2000-11-06 2006-03-21 Evryx Technologies Image capture and identification system and process
US6842761B2 (en) 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
US7013308B1 (en) 2000-11-28 2006-03-14 Semscript Ltd. Knowledge storage and retrieval system and method
US6781599B2 (en) 2001-01-04 2004-08-24 At&T System and method for visualizing massive multi-digraphs
JP2002223105A (ja) * 2001-01-26 2002-08-09 Sanyo Electric Co Ltd 同軸共振器、並びにこれを用いた誘電体フィルタ及び誘電体デュプレクサ
US6748398B2 (en) * 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US6920477B2 (en) 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US7031955B1 (en) 2001-04-27 2006-04-18 I2 Technologies Us, Inc. Optimization using a multi-dimensional data model
US6961723B2 (en) 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US7398201B2 (en) 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7403938B2 (en) 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7313617B2 (en) 2001-09-28 2007-12-25 Dale Malik Methods and systems for a communications and information resource manager
JP2003150617A (ja) 2001-11-12 2003-05-23 Olympus Optical Co Ltd 画像処理装置およびプログラム
US6826572B2 (en) 2001-11-13 2004-11-30 Overture Services, Inc. System and method allowing advertisers to manage search listings in a pay for placement search system using grouping
JP3931214B2 (ja) 2001-12-17 2007-06-13 日本アイ・ビー・エム株式会社 データ解析装置およびプログラム
US6988018B2 (en) 2001-12-26 2006-01-17 Eames John D System and method for analyzing controlling forming sections of a paper machine in operation
US20030154071A1 (en) 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US7343365B2 (en) 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
US6928436B2 (en) 2002-02-28 2005-08-09 Ilog Sa Interactive generation of graphical visualizations of large data structures
US7043521B2 (en) 2002-03-21 2006-05-09 Rockwell Electronic Commerce Technologies, Llc Search agent for searching the internet
US20040030731A1 (en) 2002-04-03 2004-02-12 Liviu Iftode System and method for accessing files in a network
US20030208665A1 (en) 2002-05-01 2003-11-06 Jih-Kwon Peir Reducing data speculation penalty with early cache hit/miss prediction
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
DE10245900A1 (de) 2002-09-30 2004-04-08 Neven jun., Hartmut, Prof.Dr. Bildbasiertes Anfragesystem für Suchmaschinen für mobile Endgeräte mit eingebauter Kamera
US20040167910A1 (en) 2002-12-06 2004-08-26 Attensity Corporation Integrated data products of processes of integrating mixed format data
US7181450B2 (en) 2002-12-18 2007-02-20 International Business Machines Corporation Method, system, and program for use of metadata to create multidimensional cubes in a relational database
US7278111B2 (en) 2002-12-26 2007-10-02 Yahoo! Inc. Systems and methods for selecting a date or range of dates
US7472110B2 (en) 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7146538B2 (en) 2003-03-28 2006-12-05 Hewlett-Packard Development Company, L.P. Bus interface module
US7111025B2 (en) 2003-04-30 2006-09-19 International Business Machines Corporation Information retrieval system and method using index ANDing for improving performance
US7853508B2 (en) 2003-05-19 2010-12-14 Serena Software, Inc. Method and system for object-oriented management of multi-dimensional data
US7926103B2 (en) 2003-06-05 2011-04-12 Hewlett-Packard Development Company, L.P. System and method for preventing replay attacks
US7836391B2 (en) 2003-06-10 2010-11-16 Google Inc. Document search engine including highlighting of confident results
US8321470B2 (en) 2003-06-20 2012-11-27 International Business Machines Corporation Heterogeneous multi-level extendable indexing for general purpose annotation systems
US9026901B2 (en) 2003-06-20 2015-05-05 International Business Machines Corporation Viewing annotations across multiple applications
US7162473B2 (en) 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
US7274822B2 (en) * 2003-06-30 2007-09-25 Microsoft Corporation Face annotation for photo management
US7565425B2 (en) 2003-07-02 2009-07-21 Amazon Technologies, Inc. Server architecture and methods for persistently storing and serving event data
US7814093B2 (en) 2003-07-25 2010-10-12 Microsoft Corporation Method and system for building a report for execution against a data store
US7444515B2 (en) 2003-08-14 2008-10-28 Washington University Method and apparatus for detecting predefined signatures in packet payload using Bloom filters
US7174328B2 (en) 2003-09-02 2007-02-06 International Business Machines Corp. Selective path signatures for query processing over a hierarchical tagged data structure
US7409406B2 (en) 2003-09-08 2008-08-05 International Business Machines Corporation Uniform search system and method for selectively sharing distributed access-controlled documents
US20050057566A1 (en) 2003-09-11 2005-03-17 International Business Machines Corporation Rich graphic visualization generation from abstract data representation
US7236982B2 (en) 2003-09-15 2007-06-26 Pic Web Services, Inc. Computer systems and methods for platform independent presentation design
US7496560B2 (en) 2003-09-23 2009-02-24 Amazon Technologies, Inc. Personalized searchable library with highlighting capabilities
JP2005107978A (ja) 2003-09-30 2005-04-21 Nec Corp 撮影機能付き情報端末による情報検索装置、及び、情報検索方法
US7493322B2 (en) 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US7620624B2 (en) 2003-10-17 2009-11-17 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US20050083413A1 (en) 2003-10-20 2005-04-21 Logicalis Method, system, apparatus, and machine-readable medium for use in connection with a server that uses images or audio for initiating remote function calls
US7415456B2 (en) 2003-10-30 2008-08-19 Lucent Technologies Inc. Network support for caller identification based on biometric measurement
US7872669B2 (en) 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
JP4413633B2 (ja) 2004-01-29 2010-02-10 株式会社ゼータ・ブリッジ 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
US20050187898A1 (en) 2004-02-05 2005-08-25 Nec Laboratories America, Inc. Data Lookup architecture
US7751805B2 (en) 2004-02-20 2010-07-06 Google Inc. Mobile image-based information retrieval system
US7451185B2 (en) 2004-02-27 2008-11-11 Fotomedia Technologies, Llc Method and system for providing links to resources related to a specified resource
US20050216464A1 (en) 2004-03-27 2005-09-29 Microsoft Corporation Automated authoring tool and method to facilitate inclusion of maps and other geographical data into travelogues
US20050219929A1 (en) 2004-03-30 2005-10-06 Navas Julio C Method and apparatus achieving memory and transmission overhead reductions in a content routing network
WO2005114476A1 (en) 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
US20050268212A1 (en) 2004-05-28 2005-12-01 Michael Dagel System, apparatus, and method for desktop-based creation and publication of a periodic community newsletter
WO2006007229A1 (en) 2004-06-17 2006-01-19 The Regents Of The University Of California Method and apparatus for retrieving and indexing hidden web pages
US8051207B2 (en) 2004-06-25 2011-11-01 Citrix Systems, Inc. Inferring server state in s stateless communication protocol
US7493335B2 (en) 2004-07-02 2009-02-17 Graphlogic Inc. Object process graph relational database interface
US20060020582A1 (en) 2004-07-22 2006-01-26 International Business Machines Corporation Method and system for processing abstract derived entities defined in a data abstraction model
US20060020630A1 (en) 2004-07-23 2006-01-26 Stager Reed R Facial database methods and systems
US7890871B2 (en) 2004-08-26 2011-02-15 Redlands Technology, Llc System and method for dynamically generating, maintaining, and growing an online social network
JP2006085379A (ja) 2004-09-15 2006-03-30 Canon Inc 情報処理装置及びその制御方法、プログラム
US8489583B2 (en) 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US7809763B2 (en) 2004-10-15 2010-10-05 Oracle International Corporation Method(s) for updating database object metadata
US20060085386A1 (en) 2004-10-19 2006-04-20 Microsoft Corporation Two pass calculation to optimize formula calculations for a spreadsheet
WO2006043319A1 (ja) 2004-10-20 2006-04-27 Fujitsu Limited 端末及びサーバ
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US20060149700A1 (en) 2004-11-11 2006-07-06 Gladish Randolph J System and method for automatic geospatial web network generation via metadata transformation
US7464090B2 (en) 2006-01-27 2008-12-09 Google Inc. Object categorization for information extraction
US20060150119A1 (en) 2004-12-31 2006-07-06 France Telecom Method for interacting with automated information agents using conversational queries
EP2264621A3 (en) 2004-12-31 2011-11-23 Nokia Corp. Provision of target specific information
JP4282612B2 (ja) 2005-01-19 2009-06-24 エルピーダメモリ株式会社 メモリ装置及びそのリフレッシュ方法
US20060173824A1 (en) 2005-02-01 2006-08-03 Metalincs Corporation Electronic communication analysis and visualization
US20070201749A1 (en) 2005-02-07 2007-08-30 Masaki Yamauchi Image Processing Device And Image Processing Method
JP4267584B2 (ja) 2005-02-28 2009-05-27 株式会社東芝 機器制御装置及びその方法
EP1859378A2 (en) 2005-03-03 2007-11-28 Washington University Method and apparatus for performing biosequence similarity searching
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7765231B2 (en) 2005-04-08 2010-07-27 Rathus Spencer A System and method for accessing electronic data via an image search engine
US7773822B2 (en) 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US7809192B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
KR100754656B1 (ko) 2005-06-20 2007-09-03 삼성전자주식회사 이미지와 관련한 정보를 사용자에게 제공하는 방법 및시스템과 이를 위한 이동통신단말기
US20080005064A1 (en) 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
US7702681B2 (en) * 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
JP2007018166A (ja) 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
JP2007018456A (ja) 2005-07-11 2007-01-25 Nikon Corp 情報表示装置及び情報表示方法
US20070022085A1 (en) 2005-07-22 2007-01-25 Parashuram Kulkarni Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US8666928B2 (en) 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
US7457825B2 (en) 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
US20090060289A1 (en) 2005-09-28 2009-03-05 Alex Shah Digital Image Search System And Method
US7876978B2 (en) 2005-10-13 2011-01-25 Penthera Technologies, Inc. Regions of interest in video frames
US20070098303A1 (en) 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US8849821B2 (en) * 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7826665B2 (en) 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
US7725477B2 (en) 2005-12-19 2010-05-25 Microsoft Corporation Power filter for online listing service
US20070179965A1 (en) 2006-01-27 2007-08-02 Hogue Andrew W Designating data objects for analysis
US7555471B2 (en) 2006-01-27 2009-06-30 Google Inc. Data object visualization
US8874591B2 (en) 2006-01-31 2014-10-28 Microsoft Corporation Using user feedback to improve search results
US9336333B2 (en) 2006-02-13 2016-05-10 Linkedin Corporation Searching and reference checking within social networks
US7668405B2 (en) 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
US7917514B2 (en) * 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US20080031506A1 (en) 2006-08-07 2008-02-07 Anuradha Agatheeswaran Texture analysis for mammography computer aided diagnosis
US7934156B2 (en) 2006-09-06 2011-04-26 Apple Inc. Deletion gestures on a portable multifunction device
KR100865973B1 (ko) 2007-02-08 2008-10-30 (주)올라웍스 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
US9058370B2 (en) 2007-02-27 2015-06-16 International Business Machines Corporation Method, system and program product for defining imports into and exports out from a database system using spread sheets by use of a control language
US8861898B2 (en) 2007-03-16 2014-10-14 Sony Corporation Content image search
CN101286092A (zh) 2007-04-11 2008-10-15 谷歌股份有限公司 具有第二语言模式的输入法编辑器
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
US7917518B2 (en) * 2007-07-20 2011-03-29 Hewlett-Packard Development Company, L.P. Compositional balance and color driven content retrieval
US9591086B2 (en) 2007-07-25 2017-03-07 Yahoo! Inc. Display of information in electronic communications
US8145660B2 (en) 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
KR101435140B1 (ko) 2007-10-16 2014-09-02 삼성전자 주식회사 영상 표시 장치 및 방법
US9237213B2 (en) 2007-11-20 2016-01-12 Yellowpages.Com Llc Methods and apparatuses to initiate telephone connections
US20090144056A1 (en) 2007-11-29 2009-06-04 Netta Aizenbud-Reshef Method and computer program product for generating recognition error correction information
KR100969298B1 (ko) 2007-12-31 2010-07-09 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US20090237546A1 (en) 2008-03-24 2009-09-24 Sony Ericsson Mobile Communications Ab Mobile Device with Image Recognition Processing Capability
US8190604B2 (en) 2008-04-03 2012-05-29 Microsoft Corporation User intention modeling for interactive image retrieval
US8406531B2 (en) * 2008-05-15 2013-03-26 Yahoo! Inc. Data access based on content of image recorded by a mobile device
US20090299990A1 (en) 2008-05-30 2009-12-03 Vidya Setlur Method, apparatus and computer program product for providing correlations between information from heterogenous sources
JP5109836B2 (ja) 2008-07-01 2012-12-26 株式会社ニコン 撮像装置
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8452794B2 (en) 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9087059B2 (en) 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US8370358B2 (en) * 2009-09-18 2013-02-05 Microsoft Corporation Tagging content with metadata pre-filtered by context
US8805079B2 (en) 2009-12-02 2014-08-12 Google Inc. Identifying matching canonical documents in response to a visual query and in accordance with geographic information
US8811742B2 (en) 2009-12-02 2014-08-19 Google Inc. Identifying matching canonical documents consistent with visual query structural information
US20110128288A1 (en) 2009-12-02 2011-06-02 David Petrou Region of Interest Selector for Visual Queries
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US9183224B2 (en) 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US8977639B2 (en) 2009-12-02 2015-03-10 Google Inc. Actionable search results for visual queries
US9405772B2 (en) 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US8189964B2 (en) 2009-12-07 2012-05-29 Google Inc. Matching an approximately located query image against a reference image set
US8489589B2 (en) 2010-02-05 2013-07-16 Microsoft Corporation Visual search reranking

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331006A (ja) * 1999-05-18 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP2002259973A (ja) * 2001-02-27 2002-09-13 Ntt Docomo Inc 特徴領域抽出方法およびその装置ならびに情報提供方法およびその装置
JP2005165461A (ja) * 2003-11-28 2005-06-23 Nifty Corp 情報提供装置及び情報提供プログラム
JP2008071311A (ja) * 2006-09-15 2008-03-27 Ricoh Co Ltd 画像検索装置、画像検索方法、画像検索プログラム、及び、情報記憶媒体
JP2009059050A (ja) * 2007-08-30 2009-03-19 Canon Inc 画像処理装置および統合ドキュメント生成方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015062119A (ja) * 2013-09-22 2015-04-02 株式会社リコー 医療関係者用モバイル情報ゲートウェイ
JPWO2016039273A1 (ja) * 2014-09-08 2017-04-27 日本電信電話株式会社 表示制御装置、表示制御方法および表示制御プログラム
US10147400B2 (en) 2014-09-08 2018-12-04 Nippon Telegraph And Telephone Corporation Display control device, display control method, and display control program
US11481095B2 (en) 2015-06-26 2022-10-25 ROVl GUIDES, INC. Systems and methods for automatic formatting of images for media assets based on user profile
JP2018528492A (ja) * 2015-06-26 2018-09-27 ロヴィ ガイズ, インコーポレイテッド ユーザプロファイルに基づくメディアアセットのための画像の自動フォーマットのためのシステムおよび方法
US11842040B2 (en) 2015-06-26 2023-12-12 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
JP2017076282A (ja) * 2015-10-15 2017-04-20 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2018181081A (ja) * 2017-04-18 2018-11-15 日本電信電話株式会社 画像認識エンジン連携装置およびプログラム
JP7204847B2 (ja) 2017-09-13 2023-01-16 グーグル エルエルシー 関連コンテンツを使用した画像の効率的な増強
JP2020521219A (ja) * 2017-09-13 2020-07-16 グーグル エルエルシー 関連コンテンツを使用した画像の効率的な増強
JP2021192267A (ja) * 2017-09-13 2021-12-16 グーグル エルエルシーGoogle LLC 関連コンテンツを使用した画像の効率的な増強
US11231832B2 (en) 2017-09-13 2022-01-25 Google Llc Efficiently augmenting images with related content
US11747960B2 (en) 2017-09-13 2023-09-05 Google Llc Efficiently augmenting images with related content
JP7448628B2 (ja) 2017-09-13 2024-03-12 グーグル エルエルシー 関連コンテンツを使用した画像の効率的な増強
JP2021513699A (ja) * 2018-02-06 2021-05-27 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 コンテンツ投稿方法、コンテンツ投稿装置並びに読み取り可能な記憶媒体
JP7004944B2 (ja) 2018-02-06 2022-01-21 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 コンテンツ投稿方法、コンテンツ投稿装置並びに読み取り可能な記憶媒体
JP2019191794A (ja) * 2018-04-23 2019-10-31 株式会社ワコム 物品検索システム
JP2019197534A (ja) * 2018-05-09 2019-11-14 富士ゼロックス株式会社 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム
JP7293735B2 (ja) 2018-05-09 2023-06-20 富士フイルムビジネスイノベーション株式会社 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム
JP2020101946A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 情報処理装置、制御プログラム、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
CN102625937A (zh) 2012-08-01
JP2015064901A (ja) 2015-04-09
US20140164406A1 (en) 2014-06-12
AU2013205924B2 (en) 2015-12-24
JP2016139424A (ja) 2016-08-04
AU2010279333B2 (en) 2013-02-21
KR20160092045A (ko) 2016-08-03
JP6148367B2 (ja) 2017-06-14
AU2013205924A1 (en) 2013-06-06
CA3068761C (en) 2022-09-13
EP2462520A1 (en) 2012-06-13
AU2010279333A1 (en) 2012-03-15
EP2462520B1 (en) 2014-07-02
US10534808B2 (en) 2020-01-14
CN102625937B (zh) 2014-02-12
KR101667346B1 (ko) 2016-10-18
CA2771094C (en) 2020-03-24
WO2011017557A1 (en) 2011-02-10
CA2771094A1 (en) 2011-02-10
US20190012334A1 (en) 2019-01-10
BR112012002815B1 (pt) 2020-06-09
JP5933677B2 (ja) 2016-06-15
US20110125735A1 (en) 2011-05-26
KR20120058538A (ko) 2012-06-07
US9135277B2 (en) 2015-09-15
CA3068761A1 (en) 2011-02-10
BR112012002815B8 (pt) 2020-10-06
KR101725885B1 (ko) 2017-04-11

Similar Documents

Publication Publication Date Title
JP6148367B2 (ja) 視覚クエリに応答するためのアーキテクチャ
JP6025812B2 (ja) 視覚クエリの複数の領域についての検索結果を提示するためのユーザインターフェイス
JP6470713B2 (ja) 画像に基づいて検索結果を提供する方法、システム、およびコンピュータ読取可能記憶装置
US9087059B2 (en) User interface for presenting search results for multiple regions of a visual query
US20110128288A1 (en) Region of Interest Selector for Visual Queries
AU2016200659B2 (en) Architecture for responding to a visual query

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130730

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140818