JP2017519285A - 自然言語画像検索 - Google Patents

自然言語画像検索 Download PDF

Info

Publication number
JP2017519285A
JP2017519285A JP2016567987A JP2016567987A JP2017519285A JP 2017519285 A JP2017519285 A JP 2017519285A JP 2016567987 A JP2016567987 A JP 2016567987A JP 2016567987 A JP2016567987 A JP 2016567987A JP 2017519285 A JP2017519285 A JP 2017519285A
Authority
JP
Japan
Prior art keywords
image
natural language
images
tag
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016567987A
Other languages
English (en)
Other versions
JP2017519285A5 (ja
JP6487944B2 (ja
Inventor
エル−サバン・モタズ・アフマド
タウフィク,アハメド・ヤッシン
チャラビ,アシュラフ・アブデル・モネイム・タウフィク
サイード,サイード・ハッサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017519285A publication Critical patent/JP2017519285A/ja
Publication of JP2017519285A5 publication Critical patent/JP2017519285A5/ja
Application granted granted Critical
Publication of JP6487944B2 publication Critical patent/JP6487944B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

自然言語画像検索について記載する。例えば、これによって、オントロジーの概念(概念の階層を含んでもよい)である画像タグが自動的にタグ付けされた画像のストアから画像を引き出すために、自然言語クエリーを使用することができる。種々の例において、自然言語クエリーを複数の画像タグの内1つ以上にマッピングし、マッピングされたクエリーが引き出しのために使用される。種々の例において、クエリーと画像タグとの間における1つ以上の距離尺度を計算することによって、クエリーをマッピングする。距離尺度は、オントロジーに関して計算され、および/または自然言語コーパスから計算される単語の意味的空間に関して計算される。例では、画像タグを、画像内に描かれている物体の境界ボックスと関連付けることができ、ユーザーは、境界ボックスおよび/または画像を選択することによって、画像のストアをナビゲートすることができる。【選択図】図1

Description

[0001] ユーザーは、カメラ、電話機、ディジタル・カメラ、ビデオ・カメラ、およびその他というような異なるデバイスによって、多数の画像を収集する。これらの画像は、通例、パーソナル・コンピューター、クラウド、または他の場所に格納またはバックアップされる。
[0002] ユーザーにとって、彼らの画像収集を効率的にそして効果的に検索することは、時間がかかりしかも複雑である。通例、ユーザーは画像のサムネイルを全域にわたってスクロールすることしかできない。このため、特定のタスクに望まれる画像をブラウズまたは検索することは、ユーザーにとって困難になる。
[0003] 以前の手法は、日付および時刻スタンプまたはキーワードのようなメタデーターで画像にタグ付けする必要があった。タグ付けは、手作業でまたは自動的に行われる。タグ付けの後、ユーザーは、画像を突き止めるためのクエリーとしてタグを使用することができる。この種の手法は、ユーザーが引き出すために使用するタグを思い出せない、あるいは知らないまたは理解できないことがしばしばあるため、限定的である。
[0004] 以下で説明する実施形態は、既知の画像検索システムの欠点の内いずれかを解決する実施態様にも、その全てを解決する実施態様にも限定されない。
[0005] 以下に紹介するのは、読者に基本的な理解を与えるために簡略化した本開示の摘要である。この摘要は、本開示の広範な全体像ではなく、主要な/肝要なエレメントを特定するのでも、本明細書の範囲を明確に定めるのでもない。その唯一の目的は、後に提示する更に詳細な説明に対する序説として、簡略化した形態で、本明細書において開示する概念から選択したものを紹介することである。
[0006] 自然言語画像検索について説明する。例えば、これによって、自然言語クエリーを使用して、オントロジー(ontology)の概念(概念の階層を含んでもよい)である画像タグが自動的にタグ付けされた画像のストアから画像を引き出すことができる。種々の例では、自然言語クエリーは、複数の画像タグの内1つ以上にマッピングされ、マッピングされたクエリーが引き出しのために使用される。種々の例では、クエリーと画像タグとの間において1つ以上の距離尺度(distance measures)を計算することによってクエリーがマッピングされ、距離尺度は、オントロジーに関して、および/または自然言語コーパスから計算される単語の意味的空間に関して計算される。単語の意味的空間は、ニューラル・ネットワークを使用して計算することができる。例では、画像タグは、画像内に描かれたオブジェクトの境界ボックスに関連付けることができ、ユーザーは境界ボックスおよび/または画像を選択することによって、画像のストアをナビゲートすることができる。
[0007] 以下の詳細な説明を参照し、添付図面と関連付けて検討することによって、付随する特徴が一層深く理解され、それに連れてその多くが一層容易に認められるであろう。
[0008] この説明は、以下の詳細な説明を添付図面を参照しながら読むことによって、一層良く理解されよう。
図1は、自然言語を使用して1組の画像を検索するシステムの模式図である。 図2は、自然言語を使用して1組の画像を検索するユーザー・インターフェース例の模式図である。 図3は、自然言語を使用して1組の画像を検索する他のユーザー・インターフェース例の模式図である。 図4は、図1の画像タグ付けサーバーのブロック図である。 図5は、図1の自然言語クエリー・マッパー(mapper)のブロック図である。 図6は、自然言語クエリー・タームを1つ以上のタグにマッピングする方法の流れ図である。 図7は、自然言語を使用して1組の画像を検索する方法の流れ図である。 図8は、1組の画像をナビゲートする方法の流れ図である。 図9は、本明細書において説明するシステムおよび方法の実施形態を実現することができる、実証的な計算ベース・デバイスを示す。
添付図面において同様の部分を示すために、同様の参照番号を使用する。
[0009] 添付図面と関連付けて以下に示す詳細な説明は、本例の説明であることを意図するのであって、本例を構成または利用することができる唯一の形態を表すことを意図するのではない。この説明は、本例の機能、および本例を構成し動作させるステップのシーケンスを明記する。しかしながら、同じまたは同等の機能およびシーケンスが異なる例によって遂行されることも可能である。
[0010] 本明細書において説明する例は、ディジタル写真のような画像を使用する。また、画像はビデオであってもよい。
[0011] 本明細書において説明するのは、自然言語クエリーを使用して1組の画像を検索するシステムおよび方法である。画像は、その画像のコンテンツを記述する1つ以上の画像タグと自動的にタグ付けされる。検索は、オントロジーおよび意味的埋め込み(semantic embedding)の組み合わせを使用して、自然言語クエリーを1つ以上の画像タグにマッピングすることによって、実行することができる。例えば、ある場合には、クエリーと画像タグとの間における1つ以上の距離尺度を計算することによって、自然言語クエリーがマッピングされ、距離尺度は、オントロジー(ontology)に関して、および/または自然言語コーパスから計算される単語の意味空間に関して計算される。計算された距離尺度は、次に、自然言語クエリーを表す1つ以上のタグを識別するために組み合わされる。次いで、識別された画像タグを使用して、検索判断基準と一致する画像(例えば、識別された画像タグがタグ付けされた画像)を識別する。
[0012] 1組の画像を、この画像のコンテンツおよび/または特徴を記述する1つ以上の画像タグと関連付けて格納することによって、引き出すときに各画像を分析する必要なく、あるいは手作業で画像毎にメタデーターを編集するまたは提供する必要なく、容易にそして効率的に画像を引き出すことが可能になる。この説明した方法およびシステムを使用して1組の画像から画像を引き出すことによって、ユーザーは、自然言語を使用して、素早くそして容易に関連する画像を引き出すことが可能になる。これによって、ユーザーが手作業で画像のリスト全域にわたってスクロールして、特定のコンテンツがある画像を突き止める必要性がなくなる。これは時間がかからずしかも誤りが生じにくい。
[0013] 更に、自然言語クエリー・タームを1つ以上の画像タグに自動的にマッピングすることによって、検索が容易になり、そして直観的になる。何故なら、ユーザーは、特定の画像タグが何であるか知る必要がなく、要するに彼らに馴染みがあり直観的な言語を使用することができるからである。自然言語クエリー・タームの句(query terms phrases)を1つ以上のタグにマッピングするためにオントロジーおよび意味的埋め込みの双方を使用することによって、オントロジーまたは意味的埋め込みのいずれかだけを使用するよりも、予想外に精度が高いマッピングが行われる。
[0014] 本明細書において説明する種々の例は、自然言語画像検索(即ち、訓練される概念/タグに限定されない)、および画像間におけるナビゲーションを、画像全体の類似性または領域レベルにおける類似性のいずれかによって可能にする。
[0015] 本明細書では、分散型画像引き出しシステムにおいて本例が実現されるものとして説明および例示するが、説明するシステムは、一例として示されるのであって限定ではない。当業者には認められようが、本例は、種々の異なるタイプの画像引き出しシステムにおける用途に適している。
[0016] 最初に図1を参照すると、図1は、自然言語クエリーを使用して1組の画像を検索するシステム例を示す。
[0017] このシステムは、1組のタグ付けされていない画像114を自動的に分析し、タグ付けされていない画像114の各々に対してタグ付けされた画像112を生成するように構成された画像タグ付けサーバー102を含む。タグ付けされていない画像114は、画像の任意の収集(collection)または集合(set)でよい。例えば、タグ付けされていない画像は、特定のデバイス(例えば、スマートフォン)における画像の全て、特定のデバイスにおいて特定のユーザーに関連付けられた画像の全て、または複数のデバイス(例えば、スマートフォンおよびラップトップ)において特定のユーザーに関連付けられた画像の全てであってもよい。これらの画像は全て、1箇所に位置してもよく、または例えば通信ネットワーク100を跨いで分散されてもよい。
[0018] タグ付けされていない各画像には、その画像の特徴および/またはコンテンツを記述する1つ以上のタグが割り当てられる。特徴とは、例えば、画像内にある物体、光景、および/または陸標であってもよい。各タグは、オントロジー108の概念である。オントロジー108は、概念を表すノードのグラフであり、ノードは、概念間の関係にしたがってエッジによってリンクされる。ある例では、オントロジーは、複数のサブカテゴリーがある階層構造を有することもできる。
[0019] 具体的には、画像タグ付けサーバー102は、タグ付けされていない各画像114を分析して、画像内部の特徴を識別し、識別した各特徴に1つ以上の画像タグを割り当ててタグ付き画像を生成するように構成されている。画像タグ付けサーバー102の一例について、図4を参照して以下で説明する。
[0020] また、このシステムは、画像検索およびナビゲーション・モジュール104も含む。画像検索およびナビゲーション・モジュール104は、ユーザーが自然言語検索をタグ付き画像112上で実行することを可能にする。具体的には、画像検索およびナビゲーション・モジュール104は、自然言語クエリー・タームおよび/または句をユーザーから、エンド・ユーザー・デバイス116を通じて受け取り、自然言語クエリー・タームを自然言語クエリー・マッパー106に供給するように構成されている。エンド・ユーザー・デバイス116は、例えば、スマートフォン、パーソナル・コンピューター、タブレット・コンピューター、またはラップトップであってもよい。
[0021] 自然言語クエリー・マッパー106は、各自然言語クエリー・タームまたは句を1つ以上のタグにマッピングする。種々の例において、自然言語マッパー106は、自然言語クエリー・タームまたは句がタグのリストにおけるタグの内の1つに一致するか否か判定するように構成することができる。タームまたは句がリストにおけるタグの内の1つと一致した場合、自然クエリー・マッパー106は、このクエリー・タームまたは句を、マッピング・プロセスの出力として、画像検索およびナビゲーション・モジュール104に逆に供給することができる。
[0022] しかしながら、自然言語クエリー・タームまたは句がリストにおけるタグの内の1つと一致しない場合、自然言語クエリー・マッパー106は、自然言語クエリー・タームまたは句に最も類似する1つまたは複数のタグを選択するように構成することができる。ある場合には、自然言語クエリー・マッパー106は、オントロジーおよび意味的分析の組み合わせを使用して、クエリー・タームまたは句に最も類似する1つまたは複数のタグを選択するように構成される。例えば、自然言語クエリー・マッパー106は、クエリー・タームまたは句とタグとの間における1つ以上の距離を計算することができ、各距離は、クエリー・タームとタグとの間の類似性を表す。ある例では、自然言語クエリー・マッパー106は、クエリー・タームまたは句とタグとの間におけるオントロジーの距離、およびクエリー・タームまたは句とタグとの間における意味的空間の1つ以上の距離を計算するように構成される。次いで、計算した距離を使用して、クエリー・タームまたは句に最も近い、即ち、最も類似するタグ(1つまたは複数)を選択する。
[0023] 例えば、画像検索およびナビゲーション・モジュール104は、エンド・ユーザー・デバイス116のディスプレイ・モジュール上でグラフィカル・ユーザー・インターフェース118と相互作用するように構成することもできる。グラフィカル・ユーザー・インターフェース118は、ユーザーが、1つ以上のクエリー・タームおよび/または句(例えば、クエリー・ターム入力ボックス120に)を入力し、入力されたクエリー・タームおよび/または句を使用してタグ付き画像114の検索を開始することを可能にする(例えば、検索ボタン122をクリックする、またはそれ以外の方法で選択することによって)。検索を開始すると(例えば、検索ボタン122をクリックまたはそれ以外の方法で選択することによって)、自然言語クエリー・タームおよび/または句(例えば、クエリー・ターム入力ボックス120に入力された)は、画像検索およびナビゲーション・モジュール104に供給される。次いで、画像検索およびナビゲーション・モジュール104は、自然言語クエリー・タームおよび/または句を自然言語クエリー・マッパー106に供給する。
[0024] ユーザーが、タグの内の1つに一致しない自然言語クエリー・タームまたは句(例えば、「車両」)を供給した場合、自然言語クエリー・マッパー106は、この自然言語クエリー・ターム(例えば、「車両」)をタグの内1つ以上(例えば、「車」)にマッピングし、マッピングしたタグ(例えば、「車」)を画像検索およびナビゲーション・モジュール104に供給することができる。
[0025] 自然クエリー・マッパー106の一例について図5を参照して説明し、自然言語クエリー・タームまたは句を1つ以上のタグにマッピングする方法の一例を図6を参照して説明する。この方法は、自然言語クエリー・マッパー106によって実行することができる。
[0026] 自然言語クエリー・マッパー106から1つ以上のタグを受け取ると、画像検索およびナビゲーション・モジュール104は、受け取ったタグを使用して、タグ付き画像122から、検索クエリー・タームおよび/または句と一致する画像を選択する。ある場合には、画像検索およびナビゲーション・モジュール104は、受け取ったタグ(1つまたは複数)がタグ付けされたまたは関連付けられた画像を選択するように構成される。次いで、画像検索およびナビゲーション・モジュール104は、選択した画像(例えば、検索クエリー・タームおよび/または句と一致する画像)を供給する。
[0027] 例えば、ユーザーが検索ターム「車両」を供給し、自然言語クエリー・マッパー106がこのクエリー・タームをタグ「車」にマッピングした場合、画像検索およびナビゲーション・モジュール104は、タグ付き画像112を検索して、タグ「車」が割り当てられた画像を求めることができる。次いで、画像検索およびナビゲーション・モジュール104は、検索の結果130(例えば、クエリー・タームおよび/または句と一致する画像)をユーザーに、例えば、エンド・ユーザー・デバイス116に表示されるグラフィカル・ユーザー・インターフェース124を通じて表示することができる。ある場合には、画像検索およびナビゲーション・モジュール104は、検索結果をユーザーに表示する前に、これらを順位付けするように構成することもできる。
[0028] これより図2を参照すると、図2は、ユーザーが自然言語クエリーを使用して1組の画像を検索することを可能にするグラフィカル・ユーザー・インターフェース124の一例を表示する(display)。
[0029] 図1を参照して説明したように、グラフィカル・ユーザー・インターフェース124は、自然言語クエリー・タームおよび/または句をユーザーから受け取るように構成されているクエリー・ターム入力ボックス126を含むことができる。クエリー・タームおよび/または句は、1つ以上のキーワードまたはキー句(key phrase)(例えば、「車」および「人」)、および1つ以上の関係ターム(relationship term)を含むことができ、または関係タームを含まない場合もある。関係タームとは、「および」、「いいえ」、「または」というような、キーワード間の関係を指定するタームである。「脇」、「右」、「左」、「近く」というような空間関係タームも使用することができる。ある場合には、関係タームが指定されないと、「および」のようなデフォルトの関係用語をグラフィカル・ユーザー・インターフェースが仮定することもできる。
[0030] また、グラフィカル・ユーザー・インターフェース124は検索ボタン128も含む。検索ボタン128は、有効化されると(例えば、ボタン128上でクリックする、またはそれ以外の方法でボタン128を選択することによって)、クエリー・ターム入力ボックス126内の自然言語クエリー・タームおよび/または句を使用して、タグ付き画像114の検索を開始する。
[0031] 先に説明したように、検索が開始されると、クエリー・ターム入力ボックス126内の自然言語クエリー・タームおよび/または句が画像検索およびナビゲーション・モジュール104に送られ、これらは自然言語クエリー・マッパー106によって1つ以上のタグに変換またはマッピングされ、次いで、マッピングされたタグは、自然言語クエリー・タームおよび/または句と一致する画像を識別し引き出すために使用される。次いで、識別された画像(あるいはその一部またはその1バージョン)はユーザーに供給される(例えば、エンド・ユーザー・デバイス116を通じて)。
[0032] 図2に示す例では、ユーザーは自然言語クエリー・ターム「車」を使用して1組の画像を検索した。クエリーと一致する画像130(あるいはそのサムネイルまたは1バージョン)(例えば、タグ「車」と関連付けられた画像)が、グラフィカル・ユーザー・インターフェース124を通じてユーザーに表示される。
[0033] ある場合には、ユーザーが、特定の表示画像についてもっと多くの情報を、その画像上でクリックするまたは他の方法で選択することによって、発見できるとよい。例えば、図2に示すように、ユーザーが第1表示画像130上でクリックするかまたはそれ以外の方法で選択すると、ウィンドウ200内に、この画像130についての情報またはこの画像130に関する情報(例えば、タグ、関連画像等)と共にこの画像を表示することができる。ウィンドウ200は、主要なグラフィカル・ユーザー・インターフェース124の一部であってもよく、または主要なグラフィカル・ユーザー・インターフェースとは別であってもよい。
[0034] ある例では、ウィンドウ200が、画像130と関連付けられているタグ202のリストを表示することもできる。例えば、図2では、ウィンドウ200は、選択画像130がタグ202「人」、「車」、および「道」と関連付けられている(またはタグ付けされている)ことを示す。ある場合には、タグを分類することもでき、これらがユーザーに表示されるとき(例えば、ウィンドウ200において)、これらはそのカテゴリと関連付けて表示される。例えば、画像内において識別された物体に関係するタグは、「物体」タグであるとして識別することができ、画像内において識別された特定の光景に関係するタグは「光景」タグとして識別することができ、画像内において識別された特定の陸標に関係するタグは、「陸標」タグとして識別することができる。画像内における特定の領域(または境界ボックス)に関係するタグは、「領域」タグとして識別することができる。ある場合には、ユーザーが、これらのタグの内1つの上でクリックする、またはそれ以外の方法で選択することによって、クエリー・タームを自動的に更新することもできる。例えば、ユーザーがタグ「人」上でクリックした、またはそれ以外の方法で選択した場合、ターム「人」をクエリー・ターム入力ボックスに追加することができる。
[0035] ある例では、ウィンドウ200が、更にまたは代わりに、選択画像130に類似する1つ以上の画像204および206も表示することもできる。2つの画像の類似性は、例えば、これらが共有する(即ち、共通して有する)画像タグの数に基づいて判定することができる。例えば、ある場合には、2つの画像が共通して有する画像タグが多い程、これらの類似性は高くなる。また、2つの画像の類似性は、画像タグに割り当てられる信頼値に基づくこともできる。例えば、タグ付けされていない画像114に1つ以上の画像タグをタグ付けすることに加えて、画像タグ付けサーバー102は、画像に割り当てられる各タグに信頼値を割り当てるように構成することもできる。信頼値は、画像に関する画像タグの精度を示す(例えば、画像が、画像タグによって示される特徴(例えば、物体、光景等)を含む可能性(likelihood)を示す。ユーザーは、同様の画像上でクリックする、またはそれ以外の方法で選択することによって、特定の類似する画像について更に学習することができる。他の例では、2つの画像の類似性は、画像から抽出された視覚的特徴に基づいて判定することもできる。特徴は、ディープ・ニューラル・ネットワーク(deep neural network)を使用して、または他の方法で抽出することができる。
[0036] ある例では、ユーザーが、例えば、ウィンドウ200内において選択画像130の表示上でカーソルを動かすことによって、選択画像130においてどの物体が識別されたのか見ることができるのでもよい。識別された物体上にカーソルが位置付けられると、識別された物体を、そういうものとして、示すまたは強調することができる。例えば、図2に示すように、矩形ボックス208(境界ボックスとも呼ぶ)を、識別された物体の回りに示すこともできる。物体周囲の境界ボックスは、実際に描かれるのではなく、画像上に単に現れることができる。ボックス208がクリックされると、これを使用して、関連する領域タグを有する画像を検索することによって、画像間でナビゲートすることができる。例えば、境界ボックス208が人を含む場合、領域タグは「人」にすることができる。境界ボックス208を選択してユーザー入力を受け取られると、画像を引き出すためのクエリーとして領域タグを使用することができる。
[0037] ユーザーは、選択画像130内において物体上でクリックする、またはそれ以外の方法で選択することによって、クエリーにタームを自動的に追加することができる。例えば、ユーザーが、選択画像130内に示されている人の内ひとりの上でカーソルを動かすと、この人の上に矩形ボックスが表示される。次いで、ユーザーが矩形ボックス内のいずれかの場所でクリックすると、クエリー・ターム入力ボックスが2つのクエリー・ターム、「車」および「人」を含むように、ターム「人」を追加することができる。その後クエリーが開始されると、システムの構成に応じて、いずれかのクエリー・タームまたは双方のクエリー・タームと一致する画像を突き止めるために、このクエリーを実行することができる。例えば、ターム「車」および「人」を含むようにクエリーが自動的に更新または変更される場合、双方のクエリー・ターム(例えば、「車」および「人」)と一致する画像212を表示するように、グラフィカル・ユーザー・インターフェース210を更新することができる。
[0038] このようにユーザーが自動的にクエリー・タームを更新するのを可能にすることによって、クエリーを編集し、1組の画像全体にわたってナビゲートするための素早くて効率的な方法をユーザーに提供する。
[0039] 画像検索の結果は、格子パターンまたはその他のパターンで配列された複数のサムネイル画像として提示することができる。ある例では、最上位に順位付けされた画像(検索から戻された)がグラフィカル・ユーザー・インターフェースの結果領域の中心に提示され、順位が低い画像は中央の画像の回りに提示され、円弧が中央の画像を、それよりも順位が低い画像の各々と結び付ける。円弧は、中央の画像とそれよりも順位が低い画像との間における類似性の強さを表す幅、色、またはその他の特徴を有することができる。
[0040] これより図3を参照すると、図3は、ユーザーが自然言語を使用して1組の画像を検索することを可能にするグラフィカル・ユーザー・インターフェースの他の例300を示す。この例では、グラフィカル・ユーザー・インターフェース300は、図1および図2のグラフィカル・ユーザー・インターフェース124と同様、クエリー・ターム入力ボックス302および検索ボタン304を含む。これらは、図1および図2のクエリー・ターム入力ボックス126および検索ボタン128と同様に動作することができる。
[0041] また、図3のグラフィカル・ユーザー・インターフェース300は近接性選択ツール306も含む。近接性選択ツール306は、画像内において互いに近接する指定クエリー・タームを有する画像を、ユーザーが検索することを可能にする。本明細書では、このような検索を近接性検索またはクエリーと呼ぶ。例えば、図3に示すように、クエリー・タームが「人」および「自転車」を含む場合、これらのタームを使用して検索またはクエリーを開始すると(例えば、検索ボタン304上でクリックする、またはそれ以外の方法で選択することによって)、自転車の近くにいる(即ち、近接する)人を含む画像を識別する。
[0042] ある場合には、画像タグ付けサーバー102が、画像内において識別された任意の物体の位置を、タグ付け画像と関連付けて記録するように構成されてもよい。この情報は、その後、近接性検索が開始されたときに、画像内における物体間の距離を動的に判定するために使用することができる。例えば、画像検索およびナビゲーション・モジュール104が近接性検索をユーザーから(例えば、エンド・ユーザー・デバイス116を通じて)受けたとき、画像検索およびナビゲーション・モジュール104は、クエリー・タームに一致する1組のタグ付き画像において画像を突き止める、または識別し、位置情報を使用して、識別された画像内において指定された物体間の距離を判定し、計算された距離が所定の閾値を超える場合、識別された画像を全て排除するように構成することができる。
[0043] 代わりに、画像タグ付けサーバー102は、画像内における任意の物体間の距離を自動的に判定し、この距離情報を、タグ付き画像と関連付けて、格納するように構成することもできる。これによって、近接性クエリーと一致する画像の引き出しを更に素早く行うことが可能になる。何故なら、画像およびナビゲーション・モジュール104は、最初に距離を計算しなくても、一致する画像のリストを戻すことができるからである。しかしながら、追加の距離情報を格納するために、より多くの空間が必要となる。
[0044] これより図4を参照すると、図4は、画像タグ付けサーバー102の一例を示す。先に説明したように、画像タグ付けサーバー102は、タグ付けされていない画像402を受け取り、タグ付き画像404を生成する。タグ付き画像404は、それに関連付けられた1つ以上のタグを有する画像であり、タグはこの画像の特徴を記述する。ある場合には、画像タグ付けサーバー102は、タグ付けされていない画像だけを受け取るのでもよい。他の場合には、画像タグ付けサーバー102は、画像に関連するメタデーターも受け取ることができる。画像タグ付けサーバーが、タグ付けされていない画像に加えて、メタデーターも受け取る場合、画像タグ付けサーバー102は、画像にタグ付けするのを補助するためにこのメタデーターを使用することができる。例えば、全地球測位システム(GPS)を使用して、陸標のデーターベースから、近隣にある陸標を引き出すことができる。近隣にある陸標の名称をタグとして使用することもできる。他の例では、写真を写す間におけるフラッシュの使用が、「夜」のタグの可能性(chance)を高めることができ、または日中における野外に対する夜間における野外の競合モデル間で選択するために使用することができる。
[0045] 画像タグ付けサーバー102は、1つ以上の認識モジュールを含む。例えば、陸標認識モジュールは、GPSデーターおよび陸標のデーターベースを使用する。認識モジュールの内いくつかは、画像内部において一定の特徴を識別し、1つ以上のタグを各識別された特徴と関連付けるために、予め訓練されている。例えば、図4の画像タグ付けサーバー102は、物体認識モジュール406、光景認識モジュール408、陸標認識モジュール410、活動認識モジュール412、画像内テキスト認識モジュール414、顔認識モジュール416、性別認識モジュール418、年齢認識モジュール420、表現認識モジュール422を含む。活動認識モジュール412は、画像内に描かれている活動を検出するために、規則または訓練された機械学習システムを使用することができる。画像内テキスト認識モジュールは、OCRコンポーネントを含むことができる。年齢および性別認識モジュールは、画像内に描かれている任意の人からしかるべき同意が得られたときに動作する。これらは、画像内に描かれた人を性別クラスおよび年齢クラスに分類するために、機械学習および/または規則を使用する。表現認識モジュールは、ジェスチャ認識、および顔表現認識コンポーネントを含むことができ、これらは機械学習コンポーネントであってもよい。
[0046] 他の例では、画像タグ付けサーバー402は、これらの認識モジュールの内1つだけを含んでもよく、これらの認識モジュールの他の組み合わせを含んでもよく、または他の適した認識モジュールを含んでもよい。
[0047] 物体認識モジュール406は、画像内において物体を識別し、識別した物体を分類し、分類に基づいて物体に1つ以上のタグを割り当てるように構成されている。物体認識モジュール404は、判別技法を使用して、画像のエレメントを固定数の物体クラスの内の1つに分類するように構成することができる。例えば、画素差特徴(pixel difference features)を使用して画像の画素を分類するために、訓練されたランダム判断フォーレスト(trained random decision forest)を使用することができる。ある場合には、ランダム判断フォーレストのツリーの各ノードが、外観または形状と関連付けられる。次いで、分類に基づいて、1つ以上のタグが画像に割り当てられるか、あるいは境界ボックス、画素、または画素のグループのような、画像のエレメントに割り当てられる。
[0048] 光景認識モジュール408は、画像の光景を分類し、分類に基づいて1つ以上のタグを割り当てるように構成されている。光景クラシファイア(scene classifier)は、画像から視覚的特徴を抽出し次いでクラシファイア(ランダム・フォーレストまたはニューラル・ネットワークのような)を訓練することを含む、所与の光景のための機械学習モデルを構築するために、標識付きデーター(既知の光景を含む画像)から訓練することができる。特徴抽出は、生の画素値に対して特徴抽出および分類の双方を実行するように構成されたディープ・ニューラル・ネットワークを使用して行うことができる。
[0049] 陸標認識モジュール410は、画像内における既知の陸標(例えば、ピザの斜塔)を識別し、識別に基づいて1つ以上のタグを割り当てるように構成されている。ある場合には、陸標認識モジュール410は、物体認識モジュール406と協働して動作することもできる。例えば、陸標認識モジュール410は、物体認識モジュール408から、画像内において識別された物体についての情報を受け取ることもできる。次いで、陸標認識モジュール410は、物体の形状およびメタデーターにおける位置情報を使用して、物体を陸標として識別することができる。位置情報は、画像を生成したデバイス(例えば、カメラ)によって自動的に生成することができ、または手作業でメタデーターに入力することも可能である。一旦陸標認識モジュール410が物体を陸標として識別したなら、1つ以上のタグを画像に割り当てるかまたは関連付ける。他の例では、画像に関連付けられたGPSメタデーターが、陸標のデーターベースにおいて潜在的に可能な陸標を調べるために使用される。近接する陸標が1つよりも多くある場合、データーベースに格納されている陸標の円錐状画像を使用して潜在的に可能な陸標から1つを選択するために、画像の視覚的コンテンツを使用することができる。
[0050] これより図5を参照すると、図5は、自然言語クエリー・マッパー106の一例を示す。先に説明したように、自然言語クエリー・マッパー106は、自然言語クエリー・タームおよび/または句500を画像検索およびナビゲーション・モジュール104から受け取り、各自然言語クエリー・タームおよび句を複数の画像タグ503の内の1つ以上の画像タグ502にマッピングする(ここでは、マッピング・タグ(mapped tag)と呼ぶ)。具体的には、自然言語クエリー・マッパー106は、意味的分析およびオントロジーの組み合わせを使用して(ここで、各タグはオントロジーにおける1つの概念となる)、各自然言語クエリー・タームおよび/または句500を1つ以上の画像タグ502にマッピングする。マッピングされた画像タグ502は、次いで、マッピングされた画像タグ502とタグ付けされている画像を特定するために、画像検索およびナビゲーション・モジュール104に供給される。
[0051] 図5の自然言語クエリー・マッパー106は、意味的距離モジュール504を含む。意味的距離モジュール504は、自然言語クエリー・タームまたは句と可能な画像タグの各々との間における意味的空間における少なくとも1つの距離を計算するように構成されている。各距離は、自然言語クエリー・タームまたは句と対応する画像タグとの間における意味的類似性を示す。2つの単語または句の意味的類似性は、これらが類似する意味を有するか否か(例えば、これらが同じコンテキストにおいて同様のことを意味するために使用される)に基づく。
[0052] ある場合には、意味的距離(1つまたは複数)は、意味的距離モジュール504によって、単語および/または句の意味的埋め込み506から計算される。意味的埋め込み506とは、単語の意味的空間であり、各単語または句が、単語および/または句間の意味的類似性を表す低または高次元埋め込みベクトルにマッピングされる。
[0053] ある場合には、意味的埋め込み506は、意味的エンコーディング(semantic encoding)508を自然言語コーパス510に適用することによって生成される。自然言語コーパス510とは、大きな1組のテキストである。意味的埋め込み508は、単語間の意味的情報を取り込むように訓練された機械学習コンポーネントである。
[0054] ある場合には、意味的エンコーディングは、再帰的ニューラル・ネットワーク(RNN)のようなニューラル・ネットワークであり、周囲の単語(またはコンテキスト)が与えられて、単語を予測するように訓練される。結果的に、同様のコンテキストに現れる単語は同様の埋め込みベクトルを有することになる。このようなニューラル・ネットワークを自然言語コーパス510に適用すると、自然言語コーパスにおいて発見される文章における単語の使用の類似性に基づいて、各単語の高次元埋め込みが得られる結果となる。例えば、単語「暖かい」(warm)および「熱い」(hot)は、以下と同様の文章に現れると考えられる。
スープは未だ熱かった...
スープはまだ温かかった...
暑い天候...
暖かい天候...
[0055] この結果、単語「熱い」および「暖かい」は同様または同一の埋め込みベクトルを有することになる。
[0056] 意味的距離モジュール504は、単語の意味的空間における1つ以上の距離(即ち、意味的埋め込み506)を計算するように構成することができる。具体的には、意味的距離モジュール504は、1つ以上の距離モジュールを含むことができ、各距離モジュールが異なる方法で距離を計算する。例えば、図5の意味的距離モジュール504は、自然言語クエリー・タームおよび/または句と個々のタグとの間におけるコサイン類似性(cosine similarity)を計算するコサイン類似性モジュール512と、自然言語クエリー・タームおよび/または句と個々のタグとのドット積を計算するドット積モジュール514と、自然言語クエリー・タームおよび/または句と個々のタグとのダイス類似性(dice similarity)を計算するダイス類似性モジュール516と、自然言語クエリー・タームおよび/または句と個々のタグとの間におけるハミング距離を計算するハミング距離モジュール518と、自然言語クエリー・タームおよび/または句と個々タグとの間における街区距離(city block distance)を計算する街区距離モジュール520とを含む。しかしながら、他の例では、意味的距離モジュール504は、これらの距離モジュールの内1つだけ、これらの距離モジュールの異なる組み合わせ、または異なるタイプの距離モジュールを含むこともできる。
[0057] 各距離モジュール512〜520は、異なる方法で距離を計算し、つまり、各々が異なる方法で単語および/または句間の類似性を判定する。最良の結果を得るために、種々の距離モジュール512〜520によって計算された距離を組み合わせて、結果における一致(agreement)を捜す。具体的には、距離を閾値モジュール522に供給することができ、閾値モジュール522は、所定の閾値よりも大きい距離はいずれも(自然言語クエリー・タームおよびタグが大して類似しないことを示す)破棄することができる。閾値は、異なる種類の距離毎に異なってもよい。対応する所定の閾値内に収まる距離はいずれも選択モジュール524に供給され、閾値を超えた距離は対応するタグに対して1票を投ずる。次いで、投票を組み合わせて、得票数が最も多いタグ(the tags or tags)を選択する。ある場合には、類似性の強さ(例えば、距離値)に基づいて、投票に重み付けする。このように距離を組み合わせることによって、各距離が異なる判断基準を使用するので、マッピングの精度が向上する。一般に、使用される異なる距離計算が多い程、マッピングの精度は向上する。しかしながら、その代わりに処理時間およびリソースが増大する。
[0058] 異なる意味的距離値を計算して組み合わせることによって、非常に精度が高いマッピング結果を生成することができるが、場合によっては、単語およびその反対語(または関係ない単語)が同じコンテキストにおいて使用されることも一般的である。例えば、反対語および関係ない単語「速い」、「遅い」、および「殆ど」が、「ゆっくり動く列車」および「速く動く列車」、ならびに「殆ど動かない列車」というような同様のコンテキストで使用されることもあり得る。したがって、これらの状況において判別し、こうしてマッピングの精度を高めるために、追加の情報(即ち、意味的分析情報以外の情報)が有用になり得る。
[0059] ある例では、追加の情報はオントロジーから得られる。具体的には、図5の自然言語クエリー・マッパーの一例106は、オントロジー距離モジュール526を含む。オントロジー距離モジュール526は、自然言語クエリー・タームまたは句500と画像タグの各々との間のオントロジーにおける距離を計算するように構成されている。先に説明したように、オントロジー108は、概念(各タグはオントロジーにおける概念である)を表すノードのグラフであり、ノードは、概念間の関係にしたがって、エッジによってリンクされる。各オントロジー距離は、オントロジーにおけるノード間を横断することによって計算される。
[0060] オントロジーは、WordNet(登録商標)のような市販されているオントロジー、または特別に開発されたオントロジーでもよい。WordNet(登録商標)は、英単語の大きな語彙データーベースであり、英単語が複数組の認知同義語(cognitive synonyms)(Synset)にグループ化され、各々が異なる概念を表現する。synsetは、概念−意味および語彙関係によって相互リンクされる。
[0061] オントロジー距離モジュール526によって生成されたオントロジー距離は、閾値モジュール522にも供給され、一定の閾値よりも大きな距離はいずれも破棄または無視され、所定の閾値以内に収まる距離はいずれも選択モジュール524に供給され、対応するタグに対して1票を投ずる。
[0062] これより図6を参照すると、図6は、自然言語クエリー・マッパー106によって実行することができるオントロジーおよび意味的分析の組み合わせを使用して、自然言語クエリー・タームまたは句を1つ以上の画像タグにマッピングする方法を示す。ブロック600において、自然言語クエリー・マッパーは自然言語クエリー・タームまたは句を受け取る。先に説明したように、自然言語クエリー・タームまたは句は、画像検索およびナビゲーション・モジュール104が検索要求(1つ以上のクエリー・タームおよび/または句を指定する)をユーザーからエンド・ユーザー・デバイス116を通じて受け取った後に、画像検索およびナビゲーション・モジュール104から受け取ることができる。
[0063] 自然言語クエリー・タームおよび/または句を受け取ると、自然言語クエリー・マッパー106は、このタームおよび/または句が基準集合(例えば、画像タグの1つ)内にあるか否か判定する(602)。自然クエリー・タームおよび/または句が基準集合内にある場合、自然言語クエリー・マッパー106は、画像タグを画像検索およびナビゲーション・モジュール104に供給し、次いで、画像検索およびナビゲーション・モジュール104がこの画像タグを使用して、自然言語クエリー604と一致する画像を識別して引き出す。
[0064] 自然クエリー・タームおよび/または句が基準集合内にない場合(例えば、画像タグと一致しない)、本方法はブロック606および608に進み、自然言語クエリー・タームまたは句と個々の画像タグとの間におけるオントロジー距離および1つ以上の意味的空間距離を計算する。図5を参照して先に説明したように、オントロジー距離の計算は、自然言語クエリー・タームまたは句と個々画像タグとの間のオントロジーにおける距離(例えば、WordNet(登録商標))を計算することを含むのでもよく、各画像タグはオントロジーにおける概念となる。
[0065] 図5を参照して先に説明したように、1つ以上の意味的距離の計算は、自然言語クエリー・タームまたは句と個々の画像タグとの間の単語の意味的空間における距離を計算することを含むのでもよい。単語の意味的空間は、ニューラル・ネットワークのような訓練された機械学習コンポーネントを自然言語テキストのコーパスに適用することによって、生成されていてもよい。意味的距離は、コサイン類似性、ドット積、ダイス類似性、ハミング距離、および街区距離の内1つ以上を含むことができる。
[0066] 一旦オントロジーおよび意味的距離が生成または計算されたなら、本方法はブロック610に進み、所定の閾値よりも大きな距離を排除または破棄するために、1つ以上の閾値をオントロジーおよび意味的距離に適用する。各種類の距離には特定の所定の閾値があってもよく(例えば、オントロジー距離に1つ、そして各種類の意味的距離に1つずつ)、または全ての距離に適用される1つの所定の閾値があってもよい。閾値(1つまたは複数)を適用する目的は、しかるべき画像タグを選択するときに考慮にいれる必要がないクエリー・タームまたは句間における、このような離れた類似性を示す距離を排除することである。この段階においてこれらの距離を排除することによって、最良の画像タグ候補を選択するために必要とされる処理パワーを低減することができる。
[0067] 一旦計算された距離に閾値(1つまたは複数)が適用されたなら、本方法は612に進み、残っている距離を使用して、自然言語クエリー・タームまたは句に最も近い1つ以上の画像タグを選択する。ある場合には、残っている距離の各々が、対応する画像タグに対する1票と見なされる。次いで、画像タグ毎に投票を集計して、画像タグ毎に投票数または値を得る。得票が最も多い画像タグを最良の画像タグ候補641として選択し、画像検索およびナビゲーション・モジュール104に転送することができる。
[0068] ある場合には、投票を集計する前に、各投票に重み付けする。重みは、関連する距離値の大きさ(magnitude)に基づくのでもよい。例えば、ある場合には、小さな距離値程高い重みが与えられる。
[0069] これより図7を参照すると、図7は、自然言語クエリー・タームおよび/または句を使用して1組の画像を検索する方法を示す。この方法は、検索およびナビゲーション・モジュール104によって実行することができる。ブロック700において、検索およびナビゲーション・モジュール104は検索クエリー(自然言語クエリー・タームおよび/または句と、必要に応じて近接インディケータとを含む)をユーザーからエンド・ユーザー・デバイス116を通じて受け取る。自然言語クエリー・タームおよび/または句を受け取ると、検索およびナビゲーション・モジュール104は、自然言語クエリー・タームおよび/または句を1つ以上の画像タグにマッピングするために、この自然言語クエリー・タームおよび/または句を自然言語クエリー・マッパー106に供給する(702)。自然言語クエリー・マッパー106は、例えば、図6の方法を使用して、自然言語クエリー・タームおよび/または句を1つ以上の画像タグにマッピングすることができる。次いで、自然言語クエリー・マッパー106は、マッピングした画像タグを画像検索およびナビゲーション・モジュール104に供給する。
[0070] ある例では、マッピングされた画像タグを受け取ったとき、本方法はブロック204に進み、画像検索およびナビゲーション・モジュール104は画像タグを、エンド・ユーザー・デバイス116上に表示されているグラフィカル・ユーザー・インターフェースに出力する。しかしながら、画像タグをGUIに出力することは必須ではない。次いで、本方法はブロック206に進む。
[0071] ブロック206において、画像検索およびナビゲーション・モジュール104は、マッピングされた画像タグを使用して、タグ付き画像データーベースから、自然言語クエリー・タームおよび/または句と一致する1つ以上の画像を識別して引き出す。例えば、画像検索およびナビゲーション・モジュール104は、マッピングされた画像タグがタグ付けされている画像を引き出すことができる。検索要求が近接インディケータを含む場合、マッピングされた画像タグがタグ付けされており、更にマッピングされた画像タグによって識別された物体を近接して有する画像だけを引き出すことができる。一旦タグ付き画像データーベースから一致画像が引き出されたなら、本方法はブロック208に進むことができ、または直接ブロック210に進むことができる。
[0072] ブロック208において、画像検索およびナビゲーション・モジュール104は、引き出した画像がどの位検索判断基準と一致するかに基づいて、これらを順位付けする。例えば、先に説明したように、ある場合には、画像タグ付けサーバー102は、画像に割り当てられた各画像タグに信頼値を割り当てるように構成することもできる。信頼値は、タグの精度を示す(例えば、タグによって識別された項目を画像が含む可能性)。これらの場合、画像検索およびナビゲーション・モジュール104は、引き出した画像を順位付けするように構成することができる。例えば、マッピングされた画像タグ(マッピングされたクエリー・タームと交わる(intersect with))に対する信頼値が高い程、画像は高く順位付けされる。他の場合では、引き出された画像を順位付けするために、他の判断基準を使用することもできる。例えば、人間の注釈者によって手作業で判断されたクエリー−画像対に基づいて、検索結果を順位付けする(rank order)ように機械学習順位付け手段(ranker)を訓練することもできる。
[0073] ブロック210において、画像検索およびナビゲーション・モジュール104は、引き出した画像を順位付けして、または順位付けせずに、エンド・ユーザー・デバイス116のグラフィカル・ユーザー・インターフェースに出力することができる。
[0074] これより図8を参照すると、図8は1組の画像全体にわたってナビゲートする方法を示す。この方法は、画像検索およびナビゲーション・モジュール104によって実行することができる。ブロック800において、画像検索およびナビゲーション・モジュール104は、エンド・ユーザー・デバイス116から、ユーザーが表示画像または表示画像内にある物体(例えば、境界ボックスによって示される)の内1つを選択したことの指示を受ける。
[0075] 画像検索およびナビゲーション・モジュール104は、選択された画像または選択された物体802に関連付けられたタグを引き出し、選択された画像または物体に対する画像タグをグラフィカル・ユーザー・インターフェース804内に表示する。ユーザーが画像を選択した場合、この画像に対する画像タグを、図2に示すように、グラフィカル・ユーザー・インターフェース内にリストとして表示することができる。しかしながら、ユーザーが画像内部にある物体を選択した場合、この物体に関連付けられた画像タグを、例えば、境界ボックスの上に表示する、または図2に示すようにクエリー・ターム入力ボックス内に表示することができる。
[0076] また、画像検索およびナビゲーション・モジュール104は、選択された画像または選択された物体に対する画像タグを使用して画像も引き出す。ユーザーが画像を選択した場合、引き出される画像は、選択された画像に類似する画像であろう。類似性は、共通に共有される画像タグに基づくことができる。共有される画像タグが多い程、2つの画像は増々類似する。したがって、ユーザーが画像を選択した場合、画像検索およびナビゲーション・モジュール104は、タグ付き画像データーベースから、選択された画像と同じ画像タグがタグ付けされている画像を引き出すように構成することができる。しかしながら、ユーザーが画像を選択した場合、引き出される画像はクエリー・ターム入力ボックス内のクエリー・タームを含む画像(この場合、選択された物体に関連付けられた画像タグを含む)になるであろう。一旦タグ付き画像データーベースから画像が引き出されたなら、本方法はブロック808に進むことができ、または直接ブロック810に進むことができる。
[0077] ブロック808において、引き出しに使用された画像タグの精度に基づいて、引き出された画像を順位付けする。例えば、先に説明したように、ある場合には、画像タグ付けサーバー102は、画像に割り当てられた各画像タグに信頼値を割り当てるように構成することができる。信頼値は、タグの精度を示す(例えば、画像が、タグによって識別された項目を含む可能性)。これらの場合、画像検索およびナビゲーション・モジュール104は、信頼値を使用して、引き出された画像を順位付けるように構成することができる。例えば、マッピングされた画像タグに対する信頼値が高い程、画像は高く順位付けされる。他の場合では、引き出された画像を順位付けるために、他の判断基準を使用することもできる。一旦引き出された画像が順位付けされたなら、本方法はブロック810に進む。
[0078] ブロック810において、画像検索およびナビゲーション・モジュール104は、引き出した画像を順位付けしたリストまたは順位付けしないリストを、エンド・ユーザー・デバイス116上に表示されているグラフィカル・ユーザー・インターフェースに出力する。ユーザーが画像を選択した場合、引き出された画像(選択された画像に類似する画像)は、図2に示すように、GUIの補助ウィンドウ内に表示することができる。しかしながら、ユーザーが物体を選択した場合、引き出される画像(クエリー・タームと一致する画像)は、図2に示すように、GUIの主要結果ウィンドウに表示することができる。
[0079] ブロック812において、画像検索およびナビゲーション・モジュールは、エンド・ユーザー・デバイス116から、表示された画像を他者(another party)と共有する希望をユーザーが示したことの指示を受けることができる。画像検索およびナビゲーション・モジュール104がこのような指示を受けたとき、画像検索およびナビゲーション・モジュール104はブロック814に進むことができ、例えば、ユーザーおよび/またはエンド・ユーザー・デバイス116にアクセス可能なソーシャル・ネットワーキング・ツールによって、引き出された画像を、指定された者に入手可能にする。
[0080] 図9は、任意の形態の計算デバイスおよび/または電子デバイスとして実現することができ、本明細書において説明したシステムおよび方法の実施形態を実現することができる実証的な計算ベース・デバイス900の種々のコンポーネントを示す。
[0081] 計算ベース・デバイス900は、自然言語を使用して1組の画像を検索するためにこのデバイスの動作を制御するコンピューター実行可能命令を処理するために、1つ以上のプロセッサー902を含み、プロセッサー902は、マイクロプロセッサー、コントローラー、または任意のその他の適したタイプのプロセッサーであってもよい。ある例では、例えば、システム・オン・チップ・アーキテクチャが使用される場合、プロセッサー902は自然言語を使用して1組の画像を検索する方法の一部を実現する1つ以上の固定機能ブロック(アクセレレータとも呼ぶ)を、ハードウェアで(ソフトウェアやファームウェアではなく)含むことができる。クエリー・マッパー906や画像検索およびナビゲーション・モジュール912のようなアプリケーション・ソフトウェアをこのデバイスにおいて実行することを可能にするために、オペレーティング・システム904を含むプラットフォーム・ソフトウェア、または任意の他の適したプラットフォーム・ソフトウェアを計算ベース・デバイス900に設けることもできる。
[0082] コンピューター実行可能命令は、計算ベース・デバイス900によってアクセス可能な任意のコンピューター読み取り可能媒体を使用して供給することができる。コンピューター読み取り可能媒体は、例えば、メモリー910のようなコンピューター記憶媒体、および通信媒体を含むことができる。メモリー910のようなコンピューター記憶媒体は、揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含み、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、またはその他のデーターのような情報の格納のための任意の方法または技術で実現される。コンピューター記憶媒体は、RAM、ROM、EPROM、EEPROM、フラッシュ・メモリーまたは他のメモリー技術、CD−ROM、ディジタル・バーサタイル・ディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージまたは他の磁気記憶デバイス、あるいは計算デバイスによるアクセスのために情報を格納するために使用することができる任意の他の非送信媒体を含むが、これらに限定されるのではない。対照的に、通信媒体は、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、またはその他のデーターを、搬送波のような変調データー信号またはその他の移送メカニズムにおいて具体化することができる。本明細書において定義するように、コンピューター記憶媒体は通信媒体を含まない。したがって、コンピューター記憶媒体を伝搬信号自体であると解釈してはならない。伝搬信号は、コンピューター記憶媒体に存在することはできるが、伝搬信号自体はコンピューター記憶媒体の例ではない。コンピューター記憶媒体(メモリー910)は計算ベース・デバイス900内に示されているが、ストレージは分散されまたは離れて配置され、ネットワークまたはその他の通信リンクを通じてアクセスされてもよい(例えば、通信インターフェース916を使用して)ことは認められよう。
[0083] また、計算ベース・デバイス900は、表示情報をディスプレイ・デバイス920に出力するように構成された入力/出力コントローラー914も含む。ディスプレイ・デバイス920は、計算ベース・デバイス900とは別個であっても、またはこれと一体であってもよい。表示情報は、グラフィカル・ユーザー・インターフェースを提供することができる。また、入力/出力コントローラー914は、ユーザー入力デバイス922(例えば、マウス、キーボード、カメラ、マイクロフォン、またはその他のセンサ)のような1つ以上のデバイスからの入力を受け取り処理するように構成されている。ある例では、ユーザー入力デバイス922は、音声入力、ユーザーのジェスチャ、またはその他のユーザーの行為を検出することができ、自然ユーザー・インターフェース(NUI)を設けることができる。このユーザー入力は、計算ベース・デバイス900の動作を制御するために使用することができる。ディスプレイ・デバイス920がユーザー入力デバイス922としても機能することができる実施形態では、これはタッチ感応ディスプレイ・デバイスとなる。また、入力/出力コントローラー914は、ディスプレイ・デバイス以外のデバイス、例えば、ローカルに接続された印刷デバイス(図9には示されていない)にデーターを出力することもできる。
[0084] 入力/出力コントローラー914、ディスプレイ・デバイス920、およびユーザー入力デバイス922の内任意のものがNUI技術を含むこともできる。NUI技術は、マウス、キーボード、リモコン等のような入力デバイスによって強制される人工的な制約から解放して、ユーザーが「自然な」方法で計算ベース・デバイスと対話処理することを可能にする。提供することができるNUI技術の例には、音声(voice)および/または発話認識(speech recognition)、タッチおよび/またはスタイラス認識(タッチ感応ディスプレイ)、画面上および画面近傍双方におけるジェスチャ認識、エア・ジェスチャ(air gesture)、頭部および視線追尾、音声(voice)および発話(speech)、視覚、タッチ、ジェスチャ、ならびに機械インテリジェンスを拠り所とするものが含まれるが、これらに限定されるのではない。使用することができるNUI技術の他の例には、意思および目標理解システム、深度カメラ(立体視カメラ・システム、赤外線カメラ・システム、rgbカメラ・システム、およびこれらの組み合わせのような)を使用する動きジェスチャ検出システム、加速度計/ジャイロスコープ、顔認識、3Dディスプレイ、頭部、視線、および凝視追跡を使用する動きジェスチャ検出、没入型拡張現実および仮想現実システム、ならびに電界検知電極(EEGおよび関係する方法)を使用して脳活動を検知する技術が含まれる。
[0085] あるいは、または加えて、本明細書において説明した機能は、少なくとも部分的に、1つ以上のハードウェア・ロジック・コンポーネントによって実行することができる。例えば、そして限定ではなく、使用することができるハードウェア・ロジック・コンポーネントの例証的な種類には、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラム特定集積回路(ASIC)、プログラム特定標準製品(ASSP)、システム・オン・チップ・システム(SOC)、複合プログラマブル・ロジック・デバイス(CPLD)が含まれる。
[0086] 「コンピューター」または「計算ベース・デバイス」という用語は、本明細書では、命令を実行できるように処理能力を備えた任意のデバイスを指すために使用される。当業者には、このような処理能力が多くの異なるデバイスに組み込まれ、したがって「コンピューター」および「計算ベース・デバイス」という用語が各々PC、サーバー、移動体電話機(スマート・フォンを含む)、タブレット・コンピューター、セットトップ・ボックス、メディア・プレーヤー、ゲーム・コンソール、パーソナル・ディジタル・アシスタント、および多くのその他のデバイスを含むことが認められよう。
[0087] 本明細書において説明した方法は、有形記憶媒体上において機械読み取り可能な形態でソフトウェアによって、例えば、コンピューター・プログラムの形態で実行することができる。コンピューター・プログラムをコンピューター読み取り可能媒体上に具体化することができる場合、コンピューター・プログラムは、このプログラムがコンピューター上で実行されるとき本明細書において説明した任意の方法のステップ全てを実行するように構成された、コンピューター・プログラム・コード手段を含む。有形記憶媒体の例には、ディスク、サム・ドライブ(thumb drive)、メモリー等のようなコンピューター読み取り可能媒体を含むコンピューター記憶デバイスを含み、伝搬信号を含まない。伝搬信号は、有形記憶媒体内に存在することができるが、伝搬信号自体は有形記憶媒体の例ではない。ソフトウェアは、方法ステップを任意の適した順序でまたは同時に実行できるように、並列プロセッサーまたは直列プロセッサー上における実行に適合することが可能である。
[0088] これは、ソフトウェアが価値があり、別個に取引可能な商品であり得ることを承認する。尚、これは、所望の機能を実行するために「ダム」(dumb)または標準ハードウェア上で実行するまたはこれを制御するソフトウェアを包含することを意図している。また、これは、所望の機能を実行するシリコン・チップを設計するため、またはユニバーサル・プログラマブル・チップを構成するために使用されるような、HDL(ハードウェア記述言語)ソフトウェアのような、ハードウェアの構成を「記述する」または定義するソフトウェアを包含することも意図している。
[0089] 尚、プログラム命令を格納するために利用される記憶デバイスをネットワークを通じて分散できることは、当業者には認められよう。例えば、リモート・コンピューターが、ソフトウェアとして説明された前述のプロセスの一例を格納することもできる。ローカルまたは端末コンピューターがこのリモート・コンピューターにアクセスして、プログラムを実行するためにソフトウェアの一部または全てをダウンロードすることができる。あるいは、ローカル・コンピューターが、必要に応じてソフトウェアの断片(pieces)をダウンロードし、ローカル端末において一部のソフトウェア命令を実行し、リモート・コンピューター(またはコンピューター・ネットワーク)において一部を実行することもできる。また、当業者には知られている従来の技法を利用することによって、ソフトウェア命令の全部または一部を、DSP、プログラマブル・ロジック・アレイ等のような専用回路によって実行することも可能であることも、当業者には認められよう。
[0090] 本明細書において示した範囲またはデバイス値はいずれも、求められる効果を失うことなく、広げることまたは変更することができる。これは当業者には明白であろう。
[0091] 以上、構造的特徴および/または方法論的アクトに特定的な文言で主題について説明したが、添付する特許請求の範囲において定められる主題は、以上で説明した特定的な特徴やアクトには必ずしも限定されないことは理解されよう。逆に、以上で説明した特定的な特徴およびアクトは、特許請求の範囲を実現する形態例として開示したまでである。
[0092] 尚、以上で説明した恩恵および利点は、1つの実施形態に関係する場合もあり、または様々な実施形態に関係する場合もあることは理解されよう。実施形態は、先に述べた問題のいずれかを解決するものにも、全てを解決するものにも限定されず、更に先に述べた恩恵および利点のいずれかを有するものにも、全てを有するものにも限定されない。更に、「1つの」項目に対する引用は、1つ以上のその品目も指すことも理解されよう。
[0093] 本明細書において説明した方法のステップは、任意の適した順序で、または該当する場合には同時に実行することもできる。加えて、本明細書において説明した主題の主旨および範囲から逸脱することなく、これらの方法の任意のものから個々のブロックを削除してもよい。求められた効果を失うことなく、更に他の例を形成するために、以上で説明した方法の内任意のものの態様を、以上で説明した他の例の内任意のものの態様と組み合わせることもできる。
[0094] 「含む」(comprising)という用語が本明細書において使用されるとき、識別された方法ブロックまたはエレメントを含む(include)ことを意味するが、このようなブロックまたはエレメントは排他的なリストを構成するのではなく、方法または装置が追加のブロックまたはエレメントを含んでもよいことを意味する。
[0095] 尚、以上の説明は一例として挙げたに過ぎず、種々の変更が当業者によって行われてもよいことは理解されよう。以上の明細書、例、およびデーターにより、実証的な実施形態の構造および使用の完全な説明が得られる。以上、ある程度の特定性をもって、1つ以上の個々の実施形態を参照しながら種々の実施形態について説明したが、本明細書の主旨や範囲から逸脱することなく、当業者は開示した実施形態には種々の変更を行うことができよう。

Claims (10)

  1. コンピューター実装方法であって、
    自然言語クエリーを受け取るステップと、
    前記自然言語クエリーと複数の画像タグの個々の1つ1つとの間のオントロジーにおける第1距離を計算するステップであって、各画像タグが前記オントロジーの概念である、ステップと、
    前記自然言語クエリーと前記複数の画像タグの個々の1つ1つとの間の単語の意味的空間における少なくとも1つの第2距離を計算するステップと、
    前記計算した第1および第2距離に基づいて、前記複数の画像タグから少なくとも1つを選択するステップと、
    前記選択した少なくとも1つの画像タグを使用して、前記選択された画像タグがタグ付けされた画像のデーターベースから1つ以上の画像を引き出すステップと、
    を含む、コンピューター実装方法。
  2. 請求項1記載の方法において、前記第1距離が、前記オントロジーにおけるノード間を横断することによって計算され、前記オントロジーが、概念を表すノードのグラフであり、前記ノードが、前記概念間の関係にしたがってエッジによってリンクされる、方法。
  3. 請求項1記載の方法において、前記単語の意味的空間が、自然言語文書のコーパスから学習されたものである、方法。
  4. 請求項3記載の方法において、前記単語の意味的空間が、ニューラル・ネットワークを使用して学習されたものである、方法。
  5. 請求項1記載の方法であって、更に、
    前記1つ以上の引き出された画像の少なくとも一部を表示するステップと、
    前記引き出された画像の内1つが選択されたことを示す情報を受け取るステップと、
    前記選択された画像と、前記選択された画像に関係する情報とを表示するステップと、
    を含む、方法。
  6. 請求項5記載の方法において、前記選択された画像に関係する前記情報が、前記選択された画像に類似する1つ以上の画像を含む、方法。
  7. 請求項5記載の方法であって、更に、
    前記選択された画像に関するカーソルの位置を示す情報を受け取るステップであって、前記カーソルがユーザーによって制御される、ステップと、
    前記カーソルが、前記選択された画像内において識別された物体上に位置するか否か判定するステップと、
    前記カーソルが、前記選択された画像内において識別された物体上に位置すると判定したことに応答して、前記識別された物体の周囲に境界ボックスを表示するステップと、
    を含む、方法。
  8. 請求項7記載の方法であって、更に、
    前記境界ボックスが選択されたことの指示を受けるステップと、
    前記境界ボックスに対応する、前記識別された物体に関連付けられた画像タグを含むように、前記自然言語クエリーを更新するステップと、
    を含む、方法。
  9. 請求項1記載の方法において、前記自然言語クエリーが、複数のクエリー・タームと、前記タームが近接になるか否かの指示とを含み、前記タームが近接になると判定したことに応答して、前記選択された画像タグの各々とタグ付けされた画像の前記データーベースから、前記選択された画像タグに関連付けられた物体が近接する1つ以上の画像を引き出す、方法。
  10. 計算ベース・デバイスを含むシステムであって、前記計算ベース・デバイスが、
    自然言語クエリーを受け取り、
    前記自然言語クエリーと複数の画像タグの個々の1つ1つとの間のオントロジーにおける第1距離を計算し、各画像タグが前記オントロジーの概念であり、
    前記自然言語クエリーと前記複数の画像タグの個々の1つ1つとの間の単語の意味的空間における少なくとも1つの第2距離を計算し、
    前記計算した第1および第2距離に基づいて、前記複数の画像タグから少なくとも1つを選択し、
    前記選択した少なくとも1つの画像タグを使用して、前記選択された画像タグがタグ付けされた画像のデーターベースから1つ以上の画像を引き出す、
    ように構成される、システム。
JP2016567987A 2014-05-16 2015-05-14 自然言語画像検索 Active JP6487944B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/279,346 2014-05-16
US14/279,346 US11222044B2 (en) 2014-05-16 2014-05-16 Natural language image search
PCT/US2015/030687 WO2015175736A1 (en) 2014-05-16 2015-05-14 Natural language image search

Publications (3)

Publication Number Publication Date
JP2017519285A true JP2017519285A (ja) 2017-07-13
JP2017519285A5 JP2017519285A5 (ja) 2018-08-23
JP6487944B2 JP6487944B2 (ja) 2019-03-20

Family

ID=53277069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567987A Active JP6487944B2 (ja) 2014-05-16 2015-05-14 自然言語画像検索

Country Status (10)

Country Link
US (2) US11222044B2 (ja)
EP (1) EP3143521A1 (ja)
JP (1) JP6487944B2 (ja)
KR (1) KR102422977B1 (ja)
CN (1) CN106255968B (ja)
AU (1) AU2015259118B2 (ja)
CA (1) CA2947036A1 (ja)
MX (1) MX370916B (ja)
RU (1) RU2688271C2 (ja)
WO (1) WO2015175736A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020152862A1 (ja) * 2019-01-25 2020-07-30 株式会社東芝 エピソード管理装置、エピソード管理プログラム及びエピソード管理方法

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710437B2 (en) * 2014-07-10 2017-07-18 International Business Machines Corporation Group tagging of documents
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
US10185894B2 (en) * 2015-03-26 2019-01-22 Beijing Kuangshi Technology Co., Ltd. Picture management method and device, picture synchronization method and device
US9984068B2 (en) * 2015-09-18 2018-05-29 Mcafee, Llc Systems and methods for multilingual document filtering
US9984100B2 (en) * 2015-09-29 2018-05-29 International Business Machines Corporation Modification of images and associated text
US9881236B2 (en) 2015-12-28 2018-01-30 Google Llc Organizing images associated with a user
US10732809B2 (en) * 2015-12-30 2020-08-04 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US10599701B2 (en) 2016-02-11 2020-03-24 Ebay Inc. Semantic category classification
US10664719B2 (en) 2016-02-12 2020-05-26 Adobe Inc. Accurate tag relevance prediction for image search
US10235623B2 (en) * 2016-02-12 2019-03-19 Adobe Inc. Accurate tag relevance prediction for image search
US10713588B2 (en) * 2016-02-23 2020-07-14 Salesforce.Com, Inc. Data analytics systems and methods with personalized sentiment models
US20170300531A1 (en) * 2016-04-14 2017-10-19 Sap Se Tag based searching in data analytics
US10635727B2 (en) * 2016-08-16 2020-04-28 Ebay Inc. Semantic forward search indexing of publication corpus
CN106407976B (zh) * 2016-08-30 2019-11-05 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
KR101911604B1 (ko) * 2016-10-21 2018-10-25 한국과학기술원 이벤트 검출을 위한 학습형 시스템 트레이닝장치 및 그 방법
US10579902B2 (en) 2016-12-21 2020-03-03 Samsung Electronics Co., Ltd. Method and electronic device for providing text-related image
KR102430567B1 (ko) * 2016-12-21 2022-08-09 삼성전자주식회사 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치
US10515289B2 (en) * 2017-01-09 2019-12-24 Qualcomm Incorporated System and method of generating a semantic representation of a target image for an image processing operation
US10405003B2 (en) * 2017-01-20 2019-09-03 Google Llc Image compression based on semantic relevance
EP3552114A4 (en) * 2017-02-08 2020-05-20 Semantic Machines, Inc. NATURAL LANGUAGE CONTENT GENERATOR
WO2018156978A1 (en) 2017-02-23 2018-08-30 Semantic Machines, Inc. Expandable dialogue system
TWI753034B (zh) 2017-03-31 2022-01-21 香港商阿里巴巴集團服務有限公司 特徵向量的產生、搜索方法、裝置及電子設備
US10642875B2 (en) * 2017-04-28 2020-05-05 International Business Machines Corporation Accurate relationship extraction with word embeddings using minimal training data
US11074250B2 (en) * 2017-06-27 2021-07-27 OWOX Limted Technologies for implementing ontological models for natural language queries
US11723579B2 (en) 2017-09-19 2023-08-15 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement
JP6857586B2 (ja) * 2017-10-02 2021-04-14 富士フイルム株式会社 画像抽出装置,画像抽出方法および画像抽出プログラムならびにそのプログラムを格納した記録媒体
JP6767342B2 (ja) * 2017-11-15 2020-10-14 ヤフー株式会社 検索装置、検索方法および検索プログラム
US10878473B1 (en) * 2017-11-16 2020-12-29 Amazon Technologies, Inc. Content modification
US11717686B2 (en) 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
WO2019133997A1 (en) 2017-12-31 2019-07-04 Neuroenhancement Lab, LLC System and method for neuroenhancement to enhance emotional response
CN108681541B (zh) * 2018-01-17 2021-08-31 百度在线网络技术(北京)有限公司 图片搜索方法、装置及计算机设备
CN109885842B (zh) * 2018-02-22 2023-06-20 谷歌有限责任公司 处理文本神经网络
KR101932264B1 (ko) * 2018-03-02 2018-12-26 주식회사 머니브레인 복수 개의 같은 유형의 엔티티 정보의 분석에 기초한 인텐트 결정을 제공하는 방법 및 대화형 ai 에이전트 시스템, 및 컴퓨터 판독가능 기록 매체
JP6947085B2 (ja) * 2018-03-09 2021-10-13 オムロン株式会社 電子機器及びその制御方法
US11474836B2 (en) * 2018-03-13 2022-10-18 Microsoft Technology Licensing, Llc Natural language to API conversion
US10977303B2 (en) * 2018-03-21 2021-04-13 International Business Machines Corporation Image retrieval using interactive natural language dialog
US10963491B2 (en) * 2018-03-29 2021-03-30 The Boeing Company Structures maintenance mapper
US11364361B2 (en) 2018-04-20 2022-06-21 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
US10699141B2 (en) * 2018-06-26 2020-06-30 Waymo Llc Phrase recognition model for autonomous vehicles
US20200019628A1 (en) * 2018-07-16 2020-01-16 Microsoft Technology Licensing, Llc Visual intent triggering for visual search
DE102018212961A1 (de) 2018-08-02 2020-02-06 Robert Bosch Gmbh Verfahren und Vorrichtung zur Analyse eines Bildes
EP3849410A4 (en) 2018-09-14 2022-11-02 Neuroenhancement Lab, LLC SLEEP ENHANCEMENT SYSTEM AND METHOD
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
CN112955911A (zh) * 2018-10-08 2021-06-11 谷歌有限责任公司 数字图像分类和注释
US20210240762A1 (en) * 2018-10-22 2021-08-05 Google Llc Finding Locally Prominent Semantic Features for Navigation and Geocoding
US20200159765A1 (en) * 2018-11-21 2020-05-21 Google Llc Performing image search using content labels
US11436825B2 (en) 2018-12-14 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for determining target object in image based on interactive input
CN109885161A (zh) * 2019-01-28 2019-06-14 温州大学 一种基于ar技术的远程旅游体验系统
US11494377B2 (en) * 2019-04-01 2022-11-08 Nec Corporation Multi-detector probabilistic reasoning for natural language queries
US11786694B2 (en) 2019-05-24 2023-10-17 NeuroLight, Inc. Device, method, and app for facilitating sleep
US11100145B2 (en) * 2019-09-11 2021-08-24 International Business Machines Corporation Dialog-based image retrieval with contextual information
RU2742602C1 (ru) * 2020-04-06 2021-02-09 Самсунг Электроникс Ко., Лтд. Распознавание событий на фотографиях с автоматическим выделением альбомов
CN111046203A (zh) * 2019-12-10 2020-04-21 Oppo广东移动通信有限公司 图像检索方法、装置、存储介质及电子设备
CN113282779A (zh) 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 图像搜索方法、装置、设备
RU2737600C1 (ru) * 2020-03-19 2020-12-01 Общество с ограниченной ответственностью «ИНСПЕКТОР КЛАУД» Способ сбора размеченного набора данных
KR102411301B1 (ko) * 2020-04-23 2022-06-22 한국과학기술원 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
CN115885275A (zh) * 2020-05-30 2023-03-31 华为技术有限公司 用于使用自然语言描述检索图像的系统和方法
CN111741236B (zh) * 2020-08-24 2021-01-01 浙江大学 基于共识图表征推理的定位自然图像字幕生成方法和装置
WO2022072844A1 (en) * 2020-10-01 2022-04-07 Vishal Misra Systems, methods, and media for formulating database queries from natural language text
KR20220090103A (ko) * 2020-12-22 2022-06-29 주식회사 피제이팩토리 멀티 뎁스 이미지를 이용하여 이미지를 레이블링하고 어노테이션하는 방법 및 장치
KR102435849B1 (ko) * 2021-01-04 2022-08-25 호서대학교 산학협력단 문서에 포함된 텍스트 기반이 아닌 개체에 대한 검색결과를 제공하는 방법
US20220382980A1 (en) * 2021-06-01 2022-12-01 Sap Se Similarity scoring leveraging constrained greedy matching
JP2023028921A (ja) * 2021-08-20 2023-03-03 zro株式会社 意味定義が意味論的メタセットとして構成される方法およびコンピューティングデバイス
US11972525B2 (en) 2022-02-21 2024-04-30 International Business Machines Corporation Generating training data through image augmentation
KR102590632B1 (ko) * 2023-03-20 2023-10-19 노경수 스마트조의금 연계 영상 서비스 제공 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594478A (ja) * 1991-10-02 1993-04-16 Matsushita Electric Ind Co Ltd 画像データベースシステム
JPH07219969A (ja) * 1993-12-06 1995-08-18 Matsushita Electric Ind Co Ltd 画像部品を検索する装置及びその方法
JP2009064213A (ja) * 2007-09-06 2009-03-26 Nagoya Institute Of Technology 目的指向書籍推薦システム
JP2010122931A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 類似領域検索方法、類似領域検索装置、類似領域検索プログラム
US20140081633A1 (en) * 2012-09-19 2014-03-20 Apple Inc. Voice-Based Media Searching

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9904662D0 (en) 1999-03-01 1999-04-21 Canon Kk Natural language search method and apparatus
WO2004072925A2 (en) 2003-02-07 2004-08-26 The Johns Hopkins University Language learning/teaching methods, systems and software/applications programs embodying such language learning/teaching methods and systems
US7383260B2 (en) 2004-08-03 2008-06-03 International Business Machines Corporation Method and apparatus for ontology-based classification of media content
US20070269775A1 (en) 2004-09-14 2007-11-22 Dreams Of Babylon, Inc. Personalized system and method for teaching a foreign language
US20060224569A1 (en) 2005-03-31 2006-10-05 Desanto John A Natural language based search engine and methods of use therefor
CN101203895A (zh) 2005-04-05 2008-06-18 Ai有限公司 语义知识评估、教学和习得系统及其方法
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
RU2345414C1 (ru) 2007-08-10 2009-01-27 Общество с ограниченной ответственностью "Рекогмишн" Способ построения системы индексирования для поиска объектов на цифровых изображениях
US8463053B1 (en) * 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
JP4636141B2 (ja) 2008-08-28 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN101499090A (zh) 2009-02-12 2009-08-05 清华大学 图像数据存储装置和图像数据存储方法
US8612206B2 (en) 2009-12-08 2013-12-17 Microsoft Corporation Transliterating semitic languages including diacritics
US8478699B1 (en) * 2010-04-30 2013-07-02 Google Inc. Multiple correlation measures for measuring query similarity
US9710760B2 (en) * 2010-06-29 2017-07-18 International Business Machines Corporation Multi-facet classification scheme for cataloging of information artifacts
EP2402867B1 (en) 2010-07-02 2018-08-22 Accenture Global Services Limited A computer-implemented method, a computer program product and a computer system for image processing
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
RU2510935C2 (ru) 2011-09-23 2014-04-10 Артем Константинович Игнатов Способ индексации и поиска цифровых изображений
US8311973B1 (en) 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
EP2608196B1 (en) 2011-12-21 2014-07-16 Institut Telecom - Telecom Paristech Combinatorial method for generating filler words
US9785639B2 (en) 2012-04-27 2017-10-10 Mobitv, Inc. Search-based navigation of media content
US9412366B2 (en) * 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US9858292B1 (en) * 2013-11-11 2018-01-02 Tableau Software, Inc. Systems and methods for semantic icon encoding in data visualizations
CN103646032B (zh) 2013-11-11 2017-01-04 漆桂林 一种基于本体和受限自然语言处理的数据库查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594478A (ja) * 1991-10-02 1993-04-16 Matsushita Electric Ind Co Ltd 画像データベースシステム
JPH07219969A (ja) * 1993-12-06 1995-08-18 Matsushita Electric Ind Co Ltd 画像部品を検索する装置及びその方法
JP2009064213A (ja) * 2007-09-06 2009-03-26 Nagoya Institute Of Technology 目的指向書籍推薦システム
JP2010122931A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 類似領域検索方法、類似領域検索装置、類似領域検索プログラム
US20140081633A1 (en) * 2012-09-19 2014-03-20 Apple Inc. Voice-Based Media Searching

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020152862A1 (ja) * 2019-01-25 2020-07-30 株式会社東芝 エピソード管理装置、エピソード管理プログラム及びエピソード管理方法
US11250070B2 (en) 2019-01-25 2022-02-15 Kabushiki Kaisha Toshiba Episode management device, episode management program, and episode management method

Also Published As

Publication number Publication date
RU2016144699A (ru) 2018-05-15
CN106255968A (zh) 2016-12-21
CA2947036A1 (en) 2015-11-19
US20220075806A1 (en) 2022-03-10
US11222044B2 (en) 2022-01-11
MX2016014986A (es) 2017-02-28
US20150331929A1 (en) 2015-11-19
EP3143521A1 (en) 2017-03-22
AU2015259118B2 (en) 2020-02-27
RU2688271C2 (ru) 2019-05-21
KR102422977B1 (ko) 2022-07-19
MX370916B (es) 2020-01-09
AU2015259118A1 (en) 2016-10-27
RU2016144699A3 (ja) 2018-11-26
JP6487944B2 (ja) 2019-03-20
KR20170007747A (ko) 2017-01-20
CN106255968B (zh) 2020-03-31
WO2015175736A1 (en) 2015-11-19

Similar Documents

Publication Publication Date Title
US20220075806A1 (en) Natural language image search
US10043109B1 (en) Attribute similarity-based search
US10642887B2 (en) Multi-modal image ranking using neural networks
KR101768521B1 (ko) 이미지에 포함된 객체에 대한 정보 데이터를 제공하는 방법 및 시스템
US10599709B2 (en) Object recognition device, object recognition method, and program for recognizing an object in an image based on tag information
JP6328761B2 (ja) 画像ベース検索
US10810252B2 (en) Searching using specific attributes found in images
US9411830B2 (en) Interactive multi-modal image search
KR20230157274A (ko) 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법
EP3475840B1 (en) Facilitating use of images as search queries
US20170352162A1 (en) Region-of-interest extraction device and region-of-interest extraction method
US20180137660A1 (en) Responsive customized digital stickers
TW201546636A (zh) 註解顯示器輔助裝置及輔助方法
EP4224340A1 (en) Intelligent systems and methods for visual search queries
CN113330455A (zh) 使用有条件的生成对抗网络查找互补的数字图像
CN111373724B (zh) 电子装置及其控制方法
US11138257B2 (en) Object search in digital images
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
KR20220141975A (ko) 이미지 기반 크롤링 방법 및 그 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190222

R150 Certificate of patent or registration of utility model

Ref document number: 6487944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250