JP6013363B2 - ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイス - Google Patents

ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイス Download PDF

Info

Publication number
JP6013363B2
JP6013363B2 JP2013545134A JP2013545134A JP6013363B2 JP 6013363 B2 JP6013363 B2 JP 6013363B2 JP 2013545134 A JP2013545134 A JP 2013545134A JP 2013545134 A JP2013545134 A JP 2013545134A JP 6013363 B2 JP6013363 B2 JP 6013363B2
Authority
JP
Japan
Prior art keywords
image
feature identification
portable device
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013545134A
Other languages
English (en)
Other versions
JP2014501984A (ja
Inventor
モネ・マシュー
エイェ・セルジュ
ヴェッテーリ・マルタン
Original Assignee
クアルコム,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クアルコム,インコーポレイテッド filed Critical クアルコム,インコーポレイテッド
Publication of JP2014501984A publication Critical patent/JP2014501984A/ja
Application granted granted Critical
Publication of JP6013363B2 publication Critical patent/JP6013363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイスに関する。
「メディア媒介現実(mediated reality)」と呼ばれる概念は、現実のビューをデバイスによって修正、例えば増補又は低減できることを指す。「拡張現実(augmented reality)」及び「低減現実(reduced reality)」という表現はそれぞれ、ビューの要素又は特徴が、仮想的な入力(取り込まれた画像上に重なるグラフィック要素又はテキスト注釈など)によって増補されたか、又は低減もしくは抑制された、物理的な実世界環境のライブ・ビューを示す。例えば、ビューの画像の顕著な特徴に、識別する情報又は特徴付ける情報で注釈付けすることが可能である。
画像の特徴に注釈付けすることは、例えば非特許文献1で述べられているような、分類又は検索の目的で画像全体に注釈付けすることと混同すべできはない。画像の特徴に注釈付けする場合、画像又はビデオが修正されることになり、例えば、ビデオの画像が画像の通常使用中に追加の注釈が重ねられるか又は他の方法で視聴者に送達されることになる。分類のために画像に注釈付けする場合は通常、追加のキーワードなど、画像に関連する追加のメタデータが得られ、このメタデータは普通、画像の通常使用中には隠される。
ビューの画像の特徴に注釈付けするための方法及びデバイスが知られている。
特許文献1には、無線信号を発する特徴に注釈付けするためのコンピュータ化された方法及びデバイスが記載されている。この無線信号を用いて、特徴を識別することができる。次いで、識別された特徴は、特徴に関連する注釈付けデータに関係付けられ、次いでこの注釈付けデータがデバイス上に表示される。特徴は、美術館に属する要素とすることができ、例えば、無線信号を発するための回路を有する絵画又は彫像とすることができる。特許文献1にはまた、ディジタル形式の地図データ又は他の空間情報を使用することも記載されており、地図データと画像データとの間の対応関係マッチングにより、画像データに地図データで注釈付けすることができる。
しかし、注釈付けすべき特徴又は要素が、風景に属する場合、例えば山脈のビュー中の山である場合、特許文献1は、美術館内で使用されるのと同じデバイスでどのように注釈付け方法を処理するかを示唆しない。自明なことだが、山及び風景要素は、無線信号を発するための回路を有さない。一方、特徴に注釈付けするのに地図データを使用するデバイスは、要素が無線信号を発することのできる美術館内では、ほとんど使用することができない。言い換えれば、特許文献1は、異なる環境及び場所に属するビューの画像の特徴に対する注釈付けを、同じデバイスでどのように処理するかを示唆しない。
特許文献2には、デバイスの位置及び配向に基づいてビューの特徴に注釈付けするための、コンピュータ化された方法及びデバイスが記載されている。
特許文献1と特許文献2は両方とも、立体画像、すなわち2つの特定点からの1対のビューによって表される画像の場合に、2Dビューが解決できない曖昧さに対処するために3Dビューを使用できることを簡単に述べている。このような3Dモデルは主に、美術館内又は公園内の彫像など、すぐ近くの特徴に対しては有用だが、離れた特徴を識別するには、有用さが劣り時間がかかる。
特許文献3には、デバイスの位置及び配向、ならびにデバイスのズーム倍率に基づいて、現実2D表示モードから仮想3D表示モードに自動的に切り替えることのできる画像取込みデバイスが記載されている。デバイスはこの場合、画像表現のタイプ(現実又は仮想)を自動的に選択する。
特許文献4には、3次元表示データを、又は、3次元データが利用できないか又は表示し難い場合には2次元表示データを出力するための、ナビゲーション・システムが記載されている。特許文献5には、2D又は3D画像表示の手動選択が可能な別のナビゲーション・システムが記載されている。ここで、これらの文書は、修正現実(modified reality)デバイスには関係しない。
そこで、種々の環境及び場所に属する特徴に対する注釈付けを効率的に処理することを可能にする、ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイスが必要とされている。
ライブ・ビデオ・ストリームに注釈付けする場合、注釈内容をリモート・サーバからフレーム毎に(又は異なる場面タイプもしくはオブジェクト・タイプ毎に)取り出すために通信ネットワークによって生じるレイテンシが、高すぎることがある。一方で、全ての注釈をポータブル・デバイスに記憶することもまた、メモリ及び処理速度の制約により不可能である。このように、ライブ・ビデオ・ストリームに対する現在の注釈付けは、効率的でないか又は可能でない。
欧州特許第1246080号明細書 欧州特許第2207113号明細書 欧州特許第2154481号明細書 特開2005−292064号公報 米国特許出願公開第2004030741号明細書
「Improving image annotations using wordnet」、Advances in multimedia information systems lecture notes in computer science、Springer、Berlin−Heidelberg(ISBN 978−3−540−28792−6)、115〜130頁、01 Janvier 2005 、Yohan Jin他著(University of Texas) 「BRIEF: Computing a Local Binary Descriptor Very Fast」、M.Calonder 他、European Conference on Computer Vision、Heraklion、ギリシャ、2010年 「Scalable Recognition with a Vocabulary Tree」、D. Nister他、CVPR、2006年
したがって、デバイスの画像センサによって生成されたリアルタイム・ビデオ・ストリームに即座に注釈付けすることが必要とされている。
また、リモート・サーバとポータブル・デバイスとの間で、通信コストを削減し、転送速度を上げることも必要とされている。
ゆえに、本発明の一目的は、前述の不都合の1つ又は複数を除去又は緩和することである。
本発明によれば、上記課題は、請求項1に記載の
ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法において、
ポータブル・デバイスの画像センサによって前記画像を得るステップと、
前記ポータブル・デバイスのパラメータから少なくとも1つの条件を取り出すステップと、
前記少なくとも1つの条件に基づいて、利用可能な複数の特徴識別方法から1つの特徴識別方法を自動的に選択するステップと、
前記画像の複数の特徴を識別するために前記特徴識別方法を適用するステップと、
当該識別された複数の特徴のうちのどの特徴が注釈付けされるべきかを決定するステップと、
当該識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けして、重ねられた注釈を有する注釈付き画像を生成するステップとから成り、
前記複数の特徴識別方法は、
前記画像と1つ又は複数の2Dモデルとの間の合致に基づく第1の特徴識別方法と、
前記画像と1つ又は複数の3Dモデルとの間の合致に基づく第2の特徴識別方法とのうちの少なくとも1つの方法から成るか、又はこれらの方法の任意に組み合わせたものから成る当該方法によって解決される。
さらに、本発明は、請求項11に記載のビューの画像の少なくとも1つの特徴に注釈付けするためのシステムと、請求項13に記載のコンピュータ読み取り可能な記録媒体とによって解決される。
このコンテキストにおける名詞「特徴」は、ビューの画像の任意の要素又は特性を示す。特徴は、限定ではないが例えば、山、絵画、彫像、人物、天候、新聞記事、ポスター、レストラン、道路上の他の任意の要素などとすることができる。特徴は、静的な、すなわち時間において固定位置を有する特徴であることもあり、又は動的な、すなわち時間の経過につれて位置又はその概観が変化する特徴であることもある。後者の場合、この種の特徴は、識別されるだけでなく追跡もされることになる。特徴の概観が時間の経過につれて動的に変化し得る一実施形態、例えばディジタル標識の表示装置上に表示される広告クリップの場合では、特徴の識別及び追跡は、ビデオ・ストリームの場合には時間的なフレーム間関係を使用することができ、又は、ある時間帯にわたり静的なままである静的な画像部分を使用することができる。
名詞「注釈」は、画像中の特定の特徴を識別するか又は特徴付ける1つ又は複数の単語、記号、顔文字、描画、線、矢印、画像などを示す。注釈は、画像を通常観察する間に目に見える。例えば、注釈は、注釈付き画像の上に重なる。
特徴が認識されない場合、その注釈はクエスチョン・マークとすることができる。
名詞「注釈」はまた、音及び/又は言語表現を含む音声メッセージを示すことができる。名詞「注釈」はさらに、音声画像のシーケンス又はビデオ・クリップ、すなわち、視覚と音声の両方のメッセージを示すことができる。一実施形態では、注釈は対話式とすることもでき、例えば、ユーザが注釈をクリックしてアクションをトリガすることができる。このようなアクションの結果は、ユーザ入力を求めるメニュー、又は、ユーザに対する種々の情報の表示とすることができる。別の実施形態では、ユーザの対話の必要なしに、対応する特徴が認識されればすぐにメニューがユーザに対して提示される。
別の実施形態では、注釈が表示される前にユーザがアクションを実行する必要がある。例えば、注釈付けすべき特徴は、16個の点で構成される正方形を含むプラカードであり、このプラカードは、16個の点の全てを接続する少数の直線を引くようユーザに求める。ユーザがこれらの線を正しく引くと、例えば拍手を含む音声注釈が特徴に付けられることになる。
表現「ポータブル・デバイス」は、カメラ、ビデオカメラ、携帯電話機、ラップトップ、コンピュータ、パーソナル・ディジタル・アシスタント(PDA)、スマートフォン、ゲーム・コンソールを指すことができるが、これらに限定されない。ビデオカメラの場合、このビデオカメラによって得られる画像は、ビデオ・ストリームの少なくとも1つのフレームを含み、ビデオ・ストリームはリアルタイム・ビデオ・ストリームとすることができる。
このコンテキストにおける名詞「条件」は、パラメータ間の関係を示し、この関係を使用して、複数の利用可能な方法から1つの特徴識別方法を選択することができる。条件は、ポータブル・デバイスの画像センサから得られる画像、又は以下のような他のソースに依存することがある。
・1つ又は複数の位置特定センサ
・1つ又は複数のネットワークベースのセンサ
・1つ又は複数のポータブル・デバイス・パラメータ
・1つ又は複数のリモート・サーバ
画像から取り出される条件の例として、画像の幾つかの特徴のアプリオリな認識を、注釈付け方法の選択に使用することができる。例えば、方法は、マッターホルン(セルヴァン(Cervin))などの山の景色、ピサの斜塔などの建物、円盤投げなどの彫像、又はモナリザなどの絵画が画像中に存在すること等、画像中で識別される特徴を分類することができる。識別される特徴のカテゴリの例には、例えば、風景要素、都市要素、交通要素、クローズアップ要素などが含まれる。
条件が、GPSのような位置特定センサ、及び/又はネットワークベースの位置特定センサから例えば検出された、ポータブル・デバイスの場所に依存する場合、選択される識別方法は、例えば、適切な注釈付け方法を選択するための場所のカテゴリに依存することができる。カテゴリの例としては、風景と都市景色、屋内場所と屋外場所、ハイウェイと美術館、などが含まれる。
屋内と屋外の分類はまた、測定された輝度、又は追加のフラッシュ光の使用に依存することができる。
他の条件を、ポータブル・デバイスのパラメータから取り出すことができる。一例では、ズーム倍率、開口、又は集束距離など、レンズのパラメータを使用することができる。また、例えば、オート、ポートレート、パーティ/屋内、浜辺/雪、風景、クローズアップ、美術館、夕暮れ/夜明けなどを区別するための、ユーザによって選択されたか又は自動的に選択された場面モードを、最も適合された特徴識別方法を決定するための条件として使用することもできる。
これらのデバイス・パラメータは、自動的であってもよく、又はユーザによって手動で選択されてもよい。例として、例えば場面モード「オート」で光が十分でないと考えられる場合には、又は場面モード「パーティ/屋内」では、フラッシュの使用がポータブル・デバイスによって自動的に設定されてよい。又は、フラッシュの使用は、ユーザがポータブル・デバイスの触覚手段を選択することによって、又は外部フラッシュ・デバイスをポータブル・デバイスに追加することによって、手動で設定することができる。
条件はまた、画像モデルを含む1つ又は複数のリモート・サーバのデータベースから取り出すこともできる。
このコンテキストにおける表現「特徴識別方法」は、取り込まれた画像中の1つ又は幾つかの特徴を識別するために選択される方法を示す。方法の選択は、述べた条件の少なくとも1つに依存し、したがって、異なる条件において、異なる特徴識別方法が使用される。特徴識別方法の例は、取り込まれた画像中の特徴を、既知の特徴のローカル又はリモート・データベースに記憶された基準2D画像と照合することを含む。異なる条件下で使用できる別の特徴識別方法は、取り込まれた画像中の特徴を、ローカル又はリモート・データベースに記憶された1つ又は幾つかの3Dモデルの投影と照合することを含んだ。さらに別の特徴識別方法は、取り込まれた要素に関連する、RFID要素などの無線ビーコンから発せられてユーザのデバイスによって受信される無線信号を使用することを含む。
特定の特徴識別方法が選択された後は、選択された方法によって使用されるそれぞれの基準2D及び3D要素の特定データベースの選択もまた、条件に依存することができる。
一例では、集束距離が、例えば「円盤投げ」など、前景のオブジェクトに適合する場合は、選択される特徴識別方法は3Dマッチング認識又は識別方法とすることができ、「円盤投げ」の取込み画像が、データベース中の候補3D基準要素の投影と照合される。集束距離が、例えば山脈など、背景のオブジェクトに適合する場合は、選択される特徴識別方法は2Dマッチング認識又は識別方法とすることができ、山脈の輪郭が、データベース中の2D基準画像と照合される。
有利にも、本発明による方法は、ポータブル・デバイスの現在の集束距離に依存して、2D又は3D特徴識別方法を自動的に選択する。
有利にも、この方法は、最良の特徴識別方法を決定するために、2つ以上の条件を使用し組み合わせることができる。上記の例では、画像が「円盤投げ」を含む場合、ポータブル・デバイスが「美術館」モードに設定されている可能性が高い。この異なる条件により、この例では、3Dマッチング・アルゴリズムが適することが確定し、したがって、次いでこれらの条件に基づいて、3D画像、例えば古代ギリシャの彫像を表す画像を含む特定のデータベースを選択することができ、「円盤投げ」を素早く効率的に識別することができる。
山脈を含む画像に関する上記の他方の例では、ポータブル・デバイスが「風景」モードに設定されており、したがってフラッシュを使用しない可能性が高く、また、ポータブル・デバイスは、デバイスの画像センサにリンクされた位置センサ(例えばGPSセンサ)、又は、GSM(登録商標)又はUMTSネットワーク中でデバイスの位置を例えば特定するためのネットワークベースのセンサを使用して、デバイスの地理的位置を取り出すことができる可能性が高い。これらの条件が満たされるとき、特徴識別方法が選択され、これらの条件に基づいて、2D画像、例えばこの特定の場所の風景輪郭を表す画像を含む特定のデータベースが選択され、山脈を素早く効率的に識別することができる。
本発明の独立態様によれば、「注釈候補」のセット、すなわち複数の注釈からの注釈のセットを、自動的に選択することが可能である。この候補選択は、特徴識別方法の自動選択と同様、少なくとも1つの条件に基づく。好ましい一実施形態では、この少なくとも1つの条件は、ポータブル・デバイスの位置センサ、例えばGPSセンサから取り出された、デバイス位置に依存する。
注釈候補は、セルラー・ネットワーク(例えばUMTS)又はWifiを介して、リモート・サーバからポータブル・デバイスにワイヤレスにダウンロードすることができる。このようにすれば、どんな外部サーバの必要もなしに、ポータブル・デバイス自体の上でビューの画像の注釈付けを行うことができる。また、注釈付けデバイスは、フラッシュ・メモリやDVDなどの媒体に記憶された大きい不揮発性の注釈セット付きで出荷されてもよい。この場合、注釈付けデバイスは、このセットのサブセットのみを使用することになる。実際、コンパクト・ディジタル・カメラのような注釈付けデバイスに、いくらかの注釈セットが組み込まれてよく、カメラは、ユーザが現在見ているビューを認識して、ユーザが撮影しているビューの画像に、認識された注釈で自動的に「タグ付け」することができる。特徴識別方法は、一実施形態では上で論じたように少なくとも1つの条件に依存することができ、次いでこの特徴識別方法が、ビューの画像の少なくとも1つの特徴を識別するために適用される。一実施形態では、非特許文献2で説明されている方法が、非特許文献3で説明されている方法との組合せでこの目的に使用されるが、他の方法を使用することもできる。識別された特徴のうちのどれに注釈付けするかが決定された後、これらの識別された特徴と注釈候補との対応が検証される。
対応又は合致が見つかった場合は、識別された特徴についてどこでどのように注釈を記述及び/又は再生するか、いくつの注釈が画像に重ねられるか、書き込まれる注釈のフォント・タイプ及び寸法、ビデオ注釈の音量及び/又は言語などが決定される。次いで、識別された複数の特徴のうちの幾つかの特徴が注釈付けされる。
対応又は合致が見つからない場合は、同じ又は別のサーバから、別の候補セットがダウンロードされ、識別された特徴と新しい候補との対応が検証される。新しいセットは一般に、前のセットよりも広い。すなわち、共通する特徴の数がより少ない候補を含む。対応又は合致が見つかった場合は、前述の考察がやはり当てはまる。見つからない場合は、対応又は合致が見つかるまで、ダウンロード及び検証のステップが反復的に継続される。見つからない場合は、例えばポータブル・デバイス上に表示される書き込まれたメッセージによって、注釈付け失敗メッセージがポータブル・デバイスのユーザに通信される。一実施形態では、ユーザは、例えば幾つかの検索基準をポータブル・デバイス上で導入することによって、所望の注釈をデバイスが見つけるのを補助するよう求められる。
本発明の独立態様によれば、ビューの画像の少なくとも1つの特徴に注釈付けするための本発明の方法は、
・ポータブル・デバイスの画像センサによって前記画像を得るステップと、
・少なくとも1つの条件を取り出すステップと、
・前記少なくとも1つの条件に基づいて、リモート・サーバ上で複数の特徴識別データ及び/又は注釈から特徴識別データのセット及び/又は注釈候補のセットを自動的に選択するステップと、
・前記セット(1つ又は複数)を前記ポータブル・デバイスにダウンロードするステップと、
・前記画像の特徴が特徴識別データと合致するかどうか検証するステップと、
・対応が見つかった場合に、識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けするステップと、
・対応が見つからない場合に、対応が見つかるまで特徴識別データ及び/もしくは注釈候補のセットを変更及び/もしくは拡張し、かつ/又は、ポータブル・デバイスのユーザに通知してユーザにいくらかの特徴識別データ及び/もしくは注釈候補の挿入を求めるステップとを含む。
対応が見つからない場合、ユーザ自身が、注釈デバイスにもリモート・サーバにも知られていない新しい特徴識別データを追加することができる。新しい特徴識別データは、例えば、画像上で利用可能であってユーザが注釈付けしたいと思う特徴のモデル又はテンプレートであり、このモデル又はテンプレートは、この特徴を他の類似の画像上で認識するのに使用することができる。新しい特徴識別データは、例えば、ユーザが新しい注釈を付けたいと思う取り込まれた画像の一部に対応するものとすることができる。新しい注釈は、注釈セットをダウンロードするのに使用されたのと同じ通信リンクを使用して、リモート・サーバに送られる。次いで、将来のユーザは、ビューの画像のオブジェクトに注釈付けされるようにすることができる。このように、注釈は、ユーザによって生成し、ユーザ間で共有することができる。
この独立態様により考慮することができる条件の例は、以下に依存することができる。
・位置センサ(例えばカメラの画像センサにリンクされたGPSセンサ)から、又はGSMやUMTSネットワークなどのセルラー・ネットワークから取り出された、カメラの地理的位置
・ユーザ設定
・注釈付けすべき特徴(1つ又は複数)上の、データグラム、及び/又はバーコード、及び/又はRFID、及び/又は他の任意の認識可能な特徴、例えばロゴ、OCR検出
・現在のデータ及び/又は時間
・サーバとポータブル・デバイスとの間の通信リンクの品質
・ポータブル・デバイスの計算力
・その他
上記の独立態様によれば、デバイスの画像センサによって生成されたリアルタイム・ビデオ・ストリームに即座に注釈付けすることが可能である。
ライブ・ビデオ・ストリームに対する注釈付けをリアルタイムで実行するためには、特徴識別方法をポータブル・デバイス内で実施しなければならない。通常、この特徴識別方法は、識別目標に到達するために、選択された方法に応じて何らかの特徴識別データを使用することを伴う。例えば、コンピュータ・ビジョン方法を使用すると、特徴識別方法は、識別しなければならない各特徴の「モデル」を必要とする。ポータブル・デバイスは、このモデルを使用して、ビューの画像中の特徴を識別してそれに注釈付けする。こうすることにより、ポータブル・デバイスは、表示可能デバイスであるだけでなく注釈付けデバイスでもあり、どんな外部サーバの必要もなしに、必要とされる全ての画像処理及びセンサ処理がポータブル・デバイス自体の上で行われる。
一実施形態では、リモート・サーバと注釈付けデバイスとの間の通信コストを削減するために、かつ/又は注釈付けデバイスの計算の必要性を低減するために、特徴識別データは、リモート・サーバによって最適化される。
本発明の他の独立態様によれば、リモート・サーバからポータブル・デバイスにダウンロードされる特徴識別データの選択は、論じた少なくとも1つの条件に依存する。本発明の別の独立態様によれば、この選択は、サーバとポータブル・デバイスとの間の通信リンクの品質に依存する。本発明の別の独立態様によれば、この選択は、ポータブル・デバイスの計算力、及び/又は利用可能なメモリ空間に依存する。
本発明は、例として提供し図で示す実施形態の記述の助けを借りることによって、よりよく理解することができるであろう。
本発明による方法の一実施形態に含まれるステップのフローチャートである。 画像センサを備えるポータブル・デバイスによって得られる画像の例を示す図である。 図2の画像をズームすることによって得られる別の画像を示す図である。 画像センサを備えるポータブル・デバイスによって得られる画像の他の例を示す図である。 画像センサを備えるポータブル・デバイスによって得られる画像の他の例を示す図である。 画像センサを備えるポータブル・デバイスによって得られる画像の他の例を示す図である。 画像センサを備えるポータブル・デバイスによって得られる画像の他の例を示す図である。 美術館の部屋、及び本発明によるデバイスの一実施形態を示す図である。
本発明による方法は、図1に示す以下のステップを含むことができる。
(a)ポータブル・デバイスの画像センサによって画像を得る(1000)。
例えば、ポータブル・デバイスはディジタル・カメラとすることができ、得られる画像は「円盤投げ」の画像とすることができる。
(b)少なくとも1つの条件を取り出す(2000)。
一例では、条件は、カメラの集束距離、及び/又は、ユーザによって選択されたかもしくはポータブル・デバイス中で自動的に選択された場面モード、及び/又は、彫像による無線信号に、依存することができる。別の例では、カメラは、位置特定センサ又はネットワークベースのセンサを有するか、又はこのセンサにリンクされ、条件は、画像のビューの位置特定に依存することができる。
(c)少なくとも1つの条件に基づいて、複数の特徴識別方法からある特徴識別方法を自動的に選択する(3000)。
選択される方法の例は、2Dマッチング識別方法とすることができ、すなわち、コンピュータ・ビジョン方法を使用して、特徴識別データとしての2Dテンプレートを画像の特徴と照合するものとすることができる。別の方法は、3Bマッチング方法とすることができ、すなわち、画像を3Dモデルの特徴と照合するものとすることができる。
(d)少なくとも1つの特徴を識別するために、前記特徴識別方法を適用する(4000)。
この例では、画像は、1つの顕著な特徴、すなわち「円盤投げ」のみを含み、よってこの特徴が識別される。
(e)識別された特徴のうちのどれに注釈付けしなければならないかを決定する(5000)。
この例では、注釈付けすべき特徴は1つだけである。このステップは、前に取り出された条件に依存することができる。注釈付けすべき特徴は、GPSセンサから例えば取り出されたPOI(Point of Interest)、ユーザにとって最も関心のある手動導入できる特徴、非常に目立つ特徴、最も重要な(最も目立つ特徴に対応するとは限らない)特徴などとすることができる。注釈付けすべき特徴の数は、ポータブル・デバイスの表示装置上の空間を考慮に入れる。
(f)識別された特徴について、注釈の内容及びどのように注釈を書き込むかを決定する(6000)。
例えば、この場合、注釈の内容は、「円盤投げ」に関する記述(作者、年代、芸術情報)である。「円盤投げ」の美術館の地理的位置が利用可能であるとしても、この例では、地理的位置を表示するのは有用でない。このステップでは、注釈のサイズ、色、フォント、透明度などを選択することが可能である。この選択は、前に取り出された条件に依存することができる。例えば、「円盤投げ」は美術館内にあるので、芸術的かつ手書き風のフォントが自動的に選択されてもよい。注釈同士の衝突は回避される。注釈のサイズは、注釈付けすべき特徴の数、ポータブル・デバイスの表示装置上の空間、及びユーザの読取り制約を考慮に入れる。
(g)識別された特徴に注釈付けする(7000)。
次いで、注釈はポータブル・デバイス上に表示される。
有利にも、よって本発明の方法は、種々の環境及び場所に属する特徴に対する注釈付けを効率的に処理することを可能にする。
好ましい一実施形態では、自動的に選択された特徴識別方法を、ポータブル・デバイスのユーザが妥当性検査することができる。ユーザが方法を有効としない場合は、ユーザは手動で別の方法を選択することができる。次いで、今後さらに特徴識別方法を自動的に選択するために、ユーザのフィードバックをポータブル・デバイスによって考慮に入れることができる。このユーザ・フィードバック手順は、反復的に繰り返すことができる。
本発明はまた、ビューの画像の少なくとも1つの特徴に注釈付けするためのシステムに関し、このシステムは、
(a)前記画像を得るための画像センサを備えるポータブル・デバイスと、
(b)少なくとも1つの条件を取り出す手段と、
(c)前記条件に基づいて複数の特徴識別方法からある特徴識別方法を自動的に選択する手段と、
(d)前記少なくとも1つの特徴を識別するために前記特徴識別方法を適用する手段と、
(g)識別された幾つかの特徴に注釈付けする手段とを備える。
システムは、
(e)識別されたどの特徴に注釈付けしなければならないかを決定する手段と、
(f)識別された特徴について、注釈の内容及びどのように注釈を書き込むかを決定する手段とを備えてよい。
一実施形態では、ポータブル・デバイスは、前記取り出す手段、及び/又は前記選択する手段、及び/又は前記適用する手段、及び/又は前記注釈付けする手段を備える。
別の実施形態では、システムは、1つ又は複数のリモート・サーバを備え、このリモート・サーバは、前記取り出す手段、及び/又は前記選択する手段、及び/又は前記適用する手段、及び/又は前記注釈付けする手段を備える。
図2に、画像センサを備えるポータブル・デバイス(例えばディジタル・カメラ)によって得られる画像の例を示す(図1のステップ1000)。画像は、山、ここではマッターホルン(セルヴァン)を示す。顕著な特徴はマッターホルン(セルヴァン)10だが、画像は他の特徴、例えば山脈中の他の山々も含む。
本発明の方法によれば、少なくとも1つの条件が取り出され、この画像に関連付けられる(図1のステップ2000)。考慮できる条件の例は、以下に依存することができる。
・カメラの集束距離。
・利用可能なら、カメラの場面モード。例えば「風景」。
・カメラ・フラッシュの使用又は不使用。
・環境(山/屋外)。
・位置センサ(例えばカメラの画像センサにリンクされたGPSセンサ)から、又はGSMやUMTSネットワークなどのセルラー・ネットワークから取り出された、カメラの地理的位置。例えばスイスのツェルマット。セルラー・ネットワークから地理的位置を取り出すのは、三辺測量及び/又は三角測量によって実施することができる。
・画像分析に基づく、かつ場合によっては、モデルを含むリモート・サーバを用いた画像マッチングに基づく、画像のアプリオリな分類。
・注釈付けデバイス中に位置するか又は注釈付けデバイスに関連する1つ又は複数のセンサ(例えば温度計又はマイクロホン)によって提供される情報。例えば、注釈付けデバイスに接続されたマイクロホンによって取り込まれた周囲の雑音が、屋内/屋外環境の情報を提供し、次いで条件を生成することができる。
− その他。
画像の分類は、上記の条件の1つ又は複数に基づいて実施することができる。例えば、特定の集束距離(例えば3.8m)が、集束距離カテゴリ(例えば近距離)に関連してよい。特定の場所(例えばツェルマット)が、対応する場所カテゴリ(例えば田舎又は風景)に関連してよい。特定の画像(マッターホルン)が、画像カテゴリ(風景)に関連してよい、などである。
次いで、前述の条件の1つ又は幾つかに応じて、例えばこれらのカテゴリに基づいて、利用可能な幾つかの方法から特徴識別方法が自動的に選択され(図1のステップ3000)、次いで、画像の少なくとも1つの特徴10を識別するためにこの特徴識別方法が適用される(図1のステップ4000)。この例では、セルヴァン、ティンダル、及び他のより低い峰が認識される。
本発明の方法の一実施形態によれば、画像の識別された特徴(セルヴァン、ティンダル、及び他のより低い峰)のうちのどれに注釈付けしなければならないかを選択することが可能である(図1のステップ5000)。図示の例では、セルヴァン及びティンダルが選択され、他の画像特徴は、識別可能であっても注釈付けには選択されない。このステップは、前に取り出された条件に少なくとも部分的に基づくことができる。例えば、システムは、風景ビューが検出されたときには、地理的特徴要素(山など)のみに注釈付けし、画像上に存在するかもしれない人物又は他の要素には注釈付けしないと決定することができる。
本発明の一態様によれば、注釈1の内容及びどのようにこれらの注釈を書き込むかを決定することが可能である(図1のステップ6000)。通常、特徴が選択された後は、このステップは、前に取り出された条件に依存しない。しかし、この例のように山脈の場合に、山の名称及びその高度を含む特定のデータベースを検索すること、又は美術館の場合に別のデータベースを検索することを考えることも可能である。
この例では、各注釈1は、選択された各山の名称及び高度を含む。しかし、セルヴァンが最も重要な特徴なので、セルヴァンの名称は、異なるフォント、又は異なる色、又は囲み枠付き、又は図2のように大文字で書き込まれることになる。
一実施形態では、ユーザは、注釈付けすべき特徴を手動で選択することができる。
ステップ6000では、衝突を避けるため、かつカメラの表示装置上の利用可能な空間及びユーザの読取り制約を考慮に入れるために、注釈1のフォント及び寸法が適合される。
あり得る別の特徴は、ハイキング・コースである。この例では、注釈は、画像に重ねられた、このハイキング・コースを示す線とすることができる。ポータブル・デバイスのユーザが画像をズームすると、ユーザは、図3に示すような別の画像を見ることができる。ズーム倍率が変更されると、使用される特徴識別方法が自動的に変更され、特徴識別方法は今や、前の2D特徴識別方法ではなく3D特徴識別方法に基づくものとすることができる。次いで、この異なる方法を用いてハイキング・コースを認識し、ハイキング・コースに注釈付けすることができる。
図4に、図2〜3で使用されたのと同じディジタル・カメラによって得られる画像の別の例を示す。この場合、可能な条件は以下のとおりとすることができる。
・カメラの集束距離。
・利用可能なら、カメラの場面モード。例えば「オート」。
・カメラ・フラッシュの使用又は不使用。
・位置センサ(例えばカメラの画像センサにリンクされたGPSセンサ)から、又は、カメラの画像センサにリンクされたネットワークベースのセンサ(ネットワークは例えばGSMやUMTSネットワークなどである)から取り出された、環境(屋外)及び/又は場所の地理的位置。例えばイタリアのピサ。
・モデルを含むリモート・サーバを用いた画像マッチングからの結果。
・その他。
このような例では、選択される特徴識別方法は今や、3D特徴識別方法に基づくことができる。すなわち、取り込まれた画像の特徴が、データベースに記憶された3Dモデルの投影と照合される方法に基づくことができる。
屋外ではなく屋内で得られる図5の画像にも、同様の考察が当てはまる。この場合、特徴識別方法は、「円盤投げ」の近くの送信機から発せられるRFID信号を使用することができる。
図6の場合、画像は、あり得る2つの顕著な特徴、すなわち背景のセルヴァン10’’及び前景の山小屋10’を含む。この場合、特徴識別の選択は、ポータブル・デバイスの集束距離に依存することができる。例えば、焦点が山小屋にある場合は、3D特徴識別方法が自動的に使用されることになり、注釈は、例えば図6に示すように枠で囲まれることになる。
焦点が山小屋にある場合であっても、背景にある最も高い峰の名称及び高度を知ることにユーザが関心を持つ可能性があると考えることも可能である。この場合、ユーザは、ポータブル・デバイスの触覚手段を使用して、使用されている3D特徴識別方法を手動で無効化し、セルヴァンに対する注釈付けのために2D特徴識別方法が使用されるようにすることができる。
図7の場合、画像は、他の2つのあり得る顕著な特徴、すなわち背景のセルヴァン10’’及び前景の人物10’’’を含む。図6についての考察と同じ考察が、図7にも当てはまる。この場合、人物の注釈は、3D特徴識別方法によって識別された人物10’’’に関連する、リモート・サーバから取り出された、笑顔のような記号を含んでもよい。
図8に、美術館の部屋を示す。このような場合、本発明による特徴識別方法は、取り出された条件に従って、注釈付けに対する最も関心のある特徴が絵画10であると決定するが、絵画10は別の部屋にあり、したがって、ポータブル・デバイスのカメラによって取り込まれた画像中では見えない。
絵画10は破線で示されており、デバイス100によって撮影されたビュー上で、現在の部屋の中の別の絵画12と重なる。次いでポータブル・デバイス100は、絵画10に辿り着くための方向を示す矢印20などの要素で、取込み画像に注釈付けすることができる。一実施形態では、絵画12は、表示画像から削除されてもよい。
一実施形態では、選択された特徴はクリック可能とすることができ、したがって、これらの特徴がクリックされると、追加情報が選択されることになる。
別の実施形態では、選択されない特徴もまたクリック可能であってよく、したがって、これらの特徴がクリックされると、注釈が表示されることになる。
ポータブル・デバイス100は、ユーザが情報を入力できるようにする触覚手段3を備えることができる。ポータブル・デバイスは、画像及びその注釈を表示するための、表示装置を備える。
ポータブル・デバイスは、1つもしくは複数の位置特定センサ(例えばGPSセンサ)、及び/又は、1つもしくは複数のネットワークベースのセンサ、及び/又は、ジャイロスコープのような1つもしくは複数の配向センサ、及び/又は、加速度計を備えることができる。
一実施形態によれば、注釈がビデオを含む場合、ユーザは、例えば、ポータブル・デバイス上に表示された、一時停止、及び/又は停止、及び/又は巻戻し、及び/又は早送り、及び/又は再生のボタンを押すことによって、ビデオと対話することができる。
別の実施形態によれば、注釈ビデオの表示後に、又は書き込まれた注釈の近くに、注釈付けされた特徴に関係する1つ又は複数の有用かつクリック可能なウェブ・リンクが現れてよい。例えば、注釈付けされた特徴が、特定の自動車、例えばフェラーリを宣伝するボード又はプラカードであり、注釈が宣伝ビデオである場合、対応してポータブル・デバイス上でビデオが表示された後でもしくはユーザがビデオを停止したときに、又はボードの近くで、フェラーリのウェブサイトへのリンクが現れてよい。一実施形態では、このリンクは、宣伝された製品の購入をユーザに提案することができる。
注釈がビデオ又は音声ファイル又はストリームである場合、このファイル又はストリームは、ポータブル・デバイスによって取り込まれたビデオと時間同期がとられることが好ましい。例えば、ユーザが、軌道に沿って走る列車又は自動車からのビデオ・シーケンスを取り込む場合(この軌道は、取り込まれた画像から、かつ/又は何らかの位置センサ(例えばGPSセンサもしくはジャイロスコープ)から知るか又は取り出すことができる)、この取り込まれたビデオ・シーケンスに注釈ビデオを重ねることができ、重ねられたビデオの要素は、取り込まれたシーケンスの要素と合致する。別の実施形態では、デバイスは、テレビジョンに例えば表示された映画ピクチャからビデオを取り込み、取り込んだシーケンスに、字幕、音声コメント、又は経時変化する別の注釈を、ビデオ・シーケンスと時間同期させて重ねることができる。
別の実施形態によれば、ポータブル・デバイスが例えば90度回転された場合、表示される注釈は、ポータブル・デバイスのユーザに対して同じ配向を維持するようにして調整される。
他の実施形態によれば、気象状況によって同じ特徴を識別できない場合、例えば、いくらかの雲がセルヴァンを覆っている場合は、ポータブル・デバイスは、負のフィードバックをユーザに自動的に提供する。例えば、識別が不可能であることをユーザに知らせ、特徴の識別を補助するためのいくらかの入力データを挿入するようユーザに求めるメッセージが、ポータブル・デバイス上に表示される。
他の実施形態によれば、書き込まれた注釈の言語及び/又はビデオ注釈の音声の言語は、ポータブル・デバイスの位置特定センサ、又は何らかのユーザ設定に依存することができる。これにより、例えば、東京にいるフランス人旅行者が、日本語ではなくフランス語で注釈を表示することができる。
他の実施形態によれば、注釈付け方法は、ユーザが、ポータブル・デバイス上に表示された拡張現実と対話することを可能にする。例えば、ユーザがローマにいて、コロセウムの画像又はビデオを撮影している場合、注釈は、ローマ時代の間にそうであったような、コロセウムの再建の画像又はビデオとすることができる。他の実施形態によれば、注釈は、表示すべき注釈に対応する時代をユーザが選択できること含んでよく、例えば、ユーザは、中世の間もしくはルネサンスの間、又はこの建造物の構築の様々な段階にもそうであったような、コロセウムの再建を表示することを決定することができる。
別の実施形態によれば、注釈がビデオであり、注釈付けすべき特徴が2つ以上ある場合、ポータブル・デバイスは、何らかの基準に従って、例えば集束距離又は何らかのユーザ設定を考慮に入れることによって、注釈付けすべき最も重要な特徴を自動的に選択することができる。別の実施形態によれば、全ての特徴が同時に注釈付けされるが、ビデオ音声の音量がアクティブ化されるのは、1つの特徴のみである。ユーザは、別の特徴を選択することによって、例えばクリックによって、別の特徴のビデオ注釈の音量をアクティブ化することができ、前の注釈付き特徴の音量は自動的に非アクティブ化される。
別の実施形態によれば、注釈付け方法は、注釈の複数の信頼度レベルの定義を「品質インデックス」として含む。品質インデックスは、以下に関係するものであってよい。
・位置特定の信頼性及び精度、ならびに/又は
・特徴の識別の信頼性
・画像認識プロセスの信頼性
・その他
これらの信頼度の少なくとも1つを使用して、デバイスがユーザによって第1の位置(注釈付けすべき1つの第1の特徴が取り込まれて、ある信頼度レベルで認識された)と第2の位置又は配向(第2の特徴がより高い信頼度で認識された)との間で動かされたときの移動を検出することができる。移動の間、信頼度レベルは低下し、この情報を使用して注釈を中断することができる。
本発明の独立態様によれば、特徴識別データ(すなわち認識し特徴付けすべき特徴のモデル)、ならびに関連する注釈候補のセット(すなわち複数の注釈のうちの注釈セット)を、自動的に選択することが可能である。この選択は、複数の特徴識別方法からある特徴識別方法を自動的に選択するのと同様、少なくとも1つの条件に基づく。好ましい一実施形態では、この少なくとも1つの条件は、ポータブル・デバイスの位置センサ、例えばGPSセンサから取り出される。
特徴識別データ及び関連する注釈を選択するのに使用できる条件の例には、以下が含まれる。
・位置センサ(例えばカメラの画像センサにリンクされたGPSセンサ)から、もしくはGSMやUMTSネットワークなどのセルラー・ネットワークから取り出された、カメラの地理的位置。例えば、パリで取り込まれた画像に注釈付けする要求は、マッターホルンに対応する特徴ではなくエッフェル塔に対応する特徴識別データ及び注釈を取り出すことになる。
・ユーザ設定。ならびに/又は、
・注釈付けすべき特徴(1つ又は複数)上の、データグラム、及び/もしくはバーコード、及び/もしくはRFID、及び/もしくは他の任意の認識可能な特徴、例えばロゴ、OCR検出。ならびに/又は、
・現在のデータ及び/もしくは時間。ならびに/又は、
・サーバとポータブル・デバイスとの間の通信リンクの品質、ならびに/又は、
・ポータブル・デバイスの計算力。ならびに/又は、
・その他。
次いで、注釈候補がリモート・サーバからポータブル・デバイスにダウンロードされる。このようにすれば、どんな外部サーバの必要もなしに、ポータブル・デバイス上でビューの画像に対する注釈付けを行うことができる。次いで、ビューの取り込まれた画像の特徴を、選択されダウンロードされた基準特徴と照合するために、特徴識別方法(一実施形態では、上に論じた少なくとも1つの条件に依存することができる)が適用される。識別された特徴のうちのどれが注釈付けされるかが決定された後、これらの識別された特徴と注釈候補との対応が検証される。
対応又は合致が見つかった場合は、次いでポータブル・デバイスは、識別された特徴についてどこでどのように注釈を記述又は再生するか、いくつの注釈を画像上に挿入するか、書き込まれる注釈のフォント・タイプ及び寸法、ビデオ注釈の音量又は言語など決定する。次いで、識別された複数の特徴のうちの幾つかの特徴が注釈付けされる。
対応又は合致が見つからない場合は、別の特徴識別データ及び注釈候補のセットが、同じか又は別のサーバからダウンロードされ、識別された特徴と新しい候補との対応が検証される。
新しいセットは、前のセットよりも広いことが好ましい。すなわち、新しいセットは、共通する特徴の数がより少ない、特徴識別データ及び注釈候補を含む。対応又は合致が見つかった場合は、上記の考察が当てはまる。見つからない場合は、対応又は合致が見つかるまで、ダウンロード及び検証のステップが反復的に継続される。見つからない場合は、注釈付け失敗メッセージがポータブル・デバイスのユーザに通信される。例えば、書き込まれたメッセージがポータブル・デバイス上に表示される。一実施形態では、ユーザは、例えば幾つかの検索基準をポータブル・デバイス上で導入することによって、注釈をデバイスが見つけるのを補助するよう求められる。
本発明のこの独立態様によれば、注釈方法の頑強性と、ポータブル・デバイスにダウンロードされる特徴識別データ及び注釈候補の数との間に、トレードオフが存在する。実際、例えば、リモート・サーバ上で複数の注釈から注釈候補のセットを自動的に選択するための条件がGPSセンサに基づく場合は、GPSセンサの精度が低いほど、ポータブル・デバイスにダウンロードされる注釈候補の数は多い。
本発明の他の態様によれば、特徴識別データは、サーバ中で選択された後でリモート・サーバからポータブル・デバイスにダウンロードされるが、この選択は、サーバとポータブル・デバイスとの間の通信リンクの品質に依存する。本発明の別の態様によれば、この選択は、ポータブル・デバイスの計算力、及び/又は、利用可能なメモリ空間に依存する。
注釈候補及び/又は特徴識別データは、ポータブル・デバイスがオンにされたとき、又はデバイスの変位が所定のしきい値(例えば1メートル)よりも大きいときに、ポータブル・デバイスにダウンロードされる。別の実施形態では、ポータブル・デバイス自体が、その地理的位置や現在時刻などに例えば依存する何らかの基準に従って、注釈候補及び/又は特徴識別データがダウンロードされなければならないときを決定する。
本発明の他の独立態様によれば、特徴識別データ及び/又は対応するデータは、ユーザのモバイル・デバイス上でユーザによって追加することができ、次いでポータブル・デバイスからリモート・サーバに送ることができる。例えば、ユーザは、ある場面の画像又はビデオを撮影し、特徴識別データとなるモデルを構築するために識別すべき画像(1つ又は複数)の1つの特徴を指示し、注釈(テキスト、フォーマット化済みテキスト、画像、ハイパーリンク、音声、ビデオなど)をこの特徴に関連付けることができる。次いで、ユーザによって入力された特徴識別データ及び関連する注釈は、自動的に又はユーザの要求に応じてリモート・サーバに記憶され、後続の使用のためにこのユーザ及び他のユーザに利用可能にされる。これにより、これらの特徴識別データ及び対応する注釈を共有することができ、したがって、他のユーザのポータブル・デバイスが、これらの新しい特徴を認識して注釈付けすることができることになる。次いで、リモート・サーバへの後続の要求は、前述の条件に応じて、新しい特徴識別データ及び対応する注釈を取り出すことになる。
1 注釈
3 触覚手段
10 マッターホルン、絵画
12 別の絵画
20 矢印
100 ポータブル・デバイス

Claims (13)

  1. ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法において、
    ポータブル・デバイスの画像センサによって前記画像を得るステップと、
    前記ポータブル・デバイスのパラメータから少なくとも1つの条件を取り出すステップと、
    前記少なくとも1つの条件に基づいて、利用可能な複数の特徴識別方法から1つの特徴識別方法を自動的に選択するステップと、
    前記画像の複数の特徴を識別するために前記特徴識別方法を適用するステップと、
    当該識別された複数の特徴のうちのどの特徴が注釈付けされるべきかを決定するステップと、
    当該識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けして、重ねられた注釈を有する注釈付き画像を生成するステップとから成り、
    前記複数の特徴識別方法は、
    前記画像と1つ又は複数の2Dモデルとの間の合致に基づく第1の特徴識別方法と、
    前記画像と1つ又は複数の3Dモデルとの間の合致に基づく第2の特徴識別方法とから成る当該方法。
  2. 前記条件は、前記ポータブル・デバイスの集束距離に依存し、
    前記集束距離が、既定のしきい値より短いときは、前記第1の特徴識別方法が選択され、
    前記集束距離が、前記既定のしきい値より長いときは、前記第2の特徴識別方法が選択される請求項1に記載の方法。
  3. 1つの特徴識別方法の当該選択は、前記画像の画像分析の結果に依存する請求項1に記載の方法。
  4. 前記条件は、前記ポータブル・デバイスの地理的位置に依存する請求項1に記載の方法。
  5. 前記条件は、前記画像センサのレンズの少なくとも1つの設定パラメータ、及び/又は前記ポータブル・デバイスの少なくとも1つのパラメータを有する請求項1に記載の方法。
  6. 前記選択された特徴識別方法をユーザによって妥当性検査するステップをさらに有する請求項1に記載の方法。
  7. 前記ユーザは、前記自動的に選択された特徴識別方法を、別の特徴識別方法に手動で置き換える請求項6に記載の方法。
  8. ・前記少なくとも1つの条件に基づいて、特徴識別データ及び一セットの対応する注釈候補を、リモート・サーバ上で自動的に選択するステップと、
    ・前記特徴識別データ及び前記一セットの注釈候補を、前記ポータブル・デバイスにダウンロードするステップと、
    ・適用するための特徴識別方法を選択するステップと、
    ・前記選択され且つダウンロードされた特徴識別データと前記画像の識別された特徴との間に、少なくとも1つの一致点が存在することを検証するステップと、
    ・一致点が発見されたときに、前記識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けするステップと、
    ・一致点が発見されなかったときに、一致点が発見されるまで、前記一セットの注釈候補を変更及び/又は拡張するステップとから成る請求項1に記載の方法。
  9. ・前記少なくとも1つの条件、及び/又は、リモート・サーバと前記ポータブル・デバイスとの間の通信リンクの品質、及び/又は、前記ポータブル・デバイスの計算力に基づいて、一セットの特徴識別データをリモート・サーバ上で自動的に選択するステップと、
    ・前記選択された特徴識別データを、前記ポータブル・デバイスにダウンロードするステップと、
    ・前記選択され且つダウンロードされた特徴識別データを使用して、前記識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けするステップとから成る請求項1に記載の方法。
  10. 複数の特徴識別データ及び対応する注釈が、前記ポータブル・デバイスに追加され、
    当該追加された特徴識別データ及び対応する注釈が、リモート・サーバに送られ、
    画像内での識別時に、対応する特徴に注釈付けするために、その他のポータブル・デバイスで利用可能になる請求項1に記載の方法。
  11. ビューの画像の少なくとも1つの特徴に注釈付けするための、請求項1〜10のいずれか1項に記載の方法で使用されるシステムにおいて、
    当該システムは:
    前記画像を得るための画像センサを有するポータブル・デバイスと、
    前記ポータブル・デバイスのパラメータから少なくとも1つの条件を取り出すための手段と、
    前記少なくとも1つの条件に基づいて、利用可能な複数の特徴識別方法から1つの特徴識別方法を自動的に選択するための手段と、
    前記画像の複数の特徴を識別するために前記特徴識別方法を適用するための手段と、
    当該識別された複数の特徴のうちのどの特徴が注釈付けされるべきかを決定する手段と、
    前記識別された複数の特徴のうちの幾つかの特徴に注釈付けして、重ねられた注釈を有する注釈付き画像を生成するための手段とから成るシステム。
  12. 前記ポータブル・デバイスは、1つ以上の位置特定センサと、当該位置特定センサの出力に基づいて注釈方法を選択するための手段とを有する請求項11に記載のシステム。
  13. ポータブル・デバイスの画像センサによって得られたビューの画像から少なくとも1つの条件を取り出すこと、
    前記少なくとも1つの条件に基づいて、利用可能な複数の特徴識別方法から1つの特徴識別方法を自動的に選択すること、
    ビューの画像の少なくとも1つの特徴に注釈付けするために前記選択された特徴識別方法を適用すること、及び
    前記識別された複数の特徴のうちの幾つかの特徴に注釈付けすることを、プログラマブルプロセッサに実行させるための命令によって符号化されたコンピュータ読み取り可能な、請求項1〜10のいずれか1項に記載の方法又は請求項11若しくは12に記載のシステムで使用される記録媒体。
JP2013545134A 2010-12-21 2011-11-17 ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイス Active JP6013363B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CH2131/10 2010-12-21
CH21312010 2010-12-21
PCT/EP2011/070382 WO2012084362A1 (en) 2010-12-21 2011-11-17 Computerized method and device for annotating at least one feature of an image of a view

Publications (2)

Publication Number Publication Date
JP2014501984A JP2014501984A (ja) 2014-01-23
JP6013363B2 true JP6013363B2 (ja) 2016-10-25

Family

ID=43827859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013545134A Active JP6013363B2 (ja) 2010-12-21 2011-11-17 ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイス

Country Status (6)

Country Link
US (1) US9959644B2 (ja)
EP (2) EP3678035A1 (ja)
JP (1) JP6013363B2 (ja)
KR (1) KR101867558B1 (ja)
CN (1) CN103415849B (ja)
WO (1) WO2012084362A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9132352B1 (en) 2010-06-24 2015-09-15 Gregory S. Rabin Interactive system and method for rendering an object
JP5668587B2 (ja) * 2011-04-19 2015-02-12 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
EP2802958B1 (en) * 2012-01-11 2019-11-13 Ultra-D Coöperatief U.A. Mobile display device
US9829996B2 (en) * 2012-06-25 2017-11-28 Zspace, Inc. Operations in a three dimensional display system
US9654968B2 (en) 2012-07-17 2017-05-16 Texas Instruments Incorporated Certified-based control unit-key fob pairing
WO2014017392A1 (ja) 2012-07-24 2014-01-30 日本電気株式会社 情報処理装置、そのデータ処理方法、およびプログラム
KR20150082195A (ko) 2012-10-05 2015-07-15 비디노티 에스아 어노테이션 방법 및 기기
US9237263B2 (en) 2012-10-05 2016-01-12 Vidinoti Sa Annotation method and apparatus
JP6064510B2 (ja) * 2012-10-19 2017-01-25 トヨタ自動車株式会社 情報提供装置および情報提供方法
EP2746726A1 (en) * 2012-12-21 2014-06-25 GN Store Nord A/S System and method for tagging an audio signal to an object or a location; system and method of playing back a tagged audio signal
US8854361B1 (en) * 2013-03-13 2014-10-07 Cambridgesoft Corporation Visually augmenting a graphical rendering of a chemical structure representation or biological sequence representation with multi-dimensional information
US10853407B2 (en) * 2013-09-05 2020-12-01 Ebay, Inc. Correlating image annotations with foreground features
US10290036B1 (en) * 2013-12-04 2019-05-14 Amazon Technologies, Inc. Smart categorization of artwork
JP6447992B2 (ja) * 2014-10-23 2019-01-09 キヤノン株式会社 画像管理装置及びその制御方法
US20170243403A1 (en) * 2014-11-11 2017-08-24 Bent Image Lab, Llc Real-time shared augmented reality experience
WO2016077506A1 (en) 2014-11-11 2016-05-19 Bent Image Lab, Llc Accurate positioning of augmented reality content
US20160133230A1 (en) * 2014-11-11 2016-05-12 Bent Image Lab, Llc Real-time shared augmented reality experience
US9959623B2 (en) 2015-03-09 2018-05-01 Here Global B.V. Display of an annotation representation
CN104850229B (zh) * 2015-05-18 2019-03-22 小米科技有限责任公司 识别物体的方法及装置
US10600249B2 (en) 2015-10-16 2020-03-24 Youar Inc. Augmented reality platform
US9876869B2 (en) * 2015-10-28 2018-01-23 Sk Planet Co., Ltd. Method and apparatus for providing beacon service
KR102528596B1 (ko) * 2015-10-28 2023-05-04 에스케이플래닛 주식회사 비콘 서비스 제공 방법 및 장치
CN106971129A (zh) * 2016-01-13 2017-07-21 深圳超多维光电子有限公司 一种3d图像的应用方法和装置
WO2017165705A1 (en) 2016-03-23 2017-09-28 Bent Image Lab, Llc Augmented reality for the internet of things
US9715508B1 (en) * 2016-03-28 2017-07-25 Cogniac, Corp. Dynamic adaptation of feature identification and annotation
CN105808782B (zh) * 2016-03-31 2019-10-29 广东小天才科技有限公司 一种图片标签的添加方法及装置
US9842095B2 (en) * 2016-05-10 2017-12-12 Adobe Systems Incorporated Cross-device document transactions
US10019824B2 (en) * 2016-08-16 2018-07-10 Lawrence Livermore National Security, Llc Annotation of images based on a 3D model of objects
EP3285216A1 (en) * 2016-08-19 2018-02-21 Nokia Technologies Oy Association of comments to points of interest in virtual reality
US10623453B2 (en) * 2017-07-25 2020-04-14 Unity IPR ApS System and method for device synchronization in augmented reality
US10776619B2 (en) 2018-09-27 2020-09-15 The Toronto-Dominion Bank Systems and methods for augmenting a displayed document
US11073972B2 (en) 2018-11-02 2021-07-27 Motorola Solutions, Inc. Visual summarization methods for time-stamped images
CN110119383A (zh) * 2019-04-15 2019-08-13 维沃移动通信有限公司 一种文件管理方法及终端设备
US11093691B1 (en) * 2020-02-14 2021-08-17 Capital One Services, Llc System and method for establishing an interactive communication session
WO2022031835A1 (en) 2020-08-05 2022-02-10 Avesha, Inc. Networked system for real-time computer-aided augmentation of live input video stream

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69635101T2 (de) * 1995-11-01 2006-06-01 Canon K.K. Verfahren zur Extraktion von Gegenständen und dieses Verfahren verwendendes Bildaufnahmegerät
US6222583B1 (en) * 1997-03-27 2001-04-24 Nippon Telegraph And Telephone Corporation Device and system for labeling sight images
JP3225882B2 (ja) 1997-03-27 2001-11-05 日本電信電話株式会社 景観ラベリングシステム
US8432414B2 (en) 1997-09-05 2013-04-30 Ecole Polytechnique Federale De Lausanne Automated annotation of a view
JP2001216309A (ja) * 2000-01-31 2001-08-10 Keio Gijuku 対象物特定装置及びカメラ
US20020089519A1 (en) * 2001-01-05 2002-07-11 Vm Labs, Inc. Systems and methods for creating an annotated media presentation
US6915011B2 (en) * 2001-03-28 2005-07-05 Eastman Kodak Company Event clustering of images using foreground/background segmentation
US20040030741A1 (en) 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US20040021780A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Method and apparatus for automatic photograph annotation with contents of a camera's field of view
WO2004081853A1 (en) * 2003-03-06 2004-09-23 Animetrics, Inc. Viewpoint-invariant image matching and generation of three-dimensional models from two-dimensional imagery
TWI255429B (en) * 2003-12-29 2006-05-21 Ind Tech Res Inst Method for adjusting image acquisition parameters to optimize objection extraction
JP2005292064A (ja) 2004-04-05 2005-10-20 Sony Corp ナビゲーション装置、およびデータ処理方法、並びにコンピュータ・プログラム
JP2006059136A (ja) * 2004-08-20 2006-03-02 Seiko Epson Corp ビューア装置及びそのプログラム
JP2007018456A (ja) * 2005-07-11 2007-01-25 Nikon Corp 情報表示装置及び情報表示方法
US20080002864A1 (en) * 2006-06-29 2008-01-03 Eastman Kodak Company Using background for searching image collections
EP2154481B1 (en) 2007-05-31 2024-07-03 Panasonic Intellectual Property Corporation of America Image capturing device, additional information providing server, and additional information filtering system
US8364020B2 (en) * 2007-09-28 2013-01-29 Motorola Mobility Llc Solution for capturing and presenting user-created textual annotations synchronously while playing a video recording
JP4956375B2 (ja) * 2007-10-30 2012-06-20 キヤノン株式会社 画像処理装置、画像処理方法
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
JP2010009192A (ja) * 2008-06-25 2010-01-14 Olympus Corp 情報表示システム及びそれを用いた携帯情報端末
CN102204238B (zh) * 2008-09-02 2014-03-26 瑞士联邦理工大学,洛桑(Epfl) 便携式设备上的图像标注
US8890896B1 (en) * 2010-11-02 2014-11-18 Google Inc. Image recognition in an augmented reality application

Also Published As

Publication number Publication date
US20130311868A1 (en) 2013-11-21
JP2014501984A (ja) 2014-01-23
EP2656245B1 (en) 2020-02-19
EP2656245A1 (en) 2013-10-30
KR101867558B1 (ko) 2018-06-15
KR20140038355A (ko) 2014-03-28
EP3678035A1 (en) 2020-07-08
US9959644B2 (en) 2018-05-01
CN103415849B (zh) 2019-11-15
CN103415849A (zh) 2013-11-27
WO2012084362A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
JP6013363B2 (ja) ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法及びデバイス
US10769438B2 (en) Augmented reality
US8661053B2 (en) Method and apparatus for enabling virtual tags
CN107111740B (zh) 用于使用增强现实和对象辨别来检索内容项并使之与真实世界对象相关联的方案
KR101535579B1 (ko) 증강 현실 인터액션 구현 방법 및 시스템
US9462175B2 (en) Digital annotation-based visual recognition book pronunciation system and related method of operation
EP3483723B1 (en) Display apparatus and control method thereof
US20160041981A1 (en) Enhanced cascaded object-related content provision system and method
US20150040074A1 (en) Methods and systems for enabling creation of augmented reality content
CN113111026A (zh) 具有共享兴趣的消息的图库
EP2560145A2 (en) Methods and systems for enabling the creation of augmented reality content
US11232636B2 (en) Methods, devices, and systems for producing augmented reality
CN109189879A (zh) 电子书籍显示方法及装置
US9600720B1 (en) Using available data to assist in object recognition
US10068157B2 (en) Automatic detection of noteworthy locations
Quack et al. Object recognition for the internet of things
KR20120099814A (ko) 증강현실 컨텐츠 서비스 시스템과 장치 및 그 방법
KR101850501B1 (ko) 역사 컨텐츠 제공 시스템
US20220350650A1 (en) Integrating overlaid digital content into displayed data via processing circuitry using a computing memory and an operating system memory
KR102671004B1 (ko) Ar 관광 영상 기반의 관광 서비스 제공 방법, 시스템 및 이를 위한 장치
JP7240358B2 (ja) 情報処理システム、情報処理方法、情報処理プログラム、およびサーバ
US20230326094A1 (en) Integrating overlaid content into displayed data via graphics processing circuitry and processing circuitry using a computing memory and an operating system memory
Chao et al. Mise en Scène: A film scholarship augmented reality mobile application
Jain Practical Architectures for Fused Visual and Inertial Mobile Sensing
Lee et al. Street searching service framework for navigation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150128

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150714

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151118

AA92 Notification that decision to refuse application was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971092

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151225

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160921

R150 Certificate of patent or registration of utility model

Ref document number: 6013363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250