JP2016500959A

JP2016500959A - 画像キャプチャおよび容易なアノテーションのための方法およびシステム

Info

Publication number: JP2016500959A
Application number: JP2015537150A
Authority: JP
Inventors: リム，ロラン; モネ，マティウ; エイエ，セルジュ
Original assignee: Vidinoti SA
Current assignee: Vidinoti SA
Priority date: 2012-10-16
Filing date: 2012-10-16
Publication date: 2016-01-14
Also published as: WO2014060025A1; CN104871179A; EP2909792A1; KR20150082204A

Abstract

【課題】既存ＡＲシステムの問題点を解決、軽減する。【解決手段】画像をキャプチャ／処理する方法が、画像センサでの画像のキャプチャと；キャプチャ画像内に隠されたステガノグラフィックマークのリトリーブと；前記隠しマークに基づいてキャプチャ画像を処理して、処理済み画像を生成することと；処理済み画像を、１組の基準画像由来の基準画像とマッチングし、前記基準画像に応じてキャプチャ画像上に要素を重ね合わせることとを含む。またユーザーデバイス（１０）が、少なくとも１つの画像をキャプチャするのに適した画像センサ（１２）と；キャプチャ画像内の隠しマーク（３０）をリトリーブするように構成され、隠しマークのリトリーブに基づく処理済み画像を生成し、かつリモートで処理されたアノテーションを包含させるプロセッサ（１３）とを含む。ユーザーデバイスは画像をマッチングする遠隔サーバ（２０）を伴うシステムの一部である。【選択図】図５

Description

本発明は、画像キャプチャおよび容易なアノテーションのための方法およびシステムに関する。さらには、本発明は、以下で提示する方法のステップを実施するのに適したコンピュータプログラム製品も取扱う。

国際公開第２０１２／０１９１６３号は、携帯電話によって静止またはビデオ画像がキャプチャされ、ビデオディスプレイサイズに対応する矩形部分がリトリーブされ、次にこのような部分内の隠しマークが識別される方法を開示している。

国際公開第２０１１／０８８３８６号は、コンテンツオーサリングシステムによって予め包含させられた隠しデータを含むキャプチャ画像（ｃａｐｔｕｒｅｄｉｍａｇｅ）の現実感を拡張する方法を開示している。

さらに米国特許出願公開第２００７／００２４５２７号明細書は、１つの画像が、携帯電話によりキャプチャされ、隠しコンテンツ包含に付された後、このような隠しコンテンツと共に遠隔ユニットに送られる方法を開示している。

同様に、国際公開第２０１１／１５６４７５号は、位置に関する隠しコンテンツを１つの画像の内部に包含させる方法を開示している。そのような画像は、携帯電話によってキャプチャされ得る。この文書はさらに、ひとたび携帯電話により表示された時点で、キャプチャ画像上に位置依存型情報をオーバーレイさせることを開示している。

拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）のソリューションにおいては、画像は一般にユーザーによりハンドヘルドカメラ、例えばカメラを伴う携帯電話を用いてキャプチャされ、コレクション内に記憶された基準画像と比較される。マッチした場合、すなわちキャプチャ画像が予め記憶された基準画像の１つに一致した場合、この基準画像に結びつけられたアノテート用要素がリトリーブされ、該キャプチャ画像上に重ね合わされて、結果として、アノテートされた画像が得られる。

基準画像の数は非常に多い可能性があることから、ユーザーのデバイス内でローカルに基準画像の全コレクションを記憶することは、通常実現不可能である。その上、多くの場合、異なるユーザーが基準画像を追加、修正および共有でき、その結果として基準画像のコレクションが非常に頻繁に更新されることが望ましい。したがって、キャプチャ画像は遠隔サーバーに頻繁に送られ、ここで基準画像は記憶され、レジストレーションおよびマッチングプロセスが行なわれる。

この一般的に使用されている方法には、多くの欠点がある。ユーザーのユーザーデバイスは、キャプチャ画像のどれがアノテーションと結びつけられるかを知らないことから、このデバイスは遠隔サーバーに対し全てのキャプチャ画像を送る必要があり、この遠隔サーバーは次に、キャプチャされ伝送された各画像を、そのコレクション内の各々の基準画像とマッチさせようとする。ビデオ画像の場合、この結果として、多くのフレームがいずれの基準画像ともマッチせずアノテートされ得ず、したがって帯域幅を浪費するビデオストリームの無駄な伝送がもたらされる。その上、この結果として、基準画像と共に受け取る多数の無関係な画像を処理する必要がある遠隔サーバーの作業負荷の増大も発生する。

他の公知のシステムでは、送信指令を選択することによってサーバーに対するキャプチャ画像の伝送を開始させるユーザーからのアクションが求められる。このためには、ユーザーがどのキャプチャ画像がアノテーションと結びつけられる確率が高いかを知る必要があり、そしてどの画像を送るべきかを決定する必要がある。

遠隔サーバーの作業負荷は、受信した画像のキャプチャ条件が基準画像のキャプチャ条件と異なる場合、さらに一層増大する。例えば、画像が異なる距離および／または角度からキャプチャされている場合、サーバーは、レジストレーションを行って、考えられるマッチを確認するために、受信した画像をトリミング（ｃｒｏｐ）、回転および／または他の形で歪める（ｄｉｓｔｏｒｔ）必要があるかもしれない。キャプチャ画像および基準画像内で、異なるズーム比、明度、コントラスト、彩度、ホワイトバランスなどの釣り合いをとるために、他の調整が必要となる場合もある。しかしながら受信した多数のキャプチャ画像をリアルタイムで認識することには、莫大な処理能力が求められる。その上、サーバーはキャプチャ画像をどのようにレジストレーションすべきかを予め知らず、例えば考えられる異なる形でキャプチャ画像をトリミングするかまたはリサイジングすることなどによる異なる調整を必要とする可能性がある。

したがって、本発明の目的は、既存の拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）システムの上述の問題点を解決するかまたは少なくとも軽減することにある。

１つの態様によると、これらの目的は、画像センサーを用いて画像を表わすキャプチャデータ（ｃａｐｔｕｒｅｄｄａｔａ）を得るステップと；前記キャプチャデータ内に隠されたステガノグラフィックマークをリトリーブするステップと；前記隠しマークに基づいて前記キャプチャデータを画像処理して、修正された画像を表わす画像処理済みデータを生成するステップと；前記画像処理済みデータと、種々の画像を表わす１組の基準データ由来の基準データとをマッチングするステップと；マッチした基準データに結びつけられたアノテーションをリトリーブするステップと；前記画像処理済みデータに基づいて、アノテートされた画像をレンダリングするステップと、を含む方法によって達成される。

これには、キャプチャ画像のうちの隠しマークと結びつけられたものしか処理する必要がないという利点がある。隠しマークは、例えばユーザーのデバイス内部の１モジュールによって、容易に検出され得る。したがって、ユーザーのデバイスは、これらの隠しマークのうちの１つを含みしたがって基準画像とマッチする確率の高いこれらの画像を選別し、これらの画像のみを遠隔サーバーに送り、結果として伝送すべきデータ量を削減することができる。

ステガノグラフィックマークは画像の中に隠されていることから、これらのマークは、一定の特殊な画像処理無しでは不可視であり、したがって、既存の静止またはビデオ画像内に容易に統合される。

特許請求の範囲に記載されている方法には、キャプチャ画像を表わすデータが、隠しマーク内に包含された情報を用いて処理され、その結果、画像処理済みデータは基準画像を表わすデータとより容易にマッチできることになるというさらなる利点がある。例えば、隠しマークは、対応する基準画像とマッチさせるためにキャプチャ画像をどのようにしてリサイズ、トリミング、回転または他の形で変形すべきかを決定するために使用されてよい。

一実施形態において、隠しマークは、キャプチャすべき画像の少なくとも１つの境界を画定する。

一実施形態において、隠しマークは、画像の幾何学的歪みまたはホワイトバランス、コントラスト、彩度および／または明度を補正するために使用可能である。

これには、ひとたび処理された時点で結果として得られる画質を増強できるという利点がある。これはまた、画像データのキャプチャの質も改善し、例えばより安定した、より集中した（ｃｅｎｔｒｅｄ）かつ他の点で改良された画像データストリームを生成する。こうして、既存の基準画像データとのマッチングおよびレジストレーションプロセスは、より容易で、より高速に、そしてよりロバスト（ｒｏｂｕｓｔ）なものとなる。

隠しマークは、画像を安定化するかまたは他の形で画像処理するのに求められるデータを指示する必要しかない。アノテーション自体は、コンピュータビジョンおよびフィーチャ認識方法で決定される、画像の可視的コンテンツによって左右される。したがって、隠しマークを、極めて小さく容易に隠れるものにすることができる。しかしながら、隠しマーク内のアノテーションを決定するために使用される一部のコンテンツを隠すことも可能である。

一実施形態においては、キャプチャ画像を表わすデータの１つの中で隠しマークがリトリーブされるまで、ビデオ中の連続するフレームまたは連続する静止画像などの連続する画像が、カメラを用いてキャプチャされる。該プロセスには、隠しマークを含むキャプチャ画像のみを前記基準画像とマッチさせようと試みることが含まれる。いかなる隠しマークもない画像を表わすデータはサーバーに送られず、さらに処理されず、帯域幅および計算リソースの無駄は回避される。

１つの態様によると、これらの目的はまた、少なくとも１つの画像を表わすデータをキャプチャするのに適した画像センサーと、前記キャプチャ画像内の隠しマークをリトリーブするように構成され、前記隠しマークのリトリーブに基づき処理済み画像をローカル的に生成し、かつリモートで処理されたアノテーションをマッチングするプロセッサと、を含むユーザーデバイスによっても追求される。

これには、ユーザーデバイスが、画像マッチングを実施するために求められると思われる処理能力全体を必要とせず、対照的にユーザーデバイスは有利にも一種の「前処理（ｐｒｅｐｒｏｃｅｓｓｉｎｇ）」により遠隔のプロセッサを補助でき、こうして遠隔プロセッサとの間で往復して交換されるデータの量が削減されるという利点がある。

一実施形態において、ユーザーデバイスは画像を表示するのに適したディスプレイを含み、プロセッサは、ディスプレイ上に補助サインを出現させることによって隠しマークのリトリーブおよび画像のキャプチャにおいてユーザーを補助するように構成されている。

これには、拡張現実プロセスにユーザーを関与させるという利点があり、同時にこれは、ユーザーデバイスが、さらなる処理負担をひき起こすことなく外部の人間による支援によって隠しマークの少なくとも一部分を認識するのを助ける。

好ましくは、一実施形態において、補助サインは、前記隠しマークの自動完全識別に失敗した場合、および／または、ユーザーがそのカメラを移動できるかまたはズーム比を修正できるかまたは他の任意の考えられる方法でキャプチャ条件を変更して隠しマークのリトリーブおよび／またはキャプチャ画像のレジストレーションを改善できるということをデバイスが検出した場合に、ディスプレイ上に出現させられる。

一実施形態において、ユーザーデバイスは、隠しマークをローカル的に検出し、隠しマークを検出するために遠隔サーバーにこれらの画像を伝送する必要は全くない。

こうして、隠しマークはローカル的にかついかなるデータ伝送も無く検出され得ることから、有利にも処理負担は削減される。隠しマークの検出は、キャプチャ画像が一部のアノテーションと結びつけられておりこれらのアノテーションをリトリーブするためにローカル的にまたは遠隔サーバー内で処理されるべきか否かを決定するために使用可能である。

アノテーションプロセスは、デバイスの内部で、例えば該デバイス内に記憶されたまたはサーバーから検索された一部の基準モデルを用いて行なうか、あるいは基準モデルを記憶しかつキャプチャ画像またはキャプチャ画像の処理済みバージョンが送られる遠隔サーバー内で行なうことができる。

画像をローカル的に処理するかあるいはサーバー内で処理するかの決定は、隠しマークに左右される。あるいは、デバイスは、マッチする基準画像をローカル的に見い出そうと試み、マッチする基準画像をそのローカルメモリー内に見い出すことができなかった場合にはキャプチャ画像またはキャプチャ画像の画像処理済みバージョンを遠隔サーバーに送ってよい。

したがって、前述の目的はまた、画像を表すデータをキャプチャするのに適した画像センサーと前記データ内の隠しマークを識別するために配置されたプロセッサとを伴う少なくとも１つのユーザーデバイスと；
− 前記少なくとも１つのユーザーデバイスに対しデータを受信しかつ伝送して、前記ユーザーデバイスから伝送されたキャプチャ画像の少なくとも一部分を処理し、かつ前記ユーザーデバイスに対してアノテーションまたはアノテートされた画像を送るのに適した遠隔サーバーと、を含むシステムによって得られる。

こうして、有利にも該システムは、ユーザーデバイスを画像マッチングプロセスの計算量の負担から解放する外部サーバーから受信したデータに基づいてユーザーデバイスがアノテートされた画像を表示できるようにする。

隠しマークの識別は、周波数ドメイン、時間ドメインおよび／または空間ドメインというドメインのうちの少なくとも１つの中で実施される。

これには、たとえ画像キャプチャ条件が悪くても、あるいは静止画像または非静止画像がノイズの多い低品質のものであっても、あるいはキャプチャ精度（ｃａｐｔｕｒｉｎｇｐｒｅｃｉｓｉｏｎ）の他の希釈（ｄｉｌｕｔｉｏｎ）効果が存在していても、隠しマークをリトリーブできるという利点がある。

最後に、上述の目的は、非一時的媒体支持体（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙｍｅｄｉａｓｕｐｐｏｒｔ）上に記憶され、少なくとも１つのデータプロセッサに先に開示した方法のステップを実行させる命令を含んでいる、コンピュータプログラム製品によって得られる。

上述の特徴のもう１つの利点は、ユーザーのデバイスと遠隔サーバーとの間で伝送されるデータ量を削減することにある。

本発明は、一例として提供され図中に示されている一実施形態についての記述からより良く理解できるものである。

画像キャプチャおよびアノテーション用のシステムの全体図を示す。図１のシステムの一部の詳細を示す。システムが実施するアルゴリズムの各部分を含むフローチャートを示す。隠しマーク識別方法の選択を描写するフローチャートである。方法およびシステムの使用例を示す。

明確さを期して、本明細書中の「アノテーション（ａｎｎｏｔａｔｉｏｎ）」という名詞は、画像の特定のフィーチャと結びつけられる少なくとも１つのワード、記号、顔文字、描画、ライン、矢印、ハイパーテキスト、音声、静止またはビデオ画像を意味する。アノテーションは可視的であるか、あるいは画像の通常の観察の間に知覚可能状態にされる。例えば、アノテーションは、アノテートされる画像上に重ね合わされ得る。

図１に表わされている通り、画像キャプチャおよびアノテーション用システムは、少なくとも１つの遠隔サーバー２０と；非限定的にハンドヘルドデバイス、例えばパーソナル携帯電話、スマートフォン、タブレット、コンピュータ、通信インターフェースを伴うカメラ、カメラ付きヘルメット、カメラ付きゴーグル、コンタクトレンズまたは、可視光、赤外線および／または紫外線光をキャプチャするためのセンサーならびにディスプレイを含む人体に搭載される他のデバイスであり得るユーザーデバイス１０とを含む。遠隔サーバー２０および少なくとも１つのユーザーデバイス１０は、画像を表わすデータおよび他のデータを交換するのに適している。本明細書中では遠隔サーバーと呼んでいるものの、これは、例えばクラウドサーバーまたは複数のサーバーを含めた画像処理およびデータ送受信を実施することのできる任意の遠隔処理システムでも同等に置換可能である。

詳細には、ユーザーデバイス１０は、ディスプレイ１１と、静止および／またはビデオ画像（例えばスライド、プレゼンテーション、ポートレート、広告、スポットを含む）をキャプチャすることのできる画像センサー１２とを含む。ユーザーデバイスはまた、画像を表わすデータを処理することのできるプロセッサ１３と、該画像を記憶するように構成されたメモリ１４とを含む。プロセッサ１３は、メモリ１４内に記憶された適切なプログラムコードを実行することができる。ＷＩＦＩおよび／またはセルラーインターフェースなどの送受信器１５が、インターネットなどのネットワークを介してデバイス１０と遠隔サーバー２０またはクラウドサーバーを接続するため、そして遠隔サーバー２０と無線でデータを交換するために使用可能である。この送受信器は、使用されるユーザーデバイス１０の実際のカテゴリにしたがって適応させられ、可能な場合には公知のデータ送受信規格に適合するように設計される。

メモリー１４内に記憶され、ユーザーのデバイス１０中でプロセッサ１３により実行されるプログラムコードは、例えば、ユーザーがユーザーのデバイス１０中にダウンロードしインストールすることのできるアプリケーションソフトウェアまたはａｐｐ．を含み得る。プログラムコードはまた、デバイス１０のオペレーティングコードの一部も含むことができる。プログラムコードはまた、例えばＪａｖａ（登録商標）、ＪａｖａＳｃｒｉｐｔ（登録商標）、ＨＴＭＬ５コードなどを含めたブラウザ内で実行されるかまたはウェブページ内に埋込まれたコードを含むこともできる。プログラムコードは、例えばフラッシュメモリ、ハードディスクまたは任意のタイプの永久、半永久メモリなどの有形装置可読媒体（ｔａｎｇｉｂｌｅａｐｐａｒａｔｕｓｒｅａｄａｂｌｅｍｅｄｉｕｍ）内に、コンピュータプログラム製品として記憶されてよい。

サーバー２０は、例えば２Ｄおよび／または３Ｄ基準画像などの基準画像のコレクション、および／または１つまたは複数のグローバルモデルを記憶するためのストレージ２１であって、例えばＳＱＬデータベース、ＸＭＬドキュメントセット、画像セットなどのデータベースを伴うストレージ２１と、例えばアノテーション方法において必要とされるオペレーションをマイクロプロセッサに実施させるためのコンピュータコードを伴うマイクロプロセッサなどのプロセッサとを含む。

ここで、方法の一実施例について記述する。

画像センサー１２によりキャプチャされる静止画像またはビデオフレームの少なくとも一部は、本明細書中では同義語のステガノグラフィックマークによっても示されている、キャプチャ画像の画像処理に使用可能ないくつかの隠しマーク３０を含んでいる。これらの隠しマークは、画像を処理するユーザーのデバイス１０内でプロセッサ１３により実行される適切なソフトウェアモジュールによって抽出され得るが、人間の目ではこれらの隠しマークに気付くことはできない。こうして、リーダまたはユーザーにこれらのマークの無い画像との差異を認識させることなく、ステガノグラフィックマーク内に多くの情報を記憶することができる。

例えば、図２に表わされているように、システム１によって検出可能である一部のマークは、例えばスクリーン上や、モニター上に投影されたまたは紙に印刷される静止画像またはビデオ画像などの画像６１のコーナー３０ａ〜３０ｄを示すアライメントマークを表わすことができる。一部のマークはまた、テストパターンを表すこともでき、該テストパターンは例えば、明度および／またはホワイトバランスを調整するための基準グレーレベルや、幾何学的歪みを補正するためのラインなどの画像の他のパラメータを示す。一部の隠しマークはまた、画像が遠隔サーバー２０から入手可能であるアノテーションと結びつけられていることを示すためだけに包含されていてもよい。例えば、一部の隠しマークは、隠しハイパーリンクを含んでいてよい。

さまざまなステガノグラフィー方法が先行技術において公知であり、異なるタイプのマークを隠すために使用可能である。例えば、マークを、人間の眼または脳が平均化（ａｖｅｒａｇｅｓ）する複数の後続するフレーム中に包含させることができ、あるいは、時間および／または空間および／または周波数ドメイン内に画像の知覚できないバリエーションとして包含することができる。

こうして、隠しマークを、空間ドメインにおけるピクセルの操作または変位を通して隠すことができるだけでなく、時間ドメインにおける連続するフレーム中のピクセルの操作により隠すこともできる。一部の隠しマークは、ＤＦＴ（離散フーリエ変換）またはＤＣＴ（直接コサイン変換）方法などの画像データのフーリエ変換を通してのみ暴露されてよい。これらのマーク隠蔽方法を混合して、検出に対しよりロバストな隠しマークを提供することが可能である。

一例において、マークを画像中に隠すためおよびマークをリトリーブするためにＤＣＴ技術が使用される。マークを隠すためには、各画像を複数のブロックにカットする。次に離散コサイン変換ＤＣＴが、各ブロックに対し独立した形で適用される。一実施形態においては、３つの異なる種類のデータが３つのブロック内に隠されて、これら３つのブロックを幾何学的インサイト（ｇｅｏｍｅｔｒｉｃｉｎｓｉｇｈｔｓ）として使用して後に画像平面をリトリーブすることができるようになっている。これら３つの異なる情報を３つの選択されたブロック内に隠すためには、最下位（ｌｅａｓｔｓｉｇｎｉｆｉｃａｎｔ）ＤＣＴブロックの最下位ビット（ｌｅａｓｔｓｉｇｎｉｆｉｃａｎｔｂｉｔ：ＬＳＢ）のビットを巧妙に修正することができる。空間内でノーマルな平面を回復し、したがって、投影スクリーン平面に対し平行でない平面のカメラによって導入された任意のキーストーンを正すために、各ブロック内に埋込まれる必要があるのは、わずか２つの情報ビットにすぎないと考えられる。より多くのブロックおよび／または各ブロック内のより多くのビットを修正することによって、追加の情報を隠すことができる。

隠しマークはまた、「拡張（ｅｘｔｅｎｄｅｄ）隠しマーク」でもあり得る。広告を含む新聞の場合を仮定する。この場合、画像の寸法が潜在的に小さいこと、画像のテクスチャが欠如していることおよび、それに付随して画質が低いことに起因して、ステガノグラフィックサインを正しく認識することが困難であり得る。こうして、拡張隠しマークは、キャプチャすべき画像それ自体の中に隠すことができるだけでなく、少なくとも部分的に、その周囲、キャプチャされるべき画像を取り囲むテクスチャエリアを含めた該周囲の中にも隠すことができる。このようにして、キャプチャされるべき画像内に含まれる隠しデータは、実際には以上で命名された拡張隠しマークを含む完全な隠しデータの一部にすぎない。

図３に示されているように、システムは、ユーザーデバイス１０とサーバー２０との間で交換されるデータ量を可能なかぎり削減する一方で、画像センサー１２によってキャプチャされた画像上にデータをアノテートする可能性を伴って、容易なイメージフォーカシング（ｉｍａｇｅｆｏｃｕｓｉｎｇ）、ぼけ修正、安定化（ｓｔａｂｉｌｉｚａｔｉｏｎ）、トリミングおよび／またはフロントプランニング（ｆｒｏｎｔ‐ｐｌａｎｎｉｎｇ）を導く方法を実施する。該アルゴリズムの詳細なオペレーションについて、以下で詳述する。該アルゴリズムのさまざまなステップが、ユーザーデバイス１０またはサーバー２０内のメモリーに記憶されたコンピュータプログラムによって都合よく実行可能である。

システムにより実施される該アルゴリズムの第１のステップ１００は、ユーザーデバイス１０を用いて画像センサー１２を通して、画像、すなわち静止画像、またはビデオの１フレーム、または全ビデオを表わすデータをキャプチャすることである。キャプチャされたデータは、ユーザーデバイス１０のメモリ１４内に記憶される。

その後、次のステップ１１０は、キャプチャデータ内の隠しマーク３０を検出することからなる。このステップ中、ユーザーデバイス１０のプロセッサ１３により実行されるモジュールは、キャプチャ画像を処理して隠しマーク（利用可能である場合）を抽出し、したがってその中に入っているデータをデコードする。

詳細には、図４に開示されている通り、画像上のステガノグラフィックマークは、複数の異なる方法にしたがって抽出可能である。このことは、ユーザーデバイス１０のプロセッサ１２により実行されるモジュールが、隠しマークをリトリーブするために、複数の方法の中から認識（方法）を自動的に選択することができる、ということを意味している。図４に示されているように、隠しマーク認識方法を選択するための第１のステップは、条件識別ステップ２０００である。前記条件識別は、画像センサー１２の集束距離、および／またはユーザーにより選択されるかまたはユーザーデバイス１０のプロセッサ１３により自動的に検出されるシーン／モード、および／または位置決めセンサーを用いて検出されるユーザーデバイスの位置、および／またはユーザーデバイスが受信した無線信号、例えばシーン内の１つのオブジェクトから受信した無線信号により左右され得る。

したがって、リトリーブされた少なくとも１つの条件を用いて、ユーザーデバイスのメモリーの内部に記憶されたプログラムコードにより実行され得る複数の識別方法の中から自動的に隠しマーク識別方法を選択する３０００。

したがって、さらなるステップは、ステガノグラフィックマーク内に含まれるデータを抽出するためにキャプチャ画像に対して選択された識別方法を適用すること（ブロック４０００）である。

ユーザーデバイス１０は、キャプチャ画像を表わすデータにおける他のステガノグラフィックマークを識別することができ、マッチングおよびレジストレーションプロセスをより良く実現するためにこれを使用することができる。例えば、画像と結びつけられるステガノグラフィックマークは、日付、時刻、地理的位置特定（ｇｅｏｌｏｃａｌｉｚａｔｉｏｎ）、画像タイプ、識別情報および概してステガノグラフィックメッセージとして画像内に記憶可能であるあらゆる種類の情報を示すことができる。この追加情報は、ユーザーデバイス１０内で、または場合によっては遠隔サーバー２０内でリトリーブされて、プロセスが画像を認識しかつ／またはこれらのマークに応じてアノテーションを変更するのを助けることができる。例えば、同じ画像を、これらの追加のステガノグラフィックマークに応じて異なるアノテーションと結びつけてもよい。

キャプチャされるべき１つまたは複数の画像の特定の位置または距離またはフィーチャに起因して、ユーザーデバイス１０のプロセッサ１３は、隠しマークの全セットの一部しか検出しないことがある。決定ブロック１２０の出口「イエス」に対応するこの場合においては、プロセッサ１３により実行されるプログラムは、ユーザーデバイスのディスプレイ上またはビューファインダ内に補助サインを表示するかまたは可聴信号を出して、ユーザーに対して、隠しマークの全てそして望ましくはアノテーションすべき画像全体をキャプチャするために所与の方向に自らのデバイスを移動させるかまたは回転させるようにプロンプトするように構成されている（ブロック１３０、「コントロールサインを表示する」）。ユーザーはまた、リフォーカスすること、明度を調整すること、または隠しマークおよび画像全体のキャプチャを改善するために他の調整を行なうことのプロンプトを受けるかもしれない。焦点、明度および／または色の調整は、また、電子的にも制御可能であり、一方、設定値は、検出される隠しマークによって左右される。

他の補助サインは、ディスプレイ１１上に出現するかまたは他の形でユーザーに提供され、そのキャプチャにおいてユーザーを支援してよい。例えば、１つの画像の検出された境界、または画像の一部の要素の境界がアウトライン化されるかもしれない。検出された要素は、隠しマークに基づいて他の形で強調されるかもしれない。ロゴ、ビデオ、広告がユーザーに対し表示されるかまたは他の形でレンダリングされて、ユーザーが、隠しマークを有し、したがって恐らくはアノテーションと結びつけられている１つのオブジェクトの画像を現在キャプチャしていることを知るような形で、隠しマークが検出されたことを示してもよい。したがって、ユーザーは、認識プロセスがシーンについての何か有用なことをすでに学習し始めたことを知る。隠しマークが、認識すべきオブジェクトのタイプ（例えば、２Ｄオブジェクト、３Ｄオブジェクト、顔、建物など）についての一部の情報をエンコードしている場合には、検出されたタイプに関連するアニメーションまたはイラストレーションがユーザーに対し提示され得る。

全獲得時間中に、ユーザーを助けるための信号を表示するかまたは他の形で提示して、ユーザーが、認識されるべき画像から離れるようにデバイスを移動させることなく常時同じ位置にユーザーデバイス１０を向ける（ｐｏｉｎｔｉｎｇ）のを助けることが可能である。ユーザーに対して提供され得るメッセージは、例えば、デバイスの振動、プロセッサがディスプレイに対して伝送するビデオ、画像に対しオーバーインポーズされるメッセージ、カメラが正しく配向されているか否かまたはどの方向にカメラを移動させるべきかを示すためのライン、矢印などの図形記号であり得る。

ステップ１２２において、ステップ１００中にキャプチャされたデータは、ユーザーデバイス１０内のソフトウェアモジュールによって画像処理されて、例えば非限定的に、より高度にフォーカスされた、再整列（ｒｅａｌｉｇｎｅｄ）、リサイズされたかまたはトリミング、ズーミング、色調適応、色変換、ノイズ除去、ぼけ修正、フロントプランニングまたは回転させられたものであり得る修正された画像に対応する画像処理済みデータを生成する。一態様によると、この画像処理は、ステップ１１０中に検出された隠しマークによって左右される。例えば、隠しマークがアノテートすべき矩形画像のコーナーを示す場合、ステップ１２２中に実施される画像処理には、これらのコーナーの外側の全てのエリアをトリミングして、問題のエリア（ａｒｅａｏｆｉｎｔｅｒｅｓｔ）のみを含む修正済み画像データを生成することが含まれていてよい。画像処理にはまた、例えば矩形の代りに台形を生成するカメラの配向に起因する、および／またはカメラのレンズに起因する幾何学的または光学的変形の補正も含まれていてよい。隠しマークが基準グレーまたは他の基準色を含むか、または基準グレーまたは他の基準色の計算を他の形で可能にするようにする場合、画像処理は、色補正された画像データ、例えばホワイトバランス、彩度、コントラストおよび／または明度などが補正されている画像を計算してよい。

ステップ１２５では、処理済み画像データに基づく画像記述が、ユーザーデバイス１０内の適切なソフトウェアモジュールによって計算される。画像記述は、例えば画像のローカルフィーチャ、例えば高いエントロピーを有し１つの画像を高い信頼性で識別するフィーチャの記述子（ｄｅｓｃｒｉｐｔｏｒｓ）のリストを含んでいてよい。コンピュータビジョン技術において公知の通り、異なるタイプのフィーチャが使用されてよい。次に、これらのフィーチャの記述が計算される。記述子は好ましくは、ステップ１２２における画像処理の後に計算されることから、さらに信頼性の高い検出子が計算され、例えば、問題のゾーンの外側のエリアについての記述子は回避される。

ステップ１４０では、記述子のリストがサーバー２０に送られ、これは場合によっては、ＧＰＳ受信機によって示されるようなユーザーの位置特定（ｌｏｃａｌｉｚａｔｉｏｎ）、キャプチャされたオブジェクトから受信した信号によって示されるようなユーザーの位置特定、ユーザーが入力した選択、および／またはキャプチャデータからリトリーブされたデータに関する追加データと共に、すでにデコードされたステガノグラフィックマークを含めて、サーバー２０に送られる。サーバー２０は、次に、２Ｄまたは３Ｄモデルを含む基準画像のコレクション中のマッチする基準画像を見い出そうと試みる。キャプチャデータと比較すべき基準画像の選択は、ユーザーデバイスにより伝送される追加情報を使用することによって、かつ／または、一部の基準画像の持続時間（ｄｕｒａｔｉｏｎ）が制限されている場合には時間に応じて、抑制され得る。マッチングは、画像全体に基づく代りに、フィーチャの記述に基づいて行うことができる場合に、より高速になる。

キャプチャデータを基準データとマッチングするために、異なるアルゴリズムを使用してよい。例えば、顔をマッチングするために第１のアルゴリズムを使用してよく、キャプチャデータと２Ｄ基準画像とをマッチングするために異なるアルゴリズムを使用してよく、キャプチャデータと３Ｄモデルとをマッチングするために第３のアルゴリズムを使用してよい、等々。最良のアルゴリズムの選択は、少なくとも部分的に、検出されたステガノグラフィックマークからリトリーブされた情報に基づいていてよい。例えば、１シーン内の１要素上の１つのステガノグラフィックマークは、そのシーンの３Ｄモデルが利用可能であることを示すことができ、３Ｄモデルに基づいて適切なアルゴリズムを選択するためにサーバによって使用され得る。

ステップ１５０では、１つまたは複数のマッチング基準画像がひとたび発見されると、サーバー２０は、キャプチャ画像をマッチング基準画像またはモデルと整列させるためおよび、基準画像の座標系内のカメラ１０の位置を決定するために、レジストレーションを実施する。

ステップ１６０では、マッチング基準画像と結びつけられたアノテーションのリストが、対応する画像の位置または結びつけられたフィーチャと共に、サーバー２０により実行されるプログラムモジュールによって、ストレージ２１からリトリーブされる。これらのアノテーションは、ユーザーデバイス１０に送られる。代替的には、アノテートされた画像が送られる。

ステップ１７０では、アノテーションは、先に画像処理されたデータに付加され、テキスト、ビデオ、画像、音声またはハイパーリンクの形であり得るアノテーション５３０を伴う処理済み画像５３を表わすデータが得られる結果となる。次に、修正されアノテートされた画像が、ディスプレイ１１上に表示される。

本方法によると、ユーザーデバイスによってキャプチャされた画像は、ノイズが無く、正しい色を伴い、適正なズームを伴い、回転も、不要な部分もなく、あたかも同一平面内の方向でとられたかのように見えるように、可能なかぎり自動的に変換される。このようにして、画像、ストリーミングされたビデオ、プレゼンテーション、広告またはムービーの一部分の取り込みは、特に複雑なオペレーションまたはユーザーデバイス位置決めにユーザーを関与させることなく、容易になりかつ最終的品質は増強され、ユーザーをより充実した拡張現実へと導く。その上、これによりキャプチャ画像と基準画像とのマッチングプロセスは、より高速でよりロバストになる。

システムおよび方法の考えられる使用の一例について、ここで記述し、図５で図示する。この例においては、画像６１が、プロジェクター６０により壁に対して投影される。画像は例えば写真などの静止画像、テキストファイル、プレゼンテーション、映画などであり得る。それには、画像内にステガノグラフィにより隠されたいくつかの隠しマークを含む。

ユーザーは、プレゼンテーション（静止画像またはビデオのいずれか）を、そのユーザーデバイス１０を用いてキャプチャする。しかしながら、プロジェクター６０とデバイス１０との間のミスアライメントに起因して、キャプチャ画像５２内のプレゼンテーション６１の画像は矩形ではなく、キーストーン（ｋｅｙｓｔｏｎｅ）またはツームストン（ｔｏｍｂｓｔｏｎｅ）変形などのさまざまな幾何学的変形を含む。他の光学的変形は、プロジェクター６０のレンズ、デバイス１０内のカメラのレンズ、平坦でないかまたはプロジェクターからの投影ラインに対し直交していない投影表面などに起因するものであり得る。その上、ユーザーにとってユーザーデバイスで安定した画像をキャプチャするのは困難であり、そのため、キャプチャ画像は震えたものとなり、プレゼンテーションの画像の周りに多くの無関係なエリアを含む可能性がある。キャプチャ画像はまた、いくつかのホワイトバランス上および他のカラー上の問題を有する可能性がある。

記述した通り、キャプチャの質を改善するために、ユーザーのデバイス内でプロセッサにより実行されるプログラムは、キャプチャ画像５２を表わすデータ内に隠されたステガノグラフィックマークを検出し、このデータを画像処理するための命令としてこれらのマークを使用し、こうして、安定化、トリミング、幾何学的調整または他の形での改善されたであろう画像を表わす修正済みデータを生成する。例えば、隠しマークが矩形表面の４つのコーナーを示す場合、プログラムは、これら４つのコーナーの外側の全てのエリアをトリミングし、内側部分を正して（ｒｅｄｒｅｓｓ）矩形にしてよい。

ユーザーデバイス内で実行されるプログラムは、これらの隠しマークを検出していることから、このプログラムは、キャプチャ画像がアノテーションと結びつけられていることも認識している。アノテーションまたはアノテートされた画像データは、このとき、ユーザーデバイス１０内のローカルメモリーからか、あるいは遠隔サーバー２０から、先に記述した方法を用いてリトリーブされる。このとき、アノテートされ修正された画像５３が生成され、ユーザーデバイス１０のディスプレイ１１上に表示される。

一部の隠しマークはまた、完全な画像の特定の要素と結びつけられてもよい。例えば、人物またはオブジェクトの識別を、この要素に結びつけられたステガノグラフィックマークとして隠し、１ビデオの連続するフレーム上でこの人物またはオブジェクトを追跡するためにユーザーデバイス１０内のプログラムにより使用することが可能である。

上述の方法のさまざまなオペレーションは、さまざまなハードウェアおよび／またはソフトウェアコンポーネント、回路および／またはモジュールなど、オペレーションを実施することのできる任意の適切な手段により実施されてよい。概して、本出願に記載のオペレーションはいずれも、オペレーションを実施することのできる対応する機能的手段によって実施され得る。さまざまな手段、論理ブロックおよびモジュールは、回路、特定用途向け集積回路（ＡＳＩＣ）または汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ信号（ＦＰＧＡ）または他のプログラマブル論理デバイス（ＰＬＤ）、離散型ゲートまたはトランジスタロジック、離散型ハードウェアコンポーネントまたはここに記載の機能を実施するように設計されたこれらの任意の組合せを含めた（ただしこれらに限定されない）、さまざまなハードウェアおよび／またはソフトウェアコンポーネントおよび／またはモジュールを含んでいてよい。汎用プロセッサはマイクロプロセッサであってよいが、代替的には、プロセッサは、任意の市販のプロセッサ、コントローラー、マイクロコントローラまたは状態機械（ｓｔａｔｅｍａｃｈｉｎｅ）であってよい。プロセッサは、また、計算デバイスの組合せ、例えばＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと併用した１つ以上のマイクロプロセッサ、または他の任意のこのような構成として実装されてもよい。サーバーは、単一の機械として、一組の機械として、仮想サーバーとして、またはクラウドサーバーとして実装されてよい。

ここで使用される「アノテーション」という用語は、例えばテキスト、静止画像、ビデオ画像、ロゴ、画像レイヤー、音声および／または１つの画像に重ね合わされるかまたは他の形で付加され得る他の要素を含めた、多様な考えられる要素を包含する。

ここで使用される「決定する」という用語は、多様なアクションを包含する。例えば、「決定する」という用語には、計算（ｃａｌｃｕｌａｔｉｎｇ）する、コンピュータで計算（ｃｏｍｐｕｔｉｎｇ）する、処理する、導出（ｄｅｒｉｖｉｎｇ）する、調査（ｉｎｖｅｓｔｉｇａｔｉｎｇ）する、参照（ｌｏｏｋｉｎｇｕｐ）する（例えばテーブル、データベースまたは別のデータ構造内を参照する）、確定（ａｓｃｅｒｔａｉｎｉｎｇ）する、推定（ｅｓｔｉｍａｔｉｎｇ）することなどが含まれる。同様に、「決定する」という用語は、受信する（例えば情報を受信する）、アクセスする（例えばメモリー内のデータにアクセスする）ことなども含む。同様に、「決定する」という用語には、解決（ｒｅｓｏｌｖｉｎｇ）する、選択（ｓｅｌｅｃｔｉｎｇ，ｃｈｏｏｓｉｎｇ）する、設定（ｅｓｔａｂｌｉｓｈｉｎｇ）することなども含まれてよい。

シーンの一画像をキャプチャすることには、カメラの画像センサーに達する光の明度を測定するためのデジタルカメラの使用が関与する。

本開示に関連して記述された方法またはアルゴリズムのステップは、直接ハードウェアの形、プロセッサにより実行されるソフトウェアモジュールの形あるいは、その２つの組合せの形で実施されてよい。ソフトウェアモジュールは、当該技術分野において公知のあらゆる形態の記憶媒体内に存在していてよい。使用してよい記憶媒体の一部の例としては、ランダムアクセスメモリー（ＲＡＭ）、読取り専用メモリー（ＲＯＭ）、フラッシュメモリー、ＥＰＲＯＭメモリー、ＥＥＰＲＯＭメモリー、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭなどがある。ソフトウェアモジュールは、単一の命令または多くの命令を含んでいてよく、かつ、複数の異なるコードセグメントにわたり、異なる複数のプログラム間に、そして多数の記憶媒体を横断して分散させられてよい。ソフトウェアモジュールは、実行可能なプログラム、完全なプログラム内で使用される一つの部分、ルーチンまたはライブラリ、複数の相互接続されたプログラム、多くのスマートフォン、タブレットまたはコンピュータにより実行される「ａｐｐｓ（アプリケーション）」、ウィジェット、フラッシュアプリケーション、ＨＴＭＬコードの一部分などで構成されていてよい。記憶媒体は、プロセッサに結合されて、プロセッサが記憶媒体から情報を読出し、それに情報を書込むことができるようになっていてよい。代替的には、記憶媒体はプロセッサと一体化されていてよい。データベースは、ＳＱＬデータベース、ＸＭＬドキュメントセット、セマンティックデータベース、またはＩＰネットワーク上で利用可能な情報セットを含む任意の構造化されたデータコレクション、または他の任意の適切な構造として実装されてよい。

こうして、一部の態様には、ここで提示されたオペレーションを実施するためのコンピュータプログラム製品が含まれていてよい。例えば、このようなコンピュータプログラム製品は、命令が記憶された（および／またはコード化された）コンピュータ読取可能な媒体を含んでいてよく、これらの命令は、ここに記載のオペレーションを実施するため１つ以上のプロセッサによって実行可能である。一部の態様については、コンピュータプログラム製品は、パッケージングマテリアルを含んでいてよい。

クレームは、以上で例示した精確な構成およびコンポーネントに限定されるわけではないということを理解すべきである。クレームの範囲から逸脱することなく、以上に記載の方法および装置の配置、動作および詳細にさまざまな修正、変化および変更を加えてもよい。

１０ユーザーデバイス
１１ディスプレイ
１２画像センサー
１３プロセッサ
１４メモリ
１５送受信器
２０遠隔サーバー
２１ストレージ
３０隠しマーク
６０プロジェクター

国際公開第２０１２／０１９１６３号国際公開第２０１１／０８８３８６号米国特許出願公開第２００７／００２４５２７号明細書国際公開第２０１１／１５６４７５号

Claims

画像をキャプチャおよび処理するための方法であって、
− 画像センサー（１２）を用いてキャプチャ画像（５２）を表わすデータをキャプチャするステップと；
− 前記キャプチャデータ内に隠されたステガノグラフィックマーク（３０）をリトリーブするステップと；
− 前記隠しマークに基づいて前記キャプチャデータを画像処理して、修正された画像を表わす画像処理済みデータを生成するステップと；
− 前記画像処理済みデータと、異なる画像を表わす１組の基準データ（２１）由来の基準データとをマッチングするステップと；
− 前記画像処理済みデータに基づいて、アノテートされた画像（５３）をレンダリングするステップと；
を含む方法。
前記キャプチャ画像がビデオ画像である、請求項１に記載の方法。
前記キャプチャ画像が静止画像である、請求項１に記載の方法。
前記ステガノグラフィックマーク（３０）が、キャプチャすべき興味を引く部分の境界を画定するアライメントマークを含み、前記画像処理ステップには、前記画像をトリミングおよび／またはサイズ変更して前記マークに応じて前記処理済み画像を整列させるステップが含まれている、請求項１〜３のいずれか一つに記載の方法。
前記画像処理ステップが、前記隠しマークに基づいて幾何学的または光学的歪みを補正するステップを含む、請求項１〜４のいずれか一つに記載の方法。
前記画像処理ステップが、前記隠しマークに基づいて色を適応させるステップを含む、請求項１〜５のいずれか一つに記載の方法。
前記画像処理ステップが、前記隠しマークに基づいて、コントラストおよび／または彩度および／または明度を適応させるステップを含む、請求項１〜６のいずれか一つに記載の方法。
隠しマークがキャプチャ画像の１つの中でリトリーブされるまで、複数のキャプチャ画像を表わすデータをキャプチャするステップおよび、隠しマークを含む前記画像処理済みデータのみを前記基準画像とマッチさせるよう試みるステップとを含む、請求項１〜７のいずれか一つに記載の方法。
前記画像がユーザーデバイス（１０）を用いてキャプチャされ、前記ステガノグラフィックマークをリトリーブし前記キャプチャ画像を処理するステップが前記ユーザーデバイス内で実施され、前記マッチングステップがリモートで実施される、請求項１〜８のいずれか一つに記載の方法。
前記キャプチャ画像のローカルフィーチャの記述子を前記ユーザーデバイス（１０）内で計算するステップをさらに含む、請求項９に記載の方法。
ユーザーに対して与えられる命令を決定するために前記隠しマークを使用するステップを含む、請求項１〜１０のいずれか一つに記載の方法。
前記命令が、前記画像センサーを移動させる命令を含む、請求項１１に記載の方法。
前記ステガノグラフィックマークをリトリーブするための複数の方法うちの１つの方法の選択を含み、前記選択が、
− 画像センサー（１２）の集束距離、
− ユーザーによって選択されるかまたは自動的に検出されるシーン／モード、
− シーンの１要素から受信された無線信号、
− 位置、
という条件のうちの少なくとも１つによって左右される、請求項１〜１２のいずれか一つに記載の方法。
前記画像処理済みデータと基準データをマッチングするための複数の方法の中からの１つの方法の選択を含み、前記選択が、１つの前記ステガノグラフィックマークからリトリーブされた情報に左右される、請求項１〜１３のいずれか一つに記載の方法。
少なくとも１つの画像を表わすデータをキャプチャするのに適した画像センサー（１２）と、キャプチャデータ内の隠しマーク（３０）を少なくとも部分的にリトリーブするようにプログラミングされ、前記隠しマークのリトリーブに基づき画像処理済みデータを生成し、かつ遠隔サーバー（２０）から受取ったアノテーション（５３０）を包含させるプロセッサ（１３）と、を含む装置（１０）。
前記キャプチャデータまたは前記キャプチャデータからリトリーブされたフィーチャを遠隔サーバ（２０）に伝送するのに、および前記サーバーから前記アノテーションを受取るのに適した送受信段（１５）を含む、請求項１５に記載の装置。
処理には、前記データのフォーカシング、ズーミング、トリミング、ホワイトバランシング、コントラスディングまたはカラーリングの中の１つまたは複数のものが含まれる、請求項１５または１６に記載の装置。
画像を示すのに適したディスプレイ（１１）を含み、前記プロセッサ（１３）が、補助サインをディスプレイ（１１）上に出現させることによって隠しマークリトリーブにおいてユーザーを補助するようにプログラミングされている、請求項１６または１７に記載の装置。
一部の要求された隠しマークが画像の外にある場合、ディスプレイ（１１）上に前記補助サインを出現させて、ユーザーに対しどのように装置を移動させるかを指示する、請求項１８に記載の装置。
前記補助サインをディスプレイ（１１）上に出現させて、１つの要素の境界の画像の境界をアウトライン化する、請求項１８または１９に記載の装置。
− 画像をキャプチャし、前記画像内の隠しマークを識別するのに適した画像センサー（１２）を伴う少なくとも１つの装置（１０）と；
− 前記少なくとも１つの装置との間でデータを受信しかつ伝送して、前記装置から伝送されたキャプチャ画像の少なくとも一部分を処理し、かつ前記装置に対してアノテーションまたはアノテートされた画像を送るための遠隔サーバー（２０）と、
を含むシステム。
非一時的媒体支持体に記憶され、少なくとも１つのデータプロセッサに請求項１〜１４のいずれか一つに記載の方法の各ステップを実行させる命令を含んでいる、コンピュータプログラム製品。