JP2020513604A

JP2020513604A - 現実シーンの複製物に仮想画像及び音声データを重ね合わせるための方法及び装置、並びに携帯デバイス

Info

Publication number: JP2020513604A
Application number: JP2019521463A
Authority: JP
Inventors: アンダーソン、ダニエル; バウアー、フォルカー
Original assignee: 3dqr GmbH
Current assignee: 3dqr GmbH
Priority date: 2016-11-08
Filing date: 2017-11-07
Publication date: 2020-05-14
Anticipated expiration: 2037-11-07
Also published as: KR20190094166A; JP7096569B2; KR102210541B1; US20210049823A1; WO2018087084A1; DE102016121281A1; US10777015B2; EP3539086A1; US11100719B2; US20190266803A1

Abstract

現実シーンの光学的及び音響的複製物に仮想画像及び音声データを重ね合わせる方法は、携帯デバイス（１００）の少なくとも１つの環境センサ（１０２）によって取り込まれた現実シーン（１０６）の光学的及び／又は音響的な複製物（１０８）を表現する画像データを読み取るステップと、画像データからマーカーデータ（１３２）を決定するステップであって、マーカーデータ（１３２）は、現実シーン（１０６）内に配置されたマーカー（１１２）の複製物（１１６）及び位置決めを表現する、ステップと、仮想画像及び音声データ（１４０）を読み取るステップであって、仮想画像及び音声データ（１４０）は、マーカーデータ（１３２）を使用して、複数の仮想画像及び音声データから選択された画像及び音声データを表現し、仮想画像及び音声データ（１４０）は、仮想画像（１２４）を表現するための表現命令、仮想画像（１２４）を位置決めするための位置決め命令、及び音声データを再生するための位置決め命令を含む、ステップと、画像及び音声データから物体データ（１３４）を決定するステップであって、物体データ（１３４）は、現実シーン（１０６）内のマーカー（１１２）の周囲に配置された物体（１１０）の物体部分（１１４）の、複製物（１１８）及び位置決め表現する、ステップと、物体データ（１３４）及び仮想画像及び音声データ（１４０）を使用して、物体部分（１１４）の複製物（１１８）を参照して、仮想画像（１２４）を位置決めするための位置決め規則（１４２）を確認するステップ（４９２）と、を含む。【選択図】図１

Description

本発明は、現実シーンの複製物に仮想画像及び音声データを重ね合わせるための方法、装置、及びスマートフォンなどの携帯デバイスに関し、この方法は、例えば携帯デバイスを用いて実行することができる。

拡張現実（ＡＲ）の基本概念は数十年間にわたり存在しており、現実の実時間での複製物（例えば、カメラ複製物）に仮想情報を重ね合わせることを意味する。

本発明の目的は、従来技術に対して、現実シーンの複製物に仮想画像及び音声データを重ね合わせるための、改善された方法及び改善された装置、並びに改善された携帯デバイスを提供することである。

この目的は、独立請求項による、現実シーンの複製物に仮想画像及び音声データを重ね合わせるための方法及び装置によって、及び携帯デバイスによって達成される。本発明の有利な変形形態及び実施形態は、それに続く従属請求項から明らかとなる。

記載された手法は、具体的には、光学的かつ音響的に適合した形態で拡張現実を重ね合わせる分野に関し、
仮想物体及び音声データは、位置及び向きの観点で、現実シーン内の選択されたアンカー点にリンクされ、あたかも現実環境の一部であるかのように、正確な遠近法で三次元シーン内に常に重ね合わされる。一実施形態によると、この効果を得るために、カメラストリームの１つ１つの複製物を画像及び／又は音声処理方法を用いて分析してもよく、それに対応して仮想物体の必要な三次元位置及び向きを計算してもよい。好適には、記載した手法により、観察者の移動中にシーンを安定して追跡することが可能になる。

現実シーンに重ね合わせる、以下では仮想画像及び音声物体、又は仮想画像及び音声データとも呼ばれる仮想物体の選択は、好適には、現実シーン内に存在するマーカー、例えばＱＲコード（登録商標）（登録商標）を使用して実施してもよい。物体は、三次元保存物としてデータベース内に格納されてもよい。加えて又は代替として、物体は様々な角度（３６０°）から取得されデータベースに格納された、一連のキャプチャ、例えば写真及び／又は音響録音から構成されていてもよい。三次元データの格納物は、物体の点、又は単一の点及び物体の他の全ての点を決定するベクトル、を定義する、座標系の座標を含んでもよい。一連のキャプチャは、一連の二次元キャプチャであってもよい。キャプチャの各々は物体を画像化してもよい。仮想画像及び音声データの現実シーンの複製物内での位置決めは、好適には、少なくとも１つの物体部分、例えば現実シーン内のマーカーの周囲に配置された物体の縁又は面を用いて実施してもよい。従って、この物体部分の複製物を、仮想物体用の新規の、かつ／又は追加のアンカー点として使用してもよい。マーカーは、現実シーンの複製物の１％未満、例えば０．６％のみ、又は更に０．１％のみ、又は更に０．０１％を占めてもよい。

マーカーを使用することにより、労力をほとんど要することなく、現実シーンに適した仮想画像及び音声データが選択されることが保証され得る。物体部分を使用することにより、不利な条件下でも、例えば悪い照明条件下でも、仮想画像及び音声データを非常に正確に位置決めできることが保証され得る。この位置決めは、マーカーが以降の現実シーンの複製物内に、もはや描かれていないか又は部分的にのみ描かれている場合であっても可能である。

物体の光学画像は、４００〜８００ｎｍの典型的な波長を有する光学的に可視である波の反射を目が検知したものであり、波は最初に物体に当たり、物体から反射されると観察者の目の中に到達する。光源の場合は、物体自体が所与の点にて可視光を放出する。同様に、物体又は環境の音響的な「画像」は、例えば２０〜２００００Ｈｚの典型的な周波数の可聴波の対応する反射によって形成され、それが物体又は環境によって反射される場合があり、観察者の耳によって空間的な「画像」として解釈されてもよい。光源のように、物体自体も様々な点で音源を放出することができ、従って空間的な印象（例えば、オーケストラ）をもたらすことができる。類似の方法で、盲目の人が、クリック音とその環境からの反射を通して、「空間的画像」を作成及び複製してもよい。音響測深機はいずれも同様に機能し、受信した音波から物体の空間的画像が電子的に作成され、スクリーン上に表示されるが、同様に、それに対応する環境の音響的複製物を観察者の頭の中に作成することが可能である。

本明細書に記載された手法は、観察者が移動中に常にカメラによって取り込まれ、スクリーン上に示された環境の複製物内に、仮想画像及び音声データを、マーカー、例えばＱＲコード（登録商標）、及び画像マーカーに対して、正しい大きさで正しい位置に、かつ正しい角度方向で表現することからなる。そのとき、人がこの「画像全体」を見て、現実のような、一体となった、カメラにより取り込まれた画像という印象を受ける。同時に、仮想画像及び／又は音声物体は常に、観察者／聴取者のあらゆる方向から、これが実際にも起こった厳密にその地点における音量又は音質で音を出すことが想定されている。もちろん、放出された音波は、放出している物体の距離及び角度に依存して、その周波数及び／又は音量が、又は放出している物体の移動ゆえの対応する歪み（ドップラー効果）が、正しく表現されている。従って、物体の「周りを歩く」場合、個々の音源は「消滅」することになり、一方で他の音源が「出現」することになる。本明細書に記載された手法によって、シーン内及び／又はヘッドフォン内で制御されるのは、まさにこの表現プロセスである。

画像データ内でマーカー及び位置決めを決定し、そのマーカーデータ及びその位置決めを介して、複製物に対して画像及び音声データを決定するために、好適な既知の方法を使用することができ、対応するサブステップを実現する多くの方法が知られている。

現実シーンの複製物に仮想の三次元又は二次元の画像及び音声データを重ね合わせる方法は、
携帯デバイスの少なくとも１つの環境センサによって取り込まれた現実シーンの画像複製物を表現する複製物データを読み取るステップと、
画像及び音声データからマーカーデータを決定するステップであって、マーカーデータは現実シーン内に配置されたマーカーの複製物及び位置決めを表現する、ステップと、
マーカーデータを用いて選択された仮想画像及び音声データを読み取るステップと、を含む。複数の仮想の三次元及び／又は二次元の画像及び音声データからなる、読み取られたデータはまた、仮想画像を表現するための表現命令と、仮想画像を位置決めするための位置決め命令と、音響データを表現するため、かつ／又は音声データを再生するためのトリガを表現するための位置決め命令と、を含み、
複製物データから物体データを決定するステップであって、物体データは、光学的及び／又は音響的な三次元複製物、又は一連の二次元写真、及び／又は様々な角度からの録音、並びに現実シーン内のマーカーの周囲に配置された物体の物体部分の位置決めからなる、ステップと、
この仮想画像又は追加の仮想音声データに関連付けられた、仮想画像及び音響データを、マーカーデータ、物体データ、及び仮想画像及び音声データを使用して、物体部分の複製物を参照して、位置決めするための位置決め規則を確認するステップ、とを含む。

例えば、現実シーンは、環境センサのうちの１つ以上の検知範囲内にある携帯デバイスの周囲の領域であってもよい。環境センサは光学画像センサであってもよく、任意選択の更なる環境センサは音響センサ、例えば１つ以上のカメラ又はマイクロフォンであってもよい。仮想複製物はまた、仮想画像と称することができる。仮想複製物は仮想画像及び音声データを含んでもよい。仮想画像及び音声データは、三次元的に定義された物体の画像及び／又は音の表現のための表現命令、及び／又は、様々な角度から取り込まれた、例えば二次元写真の形態の又は物体の音キャプチャの形態の、画像及び／又は音響キャプチャからの選択項目を表現するための表現命令を含んでもよい。現実シーンの光学的かつ音響的な複製物に仮想の三次元又は二次元の画像及び音声データを重ね合わせるために、表現命令を使用することができる。決定するステップにおいて、複製物から物体データが決定されるが、その複製物は、環境センサを用いて取り込まれた現実シーンの画像及び任意選択的に音声データを表現してもよく、そのデータを携帯デバイスの表示デバイス及び出力デバイスを用いて表示又は出力してもよい。仮想画像及び音声データは、現実シーンの複製物内に挿入することができる、任意の光学的かつ音響的な表現、例えば図形、記号若しくは文字、会話、音楽、又は他の音を表現してもよい。仮想画像及び音声データは、三次元画像、又は二次元画像も、並びに関連付けられた音声データ又は点音源若しくは単一音源を表現してもよい。仮想画像及び音声データは選択されたデータであってもよい。現実シーンの光学的かつ音響的な複製物に仮想画像及び音声データを重ね合わせたものは、現実シーンの光学的及び音響的な複製物を含んでもよく、その少なくとも一部は、仮想画像及び音声データによって完全にマスクされるか、又は例えば半透明な形態でマスクされる。一実施形態によると、仮想音声データはステレオ音声データを含み、ステレオ音声データは適切なインタフェースを介してステレオスピーカに提供されてもよく、例えばステレオスピーカによって出力されてもよいｌ。ステレオ音声データは、仮想音声データに関連付けられた仮想音源が配置されていると思われる方向を聴取者に伝達する利点をもたらす。仮想音声データは、重ね合わせに使用することができる音響データを含んでもよい。マーカーは、ピクトグラムのコードの形態でシーン内に人工的に配置されたマーカー、例えば幾何学的マーカーであってもよい。マーカーは、一次元又は二次元のコードの形態の人工的マーカーとして実現されてもよい。例えば、マーカーは明るい領域及び暗い領域を有するマトリックスとして実現されてもよい。マーカーは、光電子工学的に読み取り可能な書き込みを表現してもよい。記号の形をしたデータを、マーカー内に画像化してもよい。マーカーデータは、マーカーの複製物に関する情報、及びマーカーの複製物を現実シーンの複製物と共に位置決めすることに関する情報を含んでもよい。この方法の更なるステップにおいて、マーカーデータを完全に又は部分的に使用してもよく、必要であれば、更に処理された形態でも使用してよい。仮想画像及び音声データを位置決めするための位置決め命令は、現実シーンの複製物内のマーカーの複製物に対して仮想画像及び音声データを位置決めするのに好適であり得る。物体部分は、現実物体の一部、部分、又は領域、例えば、縁若しくは面、又は更に音響的に定義された領域であってもよい。物体は、任意の物品、例えば、建物、備品、車両、楽器、又は紙片であってもよい。物体部分は、例えば、そのような物品の外縁又は、互いに対して角度をなす面の間の縁であってもよい。物体データは、物体部分の光学的かつ音響的な複製物に関する情報、及びこの複製物を現実シーンの複製物内に位置決めすることに関する情報を含んでもよい。この方法の更なるステップにおいて、物体データを、完全に又は部分的に使用してもよく、必要であれば、更に処理された形態で使用してもよい。位置決め規則は、現実シーンの複製物又は現実シーンの更なる複製物に対応する、物体部分の光学的かつ音響的な複製物に対して、仮想画像及び音声データを位置決めするのに好適であり得る。位置決め規則は、マーカーの複製物の位置決めと、物体部分の光学的な、加えて又は代わりに音響的な複製物の位置決めと、位置決め命令とを使用して確認してもよい。

前述の物体部分又は物体部分の複製物は、いわゆるアンカー点と見なしてもよい。そのようなアンカー点は、仮想画像及び音響データを位置決めするためのマーカーに加えて、又はマーカーの代替として使用してもよい。従って、仮想物体、すなわち仮想画像及び音響データを位置決めするために、マーカー、例えばＱＲコード（登録商標）自体を常に使用する必要はない。その代わりに、マーカーを、１つ以上のアンカー点によってマーカーの周囲環境から拡張することができ、それにより、もはやマーカーが画像内に、すなわち携帯デバイスの表示デバイス上に表示された現実シーンの複製物内に存在しない場合でも、マーカーを追跡することもできる。

従って、読み取るステップでは、読み取った複製物データは画像データに加えて音声データも表現するか又は含んでもよい。音声データは音データとも称される。音声データは、携帯デバイスの少なくとも１つの更なる環境センサによって取り込まれた現実シーンの音響的複製物を表現してもよい。このようにして、例えば、取り込まれた光学的画像データに関連付けられた音風景が記録され処理されてもよい。更なる環境センサは、例えばマイクロフォン又は複数のマイクロフォンを備えてもよい。いくつかのマイクロフォン又は指向性マイクロフォンを使用する場合、取り込まれた音声データを発している音源の場所を特定することができる。対応する特定した場所情報は、取り込まれた画像データと整合されてもよい。

一実施形態によると、現実シーンの複製物を仮想画像及び音声データと重ね合わせるための方法は、
光学的な、加えて又は代わりに音響的な画像及び音声データを読み取るステップであって、画像及び音声データは、携帯デバイスの環境センサによって取り込まれた現実シーンの複製物を表現する、ステップと
画像及び音声データからマーカーデータを決定するステップであって、マーカーデータは現実シーン内に配置されたマーカーの複製物及び位置決めを表現する、ステップと、
仮想画像及び音データを読み取るステップであって、仮想データは、マーカーデータを使用して、複数の仮想データから選択された画像及び音データの三次元キャプチャ又は一連の二次元キャプチャを表現し、仮想画像及び音データは、仮想画像を表現するための表現命令、仮想画像を位置決めするための位置決め命令、並びに仮想音声データを再生するためのトリガ位置を含む、ステップと、
画像及び音データから物体データを決定するステップであって、物体データは、現実シーン内のマーカーの周囲に配置された、光学的に、加えて又は代わりに音響的に検出可能な物体の物体部分の複製物及び位置決めを表現する、ステップと、
物体データと、仮想画像及び音データとを使用して、物体部分の複製物、並びに音声データを再生する開始位置を参照して、仮想画像を表現するための位置決め規則を確認するステップと、を含む。

一般に、画像及び音声データは現実の三次元画像又は一連の二次元画像、及び音データからなってもよく、物体データは現実の物体データからなってもよく、物体部分は現実の物体部分からなってもよい。

一実施形態によると、確認するステップにおいて、位置決め規則は、マーカーデータ又はマーカーデータの少なくとも一部を使用して確認してもよい。携帯デバイスの環境センサが実際のマーカーを、もはや検出することができなかったとしても、定義済みの時系列で行われた更なるアンカー点及び／又はアンカー線の定義を用いて、現実シーンの光学的かつ音響的な複製物を現実シーン内で追跡することができる。

一実施形態によると、読み取るステップ、決定するステップ、及び確認するステップの連続的な繰り返しは、短い時間間隔、特に１秒あたり数回で実施してもよい。例えば、ステップは１秒あたり１０回から２００回（すなわち、１秒の１０分の１ごとに、又は５／１０００秒ごとに）、実行してもよい。

記載された手法によって、遠い距離から、かつ携帯デバイスの比較的制限のない位置から、描画内の仮想の光学的／音響的物体を正確な遠近法で位置決めすることが可能になる。好適には、携帯デバイスは、もはやマーカーを認識し、かつ関連付けられた仮想物体をこのマーカーに対して固定された位置に位置決めする必要はなく、むしろ、これらの更なるアンカー点／線に対して固定された位置に、位置決めすればよい。遠い距離は、マーカー、例えばＱＲコード（登録商標）の辺の長さの１０倍から５０００倍の距離であってもよい。一実施形態によると、マーカーの辺の長さの１０倍から５００倍の範囲が好ましい。マーカーの辺の長さが２ｃｍである場合、この遠い距離は最大１００ｍの距離（辺の長さの５０００倍）に相当する。比較的制限のない位置とは、３つの軸の全てにおいて０．１°から１８０°のずれを意味し得る。従って、３６０°全周がカバーされることになる。またマーカーは、常に携帯デバイスの視野（環境センサ）内にある必要はない。

一実施形態によると、記載された手法は、携帯デバイス内に配置された測定デバイスを、画像取り込みに加えて利用し、最初にマーカーを検出したときに固定された位置に対して、マーカーを検出した後の相対位置の変化を測定する。加えて、現実画像及び音データからの現実物体のデータは、「二次マーカー」とも称される物体部分として使用され、その結果、実際のマーカーが環境センサの検知範囲内にある必要はもはやない。

以下で述べるデバイスは、マーカーを一回検出した後に、最初の位置からのずれを決定するために、携帯デバイス内の、例えばスマートフォン又はタブレット内の対応する測定デバイスとして使用することができ、測定デバイスは認識デバイス又は測定センサとも称される。本明細書では、個々の測定センサ、又は任意の組み合わせも選択される。

加速度センサ：一方では、携帯デバイスの並進運動を測定するためのものであり、他方では、デバイスに対する地球の重力の方向、従ってデバイスの向き／回転を決定するためのものである。

回転センサ：携帯デバイスの回転運動を測定するためのものである。

磁力計：地球の磁界、従って携帯デバイスの水平方向の回転を測定するためのものである。

ＧＰＳ受信器：任意選択的に、非常に遠い距離に関して、かつ±２メートルの精度で位置決めするためのものである。

マイクロフォン：個々の音源又は一般の暗雑音を検出し測定するためのものである。本明細書では、可聴範囲内の周波数（２０〜２００００Ｈｚ）が好ましいが、超音波範囲内の周波数も使用することができる。

本明細書では画像センサに加えて、加速度センサ及び回転センサの使用が好ましい。

画像センサは可視光（４００〜８００ｎｍ）に限られ得るが、加えて又は排他的に、他のスペクトル範囲（例えば、加えて又は排他的に、ＩＲ光又はＵＶ光）も送信してよい。

例えば、対応する測定デバイスの測定値を使用して、携帯デバイスの運動によって引き起こされた物体部分のシフト又は物体部分の複製物のシフトを決定してもよい。一実施形態によると、確認するステップでは、物体部分の複製物に対して仮想画像及び音声データを位置決めするための位置決め規則を確認するために、シフトを表現する値が使用される。

それゆえ、位置決め規則を、例えば、携帯デバイスの測定デバイス又はいくつかの測定デバイス、例えば加速度センサ、回転センサ、磁力計、又はＧＰＳ受信器、の測定値を使用して、確認してもよい。

これは更に、仮想物体が実際に移動する場合に起こる技術的問題を解決する。この移動を追跡している際に、マーカーが環境センサの視野から消えた場合であっても仮想描画は壊れない。従って、このとき、広い周囲領域内での一連の画像を表現することができる。

加えて、このとき、仮想物体のより臨場感のある表現のための音声データが、様々な自由に選択された位置で再生され得る。

一実施形態によると、本方法は、マーカーデータの少なくとも一部を、外部デバイスへのインタフェースに提供するステップを含む。この場合、三次元の、若しくは選択された二次元の、又は一連の、これら仮想画像及び音声データを読み取るステップにおいて、仮想画像及び音声データを、外部デバイス、例えばサーバへのインタフェースを介して読み取ってもよい。上述のインタフェースは、例えば無線インタフェースであってもよい。好適には、仮想画像及び音声データの選択は外部デバイスを使用して実施してもよい。それにより、携帯デバイス上のメモリスペースを節約することができ、最新の仮想画像及び音声データが常に利用可能であることを保証することができる。

本方法は、マーカーデータを使用して、仮想画像及び音声データを複数の仮想画像及び音声データから選択するステップを含んでもよい。選択するステップは、外部デバイス、又は携帯デバイスのデバイスを使用して実施してもよい。後者の選択肢によって、本方法が、携帯デバイス上で自立的に実行され得るという利点が提供される。仮想画像及び音声データは、マーカーの複製物又はマーカーの識別情報を、例えば複数の仮想画像に関連付けられた潜在的マーカーの複製物又は識別情報と比較し、一致が見られた仮想画像のうちの１つを選択することによって選択することができる。このようにして、一致する仮想画像及び音声データを高い確実性で選択することができる。

この目的のために、本方法は、マーカーデータを使用してマーカーの識別情報を確認するステップを含んでもよい。選択するステップにおいて、次に、識別情報を使用して仮想画像及び音声データを選択してもよい。識別情報は、例えばコード又は文字列であってもよい。

例えば、マーカーは、マーカーの対応する識別情報を含むマシン可読コードを表現してもよい。この場合、マーカーの識別情報は、マーカーデータを決定するステップにおいて、マーカーデータの一部として決定してもよい。マシン可読コードを使用することによって、マーカーの複製物を非常に容易に評価することができる。

本方法は、現実シーンの別の複製物に仮想画像及び音声データを重ね合わせるための位置決め規則を使用するステップを含んでもよい。好適には、位置決め規則は、いったん決定されると、現実シーンの時間的に連続する複製物に仮想画像及び音声データを重ね合わせるために使用することができる。

この目的を達成するために、使用するステップは、例えば、携帯デバイスの環境センサによって取り込まれた、現実シーンの更なる複製物を表現する、更なる複製物データを読み取るステップと、座標系内の三次元点として、又は点及びベクトルとして、又は二次元写真の選択項目のいずれかとして存在する、更なる複製物データから、物体部分の更なる複製物の位置決めを決定するステップと、更なる複製物データ、物体部分の更なる複製物、及び位置決め規則を使用して、重ね合わされた画像及び音声データを作成するステップと、を含んでもよく、
重ね合わされた画像及び音声データは、現実シーンの更なる複製物に仮想画像及び音声データを重ね合わせたものを表現する。位置決めを決定するステップでは、現実シーンの更なる複製物内での物体部分の更なる複製物の位置決めを決定してもよい。従って、現実シーンの時間的かつ空間的に適合する複製物内の物体部分の光学的かつ音響的な複製物を、仮想画像及び音声データに対するアンカー点として使用することができる。重ね合わされた画像及び音声データを作成するステップでは、表現命令を使用して、仮想画像及び音声データを表現してもよい。

方法は、現実シーンの更なる複製物に仮想画像及び音声データを重ね合わせたものを、携帯デバイスの表示及び再生デバイスを用いて表示するステップを含んでもよい。この目的のため、例えばすでに述べた、重ね合わされた画像及び音声データは、表示及び再生デバイスに提供されてもよい。表示デバイスはスクリーン又はディスプレイであってもよく、再生デバイスはラウドスピーカ又はステレオ再生用のインタフェースであってもよい。

本方法は、携帯デバイスの少なくとも１つの環境センサを使用して、画像データ、及び任意選択的に音声データを取り込むステップを含んでもよい。例えば、現実シーンの複製物を時間的に連続した形で提供できるように、画像及び音声データを時間的に連続して取り込むことができる。仮想画像及び音声データを、現実シーンの個々の複製物内に重ね合わせることができる。

様々な実施形態によると、更に、複数の仮想三次元物体、又は二次元画像及び音声データを重ね合わせのために使用することができる。この場合、読み取るステップにおいて、複数の仮想画像及び音声データを読み取ってもよく、又は、仮想画像及び音声データは、複数の仮想画像及び音声データを表現し位置決めするための、表現命令及び位置決め命令を含んでもよい。

更に、１つの物体又は異なる物体の、複数の物体部分を使用してもよい。この場合、物体データを決定するステップにおいて、複数の物体データを決定してもよく、又は、物体データは、複数の物体部分の複製物及び位置決めを表現してもよい。それに対応して、位置決め規則を確認するステップにおいて、仮想画像を個々の物体部分に対して位置決めするための、複数の位置決め規則を確認してもよい。代替形態として、複数の物体部分の複製物に対して、仮想画像及び音声データを位置決めするのに適した位置決め規則を確認してもよい。複数の物体部分を使用することによって、仮想画像及び音声データを非常に正確に位置決めでき、かつ、使用される物体部分の全てが現実シーンの複製物内に描画されるとは限らない場合でさえも、位置決めできるという利点が提供される。

本明細書で提示される手法は更に、本明細書で提示される方法の変形例のステップを、対応するデバイス内で実施、制御、又は実現するように構成された装置を提供する。本発明の基礎をなす目的は、装置の形態における、本発明のこの実施形態によっても、迅速かつ効率的に達成することができる。

装置は、入力信号を読み取り、入力信号を使用して出力信号を決定し提供するように構成されてもよい。例えば、入力信号は、装置の入力インタフェースを介して可読である、センサ信号を表現してもよい。出力信号は、装置の出力インタフェースで提供され得る制御信号又はデータ信号を表現してもよい。装置は、ハードウェア内又はソフトウェア内に実装された処理規則を使用して、出力信号を決定するように構成されてもよい。例えば、装置は、論理回路、集積回路、又はソフトウェアモジュールを含んでもよく、例えば、ディスクリート部品として実現してもよく、又はディスクリート部品の中に含めてもよい。

更に、半導体メモリ、ハードディスク、又は光学メモリなどのマシン可読担体上に保存され得るプログラムコードを有するコンピュータプログラム製品が好適であり、プログラムコードは、プログラム製品がコンピュータ又は装置上で実行される場合に、前述した実施形態のうちの１つの方法を実施するために使用される。

本発明の実施形態を図面で示し、以降の説明で更に詳細に説明する。

一実施形態による、現実シーンの複製物を仮想画像及び音声データと重ね合わせるための方法の概略図を示す。一実施形態による、関連付け規則を作成する方法の概略図を示す。一実施形態による、携帯デバイスの概略図を示す。一実施形態による、現実シーンの複製物を仮想画像及び音声データと重ね合わせるための方法のフローチャートを示す。一実施形態による２値の輪郭を有するＱＲコード（登録商標）配置用正方形を示す。

図１は、一実施形態による、現実シーンの複製物を仮想画像及び音声データと重ね合わせるための方法の概略図を示す。

図１の左半分は携帯デバイス１００、例えばスマートフォンを示し、環境センサ１０２、更なる環境センサ１０３、表示デバイス１０４、及び再生デバイス１０５を備える。この実施形態によると、環境センサ１０２及び１０３は、環境センサ１０２及び１０３の検知範囲内で、現実環境とも称される現実シーン１０６を取り込むように構成されたカメラ及びマイクロフォンである。この実施形態によると、表示デバイス１０４及び１０５は、環境センサ１０２、１０３によって取り込まれた現実シーン１０６の複製物１０８を表示するように構成された表示デバイス及びスピーカである。

この実施形態によると、外側表面上にマーカー１１２を有する物体１１０が現実シーン１０６内に配置されている。例えば、物体１１０は任意の画像又は物品であってもよい。物体１１０及びマーカー１１２はそれぞれ、環境センサ１０２、１０３の検知範囲内に、部分的に及び完全に配置されている。特に、物体１１０の少なくとも１つの物体部分１１４は、環境センサ１０２、１０３の検知範囲内に配置されている。従って、複製物１０８は、マーカー１１２の複製物１１６、及び物体部分１１４の少なくとも１つの複製物１１８を含む。

図１の右半分は、左半分の図と比較して時間的に後続の時点での携帯デバイス１００を示す。携帯デバイス１００の一時的な動きゆえに、環境センサ１０２、１０３から見た現実シーン１０６は僅かに変化しており、それにより、複製物１１６に対して僅かに変化した更なる複製物１２０がディスプレイ１０４によって表示される。例えば、更なる複製物１２０は、現実シーン１０６を、複製物１０８と比較して別の遠近法で、若しくは別の音の遠近法で描くか、又は現実シーン１０６の別の部分を描いてもよい。例えば、別の部分では、更なる複製物１２０が物体部分１１４の更なる複製物１２２を含むが、マーカー１１２の更なる複製物は含まないようになっている。しかしながら、記載された方法を用いて、更なる複製物１２０に仮想画像及び音声データ１２４、１２５を重ね合わせることができる。一実施形態によると、更なる複製物１２０に、仮想画像及び音声データ１２４、１２５を、予め定められた位置及び／又は予め定められた向きで重ね合わせることになる。一実施形態によると、更なる複製物１２０が、仮想画像及び音声データ１２４、１２５に対するアンカー点として使用することができる物体部分１０６の、適切な更なる複製物１２２を備える限りは、そのような予め定められた重ね合わせは可能である。

本方法のステップは、携帯デバイス１００のデバイスを排他的に使用して、又は加えて、少なくとも１つの、本明細書では例示的にクラウドとして示す、外部デバイスを使用して実行することができる。例えば、外部デバイス１３０は携帯デバイス１００に直結していてもよい。

一実施形態によると、仮想画像及び音声データ１２４、１２５は、環境センサ１０２によって検出されたデータだけを使用して生成され、すなわち現実の音声データは使用されない。

この方法は連続的に実行されてもよく、又はコンテンツ呼び出しによって始動されてもよく、若しくはオペレータによって表示デバイス１０４を使用して要求された現実シーン１０６の視聴によって始動されてもよい。

複製物１０８は、環境センサ１０２、１０３、又は環境センサ１０２、１０３の下流にある評価デバイスによって提供される画像及び音声データに基づく。マーカーデータ１３２及び物体データ１３４は、例えば物体認識方法、又は別の好適な画像及び音処理方法を使用して、図面に概略的に図示した画像及び音声データから決定される。マーカーデータ１３２は適切な抽出を用いて画像及び音声データから決定され、マーカー１１２と関連付けられた識別データ１３６、例えばマーカー１１２に関連付けられた識別ＩＤ、及び／又は、マーカー１１２に関連付けられた、例えばＵＲＬの形態のアドレス若しくはポインタを含む。マーカーデータ１３２若しくはマーカーデータ１３２の一部、又はこれらから決定されるマーカーに関連付けられた識別情報などのデータを使用して、関連付け規則１３８、例えば割り当てテーブルを用いて、複数の仮想画像及び音声データから、マーカー１１２に関連付けられた仮想画像及び音声データ１４０を選択することができる。ここで関連付け規則１３８は本実施形態に従って外部デバイス１３０のメモリに保存される。複数の仮想画像及び音声データを、ＡＲコンテンツの形態で割り当てテーブル１３８内に保存してもよい。仮想画像及び音声データ１４０は携帯デバイス１００に送信され、仮想画像１２４を表示するために、加えて又は代わりに再生するために使用される。一実施形態によると、仮想画像及び音声データ１４０の選択は、新規のマーカー１１２が見つかった場合にのみ、例えば、マーカー１１２の複製物１１６又はマーカー１１２の識別データ１３６が、複製物１０８を表現する画像及び音声データから最初に抽出されたときに実行される。

物体データ１３４は、適切な画像の、加えて又は代わりに音特徴点の、適切な抽出により、画像及び音声データから決定される。適切な画像／音特徴点が、例えば一時的かつ局所的な使用のための、新規ＡＲマーカーとも称される位置決め規則１４２を作成するために使用される。位置決め規則１４２は、携帯デバイス１００によって使用され、その結果、マーカー１１２の複製物１１６が利用できない場合であっても、仮想画像及び音声データ１２４を複製物１０６又は更なる複製物１２０の重ね合わせとして表現できるようになる。位置決め規則１４２を使用するには、オンライン整合は必要ない。この実施形態によると、位置決め規則１４２は自然マーカーを表現する物体部分１１４を指す。

一実施形態によると、ＵＲＬに基づいたＡＲコンテンツの確実な関連付け、及び新規の、従って最新の自然マーカーに基づいた安定した３Ｄトラッキングが可能になる。

一実施形態によると、仮想画像及び音声データ１２４、１２５を更なる複製物１２０内に位置決めできるように、少なくとも２つの自然マーカー、すなわち、例えば物体１１０の物体部分１１４及び別の物体部分１４４が使用される。この場合、位置決め規則１４２は、両方の物体部分１１４、１４４、又はその複製物１１８、１２２、１４６に関連する。図１に示す実施形態では、更なる物体部分１４４は、現実シーン１０６の更なる複製物１２０内には描かれていない。しかしながら、仮想画像及び音声データ１２４、１２５を、物体部分１１４の更なる複製物１２２により位置決めすることができる。

一実施形態によると、記載された手法は、物体の三次元位置をカメラ画像から抽出することができる、２つの方法の組み合わせに基づいている。

これら方法のうちの１つである第１の方法では、マーカー１１２として予め定義された幾何学的形状が使用され、それがカメラ複製物の領域に、例えばＱＲコード（登録商標）内に配置される。そのようなマーカー１１２の既知の形状、及びカメラ複製物１０８内のマーカーの複製物１１６に基づき、空間内におけるマーカーの三次元方向を画像処理によって決定することができる。第１の方法の利点は、マーカー１１２の予め定義された設計規則ゆえに、カメラ複製物１０８内でマーカーを明確に識別することができること、従ってＱＲコード（登録商標）を介して、追加の情報、例えばマーカー１１２のＩＤ又はウェブリンクを、マーカー１１２の外観内に直接的に符号化することもできることである。このようにして、いったん定義された符号化方式、例えばＱＲコード（登録商標）の白黒ビットを用いて、非常に多数の異なるマーカーを光学的に互いに明確に区別することができる。しかし、これらマーカー１１２は、必然的に厳密に定義された形状ゆえに、カメラ複製物１０８内の小さな外乱に対して決して頑健ではないことが不利な点である。そのような小さな外乱は、例えば僅かな焦点のぶれ、移動のぶれ、又は険しい視野角であり得る。このことから、これらマーカー１１２のうちの１つの三次元位置を正確に抽出することができるのは、マーカーの焦点が完全に合っていて、マーカーが画像平面に平行であり、カメラ複製物１０８内では隠れておらず見ることができ、かつカメラ１０２がマーカー１１２に対してほぼ静止している場合のみである、いう事実に至る。それゆえ、例えば、ＱＲコード（登録商標）の形態のマーカー１１２に基づいて、仮想３Ｄ物体１２４の連続的なＡＲ重ね合わせを正確な位置に行うことは、ほとんど不可能になる。幾何学的マーカー１１２のデザインが大きい場合は、この問題はある程度は緩和されるが、その場合、そのようなマーカーは、シーン１０６内に、目立つ大きな形で配置されることになり、大抵の用途にとって不適切であるという別の不都合を伴う。

これら方法のうちの１つで、自然特徴点追跡又はＮＦＴとも称される得る第２の方法では、以前は現実環境１０６内にあった物体１１０の複製物、例えばチラシのカバー画像が、マーカーとして定義され、最初に、その自然光学的特徴点１１４、例えば、特徴的な点、縁の輪郭、又は色がアルゴリズムによって現物から好適な形で抽出される（すなわち、疑似学習される）。次に、ＡＲ位置決定のために、すなわち重ね合わせるべき仮想画像１２４の位置を決定するために、これらの以前に学習された自然特徴点１１４を求めてカメラ複製物１０８が検索され、最適化方法を用いて、現在捜している物体１１０がカメラ複製物１０８内にあるかどうかが決定され、更に、物体の個々の特徴点１１４の配置に基づき、物体の向き及び位置が見積もられる。ここでの利点は、最適化に基づく方法ゆえに、外乱に対して非常に頑健なことである。従って、部分的に隠れており、かつ角度が非常に急な場合に、ぶれたカメラ複製物１０８、１２０内においてさえも、マーカー物体１１４の位置を認識することができる。更なる方法（例えば、ＳＬＡＭ）により、カメラ複製物１０８、１２０内でのマーカー物体１１４の初期的な認識に基づいて、現在の周囲環境からの特徴点を用いて、そのモデルを連続的に拡張させることさえも可能になり、その結果、カメラ複製物１２０内でマーカー物体自体をもはや見ることができない場合でさえも、マーカー物体の空間内での方向を、部分的には正しく決定することができる。しかし、特にこの方法で非常に多くの異なるマーカーを認識する場合に、この方法は重大な不都合を有する。最初に、３つのマーカー物体１１４は、カメラ複製物１０８、１２０内で多少なりとも認識可能とするには、自然な光学的外見に関する一定の光学的基準を満たさなければならない。その上、明確に識別するために、全ての認識可能なマーカー１１４は、互いに明らかに異なっていなければならない。認識可能なマーカー１１４の数が多いほど、不適切な割り当ての可能性は高くなる。もし、データベース内で多くの光学的に類似した物体１００、例えば名刺を区別することになる場合、これは特に問題である。更に、全ての認識可能なマーカーの自然特徴点を有するデータベースは、認識の時点ですでに存在していなければならず、この完全なデータベースをカメラ複製物１０８、１２０と比較して、マーカー１１４のうちの１つがカメラ複製物内にあるかどうかを見つけ出さなければならない。継続的に増大するマーカーデータベースを有する、スマートフォンＡＲアプリなどのシステムの場合、このことは、データベースの現在版を（オンラインで）中央位置に提供することを要求し、各スマートフォン１００は、コンピュータ処理的に広範囲にわたる複製物検索要求をこのデータベースに送り、カメラ複製物１０８、１２０の１つ１つを解析しなければならない。

一実施形態によると、本明細書で説明される手法は、上述の２つの方法の組み合わせに基づいており、そこでは、両方の方法が、カメラ複製物１０８、１２０内のマーカー物体の認識及び３Ｄ位置決めのために、連続的なリンクされた段階で実施される。第１の段階では、幾何学的な予め定義されたマーカー設計、例えばＱＲコード（登録商標）又はバーコードが、本明細書ではＡＲコンテンツ１２４と称する、仮想画像１２４の仮想画像及び音声データ１４０を識別するためだけに、カメラ画像１０８内のマーカー１１２の複製物１１６として使用される。例えば、マーカー１１２の複製物１１６は、現実シーン１０６の複製物１０８の、０．６％のみ、又は更に０．１％のみ、又は更に０．０１％を占めてもよい。これは、Ａ４サイズ用紙上で、マーカー１１２の複製物１１６の０．５ｃｍの辺長に相当する。

ＱＲコード（登録商標）の形態のマーカー１１２を、調べられた対応するカメラ画像内で認識することについては、図５に基づいて後で詳細に説明する。

一実施形態によると、マイクロフォン１０３、加えて又は代わりにラウドスピーカ１０５の追加、又は存在する場合は、スマートフォン１００の複数のマイクロフォン及び／又は複数のラウドスピーカの追加がなされる。この関連で、スマートフォン１００のカメラ１０２による１次マーカー１１６（ＱＲコード（登録商標）／バーコード）の検出に依存して、仮想データ１４０の選択がなされる。しかし、選択された仮想データ１４０は画像データだけでなく音データからもなり、音データは、現実シーン内に重ね合わされた仮想物体１２４の更なる移動に応じて再生される。

理解しやすいように、リビングルームの自由空間内での三次元テレビ映像（一連のカメラを用いて３６０°から、例えばそれぞれ１０°の間隔の３６個のカメラ、更にはそれぞれ５°の間隔の７２個のカメラで取り込まれた）の場合である。もちろん、スマートフォン１００がシーンの周りを移動したとしても、仮想画像及び音物体１４０はそれぞれ正しい遠近法で表現される。すなわち２次マーカー１２２が使用されている。音物体を正確に表現するために、特に音声データを再生するために、ステレオヘッドフォンを介することが望ましい。そのようなステレオヘッドフォンは好適なインタフェースを介してスマートフォン１００に接続されてもよい。別の変形例では、これら２次マーカー１２２は、画像特徴点だけでなく、現実シーンの音特徴点をも含む。例えば、これは楽器の特定の色調の単一音源、又は更に特定の構成をも含む。

図２は、一実施形態による、関連付け規則１３８を作成する方法の概略図を示す。関連付け規則１３８を、例えば図１に示す外部デバイス内に保存してもよい。

オペレータ２５０が、例えば複数の仮想画像及び音声データの形態で、３ＤＡＲコンテンツ２５２を提供する。ウェブインタフェース２５４を使用して、３ＤＡＲコンテンツ２５２に基づき関連付け規則１３８が作成又は更新される。一実施形態によると、関連付け規則１３８は、３ＤＡＲコンテンツ２５２の各３ＤＡＲコンテンツ２５２用の特定の一意的なＵＲＬへのリンクを含む。

図３は、一実施形態による、携帯デバイス１００の概略図を示す。携帯デバイス１００は、例えば図１に示す携帯デバイスであってもよい。携帯デバイス１００は、環境センサ１０２、１０３、及び環境センサ１０２によって取り込まれた現実シーンの複製物を表示するための表示デバイス１０４、１０５を備える。複製物を、仮想画像及び音声データと重ね合わせてもよい。この実施形態によると、携帯デバイス１００は外部デバイス１３０に対するインタフェース３６０、例えば無線データ伝送用のインタフェースを備える。一実施形態によると、環境センサ１０２及びディスプレイ１０４は、それぞれ、携帯デバイス１００の背面及び前面に配置されている。

携帯デバイス１００は環境センサ１０２、１０３に結合された読取り部３６２を備え、読取り部３６２は、環境センサ１０２、１０３の画像及び音声データ３６４、３６５を未処理データとして又はすでに前処理されたデータとして読み取るように構成されている。例えば、読取り部３６２は環境センサ１０２、１０３へのインタフェースである。画像及び音声データ３６４、３６５は、環境センサ１０２、１０３によって取り込まれた現実シーンの複製物を表現する。読取り部３６２によって読み取られた画像及び音声データ３６４、３６５は、携帯デバイス１００の決定部３６６によって更に処理される。特に、マーカーデータ１３２及び物体データ１３４は、画像データ３６４、及び任意選択的に音声データ３６５から決定、例えば抽出される。マーカーデータ１３２は、現実シーン内に配置されたマーカーの、例えば図１に示す幾何学的マーカー１１２の複製物及び位置決めを表現する。物体データ１３４は、現実シーン内のマーカーの周囲に配置された物体の物体部分の複製物及び位置決めを表現する。例えば、物体部分は図１に示す物体部分１１４であってもよく、物体部分は自然マーカーとして使用してもよい。この目的のため、決定部３６６は、最初に現実シーンの複製物内でマーカーの複製物を認識し、次に画像及び音声データ３６４、３６５からマーカーの複製物に関連付けられたマーカーデータを決定するように構成されている。それに対応して、決定部３６６は、最初に物体部分の１つ以上の適切な複製物が現実シーンの複製物内にあることを認識し、次に適切な物体部分の複製物（単数又は複数）に関連付けられた物体データが画像及び音声データ３６４、３６５からであることを判定するように構成されている。一実施形態によると、これには画像データ３６４のみが使用され、音声データ３６５は使用されない。

この実施形態によると、マーカーデータ１３２は外部インタフェース３６０に提供され、例えば外部機器の形態である外部デバイス１３０に、外部インタフェース３６０、例えば無線インタフェースを介して伝送される。外部デバイス１３０は、関連付け規則を使用して、複数の仮想画像及び音声データから、マーカーデータ１３２に関連付けられた仮想画像及び音声データ１４０を選択し、それを携帯デバイス１００の外部インタフェース３６０に提供するように構成された、選択部３６８を備える。代替形態として、画像及び音声データ１３２の一部のみが、又は更に処理された形態の画像及び音声データ１３２が、読取り部３６０及び／又は外部デバイス１３０に提供されてもよい。外部インタフェース３６０は、仮想画像及び音声データ１４０を決定部３７０に提供するように構成されている。仮想画像及び音声データ１４０は、仮想画像を表現するための表現命令、及び仮想画像又は物体の複製物を位置決めするための位置決め命令、並びに仮想音声データの再生位置決めのための命令を含む。決定部３７０は更に、マーカーデータ１３２及び物体データ１３４を受信するように構成されている。決定部３７０は、マーカーデータ１３２、物体データ１３４、並びに仮想画像及び音声データ１４０を用いて、仮想画像を、物体部分の複製物に対して位置決めするための位置決め規則１４２を決定するように構成されている。

この実施形態によると、携帯デバイス１００は表示デバイス１０４を制御するための制御部３７２を備える。制御部３７２は、重ね合わされた画像及び音声データ３７６を、例えば表示デバイス１０４、１０５で示すディスプレイを制御するための制御信号の形態で、ディスプレイ１０４に提供するように構成されている。本明細書では、重ね合わされた画像及び音声データ３７６は、現実シーンの更なる複製物に仮想画像及び音声データを重ね合わせたものを表現する。制御部３７２は、決定部３７０、更なる画像及び音声データ３７６、及び更なる物体データ３７８によって提供される位置決め規則１４２を用いて、重ね合わされた画像及び音声データ３７６を作成するように構成されている。更なる画像及び音声データ３７６は、環境センサ１０２、１０３によって取り込まれた現実シーンの更なる複製物を表現する。更なる物体データ３７８は、少なくとも現実シーンの更なる複製物内の物体部分の位置決めを含む。

一実施形態によると、位置決め規則１４２は、仮想画像及び音声データ１４０を含む仮想画像を表現する表現命令を含む。代替形態として、表現命令は位置決め規則１４２とは別々に制御部３７２に伝達されてもよい。

一実施形態によると、選択部３６８は携帯デバイス１００の一部である。この場合、外部デバイス１３０は必要なく、外部インタフェース３６０は内部インタフェースとして実現されてもよい。

図３に示すデバイス３６０、３６２、３６６、３７０、３７２は、現実シーンの複製物に仮想画像及び音声データを重ね合わせるための装置３７９のデバイスの例示的配置に過ぎない。例えば、現実シーンの複製物を仮想画像及び音声データと重ね合わせるための方法の方法ステップを実現するために、デバイス３６０、３６２、３６６、３７０、３７２の一部又は全てを組み合わせて、より大きなユニットを形成してもよい。

図４は一実施形態による、現実シーンの複製物を仮想画像及び音声データと重ね合わせるための方法のフローチャートを示す。方法は、前述の図面に基づき説明した携帯デバイスのデバイスを使用して実行してもよい。

ステップ４８０では、携帯デバイスの環境センサによって取り込まれた、現実シーンの複製物を表現する画像及び音声データが読み込まれる。その画像及び音声データは、任意選択の先行するステップ４８２において環境センサによって取り込まれていた場合がある。ステップ４８４では、現実シーン内に配置されたマーカーの、複製物及び位置決めを表現するマーカーデータが、画像及び音声データから決定される。それに対応して、ステップ４８６では、現実シーン内のマーカーの周囲環境内に配置された物体の物体部分の、複製物及び位置決めを表現する物体データが、画像及び音声データから決定される。ステップ４８８では、仮想画像及び音声データが読み込まれる。仮想画像及び音声データは、複数の仮想画像及び音声データからマーカーデータを使用して選択された画像及び音声データを表現し、かつ仮想画像を表現するための表現命令と、仮想画像を位置決めするため並びに音声データを再生するための位置決め命令とを含む。携帯デバイス上で又は外部デバイス上で実行してもよい、任意選択のステップ４９０では、仮想画像及び音声データは、マーカーデータを使用して選択される。ステップ４９２では、物体部分の複製物に対して、仮想画像及び音声データを表現するのに適した位置決め規則が、例えば現実シーンの更なる複製物の重ね合わせとしての、マーカーデータ、物体データ、並びに仮想画像及び音声データを使用して、確認される。

任意選択のステップ４９４では、位置決め規則を用いて、現実シーンの更なる複製物に仮想画像及び音声データを重ね合わせたものを、例えば携帯デバイスの表示及び再生デバイス上に表現させる。

例えば、ステップ４９４は、現実シーンの更なる複製物を表現する更なる画像及び音声データを読み取るステップ４９６と、更なる画像及び音声データから物体部分の更なる複製物の位置決めを決定するステップ４９８と、更なる画像及び音声データ、物体部分の更なる複製物、及び位置決め規則を使用して、重ね合わされた画像及び音声データを作成するステップ４９９と、を含んでもよく、
重ね合わされた画像及び音声データは、現実シーンの更なる複製物に仮想画像及び音声データを重ね合わせたものを表現する。位置決めを決定するステップでは、現実シーンの更なる複製物内での物体部分の更なる光学的かつ音響的な複製物の位置決めを決定することができる。従って、現実シーンの時間的に連続する複製物内の物体部分の複製物を、仮想画像及び音声データに対するアンカー点として使用することができる。重ね合わされた画像及び音声データを作成するステップでは、表現命令を使用して、仮想画像及び音声データを表現してもよい。

ステップ４９４は連続的に繰り返してもよく、位置決め規則は、現実シーンの更なる複製物に仮想画像及び音声データを連続的に重ね合わせるために使用される。位置決め規則は一度決定すれば十分なので、先行するステップを繰り返して実行する必要はない。

一実施形態によると、ステップ４８６では、現実シーン内のマーカーの周囲環境内の、関連付けられた１つ以上の物体のいくかの物体部分、例えば、２つ、３つ、４つ、又はそれ以上の物体部分の複製物及び位置決めを表現する物体データが、画像及び音声データから決定される。このようにして、仮想画像を現実シーンの更なる複製物（単数又は複数）内でアンカー留めするためのアンカー点の数を増加させることができる。この場合、ステップ４９２では、物体部分の光学的かつ音響的な複製物に対して、仮想画像及び音声データを現実シーンの更なる複製物内に表現することが適切となるように、位置決め規則が確認され得る。この表現を実現するために、決定するステップ４９８では、更なる画像及び音声データから、物体部分の個々の複製物の位置決めが決定される。好適には、この場合、たとえ物体部分の複製物の全てが更なる画像及び音声データを含むとは限らなくても、仮想画像及び音声データ内に埋め込まれた要求に従って、仮想画像及び音声データを依然として位置決めすることができる。

一実施形態によると、ステップ４９２では、位置決め規則は、測定デバイス、特に携帯デバイスの加速度センサ、回転センサ、磁力計、ＧＰＳ受信器、又は１つ以上のマイクロフォンの測定値を使用して確認される。

図５は、一実施形態による、２値の輪郭を有するＱＲコード（登録商標）配置用正方形５００を示し、ＱＲコード（登録商標）はマーカーとして用いられている。

ＱＲコード（登録商標）を認識するために、最初に、検査されているカメラ画像のそれぞれの２値化が実行され、それにより画像の全ての画素が単なる白と黒の値に変換される。次いで、得られた画像内で輪郭が、すなわち黒い画素と白い画素との間の直線の境界が検索され、ＱＲコード（登録商標）の３つの配置正方形の視覚的特徴点に対応する形態でフィルタにかけられる。閉じた黒い輪郭５０２が閉じた白い輪郭５０４内にあり、次いで白い輪郭５０４は閉じた黒い輪郭５０６内にある。

ＱＲコード（登録商標）の３つの配置正方形５０２、５０４、５０６がいったん見つかると、これらの間の画素が読み込まれ、予め定められた符号化による黒と白の画素の分布に対応する形でビット列が決定され、ビット列は次いで文字列又はＵＲＬに変換される。

次のステップでは、カメラに対するＱＲコード（登録商標）の位置が決定される。例えば、透視ｎ点法「ＲＡＮＳＡＣ」として文献で知られる方法が、この目的のために使用される。実質的には、対応する校正を行えばカメラは単純なピンホールカメラモデルで近似できるので、カメラの現実環境における３Ｄ点を２Ｄカメラ画像の対応点にマッピングすることは、線形方程式系によって記述できる。この方程式系は、カメラ画像内の３つのＱＲコード（登録商標）配置正方形の点を十分に含んでおり、互いに対する正方形の位置に関する既知の周辺条件によって拡張され、それにより線形最適化を介して解くことができる。

以下では、図１に関連して用いた参照番号の一部を使用して方法を更に説明する。

例えばコードの形態のマーカー１１２を、例えば認識した時点と厳密に同時に、マーカー１１２のすぐ周囲の現在の環境がカメラ画像１０８内に取り込まれ、カメラ画像から自然特徴点１１４が抽出され、第２の方法に従って新規の自然マーカー１１８が自然特徴点を用いて実時間で作成される。例えば、文献から公知の「ＳＵＲＦ」（頑健な特徴量の高速化（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ））法がこの目的のために使用され、この方法では特徴点が変換不変の形で二次元物体内に保存され、それを以降の画像内で認識することができる。作成時点でＳＵＲＦによって識別された特徴点の全体、並びに特徴点の互いに対する位置決めは、関連付けられた「マーカー」に保存される。加えて、以前に計算された、この画像内でのＱＲコード（登録商標）の位置は、この新規に作成されたマーカーに関連して保存される。

全ての以降のカメラ画像１２０、及びカメラ１０２又はマーカー１１４の移動において、ＡＲコンテンツ１２４の三次元位置決定は、このとき、新規の頑健な自然マーカー１１４に基づき達成され得る。

この目的のため、ＳＵＲＦアルゴリズムが再び以降のカメラ画像の各々に用いられ、カメラ画像内で見つけられた特徴点が以前に保存された特徴点と比較される。十分に一致した場合、初期のＱＲコード（登録商標）にリンクされた、以前に保存されたマーカーが、以降の画像内で認識されると考えられる。それに加えて、その位置が、透視ｎ点法に基づいて再び決定されてもよい（上記参照）。

例えば、拡張現実を表現するために、ＱＲコード（登録商標）の位置及び場所に関する確認されたデータを使用して、例えば３ＤＣＡＤモデルとして存在する仮想物体の表現がそれに対応して変換され、次に仮想カメラを用いてこれら物体の２Ｄ表現が計算される。最後のステップでは、変換された仮想物体の２Ｄビューが現実のカメラ画像上に重ね合わされ、それにより、作成された画像内で、仮想物体が現実環境のカメラ画像内のＱＲコード（登録商標）上に直接存在するような印象がもたらされる。

最初に識別されたＱＲコード（登録商標）に対して、カメラの距離又は回転が増えるにつれて、上述の位置決め方法を必要なだけ何度も繰り返して、新規の「マーカー」を現実環境内に連続的に作成し、それらをＱＲコード（登録商標）に対する相対位置と共に保存することができる。この連続的な繰り返しは、文献では「ＳＬＡＭ」（同時位置決め及び地図作成：ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｔｉｏｎａｎｄＭａｐｐｉｎｇ）として知られている。予測されるシーン（例えば、実質的に平坦な又は凸凹の構造、光沢のある又は粗い材料、静止した又は移動している画像）に応じて、述べられたＳＵＲＦ法とは別に、いくつかの他の特徴点の記述子を使用して、外乱に対して不変な形で特徴点を明確に認識することができる。

従って、仮想画像１２４としての三次元仮想物体の、連続的で安定した表現及び移動、並びに音響的に正しい表現が可能であり、又は、仮想物体が、幾何学的マーカーとは対照的に、たとえ現実シーン１０６内にのみ小型で目立たない形で配置されているだけであっても追跡することができる。

それに加えて、新規に作成されたマーカー１１４の光学的な特殊性は、他のマーカーと比較して、完全に無関係である。なぜなら、ＡＲコンテンツ１２４との関連付けはリンクされたコードによって、すなわちマーカー１１２によってすでに固定されているからである。リンクされたコードからＵＲＬを直接抽出することにより、オンライン特徴点データベースを連続的に検索することを避けることも可能であり、アプリケーション内で識別可能なマーカーの数は、ほぼ無限にまで増加する。更に、以前のＡＲ方法とは対照的に、使用時に直ちに自然ＡＲマーカー１１４を作成することにより、その光学的な外見を頻繁に変化させる物体１００、例えば一日の様々な時刻、又は１年の様々な時期における家の前面でさえも自然マーカー１１４として使用することができる。

３ＤＣＡＤデータは存在しないが、様々な視点からの写真だけがある物体を拡張現実として重ね合わせることは、機能拡張を表す。特に、３ＤＣＡＤデータなしでは仮想物体の変換を実施することはできず、従来方法では、現実環境内に仮想物体が正確な位置で位置決めされている印象を与える、仮想物体の仮想２Ｄ画像を計算することはできないことが課題である。この課題に対する解決策として本明細書で提示するのは、以前に取り込んだ物体の写真、及びそれに伴う取り込み時点で既知である物体に対する取り込みカメラの視野角に基づくだけで、このような印象をもたらす方法である。この目的のため、上述した、カメラに対するＱＲコード（登録商標）の位置及び場所が用いられる。最初に、拡張現実カメラのＱＲコード（登録商標）に対する視野角に最もよく対応する、取り込み時点での視野角を有する画像が、物体の利用可能な画像から選択される。任意選択的に、その視野角に更に良好に対応する新規の画像がいくつかの画像から補間される。この画像はここで、ＱＲコード（登録商標）の拡張現実カメラに対する距離に対応して縮尺変換され、カメラ画像内のＱＲコード（登録商標）の位置に対応して位置決めされ、その結果、両方の画像を合成することにより、以前に撮影した物体が、それ以降に拡張現実カメラで見る環境内に存在している印象を連続的にもたらす。

Claims

現実シーンの光学的かつ音響的な複製物に仮想の三次元又は二次元の画像及び音声データを重ね合わせる方法であって、前記方法は、
複製物データを読み取るステップ（４８０）であって、
前記複製物データは、携帯デバイス（１００）の少なくとも１つの環境センサ（１０２）によって取り込まれた前記現実シーン（１０６）の画像複製物（１０８）を表現する少なくとも画像データ（３６４）を表現する、ステップと、
前記画像データ（３６４）からマーカーデータ（１３２）を決定するステップ（４８４）であって、
前記マーカーデータ（１３２）は、前記現実シーン（１０６）内に配置されたマーカー（１１２）の複製物（１１６）及び位置決めを表現する、ステップと、
前記マーカーデータ（１３２）を使用して、複数（２５２）の仮想画像及び音声データ（１４０）から選択された、画像及び音声データを表現する仮想画像及び音声データ（１４０）を読み取るステップ（４８８）であって、
前記仮想画像及び音声データ（１４０）は、三次元的に定義された物体、及び／又は、仮想複製物（１２４）として様々な角度から取り込まれた物体のキャプチャの選択項目を表現するための表現命令と、前記仮想複製物（１２４）を位置決めするための位置決め命令と、音響データを再生するための位置決め命令と、を含む、ステップと、
前記複製物データ（３６４）から物体データ（１３４）を決定するステップ（４８６）であって、
前記物体データ（１３４）は、三次元複製物（１１８）、又は一連の二次元写真、及び／又は様々な角度からの音声記録、並びに前記現実シーン（１０６）内の前記マーカー（１１２）の周囲に配置された物体（１１０）の物体部分（１１４）の位置決めからなる、ステップと、
前記物体データ（１３４）及び前記仮想画像及び音声データ（１４０）を使用して、前記物体部分（１１４）の前記複製物（１１８）を参照して、前記仮想複製物（１２４）及び前記音響データを表現するための位置決め規則（１４２）を確認するステップ（４９２）と、を含む、方法。
前記読み取るステップ（４８０）において、前記複製物データは更に、前記携帯デバイス（１００）の少なくとも１つの更なる環境センサ（１０３）によって取り込まれた前記現実シーン（１０６）の音響的複製物を表現する音声データ（３６５）を表現する、請求項１に記載の方法。
前記画像データ（３６４）及び／又は前記音声データ（３６５）は、現実の画像及び音声データを表現し、前記物体データ（１３４）は現実の物体データを表現し、前記物体部分（１１４）は現実の物体部分を表現する、請求項１又は２に記載の方法。
前記確認するステップ（４９２）において、前記位置決め規則（１４２）は、前記マーカーデータ（１３２）又は前記マーカーデータ（１３２）の少なくとも一部を使用して確認される、請求項１から３のいずれか一項に記載の方法。
前記読み取るステップ（４８０、４８８）、前記決定するステップ（４８４、４８６）、及び前記確認するステップ（４９２）を連続的に繰り返すステップ（４９２）が、短い時間間隔、特に１秒あたり数回で実施される、請求項１から４のいずれか一項に記載の方法。
前記確認するステップ（４９２）において、前記位置決め規則（１４２）は、測定デバイス、特に前記携帯デバイスの加速度センサ、回転センサ、磁力計、又はＧＰＳ受信器の測定値を使用して確認される、請求項１から５のいずれか一項に記載の方法。
前記マーカーデータ（１３２）の少なくとも一部を外部デバイス（１３０）へのインタフェース（３６０）に提供するステップを含み、仮想画像及び音声データ（１４０）を読み取る前記ステップ（４８８）において、前記仮想画像及び音声データ（１４０）は、前記外部デバイス（１３０）への前記インタフェース（３６０）を介して読み取られる、請求項１から６のいずれか一項に記載の方法。
前記マーカーデータ（１３２）を使用して、前記複数（２５２）の仮想画像及び音声データから、前記仮想画像及び音声データ（１４０）を選択するステップ（４９０）を含む、請求項１から７のいずれか一項に記載の方法。
前記マーカー（１１２）は、前記マーカー（１１２）の識別情報（１３８）を含むマシン可読コードを表現し、マーカーデータ（１３２）を決定する前記決定するステップ（４８４）において、前記マーカー（１１２）の前記識別情報（１３８）は、前記マーカーデータ（１３２）の一部として決定される、請求項１から８のいずれか一項に記載の方法。
前記現実シーン（１０６）の更なる光学的及び音響的複製物（１２０）に前記仮想画像及び音声データ（１２４）を重ね合わせるために、前記位置決め規則（１４２）を使用するステップ（４９４）を含む、請求項１から９のいずれか一項に記載の方法。
前記使用するステップ（４９４）は、更なる画像及び音声データ（３７６）を読み取るステップ（４９５）であって、前記更なる画像及び音声データ（３７６）は、前記携帯デバイス（１００）の前記環境センサ（１０２）によって取り込まれた前記現実シーン（１０６）の前記更なる画像（１２０）を表現する、ステップと、前記更なる画像及び音声データ（３７６）から、前記物体部分（１１４）の更なる複製物（１２２）の位置決めを決定するステップ（４９６）と、前記更なる画像及び音声データ（３７６）、前記物体部分（１１４）の前記更なる複製物（１２２）の前記位置決め、及び前記位置決め規則（１４２）を使用して、重ね合わされた画像及び音声データ（３７４）を作成するステップ（４９７）であって、前記重ね合わされた画像及び音声データ（３７４）は、前記現実シーン（１０６）の前記更なる複製物（１２０）に前記仮想画像及び音声データ（１２４）を重ね合わせたものを表現する、ステップと、を含む、請求項１０に記載の方法。
前記現実シーン（１０６）の前記更なる複製物（１２０）に前記仮想画像及び音声データ（１２４）を重ね合わせたものを、前記携帯デバイス（１００）の表示デバイス（１０４）及び再生デバイス（１０５）を使用して表示するステップ（４９８）を含む、請求項１０又は１１記載の方法。
前記携帯デバイス（１００）の前記少なくとも１つの環境センサ（１０２、１０３）を使用して、前記複製物データ（３６４、３６５）を取り込むステップ（４８２）を含む、請求項１から１２のいずれか一項に記載の方法。
前記マーカー（１１２）の前記複製物（１１６）は前記現実シーン（１０６）の前記複製物（１０８）の１％未満を占める、請求項１から１３のいずれか一項に記載の方法。
現実シーン（１０６）の複製物に仮想画像及び音声データを重ね合わせるための装置（３７９）であって、請求項１から１４のいずれか一項に記載の方法の前記ステップを実現するためのデバイスを備える、装置（３７９）。
請求項１５に記載の装置（３７９）を備える、特にスマートフォンである、携帯デバイス（１００）。
プログラムコードを有するコンピュータプログラム製品であって、前記プログラムコードは、前記コンピュータプログラム製品が装置上で実行されるときに、請求項１から１６のいずれか一項に記載の方法を実施する、コンピュータプログラム製品。