JP2023093170A - 携帯端末装置、および、そのプログラム - Google Patents
携帯端末装置、および、そのプログラム Download PDFInfo
- Publication number
- JP2023093170A JP2023093170A JP2021208638A JP2021208638A JP2023093170A JP 2023093170 A JP2023093170 A JP 2023093170A JP 2021208638 A JP2021208638 A JP 2021208638A JP 2021208638 A JP2021208638 A JP 2021208638A JP 2023093170 A JP2023093170 A JP 2023093170A
- Authority
- JP
- Japan
- Prior art keywords
- camera
- terminal device
- mobile terminal
- image
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 16
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 14
- 230000003190 augmentative effect Effects 0.000 abstract description 11
- 239000011159 matrix material Substances 0.000 description 43
- 230000009466 transformation Effects 0.000 description 36
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001131 transforming effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】拡張現実や仮想現実において、現実世界と自然に融合した映像を表示する携帯端末装置及びプログラムを提供する。【解決手段】携帯端末装置1は、筐体の正面に設けられ、映像を表示するディスプレイ6と、観察者の視点位置を推定する視点位置推定部13と、携帯端末装置1の姿勢及び位置を推定する位置姿勢推定部11と、携帯端末装置1の姿勢及び位置、視点位置に基づいて、ディスプレイ6に表示された映像が観察者の視点位置に合うように、映像を処理する背景映像生成部14と、を備える。【選択図】図4
Description
本発明は、ビデオシースルー方式の拡張現実(Augmented Reality:AR)、または、仮想現実(Virtual Reality:VR)にて、現実世界と自然に融合した映像を表示する携帯端末装置、および、そのプログラムに関する。
ARとは、現実世界に仮想的な情報を重ねることで現実世界を拡張するための技術である。ARの適用先は広く、エンターテイメント、教育、医療など様々な分野での活用が期待されている。ARを体験するためのデバイスとしては、スマートフォンやタブレットなどの携帯端末装置や、頭部に装着し目の前にディスプレイが配置されるヘッドマウントディスプレイ(Head Mount Display)がある。
ヘッドマウントディスプレイも普及しつつあるが、現状ではヘッドマウントディスプレイより携帯端末装置の方が広く普及している。そのため、個人がARを体験するには、ヘッドマウントディスプレイが使用される場合よりも、携帯端末装置が使用される場合の方が多い。
ヘッドマウントディスプレイの表示方式は、ビデオシースルー方式と光学シースルー方式の2つに大別される。ビデオシースルー方式のヘッドマウントディスプレイは、外界の様子をカメラで撮影し、その映像に仮想物体(仮想世界のCG(Computer Graphic)オブジェクト)を合成してARを実現する。
一方、光学シースルー方式のヘッドマウントディスプレイは、ディスプレイとハーフミラーとが組み合わされて構成される。ユーザは、ハーフミラーを介して外界を視認することができ、このハーフミラーにディスプレイの仮想物体の映像を重ね合わせることで、ARを実現する。両方式は、それぞれ長所と短所がある。
現状の携帯端末装置において、光学シースルー方式のようなARは実現できないため、ビデオシースルー方式でのARとなる。つまり、携帯端末装置は、アウトカメラで外界の様子を撮影し、その映像に仮想物体を合成してARを実現する。非特許文献1には、実時間で映像に三次元の仮想オブジェクトを挿入してアノテーションをつけたり、ユーザがシーンを理解する支援をすることが記載されている。
ディジタル画像処理(改訂新版),CG-ARTS協会,2015
ヘッドマウントディスプレイを用いたARと比較して、携帯端末装置を用いたARでは画面内の仮想世界と画面外の現実世界に大きなギャップが生じる。
仮想世界と現実世界にギャップが生じる第1の原因は、視点位置に合った正しい映像を見ることができないことである。ヘッドマウントディスプレイでは、観察者の目の前に常にディスプレイがある。そのため、観察者の視点位置とディスプレイ間の位置姿勢の関係性は、常に一定となる。しかし、携帯端末装置では、観察者の視点位置とディスプレイ間の関係性は、常に一定とは限らない。例えば、観察者が携帯端末装置を固定して視点位置を変えた場合、観察者の視点位置とディスプレイ間の関係性は変化する。その場合、本来ならば画面内に見える現実世界の映像は視点位置に応じて変化するべきだが、現状のビデオシースルー方式のARでは視点位置に合った映像を表示していないため、正しい方向の映像は見えない。
仮想世界と現実世界にギャップが生じる第2の原因は、現実世界と仮想世界がシームレスな世界にならないことである。ヘッドマウントディスプレイは、観察者の眼全体をディスプレイで覆う。そのため観察者はディスプレイを通さずに現実世界を見ることはない。しかし、携帯端末装置1では、観察者の所定画角にディスプレイが存在するのみである。そのため観察者は、仮想世界と現実世界を同時に見ることになる。これを、図12から図14までを参照して説明する。
図14では、比較例の携帯端末装置1のディスプレイ6上に拡張現実を表示させたことを示している。携帯端末装置1は、ディスプレイ6とインカメラ5と、背面側のアウトカメラ2(不図示)を備えている。ディスプレイ6上には、アウトカメラ2で、図12に示す背景の広葉樹7aと針葉樹7bを撮影したビデオ画像がシースルーで表示されており、更に図13に示す仮想物体8がその上に重畳されている。
携帯端末装置1は、ビデオシースルー方式のため、この携帯端末装置1の背面側のカメラ(アウトカメラ2)で撮影した映像に、仮想物体8を合成することになる。しかし、ディスプレイ6に表示されたアウトカメラ2の映像と、本来そこに見えるべき映像(携帯端末装置1がない場合に直接目で見える映像)の画角が一致しない。そのため、ディスプレイ6に表示された仮想世界と、その背景の現実世界とが繋がって見えず、シームレスな映像とはならない。
これら第1と第2の要因により、携帯端末装置1におけるビデオシースルー方式の拡張現実では現実世界と仮想世界の自然な融合が妨げられている。
そこで、本発明は、現実世界と自然に融合した映像を表示する携帯端末装置、および、そのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る携帯端末装置は、筐体の正面に設けられ、映像を表示するディスプレイと、観察者の視点位置を推定する視点位置推定部と、携帯端末装置の姿勢および位置を推定する位置姿勢推定部と、前記携帯端末装置の姿勢および位置、前記視点位置に基づいて、前記ディスプレイに表示された前記映像が前記観察者の視点位置に合うように、前記映像を処理する背景映像生成部と、を備える構成とした。
かかる構成において、携帯端末装置は、ディスプレイに表示された映像は観察者の視点位置に合うように処理されているので、観察者にとって現実世界と自然に融合した映像として見える。この映像は、拡張現実と仮想現実の何れの映像であってもよい。
かかる構成において、携帯端末装置は、ディスプレイに表示された映像は観察者の視点位置に合うように処理されているので、観察者にとって現実世界と自然に融合した映像として見える。この映像は、拡張現実と仮想現実の何れの映像であってもよい。
なお、本発明は、コンピュータを前記した携帯端末装置として機能させるためのプログラムで実現することもできる。
本発明によれば、例えば仮想現実やビデオシースルー方式の拡張現実にて、現実世界と自然に融合した映像を表示できる。具体的には、観察者の視点位置に合い、かつ、現実世界と仮想世界の間でシームレスな映像でのARとなる。これにより携帯端末装置のディスプレイ内の仮想世界の現実感を高めることができる。
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。視点追従型ARの実施形態のうち、システム構成や幾何学的関係など全体的な内容について説明し、次に具体的な各処理の詳細について説明する。
図1に示すように、携帯端末装置1は、ディスプレイ6とインカメラ5と、背面側のアウトカメラ2を備えている。ディスプレイ6上には、アウトカメラ2で背景の広葉樹7aと針葉樹7bを撮影した映像(ビデオ画像)がシースルーで表示されており、更に仮想物体8がその上に重畳されている。
携帯端末装置1は、ビデオシースルー方式のため、この携帯端末装置1の背面側のカメラ(アウトカメラ2)で撮影した映像に仮想物体8を合成している。このディスプレイ6に表示されたアウトカメラ2の映像は、本来そこに見えるべき映像(携帯端末装置1がない場合に直接目で見える映像)の画角と一致するように切り出されたものである。そのため、ディスプレイ6に表示された仮想世界と、その背景の現実世界とが繋がって見えるので、シームレスな映像となる。つまり、携帯端末装置1は、現実世界と自然に融合した映像をディスプレイ6に表示している。
《システム構成》
図2に示すように、携帯端末装置1の筐体の正面には、ディスプレイ6とインカメラ5とが設けられている。ディスプレイ6は、例えば液晶や有機EL(Electro Luminescence)で構成され、各種映像や文字や図形を表示する表示部である。インカメラ5は、正面側の映像や観察者9などを撮影するためのカメラである。インカメラ5が撮影した映像は、この携帯端末装置1のディスプレイ6を観察する観察者9の視点位置を推定する用途などに用いられる。
図2に示すように、携帯端末装置1の筐体の正面には、ディスプレイ6とインカメラ5とが設けられている。ディスプレイ6は、例えば液晶や有機EL(Electro Luminescence)で構成され、各種映像や文字や図形を表示する表示部である。インカメラ5は、正面側の映像や観察者9などを撮影するためのカメラである。インカメラ5が撮影した映像は、この携帯端末装置1のディスプレイ6を観察する観察者9の視点位置を推定する用途などに用いられる。
図3に示すように、携帯端末装置1の筐体の背面には、アウトカメラ2が設けられている。アウトカメラ2は、背面側の映像を撮影するためのカラーカメラである。アウトカメラ2やインカメラ5は、映像を撮影するカラーカメラまたはモノクロカメラであるが、ここではカラーカメラとして考える。これは現在の一般的な携帯端末装置が満たしているハードウェア構成である。
図4に示す第1の実施形態の携帯端末装置1は、ディスプレイ6を備え、インカメラ5と、アウトカメラ2と、位置姿勢推定部11と、事前校正部12と、視点位置推定部13と、背景映像生成部14と、仮想物体合成部15とを備える。位置姿勢推定部11と、事前校正部12と、視点位置推定部13と、背景映像生成部14と、仮想物体合成部15とは、携帯端末装置1のCPU(Central Processing Unit)が、不図示の拡張現実プログラムを実行することで具現化される。
事前校正部12は、インカメラ5とアウトカメラ2の映像に基づき、事前の校正を行うものである。この校正情報は、位置姿勢推定部11と視点位置推定部13に出力される。
位置姿勢推定部11は、校正情報に基づいて校正されたのち、アウトカメラ2の映像などに基づき、この携帯端末装置1の位置と姿勢とを推定するものである。位置姿勢推定部11が推定した携帯端末装置1の位置と姿勢は、背景映像生成部14に出力される。
視点位置推定部13は、校正情報に基づいて校正されたのち、インカメラ5の映像などに基づき、この携帯端末装置1の利用者の視点位置を推定するものである。視点位置推定部13が推定した利用者の視点位置は、背景映像生成部14に出力される。
背景映像生成部14は、携帯端末装置1の位置と姿勢および利用者の視点位置に基づき、背景映像を生成するものである。この背景映像生成部14が生成した背景映像は、仮想物体合成部15に出力される。
仮想物体合成部15は、背景映像に仮想物体8を合成するものである。仮想物体合成部15が仮想物体8を合成した映像は、ディスプレイ6に出力される。
なお、携帯端末装置1の各手段は、その詳細を後記する。
仮想物体合成部15は、背景映像に仮想物体8を合成するものである。仮想物体合成部15が仮想物体8を合成した映像は、ディスプレイ6に出力される。
なお、携帯端末装置1の各手段は、その詳細を後記する。
図5に示すように、第2の実施形態の携帯端末装置1Aの正面には、ディスプレイ6とインカメラ5L,5Rとが設けられている。インカメラ5L,5Rは、正面側を撮影するためのカラーカメラであり、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される。このように2台以上のカラーカメラがある場合、カメラで撮影しているシーンの奥行きが推定できる。インカメラ5L,5Rが撮影した映像は、ディスプレイ6に表示する用途や、この携帯端末装置1Aの利用者を認証する用途などに用いられる。なお、インカメラ5L,5Rは、一方が映像を撮影するカラーカメラまたはモノクロカメラであり、他方が各背景の深度を計測するデプスカメラであってもよい。
図6に示す第2の実施形態の携帯端末装置1Aの背面には、アウトカメラ2L,2Rが設けられている。アウトカメラ2L,2Rは、背面側を撮影するためのカラーカメラであり、かつ、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される。このように2台以上のカラーカメラがある場合、カメラで撮影しているシーンの奥行きが推定できる。アウトカメラ2L,2Rやインカメラ5L,5Rは、カラーカメラに限られず、モノクロカメラであってもよい。なお、インカメラ5L,5Rは、一方が映像を撮影するカラーカメラまたはモノクロカメラであり、他方が各背景の深度を計測するデプスカメラであってもよい。
図7に示す第2の実施形態の携帯端末装置1Aは、慣性計測装置3やGPS(測位装置)4などを備えていてもよく、これらは携帯端末装置1Aの位置や姿勢の推定に役立つ。以降、基本的には最小ハードウェア構成である第1の実施形態を考え、拡張ハードウェア構成である第2の実施形態を想定する場合は、その機器について記載する。なお、第2の実施形態を想定する場合、インカメラ5L,5Rのことを単にインカメラ5と記載し、アウトカメラ2L,2Rのことを単にアウトカメラ2と記載することがある。
図8のステップS10にて、事前校正部12は、インカメラ5とアウトカメラ2の映像に基づき、この携帯端末装置1の使用前にインカメラ5やアウトカメラ2の内部パラメータや各座標系間の剛体変換行列(位置姿勢の関係)を推定する。ここで事前校正部12が推定した情報は、位置姿勢推定部11、視点位置推定部13、背景映像生成部14および仮想物体合成部15で使用される。
ステップS11にて、位置姿勢推定部11は、アウトカメラ2で撮影した映像を使い携帯端末装置1の位置姿勢を推定する。なお、位置姿勢推定部11は、第2の実施形態に記載の慣性計測装置3やGPS4で取得した情報などを用いて、より正確に携帯端末装置1Aの位置姿勢を推定してもよい。
ステップS12にて、視点位置推定部13は、インカメラ5で撮影した映像などを使い観察者9の視点の三次元位置を推定する。これらの処理が終わると、世界座標系ΣWとアウトカメラ座標系ΣCoとインカメラ座標系ΣCiと視点座標系ΣVとディスプレイ座標系ΣDを変換するための剛体変換行列が既知となる。ここで世界座標系ΣWとは、背景として撮影されている現実世界の座標系である。アウトカメラ座標系ΣCoとは、アウトカメラ2に設定された座標系である。インカメラ座標系ΣCiとは、インカメラ5に設定された座標系である。視点座標系ΣVとは、観察者9の視点に仮想的に設けられた視点カメラ91によって設定された座標系である。
ステップS13にて、背景映像生成部14は、これまで推定した情報とアウトカメラ2で撮影した映像から、観察者9の視点位置に合い、かつ、現実世界と仮想世界の間でシームレスな背景映像を生成する。この背景映像は、携帯端末装置1のディスプレイ6に表示する映像において仮想物体8の背景となる映像である。
ステップS14にて、仮想物体合成部15は、背景映像生成部14が生成した背景映像に仮想物体8を合成する。この合成画像はディスプレイ6に表示される。
これにより、携帯端末装置1は、ビデオシースルー方式にて、現実世界と自然に融合した背景とこの背景に重畳した仮想物体8の映像をディスプレイ6に表示することができる。これにより観察者9は、現実世界と仮想世界とが自然に融合した拡張現実を体感できる。
これにより、携帯端末装置1は、ビデオシースルー方式にて、現実世界と自然に融合した背景とこの背景に重畳した仮想物体8の映像をディスプレイ6に表示することができる。これにより観察者9は、現実世界と仮想世界とが自然に融合した拡張現実を体感できる。
《幾何学的関係》
図9には、インカメラ5やアウトカメラ2やディスプレイ6などの座標系が定義されている。世界座標系ΣWは、基準となる背景の座標系である。ディスプレイ座標系ΣDは、ディスプレイ6の中心を原点としてディスプレイ面の法線方向をz軸とする座標系である。インカメラ座標系ΣCiは、インカメラ5で撮影された映像に係る座標系である。アウトカメラ座標系ΣCoは、アウトカメラ2で撮影された映像に係る座標系である。
図9には、インカメラ5やアウトカメラ2やディスプレイ6などの座標系が定義されている。世界座標系ΣWは、基準となる背景の座標系である。ディスプレイ座標系ΣDは、ディスプレイ6の中心を原点としてディスプレイ面の法線方向をz軸とする座標系である。インカメラ座標系ΣCiは、インカメラ5で撮影された映像に係る座標系である。アウトカメラ座標系ΣCoは、アウトカメラ2で撮影された映像に係る座標系である。
視点座標系ΣVは、観察者9の視点位置(両眼の中心位置)を原点としディスプレイ座標系ΣDと同じ姿勢(xyz各軸の方向が同じ)である。これらの座標系は、剛体変換行列により相互に変換可能である。剛体変換行列を、事前校正処理、位置姿勢推定処理、視点位置推定処理の順番で求めてゆく。
ここではまず剛体変換行列について説明する。その後、インカメラ5やアウトカメラ2などで使用するカメラ校正と内部パラメータ、三次元点の画像への投影について述べる。
カメラ校正とは、或るカメラのカメラパラメータを推定する処理である。カメラパラメータは、或るカメラの位置および姿勢を表す外部パラメータと、このカメラの焦点距離などを表す内部パラメータで構成される。外部パラメータは、世界座標系ΣWにおける位置と姿勢についての情報であり、世界座標系ΣWからカメラ座標系ΣCへ変換する剛体変換行列CMWと等価である。
内部パラメータは、このカメラの焦点距離と画像中心とレンズ歪みで構成される。x方向の焦点距離をfX、y方向の焦点距離をfY、x方向の画像中心をcX、y方向の画像中心をcYとすると、内部パラメータ行列Kは、式(6)で示される。
カメラ校正によりカメラパラメータが推定されると、世界座標系ΣWにおける三次元点をこのカメラの画像へ投影できる。透視投影行列Pは、式(7)に示すように、内部パラメータ行列Kと剛体変換行列CMWで算出される。
《事前校正部12の動作詳細》
事前校正部12は、各カメラの内部パラメータとレンズ歪み係数、及び座標系間の剛体変換行列を推定する。インカメラ5とアウトカメラ2の内部パラメータとレンズ歪み係数は、既知の校正パターンを使ったZhangの手法(以下文献に記載)を使うことで推定できる。
Z. Zhang, “A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 11, pp. 1330-1334 (2000)
事前校正部12は、各カメラの内部パラメータとレンズ歪み係数、及び座標系間の剛体変換行列を推定する。インカメラ5とアウトカメラ2の内部パラメータとレンズ歪み係数は、既知の校正パターンを使ったZhangの手法(以下文献に記載)を使うことで推定できる。
Z. Zhang, “A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 11, pp. 1330-1334 (2000)
このカメラ校正によりレンズ歪み係数も推定されるため、以降の映像はレンズ歪みが除去されたものとして扱う。
座標系間の剛体変換行列とは、具体的には、ディスプレイ座標系ΣDからインカメラ座標系ΣCiへの剛体変換行列CiMDと、ディスプレイ座標系ΣDからアウトカメラ座標系ΣCoへの剛体変換行列CoMDを指す。例えば、剛体変換行列CiMDとCoMDは、以下文献に記載の手法により推定することもできる。
A. Delaunoy et al., “Two cameras and a screen: How to calibrate mobile devices? ”, 2nd International Conference on 3D Vision. pp. 123-130 (2014)
A. Delaunoy et al., “Two cameras and a screen: How to calibrate mobile devices? ”, 2nd International Conference on 3D Vision. pp. 123-130 (2014)
他にも簡易的に推定する方法もある。位置関係は定規などで計測し、ディスプレイ座標系ΣDとインカメラ座標系ΣCiは同じ姿勢、アウトカメラ座標系ΣCoは、それらの座標系をy軸方向に180度回転させたものとする。これで剛体変換行列CiMDとCoMDは推定できる。
《位置姿勢推定部11の動作詳細》
位置姿勢推定部11は、携帯端末装置1の位置と姿勢をSimultaneous Localization and Mapping(SLAM)を用いることで推定する。SLAMとは、ロボットが自己位置と周辺環境を推定するための技術である。位置姿勢推定部11は、SLAMにより、アウトカメラ2で撮影した映像や、慣性計測装置3やGPS4などから携帯端末装置1の位置と姿勢を推定する。
位置姿勢推定部11は、携帯端末装置1の位置と姿勢をSimultaneous Localization and Mapping(SLAM)を用いることで推定する。SLAMとは、ロボットが自己位置と周辺環境を推定するための技術である。位置姿勢推定部11は、SLAMにより、アウトカメラ2で撮影した映像や、慣性計測装置3やGPS4などから携帯端末装置1の位置と姿勢を推定する。
この時、アウトカメラ2の内部パラメータが必要となるが、これは事前校正で推定済みである。もし1台のアウトカメラ2でSLAMを実施する場合、スケールの不定となるため実スケールでの位置が推定できない。そのためマーカーや既知の物体を検出して画像上からスケールを知るか、慣性計測装置3などの物理量を直接計測できるセンサと融合する必要がある。この処理により剛体変換行列CoMWが推定できる。
《視点位置推定部13の動作詳細》
視点位置推定部13は、携帯端末装置1のインカメラ5で撮影した映像から、三次元座標での観察者9の視点位置を推定する。携帯端末装置1は、インカメラ5で観察者9の顔画像を取得する。次に視点位置推定部13は、取得した画像から顔パーツの検出を行う。これらの検出はOpenCV(インターネットURL: https://opencv.org/)やDlib(インターネットURL: http://dlib.net/)に実装されているアルゴリズムで実行できる。
視点位置推定部13は、携帯端末装置1のインカメラ5で撮影した映像から、三次元座標での観察者9の視点位置を推定する。携帯端末装置1は、インカメラ5で観察者9の顔画像を取得する。次に視点位置推定部13は、取得した画像から顔パーツの検出を行う。これらの検出はOpenCV(インターネットURL: https://opencv.org/)やDlib(インターネットURL: http://dlib.net/)に実装されているアルゴリズムで実行できる。
顔パーツの検出ができると、画像内での両眼や鼻や口などの顔パーツの二次元位置(画像座標)がわかる。この顔パーツ三次元化には、事前に設定された一般的な人間の顔パーツの三次元位置と検出された画像内での二次元位置からPerspective n-Point(PnP)問題を解く必要がある。PnP問題の解法は、OpenCVなどに実装されている。PnP問題を解くにはインカメラ5の内部パラメータが必要となるが、これは事前校正にて推定済みである。これによりインカメラ座標系ΣCiにおける顔パーツの三次元位置が得られる。
視点位置は、観察者9の両眼の中心位置とする。視点座標系ΣVは、ディスプレイ座標系ΣDと同じ姿勢のため、これで剛体変換行列VMCiは推定できる。もしインカメラ5に2台以上のカメラがある場合、PnP問題を解かなくてもステレオマッチングやデプスカメラにより顔パーツの三次元位置が推定できる。
以上の処理を経て、剛体変換行列CoMWと、剛体変換行列CoMDと、剛体変換行列CiMDと、剛体変換行列VMCiが既知となる。これらの剛体変換行列を使い計算すれば、図9中のすべての座標系間の剛体変換行列が計算可能である。
《背景映像生成部14の動作詳細》
背景映像生成部14は、推定した携帯端末装置1の位置および姿勢、並びに観察者9の視点位置に基づき、アウトカメラ2で撮影した映像から背景映像を生成する。この背景映像は、ディスプレイ6に表示された状態で観察者9の視点位置に合うように生成されている。この映像をディスプレイ6に表示することで、観察者9は、現実世界と仮想世界の間でシームレスな映像を観察できる。以下、アウトカメラ2で撮影された現実世界のシーンの奥行き情報を使用しない場合と、奥行き情報を使用する場合に分けて説明する。
背景映像生成部14は、推定した携帯端末装置1の位置および姿勢、並びに観察者9の視点位置に基づき、アウトカメラ2で撮影した映像から背景映像を生成する。この背景映像は、ディスプレイ6に表示された状態で観察者9の視点位置に合うように生成されている。この映像をディスプレイ6に表示することで、観察者9は、現実世界と仮想世界の間でシームレスな映像を観察できる。以下、アウトカメラ2で撮影された現実世界のシーンの奥行き情報を使用しない場合と、奥行き情報を使用する場合に分けて説明する。
《奥行き情報を使用しない場合》
現実世界シーンの奥行きが未知の場合、背景映像生成部14は、幾何学的に正確な背景映像を生成できない。正確な映像を生成できるのは一つの平面上のシーンのみであり、その前後の奥行きにあるシーンはずれが生じる。しかし、この平面(以降、基準面と呼ぶ)を適切に設定すれば大きな違和感は生じない。
現実世界シーンの奥行きが未知の場合、背景映像生成部14は、幾何学的に正確な背景映像を生成できない。正確な映像を生成できるのは一つの平面上のシーンのみであり、その前後の奥行きにあるシーンはずれが生じる。しかし、この平面(以降、基準面と呼ぶ)を適切に設定すれば大きな違和感は生じない。
図10の基準面7は、背景映像が存在していると仮定する面である。視点カメラ91は、観察者9の視点位置に疑似的に配置されたカメラである。奥行きの情報がない場合、背景映像生成部14は、アウトカメラ2で撮影した映像を基準面7に対して、視点カメラ91へ射影変換することで、疑似的に背景映像を生成する。
ここで、ベクトルπの左上の添え字は座標系を表し、-Tは逆行列の転置を意味する。
視点カメラ91の画角は、携帯端末装置1のディスプレイ6の範囲を撮るように設定する。通常、実際に観察者9が見る画角はこの視点カメラ91の画角よりも広くなる。視点カメラ91のカメラ座標系は視点座標系ΣVと等しい。つまり、視点カメラ91は、図10のように視点の正面にディスプレイ6がなくてもパンやチルトはせず、レンズシフトにより撮影方向の調整を行う。
視点カメラ91の画角は、携帯端末装置1のディスプレイ6の範囲を撮るように設定する。通常、実際に観察者9が見る画角はこの視点カメラ91の画角よりも広くなる。視点カメラ91のカメラ座標系は視点座標系ΣVと等しい。つまり、視点カメラ91は、図10のように視点の正面にディスプレイ6がなくてもパンやチルトはせず、レンズシフトにより撮影方向の調整を行う。
この式(19)の射影変換行列Hについては、以下の文献に記載されている。
Multiple View Geometry in Computer Vision 2nd Edition, Cambridge University Press, 2004
Multiple View Geometry in Computer Vision 2nd Edition, Cambridge University Press, 2004
ここで、アウトカメラ2の内部パラメータ行列KCoとVRCoとVtは、剛体変換行列VMCoの回転行列と並進ベクトルである。式(20)のように、この射影変換行列Hを、アウトカメラ2で撮影された映像に適用することで、視点カメラ91から見た映像に変換できる。
ここで、アウトカメラ映像の画像座標はu、背景映像の画像座標はu′とする。以上で背景映像が生成できる。なお、視点カメラ91の画素数は、ディスプレイ6の画素数に揃える。
《奥行き情報を使用した場合》
アウトカメラ2が2台以上あり、それらがカラーカメラ2台やカラーカメラとデプスカメラが1台ずつの場合、現実世界シーンの奥行きが推定できる。奥行きが推定できれば、背景映像生成部14は、任意の視点の位置姿勢のカメラの映像を生成することが可能となる。つまり、アウトカメラ2のカラー映像と、デプスマップから視点カメラ91の映像を生成できる。この映像は奥行きを使用して生成しているため、奥行きを使用しない場合とは異なり、基準面7以外でも正確な映像が生成できる。ただし、オクルージョンや奥行きの推定誤差などが原因で生成された映像が劣化することがある。視点カメラ91の内部パラメータは式(16)、式(18)と同じである。
アウトカメラ2が2台以上あり、それらがカラーカメラ2台やカラーカメラとデプスカメラが1台ずつの場合、現実世界シーンの奥行きが推定できる。奥行きが推定できれば、背景映像生成部14は、任意の視点の位置姿勢のカメラの映像を生成することが可能となる。つまり、アウトカメラ2のカラー映像と、デプスマップから視点カメラ91の映像を生成できる。この映像は奥行きを使用して生成しているため、奥行きを使用しない場合とは異なり、基準面7以外でも正確な映像が生成できる。ただし、オクルージョンや奥行きの推定誤差などが原因で生成された映像が劣化することがある。視点カメラ91の内部パラメータは式(16)、式(18)と同じである。
《仮想物体合成部15の動作詳細》
仮想物体合成部15は、背景映像生成部14が生成した映像に仮想物体8を合成する。ここでは、世界座標系ΣWで定義される仮想物体8のCGオブジェクトを合成する場合を考える。仮想物体8を定義する座標系は、他の座標系でも問題ないが、それに応じて座標変換が必要になる。
仮想物体合成部15は、背景映像生成部14が生成した映像に仮想物体8を合成する。ここでは、世界座標系ΣWで定義される仮想物体8のCGオブジェクトを合成する場合を考える。仮想物体8を定義する座標系は、他の座標系でも問題ないが、それに応じて座標変換が必要になる。
仮想物体合成部15が、映像中に仮想物体8を投影合成するための方法は、式(21)により透視投影行列PVを計算し、式(22)により仮想物体8を背景映像に投影することで実現される。透視投影行列PVは、世界座標系ΣWにおける三次元点を背景映像へ投影する行列である。
式(21)の透視投影行列PVの投影先は、背景映像である。このため、式(7)の剛体変換行列CMWに代えて、剛体変換行列VMWを使っている。
透視投影行列PVにより世界座標系ΣWの座標WXを、背景映像の画像座標上に投影すると、投影される画像座標u=[u,v]Tは、式(22)を満たす。
透視投影行列PVにより世界座標系ΣWの座標WXを、背景映像の画像座標上に投影すると、投影される画像座標u=[u,v]Tは、式(22)を満たす。
ここでは仮想物体合成を一連の処理の最後に実施したが、従来のARの様にアウトカメラ2で撮影したそのままの映像に仮想物体8を合成して、その後にアウトカメラ座標系ΣCoから視点座標系ΣVへ視点を変換する射影変換をしてもよい。つまり、図8のフローチャートにおいて、ステップS13の背景映像生成処理と、ステップS14の仮想物体合成処理の順番を逆にしてもよい。
以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
《仮想現実への適用》
ここまでARへの適用について述べたが、仮想現実(Virtual Reality:VR)へも適用可能である。VRにおいて、カメラで撮影した映像に合成しないため、現実世界と仮想世界をシームレスに繋げる必要はない。従来のVRに、本発明の視点追従技術を適用することで、観察者9は、自身の視点位置に応じた仮想世界のみの映像を見ることができる。つまり携帯端末装置は、現実世界と自然に融合した仮想世界の映像を表示することができる。
ここまでARへの適用について述べたが、仮想現実(Virtual Reality:VR)へも適用可能である。VRにおいて、カメラで撮影した映像に合成しないため、現実世界と仮想世界をシームレスに繋げる必要はない。従来のVRに、本発明の視点追従技術を適用することで、観察者9は、自身の視点位置に応じた仮想世界のみの映像を見ることができる。つまり携帯端末装置は、現実世界と自然に融合した仮想世界の映像を表示することができる。
前記した実施形態では、携帯端末装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した携帯端末装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
1,1A 携帯端末装置
2,2L,2R アウトカメラ
3 慣性計測装置
4 GPS (測位装置)
5,5L,5R インカメラ
6 ディスプレイ
7 基準面
7a 広葉樹
7b 針葉樹
8 仮想物体
11 位置姿勢推定部
12 事前校正部
13 視点位置推定部
14 背景映像生成部
15 仮想物体合成部
2,2L,2R アウトカメラ
3 慣性計測装置
4 GPS (測位装置)
5,5L,5R インカメラ
6 ディスプレイ
7 基準面
7a 広葉樹
7b 針葉樹
8 仮想物体
11 位置姿勢推定部
12 事前校正部
13 視点位置推定部
14 背景映像生成部
15 仮想物体合成部
Claims (11)
- 筐体の正面に設けられ、映像を表示するディスプレイと、
観察者の視点位置を推定する視点位置推定部と、
携帯端末装置の姿勢および位置を推定する位置姿勢推定部と、
前記携帯端末装置の姿勢および位置、前記視点位置に基づいて、前記ディスプレイに表示された前記映像が前記観察者の視点位置に合うように、前記映像を処理する背景映像生成部と、
を備えることを特徴とする携帯端末装置。 - 前記筐体の背面に設けられ、前記映像を撮影するアウトカメラ、
を更に備えることを特徴とする請求項1に記載の携帯端末装置。 - 前記アウトカメラは、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される、
ことを特徴とする請求項2に記載の携帯端末装置。 - 前記アウトカメラは、前記映像を撮影するカメラと各背景の深度を計測するデプスカメラの組み合わせとして構成される、
ことを特徴とする請求項2に記載の携帯端末装置。 - 前記背景映像生成部が生成した映像に、仮想的に配置された仮想物体を合成する仮想物体合成部、
を更に備えることを特徴とする請求項1に記載の携帯端末装置。 - 前記視点位置推定部は、前記筐体の正面に設けられたインカメラを用いて、前記観察者の視点の位置を推定する、
ことを特徴とする請求項1に記載の携帯端末装置。 - 前記インカメラは、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される、
ことを特徴とする請求項6に記載の携帯端末装置。 - 前記インカメラは、映像を撮影するカメラと各背景の深度を計測するデプスカメラの組み合わせとして構成される、
ことを特徴とする請求項6に記載の携帯端末装置。 - 前記位置姿勢推定部は、前記アウトカメラで撮影した映像を用いて前記携帯端末装置の位置および姿勢を推定する、
ことを特徴とする請求項2に記載の携帯端末装置。 - 前記位置姿勢推定部は、慣性計測装置または測位装置を用いて前記携帯端末装置の位置および姿勢を推定する、
ことを特徴とする請求項1に記載の携帯端末装置。 - コンピュータを、請求項1から請求項10の何れか一項に記載の携帯端末装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021208638A JP2023093170A (ja) | 2021-12-22 | 2021-12-22 | 携帯端末装置、および、そのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021208638A JP2023093170A (ja) | 2021-12-22 | 2021-12-22 | 携帯端末装置、および、そのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023093170A true JP2023093170A (ja) | 2023-07-04 |
Family
ID=87000998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021208638A Pending JP2023093170A (ja) | 2021-12-22 | 2021-12-22 | 携帯端末装置、および、そのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023093170A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7467748B1 (ja) | 2023-09-27 | 2024-04-15 | Kddi株式会社 | 表示制御装置、表示システム及びプログラム |
-
2021
- 2021-12-22 JP JP2021208638A patent/JP2023093170A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7467748B1 (ja) | 2023-09-27 | 2024-04-15 | Kddi株式会社 | 表示制御装置、表示システム及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11928838B2 (en) | Calibration system and method to align a 3D virtual scene and a 3D real world for a stereoscopic head-mounted display | |
JP4401727B2 (ja) | 画像表示装置及び方法 | |
JP5872923B2 (ja) | Ar画像処理装置及び方法 | |
WO2010119852A1 (ja) | 任意視点画像合成装置 | |
WO2015068656A1 (ja) | 画像生成装置および画像生成方法 | |
JP5844880B2 (ja) | ヘッドマウントディスプレイ、校正方法及び校正プログラム、並びに記録媒体 | |
JP6732617B2 (ja) | 情報処理装置および画像生成方法 | |
JP3976900B2 (ja) | 視点位置姿勢の決定方法及びカメラ装置 | |
KR20160094190A (ko) | 시선 추적 장치 및 방법 | |
JP2022183177A (ja) | ヘッドマウントディスプレイ装置 | |
CN110969706B (zh) | 增强现实设备及其图像处理方法、系统以及存储介质 | |
TWI501193B (zh) | Computer graphics using AR technology. Image processing systems and methods | |
JP6859447B2 (ja) | 情報処理システムおよび対象物情報取得方法 | |
JP2023093170A (ja) | 携帯端末装置、および、そのプログラム | |
JP7262973B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6266580B2 (ja) | ヘッドマウントディスプレイ、校正方法及び校正プログラム、並びに記録媒体 | |
KR102503976B1 (ko) | 증강현실 영상 보정 장치 및 방법 | |
JP5759439B2 (ja) | 映像コミュニケーションシステム及び映像コミュニケーション方法 | |
JP2004233201A (ja) | 位置姿勢計測方法 | |
JP2006197036A (ja) | 立体画像表示装置および立体画像表示方法 | |
KR100447778B1 (ko) | 포즈추정을 이용한 스테레오/다시점 실감 혼합현실 구현장치 및 그 방법 | |
Yu et al. | Projective Bisector Mirror (PBM): Concept and Rationale | |
JP2019121074A (ja) | Vr空間における自撮り装置、方法、およびプログラム | |
JP7465133B2 (ja) | 情報処理装置、情報処理方法 | |
JP7175715B2 (ja) | 情報処理装置、情報処理方法及びプログラム |