JP2023093170A

JP2023093170A - 携帯端末装置、および、そのプログラム

Info

Publication number: JP2023093170A
Application number: JP2021208638A
Authority: JP
Inventors: 正規加納; Masanori Kano; 直人岡市; Naoto Okaichi; 隼人渡邉; Hayato Watanabe; 淳洗井; Jun Arai
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-07-04

Abstract

【課題】拡張現実や仮想現実において、現実世界と自然に融合した映像を表示する携帯端末装置及びプログラムを提供する。【解決手段】携帯端末装置１は、筐体の正面に設けられ、映像を表示するディスプレイ６と、観察者の視点位置を推定する視点位置推定部１３と、携帯端末装置１の姿勢及び位置を推定する位置姿勢推定部１１と、携帯端末装置１の姿勢及び位置、視点位置に基づいて、ディスプレイ６に表示された映像が観察者の視点位置に合うように、映像を処理する背景映像生成部１４と、を備える。【選択図】図４

Description

本発明は、ビデオシースルー方式の拡張現実（Augmented Reality：AR）、または、仮想現実（Virtual Reality：VR）にて、現実世界と自然に融合した映像を表示する携帯端末装置、および、そのプログラムに関する。

ＡＲとは、現実世界に仮想的な情報を重ねることで現実世界を拡張するための技術である。ＡＲの適用先は広く、エンターテイメント、教育、医療など様々な分野での活用が期待されている。ＡＲを体験するためのデバイスとしては、スマートフォンやタブレットなどの携帯端末装置や、頭部に装着し目の前にディスプレイが配置されるヘッドマウントディスプレイ（Head Mount Display）がある。

ヘッドマウントディスプレイも普及しつつあるが、現状ではヘッドマウントディスプレイより携帯端末装置の方が広く普及している。そのため、個人がＡＲを体験するには、ヘッドマウントディスプレイが使用される場合よりも、携帯端末装置が使用される場合の方が多い。

ヘッドマウントディスプレイの表示方式は、ビデオシースルー方式と光学シースルー方式の２つに大別される。ビデオシースルー方式のヘッドマウントディスプレイは、外界の様子をカメラで撮影し、その映像に仮想物体（仮想世界のＣＧ（Computer Graphic）オブジェクト）を合成してＡＲを実現する。

一方、光学シースルー方式のヘッドマウントディスプレイは、ディスプレイとハーフミラーとが組み合わされて構成される。ユーザは、ハーフミラーを介して外界を視認することができ、このハーフミラーにディスプレイの仮想物体の映像を重ね合わせることで、ＡＲを実現する。両方式は、それぞれ長所と短所がある。

現状の携帯端末装置において、光学シースルー方式のようなＡＲは実現できないため、ビデオシースルー方式でのＡＲとなる。つまり、携帯端末装置は、アウトカメラで外界の様子を撮影し、その映像に仮想物体を合成してＡＲを実現する。非特許文献１には、実時間で映像に三次元の仮想オブジェクトを挿入してアノテーションをつけたり、ユーザがシーンを理解する支援をすることが記載されている。

ディジタル画像処理（改訂新版）,CG-ARTS協会,2015

ヘッドマウントディスプレイを用いたＡＲと比較して、携帯端末装置を用いたＡＲでは画面内の仮想世界と画面外の現実世界に大きなギャップが生じる。

仮想世界と現実世界にギャップが生じる第１の原因は、視点位置に合った正しい映像を見ることができないことである。ヘッドマウントディスプレイでは、観察者の目の前に常にディスプレイがある。そのため、観察者の視点位置とディスプレイ間の位置姿勢の関係性は、常に一定となる。しかし、携帯端末装置では、観察者の視点位置とディスプレイ間の関係性は、常に一定とは限らない。例えば、観察者が携帯端末装置を固定して視点位置を変えた場合、観察者の視点位置とディスプレイ間の関係性は変化する。その場合、本来ならば画面内に見える現実世界の映像は視点位置に応じて変化するべきだが、現状のビデオシースルー方式のＡＲでは視点位置に合った映像を表示していないため、正しい方向の映像は見えない。

仮想世界と現実世界にギャップが生じる第２の原因は、現実世界と仮想世界がシームレスな世界にならないことである。ヘッドマウントディスプレイは、観察者の眼全体をディスプレイで覆う。そのため観察者はディスプレイを通さずに現実世界を見ることはない。しかし、携帯端末装置１では、観察者の所定画角にディスプレイが存在するのみである。そのため観察者は、仮想世界と現実世界を同時に見ることになる。これを、図１２から図１４までを参照して説明する。

図１４では、比較例の携帯端末装置１のディスプレイ６上に拡張現実を表示させたことを示している。携帯端末装置１は、ディスプレイ６とインカメラ５と、背面側のアウトカメラ２（不図示）を備えている。ディスプレイ６上には、アウトカメラ２で、図１２に示す背景の広葉樹７ａと針葉樹７ｂを撮影したビデオ画像がシースルーで表示されており、更に図１３に示す仮想物体８がその上に重畳されている。

携帯端末装置１は、ビデオシースルー方式のため、この携帯端末装置１の背面側のカメラ（アウトカメラ２）で撮影した映像に、仮想物体８を合成することになる。しかし、ディスプレイ６に表示されたアウトカメラ２の映像と、本来そこに見えるべき映像（携帯端末装置１がない場合に直接目で見える映像）の画角が一致しない。そのため、ディスプレイ６に表示された仮想世界と、その背景の現実世界とが繋がって見えず、シームレスな映像とはならない。

これら第１と第２の要因により、携帯端末装置１におけるビデオシースルー方式の拡張現実では現実世界と仮想世界の自然な融合が妨げられている。

そこで、本発明は、現実世界と自然に融合した映像を表示する携帯端末装置、および、そのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る携帯端末装置は、筐体の正面に設けられ、映像を表示するディスプレイと、観察者の視点位置を推定する視点位置推定部と、携帯端末装置の姿勢および位置を推定する位置姿勢推定部と、前記携帯端末装置の姿勢および位置、前記視点位置に基づいて、前記ディスプレイに表示された前記映像が前記観察者の視点位置に合うように、前記映像を処理する背景映像生成部と、を備える構成とした。
かかる構成において、携帯端末装置は、ディスプレイに表示された映像は観察者の視点位置に合うように処理されているので、観察者にとって現実世界と自然に融合した映像として見える。この映像は、拡張現実と仮想現実の何れの映像であってもよい。

なお、本発明は、コンピュータを前記した携帯端末装置として機能させるためのプログラムで実現することもできる。

本発明によれば、例えば仮想現実やビデオシースルー方式の拡張現実にて、現実世界と自然に融合した映像を表示できる。具体的には、観察者の視点位置に合い、かつ、現実世界と仮想世界の間でシームレスな映像でのＡＲとなる。これにより携帯端末装置のディスプレイ内の仮想世界の現実感を高めることができる。

第１の実施形態の携帯端末装置のディスプレイ上に拡張現実を表示させたことを示す図である。携帯端末装置の正面図である。携帯端末装置の背面図である。携帯端末装置の論理ブロック図である。第２の実施形態の携帯端末装置の正面図である。第２の実施形態の携帯端末装置の背面図である。第２の実施形態の携帯端末装置の論理ブロック図である。拡張現実処理のフローチャートである。各座標系を示す図である。基準角とカメラ画角を示す図である。視点カメラの内部パラメータの計算方法を示す図である。現実世界シーンを示す図である。仮想物体の一例を示す図である。比較例の携帯端末装置のディスプレイ上に拡張現実を表示させたことを示す図である。

以降、本発明を実施するための形態を、各図を参照して詳細に説明する。視点追従型ＡＲの実施形態のうち、システム構成や幾何学的関係など全体的な内容について説明し、次に具体的な各処理の詳細について説明する。

図１に示すように、携帯端末装置１は、ディスプレイ６とインカメラ５と、背面側のアウトカメラ２を備えている。ディスプレイ６上には、アウトカメラ２で背景の広葉樹７ａと針葉樹７ｂを撮影した映像（ビデオ画像）がシースルーで表示されており、更に仮想物体８がその上に重畳されている。

携帯端末装置１は、ビデオシースルー方式のため、この携帯端末装置１の背面側のカメラ（アウトカメラ２）で撮影した映像に仮想物体８を合成している。このディスプレイ６に表示されたアウトカメラ２の映像は、本来そこに見えるべき映像（携帯端末装置１がない場合に直接目で見える映像）の画角と一致するように切り出されたものである。そのため、ディスプレイ６に表示された仮想世界と、その背景の現実世界とが繋がって見えるので、シームレスな映像となる。つまり、携帯端末装置１は、現実世界と自然に融合した映像をディスプレイ６に表示している。

《システム構成》
図２に示すように、携帯端末装置１の筐体の正面には、ディスプレイ６とインカメラ５とが設けられている。ディスプレイ６は、例えば液晶や有機ＥＬ（Electro Luminescence）で構成され、各種映像や文字や図形を表示する表示部である。インカメラ５は、正面側の映像や観察者９などを撮影するためのカメラである。インカメラ５が撮影した映像は、この携帯端末装置１のディスプレイ６を観察する観察者９の視点位置を推定する用途などに用いられる。

図３に示すように、携帯端末装置１の筐体の背面には、アウトカメラ２が設けられている。アウトカメラ２は、背面側の映像を撮影するためのカラーカメラである。アウトカメラ２やインカメラ５は、映像を撮影するカラーカメラまたはモノクロカメラであるが、ここではカラーカメラとして考える。これは現在の一般的な携帯端末装置が満たしているハードウェア構成である。

図４に示す第１の実施形態の携帯端末装置１は、ディスプレイ６を備え、インカメラ５と、アウトカメラ２と、位置姿勢推定部１１と、事前校正部１２と、視点位置推定部１３と、背景映像生成部１４と、仮想物体合成部１５とを備える。位置姿勢推定部１１と、事前校正部１２と、視点位置推定部１３と、背景映像生成部１４と、仮想物体合成部１５とは、携帯端末装置１のＣＰＵ（Central Processing Unit）が、不図示の拡張現実プログラムを実行することで具現化される。

事前校正部１２は、インカメラ５とアウトカメラ２の映像に基づき、事前の校正を行うものである。この校正情報は、位置姿勢推定部１１と視点位置推定部１３に出力される。

位置姿勢推定部１１は、校正情報に基づいて校正されたのち、アウトカメラ２の映像などに基づき、この携帯端末装置１の位置と姿勢とを推定するものである。位置姿勢推定部１１が推定した携帯端末装置１の位置と姿勢は、背景映像生成部１４に出力される。

視点位置推定部１３は、校正情報に基づいて校正されたのち、インカメラ５の映像などに基づき、この携帯端末装置１の利用者の視点位置を推定するものである。視点位置推定部１３が推定した利用者の視点位置は、背景映像生成部１４に出力される。

背景映像生成部１４は、携帯端末装置１の位置と姿勢および利用者の視点位置に基づき、背景映像を生成するものである。この背景映像生成部１４が生成した背景映像は、仮想物体合成部１５に出力される。
仮想物体合成部１５は、背景映像に仮想物体８を合成するものである。仮想物体合成部１５が仮想物体８を合成した映像は、ディスプレイ６に出力される。
なお、携帯端末装置１の各手段は、その詳細を後記する。

図５に示すように、第２の実施形態の携帯端末装置１Ａの正面には、ディスプレイ６とインカメラ５Ｌ，５Ｒとが設けられている。インカメラ５Ｌ，５Ｒは、正面側を撮影するためのカラーカメラであり、２つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される。このように２台以上のカラーカメラがある場合、カメラで撮影しているシーンの奥行きが推定できる。インカメラ５Ｌ，５Ｒが撮影した映像は、ディスプレイ６に表示する用途や、この携帯端末装置１Ａの利用者を認証する用途などに用いられる。なお、インカメラ５Ｌ，５Ｒは、一方が映像を撮影するカラーカメラまたはモノクロカメラであり、他方が各背景の深度を計測するデプスカメラであってもよい。

図６に示す第２の実施形態の携帯端末装置１Ａの背面には、アウトカメラ２Ｌ，２Ｒが設けられている。アウトカメラ２Ｌ，２Ｒは、背面側を撮影するためのカラーカメラであり、かつ、２つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される。このように２台以上のカラーカメラがある場合、カメラで撮影しているシーンの奥行きが推定できる。アウトカメラ２Ｌ，２Ｒやインカメラ５Ｌ，５Ｒは、カラーカメラに限られず、モノクロカメラであってもよい。なお、インカメラ５Ｌ，５Ｒは、一方が映像を撮影するカラーカメラまたはモノクロカメラであり、他方が各背景の深度を計測するデプスカメラであってもよい。

図７に示す第２の実施形態の携帯端末装置１Ａは、慣性計測装置３やＧＰＳ（測位装置）４などを備えていてもよく、これらは携帯端末装置１Ａの位置や姿勢の推定に役立つ。以降、基本的には最小ハードウェア構成である第１の実施形態を考え、拡張ハードウェア構成である第２の実施形態を想定する場合は、その機器について記載する。なお、第２の実施形態を想定する場合、インカメラ５Ｌ，５Ｒのことを単にインカメラ５と記載し、アウトカメラ２Ｌ，２Ｒのことを単にアウトカメラ２と記載することがある。

図８のステップＳ１０にて、事前校正部１２は、インカメラ５とアウトカメラ２の映像に基づき、この携帯端末装置１の使用前にインカメラ５やアウトカメラ２の内部パラメータや各座標系間の剛体変換行列（位置姿勢の関係）を推定する。ここで事前校正部１２が推定した情報は、位置姿勢推定部１１、視点位置推定部１３、背景映像生成部１４および仮想物体合成部１５で使用される。

ステップＳ１１にて、位置姿勢推定部１１は、アウトカメラ２で撮影した映像を使い携帯端末装置１の位置姿勢を推定する。なお、位置姿勢推定部１１は、第２の実施形態に記載の慣性計測装置３やＧＰＳ４で取得した情報などを用いて、より正確に携帯端末装置１Ａの位置姿勢を推定してもよい。

ステップＳ１２にて、視点位置推定部１３は、インカメラ５で撮影した映像などを使い観察者９の視点の三次元位置を推定する。これらの処理が終わると、世界座標系Σ_Ｗとアウトカメラ座標系Σ_Ｃｏとインカメラ座標系Σ_Ｃｉと視点座標系Σ_Ｖとディスプレイ座標系Σ_Ｄを変換するための剛体変換行列が既知となる。ここで世界座標系Σ_Ｗとは、背景として撮影されている現実世界の座標系である。アウトカメラ座標系Σ_Ｃｏとは、アウトカメラ２に設定された座標系である。インカメラ座標系Σ_Ｃｉとは、インカメラ５に設定された座標系である。視点座標系Σ_Ｖとは、観察者９の視点に仮想的に設けられた視点カメラ９１によって設定された座標系である。

ステップＳ１３にて、背景映像生成部１４は、これまで推定した情報とアウトカメラ２で撮影した映像から、観察者９の視点位置に合い、かつ、現実世界と仮想世界の間でシームレスな背景映像を生成する。この背景映像は、携帯端末装置１のディスプレイ６に表示する映像において仮想物体８の背景となる映像である。

ステップＳ１４にて、仮想物体合成部１５は、背景映像生成部１４が生成した背景映像に仮想物体８を合成する。この合成画像はディスプレイ６に表示される。
これにより、携帯端末装置１は、ビデオシースルー方式にて、現実世界と自然に融合した背景とこの背景に重畳した仮想物体８の映像をディスプレイ６に表示することができる。これにより観察者９は、現実世界と仮想世界とが自然に融合した拡張現実を体感できる。

《幾何学的関係》
図９には、インカメラ５やアウトカメラ２やディスプレイ６などの座標系が定義されている。世界座標系Σ_Ｗは、基準となる背景の座標系である。ディスプレイ座標系Σ_Ｄは、ディスプレイ６の中心を原点としてディスプレイ面の法線方向をｚ軸とする座標系である。インカメラ座標系Σ_Ｃｉは、インカメラ５で撮影された映像に係る座標系である。アウトカメラ座標系Σ_Ｃｏは、アウトカメラ２で撮影された映像に係る座標系である。

視点座標系Σ_Ｖは、観察者９の視点位置（両眼の中心位置）を原点としディスプレイ座標系Σ_Ｄと同じ姿勢（ｘｙｚ各軸の方向が同じ）である。これらの座標系は、剛体変換行列により相互に変換可能である。剛体変換行列を、事前校正処理、位置姿勢推定処理、視点位置推定処理の順番で求めてゆく。

ここではまず剛体変換行列について説明する。その後、インカメラ５やアウトカメラ２などで使用するカメラ校正と内部パラメータ、三次元点の画像への投影について述べる。

或る座標系Σ_Ａから他の座標系Σ_Ｂへの変換を、剛体変換行列^ＢＭ_Ａで表す。この場合、座標系Σ_Ａにおける三次元点の座標^ＡＸは、式（１）により座標系Σ_Ｂの三次元点の座標^ＢＸに変換される。

ここで、三次元座標Ｘの左上の添え字は座標系を表し、三次元座標Ｘ＝[X,Y,Z]^Tの同次座標は、以下の式（２）となる。なお、Tはベクトルの転置を意味する。

この剛体変換行列^ＢＭ_Ａは、式（３）に示すように、回転行列^ＢＲ_Ａと並進ベクトル^Ｂｔで構成される。

また、剛体変換行列^ＢＭ_Ａは、以下の式（４）が成立する。

さらに、座標系Σ_Ｅがある場合、座標系Σ_ＡからΣ_Ｅへ変換する剛体変換行列^ＥＭ_Ａは、式（５）で計算できる。

カメラ校正とは、或るカメラのカメラパラメータを推定する処理である。カメラパラメータは、或るカメラの位置および姿勢を表す外部パラメータと、このカメラの焦点距離などを表す内部パラメータで構成される。外部パラメータは、世界座標系Σ_Ｗにおける位置と姿勢についての情報であり、世界座標系Σ_Ｗからカメラ座標系Σ_Ｃへ変換する剛体変換行列^ＣＭ_Ｗと等価である。

内部パラメータは、このカメラの焦点距離と画像中心とレンズ歪みで構成される。ｘ方向の焦点距離をｆ_Ｘ、ｙ方向の焦点距離をｆ_Ｙ、ｘ方向の画像中心をｃ_Ｘ、ｙ方向の画像中心をｃ_Ｙとすると、内部パラメータ行列Ｋは、式（６）で示される。

カメラ校正によりカメラパラメータが推定されると、世界座標系Σ_Ｗにおける三次元点をこのカメラの画像へ投影できる。透視投影行列Ｐは、式（７）に示すように、内部パラメータ行列Ｋと剛体変換行列^ＣＭ_Ｗで算出される。

透視投影行列Ｐにより世界座標系Σ_Ｗの座標^ＷＸを画像座標上に投影すると、投影される画像座標ｕ＝[u,v]^Tは、式（８）を満たす。

ここで、ｓはスケール係数を表し、画像座標ｕの同次座標系は、式（９）を満たす。

《事前校正部１２の動作詳細》
事前校正部１２は、各カメラの内部パラメータとレンズ歪み係数、及び座標系間の剛体変換行列を推定する。インカメラ５とアウトカメラ２の内部パラメータとレンズ歪み係数は、既知の校正パターンを使ったZhangの手法（以下文献に記載）を使うことで推定できる。
Z. Zhang, “A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 11, pp. 1330-1334 (2000)

このカメラ校正によりレンズ歪み係数も推定されるため、以降の映像はレンズ歪みが除去されたものとして扱う。

座標系間の剛体変換行列とは、具体的には、ディスプレイ座標系Σ_Ｄからインカメラ座標系Σ_Ｃｉへの剛体変換行列^ＣｉＭ_Ｄと、ディスプレイ座標系Σ_Ｄからアウトカメラ座標系Σ_Ｃｏへの剛体変換行列^ＣｏＭ_Ｄを指す。例えば、剛体変換行列^ＣｉＭ_Ｄと^ＣｏＭ_Ｄは、以下文献に記載の手法により推定することもできる。
A. Delaunoy et al., “Two cameras and a screen: How to calibrate mobile devices? ”, 2nd International Conference on 3D Vision. pp. 123-130 (2014)

他にも簡易的に推定する方法もある。位置関係は定規などで計測し、ディスプレイ座標系Σ_Ｄとインカメラ座標系Σ_Ｃｉは同じ姿勢、アウトカメラ座標系Σ_Ｃｏは、それらの座標系をｙ軸方向に１８０度回転させたものとする。これで剛体変換行列^ＣｉＭ_Ｄと^ＣｏＭ_Ｄは推定できる。

《位置姿勢推定部１１の動作詳細》
位置姿勢推定部１１は、携帯端末装置１の位置と姿勢をSimultaneous Localization and Mapping（SLAM）を用いることで推定する。SLAMとは、ロボットが自己位置と周辺環境を推定するための技術である。位置姿勢推定部１１は、SLAMにより、アウトカメラ２で撮影した映像や、慣性計測装置３やＧＰＳ４などから携帯端末装置１の位置と姿勢を推定する。

この時、アウトカメラ２の内部パラメータが必要となるが、これは事前校正で推定済みである。もし1台のアウトカメラ２でSLAMを実施する場合、スケールの不定となるため実スケールでの位置が推定できない。そのためマーカーや既知の物体を検出して画像上からスケールを知るか、慣性計測装置３などの物理量を直接計測できるセンサと融合する必要がある。この処理により剛体変換行列^ＣｏＭ_Ｗが推定できる。

《視点位置推定部１３の動作詳細》
視点位置推定部１３は、携帯端末装置１のインカメラ５で撮影した映像から、三次元座標での観察者９の視点位置を推定する。携帯端末装置１は、インカメラ５で観察者９の顔画像を取得する。次に視点位置推定部１３は、取得した画像から顔パーツの検出を行う。これらの検出はOpenCV（インターネットURL: https://opencv.org/）やDlib（インターネットURL: http://dlib.net/）に実装されているアルゴリズムで実行できる。

顔パーツの検出ができると、画像内での両眼や鼻や口などの顔パーツの二次元位置（画像座標）がわかる。この顔パーツ三次元化には、事前に設定された一般的な人間の顔パーツの三次元位置と検出された画像内での二次元位置からPerspective n-Point（PnP）問題を解く必要がある。PnP問題の解法は、OpenCVなどに実装されている。PnP問題を解くにはインカメラ５の内部パラメータが必要となるが、これは事前校正にて推定済みである。これによりインカメラ座標系Σ_Ｃｉにおける顔パーツの三次元位置が得られる。

視点位置は、観察者９の両眼の中心位置とする。視点座標系Σ_Ｖは、ディスプレイ座標系Σ_Ｄと同じ姿勢のため、これで剛体変換行列^ＶＭ_Ｃｉは推定できる。もしインカメラ５に２台以上のカメラがある場合、PnP問題を解かなくてもステレオマッチングやデプスカメラにより顔パーツの三次元位置が推定できる。

以上の処理を経て、剛体変換行列^ＣｏＭ_Ｗと、剛体変換行列^ＣｏＭ_Ｄと、剛体変換行列^ＣｉＭ_Ｄと、剛体変換行列^ＶＭ_Ｃｉが既知となる。これらの剛体変換行列を使い計算すれば、図９中のすべての座標系間の剛体変換行列が計算可能である。

《背景映像生成部１４の動作詳細》
背景映像生成部１４は、推定した携帯端末装置１の位置および姿勢、並びに観察者９の視点位置に基づき、アウトカメラ２で撮影した映像から背景映像を生成する。この背景映像は、ディスプレイ６に表示された状態で観察者９の視点位置に合うように生成されている。この映像をディスプレイ６に表示することで、観察者９は、現実世界と仮想世界の間でシームレスな映像を観察できる。以下、アウトカメラ２で撮影された現実世界のシーンの奥行き情報を使用しない場合と、奥行き情報を使用する場合に分けて説明する。

《奥行き情報を使用しない場合》
現実世界シーンの奥行きが未知の場合、背景映像生成部１４は、幾何学的に正確な背景映像を生成できない。正確な映像を生成できるのは一つの平面上のシーンのみであり、その前後の奥行きにあるシーンはずれが生じる。しかし、この平面（以降、基準面と呼ぶ）を適切に設定すれば大きな違和感は生じない。

図１０の基準面７は、背景映像が存在していると仮定する面である。視点カメラ９１は、観察者９の視点位置に疑似的に配置されたカメラである。奥行きの情報がない場合、背景映像生成部１４は、アウトカメラ２で撮影した映像を基準面７に対して、視点カメラ９１へ射影変換することで、疑似的に背景映像を生成する。

基準面７は、任意に設定してよく、その設定を使用中に変更も可能である。ここでは基準面７を表す平面方程式の係数ベクトルを、以下の式（１０）で表す。

ここでｎは法線ベクトルを表す。この式（１０）は、式（１１）の平面方程式と等しい。なお、式（１１）のａ，ｂ，ｃ，ｄは、各項の係数である。

式（１１）の平面方程式から、式（１０）の法線ベクトルｎは、式（１２）で表わされる。

式（１３）で示したように、πと三次元座標Ｘ＝[X,Y,Z]^Tの同次座標の積は、０である。

基準面７は、その後の処理のために、剛体変換行列^ＣｏＭ_Ｖで視点座標系Σ_Vに変換する。例えば、アウトカメラ座標系Σ_Ｃｏで設定された基準面^Ｃｏπは、式（１４）で視点座標系Σ_Vに変換される。

ここで、ベクトルπの左上の添え字は座標系を表し、－Tは逆行列の転置を意味する。
視点カメラ９１の画角は、携帯端末装置１のディスプレイ６の範囲を撮るように設定する。通常、実際に観察者９が見る画角はこの視点カメラ９１の画角よりも広くなる。視点カメラ９１のカメラ座標系は視点座標系Σ_Vと等しい。つまり、視点カメラ９１は、図１０のように視点の正面にディスプレイ６がなくてもパンやチルトはせず、レンズシフトにより撮影方向の調整を行う。

ここで、図１１のように、視点座標系Σ_Vでのディスプレイ６の中心の座標（ディスプレイ座標系Σ_Ｄの原点）を式（１５）で定義する。

そして、ディスプレイ６のｘ方向のサイズをＳ_Ｘ、ｙ方向のサイズをＳ_Ｙとすると、視点カメラ９１の内部パラメータ行列Ｋ_Ｖは、式（１６）となる。

ここで、ディスプレイ６のｘ方向の画素数をＵ、ｙ方向の画素数をＶとしたとき、画素ピッチδ_Ｘとδ_Ｙは、式（１７）で定義される。

アウトカメラ座標系Σ_Ｃｏから視点座標系Σ_Ｖへの剛体変換行列^ＶＭ_Ｃｏは式（１８）で計算できる。

よって、アウトカメラ２で撮影された映像から視点カメラ９１から見た背景映像への射影変換行列Ｈは、以下の式（１９）で求められる。

この式（１９）の射影変換行列Ｈについては、以下の文献に記載されている。

Multiple View Geometry in Computer Vision 2nd Edition, Cambridge University Press, 2004

ここで、アウトカメラ２の内部パラメータ行列Ｋ_Ｃｏと^ＶＲ_Ｃｏと^Ｖｔは、剛体変換行列^ＶＭ_Ｃｏの回転行列と並進ベクトルである。式（２０）のように、この射影変換行列Ｈを、アウトカメラ２で撮影された映像に適用することで、視点カメラ９１から見た映像に変換できる。

ここで、アウトカメラ映像の画像座標はｕ、背景映像の画像座標はｕ′とする。以上で背景映像が生成できる。なお、視点カメラ９１の画素数は、ディスプレイ６の画素数に揃える。

《奥行き情報を使用した場合》
アウトカメラ２が２台以上あり、それらがカラーカメラ２台やカラーカメラとデプスカメラが１台ずつの場合、現実世界シーンの奥行きが推定できる。奥行きが推定できれば、背景映像生成部１４は、任意の視点の位置姿勢のカメラの映像を生成することが可能となる。つまり、アウトカメラ２のカラー映像と、デプスマップから視点カメラ９１の映像を生成できる。この映像は奥行きを使用して生成しているため、奥行きを使用しない場合とは異なり、基準面７以外でも正確な映像が生成できる。ただし、オクルージョンや奥行きの推定誤差などが原因で生成された映像が劣化することがある。視点カメラ９１の内部パラメータは式（１６）、式（１８）と同じである。

《仮想物体合成部１５の動作詳細》
仮想物体合成部１５は、背景映像生成部１４が生成した映像に仮想物体８を合成する。ここでは、世界座標系Σ_Ｗで定義される仮想物体８のＣＧオブジェクトを合成する場合を考える。仮想物体８を定義する座標系は、他の座標系でも問題ないが、それに応じて座標変換が必要になる。

仮想物体合成部１５が、映像中に仮想物体８を投影合成するための方法は、式（２１）により透視投影行列Ｐ_Ｖを計算し、式（２２）により仮想物体８を背景映像に投影することで実現される。透視投影行列Ｐ_Ｖは、世界座標系Σ_Ｗにおける三次元点を背景映像へ投影する行列である。

式（２１）の透視投影行列Ｐ_Ｖの投影先は、背景映像である。このため、式（７）の剛体変換行列^ＣＭ_Ｗに代えて、剛体変換行列^ＶＭ_Ｗを使っている。
透視投影行列Ｐ_Ｖにより世界座標系Σ_Ｗの座標^ＷＸを、背景映像の画像座標上に投影すると、投影される画像座標ｕ＝[u,v]^Tは、式（２２）を満たす。

ここで、ｓはスケール係数を表し、画像座標ｕの同次座標系は、式（２３）を満たす。

ここでは仮想物体合成を一連の処理の最後に実施したが、従来のＡＲの様にアウトカメラ２で撮影したそのままの映像に仮想物体８を合成して、その後にアウトカメラ座標系Σ_Ｃｏから視点座標系Σ_Ｖへ視点を変換する射影変換をしてもよい。つまり、図８のフローチャートにおいて、ステップＳ１３の背景映像生成処理と、ステップＳ１４の仮想物体合成処理の順番を逆にしてもよい。

以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

《仮想現実への適用》
ここまでＡＲへの適用について述べたが、仮想現実（Virtual Reality：VR）へも適用可能である。ＶＲにおいて、カメラで撮影した映像に合成しないため、現実世界と仮想世界をシームレスに繋げる必要はない。従来のＶＲに、本発明の視点追従技術を適用することで、観察者９は、自身の視点位置に応じた仮想世界のみの映像を見ることができる。つまり携帯端末装置は、現実世界と自然に融合した仮想世界の映像を表示することができる。

前記した実施形態では、携帯端末装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した携帯端末装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

１，１Ａ携帯端末装置
２，２Ｌ，２Ｒアウトカメラ
３慣性計測装置
４ＧＰＳ（測位装置）
５，５Ｌ，５Ｒインカメラ
６ディスプレイ
７基準面
７ａ広葉樹
７ｂ針葉樹
８仮想物体
１１位置姿勢推定部
１２事前校正部
１３視点位置推定部
１４背景映像生成部
１５仮想物体合成部

Claims

筐体の正面に設けられ、映像を表示するディスプレイと、
観察者の視点位置を推定する視点位置推定部と、
携帯端末装置の姿勢および位置を推定する位置姿勢推定部と、
前記携帯端末装置の姿勢および位置、前記視点位置に基づいて、前記ディスプレイに表示された前記映像が前記観察者の視点位置に合うように、前記映像を処理する背景映像生成部と、
を備えることを特徴とする携帯端末装置。
前記筐体の背面に設けられ、前記映像を撮影するアウトカメラ、
を更に備えることを特徴とする請求項１に記載の携帯端末装置。
前記アウトカメラは、２つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される、
ことを特徴とする請求項２に記載の携帯端末装置。
前記アウトカメラは、前記映像を撮影するカメラと各背景の深度を計測するデプスカメラの組み合わせとして構成される、
ことを特徴とする請求項２に記載の携帯端末装置。
前記背景映像生成部が生成した映像に、仮想的に配置された仮想物体を合成する仮想物体合成部、
を更に備えることを特徴とする請求項１に記載の携帯端末装置。
前記視点位置推定部は、前記筐体の正面に設けられたインカメラを用いて、前記観察者の視点の位置を推定する、
ことを特徴とする請求項１に記載の携帯端末装置。
前記インカメラは、２つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される、
ことを特徴とする請求項６に記載の携帯端末装置。
前記インカメラは、映像を撮影するカメラと各背景の深度を計測するデプスカメラの組み合わせとして構成される、
ことを特徴とする請求項６に記載の携帯端末装置。
前記位置姿勢推定部は、前記アウトカメラで撮影した映像を用いて前記携帯端末装置の位置および姿勢を推定する、
ことを特徴とする請求項２に記載の携帯端末装置。
前記位置姿勢推定部は、慣性計測装置または測位装置を用いて前記携帯端末装置の位置および姿勢を推定する、
ことを特徴とする請求項１に記載の携帯端末装置。
コンピュータを、請求項１から請求項１０の何れか一項に記載の携帯端末装置として機能させるためのプログラム。