JP6359333B2

JP6359333B2 - テレコミュニケーションシステム

Info

Publication number: JP6359333B2
Application number: JP2014097889A
Authority: JP
Inventors: 大津　誠; 誠大津
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-05-09
Filing date: 2014-05-09
Publication date: 2018-07-18
Anticipated expiration: 2034-05-09
Also published as: JP2015215745A

Description

本発明は、コンピュータで扱うことができる電子データを撮影された映像に合成し、その合成された映像を用いて遠隔地間でコミュニケーションすることができるテレコミュニケーション技術に関する。

例えば遠隔地間で映像と音声とを用いてコミュニケーションを行うテレコミュニケーション装置があり、近年、移動のための時間や費用を抑えるために多く利用されるようになっている。また、コンピュータで扱うことができる電子データを当該装置内でやり取りできるようにし、実写映像とは別にお互いにその画面を共有しながらコミュニケーションを行うことも可能である。

一方、撮影画像に対して所定の領域にあたかも物体が存在しているかのように、ＣＧで生成した物体（仮想的なオブジェクト）を画像内に重畳して表示する拡張現実（ＡＲ）技術が存在する。ＡＲ技術とは、実態のない仮想的なオブジェクトである電子データを実写映像内にあたかも実際に存在しているかの様に、空間的な位置関係を考慮して重畳して表示する技術である。また、このＡＲ技術を遠隔地間で用いた遠隔コミュニケーションの方法について、下記特許文献１に記載されている。

特開平８−１３９９９４号公報

しかしながら、前述のテレコミュニケーション装置では、コンピュータで扱うことができる電子データは遠隔地の撮影映像とは独立した別のウィンドウとして表示されるため、遠隔地の相手の状況と絡めて電子データを確認することが難しい。仮に、画像内に電子データと遠隔地の撮影映像とを一体化して表示した場合であっても、撮影した映像と電子データとの間には空間的な位置において関係が無く、撮影映像と電子データを異なる視点の映像として捉える必要がある。

また、前述の特許文献１による方法では、コンピュータで扱うことができる電子データをあたかも撮影映像内に存在しているかのように重畳し、その映像を用いてコミュニケーションを行うことができるが、その合成映像を享受できるのは一方の利用者のみである。もう一方の利用者はそれを見ることができない。

その理由は、重畳された仮想的なオブジェクトを実体化するためには何らかの画面を通して見る必要があり、重畳される側の利用者はそれを確認することができないためである。仮想的なオブジェクトを見るためには、自分を映す映像（遠隔地の相手が見ている映像と同じ映像）を、別ウィンドウを設けて表示する必要があるという問題がある。

本発明は上述の課題を鑑みてなされたものであり、その目的は、遠隔コミュニケーションにおける利便性を向上させることである。

本発明の一観点によれば、第１の撮像装置と、第１の処理装置と、第１の表示装置と、端末装置である作業端末と、を有する第１のテレコミュニケーション装置と、第２の撮像装置と、第２の処理装置と、第２の表示装置と、を有する第２のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、前記第１の処理装置は、前記第２の撮像装置で取得した撮像画像を受け取ると、前記第１の表示装置に表示し、前記第２の処理装置は、前記第１の撮像装置において取得した撮像画像と、前記第１の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第２の表示装置に表示し、前記作業端末は、前記第２の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、テレコミュニケーションシステムである。

作業端末情報は、表示画面そのもの、あるいは、前記表示画面をレンダリングすることができるアプリケーションのフォーム情報である。
端末姿勢情報は、前記第１の撮影装置から見た回転行列と並進ベクトルを用いて表現される。

本発明によれば、遠隔ビデオコミュニケーションにおいて、撮影された映像の中に違和感なく作業端末で扱う電子データを合成して、遠隔地の相手に送信することができるようになる。また、合成された電子データの上を別の利用者がポインティングするとその内容が遠隔にある作業端末に反映され、遠隔の利用者がどこを指し示しているかが視覚的に分かるようになる。

本発明の一実施の形態によるテレコミュニケーションシステムの外観と利用イメージを示した図である。コミュニケーション端末の一構成例を示す機能ブロック図である。作業端末の一構成例を示す機能ブロック図である。コミュニケーション端末（送信ブロック）の処理の流れを示すフローチャート図である。コミュニケーション端末（受信ブロック）の処理の流れを示すフローチャート図である。作業端末の処理の流れを示すフローチャート図である。ポインタ座標とポインタマークの例を示す図である。マーカーの例を示す図である。作業端末にマーカーを張り付けた例を示す図である。作業端末の画面内にマーカーを表示させた例を示す図である。撮影したマーカーの形状からマーカーの姿勢を算出する方法を説明するための図である。端末画像と撮影画像に端末画像を合成する際の位置を示す図である。撮影画像を解析し合成画像の位置を制御する様子を示す図である。合成画像に撮影画像の一部を重畳させた様子を示す図である。撮影画像（ａ）と端末画像（ｂ）において抽出された特徴点の位置を示す図である。撮影画像（ａ）と端末画像（ｂ）における、仮想的な４つの点を示す図である。端末自身のセンサーで取得した端末の傾きや位置を本システムに合わせた座標系（前述のカメラ座標系）に変換して利用する様子を示す図である。

以下、本発明に係わる実施の形態を、図面を参照して詳細に説明する。なお、各図における表現は理解しやすいように許容できる範囲で誇張して記載しており、実際とは異なる場合がある。
また、以下の説明において、異なる図面においても同じ符号を付した構成は同様の物であるとして、その説明を省略することとする。

（第１の実施の形態）
まず、本発明の第１の実施の形態について、図１〜図１２までを用いて説明する。
＜装置の外観構成例＞
図１は、利用者を含めて撮影した映像と作業で使う端末の表示画面を合成して作成した映像を用いて、遠隔コミュニケーションすることができる本発明の第１の実施形態に関する装置の外観、及び該装置を用いた遠隔コミュニケーションの例を模式的に示した図である。以下、この装置を遠隔コミュニケーション装置と呼び、これを少なくとも２つ設けたシステムを遠隔コミュニケーションシステムＸと称する。

遠隔コミュニケーションシステムＸのうち、本実施の形態による遠隔コミュニケーション装置は、遠隔地の映像を表示するための表示装置１００と、利用者を含めた周辺の映像を撮影する撮影装置１０５と、映像と音声の処理やそれらを送受信することができる処理装置１０６と、利用者が作業を行うための作業端末１０２−１と、から構成される。同様な構成の遠隔コミュニケーション装置（符号１０７は符号１００に、符号１０８は符号１０５に、符号１０９は符号１０６にそれぞれ対応する。但し、利用者１０３−１の作業端末は図示していない。）が遠隔地にも備えられており、これらの装置間で遠隔コミュニケーションを行うことができる。また便宜上、表示装置１００と、撮影装置１０５と、処理装置１０６とをまとめてコミュニケーション端末Ａと呼ぶこととする（利用者１０３−１の側では、１０７、１０８及び１０９に対応し、これをコミュニケーション端末Ｂと称する）。また、ここでは、音声のやり取りに係わる部分（例えば、マイクやスピーカー）については省いているが、基本的には、音声情報を公知の手段で映像情報と同期させるように構成すれば良い。以下の説明でも同様である。

続いて、遠隔コミュニケーション装置を用いた利用シーンの一例について説明する。ここでは、コミュニケーション端末Ａの利用者１０１−１が、作業端末１０２−１を表示装置１００の側に向けて、コミュニケーション端末Ｂの利用者である１０３−１と作業端末１０２―１に表示されている内容に関して会話を行っている様子を示している。

コミュニケーション端末Ｂの利用者１０３−１は、表示画面１０７に映し出された遠隔地のコミュニケーション端末Ａの利用者１０１−２と遠隔地の作業端末１０２−２の画像及び合成された作業端末１０２−１の表示画面１０２−３（以下、「端末画像」と呼ぶ。）を見ながら会話を行うことができる。

また、利用者１０３−１は、合成された表示画面１０２−３の内部をポインティング（１０４）することができ、その様子が利用者１０１−１の作業端末１０２−１の画面の対応する同じ位置に表示される（１０４−１）。これにより、利用者１０１−１はもう一方の利用者１０３−１が指し示している位置を簡単に視認することができる。描画等も同様に視認できるのは言うまでもない。

作業端末１０２−１は外部と無線通信が可能で、図示していない無線通信中継器である無線ルータを介して、処理装置１０６と接続されており、利用者１０１−１が作業端末１０２−１で行なう作業の内容を示す情報（例えば、作業端末１０２−１の表示画面そのもの、あるいは、表示画面をレンダリングすることができるアプリケーションのフォーム情報である。以下、「作業端末情報」と呼ぶこととする。）が、この通信経路を経由して送信される。

無線通信は、例えばWi-Fi Alliance（米国業界団体）によって規定された国際標準規格（IEEE 802.11）のWi-Fi（ワイファイ、Wireless Fidelity）接続によって実現することが可能である。処理装置１０６は、例えば、作業端末１０２−１から送られてくる作業端末情報と撮影カメラ１０５で撮影された映像をそれぞれ別の方式で符号化し、一つの信号に結合したのちに、遠隔地にある処理装置１０９に送信を行う。処理装置１０６で行う符号化に関しては、例えば、カメラで撮影された映像に対してはＨ．２６４（国際標準動画圧縮規格）による符号化が行われ、作業端末１０２−１から送られた作業端末情報に対しては、情報が表示画面そのものである場合には同様にＨ．２６４（但し、撮影映像の符号化とは異なるパラメータにすることも可能）で符号化する。作業端末１０２−１から送られた作業端末情報がフォーム情報の場合はＺＩＰ（汎用の可逆符号化方式）によって符号化することが可能である。但し、符号化方式についてはこれに限定されるものではなく、元の情報より少ない情報に変換（圧縮）することができ、さらに受け取った情報を復元（復号）することができる方式であればよい。また、遠隔地への送信には、汎用の公衆網であるインターネットを介して通信をすることができ、例えばインターネットで標準的に使用されているプロトコルであるＴＣＰ／ＩＰを使用することにより実現できる。なお、通信のプロトコルはＵＤＰ／ＩＰであっても良い。

一方、遠隔地にあるもう一方のコミュニケーション端末Ｂでは、処理装置１０６より送られてきた通信データを受け取ると、元々の符号化されたデータに分割した後に、前述の処理装置１０６で行った符号化処理とは反対の処理（復号）を行い、元の信号を復元する。遠隔地側の処理装置１０９は、復元された撮影映像と作業端末１０２−１の表示画面を後述する方法に従って合成し、表示装置１０７に表示する。

表示装置１０７は例えばタッチパネルになっており、利用者がタッチした位置がわかるようになっている。合成された作業端末１０２−１の端末画像領域１０２−３を利用者１０３−１がタッチすると、後述する座標変換が行われ、作業端末１０２−１の表示画面に対応する座標が処理装置１０９で算出され、もう一方の処理装置１０６を経由して、作業端末１０２−１に送られる。作業端末１０２−１は送られてきたポインタ座標情報等に従い、作業端末１０２−１においてポインタマークを表示して遠隔地においてされたポインティング位置と対応する位置を提示することができる。

＜ブロック構成例＞
次に、本発明の第１の実施の形態におけるコミュニケーション端末と作業端末の構成例について図２と図３に示す機能ブロックを用いて説明する。

コミュニケーション端末Ａは、前述した通り、表示装置１００と撮影装置１０５、及び処理装置１０６からなるが、ここでは主に処理装置１０６の構成例について説明する。
図２に示すように、処理装置１０６（コミュニケーション端末Ｂの処理装置１０９も同様で良い。）は、映像や各種情報を外部に送信する送信ブロック２００と、映像や各種情報を外部より受信する受信ブロック２５０とに、大きく分割することができる。

さらに、送信ブロック２００は、端末姿勢検出部２０１と、符号化部１２０２と、IF１２０３と、受信部１２０４と、符号化部２２０５と、ＩＦ２２０６と、ポインタ座標変換部２０７と、多重化部２０８と、送信部１２０９、及びＩＦ３２１０より構成される。

そして、受信ブロック２５０は、ＩＦ４２５１と、受信部２２５２と、非多重化部２５３と、復号部１２５４と、復号部２２５５と、合成部２５６と、ＩＦ５２５７と、送信部２２５８、及び、ＩＦ６２５９より構成される。

次に、作業端末の構成について図３の機能ブロック図を用いて説明する。作業端末１０２−１（図示していない利用者１０３−１の作業端末も同様で良い。）は、ＣＰＵ３００と、描画部３０１と、送信部３３０２と、ＩＦ７３０３と、ＩＦ８３０４、及び受信部３３０５より構成される。

＜処理フロー＞
次に、コミュニケーション端末および作業端末の処理の流れについて図４から図６までを用いて説明する。尚、コミュニケーション端末の処理フローについては、送信側と受信側を図４と図５に分けて別々に説明する。

[コミュニケーション端末送信側の処理フロー]
まずは、コミュニケーション端末の送信処理について図４を参照しながら説明する。処理装置１０６は、処理が開始されると（開始）、ステップＳ１００とＳ１０３とＳ１０５を例えば同時に起動させる。なお、処理装置１０６の内部には図示しない制御部（ＣＰＵ）が設けられ、処理装置１０６の全体の処理を制御する。

（ステップＳ１００：撮影）処理装置１０６は、外部に接続された撮影装置１０５より撮影画像を受け取り、処理をステップＳ１０１とＳ１０２に進める。

（ステップＳ１０１：符号化１）処理装置１０６は、前述の撮影画像を符号化部１２０２に取り込む。符号化部１２０２は、撮影画像を入力とし、元の符号量よりも少ない情報量になるように符号化（圧縮）を行う。符号化については、前述の通り、例えば動画像符号化に適したＨ２６４を用いて行うことができる。制御ＣＰＵはその後、処理をステップＳ１０６に進める。

（ステップＳ１０２：端末姿勢算出）処理装置１０６は、前述の撮影画像を端末姿勢検出部２０１に取り込む。端末姿勢検出部２０１は、後述の方法により撮影画像から作業端末１０２−１の姿勢（「端末の姿勢」とは、撮影装置１０５から見た作業端末の姿勢で、回転行列と並進ベクトルを用いて表現される。詳細は後述する。以下、「端末姿勢情報」と呼ぶ。）を算出して、結果を多重化部２０８に出力する。制御部（ＣＰＵ）は、その後に、処理をステップＳ１０６に進める。

（ステップＳ１０３：端末情報受信）処理装置１０６は、外部の作業端末１０２−１から作業端末情報をＩＦ１２０３より取り込み、その情報を受信部１２０４に入力する。受信部１２０４は、作業端末情報を、符号化部２２０５に出力する。制御ＣＰＵはその後、処理をステップＳ１０４に進める。

（ステップＳ１０４：符号化２）符号化部２２０５は、入力した作業端末情報が、作業端末の画面そのものである場合は、符号化部１２０２で行う符号化と同様に動画像符号化に適したＨ２６４を用いて行うことができる（但し、符号化のパラメータは異なる設定をしても良い）。符号化部２２０５は、入力した作業端末情報が、アプリケーションのフォーム情報の場合は、可逆圧縮であるＺＩＰなどを用いて圧縮する。これは、符号化データを受け取った側が元の情報と同じものを再現する必要があるためで、可逆の符号化を用いる。符号化部２２０５は、符号化データ（作業端末情報符号）を多重化部２０８に出力する。制御ＣＰＵはその後、処理をステップＳ１０６に進める。

（ステップＳ１０５：ポインタ座標変換）処理装置１０６は、外部に接続の表示装置１００からの画面タッチ位置（以下、「タッチ座標」と呼ぶ）に関する情報をＩＦ２２０６を介してポインタ座標変換部２０７に入力する。ポインタ座標変換部２０７は、ＩＦ２２０６より入力したタッチ座標を後述の方法により作業端末１０２−１に対応した座標に変換する。ポインタ座標変換部２０７は、変換した座標（以下、「ポインタ座標」と呼ぶ）を多重化部２０８に出力する。制御ＣＰＵはその後、処理をステップＳ１０６に進める。

（ステップＳ１０６：多重化）多重化部２０８は、端末姿勢検出部２０１より端末姿勢情報を受け取り、符号化部１２０２より撮影画像符号を受け取り、符号化部２２０５より作業端末情報符号を受け取り、ポインタ座標変換部２０７よりポインタ座標を受け取る。多重化部２０８は、これらを多重化（パッキング）し、一つの信号（以下、「符号化データ」と称する。）にして、送信部１２０９に出力する。制御部（ＣＰＵ）は、その後、処理をステップＳ１０７に進める。

（ステップＳ１０７：送信）送信部１２０９は、多重化部２０８より符号化データを受け取ると、送信用の加工を行い、符号化データをＩＦ３２１０を経由して外部のネットワークに送信する。その後、符号化データは、外部のもう一方の処理装置（例えば、処理装置１０９）に送られる。制御部（ＣＰＵ）は、その後、処理をステップＳ１０８に進める。

（ステップＳ１０８：終了）制御部（ＣＰＵ）は、コミュニケーション端末Ａにおける処理を終了させるか否かを判断し、処理を継続させる場合は、開始直後に戻り、Ｓ１００、Ｓ１０３、Ｓ１０５以降の処理を繰り返し実行させる。制御部（ＣＰＵ）は、処理を終了させる場合、全ての制御を完了させ端末を終了させる。

[コミュニケーション端末受信側の処理フロー]
続いて、コミュニケーション端末の受信処理について説明する（図５参照）。処理装置１０６内の図示していない制御部（ＣＰＵ）は、処理が開始されると（開始）、ステップＳ２００の受信処理を実行する。なお、コミュニケーション端末の送信処理と受信処理は、お互いが独立して平行に実行されるものとする。

（ステップＳ２００：受信）処理装置１０６は、外部から符号化データを受信すると、ＩＦ４２５１を経由して、受信部２２５２に取り込む。受信部２２５２は、入力した符号化データを非多重化部２５３に出力する。制御部（ＣＰＵ）はその後、処理をステップＳ２０１に進める。

（ステップＳ２０１：非多重化）非多重化部２５３は、受信部２２５２より符号化データを受け取ると、前述の多重化部２０８が行ったパッキング処理とは逆の処理（アンパック処理）を実施する。非多重化部２５３は、アンパック処理によって、符号化データから、端末姿勢情報、撮影画像符号、作業端末情報符号及び、ポインタ座標を取りだす。非多重化部２５３は、端末姿勢情報を前述のポインタ座標変換部２０７とともに合成部２５６に出力し、撮影画像符号を復号部１２５４に出力し、作業端末情報符号を復号部２２５５に出力し、ポインタ座標を送信部２２５８に出力する。制御部（ＣＰＵ）は、その後、ステップＳ２０２とＳ２０３とステップＳ２０６の処理を起動させる。

（ステップＳ２０２：復号１）復号部１２５４は、非多重化部２５３より撮影画像符号を入力すると、前述の符号化部１２０２で実施した符号化処理と逆の処理を実施し、元の信号を復号する。復号部１２５４は復号した撮影画像を合成部２５６に出力する。制御部（ＣＰＵ）は、その後、処理をステップＳ２０４に進める。

（ステップＳ２０３：復号２）復号部２２５５は、非多重化部２５３より作業端末情報符号を受け取ると、前述の符号化部２で実施した符号化処理と逆の処理を実施し、元の信号を復号する。復号部２２５５は、復号した作業端末情報を合成部２５６に出力する。制御部（ＣＰＵ）は、その後、処理をステップＳ２０４に進める。

（ステップＳ２０４：合成）合成部２５６は、非多重化部２５３より端末姿勢情報、復号部１２５４より撮影画像および、復号部２より作業端末情報を受け取る。合成部２５６は、復号部２２５５より受けとった作業端末情報が画面を構成するためのフォーム情報である場合には、そのフォーム情報に従い画面を再構成し、端末表示画像を生成する。作業端末情報が端末表示画像である場合には、そのまま使用する。合成部２５６は、端末姿勢と撮影画像と端末表示画像を用いて最終的な合成画像を生成し、ＩＦ５２５７を経由して合成画像を表示装置１００に出力する。なお、合成処理については後述する。制御ＣＰＵはその後、処理をステップＳ２０５に進める。

（ステップＳ２０５：描画）表示装置１００は、ＩＦ５２５７を経由して送られてきた合成部２５６が生成した合成画像を受け取ると、画面に表示を行う。制御部（ＣＰＵ）は、その後、処理をステップＳ２０７に進める。

（ステップＳ２０６：送信）送信部２２５８は、非多重化部２５３よりポインタ座標を受け取ると、ＩＦ６２５９を経由してポインタ座標を作業端末１０２−１に送信する。制御部（ＣＰＵ）は、その後、処理をステップＳ２０７に進める。

（ステップＳ２０７：終了）制御部（ＣＰＵ）は、コミュニケーション端末を終了させるか否かを判断し、処理を継続させる場合は、開始直後の受信待機状態に戻り、Ｓ２００以降の処理を繰り返し実行させる。制御部（ＣＰＵ）は、処理を終了させる場合、全ての制御を完了させ端末を終了させる。

[作業端末処理フロー]
最後に、作業端末１０２−１の処理について、図６を用いて説明する。

（ステップＳ３００：アプリケーション起動）作業端末１０２−１でアプリケーションを起動すると、ＣＰＵ３００は、アプリケーションの実行コードを開始する。図示していない制御部（ＣＰＵ）は、その後、処理をＳ３０１に進める。なお、ＣＰＵ３００が作業端末１０２−１の制御の処理を兼ね備えてもよい。

（ステップＳ３０１：画面レンダリング）ＣＰＵ３００は、アプリケーション実行コードに従って、画面に描画する画像を生成し、描画部３０１にある描画メモリに画像を書き込む。制御部（ＣＰＵ）は、その後、処理をステップＳ３０２に進める。

（ステップＳ３０２：作業端末情報送信）ＣＰＵ３００は、描画部３０１のメモリに書き込む情報に基づき作業端末情報（作業端末１０２−１の表示画面あるいはフォーム情報）を生成し、送信部３３０２に出力する。送信部３３０２は、入力した作業端末情報をＩＦ７３０３を介して外部のネットワークに出力する。制御部（ＣＰＵ）は、その後、処理をステップＳ３０３に進める。

（ステップＳ３０３）受信部３３０５は、外部とのＩＦであるＩＦ８３０４を経由してポインタ座標（例えば、処理装置より送られるポインタ座標）を受け取ると、そのポインタ座標をＣＰＵ３００に出力する。制御部（ＣＰＵ）は、その後、処理をステップＳ３０４に進める。制御部（ＣＰＵ）は、ポインタ情報を受け取らなかった場合、処理をステップＳ３０５に進める。

（ステップＳ３０４）ＣＰＵ３００は、受信部３３０５よりポインタ座標を受け取ると、この座標に該当する位置（例えば図７の符号７００）に所定のポインタマーク（例えば、矢印。図７の符号７０１）を描画メモリに上書きする（重畳して書き込む）。制御部（ＣＰＵ）は、その後、処理をステップＳ３０５に進める。

（ステップＳ３０５）描画部３０１は、描画メモリに書き込まれた情報に従い作業端末１０２−１の画面にステップＳ３０１で生成したアプリケーションの画面とＳ３０４で生成したポインタマークを描画する。制御部（ＣＰＵ）は、その後、処理をステップＳ３０６に進める。

（ステップＳ３０６）制御部（ＣＰＵ）は、作業端末１０２−１あるいはＳ３００で起動したアプリケーションを終了させるか否かを判断し、処理を継続させる場合は、Ｓ３０１以降の処理を繰り返し実行させる。制御部（ＣＰＵ）は、処理を終了させる場合、全ての制御を完了させ端末を終了させる。

以上により、遠隔地の作業端末の画面を撮影映像に合成して表示を行い、さらに、ポイントした位置を作業端末にフィードバックさせて表示をさせることが可能になる。

＜処理の説明＞
続いて、端末姿勢検出部２０１、ポインタ座標変換部２０７、合成部２５６で行われる処理について詳細に説明する。
初めに、端末姿勢検出部２０１で実施する作業端末の姿勢検出処理について、図８から図１１までを用いて説明する。

撮影カメラで取得した映像を用いて、プレート状の端末の姿勢を算出する方法については、種々存在する。例えば、端末の上にマーカーを付与し（貼りつけ）ておき、それを撮影して得られる画像内のマーカー形状から、そのマーカー、およびマーカーが貼り付けられた端末の姿勢を求めることができる。このような方法を用いた例として、「ＡＲＴｏｏｌＫｉｔ（http://www.hitl.washington.edu/artoolkit/）」がある。ここでは、この手法を用いて実現する方法について説明するが、その他の公知の手法を用いても良い。

図８に示すように、マーカー８００は、その周囲を正方形もしくは長方形の黒枠８０１で囲まれており、黒枠８０１の内側に、マーカーと、そのマーカーの方向を一意に決めるための記号８０２を入れることもできる。
また、図９に示すように、そのマーカーを作業端末の筺体に物理的に貼り付けても良いし、あるいは、図１０のように、作業端末の表示部に電子的に表示させても良い。

ところで、前述の手法に基づき、マーカー形状から姿勢を検出するためには、外枠の大きさ（縦・横）が実寸で必要となる。図１０に示したように、画面にマーカーを表示して使用する場合には、画面内の１ピクセルの大きさから、表示されたマーカーの大きさを求めるか、あるいは、表示されたマーカーそのものを、直接物指し等で採寸しておく必要がある。

ここで、マーカーを撮影して得られた画像から、マーカーの姿勢（作業端末の姿勢は、マーカーの姿勢を求めることで算出することができ、そのときの位置のずれについては、マーカー中心位置から作業端末中心位置への物理的なずれ量を加味することで求めることができる）を算出する手順について、図１１を用いて説明する。

撮影装置１０５の光軸原点をＯとし、作業端末１０２−１に付与されたマーカー８００（図１１には、作業端末１０２−１や、マーカー内部の記号は図示していない）を撮影すると、撮影カメラ１０５の撮影面１１００に四角形Ａ’Ｂ’Ｃ’Ｄ’のように投影される。撮影面上のＡ’、Ｂ’、Ｃ’、Ｄ’は、マーカー４隅Ａ、Ｂ、Ｃ、Ｄにそれぞれ対応した頂点である。ここで、マーカーの外枠であるＡＢＣＤは長方形（あるいは、正方形）であるため、対面する辺（辺ＡＢと辺ＤＣ、辺ＡＤと辺ＢＣ）は平行で、そうでない辺（例えば、辺ＡＢと辺ＡＤなど）とは垂直になっている。この条件で、四角錐ＯＡＢＣＤの向かい合う２つの側面の法線同士の外積を取るとそれらは直交することになり、さらに、その２つの外積ベクトルの外積を取ると、お互いに直交するベクトルとなる。具体的に記載すると、△ＯＡＤと△ＯＣＢのそれぞれの面に垂直な法線の外積として求めたベクトルＥｘと、△ＯＡＢと△ＯＣＤのそれぞれの面に垂直な法線の外積として求めたベクトルＥｙの２つのベクトルがあり、さらにＥｘとＥｙの外積として求まるＥｚがある。これらのベクトルは、それぞれお互いが直行するベクトルであり、マーカーの向きを示す基底ベクトルになりうる。ここまで、光軸原点Ｏとマーカー頂点ＡＢＣＤを用いて説明を行ったが、投影面上の対応する頂点Ａ’Ｂ’Ｃ’Ｄ’についても同様なことが言える（四角錐の側面を共有していることから明らかである）。

さらに、カメラ１０５の光軸原点Ｏからマーカー中心までの移動量（併進量）が決まれば、先ほどの３つの直行ベクトルを用いて、マーカー中心を起点とする座標軸（図１１のマーカー座標軸ＸｔＹｔＺｔ）を規定することができる。

続いて、撮影カメラ１０５の光軸中心Ｏからマーカー中心に向かう併進量の算出方法について説明する。マーカー座標軸ＸｔＹｔＺｔにおける３次元座標を(ｘ_ｔ、ｙ_ｔ、ｚ_ｔ)とし、撮影装置１０５の画像座標を（ｍ、ｎ）とすると、ピンホールカメラの幾何モデルに従い、その対応関係は、以下の様に表現することができる。

ここで、Ａは撮影装置１０５のカメラ内部行列で、ＲとＴはマーカー座標系の３次元座標を撮影装置１０５の座標系（以下、「撮影座標系」と称する。）に変換するための回転行列と併進ベクトルをそれぞれ示している。

カメラの内部行列については、例えば、「コンピュータビジョン−視覚の幾何学−（コロナ社）６．１章校正器具を使ったカメラ校正法」に記載の方法に従い、あらかじめ（オフラインで）算出しておくことができる。行列Ｒについては、前述の３軸の直交ベクトルより求まる回転行列である。

以上より、式１において、座標以外で未知のものは、併進ベクトルのＴ＝（t1,t2,t3,1）^Tだけとなる（未知数３）。従って、マーカー座標系における三次元位置と、それに対応する画像内の点の座標の組合せが３つ以上分かると、数値解析により併進量を算出することができることになる。

マーカー座標の３次元位置については、マーカーの４つの頂点を用いることができる。予めマーカーのサイズを求めているため、例えば、採寸したマーカーサイズが縦、横それぞれｉ、ｊｃｍであるとすると、各頂点の３次元位置はそれぞれ、点Ａ（ｉ／２、ｊ／２、０）、点Ｂ（ｉ／２、−ｊ／２、０）、点Ｃ（−ｉ／２、−ｊ／２、０）、点Ｄ（−ｉ／２、ｊ／２、０）となる。これは、マーカーがマーカー座標のＺ＝０の面に貼りついていて、かつその中心が原点になっていることによる。最後に、撮影画像面１１００における、四角形の頂点（Ａ’、Ｂ’、Ｃ’、Ｄ’）の座標がわかれば、合計で４つの対応関係が分かることになり、式１を用いて、残りの併進ベクトルを算出することができることになる。撮影画像から、マーカーの４つの頂点の座標を求める方法は、既存の矩形検出による方法や、あるいは、その頂点位置が明確になるような、例えば特殊な色（原色の赤や緑や青、あるいはその２次色でもよい）をマーカーの四隅に付けておき、画像をしきい値処理することによりその座標を求めても良い。

以上により、回転行列Ｒと併進ベクトルＴが求まるため、撮影装置１０５の座標系におけるマーカーの姿勢を算出することができる。また、そのマーカー位置を起点に、作業端末の姿勢及び位置を確定させることも前述の通り可能である。

続いて、合成部２５６で行われる合成処理について説明する。合成処理は、端末画像を配置させる３次元位置と端末画像の大きさを決めることができれば、上記式１を用いることで、撮影画像内の合成位置（合成画像の投影位置）が決まり、元々存在していたように合成することが可能である。詳細は後述する。

ところが、合成する端末画像はコンピュータで扱う電子データであり、マーカー座標上に実際に配置させることや、元々大きさの概念がないため、採寸することもできない。ここでは、これらの値を仮想的に設定するものとする。例えば、合成する端末画像の大きさを、縦Ｗ(ｃｍ)、横Ｈ（ｃｍ）と設定する。実際には、作業端末１０２−１の画面サイズを基準に、所定の倍率で拡大したときの大きさを用いても良いし、あるいは、パラメータとして外部より入力して任意に設定できるようにしても良い。また、前述したマーカーの中心位置に端末画像を合成すると仮定すると、合成する端末画像の四隅は、マーカー座標系の座標で表現すると、（−Ｗ／２、−Ｈ／２、０）、（−Ｗ／２、＋Ｈ／２、０）、（＋Ｗ／２、＋Ｈ／２、０）、（＋Ｗ／２、−Ｈ／２、０）となる（電子データがマーカーの存在する面に張り付いていると考えるため、Ｚ座標は０となる）。この四隅の３次元座標を式１に代入すると、それに対応する画素位置を求めることができる（行列Ａ，Ｒ、ベクトルＴは前述の方法で既に求めているため）。以上により、撮影画像内に合成する４隅の座標（合成先画像座標）を決めることができる。

次に、この合成先画像座標（４点）と端末画像（４点）との間の対応関係を記述する必要がある。その対応関係の記述は、ホモグラフィ変換を用いることで表現することが可能である。ホモグラフィ変換とは、ある平面を、射影変換を用いて別の平面に変換する方法で、ホモグラフィ行列を用いて実現する。つまり、合成先の座標と合成元である端末画像の画素の座標を相互に変換させることができるようになるということである。なお、ホモグラフィ行列の算出は、コンピュータビジョンの汎用ＡＰＩであるＯｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒ、オープンソースのコンピュータビジョン向けのライブラリ）の関数（ｃｖＦｉｎｄＨｏｍｏｇｒａｐｈｙ）を用いて実現することができる。

例えば、図１２に示すように、端末画像の画像サイズがＰ画素（横）×Ｑ画素（縦）、すなわち四隅の画素位置がＡ（１、１）、Ｂ（１、Ｑ）、Ｃ（Ｐ、Ｑ）、Ｄ（Ｐ、１）で（図１２（ａ））、合成先の四隅の画素位置がＡ’（ｍ_Ａ’、ｎ_Ａ’）、Ｂ’（ｍ_Ｂ’、ｎ_Ｂ’）、Ｃ’（ｍ_Ｃ’、ｎ_Ｃ’）、Ｄ’（ｍ_Ｄ’、ｎ_Ｄ’）となる場合（図１２（ｂ））、ホモグラフィ行列Ｈ^＊を用いると以下の様に座標変換を表すことができる。但し、座標（ｍ、ｎ）は端末画像における座標で、座標（ｍ’、ｎ’）は合成先の撮影画像における座標を示しているものとする。

以上により、端末画像の４隅とそれに対応する合成画像位置の４隅の対応関係より、その内部の画素位置も含めて、このホモグラフィ行列によって求めることが可能で、間は線形補間によって埋めることにより、画素抜けなく合成画像を生成することができる。また、上述の撮影空間における端末画像の４隅の３次元位置を所定の変位量でシフトしたり（撮影空間でのシフト）、あるいは、合成画像位置を所定の変位量でシフト（撮影画像でのシフト）したりすることにより、マーカーの中心位置とは異なる別の位置に端末画像を合成することも可能である。シフト量については、外部より固定値として入力しても良いし、撮影画像を画像解析することにより求めても良い。

最後に、ポインタ座標変換部２０７のポインタ座標変換方法について説明する。ポインタ座標の変換については、表示装置１０７に表示されている画像上の点の位置を作業端末１０２−１の表示座標に変換する処理である。これについても、式２を利用することが可能で、前述した式２による変換とは逆の処理を行うことで実現することができる。

次いで、この座標の変換について説明をする。まず、図１の利用者１０３−１が画面に対してポインティングした位置は、表示装置１０７の表示座標系における座標（画面ポインタ座標）となる。表示装置１０７には、前述の通り、相手側の実写映像と共に作業端末１０２−１の端末画像が合成されており、その合成された端末画像の内部をポインティングしていることを判断する必要がある。つまり、図１２（ｂ）において、頂点Ａ’、Ｂ’、Ｃ’、Ｄ’を結ぶ、点線領域の内部にポインティングした位置が存在するか否かである。

ポインティング位置がこのような領域内である場合、表示装置１０７の座標を後述のように端末画像の座標に変換する。一方、ポインティング位置が、点線領域の内部にない場合は、ポインタ座標変換部２０７からの出力をポインタ座標が存在しないことを示す信号を出力するものとする。

いま、画面ポインタ座標が合成した端末画像の範囲内に存在しているものとして、上記式２を変形した式３を用いることで、撮影画像の座標から端末画像の座標を取得することができるようになる。

ここで、座標（ｍ、ｎ）は端末画像における座標で、座標（ｍ’、ｎ’）は合成後の撮影画像における座標を表しているものとする。また、Ｈ^＊−１は前述のホモグラフィ行列の逆行列である。

以上、表示装置１０７に表示された画像の点（画面座標）を作業端末１０２−１の端末画像の点（以下、端末ポインタ座標と呼ぶ）に変換することができ、この端末ポインタ座標をポインタ座標変換部２０７から出力することにより、最終的に作業端末にその情報が送られ、作業端末の画面上に遠隔地の利用者の指し示している位置を表示することが可能となる。なお、前述の通り、図１には、利用者１０３−１が使う作業端末については図示していないが、同様な仕組みを用いて、利用者１０１−１が表示装置１００に向かってポインティングした内容をこの作業端末に表示させることも可能である。

以上、第１の実施形態により、作業端末で行う作業の内容を、撮影映像の中にあたかも存在しているように合成した映像を用いて、遠隔コミュニケーションすることが可能になる。また、遠隔地から、その合成された作業端末画像の内側をポインティングすると、そのポインティングされた位置が遠隔地にある作業端末に表示され、共同作業者がどこを指し示しているのかが視覚的にわかるようになる。

（第２の実施の形態）
第２の実施形態では、作業端末を扱う側（図１の利用者１０１−１の側）の撮影画像を解析することにより、端末画像の合成位置を制御する方法について示す。

はじめに、本実施の形態の効果について、図１３を用いて説明する。図１３は、本実施の形態の処理を行わなかった場合と、実施した場合の違いを明示的に示した図で、（ａ）が合成位置のシフトを行わなかった例で、（ｂ）が合成位置のシフトを行った例である。このイメージ図からも明らかなように、（ａ）では、利用者１０１−２の上に端末画像１３００が重なり、利用者１０１−２の表情を確認できないという問題が発生している。一方、図１３（ｂ）のように制御した場合、そのような問題が発生せずに、利用者１０１−２の表情と合成画像の両方を同時に確認することができ、全体的に見やすくなっている。

ところで、第１の実施の形態において、端末画像を合成する画素位置を式１によって記述できることを示した。ここでは、式１における入力側の座標（ｘ_ｔ、ｙ_ｔ、ｚ_ｔ）、もしくは、出力側の座標（ｍ、ｎ）を何らかの法則に従いシフトすることで、合成位置を制御するものとする。前者は３次元空間内でのシフト（移動）を意味し、後者は画像空間内でのシフト（移動）を意味する。いずれであっても、本実施形態の目的である合成位置を制御することができる。式１をベースに、それぞれを数式化すると、前者の方法は式４のように、後者の方法は式５−１のようになる。

この（ｓ_ｘ、ｓ_ｙ、ｓ_ｚ）、もしくは（ｓ_ｍ、ｓ_ｎ）を、後述する画像解析により決定し、より良い位置に合成を行うことが本実施例の目的である。ここで、より良い位置とは、遠隔コミュニケーションにおいて意味のある画像領域を遮蔽しないような位置のことである。

次いで、第２の実施形態を実現する方法について説明する。第２の実施形態における処理ブロック構成は、第１の実施形態と同じであるため、以下は図２を用いて説明する。

第２の実施形態と第１の実施形態の相違点は、端末姿勢検出部２０１で行う処理の違いである。前述の通り、端末姿勢検出部２０１は、作業端末に付与されたマーカーに基づき、端末自身の姿勢（前述の回転行列Ｒ及び併進ベクトルＴ）を求めているが、ここでは、さらに、撮影画像を解析し、前述のシフト量を加味して姿勢を求める点が異なる。シフト量の算出は、前述のように、遠隔コミュニケーションにとって意味のある画像領域を遮蔽しないように求めるが、ここでは、人物の顔領域をそのような領域として例示する。遠隔コミュニケーションにとって、遠隔地の相手の表情は重要な要素の一つであるといえる。従って、撮影画像の中から、遠隔地の相手の顔領域を検出し、このような領域に、端末画像が重ならないように制御することで、前述したような効果を実現することができる。

端末姿勢検出部２０１は、撮影画像を入力すると画像内の顔領域の検出を行う。顔領域の検出については、様々な方法が提案されており、画像の中から顔領域を抽出し、その中心座標を得ることができる手法であればどのような方法を用いても良い。例えば、前述のＯｐｅnＣＶにも、顔領域を抽出することができるＡＰＩ（ｃｖＨａａｒＤｅｔｅｃｔＯｂｊｅｃｔｓ、http://opencv.jp/sample/object_detection.htmlにあるサンプルコードを参照）が実装されており、それを用いることができる。いま、このＡＰＩを用いて抽出された顔領域の座標を（Ｘ_ｆａｃｅ、Ｙ_ｆａｃｅ）とすると、端末画像を合成する４隅の位置がＡ’（ｍ_Ａ’、ｎ_Ａ’）、Ｂ’（ｍ_Ｂ’、ｎ_Ｂ’）、Ｃ’（ｍ_Ｃ’、ｎ_Ｃ’）、Ｄ’（ｍ_Ｄ’、ｎ_Ｄ’）である場合に、そのシフト量（ｓ_ｍ、ｓ_ｎ）を以下の様に算出することができる。

ここで、（ｍ_{Ａ’Ｂ’Ｃ’Ｄ’}、ｎ_{Ａ’Ｂ’Ｃ’Ｄ’}）は、四角形Ａ’Ｂ’Ｃ’Ｄ’の重心位置を示し、αはシフト量を制御する固定値である。

以上により、遠隔コミュニケーションにとって重要な領域である遠隔地の相手の顔領域と、合成する端末画像との重なりを避けることが可能になる。なお、重要領域については、人物の顔に特定するものではなく、例えば背景差分により抽出した前景領域を重要領域とし、その領域を顔領域と同様に扱い、重なりを避けるように合成位置をシフトしても良い。

（第３の実施の形態）
第３の実施形態は、作業端末を扱う側（図１の利用者１０１−１の側）の撮影画像を解析することにより、作業端末１０２−１の上に添えられた利用者１０１−１の手などを画像として取り出し、合成する端末画像の上にさらに重畳して表示するものである。これにより、もう一方の利用者である１０３−１が、端末の上に差し出された利用者１０１−１の手の位置を視覚的に確認することができるようになる。

図１４が、本実施形態の効果を示すイメージ図になる。単に端末画像を合成した場合が（ａ）であり、この場合、合成された端末画像１０２−３を見ただけでは、遠隔地の利用者がどこを指さしているかを確認することはできない。それを確認するためには、一々、遠隔地利用者を映した利用者１０１−２と、端末を映した作業端末１０２−２と、を確認しながら、合成画像１０２−３を見る必要がある。一方、本実施形態によると、合成画像は（ｂ）のようになり、一目で遠隔地の利用者１０１−２がどこを指し示しているかが分かるようになる（符号１３００）。

以下に、実現方法について説明する。なお、本実施形態の処理ブロック構成は、第１の実施形態と同じであるため、図２を用いて説明する。そして、第３の実施形態と第１の実施形態の相違点は、合成部２５６で行われる合成処理である。

合成部２５６は、非多重化部２５３より端末姿勢と、復号部１２５４より撮影画像と、復号部２２５５より端末表示画像と、を受け取る。合成部２５６は、前述した合成処理を実施するのと同時に、さらに、合成前の撮影画像の中から遠隔地の端末１０２−１を映した端末領域を抽出する。撮影された画像の中から特定の領域である端末領域を抽出する方法はさまざまあるが、ここでは、マーカーを撮影した画像を解析して得られた式１をそのまま使うこととする。つまり、マーカー座標系における作業端末の画面四隅の３次元座標を、式１に代入して求まる画像座標を用いて抽出することとする。他の方法として、端末画像四隅を含む局所領域をテンプレート（教師データ）とし、テンプレートマッチングすることによって、画素位置を求めることも可能である。テンプレートマッチングの方法は汎用の手法を用いることができる。

以上、端末を映した端末表示面の四隅の画素位置が分かるので、それに対応する端末画像の四隅の点との間で、前述のようにホモグラフィ行列を算出することができ、そのホモグラフィ行列の逆行列を用いて射影変換される前の端末画像の画素位置を求めることもできる。

いま、撮影装置１０５で撮影した画像内の画素Ｐ（＝（ｍ、ｎ））における画素値をＩ（Ｐ）とし、かつ、その画素位置Ｐが作業端末１０２−１を映した画像域に属する画素であるものとする。また、画素Ｐに対応する端末画像の座標は前述のホモグラフィ行列の逆行列より求まり（式５−３のＨ^※−１（・）の部分にあたる）、その座標における端末画像の画素値をＩ_Ｔ（・）とする。上記二つの画素値の差の絶対値を算出し、特徴量Ｃ（Ｐ）を求める（式５−３）。

特徴量Ｃ（Ｐ）は、撮影画像内にある作業端末の表示画面に表示されている内容と、端末画像の内容が大きく異なる場合に、その値が大きくなる特性がある。従って、特徴量Ｃ（Ｐ）の大きくなる領域は、端末の前に何らかの物体（例えば、作業端末を利用している人の手など）が存在していると判断することができる。

そこで、式５−３によって算出した値が所定の閾値以上の領域（撮影画像において端末表示画像と異なっている領域。すなわち、端末の画面の上に手などが重なっている領域）に関しては撮影画像の画素値を選択して合成を行い、そうではない領域については端末画像を選択して合成するものとする。

以上により、図１４（ｂ）に示したように、合成する端末画像の内部に利用者１０１−２の手の位置を重ねて表示することが可能となり、利用者１０１−２が端末画像内のどの部分を指し示しているかが視覚的に分かるようになる。

（第４の実施の形態）
第４の実施形態は、前述したマーカーを作業端末に付与する代わりに、作業端末に表示される画像を用いて作業端末の姿勢と位置を算出するものである。つまり、作業端末に表示されている端末画像をマーカーの代替とする。

はじめに、マーカーを用い、それが付与された物体の姿勢と位置を算出可能にするための条件は、１）前述のマーカー座標系において、三次元座標を決めることができる点が４点あること、２）これらの点を結んで形成される四角形が長方形あるいは正方形になること、３）撮影画像において、これらの点に対応する画素の座標を取得できること、である。上記３つの条件が揃うと、前述のように、撮影画像空間における４点からなる平面の姿勢と、撮影カメラ原点を基準とする３次元位置と、を特定することができるようになる。

しかしながら、作業端末に表示されている端末画像のみから、上記条件を満足する点を常に求めることは難しい。なぜなら、表示される端末画像の中に矩形状の図形が常に存在するということはなく、また、端末の画面四隅をそのような点と捉えたとしても、撮影画像の中から画面４隅を常に検出し続けることも容易ではないためである。

そこで、本実施の形態では、作業端末に表示されている画像内の特徴的な点を用いて、上記条件を満足する４つの点を仮想的に作り出すことで実現する。端末画像内の特徴的な点（以下、特徴点と称す）を抽出する方法は、例えば、前述のＯｐｅｎＣＶのORB特徴点検出器（cv::OrbFeatureDetector）を使用することで実現できる。特徴点の抽出方法は、この手法に限定するものではない。同様に、撮影カメラで取得した画像に対しても、同じ特徴を持つ特徴点を抽出する。

図１５が、撮影画像（ａ）と端末画像（ｂ）において抽出された特徴点の位置を示す図で、特徴点１５００−１は特徴点１５００−２と、特徴点１５０１−１は特徴点１５０１−２と、特徴点１５０２−１は特徴点１５０２−２と、特徴点１５０３−１は特徴点１５０３−２と、それぞれ対応している。これらの特徴点の位置には制限がなく、検出しやすく、かつ、対応する点の信頼性の高いものを選んでやればよい。

以上、対応の取れた点群を２つの画像の中から抽出することができたので、前述した式２に適用することができるホモグラフィ行列を作ることができる（前述のopenCVの関数ｃｖＦｉｎｄＨｏｍｏｇｒａｐｈｙを用いて算出可能）。いま、端末画像（ｂ）の特徴点を入力とし、それに対応する撮影画像（ａ）の特徴点に向けてのホモグラフィ行列をＨ^※ _t2cとすると、その変換は次式で記述することができる。

この式により、端末画像内のある点（ｍ_ｔ、ｎ_ｔ）を撮影画像の対応する点（Ｍ_ｃ、Ｎ_ｃ）に変換することができるようになる。つまり、端末画像内での位置が決まれば、それに対応する撮影画像内の位置を求めることができるということである。

続いて、図１６に示したように、端末画像（ｂ）の中に、仮想的な４つの点（１６００−１〜１６０３−１）を設定する。この４つの点は、前述したような特徴点検出器で検出された点でなくても良く、点同士を結ぶと矩形になるような点であれば良い。ここでは、そのような点として、画像の４隅の点を用いることとする。

式６を用いて、４つの点を変換すると、図１６の（ａ）に示したように、撮影画像において対応する点１６００−２〜１６０３−２の位置を求めることができる。このとき、対応する点が、他の前景の物体に隠れるような場合であっても、その位置を求めることができるということが特徴である（例えば、１６００−２）。以上、仮想的な点ではあるが、端末画像内の４つの点と、撮影画像内の４つの対応する点の座標を取得することができる。この４つの点は、作業端末と一体になった画面４隅の点であるため、作業端末の座標系が画面の中心にあると考えると、その画面サイズより、その３次元位置を設定することもできる。また、４点は、端末画像の４隅になるように設定したため（端末表示面は通常矩形であるため）、それらを結んでできる図形は矩形である。また、最後に、撮影画像において対応する点についても前述のように求めることができる。つまり、前述した３つの条件を全て満足したことになり、これにより端末の姿勢と位置を算出できることになる。

以上、マーカーを付与することなく、作業端末に表示された端末画像のみから、端末の姿勢と位置を算出できるようになる。

（第５の実施の形態）
第５の実施形態は、作業端末自身に、姿勢を検知するセンサーを備え、第１の実施の形態に記載した端末姿勢検出部２０１の姿勢検出結果を補正、あるいは、置き換えるものである。近年タブレットには、角速度センサーやジャイロセンサーを用いて自身の傾きを検知したり、あるいは、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）等を用いて自身の位置を特定したり、することができるセンサーを備えている。本実施形態では、それらの情報を活用するものである。タブレットに備わるセンサーからこれらの情報を取得すためのＡＰＩとして、例えば、マクロソフト社が提唱しているＳｅｎｓｏｒＡＰＩを用いることもできる。

ところで、端末自身のセンサーで取得した端末の傾きや位置は、センサーが持つ座標系になるため、本システムに合わせた座標系（前述のカメラ座標系）に変換して利用する必要がある。以下、図１７を用いてその方法について具体的に説明する。

はじめに、システム起動時に行うキャリブレーションについて説明する。マーカーを含めて撮影した画像を解析することでタブレットの姿勢を算出できることは前述した。このときの、端末の姿勢を表現する回転行列と併進ベクトルをそれぞれＲ_ｃ（０）、Ｔ_ｃ（０）とすると、このときの、回転行列と併進ベクトルを用いると、キャリブレーション時のマーカー座標系１７０１にある点Ｐ_ｔ（０）をカメラ座標系１７００の点Ｐ_ｃに変換することができる（符号１７０３）。また、同時に、端末自身のセンサーを用いて、端末の姿勢を表現する回転行列と併進ベクトルを求め、それらをＲ_ｓ（０）、Ｔ_ｓ（０）とすると、このときの回転行列と併進ベクトルは、キャリブレーション時のマーカー（タブレット）座標系１７０１にある点Ｐ_ｔ（０）をセンサー座標系１７０２に変換するものである（符号１７０４）。また、センサー座標系の点をマーカー座標系の点に変換するためには、符号１７０４の変換の逆を行えばよい（符号１７０５）。以上がキャリブレーション時に実施する内容である。

続いて、キャリブレーション時に取得した回転行列と併進行列を用いて、逐次求まる端末の回転行列と併進ベクトルを本システムに合わせた座標系に変換する方法について説明する。

いま、ある時刻ｎにおいて、端末に備わるセンサーを用いて取得した端末の回転行列と併進行列をそれぞれＲ_ｓ（ｎ）、Ｔ_ｓ（ｎ）とすと、この回転行列と併進行列を用いると、時刻nにおけるマーカー座標系の点Ｐ_ｔ（ｎ）をセンサー座標系の座標Ｐ_ｓ（ｎ）に変換することができる（符号１７０４、式７）。

ここで、センサー座標系が時刻ｎによらず不変であるとすると、キャリブレーション時の回転行列Ｒ_ｓ（０）と併進ベクトルＴ_ｓ（０）を用いて、符号１７０５の変換を行うことで、キャリブレーション時のマーカー座標系の点Ｐ_ｔ（０）を求めることができる（式８）。

ここで、キャリブレーション時の回転行列Ｒ_ｃ（０）と併進ベクトルＴ_ｃ（０）を用いて、符号１７０３の変換を行うとカメラ座標系の点を取得できることを示したので、式８に対しても同様な変換を行う（式９）。

以上により、キャリブレーション時に取得した姿勢情報と、時刻ｎにおいて端末に備わるセンサーから取得した姿勢情報とから、時刻ｎにおける、回転行列Ｒ_ｃ（ｎ）と併進行列Ｔ_ｃ（ｎ）を算出することができるようになる。

最後に、前述の端末姿勢検出部２０１の姿勢検出結果を補正、あるいは、置き換える方法について説明する。この方法はさまざま考えられるが、例えば、端末姿勢検出部２０１の姿勢検出処理においてマーカーをうまく検出できなかったときに、式７による回転行列Ｒ_ｃ（ｎ）と併進行列Ｔ_ｃ（ｎ）を切り替えて用いるようにしても良いし、あるいは、外部よりパラメータを入力して、手動で端末姿勢検出部２０１の結果と、式７による結果を切り替えても良い。

以上、本実施の形態では、端末に備わるセンサーからの情報を活用し、前述した端末姿勢検出部２０１で行う姿勢検出結果を補正したり、置き換えることができるようになる。

（第６の実施の形態）
＜第１から第５までの実施形態について＞
上記の各実施例において、添付図面に図示されている構成等については、あくまで一例であり、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。

上記の各実施例の説明では、機能を実現するための各構成要素をそれぞれ異なる部位であるとして説明を行っているが、実際にこのように明確に分離して認識できる部位を有していなければならないわけではない。上記の各実施例の機能を実現する遠隔コミュニケーション装置が、機能を実現するための各構成要素を、例えば実際にそれぞれ異なる部位を用いて構成していてもかまわないし、あるいは、全ての構成要素を一つのＬＳＩに実装していてもかまわない。すなわち、どういう実装形態であれ、機能として各構成要素を有していれば良い。

また、上記の各実施例で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

本発明はコミュニケーション装置として利用可能である。

Ｘ…テレ（遠隔）コミュニケーションシステム、１００…表示装置、１０５…撮影装置、１０６…処理装置、１０２−１…作業端末、１０３−１…利用者。

本発明は、以下の開示を含む。
（付記）
（１）
第１の撮像装置と、第１の処理装置と、第１の表示装置と、端末装置である作業端末と、を有する第１のテレコミュニケーション装置と、
第２の撮像装置と、第２の処理装置と、第２の表示装置と、を有する第２のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、
前記第１の処理装置は、
前記第２の撮像装置で取得した撮像画像を受け取ると、前記第１の表示装置に表示し、
前記第２の処理装置は、
前記第１の撮像装置において取得した撮像画像と、前記第１の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第２の表示装置に表示し、
前記作業端末は、前記第２の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
テレコミュニケーションシステム。
作業端末情報は、表示画面そのもの、あるいは、前記表示画面をレンダリングすることができるアプリケーションのフォーム情報である。
端末姿勢情報は、前記第１の撮影装置から見た回転行列と並進ベクトルを用いて表現したされる。
上記の遠隔ビデオコミュニケーションにおいて、撮影された映像の中に違和感なく作業端末で扱う電子データを合成して、遠隔地の相手に送信することができるようになる。また、合成された電子データの上を別の利用者がポインティングするとその内容が遠隔にある作業端末に反映され、遠隔の利用者がどこを指し示しているかが視覚的に分かるようになる。
（２）
前記第１の処理装置は、
前記第１の撮像装置において取得した撮影画像と、前記端末姿勢情報と、前記作業端末情報と、を取得し、
これらを１つの情報にパッキングし、前記第２の処理装置に送信すること
を特徴とする、（１）に記載のテレコミュニケーションシステム。
（３）
前記第２の処理装置は、
前記第２の撮像装置において取得した撮影画像と、前記ポインタ座標と、を取得し、
これらを１つの情報にパッキングし、前記第１の処理装置に送信すること
を特徴とする、（１）又は（２）に記載のテレコミュニケーションシステム。
（４）
前記第２の処理装置は、
合成画像において、前記作業端末情報に基づいて生成された端末表示画像が、前記撮像画像の特定領域と重ならないように合成する位置を異ならせること
を特徴とする（１）から（３）までのいずれか１に記載のテレコミュニケーションシステム。
特定領域は例えば顔などの特徴点を含む主要領域である。
（５）
前記第２の処理装置は、
前記撮像画像の特定領域と重ならないように前記端末表示画像を合成する際に、前記第１の撮像装置において取得した撮影画像内の顔領域を検出し、その位置に重ならないように、合成する位置を異ならせること
を特徴とする（４）に記載のテレコミュニケーションシステム。
（６）
前記第２の処理装置は、
合成対象の画像とそれに対応する撮影画像との差の絶対値を算出する手段と、
前記算出した絶対値が所定のしきい値と比較をして大きくなる場合に合成先の撮影画像を合成対象の画像上にさらに重畳すること
を特徴とする（１）から（３）までのいずれか１に記載のテレコミュニケーションシステム。
合成する端末画像の内部に利用者の手の位置を重ねて表示する等が可能となり、作業者が端末画像内のどの部分を指し示しているかが視覚的に分かるようになる。
（７）
前記端末装置の姿勢を検出する手段において、
前記作業端末情報に基づいて生成された端末画像の特徴点を算出する手段と、
前記特徴点に基づいて、さらに前記特徴点以外の仮想的な頂点を推定する手段と、
前記推定した頂点に基づき前記端末装置の姿勢を検出する
ことを特徴とする（１）から（６）までのいずれか１に記載のテレコミュニケーションシステム。
（８）
前記端末装置の姿勢を検出する手段は、
前記端末装置にマーカーを付し、前記第１の撮像装置により撮影した画像内の前記マーカーの形状に基づいて姿勢を求めることを特徴とする（７）に記載のテレコミュニケーションシステム。
端末上にマーカーを付与し（貼りつけ）ておき、撮影した画像内のマーカーの形状よりプレート形状の端末の姿勢を求めることができる。
（９）
前記第２の表示装置に表示する合成画像を生成する際に、
前記合成画像の４隅の座標と、それに対応する前記端末画像の４隅の座標と、の対応関係を、ホモグラフィ変換を用いることにより求めることを特徴とする（１）から（８）までのいずれか１に記載のテレコミュニケーションシステム。
（１０）
前記表示装置に表示された画像の画面座標を前記端末画像の座標にホモグラフィ行列の逆行列を算出することを変換することを特徴とする（１）から（９）までのいずれか１に記載のテレコミュニケーションシステム。
（１１）
前記端末姿勢情報を補正する、姿勢検知センサーを備えることを特徴とする（１）から（１０）までのいずれか１に記載のテレコミュニケーションシステム。
端末姿勢検出結果を補正することでより正確な姿勢情報を得ることができる。
（１２）
第１の撮像装置と、第１の処理装置と、第１の表示装置と、端末装置である作業端末と、を有する第１のテレコミュニケーション装置と、
第２の撮像装置と、第２の処理装置と、第２の表示装置と、を有する第２のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、
前記第１の処理装置は、
前記第２の撮像装置で取得した撮像画像を受け取ると、前記第１の表示装置に表示し、
前記第２の処理装置は、
前記第１の撮像装置において取得した撮像画像と、前記第１の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第２の表示装置に表示し、
前記作業端末は、前記第２の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
端末装置。
（１３）
第１の撮像装置と、第１の処理装置と、第１の表示装置と、端末装置である作業端末と、を有する第１のテレコミュニケーション装置と、
第２の撮像装置と、第２の処理装置と、第２の表示装置と、を有する第２のテレコミュニケーション装置と、
がネットワーク接続されたテレコミュニケーションシステムにおける第１のテレコミュニケーション装置であって、
第１の処理装置は、
前記第２の撮像装置で取得した撮像画像を受け取ると、前記第１の表示装置に表示し、
前記第２の処理装置は、
前記第１の撮像装置において取得した撮像画像と、前記第１の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第２の表示装置に表示し、
前記作業端末は、前記第２の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
第１のテレコミュニケーション装置。
（１４）
第１の撮像装置と、第１の処理装置と、第１の表示装置と、端末装置である作業端末と、を有する第１のテレコミュニケーション装置と、第２の撮像装置と、第２の処理装置と、第２の表示装置と、を有する第２のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムによるテレコミュニケーション方法であって、
前記第１の処理装置は、
前記第２の撮像装置で取得した撮像画像を受け取ると、前記第１の表示装置に表示し、
前記第２の処理装置は、
前記第１の撮像装置において取得した撮像画像と、前記第１の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第２の表示装置に表示し、
前記作業端末は、前記第２の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
テレコミュニケーション方法。
（１５）
上記（１４）に記載のテレコミュニケーション方法をコンピュータに実行させるためのプログラム。

Claims

第１の撮像装置と、第１の処理装置と、第１の表示装置と、端末装置である作業端末と、を有する第１のテレコミュニケーション装置と、
第２の撮像装置と、第２の処理装置と、第２の表示装置と、を有する第２のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、
前記第１の処理装置は、
前記第２の撮像装置で取得した撮像画像を受け取ると、前記第１の表示装置に表示し、
前記第２の処理装置は、
前記第１の撮像装置において取得した撮像画像と、前記第１の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第２の表示装置に表示し、
前記作業端末は、前記第２の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
テレコミュニケーションシステム。
前記第１の処理装置は、
前記第１の撮像装置において取得した撮影画像と、前記端末姿勢情報と、前記作業端末情報と、を取得し、
これらを１つの情報にパッキングし、前記第２の処理装置に送信すること
を特徴とする、請求項１に記載のテレコミュニケーションシステム。
前記第２の処理装置は、
前記第２の撮像装置において取得した撮影画像と、前記ポインタ座標と、を取得し、
これらを１つの情報にパッキングし、前記第１の処理装置に送信すること
を特徴とする、請求項１又は２に記載のテレコミュニケーションシステム。
前記第２の処理装置は、
合成画像において、前記作業端末情報に基づいて生成された端末表示画像が、前記撮像画像の特定領域と重ならないように合成する位置を異ならせること
を特徴とする請求項１から３までのいずれか１項に記載のテレコミュニケーションシステム。
前記第２の処理装置は、
前記撮像画像の特定領域と重ならないように前記端末表示画像を合成する際に、前記第１の撮像装置において取得した撮影画像内の顔領域を検出し、その位置に重ならないように、合成する位置を異ならせること
を特徴とする請求項４に記載のテレコミュニケーションシステム。
前記第２の処理装置は、
合成対象の画像とそれに対応する撮影画像との差の絶対値を算出する手段と、
前記算出した絶対値が所定のしきい値と比較をして大きくなる場合に合成先の撮影画像を合成対象の画像上にさらに重畳すること
を特徴とする請求項１から５までのいずれか１項に記載のテレコミュニケーションシステム。
前記端末装置の姿勢を検出する手段において、
前記作業端末情報に基づいて生成された端末画像の特徴点を算出する手段と、
前記特徴点に基づいて、さらに前記特徴点以外の仮想的な頂点を推定する手段と、
前記推定した頂点に基づき前記端末装置の姿勢を検出する
ことを特徴とする請求項１から６までのいずれか１項に記載のテレコミュニケーションシステム。