JP6359333B2 - テレコミュニケーションシステム - Google Patents

テレコミュニケーションシステム Download PDF

Info

Publication number
JP6359333B2
JP6359333B2 JP2014097889A JP2014097889A JP6359333B2 JP 6359333 B2 JP6359333 B2 JP 6359333B2 JP 2014097889 A JP2014097889 A JP 2014097889A JP 2014097889 A JP2014097889 A JP 2014097889A JP 6359333 B2 JP6359333 B2 JP 6359333B2
Authority
JP
Japan
Prior art keywords
terminal
image
processing device
work terminal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014097889A
Other languages
English (en)
Other versions
JP2015215745A (ja
Inventor
大津 誠
誠 大津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014097889A priority Critical patent/JP6359333B2/ja
Publication of JP2015215745A publication Critical patent/JP2015215745A/ja
Application granted granted Critical
Publication of JP6359333B2 publication Critical patent/JP6359333B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Position Input By Displaying (AREA)

Description

本発明は、コンピュータで扱うことができる電子データを撮影された映像に合成し、その合成された映像を用いて遠隔地間でコミュニケーションすることができるテレコミュニケーション技術に関する。
例えば遠隔地間で映像と音声とを用いてコミュニケーションを行うテレコミュニケーション装置があり、近年、移動のための時間や費用を抑えるために多く利用されるようになっている。また、コンピュータで扱うことができる電子データを当該装置内でやり取りできるようにし、実写映像とは別にお互いにその画面を共有しながらコミュニケーションを行うことも可能である。
一方、撮影画像に対して所定の領域にあたかも物体が存在しているかのように、CGで生成した物体(仮想的なオブジェクト)を画像内に重畳して表示する拡張現実(AR)技術が存在する。AR技術とは、実態のない仮想的なオブジェクトである電子データを実写映像内にあたかも実際に存在しているかの様に、空間的な位置関係を考慮して重畳して表示する技術である。また、このAR技術を遠隔地間で用いた遠隔コミュニケーションの方法について、下記特許文献1に記載されている。
特開平8−139994号公報
しかしながら、前述のテレコミュニケーション装置では、コンピュータで扱うことができる電子データは遠隔地の撮影映像とは独立した別のウィンドウとして表示されるため、遠隔地の相手の状況と絡めて電子データを確認することが難しい。仮に、画像内に電子データと遠隔地の撮影映像とを一体化して表示した場合であっても、撮影した映像と電子データとの間には空間的な位置において関係が無く、撮影映像と電子データを異なる視点の映像として捉える必要がある。
また、前述の特許文献1による方法では、コンピュータで扱うことができる電子データをあたかも撮影映像内に存在しているかのように重畳し、その映像を用いてコミュニケーションを行うことができるが、その合成映像を享受できるのは一方の利用者のみである。もう一方の利用者はそれを見ることができない。
その理由は、重畳された仮想的なオブジェクトを実体化するためには何らかの画面を通して見る必要があり、重畳される側の利用者はそれを確認することができないためである。仮想的なオブジェクトを見るためには、自分を映す映像(遠隔地の相手が見ている映像と同じ映像)を、別ウィンドウを設けて表示する必要があるという問題がある。
本発明は上述の課題を鑑みてなされたものであり、その目的は、遠隔コミュニケーションにおける利便性を向上させることである。
本発明の一観点によれば、第1の撮像装置と、第1の処理装置と、第1の表示装置と、端末装置である作業端末と、を有する第1のテレコミュニケーション装置と、第2の撮像装置と、第2の処理装置と、第2の表示装置と、を有する第2のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、前記第1の処理装置は、前記第2の撮像装置で取得した撮像画像を受け取ると、前記第1の表示装置に表示し、前記第2の処理装置は、前記第1の撮像装置において取得した撮像画像と、前記第1の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第2の表示装置に表示し、前記作業端末は、前記第2の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、テレコミュニケーションシステムである。
作業端末情報は、表示画面そのもの、あるいは、前記表示画面をレンダリングすることができるアプリケーションのフォーム情報である。
端末姿勢情報は、前記第1の撮影装置から見た回転行列と並進ベクトルを用いて表現される。
本発明によれば、遠隔ビデオコミュニケーションにおいて、撮影された映像の中に違和感なく作業端末で扱う電子データを合成して、遠隔地の相手に送信することができるようになる。また、合成された電子データの上を別の利用者がポインティングするとその内容が遠隔にある作業端末に反映され、遠隔の利用者がどこを指し示しているかが視覚的に分かるようになる。
本発明の一実施の形態によるテレコミュニケーションシステムの外観と利用イメージを示した図である。 コミュニケーション端末の一構成例を示す機能ブロック図である。 作業端末の一構成例を示す機能ブロック図である。 コミュニケーション端末(送信ブロック)の処理の流れを示すフローチャート図である。 コミュニケーション端末(受信ブロック)の処理の流れを示すフローチャート図である。 作業端末の処理の流れを示すフローチャート図である。 ポインタ座標とポインタマークの例を示す図である。 マーカーの例を示す図である。 作業端末にマーカーを張り付けた例を示す図である。 作業端末の画面内にマーカーを表示させた例を示す図である。 撮影したマーカーの形状からマーカーの姿勢を算出する方法を説明するための図である。 端末画像と撮影画像に端末画像を合成する際の位置を示す図である。 撮影画像を解析し合成画像の位置を制御する様子を示す図である。 合成画像に撮影画像の一部を重畳させた様子を示す図である。 撮影画像(a)と端末画像(b)において抽出された特徴点の位置を示す図である。 撮影画像(a)と端末画像(b)における、仮想的な4つの点を示す図である。 端末自身のセンサーで取得した端末の傾きや位置を本システムに合わせた座標系(前述のカメラ座標系)に変換して利用する様子を示す図である。
以下、本発明に係わる実施の形態を、図面を参照して詳細に説明する。なお、各図における表現は理解しやすいように許容できる範囲で誇張して記載しており、実際とは異なる場合がある。
また、以下の説明において、異なる図面においても同じ符号を付した構成は同様の物であるとして、その説明を省略することとする。
(第1の実施の形態)
まず、本発明の第1の実施の形態について、図1〜図12までを用いて説明する。
<装置の外観構成例>
図1は、利用者を含めて撮影した映像と作業で使う端末の表示画面を合成して作成した映像を用いて、遠隔コミュニケーションすることができる本発明の第1の実施形態に関する装置の外観、及び該装置を用いた遠隔コミュニケーションの例を模式的に示した図である。以下、この装置を遠隔コミュニケーション装置と呼び、これを少なくとも2つ設けたシステムを遠隔コミュニケーションシステムXと称する。
遠隔コミュニケーションシステムXのうち、本実施の形態による遠隔コミュニケーション装置は、遠隔地の映像を表示するための表示装置100と、利用者を含めた周辺の映像を撮影する撮影装置105と、映像と音声の処理やそれらを送受信することができる処理装置106と、利用者が作業を行うための作業端末102−1と、から構成される。同様な構成の遠隔コミュニケーション装置(符号107は符号100に、符号108は符号105に、符号109は符号106にそれぞれ対応する。但し、利用者103−1の作業端末は図示していない。)が遠隔地にも備えられており、これらの装置間で遠隔コミュニケーションを行うことができる。また便宜上、表示装置100と、撮影装置105と、処理装置106とをまとめてコミュニケーション端末Aと呼ぶこととする(利用者103−1の側では、107、108及び109に対応し、これをコミュニケーション端末Bと称する)。また、ここでは、音声のやり取りに係わる部分(例えば、マイクやスピーカー)については省いているが、基本的には、音声情報を公知の手段で映像情報と同期させるように構成すれば良い。以下の説明でも同様である。
続いて、遠隔コミュニケーション装置を用いた利用シーンの一例について説明する。ここでは、コミュニケーション端末Aの利用者101−1が、作業端末102−1を表示装置100の側に向けて、コミュニケーション端末Bの利用者である103−1と作業端末102―1に表示されている内容に関して会話を行っている様子を示している。
コミュニケーション端末Bの利用者103−1は、表示画面107に映し出された遠隔地のコミュニケーション端末Aの利用者101−2と遠隔地の作業端末102−2の画像及び合成された作業端末102−1の表示画面102−3(以下、「端末画像」と呼ぶ。)を見ながら会話を行うことができる。
また、利用者103−1は、合成された表示画面102−3の内部をポインティング(104)することができ、その様子が利用者101−1の作業端末102−1の画面の対応する同じ位置に表示される(104−1)。これにより、利用者101−1はもう一方の利用者103−1が指し示している位置を簡単に視認することができる。描画等も同様に視認できるのは言うまでもない。
作業端末102−1は外部と無線通信が可能で、図示していない無線通信中継器である無線ルータを介して、処理装置106と接続されており、利用者101−1が作業端末102−1で行なう作業の内容を示す情報(例えば、作業端末102−1の表示画面そのもの、あるいは、表示画面をレンダリングすることができるアプリケーションのフォーム情報である。以下、「作業端末情報」と呼ぶこととする。)が、この通信経路を経由して送信される。
無線通信は、例えばWi-Fi Alliance(米国業界団体)によって規定された国際標準規格(IEEE 802.11)のWi-Fi(ワイファイ、Wireless Fidelity)接続によって実現することが可能である。処理装置106は、例えば、作業端末102−1から送られてくる作業端末情報と撮影カメラ105で撮影された映像をそれぞれ別の方式で符号化し、一つの信号に結合したのちに、遠隔地にある処理装置109に送信を行う。処理装置106で行う符号化に関しては、例えば、カメラで撮影された映像に対してはH.264(国際標準動画圧縮規格)による符号化が行われ、作業端末102−1から送られた作業端末情報に対しては、情報が表示画面そのものである場合には同様にH.264(但し、撮影映像の符号化とは異なるパラメータにすることも可能)で符号化する。作業端末102−1から送られた作業端末情報がフォーム情報の場合はZIP(汎用の可逆符号化方式)によって符号化することが可能である。但し、符号化方式についてはこれに限定されるものではなく、元の情報より少ない情報に変換(圧縮)することができ、さらに受け取った情報を復元(復号)することができる方式であればよい。また、遠隔地への送信には、汎用の公衆網であるインターネットを介して通信をすることができ、例えばインターネットで標準的に使用されているプロトコルであるTCP/IPを使用することにより実現できる。なお、通信のプロトコルはUDP/IPであっても良い。
一方、遠隔地にあるもう一方のコミュニケーション端末Bでは、処理装置106より送られてきた通信データを受け取ると、元々の符号化されたデータに分割した後に、前述の処理装置106で行った符号化処理とは反対の処理(復号)を行い、元の信号を復元する。遠隔地側の処理装置109は、復元された撮影映像と作業端末102−1の表示画面を後述する方法に従って合成し、表示装置107に表示する。
表示装置107は例えばタッチパネルになっており、利用者がタッチした位置がわかるようになっている。合成された作業端末102−1の端末画像領域102−3を利用者103−1がタッチすると、後述する座標変換が行われ、作業端末102−1の表示画面に対応する座標が処理装置109で算出され、もう一方の処理装置106を経由して、作業端末102−1に送られる。作業端末102−1は送られてきたポインタ座標情報等に従い、作業端末102−1においてポインタマークを表示して遠隔地においてされたポインティング位置と対応する位置を提示することができる。
<ブロック構成例>
次に、本発明の第1の実施の形態におけるコミュニケーション端末と作業端末の構成例について図2と図3に示す機能ブロックを用いて説明する。
コミュニケーション端末Aは、前述した通り、表示装置100と撮影装置105、及び処理装置106からなるが、ここでは主に処理装置106の構成例について説明する。
図2に示すように、処理装置106(コミュニケーション端末Bの処理装置109も同様で良い。)は、映像や各種情報を外部に送信する送信ブロック200と、映像や各種情報を外部より受信する受信ブロック250とに、大きく分割することができる。
さらに、送信ブロック200は、端末姿勢検出部201と、符号化部1 202と、IF1 203と、受信部1 204と、符号化部2 205と、IF2 206と、ポインタ座標変換部207と、多重化部208と、送信部1 209、及びIF3 210より構成される。
そして、受信ブロック250は、IF4 251と、受信部2 252と、非多重化部253と、復号部1 254と、復号部2 255と、合成部256と、IF5 257と、送信部2 258、及び、IF6 259より構成される。
次に、作業端末の構成について図3の機能ブロック図を用いて説明する。作業端末102−1(図示していない利用者103−1の作業端末も同様で良い。)は、CPU300と、描画部301と、送信部3 302と、IF7 303と、IF8 304、及び受信部3 305より構成される。
<処理フロー>
次に、コミュニケーション端末および作業端末の処理の流れについて図4から図6までを用いて説明する。尚、コミュニケーション端末の処理フローについては、送信側と受信側を図4と図5に分けて別々に説明する。
[コミュニケーション端末 送信側の処理フロー]
まずは、コミュニケーション端末の送信処理について図4を参照しながら説明する。処理装置106は、処理が開始されると(開始)、ステップS100とS103とS105を例えば同時に起動させる。なお、処理装置106の内部には図示しない制御部(CPU)が設けられ、処理装置106の全体の処理を制御する。
(ステップS100:撮影) 処理装置106は、外部に接続された撮影装置105より撮影画像を受け取り、処理をステップS101とS102に進める。
(ステップS101:符号化1) 処理装置106は、前述の撮影画像を符号化部1 202に取り込む。符号化部1 202は、撮影画像を入力とし、元の符号量よりも少ない情報量になるように符号化(圧縮)を行う。符号化については、前述の通り、例えば動画像符号化に適したH264を用いて行うことができる。制御CPUはその後、処理をステップS106に進める。
(ステップS102:端末姿勢算出) 処理装置106は、前述の撮影画像を端末姿勢検出部201に取り込む。端末姿勢検出部201は、後述の方法により撮影画像から作業端末102−1の姿勢(「端末の姿勢」とは、撮影装置105から見た作業端末の姿勢で、回転行列と並進ベクトルを用いて表現される。詳細は後述する。以下、「端末姿勢情報」と呼ぶ。)を算出して、結果を多重化部208に出力する。制御部(CPU)は、その後に、処理をステップS106に進める。
(ステップS103:端末情報受信) 処理装置106は、外部の作業端末102−1から作業端末情報をIF1 203より取り込み、その情報を受信部1 204に入力する。受信部1 204は、作業端末情報を、符号化部2 205に出力する。制御CPUはその後、処理をステップS104に進める。
(ステップS104:符号化2) 符号化部2 205は、入力した作業端末情報が、作業端末の画面そのものである場合は、符号化部1 202で行う符号化と同様に動画像符号化に適したH264を用いて行うことができる(但し、符号化のパラメータは異なる設定をしても良い)。符号化部2 205は、入力した作業端末情報が、アプリケーションのフォーム情報の場合は、可逆圧縮であるZIPなどを用いて圧縮する。これは、符号化データを受け取った側が元の情報と同じものを再現する必要があるためで、可逆の符号化を用いる。符号化部2 205は、符号化データ(作業端末情報符号)を多重化部208に出力する。制御CPUはその後、処理をステップS106に進める。
(ステップS105:ポインタ座標変換) 処理装置106は、外部に接続の表示装置100からの画面タッチ位置(以下、「タッチ座標」と呼ぶ)に関する情報をIF2 206を介してポインタ座標変換部207に入力する。ポインタ座標変換部207は、IF2 206より入力したタッチ座標を後述の方法により作業端末102−1に対応した座標に変換する。ポインタ座標変換部207は、変換した座標(以下、「ポインタ座標」と呼ぶ)を多重化部208に出力する。制御CPUはその後、処理をステップS106に進める。
(ステップS106:多重化) 多重化部208は、端末姿勢検出部201より端末姿勢情報を受け取り、符号化部1 202より撮影画像符号を受け取り、符号化部2 205より作業端末情報符号を受け取り、ポインタ座標変換部207よりポインタ座標を受け取る。多重化部208は、これらを多重化(パッキング)し、一つの信号(以下、「符号化データ」と称する。)にして、送信部1 209に出力する。制御部(CPU)は、その後、処理をステップS107に進める。
(ステップS107:送信) 送信部1 209は、多重化部208より符号化データを受け取ると、送信用の加工を行い、符号化データをIF3 210を経由して外部のネットワークに送信する。その後、符号化データは、外部のもう一方の処理装置(例えば、処理装置109)に送られる。制御部(CPU)は、その後、処理をステップS108に進める。
(ステップS108:終了) 制御部(CPU)は、コミュニケーション端末Aにおける処理を終了させるか否かを判断し、処理を継続させる場合は、開始直後に戻り、S100、S103、S105以降の処理を繰り返し実行させる。制御部(CPU)は、処理を終了させる場合、全ての制御を完了させ端末を終了させる。
[コミュニケーション端末 受信側の処理フロー]
続いて、コミュニケーション端末の受信処理について説明する(図5参照)。処理装置106内の図示していない制御部(CPU)は、処理が開始されると(開始)、ステップS200の受信処理を実行する。なお、コミュニケーション端末の送信処理と受信処理は、お互いが独立して平行に実行されるものとする。
(ステップS200:受信) 処理装置106は、外部から符号化データを受信すると、IF4 251を経由して、受信部2 252に取り込む。受信部2 252は、入力した符号化データを非多重化部253に出力する。制御部(CPU)はその後、処理をステップS201に進める。
(ステップS201:非多重化) 非多重化部253は、受信部2 252より符号化データを受け取ると、前述の多重化部208が行ったパッキング処理とは逆の処理(アンパック処理)を実施する。非多重化部253は、アンパック処理によって、符号化データから、端末姿勢情報、撮影画像符号、作業端末情報符号及び、ポインタ座標を取りだす。非多重化部253は、端末姿勢情報を前述のポインタ座標変換部207とともに合成部256に出力し、撮影画像符号を復号部1 254に出力し、作業端末情報符号を復号部2 255に出力し、ポインタ座標を送信部2 258に出力する。制御部(CPU)は、その後、ステップS202とS203とステップS206の処理を起動させる。
(ステップS202:復号1) 復号部1 254は、非多重化部253より撮影画像符号を入力すると、前述の符号化部1 202で実施した符号化処理と逆の処理を実施し、元の信号を復号する。復号部1 254は復号した撮影画像を合成部256に出力する。制御部(CPU)は、その後、処理をステップS204に進める。
(ステップS203:復号2) 復号部2 255は、非多重化部253より作業端末情報符号を受け取ると、前述の符号化部2で実施した符号化処理と逆の処理を実施し、元の信号を復号する。復号部2 255は、復号した作業端末情報を合成部256に出力する。制御部(CPU)は、その後、処理をステップS204に進める。
(ステップS204:合成) 合成部256は、非多重化部253より端末姿勢情報、復号部1 254より撮影画像および、復号部2より作業端末情報を受け取る。合成部256は、復号部2 255より受けとった作業端末情報が画面を構成するためのフォーム情報である場合には、そのフォーム情報に従い画面を再構成し、端末表示画像を生成する。作業端末情報が端末表示画像である場合には、そのまま使用する。合成部256は、端末姿勢と撮影画像と端末表示画像を用いて最終的な合成画像を生成し、IF5 257を経由して合成画像を表示装置100に出力する。なお、合成処理については後述する。制御CPUはその後、処理をステップS205に進める。
(ステップS205:描画) 表示装置100は、IF5 257を経由して送られてきた合成部256が生成した合成画像を受け取ると、画面に表示を行う。制御部(CPU)は、その後、処理をステップS207に進める。
(ステップS206:送信) 送信部2 258は、非多重化部253よりポインタ座標を受け取ると、IF6 259を経由してポインタ座標を作業端末102−1に送信する。制御部(CPU)は、その後、処理をステップS207に進める。
(ステップS207:終了) 制御部(CPU)は、コミュニケーション端末を終了させるか否かを判断し、処理を継続させる場合は、開始直後の受信待機状態に戻り、S200以降の処理を繰り返し実行させる。制御部(CPU)は、処理を終了させる場合、全ての制御を完了させ端末を終了させる。
[作業端末 処理フロー]
最後に、作業端末102−1の処理について、図6を用いて説明する。
(ステップS300:アプリケーション起動) 作業端末102−1でアプリケーションを起動すると、CPU300は、アプリケーションの実行コードを開始する。図示していない制御部(CPU)は、その後、処理をS301に進める。なお、CPU300が作業端末102−1の制御の処理を兼ね備えてもよい。
(ステップS301:画面レンダリング) CPU300は、アプリケーション実行コードに従って、画面に描画する画像を生成し、描画部301にある描画メモリに画像を書き込む。制御部(CPU)は、その後、処理をステップS302に進める。
(ステップS302:作業端末情報送信) CPU300は、描画部301のメモリに書き込む情報に基づき作業端末情報(作業端末102−1の表示画面あるいはフォーム情報)を生成し、送信部3 302に出力する。送信部3 302は、入力した作業端末情報をIF7 303を介して外部のネットワークに出力する。制御部(CPU)は、その後、処理をステップS303に進める。
(ステップS303) 受信部3 305は、外部とのIFであるIF8 304を経由してポインタ座標(例えば、処理装置より送られるポインタ座標)を受け取ると、そのポインタ座標をCPU300に出力する。制御部(CPU)は、その後、処理をステップS304に進める。制御部(CPU)は、ポインタ情報を受け取らなかった場合、処理をステップS305に進める。
(ステップS304) CPU300は、受信部3 305よりポインタ座標を受け取ると、この座標に該当する位置(例えば図7の符号700)に所定のポインタマーク(例えば、矢印。図7の符号701)を描画メモリに上書きする(重畳して書き込む)。制御部(CPU)は、その後、処理をステップS305に進める。
(ステップS305) 描画部301は、描画メモリに書き込まれた情報に従い作業端末102−1の画面にステップS301で生成したアプリケーションの画面とS304で生成したポインタマークを描画する。制御部(CPU)は、その後、処理をステップS306に進める。
(ステップS306) 制御部(CPU)は、作業端末102−1あるいはS300で起動したアプリケーションを終了させるか否かを判断し、処理を継続させる場合は、S301以降の処理を繰り返し実行させる。制御部(CPU)は、処理を終了させる場合、全ての制御を完了させ端末を終了させる。
以上により、遠隔地の作業端末の画面を撮影映像に合成して表示を行い、さらに、ポイントした位置を作業端末にフィードバックさせて表示をさせることが可能になる。
<処理の説明>
続いて、端末姿勢検出部201、ポインタ座標変換部207、合成部256で行われる処理について詳細に説明する。
初めに、端末姿勢検出部201で実施する作業端末の姿勢検出処理について、図8から図11までを用いて説明する。
撮影カメラで取得した映像を用いて、プレート状の端末の姿勢を算出する方法については、種々存在する。例えば、端末の上にマーカーを付与し(貼りつけ)ておき、それを撮影して得られる画像内のマーカー形状から、そのマーカー、およびマーカーが貼り付けられた端末の姿勢を求めることができる。このような方法を用いた例として、「ARToolKit(http://www.hitl.washington.edu/artoolkit/)」がある。ここでは、この手法を用いて実現する方法について説明するが、その他の公知の手法を用いても良い。
図8に示すように、マーカー800は、その周囲を正方形もしくは長方形の黒枠801で囲まれており、黒枠801の内側に、マーカーと、そのマーカーの方向を一意に決めるための記号802を入れることもできる。
また、図9に示すように、そのマーカーを作業端末の筺体に物理的に貼り付けても良いし、あるいは、図10のように、作業端末の表示部に電子的に表示させても良い。
ところで、前述の手法に基づき、マーカー形状から姿勢を検出するためには、外枠の大きさ(縦・横)が実寸で必要となる。図10に示したように、画面にマーカーを表示して使用する場合には、画面内の1ピクセルの大きさから、表示されたマーカーの大きさを求めるか、あるいは、表示されたマーカーそのものを、直接物指し等で採寸しておく必要がある。
ここで、マーカーを撮影して得られた画像から、マーカーの姿勢(作業端末の姿勢は、マーカーの姿勢を求めることで算出することができ、そのときの位置のずれについては、マーカー中心位置から作業端末中心位置への物理的なずれ量を加味することで求めることができる)を算出する手順について、図11を用いて説明する。
撮影装置105の光軸原点をOとし、作業端末102−1に付与されたマーカー800(図11には、作業端末102−1や、マーカー内部の記号は図示していない)を撮影すると、撮影カメラ105の撮影面1100に四角形A’B’C’D’のように投影される。撮影面上のA’、B’、C’、D’は、マーカー4隅A、B、C、Dにそれぞれ対応した頂点である。ここで、マーカーの外枠であるABCDは長方形(あるいは、正方形)であるため、対面する辺(辺ABと辺DC、辺ADと辺BC)は平行で、そうでない辺(例えば、辺ABと辺ADなど)とは垂直になっている。この条件で、四角錐OABCDの向かい合う2つの側面の法線同士の外積を取るとそれらは直交することになり、さらに、その2つの外積ベクトルの外積を取ると、お互いに直交するベクトルとなる。具体的に記載すると、△OADと△OCBのそれぞれの面に垂直な法線の外積として求めたベクトルExと、△OABと△OCDのそれぞれの面に垂直な法線の外積として求めたベクトルEyの2つのベクトルがあり、さらにExとEyの外積として求まるEzがある。これらのベクトルは、それぞれお互いが直行するベクトルであり、マーカーの向きを示す基底ベクトルになりうる。ここまで、光軸原点Oとマーカー頂点ABCDを用いて説明を行ったが、投影面上の対応する頂点A’B’C’D’についても同様なことが言える(四角錐の側面を共有していることから明らかである)。
さらに、カメラ105の光軸原点Oからマーカー中心までの移動量(併進量)が決まれば、先ほどの3つの直行ベクトルを用いて、マーカー中心を起点とする座標軸(図11のマーカー座標軸XtYtZt)を規定することができる。
続いて、撮影カメラ105の光軸中心Oからマーカー中心に向かう併進量の算出方法について説明する。マーカー座標軸XtYtZtにおける3次元座標を(x、y、z)とし、撮影装置105の画像座標を(m、n)とすると、ピンホールカメラの幾何モデルに従い、その対応関係は、以下の様に表現することができる。
Figure 0006359333
ここで、Aは撮影装置105のカメラ内部行列で、RとTはマーカー座標系の3次元座標を撮影装置105の座標系(以下、「撮影座標系」と称する。)に変換するための回転行列と併進ベクトルをそれぞれ示している。
カメラの内部行列については、例えば、「コンピュータビジョン−視覚の幾何学−(コロナ社)6.1章 校正器具を使ったカメラ校正法」に記載の方法に従い、あらかじめ(オフラインで)算出しておくことができる。行列Rについては、前述の3軸の直交ベクトルより求まる回転行列である。
以上より、式1において、座標以外で未知のものは、併進ベクトルのT=(t1,t2,t3,1)Tだけとなる(未知数3)。従って、マーカー座標系における三次元位置と、それに対応する画像内の点の座標の組合せが3つ以上分かると、数値解析により併進量を算出することができることになる。
マーカー座標の3次元位置については、マーカーの4つの頂点を用いることができる。予めマーカーのサイズを求めているため、例えば、採寸したマーカーサイズが縦、横それぞれi、jcmであるとすると、各頂点の3次元位置はそれぞれ、点A(i/2、j/2、0)、点B(i/2、−j/2、0)、点C(−i/2、−j/2、0)、点D(−i/2、j/2、0)となる。これは、マーカーがマーカー座標のZ=0の面に貼りついていて、かつその中心が原点になっていることによる。最後に、撮影画像面1100における、四角形の頂点(A’、B’、C’、D’)の座標がわかれば、合計で4つの対応関係が分かることになり、式1を用いて、残りの併進ベクトルを算出することができることになる。撮影画像から、マーカーの4つの頂点の座標を求める方法は、既存の矩形検出による方法や、あるいは、その頂点位置が明確になるような、例えば特殊な色(原色の赤や緑や青、あるいはその2次色でもよい)をマーカーの四隅に付けておき、画像をしきい値処理することによりその座標を求めても良い。
以上により、回転行列Rと併進ベクトルTが求まるため、撮影装置105の座標系におけるマーカーの姿勢を算出することができる。また、そのマーカー位置を起点に、作業端末の姿勢及び位置を確定させることも前述の通り可能である。
続いて、合成部256で行われる合成処理について説明する。合成処理は、端末画像を配置させる3次元位置と端末画像の大きさを決めることができれば、上記式1を用いることで、撮影画像内の合成位置(合成画像の投影位置)が決まり、元々存在していたように合成することが可能である。詳細は後述する。
ところが、合成する端末画像はコンピュータで扱う電子データであり、マーカー座標上に実際に配置させることや、元々大きさの概念がないため、採寸することもできない。ここでは、これらの値を仮想的に設定するものとする。例えば、合成する端末画像の大きさを、縦W(cm)、横H(cm)と設定する。実際には、作業端末102−1の画面サイズを基準に、所定の倍率で拡大したときの大きさを用いても良いし、あるいは、パラメータとして外部より入力して任意に設定できるようにしても良い。また、前述したマーカーの中心位置に端末画像を合成すると仮定すると、合成する端末画像の四隅は、マーカー座標系の座標で表現すると、(−W/2、−H/2、0)、(−W/2、+H/2、0)、(+W/2、+H/2、0)、(+W/2、−H/2、0)となる(電子データがマーカーの存在する面に張り付いていると考えるため、Z座標は0となる)。この四隅の3次元座標を式1に代入すると、それに対応する画素位置を求めることができる(行列A,R、ベクトルTは前述の方法で既に求めているため)。以上により、撮影画像内に合成する4隅の座標(合成先画像座標)を決めることができる。
次に、この合成先画像座標(4点)と端末画像(4点)との間の対応関係を記述する必要がある。その対応関係の記述は、ホモグラフィ変換を用いることで表現することが可能である。ホモグラフィ変換とは、ある平面を、射影変換を用いて別の平面に変換する方法で、ホモグラフィ行列を用いて実現する。つまり、合成先の座標と合成元である端末画像の画素の座標を相互に変換させることができるようになるということである。なお、ホモグラフィ行列の算出は、コンピュータビジョンの汎用APIであるOpenCV(Open Source Computer Vision Librar、オープンソースのコンピュータビジョン向けのライブラリ)の関数(cvFindHomography)を用いて実現することができる。
例えば、図12に示すように、端末画像の画像サイズがP画素(横)×Q画素(縦)、すなわち四隅の画素位置がA(1、1)、B(1、Q)、C(P、Q)、D(P、1)で(図12(a))、合成先の四隅の画素位置がA’(mA’、nA’)、B’(mB’、nB’)、C’(mC’、nC’)、D’(mD’、nD’)となる場合(図12(b))、ホモグラフィ行列Hを用いると以下の様に座標変換を表すことができる。但し、座標(m、n)は端末画像における座標で、座標(m’、n’)は合成先の撮影画像における座標を示しているものとする。
Figure 0006359333
以上により、端末画像の4隅とそれに対応する合成画像位置の4隅の対応関係より、その内部の画素位置も含めて、このホモグラフィ行列によって求めることが可能で、間は線形補間によって埋めることにより、画素抜けなく合成画像を生成することができる。また、上述の撮影空間における端末画像の4隅の3次元位置を所定の変位量でシフトしたり(撮影空間でのシフト)、あるいは、合成画像位置を所定の変位量でシフト(撮影画像でのシフト)したりすることにより、マーカーの中心位置とは異なる別の位置に端末画像を合成することも可能である。シフト量については、外部より固定値として入力しても良いし、撮影画像を画像解析することにより求めても良い。
最後に、ポインタ座標変換部207のポインタ座標変換方法について説明する。ポインタ座標の変換については、表示装置107に表示されている画像上の点の位置を作業端末102−1の表示座標に変換する処理である。これについても、式2を利用することが可能で、前述した式2による変換とは逆の処理を行うことで実現することができる。
次いで、この座標の変換について説明をする。まず、図1の利用者103−1が画面に対してポインティングした位置は、表示装置107の表示座標系における座標(画面ポインタ座標)となる。表示装置107には、前述の通り、相手側の実写映像と共に作業端末102−1の端末画像が合成されており、その合成された端末画像の内部をポインティングしていることを判断する必要がある。つまり、図12(b)において、頂点A’、B’、C’、D’を結ぶ、点線領域の内部にポインティングした位置が存在するか否かである。
ポインティング位置がこのような領域内である場合、表示装置107の座標を後述のように端末画像の座標に変換する。一方、ポインティング位置が、点線領域の内部にない場合は、ポインタ座標変換部207からの出力をポインタ座標が存在しないことを示す信号を出力するものとする。
いま、画面ポインタ座標が合成した端末画像の範囲内に存在しているものとして、上記式2を変形した式3を用いることで、撮影画像の座標から端末画像の座標を取得することができるようになる。
Figure 0006359333
ここで、座標(m、n)は端末画像における座標で、座標(m’、n’)は合成後の撮影画像における座標を表しているものとする。また、H*−1は前述のホモグラフィ行列の逆行列である。
以上、表示装置107に表示された画像の点(画面座標)を作業端末102−1の端末画像の点(以下、端末ポインタ座標と呼ぶ)に変換することができ、この端末ポインタ座標をポインタ座標変換部207から出力することにより、最終的に作業端末にその情報が送られ、作業端末の画面上に遠隔地の利用者の指し示している位置を表示することが可能となる。なお、前述の通り、図1には、利用者103−1が使う作業端末については図示していないが、同様な仕組みを用いて、利用者101−1が表示装置100に向かってポインティングした内容をこの作業端末に表示させることも可能である。
以上、第1の実施形態により、作業端末で行う作業の内容を、撮影映像の中にあたかも存在しているように合成した映像を用いて、遠隔コミュニケーションすることが可能になる。また、遠隔地から、その合成された作業端末画像の内側をポインティングすると、そのポインティングされた位置が遠隔地にある作業端末に表示され、共同作業者がどこを指し示しているのかが視覚的にわかるようになる。
(第2の実施の形態)
第2の実施形態では、作業端末を扱う側(図1の利用者101−1の側)の撮影画像を解析することにより、端末画像の合成位置を制御する方法について示す。
はじめに、本実施の形態の効果について、図13を用いて説明する。図13は、本実施の形態の処理を行わなかった場合と、実施した場合の違いを明示的に示した図で、(a)が合成位置のシフトを行わなかった例で、(b)が合成位置のシフトを行った例である。このイメージ図からも明らかなように、(a)では、利用者101−2の上に端末画像1300が重なり、利用者101−2の表情を確認できないという問題が発生している。一方、図13(b)のように制御した場合、そのような問題が発生せずに、利用者101−2の表情と合成画像の両方を同時に確認することができ、全体的に見やすくなっている。
ところで、第1の実施の形態において、端末画像を合成する画素位置を式1によって記述できることを示した。ここでは、式1における入力側の座標(x、y、z)、もしくは、出力側の座標(m、n)を何らかの法則に従いシフトすることで、合成位置を制御するものとする。前者は3次元空間内でのシフト(移動)を意味し、後者は画像空間内でのシフト(移動)を意味する。いずれであっても、本実施形態の目的である合成位置を制御することができる。式1をベースに、それぞれを数式化すると、前者の方法は式4のように、後者の方法は式5−1のようになる。
Figure 0006359333
Figure 0006359333
この(s、s、s)、もしくは(s、s)を、後述する画像解析により決定し、より良い位置に合成を行うことが本実施例の目的である。ここで、より良い位置とは、遠隔コミュニケーションにおいて意味のある画像領域を遮蔽しないような位置のことである。
次いで、第2の実施形態を実現する方法について説明する。第2の実施形態における処理ブロック構成は、第1の実施形態と同じであるため、以下は図2を用いて説明する。
第2の実施形態と第1の実施形態の相違点は、端末姿勢検出部201で行う処理の違いである。前述の通り、端末姿勢検出部201は、作業端末に付与されたマーカーに基づき、端末自身の姿勢(前述の回転行列R及び併進ベクトルT)を求めているが、ここでは、さらに、撮影画像を解析し、前述のシフト量を加味して姿勢を求める点が異なる。シフト量の算出は、前述のように、遠隔コミュニケーションにとって意味のある画像領域を遮蔽しないように求めるが、ここでは、人物の顔領域をそのような領域として例示する。遠隔コミュニケーションにとって、遠隔地の相手の表情は重要な要素の一つであるといえる。従って、撮影画像の中から、遠隔地の相手の顔領域を検出し、このような領域に、端末画像が重ならないように制御することで、前述したような効果を実現することができる。
端末姿勢検出部201は、撮影画像を入力すると画像内の顔領域の検出を行う。顔領域の検出については、様々な方法が提案されており、画像の中から顔領域を抽出し、その中心座標を得ることができる手法であればどのような方法を用いても良い。例えば、前述のOpenCVにも、顔領域を抽出することができるAPI(cvHaarDetectObjects、http://opencv.jp/sample/object_detection.htmlにあるサンプルコードを参照)が実装されており、それを用いることができる。いま、このAPIを用いて抽出された顔領域の座標を(Xface、Yface)とすると、端末画像を合成する4隅の位置がA’(mA’、nA’)、B’(mB’、nB’)、C’(mC’、nC’)、D’(mD’、nD’)である場合に、そのシフト量(s、s)を以下の様に算出することができる。
Figure 0006359333
ここで、(mA’B’C’D’、 nA’B’C’D’)は、四角形A’B’C’D’の重心位置を示し、αはシフト量を制御する固定値である。
以上により、遠隔コミュニケーションにとって重要な領域である遠隔地の相手の顔領域と、合成する端末画像との重なりを避けることが可能になる。なお、重要領域については、人物の顔に特定するものではなく、例えば背景差分により抽出した前景領域を重要領域とし、その領域を顔領域と同様に扱い、重なりを避けるように合成位置をシフトしても良い。
(第3の実施の形態)
第3の実施形態は、作業端末を扱う側(図1の利用者101−1の側)の撮影画像を解析することにより、作業端末102−1の上に添えられた利用者101−1の手などを画像として取り出し、合成する端末画像の上にさらに重畳して表示するものである。これにより、もう一方の利用者である103−1が、端末の上に差し出された利用者101−1の手の位置を視覚的に確認することができるようになる。
図14が、本実施形態の効果を示すイメージ図になる。単に端末画像を合成した場合が(a)であり、この場合、合成された端末画像102−3を見ただけでは、遠隔地の利用者がどこを指さしているかを確認することはできない。それを確認するためには、一々、遠隔地利用者を映した利用者101−2と、端末を映した作業端末102−2と、を確認しながら、合成画像102−3を見る必要がある。一方、本実施形態によると、合成画像は(b)のようになり、一目で遠隔地の利用者101−2がどこを指し示しているかが分かるようになる(符号1300)。
以下に、実現方法について説明する。なお、本実施形態の処理ブロック構成は、第1の実施形態と同じであるため、図2を用いて説明する。そして、第3の実施形態と第1の実施形態の相違点は、合成部256で行われる合成処理である。
合成部256は、非多重化部253より端末姿勢と、復号部1 254より撮影画像と、復号部2 255より端末表示画像と、を受け取る。合成部256は、前述した合成処理を実施するのと同時に、さらに、合成前の撮影画像の中から遠隔地の端末102−1を映した端末領域を抽出する。撮影された画像の中から特定の領域である端末領域を抽出する方法はさまざまあるが、ここでは、マーカーを撮影した画像を解析して得られた式1をそのまま使うこととする。つまり、マーカー座標系における作業端末の画面四隅の3次元座標を、式1に代入して求まる画像座標を用いて抽出することとする。他の方法として、端末画像四隅を含む局所領域をテンプレート(教師データ)とし、テンプレートマッチングすることによって、画素位置を求めることも可能である。テンプレートマッチングの方法は汎用の手法を用いることができる。
以上、端末を映した端末表示面の四隅の画素位置が分かるので、それに対応する端末画像の四隅の点との間で、前述のようにホモグラフィ行列を算出することができ、そのホモグラフィ行列の逆行列を用いて射影変換される前の端末画像の画素位置を求めることもできる。
いま、撮影装置105で撮影した画像内の画素P(=(m、n))における画素値をI(P)とし、かつ、その画素位置Pが作業端末102−1を映した画像域に属する画素であるものとする。また、画素Pに対応する端末画像の座標は前述のホモグラフィ行列の逆行列より求まり(式5−3のH※−1(・)の部分にあたる)、その座標における端末画像の画素値をI(・)とする。上記二つの画素値の差の絶対値を算出し、特徴量C(P)を求める(式5−3)。
Figure 0006359333
特徴量C(P)は、撮影画像内にある作業端末の表示画面に表示されている内容と、端末画像の内容が大きく異なる場合に、その値が大きくなる特性がある。従って、特徴量C(P)の大きくなる領域は、端末の前に何らかの物体(例えば、作業端末を利用している人の手など)が存在していると判断することができる。
そこで、式5−3によって算出した値が所定の閾値以上の領域(撮影画像において端末表示画像と異なっている領域。すなわち、端末の画面の上に手などが重なっている領域)に関しては撮影画像の画素値を選択して合成を行い、そうではない領域については端末画像を選択して合成するものとする。
以上により、図14(b)に示したように、合成する端末画像の内部に利用者101−2の手の位置を重ねて表示することが可能となり、利用者101−2が端末画像内のどの部分を指し示しているかが視覚的に分かるようになる。
(第4の実施の形態)
第4の実施形態は、前述したマーカーを作業端末に付与する代わりに、作業端末に表示される画像を用いて作業端末の姿勢と位置を算出するものである。つまり、作業端末に表示されている端末画像をマーカーの代替とする。
はじめに、マーカーを用い、それが付与された物体の姿勢と位置を算出可能にするための条件は、1)前述のマーカー座標系において、三次元座標を決めることができる点が4点あること、2)これらの点を結んで形成される四角形が長方形あるいは正方形になること、3)撮影画像において、これらの点に対応する画素の座標を取得できること、である。上記3つの条件が揃うと、前述のように、撮影画像空間における4点からなる平面の姿勢と、撮影カメラ原点を基準とする3次元位置と、を特定することができるようになる。
しかしながら、作業端末に表示されている端末画像のみから、上記条件を満足する点を常に求めることは難しい。なぜなら、表示される端末画像の中に矩形状の図形が常に存在するということはなく、また、端末の画面四隅をそのような点と捉えたとしても、撮影画像の中から画面4隅を常に検出し続けることも容易ではないためである。
そこで、本実施の形態では、作業端末に表示されている画像内の特徴的な点を用いて、上記条件を満足する4つの点を仮想的に作り出すことで実現する。端末画像内の特徴的な点(以下、特徴点と称す)を抽出する方法は、例えば、前述のOpenCVのORB特徴点検出器(cv::OrbFeatureDetector)を使用することで実現できる。特徴点の抽出方法は、この手法に限定するものではない。同様に、撮影カメラで取得した画像に対しても、同じ特徴を持つ特徴点を抽出する。
図15が、撮影画像(a)と端末画像(b)において抽出された特徴点の位置を示す図で、特徴点1500−1は特徴点1500−2と、特徴点1501−1は特徴点1501−2と、特徴点1502−1は特徴点1502−2と、特徴点1503−1は特徴点1503−2と、それぞれ対応している。これらの特徴点の位置には制限がなく、検出しやすく、かつ、対応する点の信頼性の高いものを選んでやればよい。
以上、対応の取れた点群を2つの画像の中から抽出することができたので、前述した式2に適用することができるホモグラフィ行列を作ることができる(前述のopenCVの関数cvFindHomographyを用いて算出可能)。いま、端末画像(b)の特徴点を入力とし、それに対応する撮影画像(a)の特徴点に向けてのホモグラフィ行列をH t2cとすると、その変換は次式で記述することができる。
Figure 0006359333
この式により、端末画像内のある点(m、n)を撮影画像の対応する点(M、N)に変換することができるようになる。つまり、端末画像内での位置が決まれば、それに対応する撮影画像内の位置を求めることができるということである。
続いて、図16に示したように、端末画像(b)の中に、仮想的な4つの点(1600−1〜1603−1)を設定する。この4つの点は、前述したような特徴点検出器で検出された点でなくても良く、点同士を結ぶと矩形になるような点であれば良い。ここでは、そのような点として、画像の4隅の点を用いることとする。
式6を用いて、4つの点を変換すると、図16の(a)に示したように、撮影画像において対応する点1600−2〜1603−2の位置を求めることができる。このとき、対応する点が、他の前景の物体に隠れるような場合であっても、その位置を求めることができるということが特徴である(例えば、1600−2)。以上、仮想的な点ではあるが、端末画像内の4つの点と、撮影画像内の4つの対応する点の座標を取得することができる。この4つの点は、作業端末と一体になった画面4隅の点であるため、作業端末の座標系が画面の中心にあると考えると、その画面サイズより、その3次元位置を設定することもできる。また、4点は、端末画像の4隅になるように設定したため(端末表示面は通常矩形であるため)、それらを結んでできる図形は矩形である。また、最後に、撮影画像において対応する点についても前述のように求めることができる。つまり、前述した3つの条件を全て満足したことになり、これにより端末の姿勢と位置を算出できることになる。
以上、マーカーを付与することなく、作業端末に表示された端末画像のみから、端末の姿勢と位置を算出できるようになる。
(第5の実施の形態)
第5の実施形態は、作業端末自身に、姿勢を検知するセンサーを備え、第1の実施の形態に記載した端末姿勢検出部201の姿勢検出結果を補正、あるいは、置き換えるものである。近年タブレットには、角速度センサーやジャイロセンサーを用いて自身の傾きを検知したり、あるいは、GPS(Global Positioning System)等を用いて自身の位置を特定したり、することができるセンサーを備えている。本実施形態では、それらの情報を活用するものである。タブレットに備わるセンサーからこれらの情報を取得すためのAPIとして、例えば、マクロソフト社が提唱しているSensor APIを用いることもできる。
ところで、端末自身のセンサーで取得した端末の傾きや位置は、センサーが持つ座標系になるため、本システムに合わせた座標系(前述のカメラ座標系)に変換して利用する必要がある。以下、図17を用いてその方法について具体的に説明する。
はじめに、システム起動時に行うキャリブレーションについて説明する。マーカーを含めて撮影した画像を解析することでタブレットの姿勢を算出できることは前述した。このときの、端末の姿勢を表現する回転行列と併進ベクトルをそれぞれR(0)、T(0)とすると、このときの、回転行列と併進ベクトルを用いると、キャリブレーション時のマーカー座標系1701にある点P(0)をカメラ座標系1700の点Pに変換することができる(符号1703)。また、同時に、端末自身のセンサーを用いて、端末の姿勢を表現する回転行列と併進ベクトルを求め、それらをR(0)、T(0)とすると、このときの回転行列と併進ベクトルは、キャリブレーション時のマーカー(タブレット)座標系1701にある点P(0)をセンサー座標系1702に変換するものである(符号1704)。また、センサー座標系の点をマーカー座標系の点に変換するためには、符号1704の変換の逆を行えばよい(符号1705)。以上がキャリブレーション時に実施する内容である。
続いて、キャリブレーション時に取得した回転行列と併進行列を用いて、逐次求まる端末の回転行列と併進ベクトルを本システムに合わせた座標系に変換する方法について説明する。
いま、ある時刻nにおいて、端末に備わるセンサーを用いて取得した端末の回転行列と併進行列をそれぞれR(n)、T(n)とすと、この回転行列と併進行列を用いると、時刻nにおけるマーカー座標系の点P(n)をセンサー座標系の座標P(n)に変換することができる(符号1704、式7)。
Figure 0006359333
ここで、センサー座標系が時刻nによらず不変であるとすると、キャリブレーション時の回転行列R(0)と併進ベクトルT(0)を用いて、符号1705の変換を行うことで、キャリブレーション時のマーカー座標系の点P(0)を求めることができる(式8)。
Figure 0006359333
ここで、キャリブレーション時の回転行列R(0)と併進ベクトルT(0)を用いて、符号1703の変換を行うとカメラ座標系の点を取得できることを示したので、式8に対しても同様な変換を行う(式9)。
Figure 0006359333
以上により、キャリブレーション時に取得した姿勢情報と、時刻nにおいて端末に備わるセンサーから取得した姿勢情報とから、時刻nにおける、回転行列R(n)と併進行列T(n)を算出することができるようになる。
最後に、前述の端末姿勢検出部201の姿勢検出結果を補正、あるいは、置き換える方法について説明する。この方法はさまざま考えられるが、例えば、端末姿勢検出部201の姿勢検出処理においてマーカーをうまく検出できなかったときに、式7による回転行列R(n)と併進行列T(n)を切り替えて用いるようにしても良いし、あるいは、外部よりパラメータを入力して、手動で端末姿勢検出部201の結果と、式7による結果を切り替えても良い。
以上、本実施の形態では、端末に備わるセンサーからの情報を活用し、前述した端末姿勢検出部201で行う姿勢検出結果を補正したり、置き換えることができるようになる。
(第6の実施の形態)
<第1から第5までの実施形態について>
上記の各実施例において、添付図面に図示されている構成等については、あくまで一例であり、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
上記の各実施例の説明では、機能を実現するための各構成要素をそれぞれ異なる部位であるとして説明を行っているが、実際にこのように明確に分離して認識できる部位を有していなければならないわけではない。上記の各実施例の機能を実現する遠隔コミュニケーション装置が、機能を実現するための各構成要素を、例えば実際にそれぞれ異なる部位を用いて構成していてもかまわないし、あるいは、全ての構成要素を一つのLSIに実装していてもかまわない。すなわち、どういう実装形態であれ、機能として各構成要素を有していれば良い。
また、上記の各実施例で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
本発明はコミュニケーション装置として利用可能である。
X…テレ(遠隔)コミュニケーションシステム、100…表示装置、105…撮影装置、106…処理装置、102−1…作業端末、103−1…利用者。
本発明は、以下の開示を含む。
(付記)
(1)
第1の撮像装置と、第1の処理装置と、第1の表示装置と、端末装置である作業端末と、を有する第1のテレコミュニケーション装置と、
第2の撮像装置と、第2の処理装置と、第2の表示装置と、を有する第2のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、
前記第1の処理装置は、
前記第2の撮像装置で取得した撮像画像を受け取ると、前記第1の表示装置に表示し、
前記第2の処理装置は、
前記第1の撮像装置において取得した撮像画像と、前記第1の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第2の表示装置に表示し、
前記作業端末は、前記第2の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
テレコミュニケーションシステム。
作業端末情報は、表示画面そのもの、あるいは、前記表示画面をレンダリングすることができるアプリケーションのフォーム情報である。
端末姿勢情報は、前記第1の撮影装置から見た回転行列と並進ベクトルを用いて表現したされる。
上記の遠隔ビデオコミュニケーションにおいて、撮影された映像の中に違和感なく作業端末で扱う電子データを合成して、遠隔地の相手に送信することができるようになる。また、合成された電子データの上を別の利用者がポインティングするとその内容が遠隔にある作業端末に反映され、遠隔の利用者がどこを指し示しているかが視覚的に分かるようになる。
(2)
前記第1の処理装置は、
前記第1の撮像装置において取得した撮影画像と、前記端末姿勢情報と、前記作業端末情報と、を取得し、
これらを1つの情報にパッキングし、前記第2の処理装置に送信すること
を特徴とする、(1)に記載のテレコミュニケーションシステム。
(3)
前記第2の処理装置は、
前記第2の撮像装置において取得した撮影画像と、前記ポインタ座標と、を取得し、
これらを1つの情報にパッキングし、前記第1の処理装置に送信すること
を特徴とする、(1)又は(2)に記載のテレコミュニケーションシステム。
(4)
前記第2の処理装置は、
合成画像において、前記作業端末情報に基づいて生成された端末表示画像が、前記撮像画像の特定領域と重ならないように合成する位置を異ならせること
を特徴とする(1)から(3)までのいずれか1に記載のテレコミュニケーションシステム。
特定領域は例えば顔などの特徴点を含む主要領域である。
(5)
前記第2の処理装置は、
前記撮像画像の特定領域と重ならないように前記端末表示画像を合成する際に、前記第1の撮像装置において取得した撮影画像内の顔領域を検出し、その位置に重ならないように、合成する位置を異ならせること
を特徴とする(4)に記載のテレコミュニケーションシステム。
(6)
前記第2の処理装置は、
合成対象の画像とそれに対応する撮影画像との差の絶対値を算出する手段と、
前記算出した絶対値が所定のしきい値と比較をして大きくなる場合に合成先の撮影画像を合成対象の画像上にさらに重畳すること
を特徴とする(1)から(3)までのいずれか1に記載のテレコミュニケーションシステム。
合成する端末画像の内部に利用者の手の位置を重ねて表示する等が可能となり、作業者が端末画像内のどの部分を指し示しているかが視覚的に分かるようになる。
(7)
前記端末装置の姿勢を検出する手段において、
前記作業端末情報に基づいて生成された端末画像の特徴点を算出する手段と、
前記特徴点に基づいて、さらに前記特徴点以外の仮想的な頂点を推定する手段と、
前記推定した頂点に基づき前記端末装置の姿勢を検出する
ことを特徴とする(1)から(6)までのいずれか1に記載のテレコミュニケーションシステム。
(8)
前記端末装置の姿勢を検出する手段は、
前記端末装置にマーカーを付し、前記第1の撮像装置により撮影した画像内の前記マーカーの形状に基づいて姿勢を求めることを特徴とする(7)に記載のテレコミュニケーションシステム。
端末上にマーカーを付与し(貼りつけ)ておき、撮影した画像内のマーカーの形状よりプレート形状の端末の姿勢を求めることができる。
(9)
前記第2の表示装置に表示する合成画像を生成する際に、
前記合成画像の4隅の座標と、それに対応する前記端末画像の4隅の座標と、の対応関係を、ホモグラフィ変換を用いることにより求めることを特徴とする(1)から(8)までのいずれか1に記載のテレコミュニケーションシステム。
(10)
前記表示装置に表示された画像の画面座標を前記端末画像の座標にホモグラフィ行列の逆行列を算出することを変換することを特徴とする(1)から(9)までのいずれか1に記載のテレコミュニケーションシステム。
(11)
前記端末姿勢情報を補正する、姿勢検知センサーを備えることを特徴とする(1)から(10)までのいずれか1に記載のテレコミュニケーションシステム。
端末姿勢検出結果を補正することでより正確な姿勢情報を得ることができる。
(12)
第1の撮像装置と、第1の処理装置と、第1の表示装置と、端末装置である作業端末と、を有する第1のテレコミュニケーション装置と、
第2の撮像装置と、第2の処理装置と、第2の表示装置と、を有する第2のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、
前記第1の処理装置は、
前記第2の撮像装置で取得した撮像画像を受け取ると、前記第1の表示装置に表示し、
前記第2の処理装置は、
前記第1の撮像装置において取得した撮像画像と、前記第1の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第2の表示装置に表示し、
前記作業端末は、前記第2の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
端末装置。
(13)
第1の撮像装置と、第1の処理装置と、第1の表示装置と、端末装置である作業端末と、を有する第1のテレコミュニケーション装置と、
第2の撮像装置と、第2の処理装置と、第2の表示装置と、を有する第2のテレコミュニケーション装置と、
がネットワーク接続されたテレコミュニケーションシステムにおける第1のテレコミュニケーション装置であって、
第1の処理装置は、
前記第2の撮像装置で取得した撮像画像を受け取ると、前記第1の表示装置に表示し、
前記第2の処理装置は、
前記第1の撮像装置において取得した撮像画像と、前記第1の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第2の表示装置に表示し、
前記作業端末は、前記第2の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
第1のテレコミュニケーション装置。
(14)
第1の撮像装置と、第1の処理装置と、第1の表示装置と、端末装置である作業端末と、を有する第1のテレコミュニケーション装置と、第2の撮像装置と、第2の処理装置と、第2の表示装置と、を有する第2のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムによるテレコミュニケーション方法であって、
前記第1の処理装置は、
前記第2の撮像装置で取得した撮像画像を受け取ると、前記第1の表示装置に表示し、
前記第2の処理装置は、
前記第1の撮像装置において取得した撮像画像と、前記第1の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第2の表示装置に表示し、
前記作業端末は、前記第2の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
テレコミュニケーション方法。
(15)
上記(14)に記載のテレコミュニケーション方法をコンピュータに実行させるためのプログラム。

Claims (7)

  1. 第1の撮像装置と、第1の処理装置と、第1の表示装置と、端末装置である作業端末と、を有する第1のテレコミュニケーション装置と、
    第2の撮像装置と、第2の処理装置と、第2の表示装置と、を有する第2のテレコミュニケーション装置と、がネットワーク接続されたテレコミュニケーションシステムであって、
    前記第1の処理装置は、
    前記第2の撮像装置で取得した撮像画像を受け取ると、前記第1の表示装置に表示し、
    前記第2の処理装置は、
    前記第1の撮像装置において取得した撮像画像と、前記第1の処理装置あるいは前記作業端末において算出した端末姿勢情報と、前記作業端末において生成された作業端末情報と、に基づき生成された合成画像を前記第2の表示装置に表示し、
    前記作業端末は、前記第2の表示装置に表示された前記合成画像を生成する際に用いた合成位置に基づき生成されたポインタ座標を受け取ると、その座標に該当する位置にポインタマークを前記作業端末の表示部に描画する、
    テレコミュニケーションシステム。
  2. 前記第1の処理装置は、
    前記第1の撮像装置において取得した撮影画像と、前記端末姿勢情報と、前記作業端末情報と、を取得し、
    これらを1つの情報にパッキングし、前記第2の処理装置に送信すること
    を特徴とする、請求項1に記載のテレコミュニケーションシステム。
  3. 前記第2の処理装置は、
    前記第2の撮像装置において取得した撮影画像と、前記ポインタ座標と、を取得し、
    これらを1つの情報にパッキングし、前記第1の処理装置に送信すること
    を特徴とする、請求項1又は2に記載のテレコミュニケーションシステム。
  4. 前記第2の処理装置は、
    合成画像において、前記作業端末情報に基づいて生成された端末表示画像が、前記撮像画像の特定領域と重ならないように合成する位置を異ならせること
    を特徴とする請求項1から3までのいずれか1項に記載のテレコミュニケーションシステム。
  5. 前記第2の処理装置は、
    前記撮像画像の特定領域と重ならないように前記端末表示画像を合成する際に、前記第1の撮像装置において取得した撮影画像内の顔領域を検出し、その位置に重ならないように、合成する位置を異ならせること
    を特徴とする請求項4に記載のテレコミュニケーションシステム。
  6. 前記第2の処理装置は、
    合成対象の画像とそれに対応する撮影画像との差の絶対値を算出する手段と、
    前記算出した絶対値が所定のしきい値と比較をして大きくなる場合に合成先の撮影画像を合成対象の画像上にさらに重畳すること
    を特徴とする請求項1から5までのいずれか1項に記載のテレコミュニケーションシステム。
  7. 前記端末装置の姿勢を検出する手段において、
    前記作業端末情報に基づいて生成された端末画像の特徴点を算出する手段と、
    前記特徴点に基づいて、さらに前記特徴点以外の仮想的な頂点を推定する手段と、
    前記推定した頂点に基づき前記端末装置の姿勢を検出する
    ことを特徴とする請求項1から6までのいずれか1項に記載のテレコミュニケーションシステム。
JP2014097889A 2014-05-09 2014-05-09 テレコミュニケーションシステム Expired - Fee Related JP6359333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014097889A JP6359333B2 (ja) 2014-05-09 2014-05-09 テレコミュニケーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014097889A JP6359333B2 (ja) 2014-05-09 2014-05-09 テレコミュニケーションシステム

Publications (2)

Publication Number Publication Date
JP2015215745A JP2015215745A (ja) 2015-12-03
JP6359333B2 true JP6359333B2 (ja) 2018-07-18

Family

ID=54752577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014097889A Expired - Fee Related JP6359333B2 (ja) 2014-05-09 2014-05-09 テレコミュニケーションシステム

Country Status (1)

Country Link
JP (1) JP6359333B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6339609B2 (ja) * 2016-02-23 2018-06-06 ヤフー株式会社 画像処理装置、画像処理方法及び画像処理プログラム
KR102330090B1 (ko) * 2016-04-22 2021-11-24 인터디지털 씨이 페이튼트 홀딩스, 에스에이에스 이미지를 합성하기 위한 방법 및 디바이스
JP6866646B2 (ja) * 2017-01-16 2021-04-28 オムロン株式会社 センサ支援システム、端末、センサおよびセンサ支援方法
WO2018230160A1 (ja) 2017-06-12 2018-12-20 ソニー株式会社 情報処理システム、情報処理方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08139994A (ja) * 1994-11-09 1996-05-31 Hitachi Ltd 画像合成システム
JP4553362B2 (ja) * 2005-01-31 2010-09-29 キヤノン株式会社 システム、画像処理装置、情報処理方法
JP4677269B2 (ja) * 2005-04-08 2011-04-27 キヤノン株式会社 情報処理方法およびシステム
JP4738870B2 (ja) * 2005-04-08 2011-08-03 キヤノン株式会社 情報処理方法、情報処理装置および遠隔複合現実感共有装置
JP4933164B2 (ja) * 2005-07-01 2012-05-16 キヤノン株式会社 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP2010217719A (ja) * 2009-03-18 2010-09-30 Ricoh Co Ltd 装着型表示装置、その制御方法及びプログラム

Also Published As

Publication number Publication date
JP2015215745A (ja) 2015-12-03

Similar Documents

Publication Publication Date Title
US9940720B2 (en) Camera and sensor augmented reality techniques
EP2700040B1 (en) Color channels and optical markers
JP6230113B2 (ja) 撮影動画像に指示画像を同期して重畳する映像指示同期方法、システム、端末、及びプログラム
JP6359333B2 (ja) テレコミュニケーションシステム
US11006042B2 (en) Imaging device and image processing method
JP7441926B2 (ja) 映像コーディングを行うコンピュータプログラム
JPWO2021076757A5 (ja)
WO2017013986A1 (ja) 情報処理装置、端末、および、遠隔通信システム
EP3465631B1 (en) Capturing and rendering information involving a virtual environment
JP2018033107A (ja) 動画の配信装置及び配信方法
JP6412685B2 (ja) 映像投影装置
JP6091850B2 (ja) テレコミュニケーション装置及びテレコミュニケーション方法
CN111093096A (zh) 视频编码方法及装置、存储介质
JP6146869B2 (ja) 撮影動画像に指示画像を同期して重畳する映像指示表示方法、システム、端末、及びプログラム
JP5326816B2 (ja) 遠隔会議システム、情報処理装置、及びプログラム
JP2014086773A (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP6830112B2 (ja) 投影適否検知システム、投影適否検知方法及び投影適否検知プログラム
JP2018032991A (ja) 画像表示装置、画像表示方法及び画像表示用コンピュータプログラム
JP6156930B2 (ja) 撮影動画像に指示画像を重畳することができる映像指示方法、システム、端末、及びプログラム
US20240087157A1 (en) Image processing method, recording medium, image processing apparatus, and image processing system
WO2021095537A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
WO2018016655A1 (ja) 指示装置、指示装置の制御方法、遠隔作業支援システムおよび情報処理プログラム
JP5647813B2 (ja) 映像提示システム、プログラム及び記録媒体
JP2012242930A (ja) 映像提示システム、映像提示方法、プログラム及び記録媒体
CN114155175A (zh) 图像生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160816

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160822

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180620

R150 Certificate of patent or registration of utility model

Ref document number: 6359333

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees