JP2024053273A - 三次元ビデオ通話システム - Google Patents

三次元ビデオ通話システム Download PDF

Info

Publication number
JP2024053273A
JP2024053273A JP2022159410A JP2022159410A JP2024053273A JP 2024053273 A JP2024053273 A JP 2024053273A JP 2022159410 A JP2022159410 A JP 2022159410A JP 2022159410 A JP2022159410 A JP 2022159410A JP 2024053273 A JP2024053273 A JP 2024053273A
Authority
JP
Japan
Prior art keywords
caller
face
dimensional
image
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022159410A
Other languages
English (en)
Inventor
正規 加納
Masanori Kano
直人 岡市
Naoto Okaichi
淳 洗井
Jun Arai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2022159410A priority Critical patent/JP2024053273A/ja
Publication of JP2024053273A publication Critical patent/JP2024053273A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】リアルタイムな三次元ビデオ通話を携帯端末で実現する。【解決手段】三次元ビデオ通話システム1は、少なくとも1個のインカメラ及び光線再生型の三次元ディスプレイを備える携帯端末3と、携帯端末3に対応する演算装置4との組である通話装置2を通話者P毎に備え、インカメラ画像から簡易的な顔モデルを構築し、通話者Pに視点追従し、座標変換手段401で求めた通話者Pの視点位置を要素画像生成手段42の視点追従に流用する。【選択図】図4

Description

本発明は、三次元ビデオ通話システムに関する。
近年、コミュニケーションツールとして、音声通話やメールに加えてビデオ通話を使用する機会が増えてきている。その理由として、スマートフォンやタブレットなどの携帯端末の普及、及び、インターネットの通信速度の高速化などがあげられる。それらに加え、リモートワークの普及や感染症対策などによるライフスタイルの変化も影響している。ビデオ通話は、音声通話やメールと比較して相手の表情がわかるため、より密なコミュニケーションをとることができる。しかし、依然として直接会っての会話とは大きな差があるため、より高い臨場感や実在感のあるコミュニケーションツールが求められている。
高い臨場感や実在感を与えるメディアの一つとして、様々な方式の三次元映像が提案されている(例えば、非特許文献1)。光線再生型の三次元映像では、実際にそこに物があるのとほぼ同様の光線が再現できる。つまり、光線再生型の三次元映像では、実物を見る時と同様に両眼視差や運動視差などの視覚特性が再現できる。これらの特徴により、光線再生型の三次元映像では、従来の二次元映像と比較して、より高い臨場感や実在感を感じられる。従って、光線再生型の三次元映像を用いてビデオ通話を行えば(以後、「三次元ビデオ通話」)、従来の二次元映像でのビデオ通話よりも高い臨場感や実在感が実現できると考えられる。
岡市 他、"視点追従型インテグラル3D映像表示システムの開発"、映像情報メディア学会誌、Vol.75、No.1、p.125-130、2021年
スマートフォン、タブレットなどの携帯端末で三次元ビデオ通話を実現するためには、携帯端末に光線再生型のディスプレイを搭載し、様々な処理をリアルタイムで行う必要がある。以後、光線再生型に対応した携帯端末を単に「携帯端末」と記載する。ここで、三次元ビデオ通話で要求される処理としては、通話者の顔の三次元モデル化、三次元映像を生成するのに必要なデータや音声の伝送、三次元映像の生成及び表示があげられる。しかし、以下で述べるように、携帯端末の搭載機器や処理性能を考慮すると、携帯端末でリアルタイムの三次元ビデオ通話を実現するのが困難である。
複数台のカメラやデプスカメラが必要であるが、一般的な携帯端末には搭載されておらず、精緻な顔モデルの構築が困難である(問題点1)。次に、光線再生型の三次元ディスプレイの表示品質が十分でないため、高い臨場感や実在感を再現できるように高品質化が必要である(問題点2)。さらに、携帯端末の処理能力では、前記した処理を全てリアルタイムで実行することが困難であり、演算処理を効率化する必要がある(問題点3)。
前記した問題に鑑みて、本発明は、リアルタイムな三次元ビデオ通話を携帯端末で実現できる三次元ビデオ通話システムを提供することを課題とする。
前記課題を解決するため、本発明に係る三次元ビデオ通話システムは、少なくとも1個のインカメラ及び光線再生型の三次元ディスプレイを備える携帯端末と携帯端末に対応する演算装置との組である通話装置を通話者毎に備える構成とした。
この携帯端末は、インカメラで通話者を撮影したインカメラ画像が入力される画像入力手段と、インカメラ画像から通話者の顔領域を検出する顔領域検出手段と、を備える。
また、演算装置は、通話者の両眼が含まれる顔パーツの二次元座標を通話者の顔領域画像から検出する顔パーツ検出手段と、顔パーツの二次元座標を三次元座標に変換し、通話者の顔領域画像と顔パーツの二次元座標及び三次元座標とを顔データとして相手方の通話装置に送信する座標変換手段と、相手方の通話装置から顔データを受信し、受信した相手方の顔データから相手方の顔モデルを構築する顔モデル構築手段と、通話者の両眼の三次元座標である視点位置に追従するように相手方の顔モデルから要素画像を生成し、生成した要素画像を三次元ディスプレイに表示する要素画像生成手段と、を備える。
ここで、三次元ビデオ通話システムでは、演算装置が、携帯端末の代わりに顔パーツ検出手段を備えてもよい。
また、三次元ビデオ通話システムでは、演算装置を備えずに、携帯端末が全手段を備えてもよい。
かかる三次元ビデオ通話システムによれば、一般的な携帯端末が通話者を撮影するためのインカメラを一台備えることが多いので、そのインカメラ画像から簡易的な顔モデルを構築する(問題点1に対処)。また、三次元ビデオ通話システムによれば、ディスプレイを見ている通話者に視点追従することで、三次元映像の品質を向上させる(問題点2に対処)。さらに、三次元ビデオ通話システムによれば、座標変換手段で求めた通話者の視点位置を要素画像生成手段の視点追従に流用することで、視点位置の検出回数を低減し、演算処理を効率化できる(問題点3に対処)。このようにして、三次元ビデオ通話システムは、リアルタイムな三次元ビデオ通話を携帯端末で実現できる。
本発明は、リアルタイムな三次元ビデオ通話を携帯端末で実現できる。
第1実施形態に係る三次元ビデオ通話システムの全体構成を示す図である。 第1実施形態に係る三次元ビデオ通話システムの処理概要として、相手方の顔を立体表示するための処理のみを説明する説明図である。 第1実施形態に係る三次元ビデオ通話システムの処理概要として、通話者双方の顔を立体表示するための処理を説明する説明図である。 第1実施形態に係る三次元ビデオ通話システムの構成を示すブロック図である。 第1実施形態において、仮想カメラアレイによる撮影を説明する説明図である。 (a)及び(b)は、第1実施形態における仮想ディスプレイの配置を説明する説明図である。 第2実施形態に係る三次元ビデオ通話システムの構成を示すブロック図である。 第3実施形態に係る三次元ビデオ通話システムの全体構成を示す図である。 第3実施形態に係る三次元ビデオ通話システムの構成を示すブロック図である。 変形例1に係る三次元ビデオ通話システムの全体構成を示す図である。 変形例1において、仮想カメラアレイによる撮影を説明する説明図である。 変形例2において、仮想カメラアレイによる撮影を説明する説明図である。
以下、本発明の各実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
(第1実施形態)
[三次元ビデオ通話システムの全体構成]
図1を参照し、第1実施形態に係る三次元ビデオ通話システム1の全体構成について説明する。第1実施形態では、2人の通話者P,Pが三次元ビデオ通話するための基本的な構成について説明する。
図1に示すように、三次元ビデオ通話システム1は、少なくとも1個のインカメラ及び光線再生型の三次元ディスプレイを備える携帯端末3と携帯端末3に対応する演算装置4との組である通話装置2を通話者P毎に備えるものである。
前記したように、三次元ビデオ通話システム1では、通話者Pが2人であるため、通話装置2が2台である。つまり、三次元ビデオ通話システム1では、携帯端末3及び演算装置4で構成された通話装置2を2組備える。以後、通話者Pの通話装置2、携帯端末3及び演算装置4とし、通話者Pの通話装置2、携帯端末3及び演算装置4とする。
ここで、通話者Pは、通話装置2に備えられた携帯端末3を使用し、三次元ビデオ通話を行う。一般的には、コンピュータなどの演算装置4と比べて、携帯端末3の処理性能が低いため、携帯端末3の処理負荷を軽減するために演算装置4を用いる。
三次元ビデオ通話システム1では、ルータ5を用いて、通話装置2をインターネットなどのネットワーク6に接続する。以後、通話者P側のルータ5とし、通話者P側のルータ5とする。なお、通話装置2同士の通信手法は、図1の例に制限されない。
携帯端末3は、一般的なスマートフォンやタブレット、又は、これらと同様の機能を備えている。例えば、一般的な機能としては、CPU(Central Processing Unit)による処理機能、Wi-Fi(登録商標)、4G/5Gなどの通信機能、ディスプレイやスピーカによる視聴機能、インカメラによる通話者の撮影機能があげられる。さらに、携帯端末3は、光線再生型の三次元ディスプレイを備える(非特許文献1)。この三次元ディスプレイは、既存の二次元ディスプレイにレンズアレイを装着し、要素画像を表示することで三次元映像を表示できる。本実施形態では、光線再生方式としてインテグラル方式を採用することとする。つまり、光線再生型の三次元ディスプレイは、インテグラル方式のディスプレイである。
演算装置4は、例えば、CPU、メモリ、ハードディスクドライブを備える一般的なコンピュータである。ここで、演算装置4が携帯端末3に対応するように備えられ、演算装置4が携帯端末3に対応するように備えられている。
ルータ5は、例えば、一般的なWi-Fiルータである。例えば、通話者P側のルータ5は、Wi-Fiで携帯端末3及び演算装置4を接続し、ネットワーク6を介して、通話者Pの通話装置2に接続する。
[三次元ビデオ通話システムの処理概要]
図2を参照し、三次元ビデオ通話システム1の処理概要について説明する。
なお、図2では、通話者Pが三次元ビデオ通話を行うための処理、つまり、通話者Pの通話装置2に相手方となる通話者Pの顔を立体表示するための処理のみを図示した。
ステップS1において、通話者Pの通話装置2は、携帯端末3のインカメラで通話者Pを撮影したインカメラ画像を入力する。
ステップS2において、通話装置2は、インカメラ画像に対して顔検出処理を行う。具体的には、ステップS21において、通話装置2は、インカメラ画像90から通話者Pの顔領域91を検出する。ステップS22において、通話装置2は、通話者Pの顔領域画像92から通話者Pの顔パーツの二次元座標93を検出する。顔領域画像92とは、インカメラ画像90から検出した顔領域91の画像のことである。また、顔パーツとは、通話者Pの顔を構成する目、鼻、口などのパーツのことである。ステップS23において、通話装置2は、通話者Pの顔パーツの二次元座標93を三次元座標94に変換し、通話者Pの顔データを通話者Pの通話装置2に送信する。この顔データ95には、通話者Pの顔領域画像と顔パーツの二次元座標93及び三次元座標94とが含まれている。また、顔パーツの三次元座標94のうち、両目の三次元座標を視点位置とする。
ステップS3において、通話者Pの通話装置2は、通話者Pの通話装置2から通話者Pの顔データ95を受信し、受信した通話者Pの顔データ95から通話者Pの顔モデル96を構築する。
ステップS4において、通話装置2は、通話者Pの視点位置に追従するように通話者Pの顔モデル96から要素画像98を生成する。例えば、通話装置2は、仮想カメラアレイ97で通話者Pの顔モデル96を撮影することで、要素画像98を生成する。そして、通話装置2は、通話者Pの顔モデル96を表す要素画像98を三次元ディスプレイに表示する。このようにして、通話者Pは、通話者Pの顔の立体映像を見ながら、通話者Pと三次元ビデオ通話を行うことができる。
なお、三次元ビデオ通話システム1における音声処理は、一般的な処理のため、説明を省略した。
図2では、通話者Pが三次元ビデオ通話を行うための処理を図示したが、通話者P,Pの両方で三次元ビデオ通話を行うための処理を図3に図示した。図3に示すように、通話者Pの通話装置2は、通話者Pの視点位置に追従するように、通話者Pの顔データ95から通話者Pの要素画像98を生成し、通話者Pの顔を立体表示する。これと同様、通話者Pの通話装置2は、通話者Pの視点位置に追従するように、通話者Pの顔データ95から通話者Pの要素画像98を生成し、通話者Pの顔を立体表示する。
[通話装置の構成]
図4を参照し、通話装置2の構成について説明する。
図4に示すように、通話装置2は、携帯端末3と、演算装置4とを備える。なお、通話者P,Pの通話装置2,2は、同一構成であるため、重複する説明を省略する。また、図4では、図面を見やすくするため、ルータ5及びネットワーク6の図示を省略した。
<携帯端末>
図4に示すように、携帯端末3は、インカメラ30と、顔領域処理手段31と、三次元ディスプレイ32とを備える。
インカメラ30は、通話者Pを撮影できるように、通話者Pに向けて配置されたカメラである。例えば、インカメラ30は、携帯端末3の表示画面側の上部に配置された小型のカラーカメラである。
顔領域処理手段31は、画像入力手段310と、顔領域検出手段311とを備える。
画像入力手段310は、インカメラ30で通話者Pを撮影したインカメラ画像90(図2)が入力されるものである。そして、画像入力手段310は、入力されたインカメラ画像90を顔領域検出手段311に出力する。
顔領域検出手段311は、インカメラ画像90から通話者Pの顔領域91(図2)を検出するものである。ここでは、インカメラ画像90に一人の通話者Pが含まれることとする。本実施形態では、顔領域検出手段311は、通話者Pの視点位置に追従するため、既知の手法を用いて、インカメラ画像90の各フレームから顔領域91を検出する(例えば、参考文献1,2)。そして、顔領域検出手段311は、顔領域画像92(図2)を顔パーツ検出手段400に出力する。なお、顔領域検出手段311は、顔領域画像92を切り抜いたときに始点となる左上座標(u,v)を、顔パーツ検出手段400に出力してもよい。
参考文献1:“OpenCV”,[online],[令和4年8月2日検索],インターネット<URL:https://opencv.org/>
参考文献2:“Dlib”,[online],[令和4年8月2日検索],インターネット<URL:http://dlib.net/>
三次元ディスプレイ32は、光線再生型(例えば、インテグラル方式)の一般的な三次元ディスプレイである。例えば、三次元ディスプレイ32は、携帯端末3の二次元ディスプレイと、この二次元ディスプレイと対向するように配置されたレンズアレイとを備える。このレンズアレイは、微小レンズが二次元状に配列されたものである。
<演算装置>
演算装置4は、顔パーツ三次元化手段40と、顔モデル構築手段41と、要素画像生成手段42とを備える。
顔パーツ三次元化手段40は、顔パーツ検出手段400と、座標変換手段401とを備える。
顔パーツ検出手段400は、通話者Pの両眼が含まれる顔パーツの二次元座標を通話者Pの顔領域画像92から検出するものである。本実施形態では、顔パーツ検出手段400は、顔領域検出手段311より入力された顔領域画像92から、顔パーツとして、通話者Pの両目、鼻及び口の画像座標を検出する。顔パーツ検出手段400が顔パーツを検出すると、顔領域画像92内で両目などの2次元座標が既知となる。ここで、顔パーツ検出手段400は、既知の手法で顔パーツを検出できる(例えば、前記参考文献1,2)。例えば、参考文献2に記載の手法では、68点の顔パーツを検出できる。
その後、顔パーツ検出手段400は、検出した顔パーツの二次元座標93(図2)及び顔領域画像92を座標変換手段401に出力する。
座標変換手段401は、顔パーツの二次元座標93を三次元座標94(図2)に変換するものである。つまり、座標変換手段401は、顔パーツの二次元座標93から顔パーツの三次元座標94を算出する(例えば、参考文献3)。具体的には、座標変換手段401は、予め設定した顔パーツの三次元座標初期値と顔パーツの二次元座標93とからPnP(Perspective n-Point)問題を解くことで、カメラ座標系で両目を含む顔パーツの三次元座標94を算出する。
なお、PnP問題を解くため、インカメラ30の内部パラメータやレンズ歪み係数が必要になる。そこで、演算装置4は、事前にカメラキャリブレーションを行ってパラメータを求めることが好ましい。例えば、カメラキャリブレーションの手法は参考文献4に記載されている。
参考文献3:ディジタル画像処理(改訂新版)、CG-ARTS協会、2015年
参考文献4:Z. Zhang, “A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 11, pp. 1330-1334 (2000)
その後、座標変換手段401は、通話者Pの顔領域画像92と顔パーツの二次元座標93及び三次元座標94とを顔データ95(図2)として相手方の通話装置2に送信する。ここで、顔領域画像92は、カラー画像であるため、そのデータ量が大きくなる。また、顔領域画像92以外のデータ量は、顔パーツの数に依存し、それほど大きくならない。
また、座標変換手段401は、通話者Pの視点位置として、顔パーツに含まれる両目の三次元座標94を要素画像生成手段42に出力する。
顔モデル構築手段41は、相手方の通話装置2から顔データ95を受信し、受信した相手方の顔データ95から相手方の顔モデル96(図2)を構築するものである。例えば、通話者Pの通話装置2では、顔モデル構築手段41が、相手方である通話者Pの通話装置2から顔データ95を受信し、その顔データ95から通話者Pの顔モデル96を生成する。また、通話者Pの通話装置2では、顔モデル構築手段41が、相手方である通話者Pの通話装置2から顔データ95を受信し、その顔データ95から通話者Pの顔モデル96を生成する。
具体的には、顔モデル構築手段41は、顔パーツの三次元座標94が示す三次元点群情報に顔領域画像92をテクスチャとして張り付けることで、三次元の顔モデル96を生成する。このとき、顔モデル構築手段41は、顔以外の髪の毛を含めた頭部分について、一般的な顔モデルに顔領域画像92がカバーしている範囲をテクスチャとして貼り付ける。ここで、通話者Pを撮影するインカメラ30が一台の場合、三次元ディスプレイ32に表示可能な顔モデル96の全体を再現することが難しいため、遮蔽領域が生じることがある。そこで、顔モデル構築手段41は、通話者Pの顔モデル96の全体を予め生成しておき、通話者Pの顔が変化したときに、顔モデル96で変化した部分のみを更新してもよい。
その後、顔モデル構築手段41は、生成した顔モデル96を要素画像生成手段42に出力する。
要素画像生成手段42は、通話者Pの両眼の三次元座標である視点位置に追従するように相手方の顔モデル96から要素画像98を生成し、生成した要素画像98を三次元ディスプレイに表示するものである。
<要素画像の生成>
図5及び図6を参照し、要素画像の生成を具体的に説明する。
図5に示すように、要素画像生成手段42は、CG空間に配置された顔モデル96を仮想カメラアレイ97で撮影する。この仮想カメラアレイ97は、アレイ状に配列された複数の仮想カメラ97aで構成されている。図5の例では、6台の仮想カメラ97aを図示したが、実際には多数の仮想カメラ97aが配列されている。そして、要素画像生成手段42は、各仮想カメラ97aで撮影した視点画像の画素を並べ替えて、要素画像98を生成する。
具体的には、CG空間に仮想ディスプレイ99を配置する。この仮想ディスプレイ99は、実際の三次元ディスプレイ32に対応するものである。CG空間内の仮想ディスプレイ99と顔モデル96の位置関係が、実際の三次元ディスプレイ32に表示される相手方の顔の位置となる。また、仮想ディスプレイ99の配置、レンズアレイのスペック、三次元ディスプレイ32を見る通話者Pの視点位置などを考慮し、仮想カメラアレイ97の配置を設定すればよい。そして、仮想カメラアレイ97で顔モデル96を撮影することで、様々な視点で顔モデル96を撮影した視点画像が得られる。
本実施形態では、前記したように視点追従を用いて、三次元ディスプレイ32を見る通話者Pの視点位置に応じた要素画像を生成する。なお、視点追従による要素画像の生成手法は、一般的なものである(例えば、参考文献5)。具体的には、要素画像生成手段42は、通話者Pの視点位置が上下左右に動くのに伴い、仮想カメラアレイ97も同様に上下左右に移動させる。通話者Pの視点位置が左側に動いた場合、要素画像生成手段42は、仮想カメラアレイ97を左側に移動させる。さらに視距離が変化した場合、要素画像生成手段42は、視距離の変化に応じて、仮想カメラアレイ97を前後に移動させる。このとき、要素画像生成手段42は、仮想カメラアレイ97の移動に応じて、仮想ディスプレイ99の領域を撮影できるように内部パラメータも変更する。そして、要素画像生成手段42は、仮想カメラアレイ97で撮影した各視点画像の画素位置を並べ替えることで、要素画像Eを生成する。
参考文献5:特開2022-113478号公報
現在の三次元ディスプレイ32は、解像度が大きく低下するため、ディスプレイ面から手前や奥に大きく離れた位置に映像を表現するのが難しい。そこで、三次元ディスプレイ32を見る通話者Pが快適に相手方の顔を見るためには、顔モデル96に対して適切に仮想ディスプレイ99を配置する必要がある。ここでは、図6を参照し、仮想ディスプレイ99の配置手法を2つ説明する。なお、図6では、インカメラ30の撮影画角θを図示した。
第1の手法では、図6(a)に示すように、通話者Pが仮想ディスプレイ99の位置を任意に設定する。例えば、通話者Pが、相手方となる通話者Pの顔モデル96の中心に仮想ディスプレイ99が重なるように、仮想ディスプレイ99の位置を設定する。この第1の手法によれば、通話者Pが、三次元ディスプレイ32の好きな位置に通話者Pの顔を表示できる。通話者Pが仮想ディスプレイ99の位置を再設定しない限りその位置が一定なので、通話者Pが前後に大きく動いた場合、通話者Pの顔にボケが発生してしまう。
第2の手法では、図6(b)に示すように、顔パーツの位置の近似平面に、仮想ディスプレイ99の位置を自動的に設定する。この第2の手法によれば、通話者Pの顔表面が三次元ディスプレイ32のディスプレイ面に表示されるので、通話者Pの顔を高解像度で表示できる。
[作用・効果]
以上のように、第1実施形態に係る三次元ビデオ通話システム1によれば、一般的な携帯端末3が通話者Pを撮影するためのインカメラ30を一台備えることが多いので、インカメラ画像から簡易的な顔モデルを構築する。
三次元ビデオ通話システム1によれば、三次元ディスプレイ32を見ている通話者Pに視点追従することで、三次元映像の品質を向上させる。つまり、三次元ビデオ通話システム1は、視点追従を用いない場合と比較して、視点追従を用いるので視域に優れる。
三次元ビデオ通話システム1によれば、座標変換手段401で求めた通話者Pの視点位置を要素画像生成手段42の視点追従に流用することで、演算処理を効率化できる。さらに、三次元ビデオ通話システム1によれば、通話装置2として、処理能力が低い携帯端末3だけでなく処理能力が高い演算装置4も使用するので、演算量が多い処理を演算装置4に分担させることができる。
このようにして、三次元ビデオ通話システム1は、リアルタイムな三次元ビデオ通話を携帯端末3で実現できる。
(第2実施形態)
[三次元ビデオ通話システムの構成]
図7を参照し、第2実施形態に係る三次元ビデオ通話システム1Bについて、第1実施形態と異なる点を説明する。
三次元ビデオ通話システム1Bでは、顔パーツの検出を演算装置4Bではなく携帯端末3Bで行う点が、第1実施形態と異なる。
図7に示すように、三次元ビデオ通話システム1Bは、通話装置2Bとして、携帯端末3Bと、演算装置4Bとを備える。
携帯端末3Bは、インカメラ30と、顔領域処理手段31Bと、三次元ディスプレイ32とを備える。
顔領域処理手段31Bは、画像入力手段310と、画像入力手段310と、顔領域検出手段311と、顔パーツ検出手段312とを備える。なお、顔パーツ検出手段312以外の各手段は、第1実施形態と同様のため、説明を省略する。
顔パーツ検出手段312は、図4の顔パーツ検出手段400と同様、通話者Pの両眼が含まれる顔パーツの二次元座標を通話者Pの顔領域画像92から検出するものである。この顔パーツ検出手段312の処理内容は、第1実施形態と同様のため、これ以上の説明を省略する。
演算装置4Bは、顔パーツ三次元化手段40Bと、顔モデル構築手段41と、要素画像生成手段42とを備える。
顔パーツ三次元化手段40Bは、座標変換手段401を備える。つまり、顔パーツ三次元化手段40Bは、図4の顔パーツ三次元化手段40と異なり、顔パーツ検出手段を備えていない。
なお、座標変換手段401の処理内容は、第1実施形態と同様のため、これ以上の説明を省略する。
[作用・効果]
以上のように、第2実施形態に係る三次元ビデオ通話システム1Bは、第1実施形態と同様、リアルタイムな三次元ビデオ通話を携帯端末3Bで実現できる。
さらに、三次元ビデオ通話システム1Bによれば、携帯端末3Bの処理能力に余裕がある場合、顔パーツの検出を携帯端末3Bに分担させることができる。これにより、三次元ビデオ通話システム1Bでは、第1実施形態と比較して、携帯端末3Bの処理量は増えるが、携帯端末3Bから演算装置4Bに送信するデータ量をより少なくすることができる。つまり、携帯端末3,3Bの処理能力に応じて、三次元ビデオ通話システム1,1Bの構成を選択できる。
(第3実施形態)
[三次元ビデオ通話システムの構成]
図8及び図9を参照し、第3実施形態に係る三次元ビデオ通話システム1Cについて、第2実施形態と異なる点を説明する。
図8に示すように、三次元ビデオ通話システム1Cは、少なくとも1個のインカメラ30及び光線再生型の三次元ディスプレイ32を備える携帯端末3Cである通話装置2Cを通話者P毎に備えるものである。つまり、三次元ビデオ通話システム1Cは、演算装置を備えずに、携帯端末3Cで全ての処理を行う点が、第2実施形態と異なる。
図9に示すように、携帯端末3Cは、インカメラ30と、顔領域処理手段31Cと、三次元ディスプレイ32と、顔パーツ三次元化手段33と、顔モデル構築手段34と、要素画像生成手段35とを備える。
なお、インカメラ30、顔領域処理手段31C及び三次元ディスプレイ32は、第2実施形態と同様のため、説明を省略する。
また、図8では、携帯端末3Cがネットワーク6に直接接続するように図示したが、ルータ(不図示)を介して、携帯端末3Cがネットワーク6に接続してもよい。
顔パーツ三次元化手段33は、座標変換手段330を備える。また、顔パーツ三次元化手段33は、顔領域処理手段31Cの代わりに、顔パーツ検出手段312を備えてもよい(不図示)。
なお、座標変換手段330は、図7の座標変換手段401と同様のため、説明を省略する。また、顔モデル構築手段34及び要素画像生成手段35は、第2実施形態と同様のため、説明を省略する。
[作用・効果]
以上のように、第3実施形態に係る三次元ビデオ通話システム1Cは、第2実施形態と同様、リアルタイムな三次元ビデオ通話を携帯端末3Cで実現できる。
さらに、三次元ビデオ通話システム1Cによれば、演算装置を備える必要がないので、簡素な構成を実現できる。
以上、各実施形態を詳述してきたが、本発明は前記した各実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
(変形例1)
前記した第1実施形態では、通話者Pが2名であることとして説明したが、通話者PがN名以上であってもよい(但し、N≧3以上の整数)。つまり、図10に示すように、三次元ビデオ通話システム1Dは、N台の通話装置2,…,2を備えてもよい。通話者PがN人に増えても1台の通話装置2に着目すれば、その通話装置2を使用する通話者Pを除いたN-1人分の顔モデル96,…,96を生成するだけでよい(図11)。従って、通話装置2は、N-1人分の顔を表示する要素画像を生成する。
なお、自分以外の通話者Pが相手方の通話者Pとなる。変形例1のように、相手方の通話者Pが3名以上の場合、任意の相手方の通話装置に顔データを送信してもよい。
(変形例2)
三次元ビデオ通話では、通話者Pの顔が相手方である通話者Pにどのように見えているか確認するために、通話者Pの通話装置2に通話者Pの顔も表示すればよい。具体的には、顔モデル構築手段41は、通話者Pの顔データから通話者Pの顔モデルを生成する。そして、要素画像生成手段42は、図12に示すように、通話者P,Pの顔モデル96,96が含まれる要素画像を生成する。通話者Pの顔モデル96の横に通話者Pの顔モデル96を配置した状態で要素画像を生成すればよい。ここでは、通話者Pの顔モデル96よりも通話者Pの顔モデル96を小さくしている。
(その他変形例)
前記した実施形態では、光線再生型の三次元ディスプレイ32がインテグラル方式に対応していることとして説明したが、レンチキュラー方式に対応したものであってもよい。
三次元ビデオ通話システムでは、異なる形態の通話装置が混在していてもよい。例えば、三次元ビデオ通話システムは、図1の通話装置2、図7の通話装置2B、及び、図9の通話装置2Cの何れか2以上が混在していてもよい。
1,1B~1D 三次元ビデオ通話システム
2,2B,2C 通話装置
3,3B,3C 携帯端末
4,4B 演算装置
5 ルータ
6 ネットワーク
30 インカメラ
31 顔領域処理手段
32 三次元ディスプレイ
33,40,40B 顔パーツ三次元化手段
34,41 顔モデル構築手段
35,42 要素画像生成手段
90 インカメラ画像
91 顔領域
92 顔領域画像
93 顔パーツの二次元座標
94 顔パーツの三次元座標
95 顔データ
96 顔モデル
97 仮想カメラアレイ
97a 仮想カメラ
310 画像入力手段
311 顔領域検出手段
312,400 顔パーツ検出手段
330,401 座標変換手段
P 通話者

Claims (6)

  1. 少なくとも1個のインカメラ及び光線再生型の三次元ディスプレイを備える携帯端末と前記携帯端末に対応する演算装置との組である通話装置を通話者毎に備える三次元ビデオ通話システムであって、
    前記携帯端末は、
    前記インカメラで前記通話者を撮影したインカメラ画像が入力される画像入力手段と、
    前記インカメラ画像から前記通話者の顔領域を検出する顔領域検出手段と、を備え、
    前記演算装置は、
    前記通話者の両眼が含まれる顔パーツの二次元座標を前記通話者の顔領域画像から検出する顔パーツ検出手段と、
    前記顔パーツの二次元座標を三次元座標に変換し、前記通話者の顔領域画像と前記顔パーツの二次元座標及び三次元座標とを顔データとして相手方の前記通話装置に送信する座標変換手段と、
    前記相手方の通話装置から前記顔データを受信し、受信した前記相手方の顔データから前記相手方の顔モデルを構築する顔モデル構築手段と、
    前記通話者の両眼の三次元座標である視点位置に追従するように前記相手方の顔モデルから要素画像を生成し、生成した前記要素画像を前記三次元ディスプレイに表示する要素画像生成手段と、
    を備えることを特徴とする三次元ビデオ通話システム。
  2. 少なくとも1個のインカメラ及び光線再生型の三次元ディスプレイを備える携帯端末と前記携帯端末に対応する演算装置との組である通話装置を通話者毎に備える三次元ビデオ通話システムであって、
    前記携帯端末は、
    前記インカメラで前記通話者を撮影したインカメラ画像が入力される画像入力手段と、
    前記インカメラ画像から前記通話者の顔領域を検出する顔領域検出手段と、
    前記通話者の両眼が含まれる顔パーツの二次元座標を前記通話者の顔領域画像から検出する顔パーツ検出手段と、を備え、
    前記演算装置は、
    前記顔パーツの二次元座標を三次元座標に変換し、前記通話者の顔領域画像と前記顔パーツの二次元座標及び三次元座標とを顔データとして相手方の前記通話装置に送信する座標変換手段と、
    前記相手方の通話装置から前記顔データを受信し、受信した前記相手方の顔データから前記相手方の顔モデルを構築する顔モデル構築手段と、
    前記通話者の両眼の三次元座標である視点位置に追従するように前記相手方の顔モデルから要素画像を生成し、生成した前記要素画像を前記三次元ディスプレイに表示する要素画像生成手段と、
    を備えることを特徴とする三次元ビデオ通話システム。
  3. 少なくとも1個のインカメラ及び光線再生型の三次元ディスプレイを備える携帯端末である通話装置を通話者毎に備える三次元ビデオ通話システムであって、
    前記携帯端末は、
    前記インカメラで前記通話者を撮影したインカメラ画像が入力される画像入力手段と、
    前記インカメラ画像から前記通話者の顔領域を検出する顔領域検出手段と、
    前記通話者の両眼が含まれる顔パーツの二次元座標を前記通話者の顔領域画像から検出する顔パーツ検出手段と、
    前記顔パーツの二次元座標を三次元座標に変換し、前記通話者の顔領域画像と前記顔パーツの二次元座標及び三次元座標とを顔データとして相手方の前記通話装置に送信する座標変換手段と、
    前記相手方の通話装置から前記顔データを受信し、受信した前記相手方の顔データから前記相手方の顔モデルを構築する顔モデル構築手段と、
    前記通話者の両眼の三次元座標である視点位置に追従するように前記相手方の顔モデルから要素画像を生成し、生成した前記要素画像を前記三次元ディスプレイに表示する要素画像生成手段と、
    を備えることを特徴とする三次元ビデオ通話システム。
  4. 前記顔モデル構築手段は、前記通話者の顔データから前記通話者の顔モデルを生成し、
    前記要素画像生成手段は、前記相手方及び前記通話者の顔モデルが含まれる要素画像を生成することを特徴とする請求項1から請求項3の何れか一項に記載の三次元ビデオ通話システム。
  5. 前記光線再生型の三次元ディスプレイは、インテグラル方式又はレンチキュラー方式の三次元ディスプレイであることを特徴とする請求項1から請求項3の何れか一項に記載の三次元ビデオ通話システム。
  6. 前記通話装置は、2台又は3台以上であることを特徴とする請求項1から請求項3の何れか一項に記載の三次元ビデオ通話システム。
JP2022159410A 2022-10-03 2022-10-03 三次元ビデオ通話システム Pending JP2024053273A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022159410A JP2024053273A (ja) 2022-10-03 2022-10-03 三次元ビデオ通話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022159410A JP2024053273A (ja) 2022-10-03 2022-10-03 三次元ビデオ通話システム

Publications (1)

Publication Number Publication Date
JP2024053273A true JP2024053273A (ja) 2024-04-15

Family

ID=90667537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022159410A Pending JP2024053273A (ja) 2022-10-03 2022-10-03 三次元ビデオ通話システム

Country Status (1)

Country Link
JP (1) JP2024053273A (ja)

Similar Documents

Publication Publication Date Title
US10880582B2 (en) Three-dimensional telepresence system
EP3804301B1 (en) Re-creation of virtual environment through a video call
US11348202B2 (en) Generating virtual reality content based on corrections to stitching errors
Zhang et al. Viewport: A distributed, immersive teleconferencing system with infrared dot pattern
JP6285941B2 (ja) 制御された三次元通信エンドポイント
WO2018005235A1 (en) System and method for spatial interaction using automatically positioned cameras
CN211296837U (zh) 全息影像视频会议系统
CN109257559A (zh) 一种全景视频会议的图像显示方法、装置及视频会议系统
JP4539015B2 (ja) 画像通信装置、および画像通信方法、並びにコンピュータ・プログラム
JP2014203462A (ja) 光フィールド映像を生成する方法及び装置
WO2017141584A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20200176031A1 (en) Using sharding to generate virtual reality content
JP3488096B2 (ja) 3次元共有仮想空間通信サービスにおける顔画像制御方法,3次元共有仮想空間通信用装置およびそのプログラム記録媒体
JPWO2013014872A1 (ja) 画像変換装置、カメラ、映像システム、画像変換方法およびプログラムを記録した記録媒体
TW201943266A (zh) 視頻通信裝置及方法
EP3599763B1 (en) Method and apparatus for controlling image display
JP2024053273A (ja) 三次元ビデオ通話システム
KR20090081190A (ko) 휴대용 단말기
JP2016072844A (ja) 映像システム
KR102101771B1 (ko) 컨텐츠를 제공하는 장치 및 방법
JP2024095389A (ja) 端末装置
JP2011015227A (ja) 立体画像生成装置およびプログラム
JP2024095400A (ja) 端末装置
WO2019234855A1 (ja) 表示システム、画像処理回路、画像処理方法、及びプログラム
JP2005078313A (ja) 画像処理装置および画像処理方法、並びにプログラム