JP2020043507A

JP2020043507A - 映像表示装置、映像処理装置

Info

Publication number: JP2020043507A
Application number: JP2018170471A
Authority: JP
Inventors: 難波　秀夫; Hideo Nanba; 秀夫難波
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2020-03-19
Also published as: US20210344890A1; WO2020054605A1

Abstract

【課題】視聴者が大画面の超高解像度ディプレイ装置による映像通信を行う場合、ビデオカメラの配置制限により撮影可能な映像に制限を受け、臨場感の低下が発生しユーザ体験が損なわれる。【解決手段】ディスプレイ装置の表示領域外に配置された複数のビデオカメラ装置を使用し、これら複数のビデオカメラ装置で撮影した映像をネットワーク上の映像処理装置を使用して任意視点の映像を生成し、通信相手側のディスプレイ装置に表示する。【選択図】図１

Description

本発明は、映像表示装置、映像処理装置に関する。

近年、ディスプレイ装置の解像度が向上し、超高解像度（ＵｌｔｒａＨｉｇｈＤｅｎｓｉｔｙ：ＵＨＤ）表示が可能なディスプレイ（画像表示）装置が登場している。このＵＨＤディスプレイの中で特に高解像度の表示が可能なディスプレイ装置を使用する、横方向に８千ピクセル前後のテレビジョン放送を８Ｋスーパーハイビジョン放送の実用化が進められている。このような超高解像度表示を効果的に行うため、ディスプレイ装置は大型化する傾向にある。

このような超高解像度の映像信号の伝送には広い帯域を有するネットワークが必要となるが、光ファイバーネットワークや、高度化された無線ネットワークの利用により超高解像度の映像信号の伝送が実用化されつつある。

超高解像度ディスプレイ装置は視聴者に提供可能な豊富な情報量を利用し、臨場感を有する映像を伝えることができる。この臨場感に優れる映像を利用した映像通信の検討も進んでいる。

総務省．"４Ｋ・８Ｋの推進に関する現状について"．総務省ホームページ．<www.soumu.go.jp/main_content/000276941.pdf>

映像による通信を行う場合、ディスプレイ装置に表示される通信相手の映像が通信を行っている使用者と正対するように表示され、視線を交わしているかのように表示されると臨場感が高まる。しかし、ディプレイ装置の大きさが大きくなるとビデオカメラ装置に大きな制限が発生する。これはディスプレイ装置が光を透過するものではないためディスプレイ装置の背後からビデオカメラ装置で撮影できない事、ディスプレイ装置の前面側にビデオカメラ装置を配置するとディスプレイ装置に表示される映像と使用者の間にカメラ装置が存在することによる臨場感の低下が問題となるためである。このことを、図２を使用して説明する。図２（ａ）に映像による通信を行う場合の概要の一例を示す。映像通信を行う使用者１・２０１は映像表示装置２０２に表示される通信相手となる使用者２・２０３の映像が表示される。このとき２０８として示す使用者１・２０１の視線上に相当する場所から使用者２・２０３を撮影する事が好ましい。しかし、図２（ｂ）に示すように、使用者２・２０３が使用する映像表示装置２０７が光を完全に透過するものではないため、前述の使用者１・２０１の視線上に相当する場所２０４から撮影することはできない。映像表示装置２０７に遮られない場所２０５や２０６から撮影することしかできない。映像表示装置２０７と使用者２・２０３の間にビデオカメラ装置を配置して撮影すれば使用者１・２０１の視線上に相当する場所から撮影することが可能となるが、この場合は使用者２・２０３から映像表示装置２０７を見る際にビデオカメラが視界に入ることになり、使用者２・２０３の臨場感が阻害される。特に超高解像度の映像を撮影するためのビデオカメラ装置は使用するレンズも解像度が高いものが使われる事が多く、ビデオカメラ装置が大型化することが多いことにより影響が大きくなる。これによりユーザ体験が損なわれる。

本発明は以上の課題を鑑みてなされたものであり、ディスプレイ装置の表示領域外に配置された複数のビデオカメラ装置を使用し、これら複数のビデオカメラ装置で撮影した映像をネットワーク上の映像処理装置を使用して任意視点の映像を生成し、通信相手側のディスプレイ装置に表示することで、臨場感の高い映像通信を実現する機器とその構成を開示するものである。

（１）上記の目的を達成するために、本発明の一観点によれば、１以上の映像処理装置と通信を行う映像表示装置であって、映像表示部と、複数のビデオカメラ部と、同期制御部と、制御部を備え、前記複数のビデオカメラ部のそれぞれは映像表示部の外側に設置され、前記同期制御部は前記複数のビデオカメラ部のシャッターを同期させ、前記制御部は前記１以上のいずれかの映像処理装置に対し、前記複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示部の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を送信し、前記１以上のいずれかの映像処理装置から送信された映像情報を受信し、前記映像表示部に表示する事を特徴とする映像表示装置が提供される。

（２）上記の目的を達成するために、本発明の一観点によれば、前記カメラ配置情報は、前記映像表示装置が備える映像表示部の中の所定の点を基準とした前記複数のビデオカメラ部の位置情報を含み、前記映像表示部の表示面を基準とした前記複数のビデオカメラ部の光軸の情報を含むことを特徴とする映像表示装置が提供される。

（３）上記の目的を達成するために、本発明の一観点によれば、前記カメラ能力情報は、前記複数のビデオカメラ部のそれぞれが使用するレンズ設定の、焦点距離、絞りに関する情報を含むことを特徴とする映像表示装置が提供される。

（４）上記の目的を達成するために、本発明の一観点によれば、前記ディスプレイ表示能力は、前記映像表示装置が備える前記映像表示部の大きさに関する情報、前記映像表示部が表示可能な解像度に関する情報、前記映像表示装置が表示可能な色深度に関する情報、前記映像表示部の配置に関する情報の少なくとも１つを含むことを特徴とする映像表示装置が提供される。

（５）上記の目的を達成するために、本発明の一観点によれば、前記制御部は前記１以上の映像処理装置のいずれかから前記ビデオカメラ部の設定情報を受信し、前記設定情報に従って前記複数のビデオカメラ部のそれぞれを設定する事を特徴とする映像表示装置が提供される。

（６）上記の目的を達成するために、本発明の一観点によれば、前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも２つが複数の値を取り得る場合、
前記映像処理装置に対して送る前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の値の組み合わせが一部制限されることを特徴とする映像表示装置が提供される。

（７）上記の目的を達成するために、本発明の一観点によれば、第１の映像表示装置と第２の映像表示装置を含む複数の映像表示装置と通信する映像処理装置であって、前記第１の映像表示装置から複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示部の映像表示能力を示
すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を受信し、受信した前記映像情報から任意視点映像を生成し、前記第２の映像表示装置に対して前記任意映像視点映像を送信する事を特徴とする映像処理装置が提供される。

（８）上記の目的を達成するために、本発明の一観点によれば、前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも２つが複数の値を取り得るときに、前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報がの組み合わせを制限することを特徴とする映像処理装置が提供される。

本発明によれば、複数のビデオカメラ部のそれぞれで撮影された映像情報を映像処理装置に送信し、映像処理装置から送信された任意視点の映像情報を受信し、映像表示部に表示することにより、臨場感が高い映像を使用した映像通信が可能となり、使用者のユーザ体験を高めることができる。

本発明の一実施形態の機器構成例を示す図である。映像表示装置とビデオカメラ部の配置の例を示す図である。本発明の一実施形態の映像表示装置の構成例を示す図である。本発明の一実施形態の映像表示装置の構成例を示す図である。本発明の一実施形態のライトフィールドとビデオカメラ部の構成例を示す図である。本発明の一実施形態のライトフィールドカメラの成例を示す図である。本発明の一実施形態の学習時の構成例を示す図である。

以下、本発明の実施形態による無線通信技術について図面を参照しながら詳細に説明する。

（第１の実施形態）
以下、図を利用して本発明の一実施形態を詳細に説明する。図１は本実施の形態の機器接続構成の一例を示している。１０１、１０２は映像表示装置で、表示領域の外側に複数のビデオカメラ装置を配置している。１０３はネットワークを表しており、系として映像表示装置１０１と映像表示装置１０２の間の通信を行う。また、ネットワーク１０３を経由して映像表示装置１０１、１０２のそれぞれは映像処理装置１・１０４、映像処理装置２・１０５と通信することができる。映像処理装置１・１０４、映像処理装置２・１０５はネットワーク１０３内部に直接収容してもよく、また、ネットワーク１０３に接続される他のネットワーク経由で接続してもよい。ネットワーク１０３の形式、形状は特に制限されず、イーサネット（登録商標）等のメタル接続、光ファイバ接続、セルラー無線ネットワーク等の公衆無線ネットワーク、無線ＬＡＮによる自営無線ネットワークなどを使用してよい。ネットワーク１０３は、映像表示装置１０１、１０２のそれぞれが映像処理装置１・１０４に対して送信する撮影データの情報速度と、映像処理装置２・１０５から映像表示装置１０１、１０２に対して送信される映像データの情報速度を満足できる容量があれば良い。映像処理装置１・１０４は映像表示処理装置１０１、１０２からディスプレイ能力情報、カメラ能力情報、カメラ配置情報、撮影した映像情報を受信し、これらの情報からライトフィールドデータを生成する。ディスプレイ能力情報、カメラ能力情報、カメラ配置情報は映像表示装置１０１、１０２から直接得る方法以外に、予め設定する方法、別のネットワーク機器、例えばネットワークの接続管理を行う機器等から映像表示装置１０１、１０２の接続管理情報、または映像表示装置１０１、１０２を特定することが可能な識別子を得て、これらの接続管理情報や識別子に関連付けられた情報として得る方法
などをもちいて取得してもよい。映像処理装置２・１０５は、映像処理装置１・１０４が生成したライトフィールドデータを用い、任意視点の映像データを生成し、映像表示装置１０１、１０２に送信する。生成する映像データの視点は、生成される映像情報を受信する映像表示装置１０１、または映像表示装置１０２から指定されてよい。また、生成する映像データの視点は、映像処理装置１・１０４が生成してもよい。このとき、映像処理装置１・１０４が有するカメラ能力情報、カメラ配置情報、撮影した映像情報を利用し、映像処理装置１・１０４、または映像処理装置２・１０５のいずれかが映像データの視点を設定してもよい。本実施の形態では映像処理を映像処理装置１・１０４と映像処理装置２・１０５で分担するが、これを１つの映像処理装置で行ってもよく、また、２を超える映像処理装置で分担してもよい。１つの処理装置で行う場合、その処理装置内をブロック分割し、処理を分担してもよい。

映像表示装置１０１と映像表示装置１０２の間の通信は、映像表示装置１０１からディスプレイ能力情報、カメラ能力情報、カメラ配置情報、そして映像表示装置１０１に設置された複数のカメラで撮影された映像情報が映像処理装置１・１０４に入力され、映像処理装置１・１０４で生成されたライトフィールドデータを用いて映像処理装置２・１０５で任意視点の映像データを生成し、生成された任意視点の映像データを映像表示装置１０２で表示するデータの流れと、映像表示装置１０２からディスプレイ能力情報、カメラ能力情報、カメラ配置情報、そして映像表示装置１０２に設置された複数のカメラで撮影された映像情報が映像処理装置１・１０４に入力され、映像処理装置１・１０４で生成されたライトフィールドデータを用いて映像処理装置２・１０５で任意視点の映像データを生成し、生成された任意視点の映像データを映像表示装置１０１で表示するデータの流れから構成される。この２つのデータの流れは同等の処理から構成されるもので、以降の説明は映像表示装置１０１から映像表示装置１０２に向けたデータの流れについて説明し、映像表示装置１０２から映像表示装置１０１に向けたデータの流れの説明は省略する。

図３に映像表示装置１０１、１０２の構造概要を示す。映像表示部３０２を収めるキャビネット３０１の外側に８つのビデオカメラ部３０３〜３１０が配置される。映像表示装置１０１、１０２のディスプレイ能力情報は、映像表示装置１０１、１０２の形状に関する情報を含んでよい。一例として映像表示部３０２の大きさを表す映像表示部の横方向の長さ３１２、縦方向の長さ３１１をディスプレイ能力情報に含めてよい。また、設置条件に関する情報として映像表示部３０２の中心位置と映像表示装置１０１、１０２の接地面との距離３１３をディスプレイ能力情報に含めてよい。本実施の形態では映像表示部３０２は鉛直方向に沿って表示面を配置し、鉛直方向と垂直に映像表示部の横方向を配置するものとするが、これ以外の配置方法をする場合は映像表示部の鉛直方向に対する傾き、回転の情報をディスプレイ能力情報に含めてよい。また、映像表示部の解像度に関する情報、例えば横方向に３８４０ピクセル、縦方向に２０４８ピクセルの表示が可能であるなどの情報をディスプレイ能力情報に含めてよい。また、映像表示部３０２が複数の解像度の表示に対応できる場合、表示可能な解像度をディスプレイ能力情報に含めてよい。一例として、７６８０×４３２０、３８４０×２１６０、１９２０×１０８０（ピクセル×ピクセル）のすべて、またはいずれか２つの解像度に対応するなどの情報をディスプレイ能力情報に含めてよい。また、映像表示部３０２が表示可能な色深度に関する情報をディスプレイ能力情報に含めてよい。例えばピクセル当たりの最大色深度として８ビット、または１０ビットなどの情報をディスプレイ能力情報に含めてもよい。また、対応可能な色フォーマット、例えばＲＧＢ＝８８８、ＹＵＶ＝４２２、ＹＵＶ＝４２０、ＹＵＶ＝４４４などの情報をディスプレイ能力情報に含めてもよい。

映像表示装置１０１、１０２のカメラ配置情報は、映像表示装置１０１、１０２のそれぞれが備える複数のビデオカメラ部３０３〜３１０のそれぞれの配置条件を含めてよい。一例として、これら複数のビデオカメラ部３０３〜３１０の中の一つであるビデオカメラ
部３０４の配置位置として、映像表示部３０２の中心位置からビデオカメラ部３０４が備えるレンズの前側主点の中心位置の相対位置情報を含めてよい。また、中心位置以外の特定の点を基準としてもよい。この相対位置情報として、映像表示部３０２の中心位置からレンズの前側主点の中心位置までの鉛直方向の距離３１４と水平方向の距離３１５を使用してよい。また、映像表示部３０２の中心位置からレンズの前側主点の中心位置の関係を極座標形式としてもよい。また、カメラ配置情報はビデオカメラ部３０３〜３１０のそれぞれが備えるレンズの光軸の向き、レンズの仕様、設定に関する情報を含めてよい。一例として、レンズ３１６の光軸の角度を映像表示装置３０２の表面の垂直方向からの角度（θ，φ）３１７、レンズ３１６の焦点距離ｆ・３１８、絞り設定ａ・３１９、レンズ３１６の明るさに関する情報Ｆ（Ｆ値）（図示せず）をカメラ配置情報に含めてよい。また、レンズの設定であるレンズ３１６の焦点距離ｆ・３１８、絞り設定ａ・３１９、レンズ３１６の明るさに関する情報Ｆ（Ｆ値）はカメラ能力情報に含めてよい。本実施の形態ではビデオカメラ部３０３〜３１０が備えるレンズの前側主点は映像表示部３０２と同一平面に配置していることを前提とするが、これにかぎらずレンズの前側主点は映像表示部３０２と同一平面に配置しなくてもよく、また、ビデオカメラ部３０３〜３１０のそれぞれがズームレンズを備える場合、撮影画角が変わるときにレンズ３１６の前側主点位置を変えてもよい。このような場合、レンズ３１６の前側主点の位置に関する情報をカメラ位置情報に含めてよい。レンズ３１６の前側主点の位置に関する情報は映像表示部３２０の平面からの総体距離を使用してもよく、また他の位置情報でもよい。また、レンズ３１６と映像表示部３０２とレンズ３１６の位置関係はレンズ３１６の前側主点に限らず、フランジバックやイメージセンサーの位置を基準とした値でも良い。カメラ能力情報は、ビデオカメラ部のそれぞれが備える撮像素子に関する能力を含めてもよい。一例としてビデオカメラ部のそれぞれが出力可能な映像信号の１つ、または複数の解像度、出力可能な色深度、使用するカラーフィルタの配列に関する情報、撮像素子の配列に関する情報などがあげられる。

ビデオカメラ部３０３〜３１０の映像表示部３０２に対する配置位置は予め決められてもよい。一例として、映像表示部３０２の大きさと、使用するビデオカメラ部の数によってきめられてもよい。また、映像表示部３０２として使用する素子の大きさを規格化し、映像表示部の素子の大きさからビデオカメラ部の配置位置として使用可能な場所いくつか規定し、その中から使用する配置位置を示すことができるようにしてもよい。また、ビデオカメラ部３０３〜３１０を一部可動として、使用する光軸を複数設定できるようにし、この使用可能な光軸の情報をカメラ能力情報に含めてもよい。

図４に映像表示装置１０１、１０２の構成の一例を示すブロック図である。映像表示装置１０１、１０２は同様の構成をとるものとし、以下、映像表示装置１０１について説明する。４０１〜４０８はビデオカメラ部で、図３のビデオカメラ部３０３〜３１０に対応する。４０９は１以上のマイクロホン素子を備えるマイクロホン部である。４１１〜４１８は、ビデオカメラ部４０１〜４０８の映像出力信号を映像符号化する映像符号化部、４１９はマイクロホン部の音声出力信号を音声符号化する音声符号化部である。４１０はビデオカメラ部４０１〜４０８のシャッターを同期し、また、映像符号化部４１１〜４１８の符号化単位（例えばＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）など）のタイミングを同期させ、音声符号化部４１９の符号化単位（音声フレームなど）のタイミングを映像符号化の符号化単位に同期させる。このシャッターの同期は完全に同期することが望ましいが、以降の符号化処理などの信号処理時に各ビデオカメラ部から出力される映像に矛盾が生じない程度に同期がとれていればよい。このとき、映像符号化の符号化単位の周期と音声符号化の符号化単位の周期が異なる場合、これらの符号化単位の周期以外の周期、例えば映像符号化単位の周期の所定の整数倍毎に音声の符号化単位のタイミングが合うようにしてもよい。４２０は映像符号化部４１１〜４１８が出力する映像符号化データと、音声符号化部４１９が出力する音声符号化データを多重する多重化部である。この多重化の
際に使用するコンテナフォーマットは特に制限されないが、例えばＭＰＥＧ２−ｓｙｓｔｅｍフォーマットやＭＭＴ（ＭＰＥＧＭｅｄｉａＴｒａｎｓｐｏｒｔ）フォーマット、ＭＫＶ（ＭａｔｒｏｓｋａＶｉｄｅｏ）フォーマットなどを使用してよい。４２２は通信制御部で、映像処理装置１・１０４に対して映像表示装置１０３に表示するために多重化したデータを送信し、映像表示装置１０３から映像表示装置１０２に表示するために送信されたデータから生成された映像データを映像処理装置２・１０５から受信し、逆多重化部４２３に対して出力する。４２３は通信制御部４２２から出力される映像データを逆多重化し、映像符号化データと音声符号化データを取り出す逆多重化部である。この映像符号化データは映像復号部４２４に、この音声符号化データは音声復号部４２６に出力する。映像データに符号化されたデータの時間に関する情報、例えばタイムスタンプなどが含まれていた場合は、復号後の映像、音声がこの時間に関する情報に従って再生されるよう、映像復号部４２４、音声復号部４２６に入力する符号化データを調整してもよい。４２４は入力される映像符号化データを復号し、映像信号を出力する映像復号部、４２５は入力される映像信号を人間が見ることができるように表示する映像表示部で、図３の３０２に相当する。４２６は入力される音声符号化データを復号し、音声信号を出力する音声復号部、４２７は音声信号を増幅し、スピーカーなどを用いて音声に変換する音声出力部である。

４２８は映像表示装置１０１とネットワーク１０３を接続するためのインターフェース部で、ネットワーク１０３が使用する方式に合わせた構成とする。ネットワーク１０３が無線ネットワークの場合は無線モデムを使用し、ネットワーク１０３がイーサネット（登録商標）を使用する場合はイーサネット（登録商標）アダプタを使用してよい。制御部４２１は他の全てのブロックを制御し、また、通信制御部４２２を経由して映像処理装置１・１０４、映像処理装置２・１０５、映像表示装置１０２と通信を行い、各装置と制御データの交換を行う。この制御データにはディスプレイ能力情報、カメラ能力情報、カメラ配置情報が含まれる。

続いて、映像処理装置１・１０４と映像処理装置２・１０５が、映像表示装置１０１から出力される複数のデータを用いて映像表示装置１０２で表示するために使用する映像データを生成する方法を説明する。本実施例では任意視点の映像を得るためにライトフィールドを用いる。ライトフィールドはある空間中の光線の集合表現であり、一般的には４次元以上のベクトルの集合として表現される。本実施の形態ではライトスラブ（Ｌｉｇｈｔ
Ｓｌａｂ）とも呼ばれる４次元ベクトルの集合をライトフィールドデータとして使用する。本実施の形態で使用するライトフィールドデータの概要を、図５を使用して説明する。図５（ａ）に示すように、本実施例で使用するライトフィールドデータは並行する平面１・５０１上のある点（ｕ，ｖ）５０３から平面２・５０２上のある点（ｘ，ｙ）５０４に向かって通過する光線を４次元のベクトルＬ（ｘ，ｙ，ｕ，ｖ）５０５として表現する。ｕ，ｖ，ｘ，ｙは、以降の計算に必要な範囲以上存在すればよい。以降必要な範囲のｘ，ｙ，ｕ，ｖにいて求められたＬの集合体をＬ‘（ｘ，ｙ，ｕ，ｖ）とする。このＬ’を利用すると、Ｌ‘を通過する任意視点の映像を任意の画角で求めることが可能となる。この概要を図５（ｂ）に示す。５１１はライトフィールドデータＬ’（ｘ，ｙ，ｕ，ｖ）で、ある視点５１２から見たある画角５１３の映像は、Ｌ‘上の領域５１４の（ｘ，ｙ）から視点５１２方向の光線の集合で表現される。同様に別の視点５１５から見たある画角５１６の映像は、Ｌ’状の領域５１７（ｘ，ｙ）から視点５１５方向の光線の集合で表現される。

ライトフィールドデータＬ‘を仮想的なレンズ、絞り、撮像素子を設定したビデオカメラで撮影する映像も同様に計算可能である。一例を、図５（ｃ）を用いて説明する。ビデオカメラの構成要素としてレンズ５２１、絞り５２２、撮像素子５２３を持ち、レンズ５１２の前側主点からライトフィールドデータＬ’までの長さ５２５、レンズ５１２の光軸
の延長上にあるライトフィールドデータＬ‘の位置（ｘ，ｙ）（図示せず）、レンズ５１２の光軸とライトフィールドデータＬ’の垂直方向との角度関係の情報が設定されるものとする。撮像素子５２３には撮影可能な範囲５２４が設定される。この撮影可能な範囲５２４に入光するライトフィールドＬ’から来る光線の集合は計算でき、いわゆるレイトレーシングの技術で絞り５２２、レンズ５２１の設定、レンズ５１２とライトフィールドデータＬ‘の位置関係の設定を用いて計算することができる。

ライトフィールドデータＬ‘は様々な場所に様々な方向から到来するデータの集合であり、ライトフィールドデータを撮影するためにはライトフィールドカメラと呼ばれる機器を使用することが一般的である。ライトフィールドカメラの方式は既に様々な方式が提案されているが、一例としてマイクロレンズアレーを使用する方式の概要を、図６を利用して説明する。ライトフィールドカメラは主レンズ６０１、マイクロレンズアレー６０２、撮像素子６０３を含んで構成される。主レンズ６０１の仕様、主レンズ６０１とマイクロレンズアレー６０２、撮像素子６０３の位置関係、マイクロレンズアレー６０２と撮像素子６０３の解像度は予め決められているものとする。

主レンズ６０１を通過し、マイクロレンズアレー６０２の特定のレンズを通過する光線６０６は、撮像素子６０３の特定の位置に到達する。この位置は主レンズ６０１の仕様、主レンズ６０１、マイクロレンズアレー６０２、撮像素子６０３の位置関係で決まる。簡単化のためにある平面６０４上の点６０９がマイクロレンズアレー６０２上に焦点を結ぶ条件を想定すると、別の平面６０５上の点６１０から平面６０４上の点６０９を通過する光線は主レンズ６０１、マイクロレンズアレー６０２を通り、撮像素子６０３上の点６０７に辿り着く。また、平面６０５上の点６１１から平面６０４上の点６０９を通過する光線は主レンズ６０１、マイクロレンズアレー６０２を通り、撮像素子６０３上の点６０８に辿り着く。このことは撮像素子６０１上の点ｐ_１（ｘ_１，ｙ_１）に辿り着く光線は、平面６０４、平面６０５で構成されるライトフィールドデータＬ‘を用い、

と表現することができる。Ｆ_１は主レンズ６０１、マイクロレンズアレー６０２、撮像素子６０３の仕様、主レンズ６０１、マイクロレンズアレー６０２、撮像素子６０３の位置関係で決まる行列である。これは、このようなライトフィールドカメラを用いると、撮像素子６０３に映り込む範囲でライトフィールドデータを生成する事が出来ることを意味する。

本実施の形態で使用する映像表示装置１０１、１０２が備えるビデオカメラ部３０３〜３１０は図２に示した使用者同士が正対するように撮影できる画角の映像を撮影できない。しかし、ビデオカメラ部３０３〜３１０が撮影するデータは、ライトフィールドデータの一部またはライトフィールドデータの一部とほぼ同等なデータに相当する。これはライトフィールドカメラの近くにビデオカメラ部３０３〜３１０を設置できればライトフィールドカメラが取得する光線方向と近い光線方向から撮影することが可能であるためである。映像処理装置１・１０４はライトフィールドデータの一部の映像情報から、任意視点映像を生成するために使用するライトフィールドデータを生成する。本実施の形態ではライトフィールドデータの補間のためにニューラルネットワークを用いる非線形補間を行う。ニューラルネットワークはライトフィールドカメラから出力されるライトフィールドデータを教師データとして予め学習させる。

ニューラルネットの学習時に使用する機器の構成の一例を図７に示す。７０１はライトフィールドカメラ、７０２、７０３はビデオカメラ部である。ビデオカメラ部７０２、７０３は図３のビデオカメラ部３０３〜３１０に相当するブロックで、図３では８つのビデオカメラ部があるのに対し、図７にはビデオカメラ部７０２、７０３は２つしか図示しておらず、他の６つのビデオカメラ部は省略している。省略したビデオカメラ部はビデオカメラ部７０２、７０３と同様の処理を行うものとする。なお、本実施の形態では映像表示装置１０２、１０３に設置されるビデオカメラ部の数と、学習時に使用するビデオカメラの数が同じことを想定しているがこれに制限されず、映像表示装置が備えるカメラの数と学習時に使用するビデオカメラの数が異なってもよい。ライトフィールドカメラ７０１、ビデオカメラ部７０２、７０３は映像表示装置の正面付近に相当するところに配置された被写体７０２をそれぞれのカメラの撮影範囲に入るようにする。７０４は同期制御部で、ライトフィールドカメラ７０１とビデオカメラ部７０２、７０３のシャッターを同期させる。被写体や、被写体の配置を変えながら学習部７０５は機械学習によりニューラルネットワークのモデルの重み係数の最適化を進める。ここで使用するニューラルネットワークは、入力としてビデオカメラ部７０２、７０３の映像を使用し、ライトフィールドデータを出力するものとする。教師データとしてライトフィールドカメラ７０１の出力を使用し、このニューラルネットワークの出力とライトフィールドカメラ７０１の出力が同じようになるよう重み係数の最適化を進める。このニューラルネットワークの構造は特に限定されないが、一例として画像の補間処理に向いているとされるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いてもよい。複数の時間、つまり求めようとするある時間のライトフィールドデータに対応するビデオカメラ部７０２、７０３の映像出力だけではなく、その前後の時間のビデオカメラ部７０２、７０３の映像出力を用いてライトフィールドデータの計算を行う場合、ニューラルネットワークの構造としてＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｕｅｒａｌＮｅｔｗｏｒｋ）を用いてもよい。

ニューラルネットワークへの入力、すなわちビデオカメラ部７０２、７０３の出力に対し、ニューラルネットワークの出力であるライトフィールドデータは規模が大きいため、ニューラルネットワークの学習が進まない場合がある。このような状況の対策として、ニューラルネットワークから出力されるライトフィールドデータに制限をかけてもよい。これによりライトフィールドデータの規模を小さくし、ニューラルネットワークの学習効率を高めることができる。この制限はさまざまな方法が考えられ、結果ライトフィールドに含まれる光線の位置、方向を制限できれば良い。一例として、ライトフィールドを使用して合成する任意視点映像生成時に使用する仮想ビデオカメラの位置、光軸、画角を制限する、合成する任意視点映像の解像度、色深度を制限する、のような方法が使用できる。また、ニューラルネットワークに入力する信号、つまりビデオカメラ部７０２、７０３の出力にいくつかの条件を設定し、ニューラルネットワークの学習効率を高めてもよい。一例として、教師データとして使用するライトフィールドカメラ７０１とビデオカメラ部７０２、７０３の配置条件、ビデオカメラ部の設定を制限してもよい。言い換えると、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラに設定される配置条件（映像表示装置１０１、１０２の映像表示部中心からの相対位置、映像表示装置１０１、１０２の配置場所からの相対位置、光軸の映像表示部の垂直方向からの傾きなど）、各ビデオカメラのレンズ設定（焦点距離、絞り量など）などを制限してもよい。制限の方法として、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラが配置できる位置、光軸を設定できる向き、設定できる焦点距離、設定できる絞り設定のそれぞれが取り得る値を予め決めておき、いずれかの値のみを使用できるとしてもよい。また、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラが配置できる位置、光軸を設定できる向き、設定できる焦点距離、設定できる絞り設定の少なくとも２つのパラメータについて、取り得る値の組み合わせを制限してもよい。また、これらのパラメータの少なくとも１つは、映像表示装置１０１、１０２が備える映像表示部の大きさと関係づけられてよい。
また、このとき、映像表示部の大きさについても取り得る値を予め決めておいてもよい。

なお、これらのパラメータを映像処理装置１・１０４が扱う場合、映像表示装置１０１から得ているカメラ能力情報、カメラ配置情報のいずれかが複数の設定に対応する事が示されている場合、映像表示装置１０１に対して使用する設定を示す情報を送り、映像表示装置１０１が使用する設定を指示してもよい。また、カメラ能力情報、カメラ配置情報、ディスプレイ表示能力情報のそれぞれが複数の値を取り得る場合、ニューラルネットワークで処理可能な値の組み合わせを予め制限しておき、処理可能な組み合わせ以外については映像表示装置１０１に対して組み合わせ不能であることを示す情報を送ってもよい。また、近似可能な組み合わせであれば、指定された組み合わせではなく近似の組み合わせを使用してもよい。また、近似の組み合わせを使用したことを通知してもよい。

ニューラルネットワークの学習を進めた後、学習部７０５は蓄積部７０６にニューラルネットワークの重みを送り、学習結果を蓄積する。このとき、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラが配置できる位置、光軸を設定できる向き、設定できる焦点距離、設定できる絞り設定などの値、またはこれらの値の組み合わせ毎に学習結果を蓄積してもよい。蓄積された学習済みの重みは映像処理装置１・１０４に送られる。映像処理装置１・１０４に送る手段は特に限定されず、何かしらのネットワークを使用して送ってもよく、また、物理的な可搬記録媒体を利用して送ってもよい。図７に示した学習部７０５を含む系はネットワーク１０３に接続されていても接続されていなくてもよい。

映像処理装置１・１０４は学習部７０５が使用しているニューラルネットワークと同様のニューラルネットワークを備え、蓄積部７０６から得られた重みを利用し、映像表示装置１０１から送信されるディスプレイ能力情報、カメラ能力情報、カメラ配置情報の少なくとも１つと、映像表示装置１０１から送信される撮影した映像情報からライトフィールドデータを生成する。蓄積部７０６から得られた重みが映像表示装置１０１から送信されるディスプレイ能力情報、カメラ能力情報、カメラ配置情報の少なくとも１つに基づいて変わる場合、この基づいているパラメータに対応する重みを使用してライトフィールドデータを生成する。映像表示装置１０１から送信される撮影した映像情報が複数のビデオカメラ部で撮影した映像を多重している場合、逆多重化処理を行い、ニューラルネットワークの学習時に使用したビデオカメラ配置と同様の配置のビデオカメラ部から出力された信号をニューラルネットワークに入力する。映像表示装置１０１から送信される信号に音声データが多重化されている場合は逆多重化時に音声データを含めて逆多重化を行い、音声データを含む映像データ以外の信号を映像処理装置２・１０５に送信してよい。また、映像データと音声データ以外の制御情報、例えばディスプレイ能力情報、カメラ能力情報、カメラ配置情報などの制御情報を映像処理装置２・１０５に送信してよい。また、映像表示装置１０１から送信される撮影した映像情報が映像符号化されている場合、複合処理を行い、復号後の信号をニューラルネットワークに入力する。

映像処理装置１・１０４が生成したライトフィールドデータは映像処理装置２・１０５に入力される。映像処理装置２・１０５は図５に示した要領で任意視点の映像データを生成する。このとき、任意視点の映像を生成するために仮想的なレンズ、絞り、撮像素子を設定した仮想ビデオカメラを使用してもよい。任意視点の設定、仮想ビデオカメラの設定は映像表示装置１０２が行ってもよく、また、映像表示装置１０２から送られた各種データに基づいて映像処理装置１・１０４が行ってもよい。映像表示装置１０２が任意視点の設定、仮想ビデオカメラの設定を行う場合、映像表示装置１０２が備えるビデオカメラを用いて使用者が居る位置を推定し、推定した使用者の位置と映像表示装置１０２が備える映像表示部３０２の中心付近を結ぶ線の延長上に任意視点の設定を行い、映像表示装置１０２が備える映像表示部３０２の大きさに基づいて仮想ビデオカメラの設定を行ってよい
。使用者の位置推定の一例として、映像表示装置１０２が備える複数のビデオカメラ部から得られる映像情報のそれぞれから視差マップを作成し、この視差マップの映像表示装置１０２に近い領域を使用者として推定し、その領域の視差から使用者の位置を推定してもよい。また、映像表示装置１０２がビデオカメラ以外のセンサ、例えばパターン照射型の深度センサを備え、背景より近い物体を使用者として推定し、その物体の位置を利用して任意視点の設定を行ってもよい。映像表示装置１０２から送られた各種データに基づいて映像処理装置１・１０４が任意視点の設定、仮想ビデオカメラの設定を行う場合、同様に映像表示装置１０２から送られた映像表示装置１０２が備えるビデオカメラ部３０３〜３１０が撮影した映像情報を使用して視差マップを作成し、この視差マップの映像表示装置１０２に近い領域を使用者として推定し、その領域の視差から使用者の位置を推定してもよい。また、映像表示装置１０２から送られたディスプレイ能力情報に含まれる映像表示装置１０２の大きさを利用して仮想ビデオカメラの設定を行ってよい。

映像処理装置２・１０５が設定された任意視点を用いて、仮想ビデオカメラが設定されている場合は仮想ビデオカメラとの設定も用いて任意視点の映像データを生成する。このとき生成する任意視点の映像データの解像度を、映像表示装置１０２のディスプレイ能力情報に基づいて設定してよい。任意視点の映像データの解像度の設定は、ライトフィールドデータのサンプリング間隔の設定により行ってもよい。生成した任意視点の映像データは映像符号化し、映像処理装置１・１０４から音声データが入力されている場合は符号化済みの映像データとこの音声データを多重化し、映像表示装置１０２に対して送信する。

映像表示装置１０２は、多重化された任意視点の映像データと音声データを受信し、ネットワークインターフェース部４２８、通信制御部４２２を経由し、逆多重化部４２３で符号化された映像データと符号化された音声データを分離し、符号化された映像データは映像復号部４２４で復号され、映像表示部４２５で表示され、符号化された音声データは音声復号部４２６で復号され、音声出力部４２７から音声として出力される。

以上のように動作することで、映像表示装置１０１、１０２の映像表示部３０２の外側に配置された複数のビデオカメラ部３０３〜３１０から撮影された映像データを用いて任意視点の映像データを生成することで、使用者同士が映像表示装置１０１、１０２を挟んで正対した任意視点の映像データを生成することが可能となり、臨場感の高い映像通信を実現することができる。

なお、複数のビデオカメラ部３０３〜３１０を同等の設定をして撮影してもよいが、複数のビデオカメラ部３０３〜３１０のそれぞれに対して異なる設定を行い、ライトフィールドデータの生成を行ってよい。これは学習時に使用するライトフィールドカメラ７０１の性能より映像表示装置１０１、１０２が備える複数のビデオカメラ部３０３〜３１０の性能が低い場合、複数のビデオカメラ部３０３〜３１０のそれぞれの設定を変えて映像を撮影することで、ライトフィールドカメラ７０１の性能に近いライトフィールドデータを生成できる場合があるためである。一例として、映像表示装置１０１、１０２が備える複数のビデオカメラ部３０３〜３１０が撮影するデータの色深度がライトフィールドカメラ７０１より少ない場合、複数のビデオカメラ部３０３〜３１０を複数のグループに分け、それぞれのグループの絞り設定を変えて照度の高い場面に合わせた絞り設定のグループと照度の低い場面に合わせた絞り設定のグループを設定してよい。例えば、ビデオカメラ部３０３、３０５、３０７、３０９の絞り設定を絞り、照度の高い場面に合わせた設定とし、ビデオカメラ部３０４、３０６、３０８、３１０の絞り設定を開き、照度の低い設定として映像の撮影を行ってよい。このような設定を行う場合、ライトフィールドカメラ７０１を用いたニューラルネットワークの学習時に使用するビデオカメラ部（７０２、７０３と記載を省力したカメラ部）の絞り設定と配置を先述のビデオカメラ部３０３〜３１０の設定と同様にして学習部７０５による学習を行う。このような状態で学習を進めると、ニ
ューラルネットによって出力されるライトフィールドデータはライトフィールドカメラ７０１の性能に近いものとなる。映像表示装置１０１が映像処理装置１・１０４からビデオカメラ部３０３〜３１０の設定を行えるようにし、映像表示装置１０１から受信したカメラ能力情報、カメラ配置情報を利用して映像処理装置１・１０４が映像表示装置１０１のビデオカメラ部３０３〜３１０の設定を行ってもよい。

以上のようにビデオカメラ部３０３〜３１０のそれぞれに異なる設定を行うことで、映像処理装置１・１０４が生成するライトフィールドデータの品質を高め、映像処理装置２・１０５が生成する任意視点の映像データの品質を向上させ、臨場感の高い映像通信を実現することができる。このビデオカメラ部３０３〜３１０のそれぞれに異なる設定は絞り設定以外に、焦点距離、出力する映像データの色深度、解像度などの他のパラメータに対して行ってもよい。

（第２の実施形態）
本実施の形態は、第１の実施形態ではライトフィールドデータを使用して任意視点の映像データを生成していたものを、サーフェスデータを使用して任意視点の映像データを生成するものである。

映像表示装置１０１、１０２の構成は第１の実施形態と同等のものを使用する。映像処理装置１の処理を変え、映像表示装置１０１の複数のビデオカメラ部３０３〜３１０で撮影された映像データを用いて視差マップを作成し、視差マップを基に３Ｄのサーフェスモデルを生成する。この３Ｄのサーフェスモデル上張る複数のビデオカメラ部３０３〜３１０で撮影された映像データに基づいたテクスチャデータを生成し、３Ｄのサーフェスモデルとテクスチャデータ、映像表示装置１０１から送信された音声データを映像処理装置２に送る。映像処理装置２の処理も変え、映像処理装置１から受信した３Ｄサーフェスモデル、テクスチャデータと、設定する仮想カメラの情報から任意視点の映像データを３ＤＣＧ映像として生成して符号化し、映像表示装置１０１から送信された音声データを多重化して映像表示装置１０２に送信する。

（全実施形態共通）
本発明に関わる装置で動作するプログラムは、本発明に関わる実施形態の機能を実現するように、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）等を制御してコンピュータを機能させるプログラムであっても良い。プログラムあるいはプログラムによって取り扱われる情報は、一時的にＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）などの揮発性メモリあるいはフラッシュメモリなどの不揮発性メモリやＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）、あるいはその他の記憶装置システムに格納される。

尚、本発明に関わる実施形態の機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録しても良い。この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。ここでいう「コンピュータシステム」とは、装置に内蔵されたコンピュータシステムであって、オペレーティングシステムや周辺機器等のハードウェアを含むものとする。また、「コンピュータが読み取り可能な記録媒体」とは、半導体記録媒体、光記録媒体、磁気記録媒体、短時間動的にプログラムを保持する媒体、あるいはコンピュータが読み取り可能なその他の記録媒体
であっても良い。

また、上述した実施形態に用いた装置の各機能ブロック、または諸特徴は、電気回路、たとえば、集積回路あるいは複数の集積回路で実装または実行され得る。本明細書で述べられた機能を実行するように設計された電気回路は、汎用用途プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはその他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェア部品、またはこれらを組み合わせたものを含んでよい。汎用用途プロセッサは、マイクロプロセッサであってもよいし、従来型のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであっても良い。前述した電気回路は、デジタル回路で構成されていてもよいし、アナログ回路で構成されていてもよい。また、半導体技術の進歩により現在の集積回路に代替する集積回路化の技術が出現した場合、本発明の一または複数の態様は当該技術による新たな集積回路を用いることも可能である。

なお、本願発明は上述の実施形態に限定されるものではない。実施形態では、装置の一例を記載したが、本願発明は、これに限定されるものではなく、屋内外に設置される据え置き型、または非可動型の電子機器、たとえば、ＡＶ機器、オフィス機器、自動販売機、その他生活機器などの端末装置もしくは通信装置に適用出来る。

以上、この発明の実施形態に関して図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。

本発明は、映像表示装置、映像処理装置に利用可能である。

１０１、１０２映像表示装置
１０３ネットワーク
１０４映像処理装置１
１０５映像処理装置２
２０１使用者１
２０３使用者２
２０２、２０７映像表示装置
２０４、２０５、２０６ビデオカメラ装置
１０８、１２２デマルチプレクサ部
３０１映像表示装置
３０２映像表示部
３０３〜３１０ビデオカメラ部
４０１〜４０８ビデオカメラ部
４０９マイクロホン部
４１０同期管理部
４１１〜４１８映像符号化部
４１９音声符号化部
４２０多重化部
４２１制御部
４２２通信制御部
４２３逆多重化部
４２４映像復号部
４２５映像表示部
４２６音声復号部
４２７音声出力部
４２８ネットワークインターフェース部
６０１主レンズ
６０２マイクロレンズアレー
６０３撮像素子
７０１ライトフィールドカメラ
７０２、７０３ビデオカメラ部
７０４同期制御部
７０５学習部
７０６蓄積部

Claims

１以上の映像処理装置と通信を行う映像表示装置であって、
映像表示部と、
複数のビデオカメラ部と、
同期制御部と、
制御部を備え、
前記複数のビデオカメラ部のそれぞれは映像表示部の外側に設置され、
前記同期制御部は前記複数のビデオカメラ部のシャッターを同期させ、
前記制御部は前記１以上のいずれかの映像処理装置に対し、前記複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示部の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を送信し、
前記１以上のいずれかの映像処理装置から送信された映像情報を受信し、前記映像表示部に表示する事を特徴とする映像表示装置。
請求項１に記載の映像表示装置であって、
前記カメラ配置情報は、前記映像表示装置が備える映像表示部の中の所定の点を基準とした前記複数のビデオカメラ部の位置情報を含み、前記映像表示部の表示面を基準とした前記複数のビデオカメラ部の光軸の情報を含むことを特徴とする映像表示装置。
請求項１に記載の映像表示装置であって、
前記カメラ能力情報は、前記複数のビデオカメラ部のそれぞれが使用するレンズ設定の、焦点距離、絞りに関する情報を含むことを特徴とする映像表示装置。
請求項１に記載の映像表示装置であって、
前記ディスプレイ能力情報は、前記映像表示装置が備える前記映像表示部の大きさに関する情報、前記映像表示部が表示可能な解像度に関する情報、前記映像表示装置が表示可能な色深度に関する情報、前記映像表示部の配置に関する情報の少なくとも１つを含むことを特徴とする映像表示装置。
請求項１に記載の映像表示装置であって、
前記制御部は前記１以上の映像処理装置のいずれかから前記ビデオカメラ部の設定情報を受信し、前記設定情報に従って前記複数のビデオカメラ部のそれぞれを設定する事を特徴とする映像表示装置。
請求項１に記載の映像表示装置であって、
前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも２つが複数の値を取り得る場合、
前記映像処理装置に対して送る前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の値の組み合わせが一部制限されることを特徴とする映像表示装置。
第１の映像表示装置と第２の映像表示装置を含む複数の映像表示装置と通信する映像処理装置であって、
前記第１の映像表示装置から複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示装置の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を受信し、
受信した前記映像情報から任意視点映像を生成し、
前記第２の映像表示装置に対して前記任意視点映像を送信する事を特徴とする映像処理
装置。
請求項７に記載の映像処理装置であって、
前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも２つが複数の値を取り得るときに、
前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報がの組み合わせを制限することを特徴とする映像処理装置。