JP2017135464A

JP2017135464A - 映像送信装置、映像送信システム、映像送信方法、及びプログラム

Info

Publication number: JP2017135464A
Application number: JP2016011712A
Authority: JP
Inventors: 駿杉本; Shun Sugimoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2017-08-03

Abstract

【課題】頻繁に視点の切り替えが行われたとしても、送信するデータ量の増大を抑制できる装置、システム、方法及びプログラムを提供する。【解決手段】自由視点映像配信システム１００のサーバ装置１１８は、映像データを受ける端末装置に対応する視点を示す視点情報を取得し、複数の視点でそれぞれ撮像された複数の映像データからなる映像群を、任意の視点を基準視点としたフレーム内予測、フレーム間予測、及び視点間予測により符号化する符号化手段１１４、１１５、１１６からフレーム内予測符号化した映像データの取得が行われる周期で、視点情報に基づいて端末装置に送信する映像データを決定し、決定された映像データを符号化手段１１４、１１５、１１６から取得し端末装置に送信する。【選択図】図１

Description

本発明は、映像送信装置、映像送信システム、映像送信方法、及びプログラムに関する。

複数の視点カメラで撮像された映像を、個々の視点映像を独立して符号化するのではなく、周辺視点との相関を利用して符号化する技術としてＭＶＣ（Multi View Coding）が知られている。ＭＶＣでは、複数の視点映像が１個のベースビュー（基準視点）と１個以上の非ベースビューとして符号化される。ベースビューは、１個の視点内で独立して映像が符号化される。非ベースビューは、ベースビュー又は非ベースビューを含めたその他のビューを参照し、ビュー間予測により映像が符号化される。

また、複数の視点映像の中から見たい視点映像をユーザが自由に選択して視聴することができる自由視点映像が利用されてきている。また、ネットワーク経由でリアルタイムに映像等を伝送するプロトコルであるＲＴＰ（A Transport Protocol for Real-Time Application, RFC 3550, IETF）が知られている。

自由視点映像の符号化データをＲＴＰ等によりネットワーク経由で伝送する場合、すべての視点映像の符号化データを送信すると送信データ量が大きくなってしまう。そこで、ユーザが見たい視点映像を復号化できる最低限の符号化データを生成又は送信する技術が提案されている。例えば、多視点ビデオストリームを提供するシステムにおいて、ユーザが所望する視点映像を基本設定映像として設定し、動的に符号化ビューを変更することで自由視点映像システムを効率化する技術が提案されている（特許文献１参照）。

特表２００９−５１２２７０号公報

しかしながら、特許文献１に記載の方法では、視点の切り替えを行う度にデータ量の大きいフレーム内予測符号化データを送信しなければならないため、頻繁に視点の切り替えを行うと送信するデータ量が増大してしまう。本発明は、頻繁に視点の切り替えが行われたとしても、送信するデータ量の増大を抑制できるようにすることを目的とする。

本発明に係る映像送信装置は、複数の視点で撮像される視点映像を送信する映像送信装置であって、映像データを受ける端末装置に対応する視点を示す視点情報を取得する取得手段と、複数の視点でそれぞれ撮像された複数の映像データからなる映像群を、任意の視点を基準視点としたフレーム内予測、フレーム間予測、及び視点間予測により符号化する符号化手段からフレーム内予測符号化した映像データの取得が行われる周期で、前記取得手段により取得した前記視点情報に基づいて前記端末装置に送信する映像データを決定する決定手段と、前記決定手段により決定された映像データを前記符号化手段から取得し前記端末装置に送信する送信手段とを有することを特徴とする。

本発明によれば、頻繁に視点の切り替えが行われたとしても、送信するデータ量の増大を抑制することが可能となる。

本発明の実施形態における映像送信システムの構成例を示す図である。本実施形態における符号化装置の機能構成例を示す図である。本実施形態における参照マップの例を示す概念図である。本実施形態におけるサーバ装置の機能構成例を示す図である。本実施形態における符号化装置及びサーバ装置のハードウェア構成例を示す図である。本実施形態における視点映像のグループ化の方法を説明する図である。本実施形態におけるグループ選択処理の例を示すフローチャートである。本実施形態におけるユーザＡの視点切り替え状況の例を示す図である。本実施形態におけるユーザＢの視点切り替え状況の例を示す図である。本実施形態における取得する映像符号化データを示す図である。第２の実施形態における視点映像のグループ化の概要を示す図である。第２の実施形態におけるグループ化処理の例を示すフローチャートである。第３の実施形態における参照マップの例を示す概念図である。

以下、本発明の実施形態を図面に基づいて説明する。なお、以下に説明する実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

（第１の実施形態）
本発明の第１の実施形態について説明する。スタジアムで行われる競技の映像をスタジアム内に全周で設置された複数のカメラで撮像し、ユーザがネットワーク経由でそれぞれの視点映像を自由に選択しながら視聴することができる自由視点映像配信システムを例に説明する。なお、自由視点映像とは、複数の視点で撮影された映像から作成される。自由視点映像は、ユーザが視点を変更して視聴することが可能な映像である。なお、視点とは、映像が撮影された位置とも言い換えることができる。

図１は、本発明の一実施形態における映像送信システムとしての自由視点映像配信システムの構成例を示す図である。自由視点映像配信システム１００は、カメラ１０１〜１１３を含む、スタジアム内に全周で設置された複数のカメラで撮像した映像データから自由視点映像を生成する。説明上、図１においては、カメラ１０１〜１１３についてのみ番号を付与しているが、その他のカメラもカメラ１０１〜１１３と同等の役割及び機能を有する。また、カメラの数に制限はなく、例示したような全周設置でなくてもよい。

符号化装置１１４〜１１６は、複数のカメラでそれぞれ撮像された視点映像データが入力され、マルチビュー符号化による圧縮符号化処理を行う。説明上、図１においては、符号化装置１１４〜１１６のみ図示しているが、例えば後述するベースビュー（基準視点）として設定する視点数分の符号化装置が存在しているものとする。なお、符号化装置の数に制限はなく、１つの符号化装置が複数のベースビューに対応していてもよい。符号化装置とカメラとの間の映像データ信号の伝送方式としては、例えばＳＤＩ（Serial Digital Interface）やＩＥＥＥ１３９４、ＧｉｇａｂｉｔＥｔｈｅｒｎｅｔ（登録商標）等の方式が挙げられるが、これらには限定されない。

マルチビュー符号化では、複数の視点映像データが１個のベースビューと１個以上の非ベースビューとして符号化される。ベースビューは、１個の視点内で独立して映像データが符号化され、非ベースビューは、ベースビュー又は非ベースビューを含めたその他のビューを参照してビュー間予測により映像データが符号化される。マルチビュー符号化処理の方式及び原理等の詳細な説明は省略する。また、図１に示す例では、符号化装置１１４にはカメラ１０１〜カメラ１０９の９視点の映像データが入力されるようになっているが、一例であり９個以上でも以下でもよい。

サーバ装置１１８は、符号化装置１１４〜１１６を含む複数の符号化装置で符号化された映像符号化データが入力される。図１においては、符号化装置で符号化された映像符号化データが中継装置１１７を経由してサーバ装置１１８に入力されるようにしているが、中継装置１１７はなくてもよい。符号化装置とサーバ装置との間の映像符号化データ信号の伝送方式には、符号化装置とカメラとの間と同様に制限はない。

また、サーバ装置１１８は、外部ネットワーク１１９と接続されており、ユーザの端末装置に対して外部ネットワーク１１９経由で自由視点映像を提供する。その際に、ユーザの端末装置は、ＨＴＴＰ（Hypertext Transfer Protocol）やＲＴＳＰ（Real Time Streaming Protocol）等の通信プロトコルを用いてサーバ装置１１８にアクセスする。サーバ装置１１８は、自由視点映像をユーザの端末装置に送信する際にＲＴＰ（Real-time Transport Protocol）やＨＴＴＰ等の通信プロトコルを用いる。使用する通信プロトコルはこれら以外でもよいし、独自の通信プロトコルであってもよい。また、外部ネットワーク１１９は、例えばインターネットやＬＡＮ（Local Area Network）等のネットワークが挙げられるが、これらには限定されない。

図２は、本実施形態における符号化装置の機能構成例を示すブロック図である。図２においては、カメラ１０１〜１０９と通信可能に接続される符号化装置１１４を一例として示しているが、他の符号化装置の機能構成も同様であり通信可能に接続されるカメラが異なる。

データ入力部２０１は、カメラ１０１〜１０９の９個のカメラから撮像された９視点の映像データを入力する。モード判定部２０２は、入力される映像データを符号化する符号化モードを判定する。また、モード判定部２０２は、判定した符号化モードに応じて、入力される映像データをフレーム内予測部２０３、フレーム間予測部２１６、及びビュー間予測部２１７に入力する。符号化モードは、入力される映像データを（１）フレーム内予測で符号化するモード、（２）フレーム間予測で符号化するモード、（３）ビュー間予測（視点間予測）で符号化するモード、及び（４）フレーム間予測とビュー間予測とを併用するモードがある。

フレーム内予測符号化モードは、入力された映像データのうち、ベースビューとなる視点の映像データに対して周期的に発生する。一般的な周期としては０．５秒間隔や１秒間隔が用いられるが、これらの間隔に限らない。また、ベースビューは予め決めておいてもよいし、動的に変更するようにしてもよい。本実施形態では、ベースビューは予め決めておくものとし、符号化装置１１４においては、カメラ１０５から入力される視点映像をベースビューとする。

以下に、フレーム内予測符号化モードにおける各機能部の役割について説明する。フレーム内予測部２０３は、入力された映像データからフレーム内予測信号を生成する。入力された映像データからフレーム内予測信号を減算器２０４で減算して得られた剰余データがＤＣＴ変換部２０５に入力される。ＤＣＴ変換部２０５は、入力された剰余データをＤＣＴ（Discrete Cosine Transform、離散コサイン変換）し、量子化部２０６に入力する。量子化部２０６は、ＤＣＴ変換された剰余データを量子化し、エントロピー符号化部２０７及び逆量子化部２１１に入力する。

エントロピー符号化部２０７は、ＤＣＴ変換及び量子化された入力剰余データをエントロピー符号化（可変長符号化）し、符号化データバッファ２０８に入力する。符号化データバッファ２０８は、エントロピー符号化された各視点映像の映像符号化データを保存するバッファである。多重化部２０９は、符号化データバッファ２０９から送信すべき映像符号化データを取り出し、取り出した映像符号化データをネットワークに適したサイズ及びフォーマットでパケット化して通信部２１０に入力する。通信部２１０は、サーバ装置１１８と中継器１１７を経由して通信を行う。また、通信部２１０は、サーバ装置１１８から要求されるフレームの符号化データパケットを多重化部２０９から取得し、サーバ装置１１８に送信する。

逆量子化部２１１は、ＤＣＴ変換及び量子化された入力データを逆量子化し、逆ＤＣＴ変換部２１２に入力する。逆ＤＣＴ変換部２１２は、逆量子化された入力データを逆ＤＣＴ変換する。逆ＤＣＴ変換された入力データは、フレーム内予測部２０３で生成したフレーム内予測信号と加算器２１３で加算されＩ（Intra）フレームに復元され、フィルタ２１４に入力される。フィルタ２１４に入力されたＩフレームは、デブロッキングフィルタによるブロック歪の除去が施された後、フレームメモリ２１５に保存される。

次に、フレーム間予測符号化モード、ビュー間予測符号化モード、フレーム間予測とビュー間予測併用モードにおける各機能部の役割について説明する。フレーム間予測符号化モード時には、入力された映像データはフレーム間予測部２１６に入力され、ビュー間予測符号化モード時には、入力された映像データはビュー間予測部２１７に入力される。また、フレーム間予測とビュー間予測併用モード時には、入力された映像データは、フレーム間予測部２１６及びビュー間予測部２１７の両予測部に入力される。

フレーム間予測部２１６は、異なる撮像時間の同一視点映像をフレームメモリ２１５から取得して動き補償を行う。ビュー間予測部２１７は、異なる視点の同一撮像時間映像をフレームメモリ２１５から取得して視差補償を行う。フレーム間予測部２１６及びビュー間予測部２１７は、生成された予測信号を参照方向制御部２１８に入力するとともにエントロピー符号化部２０７に入力する。

参照方向制御部２１８は、入力された予測信号を減算器２０４に入力するとともに加算器２１３に入力する。フレーム内予測符号化モードと同様に、入力された映像データから予測信号を減算器２０４で減算して得られた剰余データがＤＣＴ変換部２０５に入力される。また、逆ＤＣＴ変換された剰余データと予測信号が加算器２１３で加算される。また、参照方向制御部２１８は、参照方向の情報を用いて参照マップ２１９を更新する。

図３は、参照マップ２１９の概念図である。図３において、縦軸は異なる視点カメラを示し、横軸は時間軸を示す。図中の矩形ブロックはフレームを示し、Ｉはフレーム内予測符号化のみによって符号化したＩフレームを示す。Ｐはフレーム間予測符号化又はビュー間予測符号化の何れか一方向のみの参照によって符号化したＰフレームを示す。Ｂはフレーム間予測符号化及びビュー間予測符号化を併用した二方向の参照によって符号化したＢフレームを示す。図中の矢印は符号化時の参照方向を示す。なお、図３に示す符号化の参照方向は一例であり、これらに限らない。本実施形態では、参照マップ２１９をフレーム単位で構成するようにしているが、スライス単位やマクロブロック単位で構成してもよい。

図３において、破線３０１で囲まれたカメラ１０５の視点映像群はベースビューの映像であり、カメラ１０５の視点映像はその他の視点映像を参照しないで符号化される。また、図３において、破線３０２で囲まれたカメラ１０１〜１０９の視点映像群をＧＯＰ（Group Of Pictures）とし、フレーム内予測符号化が発生する周期で生成される。なお、異なるＧＯＰ間での参照符号化は発生しないものとする。通信部２１０は、参照マップ２１９を利用してサーバ装置１１８から要求されたフレームの復号化に必要な符号化フレームデータを把握する。

図４は、本実施形態におけるサーバ装置１１８の機能構成例を示すブロック図である。通信部４０１は、中継器１１７経由で符号化装置１１４、１１５、・・・を含む符号化装置群４０８と接続される。また、通信部４０１は、外部ネットワーク１１９とも接続される。なお、符号化装置群４０８と接続する通信部と外部ネットワーク１１９と接続する通信部が別々であってもよい。

配信要求受信部４０２は、ユーザの端末装置から外部ネットワーク１１９経由で自由視点映像の配信要求を受信し、ユーザ情報と視点情報とをユーザ情報バッファ４０３に入力する。また、配信要求受信部４０２は、受信した配信要求に従って、符号化データ取得部４０４に対して映像符号化データを取得すべき符号化装置情報及びユーザ情報を通知する。

符号化データ取得部４０４は、通知された符号化装置情報及びユーザ情報に基づき符号化装置群４０８の中の適切な符号化装置に対して視点映像の映像符号化データの取得要求を入力する。取得した視点映像の映像符号化データ及びユーザ情報は、符号化データ送信部４０５に入力される。符号化データ送信部４０５は、入力されたユーザ情報に応じて入力された視点映像の映像符号化データを外部ネットワーク１１９経由でユーザの端末装置に対して送信する。

切り替え要求受信部４０６は、ユーザの端末装置から外部ネットワーク１１９経由で視点映像の切り替え要求を受信し、ユーザ情報バッファ４０３の該当するユーザ情報及び視点情報を必要に応じて更新する。また、ユーザ情報バッファ４０３におけるユーザ情報及び視点情報の更新は、視点の切り替え要求を受信した場合だけでなく、周期的に挿入されるフレーム内予測符号化処理を実施する場合にも実行される。また、切り替え要求受信部４０６は、符号化データ取得部４０４に対して映像符号化データを取得すべき符号化装置情報及びユーザ情報を通知する。

グループ化部４０７は、システム起動時、又はシステム起動後に周期的に複数の視点映像をグループ化し、ユーザ情報バッファ４０３にグループ情報を入力又は更新する。また、グループ情報は符号化装置群４０８に対して通知される。グループ化の方法については後述する。

図５は、本実施形態における符号化装置及びサーバ装置のハードウェア構成の一例を示すブロック図である。本実施形態における符号化装置１１４は、図５（Ａ）に示すようにＣＰＵ５０１、ＲＡＭ５０２、ＲＯＭ５０３、記憶装置５０４、ネットワークインタフェース５０５、及びカメラインタフェース５０６を有する。ＣＰＵ５０１、ＲＡＭ５０２、ＲＯＭ５０３、記憶装置５０４、ネットワークインタフェース５０５、及びカメラインタフェース５０６は、システムバス５０７を介して互いに通信可能に接続されている。

ＣＰＵ５０１は、ＲＯＭ５０３又は記憶装置５０４に格納されているプログラムを読み出して実行することで、システムバス５０７に接続された各構成部を総括的に制御する。例えば、ＣＰＵ５０１は、ＲＯＭ５０３又は記憶装置５０４から処理プログラムを読み出して実行することで、後述するような動作処理を実現するための制御を行う。ＲＡＭ５０２は、ＣＰＵ５０１の主メモリ又はワークエリア等として機能する。記憶装置５０４は、各種処理を実行するためのプログラムを記憶する。また、記憶装置５０４は、例えば符号化された各視点映像の映像符号化データを記憶する。ネットワークインタフェース５０５は外部ネットワーク１１９経由でサーバ装置１１８と双方向にデータをやりとりする。カメラインタフェース５０６は、カメラから撮像された映像データを入力する。

また、本実施形態におけるサーバ装置１１８は、図５（Ｂ）に示すようにＣＰＵ５１１、ＲＡＭ５１２、ＲＯＭ５１３、記憶装置５１４、及びネットワークインタフェース５１５を有する。ＣＰＵ５１１、ＲＡＭ５１２、ＲＯＭ５１３、記憶装置５１４、及びネットワークインタフェース５１５は、システムバス５１６を介して互いに通信可能に接続されている。

ＣＰＵ５１１は、ＲＯＭ５１３又は記憶装置５１４に格納されているプログラムを読み出して実行することで、システムバス５１６に接続された各構成部を総括的に制御する。例えば、ＣＰＵ５１１は、ＲＯＭ５１３又は記憶装置５１４から処理プログラムを読み出して実行することで、後述するような動作処理を実現するための制御を行う。ＲＡＭ５１２は、ＣＰＵ５１１の主メモリ又はワークエリア等として機能する。記憶装置５１４は、各種処理を実行するためのプログラムを記憶する。また、記憶装置５１４は、例えばユーザ情報や視点情報やグループ情報を記憶する。ネットワークインタフェース５１５は外部ネットワーク１１９経由で符号化装置と双方向にデータをやりとりする。

次に、グループ化部４０７における複数の視点映像のグループ化の方法を、図６を参照して説明する。図６は、本実施形態における視点映像のグループ化の方法を説明する図である。本実施形態では、一例としてマルチビュー符号化におけるベースビューを２ビュー毎に生成する仕様で説明するが、これに限定されない。また、１つのグループに含まれるビューの数を９個として説明するが、これに限定されない。

カメラ１０１からカメラ１１３の各視点映像をそれぞれビュー１からビュー１３とする。１つのグループは９個のビューで構成され、端から５番目のビューをベースビューとする。また、グループに含まれるビューの一部が、他のグループに含まれるようにしてグループ化する。図６に示す例において、破線６０１で囲まれたグループ１は、ビュー１からビュー９までで構成され、ベースビューはビュー５となる。破線６０２で囲まれたグループ２は、ビュー３からビュー１１までで構成され、ベースビューはビュー７となる。また、破線６０３で囲まれたグループ３は、ビュー５からビュー１３までで構成され、ベースビューはビュー９となる。説明上、図６においては、グループ１からグループ３までを図示しているが、２ビュー毎にベースビューを生成する場合、グループは（カメラの数）／２個存在する。符号化装置１１４はグループ１、符号化装置１１５はグループ２、符号化装置１１６はグループ３に対してそれぞれマルチビュー符号化処理を行う。

切り替え要求受信部４０６における符号化装置の選択処理を、図７のフローチャートを用いて説明する。ステップＳ７０１にて、切り替え要求受信部４０６は、ユーザ情報バッファ４０３からユーザ情報及び視点情報を取得する。視点情報にはユーザが現在どのグループに所属しているかを示す情報が含まれる。ステップＳ７０２にて、切り替え要求受信部４０６は、次に取得する映像フレームがフレーム内予測符号化された符号化データであるフレーム内予測符号化周期であるか否かを判定する。フレーム内予測符号化周期である場合にはステップＳ７０４に移行し、フレーム内予測符号化周期でない場合にはステップＳ７０３に移行する。

ステップＳ７０３にて、切り替え要求受信部４０６は、入力された切り替え先の視点がユーザの現在所属しているグループの範囲内であるか否かを判定する。現在所属しているグループの範囲内である場合には、特に所属グループの変更はなくステップＳ７０６に移行し、範囲外である場合にはステップＳ７０４に移行する。

ステップＳ７０４にて、切り替え要求受信部４０６は、切り替え先の視点から最も近い視点をベースビューとするグループを取得する。例えば、切り替え要求受信部４０６は、切り替え先の視点をベースビューとするグループがあればそのグループを選択し、切り替え先の視点をベースビューとするグループがなければ切り替え先の視点から最も近い視点をベースビューとするグループを選択する。切り替え先視点とベースビューとの距離が等しいグループが複数存在する場合、何れのグループでも良いが、例えば視点切り替え方向のグループを選択する、としてもよい。

ステップＳ７０５にて、切り替え要求受信部４０６は、ユーザ情報バッファ４０３内のユーザ情報及び視点情報を選択したグループ情報を基に更新する。このとき、ユーザが現在どのグループに所属しているかを示す情報も更新される。ステップＳ７０６にて、切り替え要求受信部４０６は、ユーザが現在所属しているグループの符号化装置情報を符号化データ取得部４０５に通知する。

本実施形態では、フレーム内予測符号化周期前に現在所属しているグループの範囲外への視点切り替え要求があった場合、新たなグループへの所属変更を許可する例で説明したが、フレーム内予測符号化周期前のグループ切り替えを許可しないようにしてもよい。その場合、ステップＳ７０３において切り替え先の視点がユーザの現在所属しているグループの範囲外であると判定された場合、ステップＳ７０４、Ｓ７０５の処理は実施せずに、ステップＳ７０６に移行して現在の視点、所属グループを維持させる。その際に、ユーザに視点切り替えができない旨を通知してもよい。

図８及び図９は、視点切り替え及びフレーム内予測符号化周期での所属グループ切り替えの例を示す図である。図８では、ユーザＡ８０１が、時刻ｔ（１）においてビュー５から自由視点映像の視聴を開始し、時刻ｔ（ｎ）においてビュー７を視聴している例を示す。図中の矢印はユーザＡ８０１の視点切り替えの様子を示す。図８に示すように、時刻ｔ（１）〜ｔ（ｎ）の期間において視点切り替えの範囲がビュー５をベースビューとする破線６０１で囲まれたグループ１の範囲内を保っているため、フレーム内予測符号化周期前でのグループ切り替えは発生しない。フレーム内予測符号化周期である時刻ｔ（ｎ＋１）における視点がビュー７であるため、時刻ｔ（ｎ＋１）のタイミングでビュー７をベースビューとする破線６０２で囲まれたグループ２に切り替わる。

図９では、ユーザＢ９０１が、時刻ｔ（１）においてビュー５から自由視点映像の視聴を開始し、時刻ｔ（ｎ−１）においてビュー１０を視聴している例を示す。図９に示すように、時刻ｔ（ｎ−１）のタイミングでビュー５をベースビューとする破線６０１で囲まれたグループ１の範囲外に視点を切り替えているため、ビュー１０から最も近いビュー１１をベースビューとする破線９０２で囲まれたグループ４に切り替わる。時刻ｔ（ｎ−１）はフレーム内予測符号化周期前のタイミングであるため、図７に示したフローチャートでのステップＳ７０３からステップＳ７０４へのパスを通る。その後、時刻ｔ（ｎ＋１）のフレーム内予測符号化周期において、視点切り替えが発生せずにビュー１０を視聴しているため、グループ切り替えは発生せず、時刻ｔ（ｎ＋１）からのＧＯＰにおいてもグループ４に所属される。

次に、符号化データ取得部４０４における取得する視点映像の映像符号化データを決定する方法について図１０を用いて説明する。符号化データ取得部４０４は、ユーザの端末装置から配信要求を受けた時、ユーザの端末装置から視点切り替え要求を受けた時、フレーム内予測符号化周期等のタイミングにおいて、取得するべき視点映像符号化データを決定する。決定方法としてはいくつかの方法があり、例えば、所属するグループ内の全視点映像符号化データを取得してもよいし、視聴している視点映像を復号化できる最低限の視点映像符号化データを取得するようにしてもよい。

復号化できる最低限の視点映像符号化データとは、当該フレームの符号化データが直接的、間接的も含めて参照している視点映像符号化データをすべて含む。例えば、図１０においてビュー３のフレーム１００１を復号化するのに必要な最低限の視点映像符号化データは、破線１００２で囲まれた視点映像符号化データとなる。また、ビュー９のフレーム１００３を復号化するのに必要な最低限の視点映像符号化データは、破線１００４で囲まれた視点映像符号化データとなる。また、例えばフレーム１００１（ビュー３）からフレーム１００５（ビュー２）に視点が切り替わると、復号化に必要な最低限の視点映像符号化データは破線１００２で囲まれた視点映像符号化データから破線１００６で囲まれた視点映像符号化データとなる。視聴している視点映像だけでなく、任意数個の周辺視点映像も復号化できるように視点映像符号化データを取得してもよい。

以上のように本実施形態においては、マルチビュー符号化を用いて複数の視点映像をグループ化した視点映像の映像符号化データを生成し、自由に視点を切り替える複数のユーザに対しても生成及び送信する映像符号化データを共有する。これにより、システムが必要とする符号化処理及びストレージ容量を利用ユーザ数に依らずに抑制することができる。また、フレーム内予測符号化周期でのユーザの現在の視点に応じて所属するグループを切り替えることで、視点の切り替えに応じて送信するデータ量の増加を抑制することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。第２の実施形態では、自由視点映像配信システムが、グループ又は視点毎に所属するユーザ数を把握しておき、ユーザ数に応じてグループ化の方法を動的に制御する例について説明する。システム構成や符号化装置の機能については、第１の実施形態と同様であるので説明は省略し、以下では第１の実施形態と異なる点についてのみ説明する。

図４に示した配信要求受信部４０２及び切り替え要求受信部４０６は、ユーザの端末装置から配信要求や視点切り替え要求を受信した際に、ユーザ情報や視点情報だけでなく、グループ又は視点に属するユーザ数もユーザ情報バッファ４０３において更新する。グループ化部４０７は、ユーザ情報バッファ４０３で管理されているグループ又は視点に属するユーザ数を取得し、例えばフレーム内予測符号化周期でグループ化処理を実行する。グループ化処理を実行する周期は、フレーム内予測符号化周期よりも長くてもよいが、グループ化処理を実行するタイミングは、フレーム内予測符号化周期の何れかのタイミングが好ましい。

図１１は、第２の実施形態におけるグループ化部４０７における複数の視点映像のグループ化の概要を示す図である。図１１において、ユーザ群１１０１は、任意のグループ化処理タイミングにおけるビュー７を視聴しているユーザ群である。例えば、ユーザ群１１０１の人数が予め設定していた第１の閾値を超えている場合、ビュー７をベースビューとする破線６０２で囲まれたグループ２を構成する視点数を増やす。

カメラ１１０２から１１０４の視点映像をそれぞれビュー３２からビュー３４とする。ユーザ群１１０５は、任意のグループ化処理タイミングにおけるビュー３３を視聴しているユーザ群である。例えば、ユーザ群１１０５の人数が予め設定していた第２の閾値を下回っている場合、ビュー３３をベースビューとする破線１１０６で囲まれたグループ１５を構成する視点数を減らす。また、カメラ１１０７の視点映像をビュー５３とする。ユーザ群１１０８は、任意のグループ化処理タイミングにおけるビュー５３を視聴しているユーザ群である。例えば、ユーザ群１１０８の人数が０である場合、ビュー５３をベースビューとする破線１１０９で囲まれたグループ２５について符号化処理を実行しない。

図１２は、第２の実施形態におけるグループ化部４０７におけるグループ化処理の例を示すフローチャートである。ステップＳ１２０１にて、グループ化部４０７は、ユーザ情報バッファ４０３で管理されている全グループ内の最初のグループを選択する。ステップＳ１２０２にて、グループ化部４０７は、選択したグループを視聴するユーザ数をユーザ情報バッファ４０３から取得する。グループを視聴するユーザ数とは、当該グループのベースビューがユーザの視聴視点から最も近いベースビューとなるユーザの数である。

ステップＳ１２０３にて、グループ化部４０７は、ステップＳ１２０２において取得したユーザ数が０であるか否かを判定する。ユーザ数が０である場合にはステップＳ１２０４に移行し、ユーザ数が１以上である場合にはステップＳ１２０５に移行する。ステップＳ１２０４にて、グループ化部４０７は、当該グループの視点数を０に設定する。視点数が０とは、すなわち当該グループの映像データは符号化しないことを意味する。

ステップＳ１２０５にて、グループ化部４０７は、ステップＳ１２０２において取得したユーザ数が予め設定した第１の閾値より大きいか否かを判定する。ユーザ数が第１の閾値より大きい場合にはステップＳ１２０６に移行し、小さい場合にはステップＳ１２０７に移行する。ステップＳ１２０６にて、グループ化部４０７は、当該グループの視点数をＨ個に設定する。

ステップＳ１２０７にて、グループ化部４０７は、ステップＳ１２０２において取得したユーザ数が予め設定した第２の閾値より小さいか否かを判定する。ユーザ数が第２の閾値より小さい場合にはステップＳ１２０８に移行し、大きい場合にはステップＳ１２０９に移行する。ステップＳ１２０８にて、グループ化部４０７は、当該グループの視点数をＬ個に設定する。また、ステップＳ１２０９にて、グループ化部４０７は、当該グループの視点数をＭ個に設定する。

ここで、第１の閾値及び第２の閾値は、システムの規模や利用するユーザ数等に応じて決めることができる。また、Ｌ、Ｍ、Ｈの設定値は、Ｌ＜Ｍ＜Ｈとなるようにし、固定値でもあってもよいし、ユーザ数に応じて動的に変更してもよい。

ステップＳ１２１０にて、グループ化部４０７は、全グループの視点数が決定済か否かを判定し、決定済であれば処理を終了し、未決定のグループがあればステップＳ１２１１に移行する。ステップＳ１２１１にて、グループ化部４０７は、ユーザ情報バッファ４０３で管理されている次のグループを選択し、ステップＳ１２０２に移行する。

以上のように第２の実施形態においては、グループ又は視点毎に所属するユーザ数を把握しておき、ユーザ数に応じてグループ化の方法を動的に制御する。これにより、ユーザ数の多いグループはより広範囲の視点切り替えに対応することができ、ユーザ数の少ないグループは余計なコンピュータリソースを消費しないようにすることができる。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。第３の実施形態では、グループ毎にマルチビュー符号化を行う際に、ユーザの視点切り替え可能な範囲を考慮して効率的な符号化を行う。システム構成や符号化装置の機能については、第１の実施形態と同様であるので説明は省略し、以下では第１の実施形態と異なる点についてのみ説明する。なお、第３の実施形態では、１ユーザの同一時刻における視点切り替え、例えば一時停止した状態での視点切り替えや単位時間における２視点距離以上の視点切り替えについては考慮しないものとする。

図１３は、第３の実施形態における参照マップ２１９の概念図である。図１３において、軸や矩形、矢印が示すものについては、第１の実施形態に示した図３と同様であるため説明は省略する。ユーザが、時刻ｔ（１）において、ビュー５から自由視点映像の視聴を開始すると、時刻ｔ（２）のタイミングではビュー４からビュー６までの範囲のみ視点切り替えが可能である。同様に、時刻ｔ（３）のタイミングではビュー３からビュー７までの範囲のみ視点切り替えが可能となり、時刻ｔ（４）のタイミングではビュー２からビュー８までの範囲のみ視点切り替えが可能となる。

第３の実施形態では、Ｉフレームが取得される周期内において後方の時間に進むほど切り替え可能な視点の数を増加させるようにし、ユーザにとって視点切り替えが不可能な範囲の視点映像の映像データについては符号化処理しない。例えば、時刻ｔ（１）におけるビュー１からビュー４、及びビュー６からビュー９、時刻ｔ（２）におけるビュー１からビュー３、ビュー７からビュー９等の視点映像の映像データは符号化処理しない。これにより、余計な符号化処理を行う必要がなくなるだけでなく、ユーザにとって復号化に必要となるデータ量が少なくなり、送信データ量も抑制することができる。

以上のように第３の実施形態においては、ユーザの視点切り替え可能な範囲を考慮して効率的な符号化処理を行うことで、システムにおける余計なコンピュータリソースの消費と送信データ量の増加を抑制することができる。なお、本実施形態では、単位時間におけるユーザの切り替え可能な視点範囲を１視点距離までとしたが、２視点以上で設定してもよいし、１視点切り替えに複数単位時間必要としてもよい。

なお、前述した各実施形態では、符号化装置とサーバ装置１１８とは異なる装置としているが、符号化装置の機能とサーバ装置１１８の機能とを１つの装置に持たせて構成するようにしてもよい。例えば、サーバ装置１１８がカメラから撮像された映像データを受けて符号化処理を行うようにしてもよい。

（本発明の他の実施形態）
本発明は、前述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００：自由視点映像配信システム１０１〜１１３：カメラ１１４〜１１６：符号化装置１１８：サーバ装置１１９：外部ネットワーク４０１：通信部４０２：配信要求受信部４０３：ユーザ情報バッファ４０４：符号化データ取得部４０５：符号化データ送信部４０６：切り替え要求受信部４０７：グループ化部

Claims

複数の視点で撮像される映像を送信する映像送信装置であって、
映像データを受ける端末装置に対応する視点を示す視点情報を取得する取得手段と、
複数の視点でそれぞれ撮像された複数の映像データからなる映像群を、任意の視点を基準視点としたフレーム内予測、フレーム間予測、及び視点間予測により符号化する符号化手段からフレーム内予測符号化した映像データの取得が行われる周期で、前記取得手段により取得した前記視点情報に基づいて前記端末装置に送信する映像データを決定する決定手段と、
前記決定手段により決定された映像データを前記符号化手段から取得し前記端末装置に送信する送信手段とを有することを特徴とする映像送信装置。
前記基準視点で撮像された複数の映像データと該基準視点の周辺の任意の数の視点で撮像された映像データとからなる映像群をグループ化するグループ化手段を有し、
前記決定手段は、前記取得手段により取得した前記視点情報が示す視点と各々のグループにおける前記基準視点との距離に基づいて前記端末装置に送信する映像データを決定することを特徴とする請求項１記載の映像送信装置。
前記グループ化手段は、グループに含まれる映像データを撮像した視点の一部が他のグループに含まれるようにグループ化することを特徴とする請求項２記載の映像送信装置。
前記端末装置から視点の切り替え要求を受信する受信手段とを有し、
前記受信手段により受信した視点の切り替え要求によって要求された視点が前記端末装置に送信している映像データが含まれるグループの範囲内である場合、要求された視点に応じて前記視点情報を更新することを特徴とする請求項２又は３記載の映像送信装置。
前記受信手段により受信した視点の切り替え要求によって要求された視点が前記端末装置に送信している映像データが含まれるグループの範囲外である場合、視点の切り替え要求される前の前記視点情報を維持することを特徴とする請求項４記載の映像送信装置。
前記送信手段は、前記決定手段により決定された映像データが含まれるグループのすべての視点の映像データを送信することを特徴とする請求項２〜５の何れか１項に記載の映像送信装置。
前記送信手段は、前記決定手段により決定された映像データが含まれるグループの映像データの中から、前記視点情報が示す視点の映像を少なくとも復号できる映像データを送信することを特徴とする請求項２〜５の何れか１項に記載の映像送信装置。
前記グループ毎の映像データを送信している端末装置の数に応じて、前記グループ毎にグループに含める周辺の視点の数を制御することを特徴とする請求項２〜５の何れか１項に記載の映像送信装置。
映像データを送信している端末装置の数が第１の閾値より大きいグループに含める周辺の視点の数を増やすことを特徴とする請求項８記載の映像送信装置。
映像データを送信している端末装置の数が第２の閾値より小さいグループに含める周辺の視点の数を減らすことを特徴とする請求項８又は９記載の映像送信装置。
前記グループ化手段は、フレーム内予測符号化した映像データの取得が行われる周期内において後方の時間に進むほどグループに含まれる視点の数を増やすことを特徴とする請求項８〜１０の何れか１項に記載の映像送信装置。
前記複数の視点でそれぞれ撮像された複数の映像データからなる映像群を符号化する前記符号化手段を有することを特徴とする請求項１〜１１の何れか１項に記載の映像送信装置。
複数の視点で撮像される映像を送信する映像送信システムであって、
複数の視点でそれぞれ撮像された複数の映像データからなる映像群を、任意の視点を基準視点としたフレーム内予測、フレーム間予測、及び視点間予測により符号化する符号化装置と、
前記符号化装置から映像データを取得して端末装置に送信する映像送信装置とを有し、
前記映像送信装置は、
前記端末装置に対応する視点を示す視点情報を取得する取得手段と、
前記符号化装置からフレーム内予測符号化した映像データの取得が行われる周期で、前記取得手段により取得した前記視点情報に基づいて前記端末装置に送信する映像データを決定する決定手段と、
前記決定手段により決定された映像データを前記符号化装置から取得し前記端末装置に送信する送信手段とを有することを特徴とする映像送信システム。
複数の視点で撮像される映像を送信する映像送信方法であって、
映像データを受ける端末装置に対応する視点を示す視点情報を取得する取得工程と、
複数の視点でそれぞれ撮像された複数の映像データからなる映像群を、任意の視点を基準視点としたフレーム内予測、フレーム間予測、及び視点間予測により符号化する符号化手段からフレーム内予測符号化した映像データの取得が行われる周期で、前記取得工程にて取得した前記視点情報に基づいて前記端末装置に送信する映像データを決定する決定工程と、
前記決定工程にて決定された映像データを前記符号化手段から取得し前記端末装置に送信する送信工程とを有することを特徴とする映像送信方法。
複数の視点で撮像される映像を送信する映像送信方法をコンピュータに実行させるプログラムであって、
映像データを受ける端末装置に対応する視点を示す視点情報を取得する取得ステップと、
複数の視点でそれぞれ撮像された複数の映像データからなる映像群を、任意の視点を基準視点としたフレーム内予測、フレーム間予測、及び視点間予測により符号化する符号化手段からフレーム内予測符号化した映像データの取得が行われる周期で、前記取得ステップにて取得した前記視点情報に基づいて前記端末装置に送信する映像データを決定する決定ステップと、
前記決定ステップにて決定された映像データを前記符号化手段から取得し前記端末装置に送信する送信ステップとをコンピュータに実行させるためのプログラム。