JP2018142934A

JP2018142934A - 映像配信システム

Info

Publication number: JP2018142934A
Application number: JP2017037638A
Authority: JP
Inventors: 和秀鬼頭; Kazuhide Kito
Original assignee: Pixela Corp
Current assignee: Pixela Corp
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2018-09-13
Anticipated expiration: 2037-02-28
Also published as: JP6473469B2

Abstract

【課題】配信映像に含まれる複数の入力映像の視聴者端末における表示領域を配信サーバに負担をかけずに迅速に再編する。
【解決手段】映像配信システムに、映像領域における複数の入力映像の其々の配置領域を定めた配置情報を含む配信情報を記憶する記憶部と、各入力映像を配置情報が示す配置領域に配置して合成し映像領域全体が表す配信映像を生成する生成部と、配信映像及び配信情報を配信する配信部とを備えた配信サーバと、映像表示領域に映像を表示する表示部と、配信映像及び配信情報を取得する取得部と、配信映像から、配信情報内の配置情報が示す配置領域に配置されている複数の入力映像の其々を個別に分割して抽出する抽出部と、映像表示領域における複数の入力映像の其々の表示領域を設定する設定部と、表示部を制御して、各入力映像を、設定部が設定した表示領域に表示させる表示制御部とを備えた視聴者端末とを備える。
【選択図】図１

Description

本発明は、複数の入力映像を一の映像領域内に配置して合成し、映像領域全体が表す配信映像を配信する配信サーバと視聴者端末とを備えた映像配信システムに関するものである。

従来から、複数の入力映像を一の映像領域内に配置して合成し、映像領域全体が表す配信映像を配信する配信サーバと視聴者端末とを備えた映像配信システムが知られている。

例えば、非特許文献１及び２には、サーバにおいて複数の映像を１つの映像に結合して、ネットワークを介してクライアントへ配信する「ｆａｂｒｉｃｖｉｄｅｏ（ファブリックビデオ）」（登録商標）という技術が開示されている。また、この技術に関連する技術として、特許文献１には、サーバにおいて、クライアントにおける視聴対象の映像領域を特定し、当該特定した映像領域に対応する伝送用のシングルストリームを、複数の映像ビットストリームから構成する技術が開示されている。

また、非特許文献１及び２には、サーバから受信した結合映像における各映像の配置やサイズを変更できることが開示されている。具体的には、クライアントからサーバへ、ネットワークを介して各映像の配置やサイズの変更を要求する。サーバでは、クライアントから各映像の配置やサイズの変更の要求がある度に、当該要求に従って各映像の再配置やサイズ変更を行って、伝送用の単一の映像を再生成し、再生成後の単一の映像をネットワークを介して配信（返信）することが開示されている。

国際公開第２０１２／０３９４０４号

株式会社Ｇｎｚｏ、"ｆａｂｒｉｃｖｉｄｅｏ"、［ｏｎｌｉｎｅ］、［平成２９年２月６日検索］、インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｎｚｏ．ｃｏｍ／ｆａｂｒｉｃｖｉｄｅｏ／＞株式会社キャンパスクリエイト、"「ファブリック・ビデオ」によるスポーツ映像・コンサート映像・イベント映像等の多視点ライブ映像サービス"、［ｏｎｌｉｎｅ］、［平成２９年２月６日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｏｐｅｎ−ｉｎｎｏｖａｔｉｏｎ−ｐｏｒｔａｌ．ｃｏｍ／ｃｏｒｐｏｒａｔｅ／ｉｔ／ｐｏｓｔ＿２．ｈｔｍｌ＞

しかし、上記の従来技術では、例えばオリンピックの配信映像等、視聴者が非常に多い配信映像に対して、多くの視聴者が同時に複数の入力映像の表示領域の変更を要求した場合、サーバに多大な負荷がかかり、当該要求をした各視聴者端末において、複数の入力映像の表示領域が変更されるまでに多大な時間を要する虞がある。また、サーバに多大な負荷がかかると、入力映像の表示領域の変更を何ら要求していない視聴者端末においても、サーバから配信映像を受信するのに多大な時間を要し、配信映像の表示が中断される虞がある。

また、上記の従来技術を用いて、サーバで生成した配信映像をＤＶＤやＢＤ（ブルーレイディスク）等の記録媒体に記録し、当該記録媒体をクライアントへ提供することで、配信映像を配信することが考えられる。しかし、この場合、記録媒体に記録された配信映像を視聴した視聴者が、配信映像に含まれる複数の入力映像の表示領域の変更を望んだ場合、当該変更内容をサーバに通知する必要がある。サーバでは、当該変更内容に応じて複数の入力映像の表示領域を変更した配信映像を再生成し、当該再生成後の配信映像を記録媒体に記録する負担が生じる。また、当該再生成後の媒体を視聴者に提供するのに時間を要する。

本発明は、上記事情に鑑みてなされた発明であり、配信映像に含まれる複数の入力映像の視聴者端末における表示領域を、配信サーバに負担をかけることなく迅速に再編することができる映像配信システムを提供することを目的とする。

本発明による映像配信システムは、複数の入力映像を一の映像領域内に配置して合成し、前記映像領域全体が表す配信映像を配信する配信サーバと視聴者端末とを備えた映像配信システムであって、前記配信サーバは、前記映像領域における前記複数の入力映像の其々の配置領域を定めた配置情報を含む配信情報を記憶する記憶部と、前記複数の入力映像の其々を前記配置情報が示す前記配置領域に配置して合成し、前記映像領域全体が表す前記配信映像を生成する生成部と、前記配信映像及び前記配信情報を配信する配信部と、を備え、前記視聴者端末は、所定の映像表示領域に映像を表示する表示部と、前記配信部が配信する前記配信映像及び前記配信情報を取得する取得部と、前記取得部が取得した前記配信映像から、前記取得部が取得した前記配信情報に含まれている前記配置情報が示す前記配置領域に配置されている、前記複数の入力映像の其々を個別に分割して抽出する抽出部と、前記映像表示領域における前記複数の入力映像の其々の表示領域を設定する設定部と、前記表示部を制御して、前記抽出部が抽出した前記複数の入力映像の其々を前記設定部が設定した前記表示領域に表示させる表示制御部と、を備える。

本構成によれば、視聴者端末において配信サーバから取得した配信映像及び配信情報を用いて複数の入力映像が個別に分割されて抽出される。そして、抽出された複数の入力映像の其々が、視聴者端末が備える設定部によって設定された表示領域に表示される。このため、上記の従来技術とは異なり、配信映像に含まれる複数の入力映像の視聴者端末における表示領域を、配信サーバに負担をかけることなく、視聴者端末で設定した表示領域に迅速に再編することができる。

また、前記配信情報は、前記表示領域の初期配置を定めた初期表示情報を更に含み、前記設定部は、前記取得部が取得した前記配信情報に含まれている前記初期表示情報が示す前記初期配置の通りに前記表示領域を設定してもよい。

本構成によれば、取得部が配信サーバから取得した配信情報に含まれている初期表示情報が示す、複数の入力映像其々の表示領域の初期配置の通りに複数の入力映像其々の表示領域が設定される。このため、視聴者端末において、複数の入力映像其々の表示領域を個別に設定する手間を軽減することができる。

また、前記視聴者端末は、視聴者による前記表示領域の編集操作を受け付ける受付部を更に備え、前記設定部は、前記受付部が受け付けた前記編集操作で編集された前記表示領域によって、前記受付部による前記編集操作の受け付け前に設定した前記表示領域を更新してもよい。

本構成によれば、視聴者による複数の入力映像其々の表示領域の編集操作が受け付けられた場合、当該編集操作で編集された表示領域によって、当該編集操作の受け付け前に設定されていた表示領域が更新される。このため、視聴者は、視聴者端末において、複数の入力映像其々の表示領域を編集操作することで、配信サーバに負担をかけることなく、複数の入力映像其々の表示領域を再編することができる。

また、前記表示領域の編集操作には、前記表示領域を拡大及び縮小する操作が含まれることが好ましい。

本構成によれば、視聴者は、表示領域を拡大又は縮小する操作を行って、当該表示領域に表示されている入力映像を視認し易いように拡大又は縮小させることができる。

また、前記表示領域の編集操作には、前記表示領域を移動する操作が含まれることが好ましい。

本構成によれば、視聴者は、表示領域を移動する操作を行って、当該表示領域に表示されている入力映像を視認し易い位置に移動させることができる。

また、前記表示領域の編集操作には、前記表示領域を削除する操作が含まれることが好ましい。

本構成によれば、視聴者は、映像表示領域に表示されている入力映像の数が多すぎる場合等に表示領域を削除する操作を行って、当該表示領域に表示されている入力映像を非表示にすることができる。これにより、視聴者は、映像表示領域に表示されている、当該非表示にした入力映像とは異なる入力映像を視認し易くすることができる。

また、前記複数の入力映像には、所定の撮影視点から全方位を撮影して得られた全方位映像が含まれ、前記視聴者端末は、視聴者が意図する前記映像表示領域の姿勢を検出する姿勢検出部を更に備え、前記表示制御部は、前記全方位映像に含まれている、前記撮影視点から前記姿勢検出部が検出した前記姿勢と同じ姿勢の平面に直交する方向を撮影方向として撮影して得られた仮想空間映像を、前記表示部を制御して、前記全方位映像の前記表示領域に表示させてもよい。

本構成によれば、全方位映像の表示領域には、全方位映像に含まれている、所定の撮影視点から視聴者が意図する映像表示領域の姿勢と同じ姿勢の平面に直交する方向を撮影方向として撮影して得られた仮想空間映像が表示される。このため、視聴者は、全方位映像の撮影場所において、頭部の姿勢を映像表示領域の姿勢と同様に変化させた場合に視認する映像と同様の映像を、全方位映像の表示領域において視認することができる。

また、前記視聴者端末は、前記設定部によって、前記表示領域を、前記映像表示領域の姿勢の変化に応じて移動させるか否かの選択を受け付ける選択部を更に備えてもよい。

本構成によれば、映像表示領域の姿勢の変化に応じて、複数の入力映像の其々の表示領域を移動させるか否かを適宜選択することができる。

また、前記配信情報は、前記複数の入力映像の其々が選択された場合に適用するアニメーション効果とその適用先の入力映像とを定めたアニメーション情報を更に含み、前記視聴者端末は、視聴者による前記複数の入力映像に含まれている一の入力映像の選択を受け付ける映像選択部と、前記映像選択部によって前記一の入力映像の選択が受け付けられた場合に、前記取得部が取得した前記配信情報に含まれている前記アニメーション情報が示す通りに、前記一の入力映像が選択された場合に適用する前記アニメーション効果を、前記適用先の入力映像に適用する適用部と、を更に備えてもよい。

本構成によれば、視聴者により一の入力映像が選択された場合に、配信情報に含まれるアニメーション情報が示す通りに、アニメーション効果が所定の適用先の入力映像に適用される。このため、視聴者は、一の入力映像を選択するだけで、前記適用先の入力映像をインタラクティブに動作させることができる。

また、前記配信情報は、前記配信映像の表示中に再生され得る一以上の入力音声の其々を記録する音声記録領域を定めた音声記録情報と、前記一以上の入力音声の其々の再生方法を定めた再生情報と、を更に含み、前記生成部は、更に、前記一以上の入力音声の其々を前記音声記録情報が示す前記音声記録領域に記録して、前記一以上の入力音声の其々が記録された前記音声記録領域を有する一の配信音声を生成し、前記配信部は、更に、前記配信音声を配信し、前記取得部は、更に、前記配信音声を取得し、前記抽出部は、更に、前記取得部が取得した前記配信音声から、前記取得部が取得した前記配信情報に含まれている前記音声記録情報が示す前記音声記録領域に記録されている、前記一以上の入力音声の其々を個別に分割して抽出し、前記視聴者端末は、前記抽出部が抽出した前記一以上の入力音声の其々を、前記取得部が取得した前記配信情報に含まれている前記再生情報が示す前記再生方法で再生する再生部を更に備えてもよい。

本構成によれば、視聴者端末において配信サーバから取得した配信音声及び配信情報を用いて、配信映像の表示中に再生され得る一以上の入力音声が個別に分割されて抽出される。そして、抽出された一以上の入力音声の其々が、配信情報に含まれている再生情報が示す再生方法で再生される。このため、一以上の入力音声の其々を、配信サーバに負担をかけることなく、各入力音声固有の再生方法で再生することができる。

また、前記配信情報において、前記一以上の入力音声の其々は、前記複数の入力映像のうちの一の入力映像に対応付けられ、前記再生方法には、前記一以上の入力音声のうちの第一の入力音声に対応付けられた第一の入力映像が前記映像表示領域に表示された場合に、前記第一の入力音声を再生する第一再生方法が含まれてもよい。

本構成によれば、再生情報によって第一再生方法で再生することが定められた第一の入力音声が、第一の入力音声に対応付けられた第一の入力映像が映像表示領域に表示された場合に再生される。

このため、例えば、映像表示領域に背景として表示される入力映像が配信映像に含まれている場合、当該入力映像に対応付けられた入力音声を第一再生方法で再生することを定めた再生情報を配信情報に含めることで、当該入力音声を、前記入力映像が背景として表示されている場合に再生することができる。

また、前記視聴者端末は、視聴者による前記複数の入力映像に含まれている一の入力映像の選択を受け付ける映像選択部を含み、前記再生方法には、前記一以上の入力音声のうちの第二の入力音声に対応付けられた第二の入力映像の選択が前記映像選択部によって受け付けられた場合に、前記第二の入力音声を所定の第一音量で再生し、前記一以上の入力音声のうち、前記再生情報において前記第一再生方法で再生することが定められた入力音声を、前記第一音量よりも小さい第二音量で再生する第二再生方法が含まれてもよい。

本構成によれば、再生情報によって第二再生方法で再生することが定められた第二の入力音声に対応付けられた第二の入力映像が視聴者により選択された場合に、第二の入力音声が第一音量で再生される。また、再生情報において第一再生方法で再生することが定められた入力音声が、第一音量よりも小さい第二音量で再生される。

このため、例えば、背景として表示される第一の入力映像とこれに重畳して表示される第二の入力映像とが配信映像に含まれる場合に、第一の入力映像に対応付けられた第一の入力音声を第一再生方法で再生することを定め、第二の入力映像に対応付けられた第二の入力音声を第二再生方法で再生することを定めた再生情報を配信情報に含めることができる。

これにより、視聴者は、第一の入力映像が背景として表示されている場合に、第一の入力音声を聞くことができる。その後、視聴者は、第二の入力映像を選択することで、第一の入力音声よりも大きい音量で第二の入力音声を再生させ、第二の入力音声を第一の入力音声よりも聞き易くすることができる。

また、前記視聴者端末は、視聴者による前記複数の入力映像に含まれている一の入力映像の選択を受け付ける映像選択部を含み、前記再生方法には、前記一以上の入力音声のうちの第三の入力音声に対応付けられた第三の入力映像の選択が前記映像選択部によって受け付けられた場合に、前記第三の入力音声のみを再生する第三再生方法が含まれてもよい。

本構成によれば、再生情報によって第三再生方法で再生することが定められた第三の入力音声に対応付けられた第三の入力映像が視聴者により選択された場合に、第三の入力音声のみが再生される。

このため、例えば、背景として表示される第一の入力映像とこれに重畳して表示される第三の入力映像とが配信映像に含まれる場合に、第一の入力映像に対応付けられた第一の入力音声を第一再生方法で再生することを定め、第三の入力映像に対応付けられた第三の入力音声を第三再生方法で再生することを定めた再生情報を配信情報に含めることができる。

これにより、視聴者は、第一の入力映像が背景として表示されている場合に、第一の入力音声を聞くことができる。その後、視聴者は、第三の入力映像を選択することで、第三の入力音声のみを再生させ、第三の入力音声を注力して聞くことができる。

また、前記視聴者端末は、前記映像表示領域における前記視聴者の視点を検出する視点検出部を更に備え、前記映像選択部は、前記視点検出部によって検出された前記視点が前記表示領域に存在する場合に、当該表示領域に表示されている前記入力映像の選択を受け付けてもよい。

本構成によれば、視聴者は、入力映像が表示されている表示領域に視点を移動させるだけで、当該入力映像を容易に選択することができる。

本発明によれば、配信映像に含まれる複数の入力映像の視聴者端末における表示領域を、配信サーバに負担をかけることなく迅速に再編することができる映像配信システムを提供することができる。

本発明の第一実施形態に係る映像配信システムの機能構成の一例を示すブロック図である。本発明の第一実施形態に係る配信情報の一例を示す図である。配信映像の一例を示す図である。映像表示領域における複数の入力映像の其々の表示領域の初期配置の一例を示す図である。表示領域を縮小した場合の一例を示す図である。表示領域を移動、削除及び拡大した場合の一例を示す図である。映像表示領域の姿勢に応じた仮想空間映像及び一方位映像の表示例を示す図であり、（Ａ）は、映像表示領域の姿勢の変化前の表示例を示す図であり、（Ｂ）は、映像表示領域の姿勢の変化後の表示例を示す図であり、（Ｃ）は、映像表示領域の姿勢の変化後の（Ｂ）とは異なる表示例を示す図である。配信サーバの動作を示すフローチャートである。視聴者端末における配信映像の初期表示の動作を示すフローチャートである。視聴者端末における配信映像の初期表示後の動作を示すフローチャートである。本発明の第二実施形態に係る映像配信システムの機能構成の一例を示すブロック図である。配信音声の構成の一例を示す図である。本発明の第二実施形態に係る配信情報の一例を示す図である。

（第一実施形態）
以下、本発明の第一実施形態に係る映像配信システムについて図面に基づいて説明する。図１は、本発明の第一実施形態に係る映像配信システム１００の機能構成の一例を示すブロック図である。

（映像配信システム１００の構成）
図１に示すように、映像配信システム１００は、配信サーバ１と視聴者端末２とを備えている。配信サーバ１と視聴者端末２とは、ＬＡＮやインターネットや放送データ網等の不図示のネットワークを介して通信可能に接続されている。

（配信サーバ１の構成）
配信サーバ１は、複数の入力映像を一の映像領域内に配置して合成し、前記映像領域全体が表す配信映像を配信する。具体的には、配信サーバ１は、複数の映像出力部１１と、記憶部１２と、生成部１３と、配信部１４と、を備えている。

映像出力部１１は、静止画や動画等の映像を表す映像データを生成部１３へ出力する。具体的には、映像出力部１１は、所定の一方位を撮影して得られた静止画や動画（以降、一方位映像と記載する）を表す映像データを出力するカメラや、所定の撮影視点から全方位を撮影して得られた静止画や動画（以降、全方位映像と記載する）を表す映像データを出力する全方位カメラ（３６０度カメラ）や、テロップやロゴ等の静止画やアニメーション等の動画の編集操作が可能であり、且つ、編集した静止画や動画を表す映像データを出力可能なパソコン等の映像編集装置等で構成される。以降、生成部１３に入力される、映像出力部１１が出力した映像データが表す映像を入力映像と記載する。

記憶部１２は、配信映像に関連する配信情報を記憶する。具体的には、記憶部１２は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置で構成される。

配信情報には、配信映像の識別情報、タイトル及びＵＲＬが含まれる。配信情報には、更に、配信映像に含まれる複数の入力映像のぞれぞれの識別情報や、複数の入力映像の其々に関連する映像区分情報、配置情報、初期表示情報、アニメーション情報及び領域追従情報等が含まれる。

映像区分情報とは、複数の入力映像の其々が、背景映像であるか、サブ映像であるかを示す情報である。背景映像とは、視聴者端末２に設けられた映像を表示するための所定の映像表示領域全体に、背景として表示される映像である。サブ映像とは、前記映像表示領域内の一部の領域に表示される映像である。

配置情報とは、前記映像領域における複数の入力映像の其々の配置領域を定めた情報である。初期表示情報とは、前記映像表示領域における複数の入力映像の其々の表示領域の初期配置を定めた情報である。

アニメーション情報とは、複数の入力映像の其々が選択された場合に適用するアニメーション効果とその適用先の入力映像とを定めた情報である。領域追従情報とは、複数の入力映像の其々の表示領域を、前記映像表示領域の姿勢の変化に応じて移動させるか否かを定めた情報である。

図２は、本発明の第一実施形態に係る配信情報ＰＦの一例を示す図である。図３は、配信映像Ｖの一例を示す図である。例えば、記憶部１２は、図３に示す配信映像Ｖに関連する、図２に示す配信情報ＰＦを記憶しているものとする。配信映像Ｖは、図３に示すように、４個の入力映像ＶＢ、Ｖ１、Ｖ２、Ｖ３を映像領域ＶＡ内に配置して合成することで生成される、映像領域ＶＡ全体が表す映像であるものとする。入力映像ＶＢは、全方位カメラによって所定の撮影視点から全方位を撮影して得られた動画を表す全方位映像であるものとする。ただし、図３には、前記全方位映像に含まれている、撮影視点から所定方向を撮影方向として撮影して得られた動画の一時点を表す仮想空間映像を、入力映像ＶＢとして図示している。入力映像Ｖ１、Ｖ２、Ｖ３は、所定の一方位を撮影して得られた動画を表す一方位映像であるものとする。尚、図３に示す配信映像Ｖは、例示に過ぎない。例えば、背景映像としての入力映像（図３では入力映像ＶＢ）は、風景画や一色の画像等の静止画であってもよい。また、サブ映像としての入力映像（図３では入力映像Ｖ１、Ｖ２、Ｖ３）は、テロップやロゴ等の静止画であってもよい。

上述のように、配信映像Ｖが図３に示すように構成される場合、図２に示すように、配信情報ＰＦには、配信映像Ｖの識別情報「Ｖ」、タイトル「猫目線の映像」及びＵＲＬ「ｈｔｔｐ：＊＊＊＊＊」が含まれる。

配信情報ＰＦには、配信映像Ｖに含まれる四個の入力映像ＶＢ、Ｖ１、Ｖ２、Ｖ３のぞれぞれの識別情報「ＶＢ」、「Ｖ１」、「Ｖ２」、「Ｖ３」が含まれている。配信情報ＰＦには、四個の入力映像ＶＢ、Ｖ１、Ｖ２、Ｖ３の其々の映像区分情報「背景映像」、「サブ映像」、「サブ映像」、「サブ映像」が含まれる。つまり、入力映像ＶＢは背景映像であり、三個の入力映像Ｖ１、Ｖ２、Ｖ３はサブ映像であることが定められている。

配信情報ＰＦには、図２の破線部に示すように、映像領域ＶＡ（図３）における四個の入力映像ＶＢ、Ｖ１、Ｖ２、Ｖ３のぞれぞれの配置領域ＰＡＢ、ＰＡ１、ＰＡ２、ＰＡ３（図３）を定めた配置情報が含まれる。以降、映像領域ＶＡにおける複数の入力映像の其々の配置領域を総称する場合、配置領域ＰＡと記載する。

例えば、配置領域ＰＡは、映像領域ＶＡ（図３）の左上隅を基準点とし、映像領域ＶＡ（図３）における水平方向の位置をＸ座標で示し、映像領域ＶＡ（図３）における垂直方向の位置をＹ座標で示す二次元座標を用いて定められている。

具体的には、映像領域ＶＡ（図３）における各入力映像（例：入力映像ＶＢ）の配置領域ＰＡ（例：配置領域ＰＡＢ）は、各入力映像の左上隅の配置位置を示す前記二次元座標「ｃｌｉｐＸ、ｃｌｉｐＹ」（例：０、０）と、映像領域ＶＡの水平方向の長さ（以降、水平方向の長さを幅と記載する）に対する各入力映像の幅の比率「ｃｌｉｐＷ」（例：１００００（１００．００％））と、映像領域ＶＡの垂直方向の長さ（以降、垂直方向の長さを高さと記載する）に対する各入力映像の高さの比率「ｃｌｉｐＨ」（例：６６６７（６６．６７％））と、によって定められている。

図４は、映像表示領域ＶＤＡにおける複数の入力映像ＶＢ、Ｖ１、Ｖ２、Ｖ３の其々の表示領域ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３の初期配置の一例を示す図である。配信情報ＰＦには、図２の二点鎖線部に示すように、視聴者端末２の映像表示領域ＶＤＡ（図４）における三個の入力映像Ｖ１、Ｖ２、Ｖ３の其々の表示領域ＤＡ１、ＤＡ２、ＤＡ３（図４）の初期配置を定めた初期表示情報が含まれている。尚、図３と同様、図４においても、全方位映像に含まれている、全方位カメラによって撮影視点から所定方向を撮影方向として撮影して得られた仮想空間映像を、入力映像ＶＢとして図示している。

また、上述のように、入力映像ＶＢは、背景映像として定められており、映像表示領域ＶＤＡ（図４）全体に表示される。つまり、映像表示領域ＶＤＡにおける入力映像ＶＢの表示領域ＤＡＢ（図４）は、映像表示領域ＶＤＡ（図４）全体であることは明らかである。このため、図２に示す初期表示情報では、映像表示領域ＶＤＡにおける入力映像ＶＢの表示領域の初期配置の定義が省略されている。しかし、初期表示情報において、サブ映像と同様に、映像表示領域ＶＤＡを、背景映像である入力映像ＶＢの表示領域の初期配置として定めてもよい。以降、映像表示領域ＶＤＡ（図４）における複数の入力映像の其々の表示領域を総称する場合、表示領域ＤＡと記載する。

表示領域ＤＡは、全方位映像のうち、所定の撮影視点から所定方向を撮影方向として撮影して得られた仮想空間映像を、平面状のディスプレイ（スクリーン）に表示する場合に一般的に用いられる、視点座標系等の三次元座標を用いて定められている。しかし、これに限らず、表示領域ＤＡは、配置領域ＰＡと同様に、映像表示領域ＶＤＡ（図４）の左上隅を基準点とし、映像表示領域ＶＤＡ（図４）における水平方向の位置をＸ座標で示し、映像表示領域ＶＤＡ（図４）における垂直方向の位置をＹ座標で示す二次元座標を用いて定めてもよい。

図２に示す表示領域ＤＡは、視点座標系の三次元座標を用いて定められている。つまり、表示領域ＤＡは、仮想空間映像（例：図４に図示の入力映像ＶＢ）が映像表示領域ＶＤＡ（図４）全体に表示されていることを前提として、当該仮想空間映像の中心（視点）を基準点とし、当該仮想空間映像における水平方向、垂直方向、及び奥行（視線）方向の位置を、其々、Ｘ座標、Ｙ座標及びＺ座標で示す三次元座標を用いて定められている。尚、仮想空間映像の水平方向、垂直方向、及び奥行（視線）方向其々の両端の位置の座標は「１」と「−１」としている。Ｚ座標「１」の位置は、仮想空間映像における最も奥側の位置であり、Ｚ座標「−１」の位置は、仮想空間映像における最も手前側の位置である。

具体的には、映像表示領域ＶＤＡ（図４）における各入力映像（例：入力映像Ｖ１）の表示領域ＤＡ（例：ＤＡ１）の初期配置は、各入力映像の中心の表示位置を示す三次元座標「ｐｏｓＸ、ｐｏｓＹ、ｐｏｓＺ」（例：−０．８、０．２５、０．７）と、各入力映像を表示する際に、三次元座標の各座標軸（X軸、Y軸、Z軸）を回転軸として時計回りに回転させる角度（度）「ｒｏｔＸ、ｒｏｔＹ、ｒｏｔＺ」（例：−１５（度）、−４５（度）、０（度））と、各入力映像を表示する際に、各入力映像を拡大又は縮小する比率「ｓｃａｌｅ」（例：１．４５７）と、によって定められている。

配信情報ＰＦには、三個の入力映像Ｖ１、Ｖ２、Ｖ３の其々が選択された場合に適用するアニメーション効果とその適用先の入力映像とを定めたアニメーション情報「ａｎｉｍａｔｉｏｎ」が含まれている。

具体的には、図２に示すように、入力映像Ｖ１に対応するアニメーション情報（”ａｎｉｍａｔｉｏｎ”：”点滅”）では、入力映像Ｖ１が選択された場合、当該選択された入力映像Ｖ１に、アニメーション効果「点滅」を適用することが定められている。また、入力映像Ｖ２に対応するアニメーション情報（”ａｎｉｍａｔｉｏｎ”：”ズームアウト”）では、入力映像Ｖ２が選択された場合、当該選択された入力映像Ｖ２に、アニメーション効果「ズームアウト」を適用することが定められている。このように、選択された入力映像と同じ入力映像をアニメーション効果の適用先にする場合のアニメーション情報は、適用するアニメーション効果（例：ズームアウト）のみによって定められる。

また、入力映像Ｖ３に対応するアニメーション情報（”ａｎｉｍａｔｉｏｎ”：”点滅：ＶＢ”）では、入力映像Ｖ３が選択された場合、当該選択された入力映像Ｖ３ではなく、入力映像ＶＢに、アニメーション効果「点滅」を適用することが定められている。このように、選択された入力映像とは異なる入力映像をアニメーション効果の適用先にする場合のアニメーション情報は、適用するアニメーション効果（例：点滅）と、所定の区切文字（例：「：」）と、アニメーション効果の適用先の入力映像の識別情報（例：ＶＢ）と、によって定められる。尚、これと同様にして、選択された入力映像と同じ入力映像をアニメーション効果の適用先にする場合のアニメーション情報も、適用するアニメーション効果（例：ズームアウト）と、所定の区切文字（例：「：」）と、アニメーション効果の適用先の入力映像の識別情報（例：Ｖ２）と、によって定めてもよい。

アニメーション効果「点滅」を入力映像に適用した場合、所定時間、当該入力映像が表示された後、所定時間、当該入力映像が非表示になることが繰り返される。アニメーション効果「ズームアウト」を入力映像に適用した場合、当該入力映像は所定時間毎に所定の縮小率で縮小され、非表示になる。

入力映像に適用可能なアニメーション効果は、「点滅」及び「ズームアウト」に限らず、「ズームイン」、「拡大」、「縮小」、「スライドイン」、「映像変更（変更後の映像の識別情報）」等の他のアニメーション効果であってもよい。

例えば、アニメーション効果「ズームイン」を入力映像に適用した場合、アニメーション効果「ズームアウト」とは反対に、当該入力映像は、所定の初期サイズに縮小された後、所定時間毎に所定の拡大率で拡大され、当該入力映像の表示領域と同じ大きさになる。アニメーション効果「拡大（縮小）」を入力映像に適用した場合、当該入力映像は、所定時間、所定の拡大率（縮小率）で拡大（縮小）される。

アニメーション効果「スライドイン」を入力映像に適用した場合、当該入力映像は、映像表示領域ＶＤＡ（図４）の所定の一辺から、当該入力映像の表示領域ＤＡまで直線的に移動される。

アニメーション効果「映像変更（変更後の映像の識別情報）」を入力映像に適用した場合、当該入力映像は、括弧内に記載された識別情報によって識別される映像に変更される。例えば、入力映像Ｖ２に対応するアニメーション情報が、「”ａｎｉｍａｔｉｏｎ”：”映像変更（Ｖ２）：ＶＢ”」であるとする。この場合、入力映像Ｖ２が選択されると、入力映像ＶＢが、括弧内に記載された入力映像Ｖ２に変更される。このように、アニメーション効果を表す文字列（例：映像変更）に括弧を連結し、当該括弧内に当該アニメーション効果を適用する際に必要なパラメータ（例：Ｖ２）を記載する等して、アニメーション情報において、アニメーション効果を適用する際に必要なパラメータを定めるようにしてもよい。

尚、図２に示す配信情報ＰＦには、背景映像である入力映像ＶＢに対応するアニメーション情報を定めていない。しかし、サブ映像である三個の入力映像Ｖ１、Ｖ２、Ｖ３と同様に、背景映像である入力映像ＶＢに対応するアニメーション情報を定めてもよい。入力映像にアニメーション効果を適用したときの態様については、後述する。

配信情報ＰＦには、三個の入力映像Ｖ１、Ｖ２、Ｖ３の其々の表示領域ＤＡ１、ＤＡ２、ＤＡ３（図４）を、映像表示領域ＶＤＡ（図４）の姿勢の変化に応じて移動させるか否かを示す領域追従情報「ｈｅａｄＴｒａｃｋＭｏｖｉｎｇ」（例：０、１、０）が含まれている。

表示領域ＤＡ（例：表示領域ＤＡ１）の領域追従情報が「０」に定められている場合、当該表示領域ＤＡは、映像表示領域ＶＤＡ（図４）の姿勢の変化に応じて移動する。表示領域ＤＡ（例：表示領域ＤＡ２）の領域追従情報が「１」に定められている場合、当該表示領域ＤＡは、映像表示領域ＶＤＡ（図４）の姿勢が変化しても移動しない。

尚、図２に示す配信情報ＰＦには、背景映像である入力映像ＶＢの表示領域ＤＡＢを、映像表示領域ＶＤＡ（図４）の姿勢の変化に応じて移動させるか否かを示す領域追従情報を定めていない。しかし、例えば、風景画等の静止画を表す入力映像が背景映像である場合等に、サブ映像である三個の入力映像Ｖ１、Ｖ２、Ｖ３と同様にして、背景映像である入力映像の表示領域の領域追従情報を定めてもよい。表示領域ＤＡを、映像表示領域ＶＤＡ（図４）の姿勢に応じて移動させたときの態様については後述する。

図１に参照を戻す。生成部１３は、複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図３））の其々を、記憶部１２が記憶している配信情報ＰＦ（図２）に含まれている配置情報（図２の破線部）が示す、配置領域（例：ＰＡＢ、ＰＡ１、ＰＡ２、ＰＡ３（図２、図３））に配置して合成する。これにより、生成部１３は、映像領域ＶＡ（図３）全体が表す一の配信映像Ｖ（図３）を生成する。具体的には、生成部１３は、スイッチャー等によって構成される。

配信部１４は、生成部１３が生成した配信映像Ｖ（図３）を所定の方式（例：ＭＰＥＧ−４、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ）等）で符号化して、配信映像Ｖを表す映像データを生成する。配信部１４は、当該生成した配信映像Ｖを表す映像データ及び記憶部１２が記憶している当該配信映像Ｖに関連する配信情報ＰＦ（図２）を、前記ネットワークを介して配信する。具体的には、配信部１４は、エンコーダーと前記ネットワークを介して視聴者端末２との間で通信を行う通信インターフェイス回路とによって構成される。

ここで、配信映像Ｖ及び配信情報ＰＦを配信するとは、所謂オンデマンド配信とライブ配信の二態様を含む。つまり、オンデマンド配信では、配信部１４は、生成部１３に配信情報ＰＦを用いて配信映像Ｖを生成させた後、配信映像Ｖの表示が許可された視聴者端末２に前記ネットワークを介して配信情報ＰＦを送信する。その後、当該視聴者端末２において、配信情報ＰＦに含まれている配信映像ＶのＵＲＬ（図２）へのアクセスがあった場合に、配信部１４は、配信映像Ｖを表す映像データを視聴者端末２に返信する。

一方、ライブ配信では、配信部１４は、テレビ番組の映像データの放送等と同様、所定時刻になると、事前に生成した配信情報ＰＦを用いて、生成部１３にリアルタイムに配信映像Ｖを生成させ、当該配信映像Ｖを表す映像データ及び配信情報ＰＦを、前記ネットワークに含まれる放送データ網を用いて放送する。

複数の映像出力部１１、記憶部１２、生成部１３及び配信部１４は、一台のサーバ装置に備えてもよいし、互いに通信可能に接続された複数台のサーバ装置に適宜分散して備えるようにしてもよい。また、配信部１４は、配信映像Ｖを表す映像データを配信する配信部１４と、当該配信映像Ｖに関連する配信情報ＰＦを配信する配信部１４と、を互いに異なるサーバ装置に分散して備えるようにしてもよい。

（視聴者端末２の構成）
一方、視聴者端末２は、配信サーバ１から、配信映像Ｖを表す映像データ及び配信映像Ｖに関連する配信情報ＰＦを取得する。視聴者端末２は、取得した映像データが表す配信映像Ｖを、取得した配信情報ＰＦに基づき、所定の映像表示領域ＶＤＡ（図４）に表示する。具体的には、視聴者端末２は、スマートフォン、タブレット端末、パソコン、或いは、テレビ等、視聴者が使用する情報通信装置によって構成される。

前記情報通信装置は、ＣＰＵ、ＲＡＭ、ＲＯＭ等を備えたマイクロコンピューター、前記ネットワークを介して配信サーバ１との間で通信を行う通信インターフェイス回路、符号化された映像データを復号化するデコーダー、映像を表示するための平面状の映像表示領域ＶＤＡ（図４）を有する、液晶ディスプレイ等の表示装置、視聴者に視聴者端末２の各種操作を行わせるための、タッチパネルや、リモコンや、キーボード及びマウス等の操作装置を備えている。

尚、前記表示装置は、前記情報通信装置に接続され、前記情報通信装置による制御の下で映像を表示するＨＭＤ（ヘッドマウントディスプレイ）であってもよい。前記表示装置は、映像表示領域ＶＤＡ（図４）の姿勢を検出する角速度（ジャイロ）センサーを備えている。また、前記表示装置は、映像表示領域ＶＤＡ（図４）における視聴者の視点を、赤外線等を用いて検出する視線追跡センサーを備えている。

または、前記表示装置に前記角速度（ジャイロ）センサーを備えずに、前記表示装置を操作するためのリモコンに、当該リモコンの姿勢を検出する角速度（ジャイロ）センサーを備えるようにしてもよい。また、前記表示装置に前記視線追跡センサーを備えずに、前記表示装置を操作するためのリモコンに、前記視線追跡センサーを備えるようにしてもよい。

視聴者端末２は、図１に示すように、表示部２１、操作部２２、取得部２３、抽出部２４、設定部２５及び表示制御部２６として機能する。

表示部２１は、前記表示装置によって構成され、前記マイクロコンピューターによる制御の下、前記表示装置が有する映像表示領域ＶＤＡ（図４）に映像を表示する。操作部２２は、前記操作装置によって構成され、視聴者に視聴者端末２の各種操作を行わせる。

取得部２３は、前記マイクロコンピューター及び前記通信インターフェイス回路によって構成され、配信サーバ１と通信を行うことにより、配信映像Ｖ（図３）を表す映像データ及び当該配信映像Ｖに関連する配信情報ＰＦ（図２）を取得する。

具体的には、配信部１４が、配信映像Ｖ及び配信情報ＰＦを上述のオンデマンド配信の態様で配信する場合、取得部２３は、先ず、配信部１４が送信した配信映像Ｖに関連する配信情報ＰＦを受信する。取得部２３は、当該受信した配信情報ＰＦを前記マイクロコンピューターが備えるＲＡＭやＲＯＭ等に記憶しておく。その後、視聴者が操作部２２を用いて、所定の配信映像Ｖの取得操作を行った場合、取得部２３は、当該配信映像Ｖに関連する配信情報ＰＦをＲＡＭやＲＯＭ等から取得し、当該配信情報ＰＦに含まれる配信映像ＶのＵＲＬにアクセスする。そして、取得部２３は、配信部１４から返信された配信映像Ｖを表す映像データを取得する。

一方、配信部１４が、配信映像Ｖ及び配信情報ＰＦを上述のライブ配信の態様で配信する場合、取得部２３は、所定時刻以降に、配信部１４によって前記放送データ網を用いて放送される、配信映像Ｖを表す映像データ及び配信情報ＰＦを取得する。

抽出部２４は、前記デコーダー及び前記マイクロコンピューターによって構成され、取得部２３が取得した映像データを復号化して配信映像Ｖ（図３）を生成する。抽出部２４は、公知の画像抽出処理を実行することにより、前記生成した配信映像Ｖ（図３）から、取得部２３が取得した配信情報ＰＦに含まれている配置情報（図２の破線部）が示す配置領域ＰＡ（例：ＰＡＢ、ＰＡ１、ＰＡ２、ＰＡ３（図２、図３））に配置されている、複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図３））の其々を個別に分割して抽出する。

設定部２５は、前記マイクロコンピューターによって構成され、映像表示領域ＶＤＡ（図４）における複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図４））の其々の表示領域ＤＡ（例：ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３（図４））を設定する。

具体的には、設定部２５は、取得部２３が取得した配信情報ＰＦ（図２）に含まれている初期表示情報（図２の二点鎖線部）が示す、複数の入力映像の其々の表示領域ＤＡの初期配置（例：入力映像Ｖ１の表示領域ＤＡ１の初期配置「ｐｏｓＸ：−０．８、ｐｏｓＹ：０．２５、ｐｏｓＺ：０．７、ｒｏｔＸ：−１５、ｒｏｔＹ：−４５、ｒｏｔＺ：０、ｓｃａｌｅ：１．４５７」（図２））の通りに、複数の入力映像の其々の表示領域ＤＡ（例：入力映像Ｖ１の表示領域ＤＡ１（図４））を設定する。

尚、初期表示情報（図２の二点鎖線部）において、背景映像として定められた入力映像（例：入力映像ＶＢ（図４））の表示領域ＤＡの初期配置が定義されていない場合、設定部２５は、映像表示領域ＶＤＡ（図４）全体を、当該入力映像の表示領域（例：表示領域ＤＡＢ（図４））として設定する。

表示制御部２６は、前記マイクロコンピューターによって構成され、表示部２１を制御して、抽出部２４が抽出した複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図４））の其々を、設定部２５が設定した複数の入力映像の其々の表示領域ＤＡ（例：ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３（図４））に表示させる。

視聴者端末２は、更に、受付部２７、姿勢検出部９１、選択部２８、視点検出部９２、映像選択部２０、及び適用部２９として機能する。

受付部２７は、前記マイクロコンピューターによって構成され、視聴者が操作部２２を用いて行った、複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図４））の其々の表示領域ＤＡ（例：ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３（図４））の編集操作を受け付ける。これに合わせて、設定部２５は、受付部２７が受け付けた編集操作で編集された表示領域ＤＡによって、受付部２７による当該編集操作の受け付け前に設定した表示領域ＤＡを更新する。

具体的には、表示領域ＤＡの編集操作には、表示領域ＤＡを縮小する操作が含まれる。また、表示領域ＤＡの編集操作には、表示領域ＤＡを、拡大する操作、移動する操作、及び削除する操作が含まれる。

例えば、図４に示すように、四個の入力映像ＶＢ、Ｖ１、Ｖ２、Ｖ３の其々が表示領域ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３に表示されているとする。

この場合に、視聴者が、操作部２２を用いて、三個の入力映像Ｖ１、Ｖ２、Ｖ３の其々の表示領域ＤＡ１、ＤＡ２、ＤＡ３を縮小する操作を行ったとする。尚、表示領域ＤＡを縮小する操作は、特に限定されず、マウスやタッチパネルを用いた一般的な図形を縮小する操作と同様の操作であればよい。

この場合、受付部２７は、表示領域ＤＡ１、ＤＡ２、ＤＡ３を縮小する操作を受け付ける。図５は、表示領域ＤＡを縮小した場合の一例を示す図である。設定部２５は、図５に示すように、三個の表示領域ＤＡ１、ＤＡ２、ＤＡ３を、受付部２７が受け付けた操作で縮小された表示領域ＤＡ１ａ、ＤＡ２ａ、ＤＡ３ａによって更新する。

一方、視聴者が、操作部２２を用いて、入力映像Ｖ２、Ｖ３の表示領域ＤＡ２、ＤＡ３を削除する操作を行ったとする。また、視聴者が、操作部２２を用いて、入力映像Ｖ１の表示領域ＤＡ１を、図４に示す表示領域ＤＡ２の位置まで移動させ、当該移動後の表示領域ＤＡ１を拡大する操作を行ったとする。尚、表示領域ＤＡを、削除する操作、移動する操作、及び拡大する操作は、特に限定されず、マウスやタッチパネルを用いた一般的な図形を削除する操作、移動する操作、及び拡大する操作と同様の操作であればよい。

この場合、受付部２７は、表示領域ＤＡ２、ＤＡ３を削除する操作と、表示領域ＤＡ１を移動する操作及び拡大する操作と、を受け付ける。図６は、表示領域ＤＡを移動、削除及び拡大した場合の一例を示す図である。設定部２５は、図６に示すように、表示領域ＤＡ２、ＤＡ３を削除し、表示領域ＤＡ１を、受付部２７が受け付けた操作で移動及び拡大された表示領域ＤＡ１ｂによって更新する。

このようにして、視聴者は、表示領域ＤＡを拡大又は縮小する操作を行って、当該表示領域ＤＡに表示されている入力映像を視認し易いように拡大又は縮小させることができる。また、視聴者は、表示領域ＤＡを移動する操作を行って、当該表示領域ＤＡに表示されている入力映像を視認し易い位置に移動させることができる。また、視聴者は、映像表示領域ＶＤＡに表示されている入力映像の数が多すぎる場合等に表示領域ＤＡを削除する操作を行って、当該表示領域ＤＡに表示されている入力映像を非表示にすることができる。これにより、視聴者は、映像表示領域ＶＤＡに表示されている、当該非表示にした入力映像とは異なる入力映像を視認し易くすることができる。

姿勢検出部９１は、前記表示装置又は前記表示装置を操作するための前記リモコンが備える前記角速度（ジャイロ）センサーによって構成され、視聴者が意図する映像表示領域ＶＤＡ（図４）の姿勢を検出する。

具体的には、姿勢検出部９１は、視聴者が実際に映像表示領域ＶＤＡ（図４）の姿勢を視聴者が意図する姿勢に変化させた場合に、前記表示装置が備える前記角速度（ジャイロ）センサーによって、前記映像表示領域ＶＤＡ（図４）の変化後の姿勢を検出する。又は、姿勢検出部９１は、視聴者が、例えばテレビ等が有する映像表示領域ＶＤＡ（図４）の姿勢を実際に変化させる代わりに、前記リモコンの姿勢を視聴者が意図する姿勢に変化させた場合に、前記リモコンの変化後の姿勢を、前記映像表示領域ＶＤＡ（図４）の変化後の姿勢として、前記リモコンが備える前記角速度（ジャイロ）センサーによって検出する。

これに合わせて、表示制御部２６は、抽出部２４が抽出した複数の入力映像に全方位映像（例：ＶＢ（図３））が含まれている場合、当該全方位映像に含まれている、当該全方位映像を撮影した全方位カメラの撮影視点から所定方向を撮影方向として撮影して得られた仮想空間映像（例：図３に示す符号ＶＢの映像）を取得する。所定方向とは、姿勢検出部９１が検出した姿勢と同じ姿勢の平面に直交する方向である。そして、表示制御部２６は、表示部２１を制御して、設定部２５が設定した当該全方位映像の表示領域ＤＡ（例：ＤＡＢ（図４））に、当該取得した仮想空間映像を表示させる。

尚、表示制御部２６が、全方位映像に含まれている、前記撮影視点から前記所定方向を撮影方向として撮影して得られた仮想空間映像を取得する方法は、特に限定されず、全方位カメラに付属のソフトウェアに実装されている方法と同様の方法で実現すればよい。

図７（Ａ）及び図７（Ｂ）は、映像表示領域ＶＤＡの姿勢に応じた仮想空間映像ＶＢａ、ＶＢｂ及び一方位映像Ｖ４の表示例を示す図であり、図７（Ａ）は、映像表示領域ＶＤＡの姿勢の変化前の表示例を示す図であり、図７（Ｂ）は、映像表示領域ＶＤＡの姿勢の変化後の表示例を示す図である。

例えば、図７（Ａ）に示すように、抽出部２４が抽出した全方位映像に含まれている仮想空間映像ＶＢａが、背景映像として、設定部２５によって設定された当該全方位映像の表示領域ＤＡＢａである映像表示領域ＶＤＡ全体に表示されているとする。仮想空間映像ＶＢａは、抽出部２４が抽出した全方位映像に含まれている、姿勢検出部９１が検出した映像表示領域ＶＤＡの姿勢と同じ姿勢の平面に直交する方向を撮影方向として撮影して得られた映像である。また、抽出部２４が抽出した一方位映像である入力映像Ｖ４が、設定部２５によって設定された表示領域ＤＡ４に表示されているとする。

この場合に、視聴者が、映像表示領域ＶＤＡを図７（Ａ）における右方向に回転させ、且つ、映像表示領域ＶＤＡの図７（Ａ）における裏面（図７（Ａ）の奥側の面）が地面に対向するように回転させて、映像表示領域ＶＤＡの姿勢を変化させたとする。

この場合、姿勢検出部９１は、上記変化後の映像表示領域ＶＤＡ（図４）の姿勢を検出する。表示制御部２６は、抽出部２４が抽出した全方位映像に含まれている、姿勢検出部９１が検出した上記変化後の映像表示領域ＶＤＡの姿勢と同じ姿勢の平面に直交する方向を撮影方向として撮影して得られた仮想空間映像ＶＢｂを取得する。表示制御部２６は、当該取得した仮想空間映像ＶＢｂを、背景映像として、当該全方位映像の表示領域ＤＡＢａである映像表示領域ＶＤＡ全体に表示する。

選択部２８は、前記マイクロコンピューターによって構成され、設定部２５によって、表示領域ＤＡを、映像表示領域ＶＤＡの姿勢の変化に応じて移動させるか否かの選択を受け付ける。

例えば、取得部２３が取得した配信情報ＰＦ（図２）に含まれている入力映像Ｖ４（図７（Ａ））の表示領域ＤＡ４（図７（Ａ））の領域追従情報（図２の長破線部）が「０」であるとする。この場合、選択部２８は、設定部２５によって、入力映像Ｖ４の表示領域ＤＡ４を、映像表示領域ＶＤＡの姿勢の変化に応じて移動させないことの選択を受け付ける。

この場合、図７（Ａ）及び図７（Ｂ）に示すように、映像表示領域ＶＤＡに表示されていた仮想空間映像ＶＢａが、映像表示領域ＶＤＡの姿勢の変化に応じて、仮想空間映像ＶＢｂに変化したとしても、設定部２５は、表示領域ＤＡ４を移動させない。これにより、表示領域ＤＡ４は、視聴者が向いている方向に追従して移動したようになる。

一方、取得部２３が取得した配信情報ＰＦ（図２）に含まれている入力映像Ｖ４（図７（Ａ））の表示領域ＤＡ４（図７（Ａ））の領域追従情報（図２の長破線部）が「１」であるとする。この場合、選択部２８は、設定部２５によって、入力映像Ｖ４の表示領域ＤＡ４を、映像表示領域ＶＤＡの姿勢の変化に応じて移動させることの選択を受け付ける。

尚、選択部２８が、設定部２５によって、表示領域ＤＡを、映像表示領域ＶＤＡの姿勢の変化に応じて移動させるか否かの選択を受け付ける方法は、上記の方法に限らない。例えば、視聴者が操作部２２を用いて当該選択の操作を行えるようにし、視聴者が操作部２２を用いて行った当該選択の操作を行った場合に、選択部２８が、当該選択の操作による選択の結果を受け付けるようにしてもよい。

図７（Ｃ）は、映像表示領域ＶＤＡの姿勢の変化後の図７（Ｂ）とは異なる表示例を示す図である。この場合、設定部２５は、図７（Ａ）及び図７（Ｃ）に示すように、映像表示領域ＶＤＡに表示されていた仮想空間映像ＶＢａが、映像表示領域ＶＤＡの姿勢の変化に応じて、仮想空間映像ＶＢｂに変化することに合わせて、表示領域ＤＡ４を映像表示領域ＶＤＡの姿勢の変化の方向とは反対方向に、当該変化の度合に相応する度合だけ移動させる。これにより、映像表示領域ＶＤＡの左上隅近傍の表示領域ＤＡ４は、映像表示領域ＶＤＡの外側に移動し、入力映像Ｖ４が表示されなくなる。

つまり、この場合、設定部２５は、表示領域ＤＡ４を映像表示領域ＶＤＡの姿勢を変化させる前の仮想空間映像ＶＢａ（図７（Ａ））と一体化させ、仮想空間映像ＶＢａが映像表示領域ＶＤＡの姿勢の変化に応じて当該変化の方向とは反対の方向に移動することに追従するようにして、表示領域ＤＡ４を移動させる。

このように、第一実施形態の構成では、映像表示領域ＶＤＡ（図４）の姿勢の変化に応じて、複数の入力映像の其々の表示領域ＤＡを移動させるか否かを適宜選択することができる。

図１に参照を戻す。視点検出部９２は、前記視線追跡センサーによって構成され、映像表示領域ＶＤＡ（図４）における視聴者の視点を検出する。

映像選択部２０は、前記マイクロコンピューターによって構成され、視聴者による複数の入力映像に含まれている一の入力映像の選択を受け付ける。具体的には、映像選択部２０は、視聴者が操作部２２を用いて、映像表示領域ＶＤＡに表示されている複数の入力映像の中から一の入力映像を選択操作した場合に、当該一の入力映像の選択を受け付ける。

又は、映像選択部２０は、視点検出部９２によって検出された視点が、映像表示領域ＶＤＡ内の一の表示領域ＤＡに存在する場合に、当該一の表示領域ＤＡに表示されている一の入力映像の選択を受け付ける。このため、視聴者は、入力映像が表示されている表示領域ＤＡに視点を移動させるだけで、当該入力映像を容易に選択することができる。

適用部２９は、前記マイクロコンピューターによって構成され、映像選択部２０によって一の入力映像の選択が受け付けられた場合に、取得部２３が取得した配信情報ＰＦ（図２）に含まれているアニメーション情報（図２の一点鎖線部）が示す通りに、前記一の入力映像が選択された場合に適用するアニメーション効果を、適用先の入力映像に適用する。

例えば、図４に示すように、三個の表示領域ＤＡ１、ＤＡ２、ＤＡ３に、其々、入力映像Ｖ１、Ｖ２、Ｖ３が表示されているとする。また、図２の一点鎖線部に示すように、取得部２３が取得した配信情報ＰＦに含まれているアニメーション情報が示す、三個の入力映像Ｖ１、Ｖ２、Ｖ３の其々が選択された場合に適用するアニメーション効果は、「点滅」、「ズームアウト」、「点滅」であるとする。また、当該アニメーション情報が示す、入力映像Ｖ１、Ｖ２、Ｖ３の其々が選択された場合に適用するアニメーション効果の適用先の入力映像は、其々、入力映像Ｖ１、Ｖ２、ＶＢであるとする。

この場合に、映像選択部２０によって入力映像Ｖ１（Ｖ３）の選択が受け付けられたとする。この場合、適用部２９は、入力映像Ｖ１（ＶＢ）に、アニメーション効果「点滅」を適用する。具体的には、適用部２９は、入力映像Ｖ１（ＶＢ）を所定時間表示した後に入力映像Ｖ１（ＶＢ）を所定時間非表示にすることを、繰り返し行う。

一方、映像選択部２０によって入力映像Ｖ２の選択が受け付けられたとする。この場合、適用部２９は、入力映像Ｖ２に、アニメーション効果「ズームアウト」を適用する。具体的には、適用部２９は、所定時間毎に所定の縮小率で入力映像Ｖ２を縮小し、入力映像Ｖ２を非表示にする。

以下、配信サーバ１及び視聴者端末２の動作について説明する。図８は、配信サーバ１の動作を示すフローチャートである。図９は、視聴者端末２における配信映像Ｖの初期表示の動作を示すフローチャートである。図１０は、視聴者端末２における配信映像Ｖの初期表示後の動作を示すフローチャートである。

（配信サーバ１の動作）
図８に示すように、配信サーバ１では、映像出力部１１から、配信映像Ｖ（図３）に含める複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図３））を表す映像データが生成部１３に入力されると（Ｓ１１）、生成部１３は、記憶部１２が記憶している配信映像Ｖに関連する配信情報ＰＦ（図２）を取得する（Ｓ１２）。

生成部１３は、複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図３））の其々を、Ｓ１２で取得した配信情報ＰＦ（図２）に含まれている配置情報（図２の破線部）が示す配置領域（例：ＰＡＢ、ＰＡ１、ＰＡ２、ＰＡ３（図２、図３））に配置して合成することで、配信映像Ｖ（図３）を生成する（Ｓ１３）。

次に、配信部１４は、Ｓ１３で生成された配信映像Ｖ（図３）を表す映像データを生成し、生成した配信映像Ｖを表す映像データ及び記憶部１２が記憶している当該配信映像Ｖに関連する配信情報ＰＦ（図２）を、前記ネットワークを介して配信する（Ｓ１４）。

（視聴者端末２の動作）
図９に示すように、視聴者端末２では、取得部２３が、配信部１４によって配信された配信映像Ｖ（図３）に関連する配信情報ＰＦ（図２）を取得し（Ｓ２１）、配信映像Ｖを表す映像データを取得する（Ｓ２２）。

抽出部２４は、Ｓ２２で取得された映像データを復号化して生成した配信映像Ｖから、Ｓ２１で取得された配信情報ＰＦに含まれている配置情報（図２の破線部）が示す配置領域ＰＡ（例：ＰＡＢ、ＰＡ１、ＰＡ２、ＰＡ３（図２、図３））に配置されている、複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図３））の其々を個別に分割して抽出する（Ｓ２３）。

設定部２５は、Ｓ２１で取得された配信情報ＰＦ（図２）に含まれている初期表示情報（図２の二点鎖線部）を用いて、映像表示領域ＶＤＡ（図４）におけるＳ２３で抽出された複数の入力映像（例：ＶＢ、Ｖ１、Ｖ２、Ｖ３（図３））の其々の表示領域ＤＡ（例：ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３（図４））を設定する（Ｓ２４）。このため、視聴者端末２において、Ｓ２３で抽出された複数の入力映像其々の表示領域ＤＡを個別に設定する手間を軽減することができる。

表示制御部２６は、表示部２１を制御して、Ｓ２３で抽出された複数の入力映像の其々を、Ｓ２４で設定された複数の入力映像の其々の表示領域ＤＡに表示させる（Ｓ２５）。

Ｓ２５の後、受付部２７によって、複数の入力映像の其々の表示領域ＤＡ（例：ＤＡＢ、ＤＡ１、ＤＡ２、ＤＡ３（図４））の編集操作が受け付けられた場合（Ｓ２６；ＹＥＳ）、設定部２５は、Ｓ２６で受け付けられた編集操作で編集された表示領域ＤＡによって、当該編集操作の受け付け前に設定した表示領域ＤＡを更新する（Ｓ２７）。このため、視聴者は、視聴者端末２において、Ｓ２３で抽出された複数の入力映像其々の表示領域ＤＡを編集操作することで、配信サーバ１に負担をかけることなく、当該複数の入力映像其々の表示領域ＤＡを再編することができる。

表示制御部２６は、表示部２１を制御して、Ｓ２３で抽出された複数の入力映像の其々を、Ｓ２７で更新された複数の入力映像の其々の表示領域ＤＡに表示させる（Ｓ２８）。

図１０に示すように、姿勢検出部９１によって検出される映像表示領域ＶＤＡ（図４）の姿勢が変化した場合において（Ｓ３１；ＹＥＳ）、Ｓ２３で抽出された複数の入力映像に全方位映像（例：ＶＢａ（図７（Ａ）））が含まれていたとする（Ｓ３２；ＹＥＳ）。

この場合、表示制御部２６は、上述のように、表示部２１を制御して、当該全方位映像に含まれている、当該全方位映像を撮影した全方位カメラの撮影視点から前記所定方向を撮影方向として撮影して得られた仮想空間映像（例：ＶＢｂ（図７（Ｂ）、図７（Ｃ）））を、当該全方位映像の表示領域ＤＡ（例：ＤＡＢａ（図７（Ｂ）、図７（Ｃ）））に表示させる（Ｓ３３）。

これにより、視聴者は、全方位映像の撮影場所において、頭部の姿勢を映像表示領域ＶＤＡの姿勢と同様に変化させた場合に視認する映像と同様の映像を、全方位映像の表示領域ＤＡにおいて視認することができる。

Ｓ２８（図９）の後、姿勢検出部９１によって検出される映像表示領域ＶＤＡの姿勢が変化したが（Ｓ３１；ＹＥＳ）、Ｓ２３で抽出された複数の入力映像に全方位映像が含まれていない場合（Ｓ３２；ＮＯ）、及び、Ｓ３３の後、選択部２８は、設定部２５によって、Ｓ２３で抽出された入力映像の表示領域ＤＡを、映像表示領域ＶＤＡの姿勢の変化に応じて移動させるか否かの選択を受け付ける（Ｓ３４）。

Ｓ３４において、選択部２８が、Ｓ２１（図９）で取得された配信情報ＰＦ（図２）に含まれている、Ｓ２３で抽出された入力映像（例：Ｖ４（図７（Ａ）））の表示領域ＤＡ（例：ＤＡ４（図７（Ａ）））の領域追従情報（図２の長破線部）に基づき、設定部２５によって、当該表示領域ＤＡを映像表示領域ＶＤＡの姿勢の変化に応じて移動させることの選択を受け付けたとする（Ｓ３４；ＹＥＳ）。この場合、設定部２５は、前記表示領域ＤＡを、映像表示領域ＶＤＡの姿勢の変化に応じて移動させる（図７（Ｃ）参照）（Ｓ３５）。その後は、Ｓ３６以降の処理が行われる。

Ｓ２８（図９）の後、姿勢検出部９１によって検出される映像表示領域ＶＤＡの姿勢が変化しなかった場合（Ｓ３１；ＮＯ）、及び、Ｓ３４において、選択部２８が、設定部２５によって表示領域ＤＡを映像表示領域ＶＤＡの姿勢の変化に応じて移動させないことの選択を受け付けた場合（Ｓ３４；ＮＯ）、Ｓ３６以降の処理が行われる。

Ｓ３６において、映像選択部２０は、視聴者による一の入力映像の選択の受け付けを開始する（Ｓ３６）。適用部２９は、Ｓ３６において、映像選択部２０が一の入力映像の選択を受け付けた場合（Ｓ３６；ＹＥＳ）、Ｓ２１（図９）で取得された配信情報ＰＦ（図２）に、当該一の入力映像に対応するアニメーション情報（図２の一点鎖線部）が含まれているか否かを判定する（Ｓ３７）。

適用部２９は、Ｓ３７において、前記一の入力映像（例：Ｖ３（図２））に対応するアニメーション情報（図２の一点鎖線部）が含まれていると判定すると（Ｓ３７；ＹＥＳ）、当該アニメーション情報が示す通りに、アニメーション効果（例：点滅（図２））を所定の適用先の入力映像（例：ＶＢ（図２））に適用する（Ｓ３８）。

これにより、視聴者により一の入力映像が選択された場合に、配信情報ＰＦに含まれるアニメーション情報が示す通りに、アニメーション効果が所定の適用先の入力映像に適用される。このため、視聴者は、一の入力映像に視点を移動させる、又は、一の入力映像を選択操作するだけで、前記適用先の入力映像をインタラクティブに動作させることができる。

Ｓ３６において、映像選択部２０が一の入力映像の選択を受け付けなかった場合（Ｓ３６；ＮＯ）、適用部２９がＳ３７において前記一の入力映像に対応するアニメーション情報が含まれていないと判定した場合（Ｓ３７；ＮＯ）、及び、Ｓ３８の実行後、視聴者が操作部２２を用いて、配信映像Ｖの視聴を終了するための所定の終了指示の入力操作を行わなかった場合（Ｓ３９；ＮＯ）、Ｓ２６（図９）以降の処理が行われる。一方、視聴者が操作部２２を用いて、前記終了指示の入力操作を行った場合（Ｓ３９；ＹＥＳ）、視聴者端末２における図９及び図１０に示す動作は終了する。

このように、第一実施形態の構成によれば、視聴者端末２において配信サーバ１から取得した配信映像Ｖ及び配信情報ＰＦを用いて複数の入力映像が個別に分割されて抽出される。そして、抽出された複数の入力映像の其々が、視聴者端末２が備える設定部２５によって設定された表示領域ＤＡに表示される。このため、上記の従来技術とは異なり、配信映像Ｖに含まれる複数の入力映像の視聴者端末２における表示領域ＤＡを、配信サーバ１に負担をかけることなく、視聴者端末２で設定した表示領域ＤＡに迅速に再編することができる。

（第二実施形態）
以下、本発明の第二実施形態に係る映像配信システムについて図面に基づいて説明する。尚、第二実施形態において第一実施形態と同一構成のものは同一の符号を付し、説明を省略する。

（映像配信システム１００ａの構成）
図１１は、本発明の第二実施形態に係る映像配信システム１００ａの機能構成の一例を示すブロック図である。図１２は、配信音声Ａの構成の一例を示す図である。図１３は、本発明の第二実施形態に係る配信情報ＰＦａの一例を示す図である。図１１に示すように、第二実施形態に係る映像配信システム１００ａは、配信サーバ１ａと視聴者端末２ａとを備えている。配信サーバ１ａと視聴者端末２ａとは、ＬＡＮやインターネットや放送データ網等の不図示のネットワークを介して通信可能に接続されている。

（配信サーバ１ａの構成と動作）
配信サーバ１ａは、第一実施形態で説明した配信映像Ｖ（図３）と、第一実施形態で説明した配信情報ＰＦ（図２）とは異なる構成の配信情報ＰＦａ（図１３）と、配信映像Ｖの表示中に再生され得る一以上の入力音声を含む配信音声Ａ（図１２）と、を配信する。具体的には、配信サーバ１ａは、第一実施形態で説明した複数の映像出力部１１及び記憶部１２と、一以上の音声出力部１５と、生成部１３ａと、配信部１４ａと、を備えている。

音声出力部１５は、配信映像Ｖの表示中に再生され得る音声を表す音声データを生成部１３ａへ出力する。具体的には、音声出力部１５は、映像出力部１１を構成するカメラの周囲の音声を集音し、当該集音した音声を表す音声データを出力するマイクや、音声の編集操作が可能であり、且つ、編集した音声を表す音声データを出力可能なパソコン等の音声編集装置等で構成される。以降、生成部１３ａに入力される、音声出力部１５が出力した音声データが表す音声を入力音声と記載する。

第二実施形態では、記憶部１２が記憶する、配信映像Ｖに関連する配信情報ＰＦａ（図１３）には、更に、音声記録情報（破線部）及び再生情報（二点鎖線部）が含まれている。音声記録情報とは、配信映像Ｖの表示中に再生され得る一以上の入力音声の其々を記録する音声記録領域を定めた情報である。再生情報とは、前記一以上の入力音声の其々の再生方法を定めた情報である。また、配信情報ＰＦａにおいて、一以上の入力音声の其々は、配信映像Ｖに含まれる複数の入力映像のうちの一の入力映像に対応付けられている。

例えば、記憶部１２は、図１２に示す配信音声Ａに含まれる四個の入力音声ＡＢ、Ａ１、Ａ２、Ａ３に関連する音声記録情報及び再生情報を含んだ、図１３に示す配信情報ＰＦａを記憶しているものとする。

図１２に示すように、配信音声Ａは、配信映像Ｖ（図３）の表示中に再生され得る四個の入力音声ＡＢ、Ａ１、Ａ２、Ａ３を含むものとする。入力音声ＡＢは、入力映像ＶＢ（図３）を撮影する全方位カメラの周囲で集音した６チャンネルの音声であるものとする。つまり、入力音声ＡＢは、入力映像ＶＢ（図３）に対応付けられた音声であるものとする。三個の入力音声Ａ１、Ａ２、Ａ３は、其々、入力映像Ｖ１、Ｖ２、Ｖ３（図３）を撮影するカメラの周囲で集音した２チャンネル（ステレオ）の音声であるものとする。つまり、三個の入力音声Ａ１、Ａ２、Ａ３は、其々、入力映像Ｖ１、Ｖ２、Ｖ３（図３）に対応付けられた音声であるものとする。

また、配信音声Ａは、三個の音声トラックＡＴ０、ＡＴ１、ＡＴ２を有するものとする。音声トラックＡＴ０には、６チャンネルの入力音声ＡＢが記録され、音声トラックＡＴ１には、２チャンネルの入力音声Ａ１と、２チャンネルの入力音声Ａ２と、が記録され、音声トラックＡＴ２には、２チャンネルの入力音声Ａ３が記録されるものとする。

尚、図１２に示す配信音声Ａは、例示に過ぎない。例えば、配信音声Ａは、一個の音声トラックのみを有し、背景映像又はサブ映像としての入力映像に対応付けられた１チャンネルのモノラルの入力音声だけを、当該音声トラックに記録するものであってもよい。

上述のように、配信音声Ａが図１２に示すように構成される場合、図１３の破線部に示すように、配信情報ＰＦａには、四個の入力音声ＡＢ、Ａ１、Ａ２、Ａ３（図１２）の其々を記録する音声記録領域ＲＡＢ、ＲＡ１、ＲＡ２、ＲＡ３（図１２）を定めた音声記録情報が含まれる。以降、一以上の入力音声の其々の音声記録領域を総称する場合、音声記録領域ＲＡと記載する。

また、図１３の二点鎖線部に示すように、配信情報ＰＦａには、四個の入力音声ＡＢ、Ａ１、Ａ２、Ａ３（図１２）の其々の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」を定めた再生情報が含まれる。

図１３に示すように、配信情報ＰＦａにおいて、入力音声（例：入力音声Ａ２）を記録する音声記録領域ＲＡ（例：ＲＡ２）及び当該入力音声の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」（例：ＳｅｌｅｃｔｅｄＯｎｌｙ）は、当該入力音声に対応付けられた一の入力映像（例：入力映像Ｖ２（図３））の識別情報（例：Ｖ２）に続く括弧内に記載されることで、当該一の入力映像と対応付けられている。これにより、配信情報ＰＦａにおいて、一以上の入力音声の其々（例：入力音声Ａ２（図１２））と、複数の入力映像のうちの一の入力映像（例：入力映像Ｖ２（図３））と、の対応付けが定められている。

入力音声（例：Ａ２（図１２））を記録する音声記録領域ＲＡ（例：ＲＡ２）は、当該入力音声を記録する音声トラックの識別情報「ａｕｄｉｏＴｒａｃｋＮａｍｅ」（例：ＡＴ１）と、当該入力音声を音声トラック内の一以上のチャンネルに記録するときの、当該一以上のチャンネルの先頭のチャンネルの番号（以降、開始チャンネルインデックスと記載する）「ａｕｄｉｏＣｈａｎｎｅｌＮｕｍｂｅｒ」（例：２）と、当該入力音声の種類「ａｕｄｉｏＴｙｐｅ」（例：Ｓｔｅｒｅｏ）と、によって定められている。

尚、図１３に示す音声記録領域ＲＡＢ、ＲＡ３のように、入力音声の開始チャンネルインデックス「ａｕｄｉｏＣｈａｎｎｅｌＮｕｍｂｅｒ」は「−１」によって定めることができる。これは、入力音声を音声トラック内の全てのチャンネルに記録することを示している。

また、入力音声の種類「ａｕｄｉｏＴｙｐｅ」は、入力音声のチャンネル数が識別可能なように定められている。具体的には、入力音声の種類「ａｕｄｉｏＴｙｐｅ」が「Ｓｔｅｒｅｏ」の場合、当該入力音声の種類が２チャンネルのステレオ音声であることが定められている。このため、当該入力音声のチャンネル数が２であると識別できる。入力音声の種類「ａｕｄｉｏＴｙｐｅ」が「Ｓｐａｃｉａｌ−６」の場合、当該入力音声の種類が６チャンネルの特別な音声であることが定められている。この場合、当該入力音声の種類に数字「６」が含まれているので、当該入力音声のチャンネル数が６であると識別できる。ただし、これに限らず、入力音声（例：ＡＢ）の種類「ａｕｄｉｏＴｙｐｅ」を、入力音声のチャンネル数（例：６）によって定める（例：”ａｕｄｉｏＴｙｐｅ”：”６”）ようにしてもよい。

入力音声の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」は、所定の三個の再生方法「Ｎｏｒｍａｌ」（第一再生方法）、「ＳｅｌｅｃｔｅｄＭｉｘ」（第二再生方法）、「ＳｅｌｅｃｔｅｄＯｎｌｙ」（第三再生方法）のうちの何れか一の再生方法によって定められている。

具体的には、入力音声の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「Ｎｏｒｍａｌ」に定められているとする。この場合、当該入力音声（第一の入力音声）に対応付けられた入力映像（第一の入力映像）が映像表示領域ＶＤＡ（図４）に表示された場合に、当該入力音声が再生される。

例えば、図１３に示す再生情報では、入力音声ＡＢの再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「Ｎｏｒｍａｌ」に定められている。つまり、入力音声ＡＢ（図１２）に対応付けられた入力映像ＶＢ（図３）が映像表示領域ＶＤＡ（図４）に表示された場合に、入力音声ＡＢを再生することが定められている。

入力音声の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「ＳｅｌｅｃｔｅｄＭｉｘ」に定められているとする。この場合、当該入力音声（第二の入力音声）に対応付けられた入力映像（第二の入力映像）の選択が映像選択部２０（図１１）によって受け付けられた場合に、当該入力音声が所定の第一音量で再生される。また、前記一以上の入力音声のうち、再生情報において再生方法「Ｎｏｒｍａｌ」で再生することが定められた入力音声が、前記第一音量よりも小さい第二音量で再生される。

例えば、図１３に示す再生情報では、入力音声ＡＢの再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「Ｎｏｒｍａｌ」に定められ、入力音声Ａ３の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「ＳｅｌｅｃｔｅｄＭｉｘ」に定められている。つまり、入力音声Ａ３に対応付けられた入力映像Ｖ３（図３）の選択が映像選択部２０（図１）によって受け付けられた場合に、入力音声Ａ３を所定の第一音量で再生し、入力音声ＡＢを第一音量よりも小さい第二音量で再生することが定められている。

入力音声の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「ＳｅｌｅｃｔｅｄＯｎｌｙ」に定められているとする。この場合、当該入力音声（第三の入力音声）に対応付けられた入力映像（第三の入力映像）の選択が映像選択部２０（図１）によって受け付けられた場合に、当該入力音声のみが再生される。

例えば、図１３に示す再生情報では、入力音声ＡＢの再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「Ｎｏｒｍａｌ」に定められ、入力音声Ａ１（Ａ２）の再生方法「ａｕｄｉｏＰｌａｙＭｏｄｅ」が再生方法「ＳｅｌｅｃｔｅｄＯｎｌｙ」に定められている。つまり、入力音声Ａ１（Ａ２）に対応付けられた入力映像Ｖ１（Ｖ２）の選択が映像選択部２０によって受け付けられた場合に、入力音声ＡＢの音量を０にして（ミュートして）、入力音声Ａ１（Ａ２）のみを再生することが定められている。

生成部１３ａは、スイッチャー及びミキサー等によって構成される。生成部１３ａは、、Ｓ１３（図８）において、上述のように配信映像Ｖ（図３）を生成し、更に、一以上の入力音声（例：ＡＢ、Ａ１、Ａ２、Ａ３（図１２））の其々を、記憶部１２が記憶している配信情報ＰＦａ（図１２）に含まれている音声記録情報（図１３の破線部）が示す音声記録領域（例：ＲＡＢ、ＲＡ１、ＲＡ２、ＲＡ３（図１２））に記録し、一以上の入力音声の其々が記録された音声記録領域（例：ＲＡＢ、ＲＡ１、ＲＡ２、ＲＡ３（図１２））を有する一の配信音声Ａ（図１２）を生成する。

配信部１４ａは、エンコーダーと前記ネットワークを介して視聴者端末２ａとの間で通信を行う通信インターフェイス回路とによって構成される。配信部１４ａは、Ｓ１４（図８）において、上述のようにＳ１３で生成された配信映像Ｖ（図３）を表す映像データを生成し、更に、Ｓ１３で生成された配信音声Ａ（図１２）を所定の方式（例：ＭＰ３、ＡＡＣ等）で符号化して、配信音声Ａ（図１２）を表す音声データを生成する。

そして、配信部１４ａは、生成した配信映像Ｖを表す映像データ、生成した配信音声Ａを表す音声データ、及び記憶部１２が記憶している当該配信映像Ｖに関連する配信情報ＰＦａ（図１３）を、前記ネットワークを介して配信する。

（視聴者端末２ａの構成と動作）
一方、視聴者端末２ａは、配信サーバ１ａから、配信映像Ｖを表す映像データ及び配信映像Ｖに関連する配信情報ＰＦａを取得し、更に、配信音声Ａを取得する。視聴者端末２ａは、上述のように、取得した映像データが表す配信映像Ｖを、取得した配信情報ＰＦに基づき、所定の映像表示領域ＶＤＡ（図４）に表示し、更に、取得した配信情報ＰＦに基づき、配信音声Ａを再生する。

具体的には、視聴者端末２ａは、第一実施形態で説明した前記情報通信装置と、サラウンドスピーカーやヘッドフォン等のスピーカーと、一以上の音声トラックに記録されている一以上のチャンネル数の音声を、其々、所定の音量で同時に前記スピーカーに出力させることが可能な音声出力装置と、によって構成される。

視聴者端末２ａは、図１１に示すように、第一実施形態で説明した表示部２１、操作部２２、設定部２５、表示制御部２６、受付部２７、選択部２８、適用部２９、映像選択部２０、姿勢検出部９１及び視点検出部９２として機能する。また、視聴者端末２ａは、更に、取得部２３ａ、抽出部２４ａ、及び再生部３１として機能する。

取得部２３ａは、前記マイクロコンピューター及び前記通信インターフェイス回路によって構成される。取得部２３ａは、配信サーバ１ａと通信を行うことにより、Ｓ２１（図９）において、配信部１４ａによって配信された配信情報ＰＦａ（図１２）を取得し、Ｓ２２（図９）において、配信映像Ｖを表す映像データを取得し、更に、配信音声Ａを表す音声データを取得する。

抽出部２４ａは、前記デコーダー及び前記マイクロコンピューターによって構成される。抽出部２４ａは、Ｓ２３（図９）において、上述のように、配信映像Ｖに含まれる複数の入力映像の其々を個別に分割して抽出し、更に、Ｓ２２（図９）で取得された音声データを復号化して配信音声Ａ（図１２）を生成する。そして、抽出部２４ａは、前記生成した配信音声Ａ（図１２）から、Ｓ２２（図９）で取得部２３ａが取得した配信情報ＰＦａ（図１２）に含まれている音声記録情報が示す音声記録領域ＲＡ（例：ＲＡＢ、ＲＡ１、ＲＡ２、ＲＡ３（図１２、図１３））に記録されている、一以上の入力音声（例：ＡＢ、Ａ１、Ａ２、Ａ３（図１２））の其々を個別に分割して抽出する。

再生部３１は、前記スピーカーと前記音声出力装置によって構成される。再生部３１は、Ｓ２５（図９）の後且つＳ２６（図９）の実行前に、Ｓ２３（図９）において抽出部２４ａが抽出した一以上の入力音声のうち、Ｓ２２（図９）で取得部２３ａが取得した配信情報ＰＦａ（図１３）に含まれている再生情報（図１３の二点鎖線部）によって、再生方法「Ｎｏｒｍａｌ」で再生することが定められた入力音声（例：ＡＢ（図１２））を再生する。

この構成によれば、例えば、背景映像として定められた入力映像（例：ＶＢ（図２、図３））が配信映像Ｖ（図３）に含まれている場合、当該入力映像に対応付けられた入力音声（例：ＡＢ（図１２））を再生方法「Ｎｏｒｍａｌ」で再生することを定めた再生情報を配信情報ＰＦａに含めることで、当該入力音声を、前記入力映像が背景映像として表示されている場合に再生することができる。

また、Ｓ３６（図１０）において、映像選択部２０によって視聴者による一の入力映像の選択が受け付けられたとする（Ｓ３６；ＹＥＳ）。そして、当該一の入力映像が、Ｓ２２（図９）で取得された配信情報ＰＦａ（図１３）に含まれている再生情報（図１３の二点鎖線部）によって、再生方法「ＳｅｌｅｃｔｅｄＭｉｘ」で再生することが定められた入力音声（例：Ａ３（図１２））に対応する入力映像（例：Ｖ３（図３））であったとする。

この場合、再生部３１は、Ｓ３６で選択された入力映像（例：Ｖ３（図３））に対応する入力音声（例：Ａ３（図１２））を所定の第一音量で再生し、Ｓ２５（図９）の後且つＳ２６（図９）の実行前に再生した、再生方法「Ｎｏｒｍａｌ」で再生することが定められた入力音声（例：ＡＢ（図１２））の音量を、第一音量よりも小さい第二音量に変更する。

この構成によれば、例えば、背景映像として定められた第一の入力映像（例：ＶＢ（図２、図３））とこれに重畳して表示されるサブ映像として定められた第二の入力映像（例：Ｖ３（図２、図３））とが配信映像Ｖに含まれているとする。この場合に、第一の入力映像に対応付けられた第一の入力音声（例：ＡＢ（図１２））を再生方法「Ｎｏｒｍａｌ」で再生することを定め、第二の入力映像に対応付けられた第二の入力音声（例：Ａ３（図１２））を再生方法「ＳｅｌｅｃｔｅｄＭｉｘ」で再生することを定めた再生情報を、配信情報ＰＦａ（図１３）に含めることができる。

これにより、視聴者は、第一の入力映像が背景映像として表示されている場合に、第一の入力音声を聞くことができる。その後、視聴者は、第二の入力映像（例：Ｖ３（図１３））を選択することで、第一の入力音声よりも大きい音量で、第二の入力映像に対応付けられた第二の入力音声（例：Ａ３（図１２））を再生させ、第二の入力音声を第一の入力音声（例：ＡＢ（図１２））よりも聞き易くすることができる。

また、Ｓ３６（図１０）において、映像選択部２０によって視聴者による一の入力映像の選択が受け付けられたとする（Ｓ３６；ＹＥＳ）。そして、当該一の入力映像が、Ｓ２２（図９）で取得された配信情報ＰＦａ（図１３）に含まれている再生情報（図１３の二点鎖線部）によって、再生方法「ＳｅｌｅｃｔｅｄＯｎｌｙ」で再生することが定められた入力音声（例：Ａ１（Ａ２）（図１２））に対応する入力映像（例：Ｖ１（Ｖ２）（図３））であったとする。

この場合、再生部３１は、Ｓ２５（図９）の後且つＳ２６（図９）の実行前に再生した、再生方法「Ｎｏｒｍａｌ」で再生することが定められた入力音声（例：ＡＢ（図１２））の音量を０にして（ミュートして）、Ｓ３６で選択された入力映像（例：Ｖ１（Ｖ２）（図３））に対応する入力音声（例：Ａ１（Ａ２）（図１２））のみを所定の音量で再生する。

この構成によれば、例えば、背景映像として定められた第一の入力映像（例：ＶＢ（図２、図３））とこれに重畳して表示されるサブ映像として定められた第三の入力映像（例：Ｖ１、Ｖ２（図２、図３））とが配信映像Ｖに含まれているとする。この場合に、第一の入力映像に対応付けられた第一の入力音声（例：ＡＢ（図１２））を再生方法「Ｎｏｒｍａｌ」で再生することを定め、第三の入力映像に対応付けられた第三の入力音声（例：Ａ１、Ａ２（図１２））を再生方法「ＳｅｌｅｃｔｅｄＯｎｌｙ」で再生することを定めた再生情報を、配信情報ＰＦａ（図１３）に含めることができる。

これにより、視聴者は、第一の入力映像が背景映像として表示されている場合に、第一の入力音声を聞くことができる。その後、視聴者は、第三の入力映像（例：Ｖ１、Ｖ２（図２、図３））を選択することで、第三の入力音声（例：Ａ１、Ａ２（図１２））のみを再生させ、第三の入力音声を注力して聞くことができる。

このように、第二実施形態の構成によれば、視聴者端末２ａにおいて配信サーバ１ａから取得した配信音声Ａ（図１２）及び配信情報ＰＦａ（図１３）を用いて、配信映像Ｖ（図３）の表示中に再生され得る一以上の入力音声（例：ＡＢ、Ａ１、Ａ２、Ａ３（図１２））が個別に分割されて抽出される。そして、抽出された一以上の入力音声の其々が、配信情報ＰＦａに含まれている再生情報が示す再生方法で再生される。このため、一以上の入力音声の其々を、配信サーバ１ａに負担をかけることなく、各入力音声固有の再生方法で再生することができる。

（変形実施形態）
尚、上記第一及び第二実施形態は、本発明に係る実施形態の例示に過ぎず、本発明を上記第一及び第二実施形態に限定する趣旨ではない。例えば、以下に示す変形実施形態であってもよい。

（１）視聴者端末２、２ａが、視点検出部９２（図１、図１１）として機能しないようにしてもよい。つまり、映像選択部２０（図１、図１１）が、視聴者が操作部２２（図１、図１１）を用いて、映像表示領域ＶＤＡに表示されている複数の入力映像の中から一の入力映像を選択操作した場合にのみ、当該一の入力映像の選択を受け付けるようにしてもよい。

（２）再生情報（図１３の二点鎖線部）において、再生方法「ＳｅｌｅｃｔｅｄＯｎｌｙ」を定められないようにしてもよい。更に、再生情報において、再生方法「ＳｅｌｅｃｔｅｄＭｉｘ」を定められないようにしてもよい。

（３）視聴者端末２、２ａが、映像選択部２０及び適用部２９（図１、図１１）として機能しないようにしてもよい。これに合わせて、配信情報ＰＦ（図２）、ＰＦａ（図１３）に、アニメーション情報（図２の一点鎖線部）を含めないようにし、Ｓ３６からＳ３８（図１０）を省略してもよい。

（４）視聴者端末２、２ａが、選択部２８（図１、図１１）として機能しないように構成してもよい。これに合わせて、配信情報ＰＦ（図２）、ＰＦａ（図１３）に、領域追従情報（図２の長破線部）を含めないようにし、Ｓ３４及びＳ３５（図１０）を省略してもよい。

（５）視聴者端末２、２ａが、姿勢検出部９１（図１、図１１）として機能しないようにしてもよい。これに合わせて、Ｓ３１、Ｓ３２及びＳ３３（図１０）を省略してもよい。

（６）配信情報ＰＦ（図２）、ＰＦａ（図１３）に、初期表示情報（図２の二点鎖線部）を含めないようにしてもよい。これに合わせて、例えば、設定部２５が、Ｓ２４（図９）において、映像表示領域ＶＤＡを入力映像の数で均等に分割し、分割後の各領域を各入力映像の表示領域ＤＡとして自動的に設定するようにしてもよい。または、Ｓ２１（図９）で取得された配信情報ＰＦ、ＰＦａに含まれている配置情報（図２の破線部）が示す配置領域ＰＡ（例：ＰＡ１（図２））が、映像表示領域ＶＤＡ（図４）において各入力映像の表示領域ＤＡが配置されている領域を示すものであるとして、設定部２５が、当該配置領域ＰＡを表示領域ＤＡとして設定するようにしてもよい。

つまり、配置領域ＰＡ（例：配置領域ＰＡ１（ｃｌｉｐＸ「０」、ｃｌｉｐＹ「６６６８」、ｃｌｉｐＷ「３３３３」、ｃｌｉｐＹ「３３３３」）（図２））を、映像表示領域ＶＤＡ（図４）の左上隅を基準点とし、映像表示領域ＶＤＡ（図４）における水平方向の位置をＸ座標で示し、映像表示領域ＶＤＡ（図４）における垂直方向の位置をＹ座標で示す二次元座標を用いて定められた表示領域ＤＡとして代用してもよい。

又は、設定部２５が、Ｓ２４（図９）において、表示部２１を制御して、視聴者が複数の入力映像の其々の表示領域ＤＡの編集操作を行うように案内するメッセージ（例：「入力映像の表示領域を編集して下さい。」）を、映像表示領域ＶＤＡ（図４）内に表示させるようにしてもよい。そして、Ｓ２６及びＳ２７（図９）と同じ処理を行うようにしてもよい。

（７）配信サーバ１（１ａ）と視聴者端末２（２ａ）とが前記ネットワークを介して互いに通信できないようにしてもよい。これに合わせて、配信部１４（１４ａ）を、エンコーダーとＤＶＤやＢＤ（ブルーレイディスク）等の記録媒体にデータ及び情報を記録する記録装置とによって構成し、配信部１４（１４ａ）が、Ｓ１４（図８）において、配信映像Ｖ及び配信情報ＰＦ（配信映像Ｖ、配信情報ＰＦａ及び配信音声Ａ）を記録媒体に記録するようにしてもよい。そして、配信映像Ｖの提供者が、当該記録媒体を郵送等で視聴者端末２（２ａ）に提供するようにしてもよい。これにより、配信映像Ｖ及び配信情報ＰＦ（配信映像Ｖ、配信情報ＰＦａ及び配信音声Ａ）を記録媒体で配信するようにしてもよい。

この場合、取得部２３（２３ａ）を、前記マイクロコンピューターとＤＶＤやＢＤ（ブルーレイディスク）等の記録媒体からデータ及び情報を取得する取得装置とによって構成すればよい。そして、当該取得部２３（２３ａ）が、Ｓ２１及びＳ２２（図９）において、前記提供者から提供された記録媒体から、配信映像Ｖ及び配信情報ＰＦ（配信映像Ｖ、配信情報ＰＦａ及び配信音声Ａ）を取得するように構成すればよい。

１００、１００ａ映像配信システム
１、１ａ配信サーバ
１２記憶部
１３、１３ａ生成部
１４、１４ａ配信部
２、２ａ視聴者端末
２０映像選択部
２１表示部
２３、２３ａ取得部
２４、２４ａ抽出部
２５設定部
２６表示制御部
２７受付部
２８選択部
２９適用部
３１再生部
９１姿勢検出部
９２視点検出部
ＤＡ表示領域
ＰＡ配置領域
ＰＦ、ＰＦａ配信情報
Ｖ配信映像
ＶＢ、Ｖ１〜Ｖ４入力映像
ＶＡ映像領域
ＶＢａ、ＶＢｂ仮想空間映像
ＶＤＡ映像表示領域
Ａ配信音声
ＡＢ、Ａ１〜Ａ４入力音声
ＲＡ音声記録領域

Claims

複数の入力映像を一の映像領域内に配置して合成し、前記映像領域全体が表す配信映像を配信する配信サーバと視聴者端末とを備えた映像配信システムであって、
前記配信サーバは、
前記映像領域における前記複数の入力映像の其々の配置領域を定めた配置情報を含む配信情報を記憶する記憶部と、
前記複数の入力映像の其々を前記配置情報が示す前記配置領域に配置して合成し、前記映像領域全体が表す前記配信映像を生成する生成部と、
前記配信映像及び前記配信情報を配信する配信部と、
を備え、
前記視聴者端末は、
所定の映像表示領域に映像を表示する表示部と、
前記配信部が配信する前記配信映像及び前記配信情報を取得する取得部と、
前記取得部が取得した前記配信映像から、前記取得部が取得した前記配信情報に含まれている前記配置情報が示す前記配置領域に配置されている、前記複数の入力映像の其々を個別に分割して抽出する抽出部と、
前記映像表示領域における前記複数の入力映像の其々の表示領域を設定する設定部と、
前記表示部を制御して、前記抽出部が抽出した前記複数の入力映像の其々を前記設定部が設定した前記表示領域に表示させる表示制御部と、
を備える映像配信システム。
前記配信情報は、前記表示領域の初期配置を定めた初期表示情報を更に含み、
前記設定部は、前記取得部が取得した前記配信情報に含まれている前記初期表示情報が示す前記初期配置の通りに前記表示領域を設定する
請求項１に記載の映像配信システム。
前記視聴者端末は、
視聴者による前記表示領域の編集操作を受け付ける受付部を更に備え、
前記設定部は、前記受付部が受け付けた前記編集操作で編集された前記表示領域によって、前記受付部による前記編集操作の受け付け前に設定した前記表示領域を更新する
請求項１又は２に記載の映像配信システム。
前記表示領域の編集操作には、前記表示領域を拡大及び縮小する操作が含まれる
請求項３に記載の映像配信システム。
前記表示領域の編集操作には、前記表示領域を移動する操作が含まれる
請求項３又は４に記載の映像配信システム。
前記表示領域の編集操作には、前記表示領域を削除する操作が含まれる
請求項３から５の何れか一項に記載の映像配信システム。
前記複数の入力映像には、所定の撮影視点から全方位を撮影して得られた全方位映像が含まれ、
前記視聴者端末は、視聴者が意図する前記映像表示領域の姿勢を検出する姿勢検出部を更に備え、
前記表示制御部は、前記全方位映像に含まれている、前記撮影視点から前記姿勢検出部が検出した前記姿勢と同じ姿勢の平面に直交する方向を撮影方向として撮影して得られた仮想空間映像を、前記表示部を制御して、前記全方位映像の前記表示領域に表示させる
請求項１から６の何れか一項に記載の映像配信システム。
前記視聴者端末は、前記設定部によって、前記表示領域を、前記映像表示領域の姿勢の変化に応じて移動させるか否かの選択を受け付ける選択部を更に備える
請求項１から７の何れか一項に記載の映像配信システム。
前記配信情報は、前記複数の入力映像の其々が選択された場合に適用するアニメーション効果とその適用先の入力映像とを定めたアニメーション情報を更に含み、
前記視聴者端末は、
視聴者による前記複数の入力映像に含まれている一の入力映像の選択を受け付ける映像選択部と、
前記映像選択部によって前記一の入力映像の選択が受け付けられた場合に、前記取得部が取得した前記配信情報に含まれている前記アニメーション情報が示す通りに、前記一の入力映像が選択された場合に適用する前記アニメーション効果を、前記適用先の入力映像に適用する適用部と、
を更に備える
請求項１から８の何れか一項に記載の映像配信システム。
前記配信情報は、前記配信映像の表示中に再生され得る一以上の入力音声の其々を記録する音声記録領域を定めた音声記録情報と、前記一以上の入力音声の其々の再生方法を定めた再生情報と、を更に含み、
前記生成部は、更に、前記一以上の入力音声の其々を前記音声記録情報が示す前記音声記録領域に記録して、前記一以上の入力音声の其々が記録された前記音声記録領域を有する一の配信音声を生成し、
前記配信部は、更に、前記配信音声を配信し、
前記取得部は、更に、前記配信音声を取得し、
前記抽出部は、更に、前記取得部が取得した前記配信音声から、前記取得部が取得した前記配信情報に含まれている前記音声記録情報が示す前記音声記録領域に記録されている、前記一以上の入力音声の其々を個別に分割して抽出し、
前記視聴者端末は、
前記抽出部が抽出した前記一以上の入力音声の其々を、前記取得部が取得した前記配信情報に含まれている前記再生情報が示す前記再生方法で再生する再生部を更に備える
請求項１から９の何れか一項に記載の映像配信システム。
前記配信情報において、前記一以上の入力音声の其々は、前記複数の入力映像のうちの一の入力映像に対応付けられ、
前記再生方法には、前記一以上の入力音声のうちの第一の入力音声に対応付けられた第一の入力映像が前記映像表示領域に表示された場合に、前記第一の入力音声を再生する第一再生方法が含まれる
請求項１０に記載の映像配信システム。
前記視聴者端末は、
視聴者による前記複数の入力映像に含まれている一の入力映像の選択を受け付ける映像選択部を含み、
前記再生方法には、前記一以上の入力音声のうちの第二の入力音声に対応付けられた第二の入力映像の選択が前記映像選択部によって受け付けられた場合に、前記第二の入力音声を所定の第一音量で再生し、前記一以上の入力音声のうち、前記再生情報において前記第一再生方法で再生することが定められた入力音声を、前記第一音量よりも小さい第二音量で再生する第二再生方法が含まれる
請求項１１に記載の映像配信システム。
前記視聴者端末は、
視聴者による前記複数の入力映像に含まれている一の入力映像の選択を受け付ける映像選択部を含み、
前記再生方法には、前記一以上の入力音声のうちの第三の入力音声に対応付けられた第三の入力映像の選択が前記映像選択部によって受け付けられた場合に、前記第三の入力音声のみを再生する第三再生方法が含まれる
請求項１１又は１２に記載の映像配信システム。
前記視聴者端末は、
前記映像表示領域における前記視聴者の視点を検出する視点検出部を更に備え、
前記映像選択部は、前記視点検出部によって検出された前記視点が前記表示領域に存在する場合に、当該表示領域に表示されている前記入力映像の選択を受け付ける
請求項９、１２及び１３の何れか一項に記載の映像配信システム。