JP7365212B2

JP7365212B2 - 動画再生装置、動画再生システム、および動画再生方法

Info

Publication number: JP7365212B2
Application number: JP2019218746A
Authority: JP
Inventors: 充弘岡田
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-10-19
Anticipated expiration: 2039-12-03
Also published as: JP2021090118A; US20220408140A1; WO2021111988A1

Description

本発明は、ネットワークを利用して動画像を再生する動画再生装置、画像再生システム、および動画再生方法に関する。

画像処理技術の進歩やネットワーク環境の拡充により、用いる端末や環境によらず様々な動画像を気軽に楽しめるようになっている。動画像をストリーミング配信するサービスも普及し、様々な規格が策定されている。例えばＨＬＳ（HTTP Live Streaming）によれば、配信サーバは、動画像を数秒から数十秒の所定の長さで区切ってなるセグメントのデータと、そのデータの格納場所や再生順序などを規定するプレイリスト（またはインデックスファイル）を提供する。クライアントはまずプレイリストを取得し、必要なセグメントデータをサーバに要求することにより動画を再生する（例えば、特許文献１参照）。同様の規格としてＭＰＥＧ－ＤＡＳＨ（Dynamic Adaptive Streaming over HTTP）やＣＭＡＦ（Common Media Application Format）などがある（例えば、特許文献２、３参照）。

特開２０１８－９３３４９号公報特開２０１７－１０８２１７号公報国際公開第２０１７／２０４１０９号

動画のストリーミング配信は、複数のクライアントで共通の動画を鑑賞できるようにすることを基本としている。一方、上記のような技術により、ランダムアクセスでの再生や、ネットワーク環境に応じた画質レベルの切り替えなど、クライアント個々の事情に合わせた柔軟性も実現されつつある。今後、視聴者それぞれの好みや意図に応じて、より多様な操作を可能にすることが望まれる。

本発明はこうした課題に鑑みてなされたものであり、その目的は、ストリーミング配信される動画像に対するユーザ操作を好適に実現する技術を提供することにある。

本発明のある態様は動画再生装置に関する。この動画再生装置は、サーバからストリーム転送される、同じ空間を表す複数の動画像のデータを取得するデータ取得部と、複数の動画像のうち１つから音声データを取得し、別の動画像から画像データを取得するデータ分離部と、音声データと前記画像データを同期させて出力する出力制御部と、を備えたことを特徴とする。

本発明の別の態様は動画再生システムに関する。この動画再生システムは、同じ空間を表す複数の動画像のデータをストリーム転送するサーバと、複数の動画像のデータを用いて動画像をディスプレイに出力する動画再生装置と、を備え、動画再生装置は、サーバから複数の動画像のデータを取得するデータ取得部と、複数の動画像のうち１つから音声データを取得し、別の動画像から画像データを取得するデータ分離部と、音声データと前記画像データを同期させて出力する出力制御部と、を備えたことを特徴とする。

本発明のさらに別の態様は動画再生方法に関する。この動画再生方法は動画再生装置が、サーバからストリーム転送される、同じ空間を表す複数の動画像のデータを取得するステップと、複数の動画像のうち１つから音声データを取得し、別の動画像から画像データを取得するステップと、音声データと画像データを同期させてディスプレイに出力するステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によると、ストリーミング配信される動画像に対するユーザ操作を好適に実現できる。

本実施の形態を適用できる動画再生システムを例示する図である。本実施の形態で動画再生装置にストリーミング配信される動画像の例を説明するための図である。本実施の形態において配信対象とする動画像のデータ構造を説明するための図である。画像と音声の同期を実現するためのシステムの構成を示す図である。本実施の形態における動画再生装置の内部回路構成を示す図である。本実施の形態における動画再生装置および動画配信サーバの機能ブロックの構成を示す図である。本実施の形態における画像と音声の出力の流れを例示する図である。本実施の形態において表示画像を切り替える際の動画再生装置の処理手順を示すフローチャートである。図７の制御方式で切り替えに時間を要するケースの、画像と音声の出力の流れを例示する図である。本実施の形態において、表示中の画像以外の画像を常に出力可能な状態にした場合の、画像と音声の出力の流れを例示する図である。本実施の形態において音声出力に与える遅延時間を適応的に決定する場合の、画像と音声の出力の流れを例示する図である。本実施の形態において音声出力に与える遅延時間を適応的に決定する場合の、画像と音声の出力の流れを例示する図である。本実施の形態において、１つのコンテンツを構成する複数の動画像の時間軸がずれを有する例を模式的に示す図である。本実施の形態における動画再生装置が、動画配信サーバが提供する動画像の時間ずれに対応するように出力タイミングを調整する際の、画像と音声の出力の流れを例示する図である。

図１は本実施の形態を適用できる動画再生システムを例示している。図示する動画再生システムは複数の動画再生装置１０ａ、１０ｂ、１０ｃ、・・・がネットワーク８を介して動画配信サーバ１２に接続した構成を有する。動画再生装置１０ａ、１０ｂ、１０ｃ、・・・はそれぞれ、ユーザが操作するクライアント端末であり、入力装置１４ａ、１４ｂ、１４ｃ・・・と、ディスプレイ１６ａ、１６ｂ、１６ｃ、・・・が有線または無線で接続される。

以後、動画再生装置１０ａ、１０ｂ、１０ｃ、・・・を動画再生装置１０、入力装置１４ａ、１４ｂ、１４ｃ・・・を入力装置１４、ディスプレイ１６ａ、１６ｂ、１６ｃ、・・・をディスプレイ１６と総称する場合がある。動画再生装置１０、入力装置１４、ディスプレイ１６は、図示するようにそれぞれが別の筐体を有していてもよいし、それらの２つ以上が一体的に設けられていてもよい。例えば動画再生装置１０、入力装置１４、ディスプレイ１６を一体的に備える携帯端末などであってもよい。

またディスプレイ１６はテレビ受像器など一般的な平板型ディスプレイでもよいし、ヘッドマウントディスプレイなどのウェアラブルディスレプレイでもよい。いずれにしろディスプレイ１６は、画像を表示させる表示パネルと、音声を出力するスピーカを備えるものとする。ただしスピーカーは、ディスプレイ１６とは別に設けてもよい。動画再生装置１０は、パーソナルコンピュータ、ゲーム機、コンテンツ再生装置などのいずれでもよい。ネットワーク８はインターネットやＬＡＮ（Local Area Network）など、その規模は限定されない。

いずれにしろ本実施の形態では、ユーザ操作に基づき動画再生装置１０が動画配信サーバ１２へ動画像の配信を要求し、動画配信サーバ１２が要求された動画像をストリーミング配信することを基本とする。その限りにおいて、用いられる通信プロトコル、動画再生装置１０の形態、動画配信サーバ１２の構成などは特に限定されない。例えば動画配信サーバ１２は、録画済みの動画像を配信してもよいし、撮影中あるいは作成中の動画像をライブ配信してもよい。この際、動画配信サーバ１２は、別のコンテンツ提供サーバと接続し、動画像のデータを取得したうえで動画再生装置１０に送信してもよい。

図２は、本実施の形態で動画再生装置１０にストリーミング配信される動画像の例を説明するための図である。この例では、コンサート会場１８に複数のカメラ２０ａ、２０ｂを設置し、コンサートの様子を異なる方向から撮影して動画配信することを想定している。例えばコンサートの開始から終了までを、複数のカメラ２０ａ、２０ｂで並行して撮影することにより、共通の時間軸で視野の異なる複数の動画像が取得される。

動画配信サーバ１２は、そのような複数の動画像のうちいずれかを動画再生装置１０に配信するとともに、視野の異なる動画像への配信対象の切り替えを、動画再生装置１０から随時受け付ける。すなわち本実施の形態では、動画再生中の任意のタイミングで、別の視野の画像へ表示を切り替えることを可能にする。これにより動画再生装置１０側で動画像を見ているユーザは、自分が見たい演者をメインに撮影した動画や、会場全体を俯瞰した動画などを、コンサートの進行状況などに応じて自由に切り替えることができる。

なお同一空間を異なる視野で表した動画像であれば、表示対象や表示目的は特に限定されない。例えば図示するようなコンサートの映像のほか、スポーツ競技や各種イベントなどの映像でもよいし、実写画像に限らず、仮想空間を別の視野で表したコンピュータグラフィクスなどでもよい。また共通の時間軸上で同期がとれていれば、一部の期間のみ別の視野の動画像へ切り替えられるようにしてもよく、切り替え可能な動画像の数も限定されない。

図３は、本実施の形態において配信対象とする動画像のデータ構造を説明するための図である。なお以後の説明において、「動画像」は画像と音声を含むものとする。また、切り替え可能な複数の動画像のまとまりを「コンテンツ」とする。上述のとおり本実施の形態では、１つの空間を表す、視野の異なる動画像を複数準備することにより、動画再生装置１０において表示される視野を任意のタイミングで切り替えられるようにする。この際、表示上の画像を切り替えても、音声については１つの動画像のものを出力しつづけるようにすることで、シームレスな切り替えを実現する。

例えば音声再生用の動画像と表示用の複数の動画像を別に準備し、前者の音声を出力する一方、後者のうちいずれかの画像を表示する。視野の切り替え操作に対しては、後者のうちいずれかの画像に表示対象を切り替える。あるいは表示用の複数の動画像のうちいずれか１つを、音声再生用として兼用してもよい。以後の説明では、音声再生用の動画像を別途準備する態様に主眼を置く。この場合、当該動画像の画像自体は表示されないため、低ビットレートで表すことによりデータサイズを抑えることができる。

一方、表示用、音声再生用に関わらず同様のデータ構造の動画像として準備することにより、動画配信サーバ１２は、従来と同様のプロトコルでデータ送信が可能となる。ここで各動画像のデータは、数秒から数十秒程度の所定時間ごとに分割した状態で保持、送信される。以後、分割後のデータのそれぞれを「セグメントデータ」と呼ぶ。動画配信サーバ１２は、動画像ごとに、それを分割してなる複数のセグメントデータと、各セグメントデータの定義情報であるプレイリストを生成する。

図において、音声再生用の動画像のプレイリスト１３２は、音声再生用のセグメントデータ１３６のそれぞれの格納場所、再生時間、再生順序などを定義する。同様に複数の表示用動画像のプレイリスト１３４ａ、１３４ｂはそれぞれ、表示用のセグメントデータ１３８ａ、１３８ｂのそれぞれの格納場所、再生時間、再生順序などを定義する。録画済みの動画の場合、各プレイリストは静的なデータである。撮影中の動画の場合、時間経過に対し新たなセグメントデータが発生し、それに応じて各プレイリストが更新される。

動画配信サーバ１２はさらに、それらの動画像を対応づけ、１つのコンテンツとして定義するインデクスファイル１３０を生成する。インデクスファイル１３０は、コンテンツの内容、当該コンテンツとして準備されている複数の動画像のプレイリスト１３２、１３４ａ、１３４ｂの格納場所や視野情報など、各動画像に係る情報を記載する。動画像を時分割して配信する技術として、ＨＬＳ、ＭＰＥＧ－ＤＡＳＨ、ＣＭＡＦなどいくつかの規格が実用化されており、本実施の形態ではそのいずれを採用してもよい。規格によって、準備するファイルの呼称や記載形式が様々であることは当業者には理解されるところである。

いずれにしろ本実施の形態で動画配信サーバ１２は、動画再生装置１０が指定するコンテンツのうち、音声再生用の動画像のデータと、要求された視野の表示用の動画像のデータを、インデクスファイル１３０、プレイリスト１３２、１３４ａ、１３４ｂを辿ることにより特定し、送信する。詳細には動画配信サーバ１２はまず、必要な動画像のプレイリストを動画再生装置１０に送信し、そのうち必要な時間におけるセグメントデータを指定した送信要求を受け付けることにより、当該セグメントデータを動画再生装置１０に送信する。

各セグメントデータは、所定時間ごとの画像データと音声データを含む。動画配信サーバ１２は、送信対象のセグメントデータを時系列順にパケット化して送信する。詳細には図の右側に示すように、画像データのパケットと音声データのパケットが、多重ストリームの形式で順番に送出される。本実施の形態では特に、音声再生用の動画像のデータ列（ストリーム）１３８が継続的に送信される一方、表示用の動画像のデータ列１３９ａ、１３９ｂは、ユーザによる切り替え操作に応じて切り替えて送信される。

一方、動画再生装置１０は、要求した動画像のパケットを順次取得すると、画像と音声にずれが生じないように、両者を同期させて出力する。本実施の形態では、異なる動画像の画像と音声を組み合わせて出力するが、その同期のさせ方には、１つの動画像の画像と音声を同期させる従来のしくみを利用できる。図４は、画像と音声の同期を実現するためのシステムの構成を示している。まず動画配信サーバ１２側では、自らが有するＳＴＣ（System Time Clock）をベースとして、画像および音声の出力タイミングを規定するＰＴＳ（Presentation Time Stamp）を生成し、それぞれのセグメントデータに付与する。

動画配信サーバ１２はまた、ＳＴＣをベースとした所定周期でのカウンタ値を表すＰＣＲ（Program Clock Reference）を生成する。動画配信サーバ１２のシステム符号化部１４０は、画像や音声のセグメントデータとそれぞれのＰＴＳ、および所定周期でのＰＣＲを含めたパケットの列からなる多重化ストリームを生成し、動画再生装置１０に送信する。動画再生装置１０のシステム復号部１４２は、送信された多重化ストリームからそれらのデータを分離する。そしてＳＴＣ再生部１４４は、各パケットの受信時刻とＰＣＲが示すカウンタ値を対応づけるように発振器の周波数を調整することによりＳＴＣを再生する。

これにより動画再生装置１０は、動画配信サーバ１２と共通化された時間軸上での動作を実現する。具体的には動画再生装置１０は、当該時間軸上でのＰＴＳにおいて、対応する画像および音声が出力されるように、バッファ１４６ａ、１４６ｂによって各データの出力タイミングを調整する。１つのコンテンツを構成する全ての動画像に対し同じ時間軸でのＰＴＳが付与されていれば、それに基づき出力タイミングを調整することで、異なる動画像であっても画像と音声をずれなくディスプレイ１６に出力できる。なお本図では、データの符号化処理と復号処理については図示を省略している。

図５は、動画再生装置１０の内部回路構成を示している。動画再生装置１０は、ＣＰＵ（Central Processing Unit）２３、ＧＰＵ（Graphics Processing Unit)２４、メインメモリ２６を含む。これらの各部は、バス３０を介して相互に接続されている。バス３０にはさらに入出力インターフェース２８が接続されている。入出力インターフェース２８には、ＵＳＢやＩＥＥＥ１３９４などの周辺機器インターフェースや、有線又は無線ＬＡＮのネットワークインターフェースからなり、動画配信サーバ１２と通信を確立する通信部３２、ハードディスクドライブや不揮発性メモリなどの記憶部３４、ディスプレイ１６へデータを出力する出力部３６、入力装置１４からデータを入力する入力部３８、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部４０が接続される。

ＣＰＵ２３は、記憶部３４に記憶されているオペレーティングシステムを実行することにより動画再生装置１０の全体を制御する。ＣＰＵ２３はまた、リムーバブル記録媒体から読み出されてメインメモリ２６にロードされた、あるいは通信部３２を介してダウンロードされた各種プログラムを実行する。ＧＰＵ２４は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、ＣＰＵ２３からの描画命令に従って描画処理を行い、出力部３６に出力する。メインメモリ２６はＲＡＭ（Random Access Memory）により構成され、処理に必要なプログラムやデータを記憶する。なお動画配信サーバ１２も同様の回路構成としてよい。

図６は、動画再生装置１０および動画配信サーバ１２の機能ブロックの構成を示している。同図に示す各機能ブロックは、ハードウェア的には図５で示したＣＰＵ２３、ＧＰＵ２４、メインメモリ２６などで実現でき、ソフトウェア的には、記録媒体からメモリにロードした、情報処理機能、画像描画機能、データ入出力機能、通信機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

動画配信サーバ１２は、動画再生装置１０からの要求を取得する要求取得部５０、要求に従ったデータを準備するデータ準備部５２、コンテンツのデータを記憶するデータ記憶部５４、および、準備されたデータを動画再生装置１０に送信するデータ送信部５６を含む。要求取得部５０は、表示対象の切り替えを含む、動画像の送信要求を動画再生装置１０から取得する。そのため要求取得部５０は、選択可能なコンテンツやそれを表す画像の視野に係る情報など、動画像の選択に必要な情報をあらかじめ動画再生装置１０に送信してもよい。

データ準備部５２は要求取得部５０と連携し、動画再生装置１０から取得した要求の内容に応じたデータを準備する。データ準備部５２は例えば、選択されたコンテンツに対応するインデクスファイルを取得し、それを表す画像（視野）の選択肢を特定する。この情報を要求取得部５０に与えることにより、動画再生装置１０からさらに、視野を指定した動画像の転送要求を得る。これに応じてデータ準備部５２は、対応するプレイリストを取得し、要求取得部５０を介して動画再生装置１０に送信することで、必要なセグメントデータの要求を受け付ける。

例えば動画像を最初から再生する場合、データ準備部５２は、音声再生用の動画像と、動画再生装置１０が指定した視野の、表示用の動画像のセグメントデータを、それぞれのプレイリストの先頭に記載されているものから順に取得していく。途中で表示対象が切り替えられた場合、データ準備部５２は、音声再生用の動画像については引き続き後続のセグメントデータを取得するとともに、表示用の動画像については、切り替え後の動画像のプレイリストに記載された、対応する時刻以降のセグメントデータを取得する。

データ記憶部５４は図３に示したように、インデクスファイル、複数の動画像のプレイリストおよびそのセグメントデータを、コンテンツごとに格納する。ここで各データは、適宜圧縮符号化されているとする。また撮影中の動画像の場合、それらのデータは随時更新されるが、その更新手段については図示を省略している。データの元となる動画像は、図示しない別のサーバなどから取得してもよく、その取得タイミングは特に限定されない。

データ送信部５６は、データ準備部５２が準備したセグメントデータを順次パケット化して動画再生装置１０に送信する。この際、データ送信部５６は、上述のとおりセグメントデータ単位など所定の単位で、画像および音声のデータにＰＴＳを付与するとともに、周期的にＰＣＲも付与する。データ送信部５６はそのほか、一般的なストリーミング転送において付与される情報を適宜付与してよい。

動画再生装置１０は、ユーザ操作の内容を取得する入力情報取得部６０、動画像のストリームを取得するデータ取得部６２、ストリームからデータを分離するデータ分離部６４、画像データを復号する画像復号部６６、音声データを復号する音声復号部６８、動画像の出力を制御する出力制御部７０を含む。入力情報取得部６０は、コンテンツの選択、表示画像の選択、および途中での表示対象の切り替えなどのユーザ操作の内容を入力装置１４から取得し、必要なデータを動画配信サーバ１２に要求する。

上述のとおり入力情報取得部６０はあらかじめ、選択可能なコンテンツやそれを表す画像に係る情報を動画配信サーバ１２から取得し、出力制御部７０を介してディスプレイ１６に選択肢として表示させてもよい。入力情報取得部６０はまた、音声再生用の動画像や、表示用に選択された動画像のプレイリストを動画配信サーバ１２から取得し、再生開始操作や表示切り替え操作がなされた時刻に対応するセグメントデータを動画配信サーバ１２に要求する。

データ取得部６２は、ユーザ操作に応じて動画配信サーバ１２からストリーミング転送された動画像のデータを継続的に取得していく。当該データには、音声再生用の動画像と表示用の動画像のデータが含まれる。各動画像のストリームには、所定の単位でＰＴＳが付与された、画像データと音声データが含まれる。データ分離部６４は、そのような多重化されたデータを動画像ごとに分離し、さらに画像データと音声データに分離する。動画配信サーバ１２から送信されるストリームには、それらのデータを識別するための情報が含まれる。当該情報を用いたデータ分離には、従来実用化されている手法を適用できる。

画像復号部６６は、分離されたデータのうち、ユーザが選択した表示対象の動画像に含まれる画像データを復号する。音声復号部６８は、分離されたデータのうち、音声再生用の動画像に含まれる音声データを復号する。出力制御部７０は、復号された画像と音声を、適切なタイミングで順次、ディスプレイ１６に出力する。詳細には出力制御部７０は、ＰＴＳ検出部７２、時間調整部７４、画像加工部７６、および出力部７８を含む。ＰＴＳ検出部７２は、出力対象の画像データおよび音声データに付与されているＰＴＳを検出する。

時間調整部７４は、画像と音声にずれが生じないよう出力タイミングを調整する。一般的なストリーミング転送では、図４に示すように、画像と音声のデータがほぼ同時期に送信され、パケット間の僅かな時間差を調整する以外は即時の出力を基本とする。一方、本実施の形態では、異なる動画像に含まれる画像と音声を同期させて出力するとともに、途中で別の動画像に含まれる画像へ表示を切り替えることを許容する。この切り替えにおいても画像と音声の同期を維持しながら、切り替え前後の画像ができるだけ途切れないようにすることにより、１つのコンテンツとしての連続性を表すことができる。

そこで時間調整部７４は、音声再生用動画像の音声の出力を、動画配信サーバ１２からのデータ取得タイミングに対し所定時間遅らせたうえで、そのＰＴＳに合うように画像を出力する。これにより、画像の切り替え操作がなされたときに表示していた画像のＰＴＳと、動画配信サーバ１２から送信される、切り替え後の画像の先頭のＰＴＳの差を小さくできるとともに、出力されつづける音声と当該先頭の画像とのずれが生じないようにできる。時間調整の具体例は後に述べる。

画像加工部７６は、画像の切り替え操作に応じて、表示中の画像をフェードアウトさせるとともに、切り替え後の画像をフェードインさせる加工を行う。これにより、切り替え操作に対しシームレスな表示変化を実現する。出力部７８は、表示用動画像の画像をディスプレイ１６の表示パネルに出力するとともに、音声再生用の動画像の音声を、ディスプレイ１６のスピーカーに出力する。

図７は、本実施の形態における画像と音声の出力の流れを例示している。図の横方向は時間経過を表し、各矩形はセグメントデータの時間長を示している。矩形内の数字はＰＴＳを表象しており、簡易的に同じＰＴＳを同じ値の自然数で表しているが、実際のＰＴＳのフォーマットを限定するものではない。最上段は動画配信サーバ１２において再生されている動画データの流れであり、システムクロックに対する共通のＰＴＳが、１つのコンテンツを表す全ての動画像のセグメントデータに同様に与えられる。

そのように再生された動画像は、並行して複数の動画再生装置１０に配信される。ここである動画再生装置１０が矢印１５０のタイミングで動画配信を要求すると、動画配信サーバ１２は、当該要求を受信した時点で再生中の、ＰＴＳ「１」のセグメントから、動画像データの送信を開始する。図示する例では、まず音声再生用の動画像のデータのみが送信されている。送信要求のタイミング、データ転送、復号処理などに依存して、動画再生装置１０においてＰＴＳ「１」のセグメントデータが出力可能となる時刻ｔ１は、動画配信サーバ１２における対応するデータの再生開始時刻ｔ０より遅延する。

従来技術においては、出力可能となった時刻ｔ１において即時に音声や画像を出力するが、本実施の形態における時間調整部７４は、出力可能となった状態で音声出力を一時停止させたうえ、所定時間後の時刻ｔ２において一時停止を解除し出力を開始させる。この例で一時停止させる時間（ｔ２－ｔ１）は、１つ分のセグメントデータの時間とし、例えば３秒間などである。このように音声の出力に猶予を持たせることにより、後の表示画像の切り替えにおいて、切り替え後の画像が音声に間に合うようにする。

図示する例では、動画配信サーバ１２がまず音声出力用の動画像データのみを送信することにより、時刻ｔ２の時点では、動画再生装置１０からＰＴＳ「１」の音声のみが出力される。ここで動画再生装置１０が第１の表示用の動画像を要求すると、矢印１５２のように、その時点で再生されているＰＴＳ「２」のセグメントから当該表示用動画像のデータが送信される。表示用の動画像についても、送信要求のタイミング、データ転送、復号処理などにより、ＰＴＳ「２」の先頭の画像が出力可能となる時刻ｔ３は、動画配信サーバ１２における対応するデータの再生開始時刻より遅延する。

一方、動画再生装置１０においてＰＴＳ「１」のセグメントの音声出力を所定時間、遅延させたことにより、時刻ｔ３は、ＰＴＳ「２」の音声データの出力開始時刻ｔ４よりは前になる。そこで時間調整部７４は、ＰＴＳ「２」の第１の画像が出力可能となった状態で一時停止させたうえ、ＰＴＳ「２」の音声データの出力が開始される時刻ｔ４で、同じＰＴＳ「２」の第１の画像の出力を開始させる。これにより、元の動画像データが異なっていても、画像と音声にずれのない状態で動画像を表すことができる。また図示するように後から画像のデータを取得しても、先に出力していた音声に間に合わせることができる。

なお画像の出力開始に当たっては、画像加工部７６がフェードインさせることにより唐突感を軽減させる。このようにして画像と音声を出力している状態で、時刻ｔ５において、ユーザが別の画像へ表示を切り替える操作を行ったら、動画再生装置１０は、新たに選択された第２の表示用の動画像を動画配信サーバ１２に要求するとともに、それまで表示していた第１の画像の出力を適当なタイミングで停止させる。この際、画像加工部７６は第１の画像をフェードアウトさせる。

図示する例では、ＰＴＳ「４」の画像がフェードアウトする。一方、動画配信サーバ１２からは矢印１５４のように、要求された時点で再生中のＰＴＳ「６」のセグメントから、切り替え後の表示用動画像のデータが送信される。ここでも動画再生装置１０においてＰＴＳ「１」のセグメントの音声出力を所定時間、遅延させたことにより、第２の動画像のうちＰＴＳ「６」の先頭の画像が出力可能となる時刻ｔ６は、ＰＴＳ「６」の音声データの出力開始時刻ｔ７よりは前になる。

そこで時間調整部７４は、ＰＴＳ「６」の音声データの出力が開始される時刻ｔ７まで、ＰＴＳ「６」の第２の画像の出力を一時停止させる。そして時刻ｔ７において一時停止を解除し、画像加工部７６、出力部７８により、ＰＴＳ「６」の第２の画像をフェードインさせながら出力を開始する。以後同様に、表示対象を切り替える操作がなされる都度、表示中の画像をフェードアウトさせ、切り替え後の画像を出力可能な状態で一時停止させたうえで、同じＰＴＳの音声が出力されるのを待ってフェードインさせる。

図８は、表示画像を切り替える際の動画再生装置１０の処理手順を示すフローチャートである。このフローチャートは、音声再生用の動画像から得られる音声と、表示用の動画像から得られる画像をディスプレイ１６に出力している状態において開始される。この状態で入力情報取得部６０は、表示画像を切り替えるユーザ操作を待機する（Ｓ１０のＮ）。当該ユーザ操作がなされたら（Ｓ１０のＹ）、出力制御部７０は出力中の画像をフェードアウトさせて出力を停止する（Ｓ１２）。

一方、入力情報取得部６０が、送信対象の表示用動画像の切り替えを動画配信サーバ１２に要求することにより、データ取得部６２は、切り替え後の動画像データのうち、動画配信サーバ１２において要求時に再生されていたセグメントからデータ取得を開始する（Ｓ１４）。そして画像復号部６６は、当該動画像データから取り出された画像のセグメントデータの復号を開始する（Ｓ１６）。出力制御部７０は、復号された画像の出力を一時停止させるとともに（Ｓ１８）、そのＰＴＳを検出する（Ｓ２０）。

そして出力制御部７０は、検出したＰＴＳと、出力中の音声のＰＴＳを比較をしていく。両者が異なっているうちは、画像の出力を一時停止させたままとする（Ｓ２２のＮ）。結果として、ディスプレイ１６に何も表示されないブラックアウトの状態が短時間発生し得る。ＰＴＳが一致したら（Ｓ２２のＹ）、出力制御部７０は画像出力の一時停止を解除するとともに（Ｓ２４）、画像をフェードインさせながら表示させる（Ｓ２６）。なおＳ２４の一時停止の解除は厳密には、画像と音声のＰＴＳが一致するタイミングを予測して、その直前に実施してよい。

図７で示した態様は、音声出力を遅延させる時間を、１つ分のセグメント時間に固定していた。この制御方式によれば、動画配信サーバ１２での再生時間と動画再生装置１０での表示時間との間に、少なくとも１セグメント分のずれが生じるため、動画配信サーバ１２から送信される、切り替え後の画像データの先頭は、切り替え操作時に表示されていたセグメントより後のセグメントとなることが保証される。結果として、切り替え後の画像の表示開始が音声に間に合わなくなるのを回避できる。

一方、この制御方式では、表示開始操作のタイミングによっては、動画配信サーバ１２での再生時間と動画再生装置１０での表示時間との間に必要以上のずれが生じ、切り替え後の画像の表示開始までに余計な待機時間を要してしまう可能性がある。図９は、図７の制御方式で切り替えに時間を要するケースの、画像と音声の出力の流れを例示している。図の表し方は図７と同様であるが、この例では、動画配信サーバ１２における動画の再生時間に対し、動画再生装置１０における出力時間の遅延が、図７のケースより大きくなっている。

このようなずれの大きさは、表示開始操作がなされたタイミングによって変化する。すなわち図９の場合、動画配信サーバ１２においてＰＴＳ「１」のセグメントの再生終了間際に開始操作がなされたため、当該セグメントのデータが動画再生装置１０において出力可能となる時刻ｔ９は、動画配信サーバ１２における再生開始時刻ｔ８より、およそ１セグメント分、すでに遅延している。このような場合にも、さらに１セグメント分の固定の遅延時間を与えてから音声出力を開始すると、結果的には動画配信サーバ１２と動画再生装置１０において、動画再生に２セグメント分のずれが生じることになる。

例えば時刻ｔ１０において画像の切り替え操作がなされたとき、動画再生装置１０において第１の画像のＰＴＳ「４」のセグメントが表示されているのに対し、動画配信サーバ１２では、それより２つ後の、ＰＴＳ「６」のセグメントが再生されている。そのため動画再生装置１０は、切り替え後の第２の動画像データのうちＰＴＳ「６」のセグメントからデータを取得せざるを得ない。結果として、当該画像が出力可能になった時刻ｔ１２から、ＰＴＳ「６」の音声データの出力開始時刻ｔ１３までの時間が、１セグメント分の時間より長くなってしまう。

切り替え前の第１の画像の表示は、時刻ｔ１２より前の時刻ｔ１１ですでに停止していることから、時刻ｔ１１から時刻ｔ１３までの比較的長い期間、何も表示されないブラックアウトの状態となる。このような状況を回避するための方策の一つとして、表示中の画像以外の画像を、セグメント単位で常に出力可能な状態にしておくことが考えられる。

図１０は、表示中の画像以外の画像を常に出力可能な状態にした場合の、画像と音声の出力の流れを例示している。図の表し方は図７と同様である。また動画配信サーバ１２から音声再生用の動画像データを取得して所定の遅延時間を設けてから音声を出力し、第１の表示用動画像のデータを取得して音声に対応するタイミングで第１の画像の出力を開始する流れも図７と同様である。一方、この制御方式では、画像の切り替え操作にかかわらず、第２の表示用動画像も並行して取得する。

すなわち動画再生装置１０の入力情報取得部６０は、矢印１５６ａ、１５６ｂ、１５６ｃに示すように、出力中の動画像におけるセグメントの切り替わりのタイミングで、表示されていない第２の表示用動画像のセグメント単位での送信を、動画配信サーバ１２に要求する。そして動画再生装置１０は、画像の切り替え操作がなされないうちは第１の画像の出力を継続するとともに、第２の画像データを投機的に復号し、出力可能な状態にしておく。

図示する例では、第２の画像のうちＰＴＳ「３」の先頭の画像が時刻ｔ１４で出力可能となり、ＰＴＳ「４」の先頭の画像が時刻ｔ１５で出力可能となっている。それぞれの画像の出力は、同じＰＴＳの音声の出力が開始されるまで一時停止とし、その直前のセグメント出力期間に画像を切り替えるユーザ操作がなされなければデータを破棄する。一時停止している第２の画像のＰＴＳの直前のセグメントの出力期間に切り替え操作がなされたら、一時停止を解除して当該第２の画像の出力を開始する。

図示する例では、第２の画像のうちＰＴＳ「５」のデータを一時停止させる一方、その直前のＰＴＳ「４」の第１の画像の出力期間ｔ１６～ｔ１８中の時刻ｔ１７に、画像を切り替える操作がなされたことから、時刻ｔ１８においてＰＴＳ「５」の第２の画像データを破棄せず出力している。この場合も出力制御部７０は、切り替え前の第１の画像のうちＰＴＳ「４」の画像をフェードアウトさせて停止させたうえで、切り替え後の第２の画像をフェードインさせる。

このように、表示対象でない動画像のデータも並行して取得したうえ、セグメントごとに先頭の画像を常に準備しておくことにより、動画配信サーバ１２と動画再生装置１０における出力時間のずれによらず、各セグメントの先頭で切り替えが可能になる。結果として切り替えに要する時間を最小限にできる。一方、この方式では、１つのコンテンツを表す動画像が増えるほど、また、画像の解像度が上がるほど、データ転送や復号処理に負荷がかかることになる。したがって好適には、選択肢となる動画像の数と、通信環境や動画再生装置１０の処理性能などに応じて適用の是非を決定する。

切り替え時間を最小限にする方策の別の例として、音声出力に与える遅延時間を適応的に決定することが考えられる。図１１、１２は、音声出力に与える遅延時間を適応的に決定する場合の、画像と音声の出力の流れを例示している。図の表し方は図７と同様である。この方式では初期処理として、セグメントの先頭データを取得できる最速のタイミングと、表示用動画像の要求から出力可能となるまでの時間を実測する。

このため図１１に示すように、動画再生装置１０において、音声再生用の動画像を要求し、その音声データを復号してＰＴＳの検出を行う機能ブロックを複数、準備する。すなわち入力情報取得部６０、データ取得部６２、データ分離部６４、音声復号部６８、ＰＴＳ検出部７２、時間調整部７４からなる機能ブロックの組を複数設ける。これにより、動画再生装置１０においてＰＴＳが切り替わる最速のタイミングの検出単位を細分化する。図示する例では、当該機能ブロックを２つ準備し、それぞれ「音声第１再生」、「音声第２再生」としている。

まず音声第１再生を行うブロックが、矢印１５８ａのように音声再生用動画像のデータを要求すると、動画配信サーバ１２からはその時点で再生中のＰＴＳ「１」のセグメントからデータが送信される。音声第１再生を行うブロックはその先頭を復号して一時停止させるとともに、ＰＴＳを検出する。その間に、音声第２再生を行うブロックが、矢印１５８ｂのように音声再生用動画像のデータを要求し、動画配信サーバ１２からその時点で再生中のセグメントデータが送信されたら、その先頭を復号して一時停止させＰＴＳを検出する。

図示する例ではこの時点で検出されるＰＴＳも「１」である。このような処理を交互に繰り返すことにより、いずれは検出されるＰＴＳが切り替わる。図では矢印１５８ｃの要求に応じて送信されたデータにおいて、ＰＴＳが「２」に切り替わっている。音声第１再生および音声第２再生の機能ブロックは、ＰＴＳの切り替わりが発生するまで、一時停止させた音声データを破棄しながら、次のデータ要求を繰り返す。そのような機能ブロックを２つ以上準備することにより、切り替わりのタイミングを細かい粒度で検出できる。

さらに動画再生装置１０は、矢印１５８ｄのように表示用の動画像を動画配信サーバ１２に要求し、要求された時点で再生中のセグメントデータを動画配信サーバ１２から取得する。図ではＰＴＳ「２」のデータから送信されている。動画再生装置１０の画像復号部６６は、送信されたデータの復号を開始し、出力制御部７０は先頭画像の出力が可能な状態で一時停止させる。この際、時間調整部７４は、動画配信サーバ１２へのデータ要求から画像の出力が可能になるまでの時間ｔｄを、内部のタイマにより計測する。

図１１は初期処理のみを示しているが、動画再生装置１０はそれに続けて図１２に示すように動画像の出力処理を実施する。すなわち、初期処理により動画配信サーバ１２との時間差が最小の状態で音声再生用動画像を取得できるため、時間調整部７４は、先頭のＰＴＳ「２」のデータを一時停止させた状態で所定時間、停止させる。この際の停止時間は、１つ分のセグメントデータの出力時間に、初期処理で取得した、データ要求から画像の出力が可能になるまでの時間ｔｄを加算した値とする。

表示用の動画像データも初期処理で取得し、時間調整部７４が一時停止させたＰＴＳ「２」の画像を用い、出力部７８がＰＴＳ「２」の音声出力とともに出力する。この制御方式によれば、図１０のように表示対象外の動画像も全て準備せずとも、常に短時間での切り替えを実現できる。すなわち図の「第２画像生成」に示すように、表示の切り替え操作がどのタイミングでなされても、切り替え前のＰＴＳの音声が出力されている期間に、切り替え後のＰＴＳの画像を準備し終えることができ、当該画像を次のＰＴＳの切り替えのタイミングで出力できる。

図示する例では最下段に示すように、動画配信サーバ１２においてＰＴＳ「６」の再生終了間際に切り替え操作がなされても、動画再生装置１０において、同じＰＴＳ「６」の音声出力に、切り替え後の画像出力を間に合わせることができている。したがって、１つのコンテンツを構成する動画像の数や解像度の高さによらず同程度の処理負荷で、最小時間での切り替えが可能になる。なお音声出力に設ける遅延時間には、実際にはいくらかのマージンを加算しておいてもよい。また画像表示の開始や停止において、画像加工部７６がフェードイン、フェードアウトさせる加工を行う点などは上述と同様とする。

なお図１１では第１の表示用画像についてのみ、動画配信サーバ１２にデータを要求してから出力可能となるまでの時間ｔｄを計測したが、コンテンツを構成する全ての表示用動画像について同じ計測を行ってもよい。例えば表示用動画像の画像サイズやビットレートが異なる場合、データを要求してから出力可能となるまでの時間が異なることが考えられる。この場合、動画像ごとに測定した時間ｔｄのうち最も長い時間を採用して、音声出力に与える遅延時間に加算することにより、切り替え後の画像を音声に間に合わせることを保証できる。

さらにネットワーク８の状況によっては、同じ動画像であっても、動画配信サーバ１２にデータを要求してから出力可能となるまでの時間ｔｄが変動することが考えられる。そのため時間ｔｄを複数回測定するか、定期的に測定し、最も長い時間を採用して、音声出力に与える遅延時間に加算してもよい。例えばストリーミング転送中にネットワーク８の状況が悪化したら、動画像の出力途中であっても音声出力の遅延時間を増加方向に調整し、切り替え後の画像を音声に間に合わせるようにしてもよい。このような場合も、測定対象は１つの動画であっても全ての動画であってもよい。

また音声出力に与える遅延時間に含まれる、１つ分のセグメントの出力時間は、動画配信サーバ１２から送信されるプレイリストから取得できるが、動画再生装置１０で実測することもできる。この場合、図１１で示した初期処理において、ＰＴＳの切り替わりを２回検出し、両者の時間差を１つ分のセグメントの出力時間として取得する。ただし当該出力時間や、動画配信サーバ１２にデータを要求してから出力可能となるまでの時間ｔｄの計測回数を増やすほど、初期処理に時間を要することになる。したがってそれらの値を事前に取得しておき、動画再生時はそれを読み出すのみとすることにより、再生開始までの時間を短縮するようにしてもよい。

これまでの説明では、１つのコンテンツを構成する複数の動画像の同期が完全にとれていることを前提としていたが、個別のカメラで撮影した動画像であれば特に、時間軸が微小量ずれていることが考えられる。図１３は、１つのコンテンツを構成する複数の動画像の時間軸がずれを有する例を模式的に示している。図の横軸は時間経過を表し、音声再生用動画像、第１の表示用動画像、第２の表示用動画像の、動画配信サーバ１２での再生時間の流れを、矩形の長さを各ＰＴＳの再生時間として示している。図示する例では、音声再生用動画像の時間軸に対し、第１の表示用動画像は時間Ｄ１だけ遅れており、第２の表示用動画像は時間Ｄ２だけ進んでいる。

本実施の形態では、この時間ずれを動画配信サーバ１２で取得しておく。例えばそれぞれの動画像の音声が共通であることを利用し、同じ音の発生時刻を動画像間で比較することによりずれを測定する。動画配信サーバ１２は、例えば音声再生用動画像の音声を基準とし、他の表示用動画像の画像のずれ量とずれの方向を、動画再生装置１０からアクセス可能な記憶領域に格納しておく。動画再生装置１０の入力情報取得部６０は、ユーザによるコンテンツの選択に応じ、動画配信サーバ１２に動画像のデータとともに、全ての表示用動画像の時間ずれに係る情報の送信を要求する。そしてデータ取得部６２は、動画像のストリームに加え、時間ずれに係る情報も取得する。

図１４は、動画再生装置１０が、動画配信サーバ１２が提供する動画像の時間ずれに対応するように出力タイミングを調整する際の、画像と音声の出力の流れを例示している。図の表し方は図７と同様であるが、最上段に示した、動画配信サーバ１２における再生の流れは、音声再生用動画像のものとする。したがって動画再生装置１０は、図７、１０、１２と同様の手続きにより音声再生用動画を取得し、先頭のデータ出力を一時停止させることにより所定時間の遅延を与える。

図ではＰＴＳ「１」の音声が、所定時間の遅延の後、出力されている。ただし図１１で示したような初期処理を実施する場合、ＰＴＳの数値はこの限りではない。そして動画再生装置１０は、さらに第１の表示用動画像を取得し、その先頭のデータを出力可能な状態で一時停止させた後、出力するが、時間調整部７４はその際のタイミングを、あらかじめ取得しておいた動画像の時間ずれに合わせて調整する。図１３に示すように、第１の表示用動画像が時間Ｄ１だけ遅れていれば、時間調整部７４は図示するように、同じＰＴＳ「２」の音声の出力が開始されてから時間Ｄ１だけ遅らせてＰＴＳ「２」の画像の出力を開始する。

表示の切り替え操作がなされ、切り替え後の画像を表示させる場合も同様の時間調整をする。すなわち図１３に示すように、第２の表示用動画像が時間Ｄ２だけ進んでいれば、図示するように時間調整部７４は、同じＰＴＳ「６」の音声の出力が開始されるより時間Ｄ２だけ早いタイミングでＰＴＳ「６」の画像の出力を開始する。これらの調整により、異なる動画像の音声と表示を、厳密にずれなく出力しつづけることができる。なおこの手法は、動画像の撮影や生成時に生じるずれに限らず、動画像の復号処理に起因したずれに対しても同様の効果を奏する。

以上述べた本実施の形態によれば、１つのコンテンツを表す複数の動画像をストリーミング転送の対象とし、クライアント端末である動画再生装置において、１つの動画像の音声と別の動画像の画像を組み合わせて出力させる。これにより、ユーザが表示対象の動画像を切り替えても音声が途切れることがなく、１つコンテンツとしての連続性を保つことができる。また、動画再生装置における音声の出力を、１セグメント程度遅延させることにより、切り替え後の画像データの転送や復号に時間を要しても、出力しつづけている音声に間に合わせることができる。

さらに動画配信サーバにおける再生と動画再生装置での出力の時間ずれの変動を抑えるように、取得したセグメントのＰＴＳの切り替わりを細かい時間間隔で検出する。そして切り替わり後のＰＴＳが最速で得られるタイミングから起算して、音声出力に遅延時間を与えることにより、切り替え操作のタイミングによらず、取得したセグメントの画像が切り替え前のセグメントの次に、音声と同期させて出力できる。

また、切り替え前の画像は停止時にフェードアウトさせ、切り替え後の画像をフェードインさせることにより、任意の切り替えであるにも関わらず滑らかで自然な変化を演出できる。本実施の形態は、１つの空間を表す動画像を準備すれば、それをストリーム転送するサーバ側の処理については通常と変わりなく実現できる。したがって導入障壁が低く、従来の配信システムへの適用が容易である。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

８ネットワーク、１０動画再生装置、１２動画配信サーバ、１４入力装置、１６ディスプレイ、２３ＣＰＵ、２４ＧＰＵ、２６メインメモリ、３２通信部、３４記憶部、３６出力部、３８入力部、４０記録媒体駆動部、５０要求取得部、５２データ準備部、５４データ記憶部、５６データ送信部、６０入力情報取得部、６２データ取得部、６４データ分離部、６６画像復号部、６８音声復号部、７０出力制御部、７２ＰＴＳ検出部、７４時間調整部、７６画像加工部、７８出力部。

Claims

サーバが再生中の、同じ空間を表す複数の動画像のデータを、時分割してなるセグメントデータの単位で時系列順に取得するデータ取得部と、
前記複数の動画像のデータのうち１つから音声データを取得し、別の動画像のデータから画像データを取得するデータ分離部と、
前記音声データの出力を継続させながら、前記画像データを同期させて出力する出力制御部と、
出力対象の画像データを、別の動画像のデータから取得したものに切り替える操作をユーザから受け付ける入力情報取得部と、
を備え、
前記入力情報取得部が前記切り替える操作を受け付けたとき、前記データ取得部は、前記サーバで再生中のセグメントから、切り替え後の動画像のデータの取得を開始し、
前記出力制御部は、前記音声データの出力を、出力可能となった状態で所定時間停止させてから開始するとともに、当該音声データのＰＴＳ（Presentation Time Stamp）が切り替わるタイミングで、前記画像データの出力を開始することを特徴とする動画再生装置。
前記データ取得部は、前記セグメントデータの単位でＰＴＳが付与された前記動画像のデータを取得し、
前記出力制御部は、前記サーバに繰り返して要求した前記動画像のデータのＰＴＳが切り替わったときに取得したセグメントデータに含まれる音声データを、所定時間停止させてから出力開始することを特徴とする請求項１に記載の動画再生装置。
前記サーバに動画像のデータを要求し、取得したセグメントデータに付与されたＰＴＳを検出する機能を複数備え、当該ＰＴＳが切り替わるタイミングの検出分解能を細分化することを特徴とする請求項２に記載の動画再生装置。
前記出力制御部は、１つ分のセグメントデータの再生時間に、前記サーバに前記動画像のデータを要求してからその画像が出力可能になるまでの時間を加算した時間だけ、前記音声データの出力を停止させることを特徴とする請求項１から３のいずれかに記載の動画再生装置。
前記出力制御部は、１つ分のセグメントデータの再生時間だけ前記音声データの出力を停止させることを特徴とする請求項１に記載の動画再生装置。
前記データ取得部は、出力対象外の動画像のデータも前記サーバから取得し、
前記出力制御部は、前記出力対象外の動画像から取得した画像データを、前記セグメントデータの単位で出力可能な状態で停止させたうえ、前記切り替える操作がなされた際、停止させた画像データのうち切り替え後の画像データを出力することを特徴とする請求項１に記載の動画再生装置。
前記出力制御部は、前記切り替える操作に応じて、切り替え前の画像をフェードアウトさせるとともに、切り替え後の画像をフェードインさせることを特徴とする請求項１から６のいずれかに記載の動画再生装置。
前記データ取得部は、前記複数の動画像の時間軸のずれに係る情報を前記サーバから取得し、
前記出力制御部は、当該ずれに係る情報に基づき、前記音声データに対する前記画像データの出力開始タイミングを調整することを特徴とする請求項１から７のいずれかに記載の動画再生装置。
同じ空間を表す複数の動画像のデータをストリーム転送するサーバと、前記複数の動画像のデータを用いて動画像をディスプレイに出力する動画再生装置と、を備え、
前記動画再生装置は、
前記サーバが再生中の前記複数の動画像のデータを、時分割してなるセグメントデータの単位で時系列順に取得するデータ取得部と、
前記複数の動画像のデータのうち１つから音声データを取得し、別の動画像のデータから画像データを取得するデータ分離部と、
前記音声データの出力を継続させながら、前記画像データを同期させて出力する出力制御部と、
出力対象の画像データを、別の動画像のデータから取得したものに切り替える操作をユーザから受け付ける入力情報取得部と、
を備え、
前記入力情報取得部が前記切り替える操作を受け付けたとき、前記データ取得部は、前記サーバで再生中のセグメントから、切り替え後の動画像のデータの取得を開始し、
前記出力制御部は、前記音声データの出力を、出力可能となった状態で所定時間停止させてから開始するとともに、当該音声データのＰＴＳ（Presentation Time Stamp）が切り替わるタイミングで、前記画像データの出力を開始することを特徴とする動画再生システム。
サーバが再生中の、同じ空間を表す複数の動画像のデータを、時分割してなるセグメントデータの単位で時系列順に取得するステップと、
前記複数の動画像のデータのうち１つから音声データを取得し、別の動画像のデータから画像データを取得するステップと、
前記音声データの出力を継続させながら、前記画像データを同期させてディスプレイに出力するステップと、
出力対象の画像データを、別の動画像のデータから取得したものに切り替える操作をユーザから受け付けるステップと、
前記切り替える操作を受け付けたとき、前記サーバで再生中のセグメントから、切り替え後の動画像のデータの取得を開始するステップと、
を含み、
前記出力するステップは、前記音声データの出力を、出力可能となった状態で所定時間停止させてから開始するとともに、当該音声データのＰＴＳ（Presentation Time Stamp）が切り替わるタイミングで、前記画像データの出力を開始することを特徴とする、動画再生装置による動画再生方法。
サーバが再生中の、同じ空間を表す複数の動画像のデータを、時分割してなるセグメントデータの単位で時系列順に取得する機能と、
前記複数の動画像のデータのうち１つから音声データを取得し、別の動画像のデータから画像データを取得する機能と、
前記音声データの出力を継続させながら、前記画像データを同期させてディスプレイに出力する機能と、
出力対象の画像データを、別の動画像のデータから取得したものに切り替える操作をユーザから受け付ける機能と、
をコンピュータに実現させ、
前記受け付ける機能が前記切り替える操作を受け付けたとき、前記取得する機能は、前記サーバで再生中のセグメントから、切り替え後の動画像のデータの取得を開始し、
前記出力する機能は、前記音声データの出力を、出力可能となった状態で所定時間停止させてから開始するとともに、当該音声データのＰＴＳ（Presentation Time Stamp）が切り替わるタイミングで、前記画像データの出力を開始することを特徴とするコンピュータプログラム。