JP7236914B2

JP7236914B2 - 受信装置、配信サーバ及び受信プログラム

Info

Publication number: JP7236914B2
Application number: JP2019068875A
Authority: JP
Inventors: 翔平森; 正男山本; 敏西村; 頌一朗関口
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-03-10
Anticipated expiration: 2039-03-29
Also published as: JP2020167629A

Description

本発明は、動画の受信装置、配信サーバ及び受信プログラムに関する。

従来、動画を視聴する際には、主音声及び副音声からユーザが好みの音声を選択して聴くことができる。例えば、主音声が母国語、副音声が外国語である場合、副音声を選択すれば外国語で動画を視聴することができる。また、主音声でスポーツ実況が、副音声でスポーツ実況のない競技場の背景音が提供される場合もある。このように、主音声及び副音声の活用により、多様な音声サービスが可能になる。

音声の選択を可能とする技術として、例えば、非特許文献１には、ＭＰＥＧ－ＤＡＳＨ（ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ）を用いた主音声又は副音声の切り替え技術が示されている。

「ＭＰＥＧ－ＤＡＳＨの応用技術」、一般財団法人ＮＨＫエンジニアリングシステム、インターネット＜ｈｔｔｐ：／／ｗｗｗ．ｎｅｓ．ｏｒ．ｊｐ／ｔｒａｎｓｆｅｒ／ｃａｔａｌｏｇ／２０１８／０１／７１ａ／＞

ところで、近年、次世代の動画配信サービスとして、ユーザの好み又は視聴環境などに応じて再生する音声をカスタマイズできるオブジェクトベース音響方式の音声サービスが注目されている。
しかしながら、従来の技術では、番組音声として完成されたチャンネルベースの複数種類の音声から所望の音声をユーザが選択して視聴することはできるものの、画面内に現れ又は移動する被写体のそれぞれに関連した音声を、ユーザが選択して視聴することは難しかった。

本発明は、動画内を移動する被写体に応じた音声をユーザが指定できる受信装置、配信サーバ及び受信プログラムを提供することを目的とする。

本発明に係る受信装置は、動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、配信サーバから受信する動画受信部と、前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記配信サーバから受信する対応データ受信部と、受信された映像及び音声を再生する動画再生部と、前記映像が再生された画面上で、ユーザの操作により指定された位置を検出する操作検出部と、検出された前記位置のうち、代表点の画面座標を取得する画面座標取得部と、前記画面座標を、カメラ座標系における領域を示すパラメータに変換する座標変換部と、前記パラメータにより示される領域に基づいて、前記対応データから前記被写体コードを抽出する被写体特定部と、特定された前記被写体コードを前記配信サーバへ通知することで前記音声を選択する被写体通知部と、を備える。

前記カメラ座標は、３次元座標で記録され、前記座標変換部は、前記パラメータとして、極座標系におけるカメラ位置からの距離を除く角度を決定してもよい。

前記動画再生部は、特定された前記被写体に対応するカメラ座標から得られる前記カメラ位置からの距離に応じて、音声の再生音量を調整してもよい。

前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードを前記配信サーバへ通知し、前記動画再生部は、前記動画受信部により受信した複数の音声を同時に再生してもよい。

前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードのうち、前記カメラ位置からの距離がより短い被写体コードを優先して前記配信サーバへ通知してもよい。

本発明に係る配信サーバは、動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、当該受信装置へ送信する動画送信部と、前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記受信装置へ送信する対応データ送信部と、前記受信装置において前記映像が再生された画面上で、ユーザの操作により指定された位置のうち、代表点の画面座標がカメラ座標系における領域を示すパラメータに変換されると、当該パラメータにより示される領域に基づいて前記対応データから抽出された前記被写体コードを受信し、当該被写体コードに対応する音声を選択する音声選択部と、を備える。

本発明に係る受信プログラムは、前記受信装置としてコンピュータを機能させるためのものである。

本発明によれば、動画内を移動する被写体に応じた音声をユーザが指定できる。

実施形態に係る配信システムの全体構成を示す概念図である。実施形態に係るカメラ座標－被写体コード対応テーブルを例示する図である。実施形態に係る被写体と音声素材及び音声ストリームとの対応付け方法を例示する図である。実施形態に係る受信装置の機能構成を示す図である。実施形態に係る座標変換部による座標変換例を示す図である。実施形態に係る受信装置の処理を示すフローチャートである。実施形態に係る被写体の特定処理を示すフローチャートである。実施形態に係るカメラ座標パラメータが１組取得された場合の、被写体コードを検索する範囲を例示する図である。実施形態に係るカメラ座標パラメータが複数組取得された場合の、被写体コードを検索する範囲を例示する図である。実施形態に係る閉領域の内外を判定する第１の手法を例示する図である。実施形態に係る閉領域の内外を判定する第２の手法を例示する図である。

以下、本発明の実施形態の一例について説明する。
本実施形態では、新しい動画視聴体験を伴うサービスとして、動画再生中の画面内を移動する被写体をユーザが指定し、この被写体の発する音声のみを再生したり強調したりできるサービスを提供する。

このために、本実施形態の配信方法では、まず、ユーザ操作によって指定された画面の座標に基づいて、画面内を移動する被写体のいずれかが選択される。ユーザ操作によって静的な画像又はボタンなどを選択する一般的な技術と異なり、移動する被写体の画面上での位置をユーザが厳密に指定することは難しいため、本実施形態は、画面内の範囲指定の新たな方法を提供する。
次に、本実施形態の配信方法では、ユーザに配信する動画の制作時に、動画内の被写体に対して３次元位置の時系列データを付与した上で、被写体と音声データとが対応付けられる。動画内の被写体の３次元位置は、既存の３次元位置計測手法などによって取得できるが、本実施形態は、この３次元位置情報を被写体の発する音声と結び付ける。

図１は本実施形態に係る配信システム１の全体構成を示す概念図である。
配信システム１は、配信サーバ１０と受信装置２０とを備え、配信サーバ１０がインターネットを介して受信装置２０へ動画配信を行う。

配信サーバ１０は、テーブル配信部１１（対応データ送信部）と、ストリーム配信部１２（動画送信部、音声選択部）とを備える。

テーブル配信部１１は、被写体コード毎に、撮影時のカメラ位置を原点とするカメラ座標の時系列データが対応づけられたカメラ座標－被写体コード対応テーブルを、テーブル生成装置３０から取得して格納する。テーブル配信部１１は、受信装置２０からの要求に応じて、カメラ座標－被写体コード対応テーブルを提供する。

ストリーム配信部１２は、エンコード装置４０によって映像素材から生成された映像ストリームと、被写体毎の音声素材それぞれから生成された音声ストリームとを取得して格納する。ストリーム配信部１２は、受信装置２０からの要求に応じて、受信装置２０において特定された被写体に対応する音声ストリームを選択し、映像ストリームと選択した音声ストリームとの組み合わせをストリーム配信する。

受信装置２０は、インターネットを経由して、配信サーバ１０のテーブル配信部１１からカメラ座標－被写体コード対応テーブルを受信し、ストリーム配信部１２から映像ストリーム及び要求した被写体コードに対応する音声ストリームを受信する。

テーブル生成装置３０は、被写体毎に付与された被写体コードと、この被写体コードで対応付けられる被写体のカメラ座標とから、カメラ座標－被写体コード対応テーブルを生成し、配信サーバ１０に提供する。
なお、被写体のカメラ座標、すなわち３次元位置は、例えば、多視点カメラを用いた既存の被写体追跡技術などを用いて取得可能である。

図２は、本実施形態に係るカメラ座標－被写体コード対応テーブルを例示する図である。
カメラ座標は、例えば３次元の極座標系で表現され、被写体コードとカメラ座標とを対応付けたレコードが時系列にテーブルに格納される。
なお、このテーブルの記述には、一般的な配列又はリストなどが用いられてもよいし、音響定義モデル（ＡＤＭ：ＡｕｄｉｏＤｅｆｉｎｉｔｉｏｎＭｏｄｅｌ）などの既存の仕様を用いて、カメラ座標が音声データのメタデータとして記述されてもよい。

エンコード装置４０は、映像素材、及び被写体コード毎の音声素材をストリーム形式に変換し、配信サーバ１０のストリーム配信部１２に提供する。
なお、ストリームデータの配信プロトコルには、例えば、ＭＰＥＧ－ＤＡＳＨ又はＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇなどの方式が適宜利用されてよい。

図３は、本実施形態に係る被写体と音声素材及び音声ストリームとの対応付け方法を例示する図である。
被写体コードと音声素材とは、例えばテーブル形式で対応付けられてもよいし、音声素材のファイル名に被写体コードを含めることで対応付けられてもよい。

また、映像素材及び音声素材は、エンコード装置４０により、それぞれ映像ストリーム及び音声ストリームとして、時系列に複数のセグメント化されたファイルに変換され、配信サーバ１０のストリーム配信部１２に格納される。
このとき、音声ストリームは、被写体コード毎に時系列のファイルとして格納されるが、ファイル名に被写体コード及びシーケンス番号が含まれることで、被写体との対応付け、及び再生順序が示されてよい。あるいは、これらのファイルとは別に、被写体と音声ストリームとの対応付けを記述したテーブルなどが記憶されてもよい。

受信装置２０は、このようにセグメント化されたストリームデータ（ｖｉｄｅｏ＿ｋ．ｍｐ４、ａｕｄｉｏ＃Ｎ＿ｋ．ｍｐ４；ｋ＝１，２，…）を受信し、シーケンス番号の順に再生する。

図４は、本実施形態に係る受信装置２０の機能構成を示す図である。
受信装置２０は、テレビ、パソコン、スマートフォンなど、動画データを受信及び再生する視聴端末である。
受信装置２０は、ユーザ操作検出部２０１（操作検出部）と、画面座標取得部２０２と、座標変換部２０３と、被写体特定部２０４と、配信要求部２０５（被写体通知部）と、ストリーム受信部２０６（動画受信部）と、映像復号部２０７と、映像再生部２０８（動画再生部）と、音声復号部２０９と、音声再生部２１０（動画再生部）と、対応データ受信部２１１と、メモリ部２１２と、通信インタフェース２１３とを備える。

ユーザ操作検出部２０１は、映像ストリームが再生された画面上で、ユーザのタッチ操作などにより指定された位置を検出する。
ユーザは、画面に表示されている被写体のうち、音声を聴きたい被写体を画面タッチなどで選択する。カメラのパン、チルト、ズーム、あるいは被写体自身が移動することにより、ある時点での被写体の画面上の位置を厳密に１点で指定することが難しい場合には、ユーザは、被写体周辺の複数点を大まかに範囲指定してもよい。
なお、ユーザの操作方法は、画面タッチには限られず、例えば、ジェスチャ操作、レーザポインタなどの遠隔操作であってもよい。

画面座標取得部２０２は、ユーザ操作検出部２０１により検出された位置のうち、代表点の画面座標を取得する。
例えば、画面上の１点が検出された場合、画面座標取得部２０２は、この画面座標（ｕ，ｖ）を取得する。画面座標とは、動画が再生されている範囲の画面上の２次元座標である。
また、複数点が検出された場合、画面座標取得部２０２は、代表的な画面座標（ｕ，ｖ）を複数取得する。例えば、タッチ操作の始点から終点までの経路を等間隔に分割したｎ点の画面座標（ｕ，ｖ）を取得すると、ユーザにより指定された範囲は、画面座標系におけるｎ角形として表現される。

座標変換部２０３は、被写体の位置を指定する画面座標を、カメラ座標系における領域を示すカメラ座標パラメータに変換する。
ここで、カメラ座標は、撮影時のカメラ位置を中心とした空間の３次元座標である。また、カメラ座標パラメータとは、２次元の画面座標を３次元に変換した際の、カメラ座標系における領域を表すパラメータである。

図５は、本実施形態に係る座標変換部２０３による座標変換例を示す図である。
画面座標の座標系及びカメラ座標の座標系は限定されないが、ここでは、一例として画面座標を、画面の中心を原点とする２次元直交座標系（ｕ，ｖ）で表し、カメラ座標を、カメラ位置を原点とする３次元極座標系（ｒ，θ，φ）で表す。

画面座標系（ｕ，ｖ）からカメラ座標系（ｒ，θ，φ）に変換する際、カメラ座標系における距離ｒは不定となるため、直線の角度を表す（θ，φ）がカメラ座標パラメータとして取得される。
画面座標（ｕ，ｖ）からカメラ座標パラメータ（θ，φ）への変換式は、使用するカメラモデルに応じて求められる。

例えば、ピンホールカメラモデルを用いた場合、焦点距離をｆとすると、直交座標系でのカメラ座標（ｘ，ｙ，ｚ）と画面座標（ｕ，ｖ）とは、次の関係がある。
ｕ＝ｆ×ｘ／ｚ
ｖ＝ｆ×ｙ／ｚ
また、極座標系でのカメラ座標（ｒ，θ，φ）と直交座標系でのカメラ座標（ｘ，ｙ，ｚ）とは、次の関係がある。
ｘ＝ｒ×ｓｉｎθｃｏｓφ
ｙ＝ｒ×ｓｉｎθｓｉｎφ
ｚ＝ｒ×ｃｏｓθ
したがって、画面座標（ｕ，ｖ）と、カメラ座標パラメータである角度（θ，φ）との関係は、次式で与えられる。
θ＝ａｒｃｔａｎ（ｆ／√（ｕ^２＋ｖ^２））
φ＝ａｒｃｔａｎ（ｖ／ｕ）

このように、画面座標からは、極座標系におけるカメラ座標のうち、カメラ位置からの距離ｒが不定で角度（θ，φ）のみが定まる。
座標変換部２０３は、１点の画面座標（ｕ，ｖ）が指定された場合、直線の角度を表すカメラ座標パラメータ（θ，φ）を１個取得する。また、ｎ点の画面座標（ｕ，ｖ）が指定された場合、座標変換部２０３は、直線の角度を表すカメラ座標パラメータ（θ，φ）をｎ個取得する。これにより、画面座標系においてｎ角形で表現された指定範囲は、カメラ座標系においては、ｎ角錐で表現される。

被写体特定部２０４は、座標変換部２０３が取得したカメラ座標パラメータにより示される領域に基づいて、メモリ部２１２に予め格納されたカメラ座標－被写体コード対応テーブルから、該当する被写体を検索し被写体コードを抽出する。

配信要求部２０５は、被写体特定部２０４により抽出された被写体コードを、配信サーバ１０へ通知することで音声を選択し、映像ストリーム及び被写体コードに対応する音声ストリームを配信サーバ１０のストリーム配信部１２に要求する。
このとき、配信要求部２０５は、被写体特定部２０４により複数の被写体コードが抽出された場合、これら複数の被写体コードを配信サーバ１０へ通知して、複数の音声ストリームを要求してもよい。あるいは、配信要求部２０５は、複数の被写体コードのうち、カメラ位置からの距離ｒがより短い被写体コードを優先して配信サーバ１０へ通知してもよい。

ストリーム受信部２０６は、配信サーバ１０から配信された、動画を構成する映像ストリーム、及び複数の被写体それぞれに対応する音声ストリームのうち選択された音声ストリームを受信し、バッファリングする。

映像復号部２０７は、映像ストリームから抽出した映像信号にあたるデータを復号し、映像再生部２０８に提供する。
映像再生部２０８は、復号された映像を画面表示する。

音声復号部２０９は、音声ストリームから抽出した音声信号にあたるデータを復号し、音声再生部２１０に提供する。
音声再生部２１０は、復号された音声信号を再生する。音声信号の再生にはスピーカ又はヘッドフォンなどが用いられてよい。また、音声再生部２１０は、受信装置２０から分離され、通信インタフェースを介して別の装置で音声信号を再生してもよい。

音声再生部２１０は、特定された被写体に対応付けられているカメラ座標から得られるカメラ位置からの距離ｒに応じて、近いほど音声の再生音量を大きくするなどの調整をしてもよい。
また、音声再生部２１０は、受信部２０６により複数の被写体に対応する複数の音声ストリームを受信した場合、複数の音声を同時に再生してもよい。

対応データ受信部２１１は、配信サーバ１０のテーブル配信部１１からカメラ座標－被写体コード対応テーブルを受信し、メモリ部２１２に格納する。

メモリ部２１２は、配信サーバ１０から受信したカメラ座標－被写体コード対応テーブルを記憶する。メモリ部２１２は、被写体特定部２０４からの参照要求に応じてカメラ座標－被写体コード対応テーブルを提供する。

通信インタフェース２１３は、イーサネット（登録商標）又は無線ＬＡＮなどによりインターネットを介して配信サーバ１０と接続するインタフェースである。

図６は、本実施形態に係る受信装置２０の処理を示すフローチャートである。
本処理は、動画の再生が終了するまで、ユーザ操作がある度に繰り返し実行される。

ステップＳ１において、ユーザ操作検出部２０１は、ユーザにより動画内の被写体を指定する操作をされた画面上の位置、例えば画面タッチの位置を検出する。

ステップＳ２において、画面座標取得部２０２は、ユーザ操作された位置のうち代表点の画面座標を取得する。画面座標取得部２０２は、例えば前述のように、ユーザ操作検出部２０１により１点が検出された場合は、この１点を、複数点が検出された場合は、始点から終点の経路を等間隔に分割した複数点を代表点とし、これらの画面座標を取得する。

ステップＳ３において、座標変換部２０３は、ステップＳ２で取得された被写体を指定するための画面座標（ｕ，ｖ）のそれぞれを、カメラ座標パラメータ（θ，φ）に変換する。

ステップＳ４において、被写体特定部２０４は、メモリ部２１２に予め格納されたカメラ座標－被写体コード対応テーブルを参照し、ステップＳ３で変換されたカメラ座標パラメータを用いて該当する被写体コードを検索することで被写体を特定する。
なお、本ステップの詳細は、図７に詳述する。

ステップＳ５において、被写体特定部２０４は、ステップＳ４の特定処理の結果、ユーザに指定された位置に該当の被写体があるか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ６に移り、判定がＮＯの場合、以降のステップはスキップされ、受信装置２０は、動画の再生を継続して新たなユーザ操作を受け付ける。

ステップＳ６において、配信要求部２０５は、映像ストリームと、ステップＳ４で特定された被写体に対応する音声ストリームを、配信サーバ１０のストリーム配信部１２に要求する。

ステップＳ７において、ストリーム受信部２０６は、配信サーバ１０のストリーム配信部１２から配信される映像ストリームと、特定された被写体に応じて選択された音声ストリームとを受信する。

ステップＳ８において、映像復号部２０７と音声復号部２０９とは、それぞれ受信したストリームから抽出した映像信号にあたるデータと、音声信号にあたるデータとを復号する。

ステップＳ９において、映像再生部２０８と音声再生部２１０とは、それぞれ復号された映像と音声とを再生する。
なお、ユーザ操作によって選択された音声のみ音量を調節するなどの音声素材ごとの音声制御は、既存のオブジェクトベース音響方式などを用いて実現できる。
また、音声再生部２１０は、被写体コードで対応付けられる被写体のカメラ座標の距離ｒが近い場合に再生する音声の音量を大きくしたり、被写体の移動に応じて再生する音量を変化させたりしてもよい。

図７は、本実施形態に係る被写体の特定処理を示すフローチャートである。
本処理は、図６のステップＳ５に相当する。

ステップＳ５１において、被写体特定部２０４は、取得されたカメラ座標パラメータの数を判定する。パラメータが１組の場合、処理はステップＳ５３に移る。パラメータが２組の場合、処理はステップＳ５２に移る。パラメータが３組以上（ｎ組）の場合、処理はステップＳ５５に移る。

ステップＳ５２において、被写体特定部２０４は、２組のパラメータの平均値を算出し、１組のカメラ座標パラメータ（θ，φ）とする。そして、パラメータが１組の場合と同様に、処理はステップＳ５３に移る。

ステップＳ５３～Ｓ５４において、被写体特定部２０４は、画面タッチなどの位置指定の不確かさ、及び被写体コードに結びつけられたカメラ座標の不確かさなどを考慮して、１組のカメラ座標パラメータ（θ，φ）から段階的に（θ，φ）の範囲を広げ、この範囲に含まれるカメラ座標が対応付けられている被写体コードを抽出する。

具体的には、被写体特定部２０４は、整数ｉを、１から予め定めたｉ＿ｍａｘ以下の条件で、該当する被写体コードが見つかるまで増加させ（ステップＳ５３）、４組のカメラ座標パラメータ「（θ＋ｉΔ，φ＋ｉΔ），（θ＋ｉΔ，φ－ｉΔ），（θ－ｉΔ，φ＋ｉΔ），（θ－ｉΔ，φ－ｉΔ）；ｉ＝１，２，…，ｉ＿ｍａｘ」で指定されるカメラ座標の領域の内部に存在する被写体コードを検索する（ステップＳ５４）。
ｉがｉ＿ｍａｘに達しても該当する被写体コードが見つからない場合、被写体特定部２０４は、該当の被写体がないと判定する。
なお、Δは、例えば１０度などが指定されるが、不確かさの度合いに応じて適宜増減されてよい。

ステップＳ５５において、被写体特定部２０４は、ｎ組のカメラ座標パラメータ（θ，φ）からθとφそれぞれの最大値及び最小値（θ＿ｍａｘ，θ＿ｍｉｎ，φ＿ｍａｘ，φ＿ｍｉｎ）を、カメラ座標の範囲として抽出する。

ステップＳ５６～Ｓ５７において、被写体特定部２０４は、画面タッチなどの位置指定の不確かさ、及び被写体コードに結びつけられたカメラ座標の不確かさなどを考慮して、θ及びφそれぞれの最大値及び最小値で指定されるカメラ座標の範囲を段階的に広げ、この範囲に含まれるカメラ座標が対応付けられている被写体コードを抽出する。

具体的には、被写体特定部２０４は、整数ｊを、予め定めたｊ＿ｍａｘ以下の条件で、０から該当する被写体コードが見つかるまで増加させ（ステップＳ５６）、４組のカメラ座標パラメータ「（θ＿ｍａｘ＋ｊΔ，φ＿ｍａｘ＋ｊΔ），（θ＿ｍａｘ＋ｊΔ，φ＿ｍｉｎ－ｊΔ），（θ＿ｍｉｎ－ｊΔ，φ＿ｍａｘ＋ｊΔ），（θ＿ｍｉｎ－ｊΔ，φ＿ｍｉｎ－ｊΔ）；ｊ＝０，１，…，ｊ＿ｍａｘ」で指定されるカメラ座標の領域の内部に存在する被写体コードを検索する（ステップＳ５７）。
ｊがｊ＿ｍａｘに達しても該当する被写体コードが見つからない場合、被写体特定部２０４は、該当の被写体がないと判定する。

なお、ユーザ操作の結果を明示的に提示するために、ユーザ操作検出部２０１は、被写体コードの検索の結果、該当がある場合及びない場合のそれぞれについて、画面上にマーカを表示したり効果音を鳴らしたりといった、フィードバックをユーザに返してもよい。

図８は、本実施形態に係るカメラ座標パラメータが１組取得された場合の、被写体コードを検索する範囲を例示する図である。
この例は、１組のカメラ座標パラメータ（θ１，φ１）が取得された場合に、１段階広くした範囲（θ１－Δ≦θ≦θ１＋Δ、φ１－Δ≦φ≦φ１＋Δ）と、２段階広くした範囲（θ１－２Δ≦θ≦θ１＋２Δ、φ１－２Δ≦φ≦φ１＋２Δ）とを示している。
このように、被写体特定部２０４は、θ及びφの範囲を±Δずつ広げながら、この範囲内にカメラ座標がある被写体を特定する。

図９は、本実施形態に係るカメラ座標パラメータが複数組取得された場合の、被写体コードを検索する範囲を例示する図である。
この例は、３組のカメラ座標パラメータ（θ１，φ１）、（θ２，φ２）、（θ３，φ３）が取得された場合に、初期範囲（θ＿ｍｉｎ≦θ≦θ＿ｍａｘ、φ＿ｍｉｎ≦φ≦φ＿ｍａｘ）と、１段階広くした範囲（θ＿ｍｉｎ－Δ≦θ≦θ＿ｍａｘ＋Δ、φ＿ｍｉｎ－Δ≦φ≦φ＿ｍａｘ＋Δ）とを示している。なお、この例では、θ＿ｍｉｎ＝θ１、θ＿ｍａｘ＝θ２、φ＿ｍｉｎ＝φ２、φ＿ｍａｘ＝φ３である。
このように、被写体特定部２０４は、θ及びφの範囲を±Δずつ広げながら、この範囲内にカメラ座標がある被写体を特定する。

ここで、被写体を検索するこれらのプロセスは一例であり、別の手法が用いられてもよい。例えば、検索範囲を拡張する単位Δは、方向に応じて異なってもよいし、段階毎に変動させてもよい。
また、検索範囲である領域の形状は、θ及びφの最小値と最大値とを指定した長方形には限られず、例えば、円又は多角形など、適宜設定されてよい。円又は多角形など、カメラ座標パラメータで指定される領域の内部に、被写体コードで対応付けられた被写体のカメラ座標が存在するかどうかの判定は、既存の閉領域の内外判定アルゴリズムなどを用いることで実現できる。

図１０は、本実施形態に係る閉領域の内外を判定する第１の手法を例示する図である。
多角形の辺を一周したとき、判定対象の点が常に同じ側（左側又は右側）にある場合、この点は多角形の内部にあると判定できる。この手法は、凸多角形に適用できる。

例えば図の三角形ＡＢＣの場合、点Ｐは、ベクトルの外積（ＡＰ）×（ＡＢ）、（ＢＰ）×（ＢＣ）、（ＣＰ）×（ＣＡ）の符号が一致するので、三角形ＡＢＣの内部にあると判定できる。一方、点Ｑは、３つの外積の符号が一致しないので、三角形ＡＢＣの外部にあると判定できる。

図１１は、本実施形態に係る閉領域の内外を判定する第２の手法を例示する図である。
判定対象の点と多角形の各辺の両端とがなす角度の和が３６０度となる場合、この点は多角形の内部にあると判定できる。この手法は、凸な図形に限らず適用可能である。

例えば図の四角形ＡＢＣＤの場合、点Ｐは、∠ＡＰＢ＋∠ＢＰＣ＋∠ＣＰＤ＋∠ＤＰＡ＝３６０度となるので、四角形ＡＢＣＤの内部にあると判定できる。一方、点Ｑは、４つの角度の和が０度となるので、四角形ＡＢＣＤの外部にあると判定できる。

本実施形態によれば、配信システム１は、ユーザが画面上でタッチ操作などにより指定した画面座標をカメラ座標パラメータに変換し、このパラメータにより示される領域に含まれる被写体を、カメラ座標－被写体コード対応テーブルを参照することで特定する。この特定した被写体に対応付けられている音声ストリームを選択的に配信することにより、受信装置２０において、該当の被写体が発する音声のみを再生したり、あるいは、この被写体の発する音声の音量などを調整したりするサービスが可能となる。

この結果、動画内を移動する被写体に応じた音声をユーザが指定でき、配信システム１は、新たな動画視聴体験を提供できる。
例えば、動物園を撮影した動画内の複数の動物からユーザが所望の動物を選択し、その動物の鳴き声や解説を聞く教育コンテンツ、あるいは、音楽のライブ又はコンサートを撮影した動画内の複数の楽器又は歌手から聞きたい音声を発する被写体をユーザが選択し、選択した音声を強調して聞くことのできる娯楽コンテンツなどが提供可能となる。

受信装置２０は、画面座標から極座標系におけるカメラ位置からの距離ｒを除く角度θ及びφを決定することにより、カメラ座標－被写体コード対応テーブルに予め格納された極座標系のカメラ座標と２次元で比較でき、指定された範囲内に存在する被写体を容易に検索できる。
また、受信装置２０は、特定された被写体のカメラ位置からの距離に応じて、音声の再生音量を調整できる。これにより、受信装置２０は、動画内の被写体の状況に応じた音声をユーザに提示できる。

配信システム１は、ユーザの指定した箇所から複数の被写体が抽出された場合に、これら複数の被写体に対応する複数の音声を受信装置２０に送信できる。これにより、受信装置２０は、特定された複数の被写体に対応する音声を同時に再生して、ユーザの要求に応えることができる。
あるいは、受信装置２０は、カメラ位置からの距離が近い被写体を優先して選択し、この被写体に対応する音声ストリームを受信することで、画面に実際に表示されている被写体を適切に特定して音声を再生できる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

本実施形態では、カメラ座標を３次元で表現したが、カメラ座標－被写体コード対応テーブルに２次元で格納されてもよい。
また、本実施形態では、配信サーバ１０がテーブル配信部１１と、ストリーム配信部１２とを備える構成としたが、これらの機能部は、複数のサーバ装置に分散配置されてもよい。

本実施形態では、主に配信システム１の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、動画を配信するための方法、又はプログラムとして構成されてもよい。

さらに、配信システム１の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

さらに、「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１配信システム
１０配信サーバ
１１テーブル配信部（対応データ送信部）
１２ストリーム配信部（動画送信部、音声選択部）
２０受信装置
３０テーブル生成装置
４０エンコード装置
２０１ユーザ操作検出部（操作検出部）
２０２画面座標取得部
２０３座標変換部
２０４被写体特定部
２０５配信要求部（被写体通知部）
２０６ストリーム受信部（動画受信部）
２０７映像復号部
２０８映像再生部（動画再生部）
２０９音声復号部
２１０音声再生部（動画再生部）
２１１対応データ受信部
２１２メモリ部
２１３通信インタフェース

Claims

動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、配信サーバから受信する動画受信部と、
前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記配信サーバから受信する対応データ受信部と、
受信された映像及び音声を再生する動画再生部と、
前記映像が再生された画面上で、ユーザの操作により指定された位置を検出する操作検出部と、
検出された前記位置のうち、代表点の画面座標を取得する画面座標取得部と、
前記画面座標を、カメラ座標系における領域を示すパラメータに変換する座標変換部と、
前記パラメータにより示される領域に基づいて、前記対応データから前記被写体コードを抽出する被写体特定部と、
特定された前記被写体コードを前記配信サーバへ通知することで前記音声を選択する被写体通知部と、を備える受信装置。
前記カメラ座標は、３次元座標で記録され、
前記座標変換部は、前記パラメータとして、極座標系におけるカメラ位置からの距離を除く角度を決定する請求項１に記載の受信装置。
前記動画再生部は、特定された前記被写体に対応するカメラ座標から得られる前記カメラ位置からの距離に応じて、音声の再生音量を調整する請求項２に記載の受信装置。
前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードを前記配信サーバへ通知し、
前記動画再生部は、前記動画受信部により受信した複数の音声を同時に再生する請求項１から請求項３のいずれかに記載の受信装置。
前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードのうち、前記カメラ位置からの距離がより短い被写体コードを優先して前記配信サーバへ通知する請求項２又は請求項３に記載の受信装置。
動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、受信装置へ送信する動画送信部と、
前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記受信装置へ送信する対応データ送信部と、
前記受信装置において前記映像が再生された画面上で、ユーザの操作により指定された位置のうち、代表点の画面座標がカメラ座標系における領域を示すパラメータに変換されると、当該パラメータにより示される領域に基づいて前記対応データから抽出された前記被写体コードを受信し、当該被写体コードに対応する音声を選択する音声選択部と、を備える配信サーバ。
請求項１から請求項５のいずれかに記載の受信装置としてコンピュータを機能させるための受信プログラム。