JP7236914B2 - 受信装置、配信サーバ及び受信プログラム - Google Patents

受信装置、配信サーバ及び受信プログラム Download PDF

Info

Publication number
JP7236914B2
JP7236914B2 JP2019068875A JP2019068875A JP7236914B2 JP 7236914 B2 JP7236914 B2 JP 7236914B2 JP 2019068875 A JP2019068875 A JP 2019068875A JP 2019068875 A JP2019068875 A JP 2019068875A JP 7236914 B2 JP7236914 B2 JP 7236914B2
Authority
JP
Japan
Prior art keywords
subject
unit
camera
audio
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019068875A
Other languages
English (en)
Other versions
JP2020167629A (ja
Inventor
翔平 森
正男 山本
敏 西村
頌一朗 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019068875A priority Critical patent/JP7236914B2/ja
Publication of JP2020167629A publication Critical patent/JP2020167629A/ja
Application granted granted Critical
Publication of JP7236914B2 publication Critical patent/JP7236914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、動画の受信装置、配信サーバ及び受信プログラムに関する。
従来、動画を視聴する際には、主音声及び副音声からユーザが好みの音声を選択して聴くことができる。例えば、主音声が母国語、副音声が外国語である場合、副音声を選択すれば外国語で動画を視聴することができる。また、主音声でスポーツ実況が、副音声でスポーツ実況のない競技場の背景音が提供される場合もある。このように、主音声及び副音声の活用により、多様な音声サービスが可能になる。
音声の選択を可能とする技術として、例えば、非特許文献1には、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)を用いた主音声又は副音声の切り替え技術が示されている。
「MPEG-DASHの応用技術」、一般財団法人NHKエンジニアリングシステム、インターネット<http://www.nes.or.jp/transfer/catalog/2018/01/71a/>
ところで、近年、次世代の動画配信サービスとして、ユーザの好み又は視聴環境などに応じて再生する音声をカスタマイズできるオブジェクトベース音響方式の音声サービスが注目されている。
しかしながら、従来の技術では、番組音声として完成されたチャンネルベースの複数種類の音声から所望の音声をユーザが選択して視聴することはできるものの、画面内に現れ又は移動する被写体のそれぞれに関連した音声を、ユーザが選択して視聴することは難しかった。
本発明は、動画内を移動する被写体に応じた音声をユーザが指定できる受信装置、配信サーバ及び受信プログラムを提供することを目的とする。
本発明に係る受信装置は、動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、配信サーバから受信する動画受信部と、前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記配信サーバから受信する対応データ受信部と、受信された映像及び音声を再生する動画再生部と、前記映像が再生された画面上で、ユーザの操作により指定された位置を検出する操作検出部と、検出された前記位置のうち、代表点の画面座標を取得する画面座標取得部と、前記画面座標を、カメラ座標系における領域を示すパラメータに変換する座標変換部と、前記パラメータにより示される領域に基づいて、前記対応データから前記被写体コードを抽出する被写体特定部と、特定された前記被写体コードを前記配信サーバへ通知することで前記音声を選択する被写体通知部と、を備える。
前記カメラ座標は、3次元座標で記録され、前記座標変換部は、前記パラメータとして、極座標系におけるカメラ位置からの距離を除く角度を決定してもよい。
前記動画再生部は、特定された前記被写体に対応するカメラ座標から得られる前記カメラ位置からの距離に応じて、音声の再生音量を調整してもよい。
前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードを前記配信サーバへ通知し、前記動画再生部は、前記動画受信部により受信した複数の音声を同時に再生してもよい。
前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードのうち、前記カメラ位置からの距離がより短い被写体コードを優先して前記配信サーバへ通知してもよい。
本発明に係る配信サーバは、動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、当該受信装置へ送信する動画送信部と、前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記受信装置へ送信する対応データ送信部と、前記受信装置において前記映像が再生された画面上で、ユーザの操作により指定された位置のうち、代表点の画面座標がカメラ座標系における領域を示すパラメータに変換されると、当該パラメータにより示される領域に基づいて前記対応データから抽出された前記被写体コードを受信し、当該被写体コードに対応する音声を選択する音声選択部と、を備える。
本発明に係る受信プログラムは、前記受信装置としてコンピュータを機能させるためのものである。
本発明によれば、動画内を移動する被写体に応じた音声をユーザが指定できる。
実施形態に係る配信システムの全体構成を示す概念図である。 実施形態に係るカメラ座標-被写体コード対応テーブルを例示する図である。 実施形態に係る被写体と音声素材及び音声ストリームとの対応付け方法を例示する図である。 実施形態に係る受信装置の機能構成を示す図である。 実施形態に係る座標変換部による座標変換例を示す図である。 実施形態に係る受信装置の処理を示すフローチャートである。 実施形態に係る被写体の特定処理を示すフローチャートである。 実施形態に係るカメラ座標パラメータが1組取得された場合の、被写体コードを検索する範囲を例示する図である。 実施形態に係るカメラ座標パラメータが複数組取得された場合の、被写体コードを検索する範囲を例示する図である。 実施形態に係る閉領域の内外を判定する第1の手法を例示する図である。 実施形態に係る閉領域の内外を判定する第2の手法を例示する図である。
以下、本発明の実施形態の一例について説明する。
本実施形態では、新しい動画視聴体験を伴うサービスとして、動画再生中の画面内を移動する被写体をユーザが指定し、この被写体の発する音声のみを再生したり強調したりできるサービスを提供する。
このために、本実施形態の配信方法では、まず、ユーザ操作によって指定された画面の座標に基づいて、画面内を移動する被写体のいずれかが選択される。ユーザ操作によって静的な画像又はボタンなどを選択する一般的な技術と異なり、移動する被写体の画面上での位置をユーザが厳密に指定することは難しいため、本実施形態は、画面内の範囲指定の新たな方法を提供する。
次に、本実施形態の配信方法では、ユーザに配信する動画の制作時に、動画内の被写体に対して3次元位置の時系列データを付与した上で、被写体と音声データとが対応付けられる。動画内の被写体の3次元位置は、既存の3次元位置計測手法などによって取得できるが、本実施形態は、この3次元位置情報を被写体の発する音声と結び付ける。
図1は本実施形態に係る配信システム1の全体構成を示す概念図である。
配信システム1は、配信サーバ10と受信装置20とを備え、配信サーバ10がインターネットを介して受信装置20へ動画配信を行う。
配信サーバ10は、テーブル配信部11(対応データ送信部)と、ストリーム配信部12(動画送信部、音声選択部)とを備える。
テーブル配信部11は、被写体コード毎に、撮影時のカメラ位置を原点とするカメラ座標の時系列データが対応づけられたカメラ座標-被写体コード対応テーブルを、テーブル生成装置30から取得して格納する。テーブル配信部11は、受信装置20からの要求に応じて、カメラ座標-被写体コード対応テーブルを提供する。
ストリーム配信部12は、エンコード装置40によって映像素材から生成された映像ストリームと、被写体毎の音声素材それぞれから生成された音声ストリームとを取得して格納する。ストリーム配信部12は、受信装置20からの要求に応じて、受信装置20において特定された被写体に対応する音声ストリームを選択し、映像ストリームと選択した音声ストリームとの組み合わせをストリーム配信する。
受信装置20は、インターネットを経由して、配信サーバ10のテーブル配信部11からカメラ座標-被写体コード対応テーブルを受信し、ストリーム配信部12から映像ストリーム及び要求した被写体コードに対応する音声ストリームを受信する。
テーブル生成装置30は、被写体毎に付与された被写体コードと、この被写体コードで対応付けられる被写体のカメラ座標とから、カメラ座標-被写体コード対応テーブルを生成し、配信サーバ10に提供する。
なお、被写体のカメラ座標、すなわち3次元位置は、例えば、多視点カメラを用いた既存の被写体追跡技術などを用いて取得可能である。
図2は、本実施形態に係るカメラ座標-被写体コード対応テーブルを例示する図である。
カメラ座標は、例えば3次元の極座標系で表現され、被写体コードとカメラ座標とを対応付けたレコードが時系列にテーブルに格納される。
なお、このテーブルの記述には、一般的な配列又はリストなどが用いられてもよいし、音響定義モデル(ADM:Audio Definition Model)などの既存の仕様を用いて、カメラ座標が音声データのメタデータとして記述されてもよい。
エンコード装置40は、映像素材、及び被写体コード毎の音声素材をストリーム形式に変換し、配信サーバ10のストリーム配信部12に提供する。
なお、ストリームデータの配信プロトコルには、例えば、MPEG-DASH又はHTTP Live Streamingなどの方式が適宜利用されてよい。
図3は、本実施形態に係る被写体と音声素材及び音声ストリームとの対応付け方法を例示する図である。
被写体コードと音声素材とは、例えばテーブル形式で対応付けられてもよいし、音声素材のファイル名に被写体コードを含めることで対応付けられてもよい。
また、映像素材及び音声素材は、エンコード装置40により、それぞれ映像ストリーム及び音声ストリームとして、時系列に複数のセグメント化されたファイルに変換され、配信サーバ10のストリーム配信部12に格納される。
このとき、音声ストリームは、被写体コード毎に時系列のファイルとして格納されるが、ファイル名に被写体コード及びシーケンス番号が含まれることで、被写体との対応付け、及び再生順序が示されてよい。あるいは、これらのファイルとは別に、被写体と音声ストリームとの対応付けを記述したテーブルなどが記憶されてもよい。
受信装置20は、このようにセグメント化されたストリームデータ(video_k.mp4、audio#N_k.mp4;k=1,2,…)を受信し、シーケンス番号の順に再生する。
図4は、本実施形態に係る受信装置20の機能構成を示す図である。
受信装置20は、テレビ、パソコン、スマートフォンなど、動画データを受信及び再生する視聴端末である。
受信装置20は、ユーザ操作検出部201(操作検出部)と、画面座標取得部202と、座標変換部203と、被写体特定部204と、配信要求部205(被写体通知部)と、ストリーム受信部206(動画受信部)と、映像復号部207と、映像再生部208(動画再生部)と、音声復号部209と、音声再生部210(動画再生部)と、対応データ受信部211と、メモリ部212と、通信インタフェース213とを備える。
ユーザ操作検出部201は、映像ストリームが再生された画面上で、ユーザのタッチ操作などにより指定された位置を検出する。
ユーザは、画面に表示されている被写体のうち、音声を聴きたい被写体を画面タッチなどで選択する。カメラのパン、チルト、ズーム、あるいは被写体自身が移動することにより、ある時点での被写体の画面上の位置を厳密に1点で指定することが難しい場合には、ユーザは、被写体周辺の複数点を大まかに範囲指定してもよい。
なお、ユーザの操作方法は、画面タッチには限られず、例えば、ジェスチャ操作、レーザポインタなどの遠隔操作であってもよい。
画面座標取得部202は、ユーザ操作検出部201により検出された位置のうち、代表点の画面座標を取得する。
例えば、画面上の1点が検出された場合、画面座標取得部202は、この画面座標(u,v)を取得する。画面座標とは、動画が再生されている範囲の画面上の2次元座標である。
また、複数点が検出された場合、画面座標取得部202は、代表的な画面座標(u,v)を複数取得する。例えば、タッチ操作の始点から終点までの経路を等間隔に分割したn点の画面座標(u,v)を取得すると、ユーザにより指定された範囲は、画面座標系におけるn角形として表現される。
座標変換部203は、被写体の位置を指定する画面座標を、カメラ座標系における領域を示すカメラ座標パラメータに変換する。
ここで、カメラ座標は、撮影時のカメラ位置を中心とした空間の3次元座標である。また、カメラ座標パラメータとは、2次元の画面座標を3次元に変換した際の、カメラ座標系における領域を表すパラメータである。
図5は、本実施形態に係る座標変換部203による座標変換例を示す図である。
画面座標の座標系及びカメラ座標の座標系は限定されないが、ここでは、一例として画面座標を、画面の中心を原点とする2次元直交座標系(u,v)で表し、カメラ座標を、カメラ位置を原点とする3次元極座標系(r,θ,φ)で表す。
画面座標系(u,v)からカメラ座標系(r,θ,φ)に変換する際、カメラ座標系における距離rは不定となるため、直線の角度を表す(θ,φ)がカメラ座標パラメータとして取得される。
画面座標(u,v)からカメラ座標パラメータ(θ,φ)への変換式は、使用するカメラモデルに応じて求められる。
例えば、ピンホールカメラモデルを用いた場合、焦点距離をfとすると、直交座標系でのカメラ座標(x,y,z)と画面座標(u,v)とは、次の関係がある。
u=f×x/z
v=f×y/z
また、極座標系でのカメラ座標(r,θ,φ)と直交座標系でのカメラ座標(x,y,z)とは、次の関係がある。
x=r×sinθcosφ
y=r×sinθsinφ
z=r×cosθ
したがって、画面座標(u,v)と、カメラ座標パラメータである角度(θ,φ)との関係は、次式で与えられる。
θ=arctan(f/√(u+v))
φ=arctan(v/u)
このように、画面座標からは、極座標系におけるカメラ座標のうち、カメラ位置からの距離rが不定で角度(θ,φ)のみが定まる。
座標変換部203は、1点の画面座標(u,v)が指定された場合、直線の角度を表すカメラ座標パラメータ(θ,φ)を1個取得する。また、n点の画面座標(u,v)が指定された場合、座標変換部203は、直線の角度を表すカメラ座標パラメータ(θ,φ)をn個取得する。これにより、画面座標系においてn角形で表現された指定範囲は、カメラ座標系においては、n角錐で表現される。
被写体特定部204は、座標変換部203が取得したカメラ座標パラメータにより示される領域に基づいて、メモリ部212に予め格納されたカメラ座標-被写体コード対応テーブルから、該当する被写体を検索し被写体コードを抽出する。
配信要求部205は、被写体特定部204により抽出された被写体コードを、配信サーバ10へ通知することで音声を選択し、映像ストリーム及び被写体コードに対応する音声ストリームを配信サーバ10のストリーム配信部12に要求する。
このとき、配信要求部205は、被写体特定部204により複数の被写体コードが抽出された場合、これら複数の被写体コードを配信サーバ10へ通知して、複数の音声ストリームを要求してもよい。あるいは、配信要求部205は、複数の被写体コードのうち、カメラ位置からの距離rがより短い被写体コードを優先して配信サーバ10へ通知してもよい。
ストリーム受信部206は、配信サーバ10から配信された、動画を構成する映像ストリーム、及び複数の被写体それぞれに対応する音声ストリームのうち選択された音声ストリームを受信し、バッファリングする。
映像復号部207は、映像ストリームから抽出した映像信号にあたるデータを復号し、映像再生部208に提供する。
映像再生部208は、復号された映像を画面表示する。
音声復号部209は、音声ストリームから抽出した音声信号にあたるデータを復号し、音声再生部210に提供する。
音声再生部210は、復号された音声信号を再生する。音声信号の再生にはスピーカ又はヘッドフォンなどが用いられてよい。また、音声再生部210は、受信装置20から分離され、通信インタフェースを介して別の装置で音声信号を再生してもよい。
音声再生部210は、特定された被写体に対応付けられているカメラ座標から得られるカメラ位置からの距離rに応じて、近いほど音声の再生音量を大きくするなどの調整をしてもよい。
また、音声再生部210は、受信部206により複数の被写体に対応する複数の音声ストリームを受信した場合、複数の音声を同時に再生してもよい。
対応データ受信部211は、配信サーバ10のテーブル配信部11からカメラ座標-被写体コード対応テーブルを受信し、メモリ部212に格納する。
メモリ部212は、配信サーバ10から受信したカメラ座標-被写体コード対応テーブルを記憶する。メモリ部212は、被写体特定部204からの参照要求に応じてカメラ座標-被写体コード対応テーブルを提供する。
通信インタフェース213は、イーサネット(登録商標)又は無線LANなどによりインターネットを介して配信サーバ10と接続するインタフェースである。
図6は、本実施形態に係る受信装置20の処理を示すフローチャートである。
本処理は、動画の再生が終了するまで、ユーザ操作がある度に繰り返し実行される。
ステップS1において、ユーザ操作検出部201は、ユーザにより動画内の被写体を指定する操作をされた画面上の位置、例えば画面タッチの位置を検出する。
ステップS2において、画面座標取得部202は、ユーザ操作された位置のうち代表点の画面座標を取得する。画面座標取得部202は、例えば前述のように、ユーザ操作検出部201により1点が検出された場合は、この1点を、複数点が検出された場合は、始点から終点の経路を等間隔に分割した複数点を代表点とし、これらの画面座標を取得する。
ステップS3において、座標変換部203は、ステップS2で取得された被写体を指定するための画面座標(u,v)のそれぞれを、カメラ座標パラメータ(θ,φ)に変換する。
ステップS4において、被写体特定部204は、メモリ部212に予め格納されたカメラ座標-被写体コード対応テーブルを参照し、ステップS3で変換されたカメラ座標パラメータを用いて該当する被写体コードを検索することで被写体を特定する。
なお、本ステップの詳細は、図7に詳述する。
ステップS5において、被写体特定部204は、ステップS4の特定処理の結果、ユーザに指定された位置に該当の被写体があるか否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、以降のステップはスキップされ、受信装置20は、動画の再生を継続して新たなユーザ操作を受け付ける。
ステップS6において、配信要求部205は、映像ストリームと、ステップS4で特定された被写体に対応する音声ストリームを、配信サーバ10のストリーム配信部12に要求する。
ステップS7において、ストリーム受信部206は、配信サーバ10のストリーム配信部12から配信される映像ストリームと、特定された被写体に応じて選択された音声ストリームとを受信する。
ステップS8において、映像復号部207と音声復号部209とは、それぞれ受信したストリームから抽出した映像信号にあたるデータと、音声信号にあたるデータとを復号する。
ステップS9において、映像再生部208と音声再生部210とは、それぞれ復号された映像と音声とを再生する。
なお、ユーザ操作によって選択された音声のみ音量を調節するなどの音声素材ごとの音声制御は、既存のオブジェクトベース音響方式などを用いて実現できる。
また、音声再生部210は、被写体コードで対応付けられる被写体のカメラ座標の距離rが近い場合に再生する音声の音量を大きくしたり、被写体の移動に応じて再生する音量を変化させたりしてもよい。
図7は、本実施形態に係る被写体の特定処理を示すフローチャートである。
本処理は、図6のステップS5に相当する。
ステップS51において、被写体特定部204は、取得されたカメラ座標パラメータの数を判定する。パラメータが1組の場合、処理はステップS53に移る。パラメータが2組の場合、処理はステップS52に移る。パラメータが3組以上(n組)の場合、処理はステップS55に移る。
ステップS52において、被写体特定部204は、2組のパラメータの平均値を算出し、1組のカメラ座標パラメータ(θ,φ)とする。そして、パラメータが1組の場合と同様に、処理はステップS53に移る。
ステップS53~S54において、被写体特定部204は、画面タッチなどの位置指定の不確かさ、及び被写体コードに結びつけられたカメラ座標の不確かさなどを考慮して、1組のカメラ座標パラメータ(θ,φ)から段階的に(θ,φ)の範囲を広げ、この範囲に含まれるカメラ座標が対応付けられている被写体コードを抽出する。
具体的には、被写体特定部204は、整数iを、1から予め定めたi_max以下の条件で、該当する被写体コードが見つかるまで増加させ(ステップS53)、4組のカメラ座標パラメータ「(θ+iΔ,φ+iΔ),(θ+iΔ,φ-iΔ),(θ-iΔ,φ+iΔ),(θ-iΔ,φ-iΔ); i=1,2,…,i_max」で指定されるカメラ座標の領域の内部に存在する被写体コードを検索する(ステップS54)。
iがi_maxに達しても該当する被写体コードが見つからない場合、被写体特定部204は、該当の被写体がないと判定する。
なお、Δは、例えば10度などが指定されるが、不確かさの度合いに応じて適宜増減されてよい。
ステップS55において、被写体特定部204は、n組のカメラ座標パラメータ(θ,φ)からθとφそれぞれの最大値及び最小値(θ_max,θ_min,φ_max,φ_min)を、カメラ座標の範囲として抽出する。
ステップS56~S57において、被写体特定部204は、画面タッチなどの位置指定の不確かさ、及び被写体コードに結びつけられたカメラ座標の不確かさなどを考慮して、θ及びφそれぞれの最大値及び最小値で指定されるカメラ座標の範囲を段階的に広げ、この範囲に含まれるカメラ座標が対応付けられている被写体コードを抽出する。
具体的には、被写体特定部204は、整数jを、予め定めたj_max以下の条件で、0から該当する被写体コードが見つかるまで増加させ(ステップS56)、4組のカメラ座標パラメータ「(θ_max+jΔ,φ_max+jΔ),(θ_max+jΔ,φ_min-jΔ),(θ_min-jΔ,φ_max+jΔ),(θ_min-jΔ,φ_min-jΔ); j=0,1,…,j_max」で指定されるカメラ座標の領域の内部に存在する被写体コードを検索する(ステップS57)。
jがj_maxに達しても該当する被写体コードが見つからない場合、被写体特定部204は、該当の被写体がないと判定する。
なお、ユーザ操作の結果を明示的に提示するために、ユーザ操作検出部201は、被写体コードの検索の結果、該当がある場合及びない場合のそれぞれについて、画面上にマーカを表示したり効果音を鳴らしたりといった、フィードバックをユーザに返してもよい。
図8は、本実施形態に係るカメラ座標パラメータが1組取得された場合の、被写体コードを検索する範囲を例示する図である。
この例は、1組のカメラ座標パラメータ(θ1,φ1)が取得された場合に、1段階広くした範囲(θ1-Δ≦θ≦θ1+Δ、φ1-Δ≦φ≦φ1+Δ)と、2段階広くした範囲(θ1-2Δ≦θ≦θ1+2Δ、φ1-2Δ≦φ≦φ1+2Δ)とを示している。
このように、被写体特定部204は、θ及びφの範囲を±Δずつ広げながら、この範囲内にカメラ座標がある被写体を特定する。
図9は、本実施形態に係るカメラ座標パラメータが複数組取得された場合の、被写体コードを検索する範囲を例示する図である。
この例は、3組のカメラ座標パラメータ(θ1,φ1)、(θ2,φ2)、(θ3,φ3)が取得された場合に、初期範囲(θ_min≦θ≦θ_max、φ_min≦φ≦φ_max)と、1段階広くした範囲(θ_min-Δ≦θ≦θ_max+Δ、φ_min-Δ≦φ≦φ_max+Δ)とを示している。なお、この例では、θ_min=θ1、θ_max=θ2、φ_min=φ2、φ_max=φ3である。
このように、被写体特定部204は、θ及びφの範囲を±Δずつ広げながら、この範囲内にカメラ座標がある被写体を特定する。
ここで、被写体を検索するこれらのプロセスは一例であり、別の手法が用いられてもよい。例えば、検索範囲を拡張する単位Δは、方向に応じて異なってもよいし、段階毎に変動させてもよい。
また、検索範囲である領域の形状は、θ及びφの最小値と最大値とを指定した長方形には限られず、例えば、円又は多角形など、適宜設定されてよい。円又は多角形など、カメラ座標パラメータで指定される領域の内部に、被写体コードで対応付けられた被写体のカメラ座標が存在するかどうかの判定は、既存の閉領域の内外判定アルゴリズムなどを用いることで実現できる。
図10は、本実施形態に係る閉領域の内外を判定する第1の手法を例示する図である。
多角形の辺を一周したとき、判定対象の点が常に同じ側(左側又は右側)にある場合、この点は多角形の内部にあると判定できる。この手法は、凸多角形に適用できる。
例えば図の三角形ABCの場合、点Pは、ベクトルの外積(AP)×(AB)、(BP)×(BC)、(CP)×(CA)の符号が一致するので、三角形ABCの内部にあると判定できる。一方、点Qは、3つの外積の符号が一致しないので、三角形ABCの外部にあると判定できる。
図11は、本実施形態に係る閉領域の内外を判定する第2の手法を例示する図である。
判定対象の点と多角形の各辺の両端とがなす角度の和が360度となる場合、この点は多角形の内部にあると判定できる。この手法は、凸な図形に限らず適用可能である。
例えば図の四角形ABCDの場合、点Pは、∠APB+∠BPC+∠CPD+∠DPA=360度となるので、四角形ABCDの内部にあると判定できる。一方、点Qは、4つの角度の和が0度となるので、四角形ABCDの外部にあると判定できる。
本実施形態によれば、配信システム1は、ユーザが画面上でタッチ操作などにより指定した画面座標をカメラ座標パラメータに変換し、このパラメータにより示される領域に含まれる被写体を、カメラ座標-被写体コード対応テーブルを参照することで特定する。この特定した被写体に対応付けられている音声ストリームを選択的に配信することにより、受信装置20において、該当の被写体が発する音声のみを再生したり、あるいは、この被写体の発する音声の音量などを調整したりするサービスが可能となる。
この結果、動画内を移動する被写体に応じた音声をユーザが指定でき、配信システム1は、新たな動画視聴体験を提供できる。
例えば、動物園を撮影した動画内の複数の動物からユーザが所望の動物を選択し、その動物の鳴き声や解説を聞く教育コンテンツ、あるいは、音楽のライブ又はコンサートを撮影した動画内の複数の楽器又は歌手から聞きたい音声を発する被写体をユーザが選択し、選択した音声を強調して聞くことのできる娯楽コンテンツなどが提供可能となる。
受信装置20は、画面座標から極座標系におけるカメラ位置からの距離rを除く角度θ及びφを決定することにより、カメラ座標-被写体コード対応テーブルに予め格納された極座標系のカメラ座標と2次元で比較でき、指定された範囲内に存在する被写体を容易に検索できる。
また、受信装置20は、特定された被写体のカメラ位置からの距離に応じて、音声の再生音量を調整できる。これにより、受信装置20は、動画内の被写体の状況に応じた音声をユーザに提示できる。
配信システム1は、ユーザの指定した箇所から複数の被写体が抽出された場合に、これら複数の被写体に対応する複数の音声を受信装置20に送信できる。これにより、受信装置20は、特定された複数の被写体に対応する音声を同時に再生して、ユーザの要求に応えることができる。
あるいは、受信装置20は、カメラ位置からの距離が近い被写体を優先して選択し、この被写体に対応する音声ストリームを受信することで、画面に実際に表示されている被写体を適切に特定して音声を再生できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
本実施形態では、カメラ座標を3次元で表現したが、カメラ座標-被写体コード対応テーブルに2次元で格納されてもよい。
また、本実施形態では、配信サーバ10がテーブル配信部11と、ストリーム配信部12とを備える構成としたが、これらの機能部は、複数のサーバ装置に分散配置されてもよい。
本実施形態では、主に配信システム1の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、動画を配信するための方法、又はプログラムとして構成されてもよい。
さらに、配信システム1の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
さらに、「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 配信システム
10 配信サーバ
11 テーブル配信部(対応データ送信部)
12 ストリーム配信部(動画送信部、音声選択部)
20 受信装置
30 テーブル生成装置
40 エンコード装置
201 ユーザ操作検出部(操作検出部)
202 画面座標取得部
203 座標変換部
204 被写体特定部
205 配信要求部(被写体通知部)
206 ストリーム受信部(動画受信部)
207 映像復号部
208 映像再生部(動画再生部)
209 音声復号部
210 音声再生部(動画再生部)
211 対応データ受信部
212 メモリ部
213 通信インタフェース

Claims (7)

  1. 動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、配信サーバから受信する動画受信部と、
    前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記配信サーバから受信する対応データ受信部と、
    受信された映像及び音声を再生する動画再生部と、
    前記映像が再生された画面上で、ユーザの操作により指定された位置を検出する操作検出部と、
    検出された前記位置のうち、代表点の画面座標を取得する画面座標取得部と、
    前記画面座標を、カメラ座標系における領域を示すパラメータに変換する座標変換部と、
    前記パラメータにより示される領域に基づいて、前記対応データから前記被写体コードを抽出する被写体特定部と、
    特定された前記被写体コードを前記配信サーバへ通知することで前記音声を選択する被写体通知部と、を備える受信装置。
  2. 前記カメラ座標は、3次元座標で記録され、
    前記座標変換部は、前記パラメータとして、極座標系におけるカメラ位置からの距離を除く角度を決定する請求項1に記載の受信装置。
  3. 前記動画再生部は、特定された前記被写体に対応するカメラ座標から得られる前記カメラ位置からの距離に応じて、音声の再生音量を調整する請求項2に記載の受信装置。
  4. 前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードを前記配信サーバへ通知し、
    前記動画再生部は、前記動画受信部により受信した複数の音声を同時に再生する請求項1から請求項3のいずれかに記載の受信装置。
  5. 前記被写体通知部は、前記被写体特定部により複数の被写体コードが抽出された場合、当該複数の被写体コードのうち、前記カメラ位置からの距離がより短い被写体コードを優先して前記配信サーバへ通知する請求項2又は請求項3に記載の受信装置。
  6. 動画を構成する映像、及び複数の被写体それぞれに対応する音声のうち選択された音声を、受信装置へ送信する動画送信部と、
    前記映像の被写体を示す被写体コードと当該被写体のカメラ座標とを対応付けた時系列の対応データを、前記受信装置へ送信する対応データ送信部と、
    前記受信装置において前記映像が再生された画面上で、ユーザの操作により指定された位置のうち、代表点の画面座標がカメラ座標系における領域を示すパラメータに変換されると、当該パラメータにより示される領域に基づいて前記対応データから抽出された前記被写体コードを受信し、当該被写体コードに対応する音声を選択する音声選択部と、を備える配信サーバ。
  7. 請求項1から請求項5のいずれかに記載の受信装置としてコンピュータを機能させるための受信プログラム。
JP2019068875A 2019-03-29 2019-03-29 受信装置、配信サーバ及び受信プログラム Active JP7236914B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019068875A JP7236914B2 (ja) 2019-03-29 2019-03-29 受信装置、配信サーバ及び受信プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019068875A JP7236914B2 (ja) 2019-03-29 2019-03-29 受信装置、配信サーバ及び受信プログラム

Publications (2)

Publication Number Publication Date
JP2020167629A JP2020167629A (ja) 2020-10-08
JP7236914B2 true JP7236914B2 (ja) 2023-03-10

Family

ID=72716166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019068875A Active JP7236914B2 (ja) 2019-03-29 2019-03-29 受信装置、配信サーバ及び受信プログラム

Country Status (1)

Country Link
JP (1) JP7236914B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240031618A1 (en) * 2020-12-22 2024-01-25 Alien Music Enterprise Inc. Management server

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007048068A (ja) 2005-08-10 2007-02-22 Canon Inc 情報処理方法および装置
JP2007184792A (ja) 2006-01-06 2007-07-19 Samii Kk コンテンツ再生装置及びコンテンツ再生プログラム
JP2010193274A (ja) 2009-02-19 2010-09-02 Nikon Corp 情報処理装置、撮像装置、プログラム及びプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2015008538A1 (ja) 2013-07-19 2015-01-22 ソニー株式会社 情報処理装置および情報処理方法
WO2018198789A1 (ja) 2017-04-26 2018-11-01 ソニー株式会社 信号処理装置および方法、並びにプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204532A (ja) * 1992-01-30 1993-08-13 Fujitsu Ltd 座標位置指定方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007048068A (ja) 2005-08-10 2007-02-22 Canon Inc 情報処理方法および装置
JP2007184792A (ja) 2006-01-06 2007-07-19 Samii Kk コンテンツ再生装置及びコンテンツ再生プログラム
JP2010193274A (ja) 2009-02-19 2010-09-02 Nikon Corp 情報処理装置、撮像装置、プログラム及びプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2015008538A1 (ja) 2013-07-19 2015-01-22 ソニー株式会社 情報処理装置および情報処理方法
WO2018198789A1 (ja) 2017-04-26 2018-11-01 ソニー株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP2020167629A (ja) 2020-10-08

Similar Documents

Publication Publication Date Title
JP7409362B2 (ja) 再生装置および方法、並びにプログラム
JP6449494B2 (ja) 再生装置
KR101591535B1 (ko) 컨텐츠 및 메타데이터를 사용하는 기법
US9148756B2 (en) Output of content from the internet on a media rendering device
US8468569B2 (en) Content delivery system and method, and server apparatus and receiving apparatus used in this content delivery system
US10911809B2 (en) Communication apparatus, communication method, and program
JP2007174642A (ja) ストリーミング再生中にコンテンツ再生装置を変更する方法及び該装置
JP7236914B2 (ja) 受信装置、配信サーバ及び受信プログラム
JP7396267B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6530820B2 (ja) マルチメディア情報再生方法及びシステム、採集デバイス、標準サーバ
WO2020189051A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
US11341976B2 (en) Transmission apparatus, transmission method, processing apparatus, and processing method
JP7314929B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2021508193A (ja) キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法
KR20180109199A (ko) 통신망을 이용한 방송 관련 서비스 제공 방법 및 이를 위한 장치
JP2021033354A (ja) 通信装置およびその制御方法
Seo et al. Bandwidth-Efficient Transmission Method for User View-Oriented Video Services
JP2021002811A (ja) 配信サーバ、配信方法及びプログラム
JP2017152970A (ja) 通信システム、動画サーバ装置、端末装置、通信方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230228

R150 Certificate of patent or registration of utility model

Ref document number: 7236914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150