JP2023040294A - 再生装置、再生方法、およびプログラム - Google Patents

再生装置、再生方法、およびプログラム Download PDF

Info

Publication number
JP2023040294A
JP2023040294A JP2023007068A JP2023007068A JP2023040294A JP 2023040294 A JP2023040294 A JP 2023040294A JP 2023007068 A JP2023007068 A JP 2023007068A JP 2023007068 A JP2023007068 A JP 2023007068A JP 2023040294 A JP2023040294 A JP 2023040294A
Authority
JP
Japan
Prior art keywords
audio
data
objects
audio object
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023007068A
Other languages
English (en)
Inventor
徹 知念
Toru Chinen
実 辻
Minoru Tsuji
優樹 山本
Yuki Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of JP2023040294A publication Critical patent/JP2023040294A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減できるようにする。【解決手段】本技術の一側面の再生装置は、複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得し、統合オーディオオブジェクトのデータと他のオーディオオブジェクトのデータとを再生する。本技術は、オブジェクトベースのオーディオデータの処理が可能な装置に適用することができる。【選択図】図2

Description

本技術は、再生装置、再生方法、およびプログラムに関し、特に、複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減できるようにした再生装置、再生方法、およびプログラムに関する。
映像技術の取り組みとして自由視点映像技術が注目されている。複数のカメラによって撮影された多方向からの画像を組み合わせることによって対象物をポイントクラウド(point cloud)の動画像として保持し、見る方向や距離に応じた映像を生成するような技術がある(非特許文献1)。
自由視点での映像の視聴が実現すると、音響についても、視点に応じて、あたかもその場所にいるかのような音響を聞きたいという要望が出てくる。そこで、近年、オブジェクトベースのオーディオ技術が注目されている。オブジェクトベースのオーディオデータの再生は、各オーディオオブジェクトの波形データを、再生側のシステムに合わせた所望のチャンネル数の信号にメタデータに基づいてレンダリングするようにして行われる。
筑波大学ホームページ、"HOMETSUKUBA FUTURE-#042:自由視点映像でスポーツ観戦をカスタマイズ"、[平成29年3月22日検索]、<URL: http://www.tsukuba.ac.jp/notes/042/index.html >
オブジェクトベースのオーディオデータを伝送する場合、伝送すべきオーディオオブジェクトの数が多いほど、データの伝送量も多くなる。
本技術はこのような状況に鑑みてなされたものであり、複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減できるようにするものである。
本技術の一側面の情報処理装置は、複数の想定聴取位置の中から選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得する取得部と、前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する再生部と備える。
本技術の一側面においては、複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとが取得され、前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとが再生される。
本技術によれば、複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係る伝送システムの構成例を示す図である。 伝送されるオブジェクトの種類の例を示す図である。 各オブジェクトの配置例を示す平面図である。 会場を斜め方向から見た図である。 各オブジェクトの配置例を示す正面図である。 各オブジェクトの配置例を示す平面図である。 統合オブジェクトを含む各オブジェクトの配置例を示す平面図である。 統合オブジェクトを含む各オブジェクトの配置例を示す正面図である。 コンテンツ生成装置の構成例を示すブロック図である。 コンテンツ生成装置の機能構成例を示すブロック図である。 再生装置の機能構成例を示すブロック図である。 コンテンツ生成装置のコンテンツ生成処理について説明するフローチャートである。 コンテンツ生成装置の統合処理について説明するフローチャートである。 コンテンツ生成装置の伝送処理について説明するフローチャートである。 再生装置の再生処理について説明するフローチャートである。 オブジェクトの他の配置の例を示す図である。 オブジェクトの纏め方の他の例を示す図である。 オブジェクトの纏め方のさらに他の例を示す図である。 フラグ情報の伝送例を示す図である。 フラグ情報の他の伝送例を示す図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.伝送システムの構成
2.オブジェクトの纏め方
3.各装置の構成例
4.各装置の動作
5.オブジェクトの纏め方の変形例
6.変形例
<<伝送システムの構成>>
図1は、本技術の一実施形態に係る伝送システムの構成例を示す図である。
図1の伝送システムは、コンテンツ生成装置1と再生装置2が、インターネット3を介して接続されることによって構成される。
コンテンツ生成装置1は、コンテンツの制作者により管理される装置であり、音楽ライブが行われている会場#1に設置される。コンテンツ生成装置1により生成されたコンテンツは、インターネット3を介して再生装置2に伝送される。コンテンツの配信が図示せぬサーバを介して行われるようにしてもよい。
一方、再生装置2は、コンテンツ生成装置1により生成された音楽ライブのコンテンツを視聴するユーザの自宅に設置される装置である。図1の例においては、コンテンツの配信を受ける再生装置として再生装置2のみが示されているが、実際には多くの再生装置がインターネット3に接続される。
コンテンツ生成装置1によって生成されるコンテンツの映像は、視点を切り替えることが可能な映像である。また、コンテンツの音声も、例えば映像の視点の位置と同じ位置を聴取位置とするように、視点(想定聴取位置)を切り替えることが可能な音声である。視点が切り替えられた場合、音の定位が切り替わる。
コンテンツの音声は、オブジェクトベースのオーディオとして用意される。コンテンツに含まれるオーディオデータには、それぞれのオーディオオブジェクトのオーディオ波形データと、各オーディオオブジェクトの音源を定位させるためのメタデータとしてのレンダリングパラメータが含まれる。以下、適宜、オーディオオブジェクトを単にオブジェクトという。
再生装置2のユーザは、用意された複数の視点の中から任意の視点を選択し、視点に応じた映像と音声でコンテンツを視聴することができる。
コンテンツ生成装置1から再生装置2に対しては、ユーザが選択した視点から見たときの映像のビデオデータと、ユーザが選択した視点のオブジェクトベースのオーディオデータを含むコンテンツが提供される。例えば、このようなオブジェクトベースのオーディオデータは、MPEG-H 3D Audioなどの所定の方式で圧縮した形で伝送される。
なお、MPEG-H 3D Audioについては、「ISO/IEC 23008-3:2015“Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio”,< https://www.iso.org/standard/63878.html>」に開示されている。
以下、オーディオデータに関する処理について主に説明する。図1に示すように、会場#1で行われている音楽ライブは、ベース、ドラム、ギター1(メインギター)、ギター2(サイドギター)、およびボーカルを担当する5人がステージ上で演奏を行うライブであるものとする。ベース、ドラム、ギター1、ギター2、およびボーカルをそれぞれオブジェクトとして、各オブジェクトのオーディオ波形データと、視点毎のレンダリングパラメータがコンテンツ生成装置1において生成される。
図2は、コンテンツ生成装置1から伝送されるオブジェクトの種類の例を示す図である。
例えば、複数の視点の中から視点1がユーザにより選択された場合、図2のAに示すように、ベース、ドラム、ギター1、ギター2、およびボーカルの5種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データと、視点1用の、各オブジェクトのレンダリングパラメータが含まれる。
また、視点2がユーザにより選択された場合、図2のBに示すように、ギター1とギター2が1つのオブジェクトであるギターとして纏められ、ベース、ドラム、ギター、およびボーカルの4種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター、およびボーカルの各オブジェクトのオーディオ波形データと、視点2用の、各オブジェクトのレンダリングパラメータが含まれる。
視点2は、例えば同じ方向から聞こえるために、人間の聴覚上、ギター1の音とギター2の音を弁別することができない位置に設定されている。このように、ユーザが選択した視点において弁別することができないオブジェクトについては、1つのオブジェクトとして纏められてデータの伝送が行われる。
選択された視点に応じて、適宜、オブジェクトを纏めてデータの伝送を行うことにより、データの伝送量を削減することが可能になる。
<<オブジェクトの纏め方>>
ここで、オブジェクトの纏め方について説明する。
(1)複数のオブジェクトがあると仮定する。
オブジェクトのオーディオ波形データは下のように定義される。
x(n,i) i=0,1,2,…,L-1
nは時間インデックスである。また、iはオブジェクトの種類を表す。ここでは、オブジェクトの数はLである。
(2)複数の視点があると仮定する。
各視点に対応するオブジェクトのレンダリング情報は下のように定義される。
r(i,j) j=0,1,2,…,M-1
jは視点の種類を表す。視点の数はMである。
(3)各視点に対応するオーディオデータy(n,j)は下式(1)により表される。
Figure 2023040294000002
ここでは、レンダリング情報rは利得(ゲイン情報)であると仮定する。この場合、レンダリング情報rの値域は0~1である。各視点のオーディオデータは、各オブジェクトのオーディオ波形データに利得をかけ、全オブジェクトのオーディオ波形データを加算したものとして表される。式(1)に示すような演算が、再生装置2において行われる。
(4)視点において音を弁別できない複数のオブジェクトが纏めて伝送される。例えば、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして選択される。一方、距離が近く、視点において音を弁別可能なオブジェクトについては、纏めることなく、独立したオブジェクトとして伝送される。
(5)各視点に対応するオブジェクトのレンダリング情報は、オブジェクトの種類、オブジェクトの位置、および視点の位置によって下のように定義される。
r(obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z)
obj_typeは、オブジェクトの種類を示す情報であり、例えば楽器の種類を示す。
obj_loc_x, obj_loc_y, obj_loc_zは、三次元空間上のオブジェクトの位置を示す情報である。
lis_loc_x, lis_loc_y, lis_loc_zは、三次元空間上の視点の位置を示す情報である。
独立して伝送するオブジェクトについては、このような、obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_zから構成されるパラメータ情報が、レンダリング情報rとともに伝送される。レンダリングパラメータは、パラメータ情報とレンダリング情報から構成される。
以下、具体的に説明する。
(6)例えば、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトが図3に示すように配置されるものとする。図3は、会場#1にあるステージ#11を真上から見た図である。
(7)会場#1に対して、図4に示すようにXYZの各軸が設定される。図4は、ステージ#11と観覧席を含む会場#1全体を斜め方向から見た図である。原点Oはステージ#11上の中心位置である。観覧席には、視点1と視点2が設定されている。
各オブジェクトの座標が以下のように表されるものとする。単位はメートルである。
ベースの座標 :x=-20, y=0, z=0
ドラムの座標 :x=0, y=-10, z=0
ギター1の座標:x=20, y=0, z=0
ギター2の座標:x=30, y=0, z=0
ボーカルの座標:x=0, y=10, z=0
(8)各視点の座標が以下のように表されるものとする。
視点1:x=25, y=30, z=-1
視点2:x=-35, y=30, z=-1
なお、図における各オブジェクトおよび各視点の位置は、あくまで位置関係のイメージを表すものであり、上記各数値を正確に反映させた位置ではない。
(9)このとき、視点1の各オブジェクトのレンダリング情報は、以下のように表される。
ベースのレンダリング情報
:r(0, -20, 0, 0, 25, 30, -1)
ドラムのレンダリング情報
:r(1, 0, -10, 0, 25, 30, -1)
ギター1のレンダリング情報
:r(2, 20, 0, 0, 25, 30, -1)
ギター2のレンダリング情報
:r(3, 30, 0, 0, 25, 30, -1)
ボーカルのレンダリング情報
:r(4, 0, 10, 0, 25, 30, -1)
各オブジェクトのobj_typeは以下の値をとるものとする。
ベース :obj_type=0
ドラム :obj_type=1
ギター1:obj_type=2
ギター2:obj_type=3
ボーカル:obj_type=4
視点2についても、以上のようにして表されるパラメータ情報とレンダリング情報を含むレンダリングパラメータがコンテンツ生成装置1において生成される。
(10)上式(1)から、視点1(j=0)を選択した場合のオーディオデータは下式(2)のように表される。
Figure 2023040294000003
ただし、x(n,i)について、iは以下のオブジェクトを表すものとする。
i=0:ベースのオブジェクト
i=1:ドラムのオブジェクト
i=2:ギター1のオブジェクト
i=3:ギター2のオブジェクト
i=4:ボーカルのオブジェクト
視点1から見た各オブジェクトの配置例を図5のAに示す。図5のAにおいて、薄い色をつけて示す下方の部分はステージ#11の側面を示す。他の図においても同様である。
(11)同様に、視点2(j=1)を選択した場合のオーディオデータは下式(3)のように表される。
Figure 2023040294000004
視点2から見た各オブジェクトの配置例を図5のBに示す。
(12)ここで、図6に示すように、視点1を基準としたときのギター1の方向とギター2の方向の水平方向の角度である角度θ1と、視点2を基準としたときのギター1の方向とギター2の方向の水平方向の角度である角度θ2は異なる。角度θ1に対して、角度θ2は狭い。
図6は、各オブジェクトと視点の位置関係を示す平面図である。角度θ1は、視点1とギター1を結ぶ破線A1-1と視点1とギター2を結ぶ破線A1-2の間の角度である。また、角度θ2は、視点2とギター1を結ぶ破線A2-1と視点2とギター2を結ぶ破線A2-2の間の角度である。
(13)角度θ1は、人間の聴覚上、弁別可能、すなわち、ギター1の音とギター2の音が異なる方向から聞こえる音として識別可能な角度であるものとする。一方、角度θ2は、人間の聴覚上、弁別が不可能な角度であるものとする。このとき、視点2のオーディオデータは、下式(4)のようにして置き換えることが可能である。
Figure 2023040294000005
式(4)において、x(n,5)は、下式(5)により表される。
Figure 2023040294000006
すなわち、式(5)は、ギター1とギター2を1つのオブジェクトとして纏め、その1つのオブジェクトのオーディオ波形データを、ギター1のオーディオ波形データとギター2のオーディオ波形データの和として表したものである。ギター1とギター2を纏めた1つのオブジェクトである統合オブジェクトのobj_typeは、obj_type=5とされている。
また、統合オブジェクトのレンダリング情報は、ギター1のレンダリング情報とギター2のレンダリング情報の平均として、例えば下式(6)により表される。
Figure 2023040294000007
このように、obj_type=5として表される統合オブジェクトについては、オーディオ波形データをx(n,5)とするとともに、レンダリング情報をr(5, 25, 0, 0, -35, 30, -1)として処理が行われる。ギター1とギター2を1つのオブジェクトとして纏めた場合の各オブジェクトの配置の例を図7に示す。
視点2から見た、統合オブジェクトを含む各オブジェクトの配置例を図8に示す。視点2における映像にはギター1とギター2がそれぞれ映っているが、オーディオオブジェクトとしては、1つのギターのみが配置されることになる。
(14)このように、選択された視点において聴覚上弁別できないオブジェクトについては、纏められて1つのオブジェクトとしてデータの伝送が行われる。
これにより、コンテンツ生成装置1は、データを伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。また、レンダリングを行うオブジェクトの数が少ないため、再生装置2は、レンダリングに要する計算量を削減することが可能になる。
なお、図6の例においては、視点2から見た水平角が角度θ2の範囲内にあるオブジェクトとしてギター1、ギター2の他にボーカルがあるが、ボーカルは、視点2からの距離が近く、ギター1、ギター2とは弁別可能なオブジェクトである。
<<各装置の構成例>>
<コンテンツ生成装置1の構成>
図9は、コンテンツ生成装置1の構成例を示すブロック図である。
CPU(Central Processing Unit)21、ROM(Read Only Memory)22、RAM(Random Access Memory)23は、バス24により相互に接続される。バス24には、さらに入出力インタフェース25が接続される。入出力インタフェース25には、入力部26、出力部27、記憶部28、通信部29、およびドライブ30が接続される。
入力部26は、キーボード、マウスなどにより構成される。入力部26は、ユーザの操作の内容を表す信号を出力する。
出力部27は、LCD(Liquid Crystal Display)、有機ELディスプレイなどのディスプレイや、スピーカにより構成される。
記憶部28は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部28は、CPU21により実行されるプログラム、コンテンツなどの各種のデータを記憶する。
通信部29は、ネットワークインタフェースなどより構成され、インターネット3を介して外部の装置と通信を行う。
ドライブ30は、装着されたリムーバブルメディア31に対するデータの書き込み、リムーバブルメディア31に記録されたデータの読み出しを行う。
図9に示すような構成と同じ構成を再生装置2も有している。以下、適宜、図9に示す構成を再生装置2の構成として引用して説明する。
図10は、コンテンツ生成装置1の機能構成例を示すブロック図である。
図10に示す構成のうちの少なくとも一部は、図9のCPU21により所定のプログラムが実行されることによって実現される。コンテンツ生成装置1においては、オーディオエンコーダ51、メタデータエンコーダ52、オーディオ生成部53、ビデオ生成部54、コンテンツ記憶部55、および伝送制御部56が実現される。
オーディオエンコーダ51は、図示せぬマイクロホンにより集音された音楽ライブ中の音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。
メタデータエンコーダ52は、コンテンツ制作者による操作に従って、各オブジェクトのレンダリングパラメータを視点毎に生成する。会場#1に設定された複数の視点のそれぞれのレンダリングパラメータがメタデータエンコーダ52により生成される。
オーディオ生成部53は、オーディオエンコーダ51により生成されたオーディオ波形データとメタデータエンコーダ52により生成されたレンダリングパラメータを対応付けることによって、オブジェクトベースの各視点のオーディオデータを生成する。オーディオ生成部53は、生成した各視点のオーディオデータをコンテンツ記憶部55に出力する。
オーディオ生成部53においては、統合部61が実現される。統合部61は、適宜、オブジェクトの統合を行う。例えば、統合部61は、コンテンツ記憶部55に記憶された各視点のオーディオデータを読み出し、統合可能なオブジェクトを統合して、統合後のオーディオデータをコンテンツ記憶部55に記憶させる。
ビデオ生成部54は、各視点の位置に設置されたカメラにより撮影されたビデオデータを取得し、所定の符号化方式で符号化することによって各視点のビデオデータを生成する。ビデオ生成部54は、生成した各視点のビデオデータをコンテンツ記憶部55に出力する。
コンテンツ記憶部55は、オーディオ生成部53により生成された各視点のオーディオデータとビデオ生成部54により生成された各視点のビデオデータを対応付けて記憶する。
伝送制御部56は、通信部29を制御し、再生装置2と通信を行う。伝送制御部56は、再生装置2のユーザにより選択された視点を表す情報である選択視点情報を受信し、選択された視点に応じたビデオデータとオーディオデータからなるコンテンツを再生装置2に送信する。
<再生装置2の構成>
図11は、再生装置2の機能構成例を示すブロック図である。
図11に示す構成のうちの少なくとも一部は、図9のCPU21により所定のプログラムが実行されることによって実現される。再生装置2においては、コンテンツ取得部71、分離部72、オーディオ再生部73、およびビデオ再生部74が実現される。
コンテンツ取得部71は、ユーザにより視点が選択された場合、通信部29を制御し、選択視点情報をコンテンツ生成装置1に送信する。コンテンツ取得部71は、選択視点情報を送信することに応じてコンテンツ生成装置1から送信されてきたコンテンツを受信して取得する。コンテンツ生成装置1からは、ユーザにより選択された視点に応じたビデオデータとオーディオデータを含むコンテンツが送信されてくる。コンテンツ取得部71は、取得したコンテンツを分離部72に出力する。
分離部72は、コンテンツ取得部71から供給されたコンテンツに含まれるビデオデータとオーディオデータを分離する。分離部72は、コンテンツのビデオデータをビデオ再生部74に出力し、オーディオデータをオーディオ再生部73に出力する。
オーディオ再生部73は、分離部72から供給されたオーディオデータを構成するオーディオ波形データをレンダリングパラメータに基づいてレンダリングし、コンテンツの音声を、出力部27を構成するスピーカから出力させる。
ビデオ再生部74は、分離部72から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像を、出力部27を構成するディスプレイに表示させる。
コンテンツの再生に用いられるスピーカとディスプレイが、再生装置2に接続された外部の機器として用意されるようにしてもよい。
<<各装置の動作>>
次に、以上のような構成を有するコンテンツ生成装置1と再生装置2の動作について説明する。
<コンテンツ生成装置1の動作>
・コンテンツ生成処理
はじめに、図12のフローチャートを参照して、コンテンツを生成するコンテンツ生成装置1の処理について説明する。
図12の処理は、例えば、音楽ライブが開始され、各視点のビデオデータと、各オブジェクトの音声信号がコンテンツ生成装置1に入力されたときに開始される。
会場#1には複数のカメラが設置されており、それらのカメラにより撮影された映像がコンテンツ生成装置1に入力される。また、会場#1の各オブジェクトの近くにマイクが設置されており、それらのマイクにより収音された音声信号がコンテンツ生成装置1に入力される。
ステップS1において、ビデオ生成部54は、各視点用のカメラにより撮影されたビデオデータを取得し、各視点のビデオデータを生成する。
ステップS2において、オーディオエンコーダ51は、各オブジェクトの音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。上述した例の場合、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データが生成される。
ステップS3において、メタデータエンコーダ52は、コンテンツ制作者による操作に従って、各視点における、各オブジェクトのレンダリングパラメータを生成する。
例えば、上述したように視点1と視点2が会場#1に設定されている場合、視点1におけるベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのレンダリングパラメータのセットと、視点2におけるベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのレンダリングパラメータのセットが生成される。
ステップS4において、コンテンツ記憶部55は、オーディオデータとビデオデータを視点毎に対応付けることによって、各視点用のコンテンツを生成し、記憶する。
以上の処理が、音楽ライブが行われている間、繰り返し行われる。例えば音楽ライブが終了したとき、図12の処理は終了される。
・オブジェクト統合処理
次に、図13のフローチャートを参照して、オブジェクトを統合するコンテンツ生成装置1の処理について説明する。
例えば、図13の処理は、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データと、各視点における、各オブジェクトのレンダリングパラメータのセットが生成された後の所定のタイミングで行われる。
ステップS11において、統合部61は、レンダリングパラメータが生成された複数の視点のうちの、所定の1つの視点に注目する。
ステップS12において、統合部61は、レンダリングパラメータに含まれるパラメータ情報に基づいて各オブジェクトの位置を特定し、注目する視点を基準とした、各オブジェクトまでの距離を求める。
ステップS13において、統合部61は、注目する視点からの距離が遠いオブジェクトが複数あるか否かを判定する。例えば、閾値として予め設定された距離以上離れた位置にあるオブジェクトが、距離が遠いオブジェクトとして扱われる。距離が遠いオブジェクトが複数ないとステップS13において判定された場合、ステップS11に戻り、注目する視点を切り替えて以上の処理が繰り返される。
一方、距離が遠いオブジェクトが複数あるとステップS13において判定された場合、処理はステップS14に進む。注目する視点として視点2が選択されている場合、例えば、ドラム、ギター1、ギター2が、距離が遠いオブジェクトとして判定される。
ステップS14において、統合部61は、距離が遠い複数のオブジェクトが、所定の水平角の範囲内にあるか否かを判定する。すなわち、この例においては、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして処理されることになる。
距離が遠い複数のオブジェクトが所定の水平角の範囲内にないとステップS14において判定した場合、ステップS15において、統合部61は、注目している視点については、全てのオブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、上述した視点1が選択された場合と同様に、全てのオブジェクトのオーディオ波形データと、その視点の各オブジェクトのレンダリングパラメータが伝送されることになる。
一方、距離が遠い複数のオブジェクトが所定の水平角の範囲内にあるとステップS14において判定した場合、ステップS16において、統合部61は、距離が遠く所定の水平角の範囲内にある複数のオブジェクトを纏め、統合オブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、統合オブジェクトのオーディオ波形データとレンダリングパラメータが、統合されていない独立のオブジェクトのオーディオ波形データとレンダリングパラメータとともに伝送されることになる。
ステップS17において、統合部61は、距離が遠く所定の水平角の範囲内にあるオブジェクトのオーディオ波形データの和を求めることによって、統合オブジェクトのオーディオ波形データを生成する。この処理は、上式(5)を計算する処理に相当する。
ステップS18において、統合部61は、距離が遠く、所定の水平角の範囲内にあるオブジェクトのレンダリングパラメータの平均を求めることによって、統合オブジェクトのレンダリングパラメータを生成する。この処理は、上式(6)を計算する処理に相当する。
統合オブジェクトのオーディオ波形データとレンダリングパラメータはコンテンツ記憶部55に記憶され、注目している視点が選択されたときに伝送するデータとして管理される。
ステップS15において伝送対象が設定された後、または、ステップS18において統合オブジェクトのレンダリングパラメータが生成された後、ステップS19において、統合部61は、全ての視点に注目したか否かを判定する。注目していない視点があるとステップS19において判定された場合、ステップS11に戻り、注目する視点を切り替えて以上の処理が繰り返される。
一方、全ての視点に注目したとステップS19において判定された場合、図13の処理は終了となる。
以上の処理により、ある視点において音を弁別できないオブジェクトについては、統合オブジェクトとして纏められることになる。
図13の処理が、選択視点情報が再生装置2から送信されてきたことに応じて行われるようにしてもよい。この場合、ユーザにより選択された視点に注目して図13の処理が行われ、適宜、オブジェクトの統合が行われることになる。
視点からの距離が遠く、かつ、視点から見た水平角が所定の角度の範囲内にあるオブジェクトではなく、単に、視点からの距離が遠いオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。また、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。
オブジェクト間の距離が算出され、閾値の距離より近くにあるオブジェクトが統合オブジェクトとして纏められるようにしてもよい。
一方のオブジェクトのオーディオ波形データが、他方のオブジェクトのオーディオ波形データをマスクする成分の量が閾値より多い場合に、それらのオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。このように、音を弁別できないオブジェクトの判定の仕方は任意である。
・コンテンツ伝送処理
次に、図14のフローチャートを参照して、コンテンツを伝送するコンテンツ生成装置1の処理について説明する。
例えば、図14の処理は、コンテンツの伝送を開始することが再生装置2から要求され、選択視点情報が再生装置2から送信されてきたときに開始される。
ステップS31において、伝送制御部56は、再生装置2から送信されてきた選択視点情報を受信する。
ステップS32において、伝送制御部56は、再生装置2のユーザにより選択された視点のビデオデータ、および、選択された視点における各オブジェクトのオーディオ波形データとレンダリングパラメータをコンテンツ記憶部55から読み出し、伝送する。統合されたオブジェクトについては、統合オブジェクトのオーディオデータとして生成されたオーディオ波形データとレンダリングパラメータが伝送される。
以上の処理が、コンテンツの伝送が終了するまで繰り返し行われる。コンテンツの伝送が終了したとき、図14の処理は終了される。
<再生装置2の動作>
次に、図15のフローチャートを参照して、コンテンツを再生する再生装置2の処理について説明する。
ステップS101において、コンテンツ取得部71は、ユーザにより選択された視点を表す情報を選択視点情報としてコンテンツ生成装置1に送信する。
例えばコンテンツの視聴開始前、複数用意されている視点のうちのどの視点でコンテンツを視聴するのかの選択に用いられる画面が、コンテンツ生成装置1から送信されてきた情報に基づいて表示される。選択視点情報を送信することに応じて、コンテンツ生成装置1からは、ユーザが選択した視点のビデオデータとオーディオデータを含むコンテンツが送信されてくる。
ステップS102において、コンテンツ取得部71は、コンテンツ生成装置1から送信されてきたコンテンツを受信して取得する。
ステップS103において、分離部72は、コンテンツに含まれるビデオデータとオーディオデータを分離する。
ステップS104において、ビデオ再生部74は、分離部72から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像をディスプレイに表示させる。
ステップS105において、オーディオ再生部73は、分離部72から供給されたオーディオデータに含まれる各オブジェクトのオーディオ波形データを、各オブジェクトのレンダリングパラメータに基づいてレンダリングし、音声をスピーカから出力させる。
以上の処理が、コンテンツの再生が終了するまで繰り返し行われる。コンテンツの再生が終了したとき、図15の処理は終了される。
以上のような一連の処理により、伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。
<<オブジェクトの纏め方の変形例>>
(1)伝送ビットレートに応じた纏め方
伝送ビットレートに応じて最大オブジェクト数が決定され、それを超えないようにオブジェクトが纏められるようにしてもよい。
図16は、オブジェクトの他の配置の例を示す図である。図16は、ベース、ドラム、ギター1、ギター2、ボーカル1~6、ピアノ、トランペット、サックスによる演奏の例を示す。図16の例においては、ステージ#11を正面から見る視点3が設定されている。
例えば、伝送ビットレートに応じた最大オブジェクト数が3であり、視点3が選択された場合、上述したような角度による判定に基づいて、ピアノ、ベース、ボーカル1、ボーカル2が1つ目のオブジェクトとして纏められる。ピアノ、ベース、ボーカル1、ボーカル2は、視点3を基準としてステージ#11の左方に向けて設定された、破線A11と破線A12の間の角度の範囲内にあるオブジェクトである。
同様に、ドラム、ボーカル3、ボーカル4が2つ目のオブジェクトとして纏められる。ドラム、ボーカル3、ボーカル4は、ステージ#11の中央に向けて設定された、破線A12と破線A13の間の角度の範囲内にあるオブジェクトである。
また、トランペット、サックス、ギター1、ギター2、ボーカル5、ボーカル6が3つ目のオブジェクトとして纏められる。トランペット、サックス、ギター1、ギター2、ボーカル5、ボーカル6は、ステージ#11の右方に向けて設定された、破線A13と破線A14の間の角度の範囲内にあるオブジェクトである。
上述したようにして各オブジェクト(統合オブジェクト)のオーディオ波形データとレンダリングパラメータが生成され、3つのオブジェクトのオーディオデータが伝送される。このように、統合オブジェクトとして纏めるオブジェクトの数を3以上とすることも可能である。
図17は、オブジェクトの纏め方の他の例を示す図である。例えば、伝送ビットレートに応じた最大オブジェクト数が6であり、視点3が選択された場合、上述したような角度と距離による判定に基づいて、図17の破線で区切って示すようにして各オブジェクトが纏められる。
図17の例においては、ピアノとベースが1つ目のオブジェクトとして纏められ、ボーカル1とボーカル2が2つ目のオブジェクトとして纏められている。また、ドラムが独立の3つ目のオブジェクトとされ、ボーカル3とボーカルが4つ目のオブジェクトとして纏められている。トランペット、サックス、ギター1、ギター2が5つ目のオブジェクトとして纏められ、ボーカル5、ボーカル6が6つ目のオブジェクトとして纏められている。
図16に示す纏め方は、図17に示す纏め方と比べて、伝送ビットレートが低い場合に選択される纏め方となる。
伝送するオブジェクトの数を伝送ビットレートに応じて決定することにより、伝送ビットレートが高い場合には高音質での視聴が可能となり、伝送ビットレートが低い場合には低音質での視聴が可能となるといったように、伝送ビットレートに応じた音質でのコンテンツの伝送が可能になる。
例えば、コンテンツ生成装置1のコンテンツ記憶部55には、視点3が選択された場合に伝送するオーディオデータとして、図16に示すように3つのオブジェクトのオーディオデータと、図17に示すように6つのオブジェクトのオーディオデータが記憶される。
伝送制御部56は、コンテンツの伝送を開始する前、再生装置2の通信環境を判別し、伝送ビットレートに応じて、3つのオブジェクトのオーディオデータ、6つのオブジェクトのオーディオデータのうちのいずれかを選択して伝送を行うことになる。
(2)オブジェクトのグルーピング
以上の例においては、レンダリング情報が利得であるものとしたが、リバーブ情報とすることも可能である。リバーブ情報を構成するパラメータの中で、重要なパラメータは残響量である。残響量は、壁や床などの空間反射成分の量である。オブジェクト(楽器)と視聴者の距離に応じて残響量は異なる。一般的に、その距離が短いと残響量は少なく、長いと残響量は多くなる。
音が弁別可能か否かを距離や角度に基づいて判定し、オブジェクトを纏めること以外に、別の指標として、オブジェクト間の距離に応じてオブジェクトを纏めるようにしてもよい。オブジェクト間の距離をも考慮してオブジェクトを纏める場合の例を図18に示す。
図18の例においては、破線で区切って示すようにオブジェクトのグループ分けが行われ、各グループに属するオブジェクトが纏められる。各グループに属するオブジェクトは下のようになる。
グループ1 ボーカル1、ボーカル2
グループ2 ボーカル3、ボーカル4
グループ3 ボーカル5、ボーカル6
グループ4 ベース
グループ5 ピアノ
グループ6 ドラム
グループ7 ギター1、2
グループ8 トランペット、サックス
この場合、コンテンツ生成装置1のコンテンツ記憶部55には、視点3が選択された場合に伝送するオーディオデータとして、8つのオブジェクトのオーディオデータが記憶される。
このように、音が弁別できない角度の範囲内にあるオブジェクトであっても、異なるリバーブを適用するオブジェクトとして処理されるようにしてもよい。
このように、纏めることが可能なオブジェクトからなるグループが予め設定されるようにすることが可能である。距離や角度に基づく上述したような条件を満たすオブジェクトであって、同じグループに属するオブジェクトだけが統合オブジェクトとして纏められることになる。
オブジェクト間の距離だけでなく、オブジェクトの種類、オブジェクトの位置等に応じてグループが設定されるようにしてもよい。
なお、利得やリバーブ情報だけでなく、レンダリング情報が、イコライザ情報、コンプレッサー情報、リバーブ情報であってもよい。すなわち、レンダリング情報rについては、利得、イコライザ情報、コンプレッサー情報、リバーブ情報のうちの少なくともいずれかを表す情報とすることが可能である。
(3)オブジェクトオーディオ符号化の高効率化
2つの弦楽器のオブジェクトを1つの弦楽器オブジェクトとして纏める場合について説明する。統合オブジェクトとしての1つの弦楽器オブジェクトには新たなオブジェクトタイプ(obj_type)が割り当てられる。
纏める対象のオブジェクトであるバイオリン1のオーディオ波形データをx(n,10)、バイオリン2のオーディオ波形データをx(n,11)とすると、統合オブジェクトとしての弦楽器オブジェクトのオーディオ波形データx(n,14)は、下式(7)により表される。
Figure 2023040294000008
ここで、バイオリン1とバイオリン2は同じ弦楽器であるので、2つのオーディオ波形データの相関は高い。
下式(8)で示すバイオリン1とバイオリン2のオーディオ波形データの差成分x(n,15)は、情報エントロピーが低く、符号化する場合のビットレートも少なくて済む。
Figure 2023040294000009
式(8)で示す差成分x(n,15)を、和成分として表されるオーディオ波形データx(n,14)とともに伝送することにより、以下に説明するように、低いビットレートで高音質を実現することが可能になる。
通常、コンテンツ生成装置1から再生装置2に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置2側において高音質化を行う場合には、差成分x(n,15)も伝送される。
オーディオ波形データx(n,14)とともに差成分x(n,15)を受信した再生装置2は、以下の式(9)、式(10)に示す計算を行うことにより、バイオリン1のオーディオ波形データx(n,10)と、バイオリン2のオーディオ波形データx(n,11)を再現することができる。
Figure 2023040294000010
Figure 2023040294000011
この場合、コンテンツ生成装置1のコンテンツ記憶部55には、所定の視点が選択された場合に伝送する弦楽器オブジェクトのオーディオデータとして、オーディオ波形データx(n,14)とともに差成分x(n,15)が記憶される。
差成分のデータを保持していることを示すフラグがコンテンツ生成装置1において管理される。そのフラグは、例えば他の情報とともにコンテンツ生成装置1から再生装置2に対して送信され、差成分のデータを保持していることが再生装置2により特定される。
このように、相関の高いオブジェクトのオーディオ波形データについては、差成分をもコンテンツ生成装置1側に保持させておくことにより、伝送ビットレートに応じた音質の調整を2段階で行うことが可能になる。すなわち、再生装置2の通信環境がよい場合(伝送ビットレートが高い場合)にはオーディオ波形データx(n,14)と差成分x(n,15)が伝送され、通信環境がよくない場合にはオーディオ波形データx(n,14)のみが伝送される。
なお、オーディオ波形データx(n,14)と差成分x(n,15)を足し合わせたデータ量は、オーディオ波形データx(n,10)とx(n,11)を足し合わせたデータ量より少ない。
オブジェクトの数が4つである場合も同様にして纏めることが可能である。4つの楽器を纏めると、その纏めたオブジェクトのオーディオ波形データx(n,14)は下式(11)により表される。
Figure 2023040294000012
ここで、x(n,10)はバイオリン1のオーディオ波形データ、x(n,11)はバイオリン2のオーディオ波形データ、x(n,12)はバイオリン3のオーディオ波形データ、x(n,13)はバイオリン4のオーディオ波形データである。
この場合、下式(12)~(14)で表される差成分のデータがコンテンツ生成装置1により保持される。
Figure 2023040294000013
Figure 2023040294000014
Figure 2023040294000015
通常、コンテンツ生成装置1から再生装置2に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置2側において高音質化を行う場合には、差成分x(n,15)、x(n,16)、x(n,17)も伝送される。
オーディオ波形データx(n,14)とともに差成分x(n,15)、x(n,16)、x(n,17)を受信した再生装置2は、以下の式(15)~(18)に示す計算を行うことにより、バイオリン1のオーディオ波形データx(n,10)、バイオリン2のオーディオ波形データx(n,11)、バイオリン3のオーディオ波形データx(n,12)、バイオリン4のオーディオ波形データx(n,13)を再現することができる。
Figure 2023040294000016
Figure 2023040294000017
Figure 2023040294000018
Figure 2023040294000019
さらに、下式(19)から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン1のオーディオ波形データとバイオリン2のオーディオ波形データの和(x(n,10) + x(n,11))を取得することが可能であることが分かる。また、下式(20)から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン3のオーディオ波形データとバイオリン4のオーディオ波形データの和(x(n,12) + x(n,13))を取得することが可能であることが分かる。
Figure 2023040294000020
Figure 2023040294000021
例えば、再生装置2が対応可能な伝送ビットレートが第1の閾値より高く、通信環境が3段階のうち最もよい場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)、x(n,16)、x(n,17)がコンテンツ生成装置1から伝送される。
再生装置2においては、式(15)~(18)に示す計算が行われ、バイオリン1、バイオリン2、バイオリン3、バイオリン4の各オブジェクトのオーディオ波形データが取得され、高品質での再生が行われる。
また、再生装置2が対応可能な伝送ビットレートが上記第1の閾値より未満であるが、第2の閾値より高く、通信環境が比較的よい場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)がコンテンツ生成装置1から伝送される。
再生装置2においては、式(19)、式(20)に示す計算が行われ、バイオリン1とバイオリン2を纏めたオーディオ波形データと、バイオリン3とバイオリン4を纏めたオーディオ波形データが取得され、オーディオ波形データx(n,14)だけを用いた場合より高品質での再生が行われる。
再生装置2が対応可能な伝送ビットレートが上記第2の閾値未満である場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)がコンテンツ生成装置1から伝送される。
このように、伝送ビットレートに応じた階層的な伝送(符号化)がコンテンツ生成装置1により行われるようにしてもよい。
このような階層的な伝送が、再生装置2のユーザが支払った料金に応じて行われるようにしてもよい。例えば、ユーザが通常の料金を支払った場合にはオーディオ波形データx(n,14)のみの伝送が行われ、その料金より高い料金を支払った場合には、オーディオ波形データx(n,14)と差成分の伝送が行われる。
(4)ポイントクラウド動画像データとの連携
コンテンツ生成装置1が伝送するコンテンツのビデオデータがポイントクラウド動画像データであるものとする。ポイントクラウド動画像データとオブジェクトオーディオデータは、ともに3次元空間上の座標データを持ち、その座標における色データおよびオーディオデータとなる。
なお、ポイントクラウド動画像データについては、例えば「Microsoft “A Voxelized Point Cloud Dataset”,<https://jpeg.org/plenodb/pc/microsoft/>」に開示されている。
コンテンツ生成装置1は、例えば、ボーカルの位置情報として3次元座標を保持し、その座標に紐づける形で、ポイントクラウド動画像データおよびオーディオオブジェクトデータを保持する。これにより、再生装置2は、所望のオブジェクトのポイントクラウド動画像データとオーディオのオブジェクトデータを容易に取得することができる。
<<変形例>>
コンテンツ生成装置1が伝送するオーディオビットストリーム中に、そのストリームにより伝送されるオブジェクトが、纏められていない独立のオブジェクトであるのか、統合オブジェクトであるのか否かを示すフラグ情報が含まれるようにしてもよい。フラグ情報を含むオーディオビットストリームを図19に示す。
図19のオーディオビットストリームには、例えば、オブジェクトのオーディオ波形データとレンダリングパラメータも含まれる。
図19のフラグ情報が、ストリームにより伝送されるオブジェクトが独立のオブジェクトであるのか否かを示す情報、または、統合オブジェクトであるのか否かを示す情報であってもよい。
これにより、再生装置2は、ストリームを解析することによって、当該ストリームに含まれるデータが、統合オブジェクトのデータであるのか、独立のオブジェクトのデータであるのかを特定することが可能になる。
このようなフラグ情報が、図20に示すように、ビットストリームとともに伝送される再生管理ファイルに記述されるようにしてもよい。再生管理ファイルには、当該再生管理ファイルが再生対象とするストリーム(当該再生管理ファイルを用いて再生が行われるストリーム)のストリームID等の情報も記述される。この再生管理ファイルは、MPEG-DASHのMPD(Media Presentation Description)fileとして構成されてもよい。
これにより、再生装置2は、再生管理ファイルを参照することによって、当該ストリームにより伝送されるオブジェクトが、統合オブジェクトであるのか、独立のオブジェクトであるのかを特定することが可能になる。
再生装置2により再生されるコンテンツが、ビデオデータと、オブジェクトベースのオーディオデータとを含むものであるとしたが、ビデオデータを含まずに、オブジェクトベースのオーディオデータからなるコンテンツであってもよい。レンダリングパラメータが用意されている聴取位置の中から所定の聴取位置が選択された場合、選択された聴取位置に対するレンダリングパラメータを用いて、各オーディオオブジェクトの再生が行われる。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
・プログラムについて
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。
インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図9に示されるリムーバブルメディア31に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM22や記憶部28に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
・組み合わせについて
本技術は、以下のような構成をとることもできる。
(1)
複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、
統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部と
を備える情報処理装置。
(2)
前記統合部は、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成する
前記(1)に記載の情報処理装置。
(3)
前記伝送部は、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送し、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送する
前記(2)に記載の情報処理装置。
(4)
前記統合部は、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合する
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記統合部は、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記統合部は、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合する 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記統合部は、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行う
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記伝送部は、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記伝送部は、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(10)
複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
ステップを含む情報処理方法。
(11)
コンピュータに、
複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
ステップを含む処理を実行させるためのプログラム。
1 コンテンツ生成装置, 2 再生装置, 51 オーディオエンコーダ, 52 メタデータエンコーダ, 53 オーディオ生成部, 54 ビデオ生成部, 55 コンテンツ記憶部, 56 伝送制御部, 61 統合部, 71 コンテンツ取得部, 72 分離部, 73 オーディオ再生部, 74 ビデオ再生部 73 オーディオ再生部

Claims (10)

  1. 複数の想定聴取位置の中から選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得する取得部と、
    前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する再生部と
    を備える再生装置。
  2. 前記取得部は、前記統合オーディオオブジェクトのデータとして、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて生成された、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータとを取得する
    請求項1に記載の再生装置。
  3. 前記取得部は、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記選択された想定聴取位置におけるレンダリングパラメータとを取得する
    請求項1に記載の再生装置。
  4. 前記統合オーディオオブジェクトは、前記選択された想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合して得られたオーディオオブジェクトである
    請求項1乃至3のいずれかに記載の再生装置。
  5. 前記統合オーディオオブジェクトは、前記選択された想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合して得られたオーディオオブジェクトである
    請求項1乃至4のいずれかに記載の再生装置。
  6. 前記統合オーディオオブジェクトは、予め設定された同じグループに属するオーディオオブジェクトを統合して得られたオーディオオブジェクトである
    請求項1乃至3のいずれかに記載の再生装置。
  7. ストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか前記統合オーディオオブジェクトであるのかを、前記ストリームに含まれるフラグ情報に基づいて解析する解析部をさらに備える
    請求項1乃至6のいずれかに記載の再生装置。
  8. ストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか前記統合オーディオオブジェクトであるのかを、前記ストリームのファイルとともに取得された再生管理ファイルに記述されたフラグ情報に基づいて解析する解析部をさらに備える
    請求項1乃至6のいずれかに記載の再生装置。
  9. 再生装置が、
    複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得し、
    前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する
    再生方法。
  10. コンピュータに、
    複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得し、
    前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する
    処理を実行させるプログラム。
JP2023007068A 2017-03-28 2023-01-20 再生装置、再生方法、およびプログラム Pending JP2023040294A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2017062305 2017-03-28
JP2017062305 2017-03-28
JP2019509243A JP7230799B2 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム
PCT/JP2018/010165 WO2018180531A1 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019509243A Division JP7230799B2 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2023040294A true JP2023040294A (ja) 2023-03-22

Family

ID=63677107

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019509243A Active JP7230799B2 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム
JP2023007068A Pending JP2023040294A (ja) 2017-03-28 2023-01-20 再生装置、再生方法、およびプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019509243A Active JP7230799B2 (ja) 2017-03-28 2018-03-15 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US11074921B2 (ja)
EP (1) EP3605531A4 (ja)
JP (2) JP7230799B2 (ja)
CN (1) CN110447071B (ja)
WO (1) WO2018180531A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410299B (zh) * 2017-08-15 2022-03-11 腾讯科技(深圳)有限公司 一种信息处理方法、装置和计算机存储介质
JP2020005038A (ja) * 2018-06-25 2020-01-09 キヤノン株式会社 送信装置、送信方法、受信装置、受信方法、及び、プログラム
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
JP7457525B2 (ja) 2020-02-21 2024-03-28 日本放送協会 受信装置、コンテンツ伝送システム、及びプログラム
TW202325370A (zh) * 2021-11-12 2023-07-01 日商索尼集團公司 資訊處理裝置及方法、以及程式

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7818077B2 (en) * 2004-05-06 2010-10-19 Valve Corporation Encoding spatial data in a multi-channel sound file for an object in a virtual environment
RU2460155C2 (ru) * 2006-09-18 2012-08-27 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование звуковых объектов
CN101484935B (zh) * 2006-09-29 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN103299363B (zh) * 2007-06-08 2015-07-08 Lg电子株式会社 用于处理音频信号的方法和装置
WO2010113434A1 (ja) * 2009-03-31 2010-10-07 パナソニック株式会社 音響再生装置及び音響再生方法
WO2011061878A1 (ja) * 2009-11-18 2011-05-26 日本電気株式会社 マルチコアシステム、マルチコアシステムの制御方法及びプログラムが格納された非一時的な可読媒体
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2863657B1 (en) * 2012-07-31 2019-09-18 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
CN110797037A (zh) * 2013-07-31 2020-02-14 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
WO2015150480A1 (en) * 2014-04-02 2015-10-08 Dolby International Ab Exploiting metadata redundancy in immersive audio metadata
CN106415711A (zh) * 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法
KR101646867B1 (ko) 2015-02-23 2016-08-09 서울과학기술대학교 산학협력단 마이크로폰 위치정보를 이용하는 ftv 입체음향 구현 장치 및 그 방법
CN106409301A (zh) * 2015-07-27 2017-02-15 北京音图数码科技有限公司 数字音频信号处理的方法
WO2018047667A1 (ja) 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Also Published As

Publication number Publication date
JP7230799B2 (ja) 2023-03-01
EP3605531A1 (en) 2020-02-05
CN110447071A (zh) 2019-11-12
EP3605531A4 (en) 2020-04-15
US20200043505A1 (en) 2020-02-06
WO2018180531A1 (ja) 2018-10-04
CN110447071B (zh) 2024-04-26
US11074921B2 (en) 2021-07-27
JPWO2018180531A1 (ja) 2020-02-06

Similar Documents

Publication Publication Date Title
JP7230799B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10924875B2 (en) Augmented reality platform for navigable, immersive audio experience
KR20150131268A (ko) 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
CN111630878A (zh) 相关联的空间音频播放
US11212637B2 (en) Complementary virtual audio generation
JP7457525B2 (ja) 受信装置、コンテンツ伝送システム、及びプログラム
WO2019197709A1 (en) An apparatus, a method and a computer program for reproducing spatial audio
JP2022083443A (ja) オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
Deppisch et al. HOAST: A higher-order ambisonics streaming platform
WO2022248729A1 (en) Stereophonic audio rearrangement based on decomposed tracks
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
CN114339297B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
EP4089673A1 (en) Encoding device and method, decoding device and method, and program
CN113632496A (zh) 相关联的空间音频回放
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
JP2020167471A (ja) 情報処理装置、情報処理方法、及びプログラム
KR20220116502A (ko) 비디오-정보 기반 공간 오디오 확장
Stewart Spatial auditory display for acoustics and music collections

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507