JP7226335B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP7226335B2
JP7226335B2 JP2019562790A JP2019562790A JP7226335B2 JP 7226335 B2 JP7226335 B2 JP 7226335B2 JP 2019562790 A JP2019562790 A JP 2019562790A JP 2019562790 A JP2019562790 A JP 2019562790A JP 7226335 B2 JP7226335 B2 JP 7226335B2
Authority
JP
Japan
Prior art keywords
file
audio
audio data
priority
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019562790A
Other languages
English (en)
Other versions
JPWO2019130763A1 (ja
Inventor
充 勝股
光浩 平林
俊也 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019130763A1 publication Critical patent/JPWO2019130763A1/ja
Priority to JP2023018720A priority Critical patent/JP2023053131A/ja
Application granted granted Critical
Publication of JP7226335B2 publication Critical patent/JP7226335B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/07Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information characterised by processes or methods for the generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、インターネット上のストリーミングサービスの主流がOTT-V(Over The Top Video)となっている。この基盤技術として普及し始めているのがMPEG-DASH(Moving Picture Experts Group phase
- Dynamic Adaptive Streaming over HTTP)である(例えば、非特許文献1参照)。
MPEG-DASHを用いて行われるオーディオコンテンツの配信においては、配信サーバがオブジェクト毎にオーディオデータを用意し(当該データを「オブジェクトオーディオデータ」と呼称する)、クライアントが伝送路の状況等に応じて最適なオブジェクトオーディオデータ群を要求することにより、適応型のストリーミング配信が実現される。
MPEG-DASH(Dynamic Adaptive Streaming over HTTP)(URL: http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html)
しかし、非特許文献1に示されているMPEG-DASHの規格においては、オブジェクトオーディオデータ単位で優先度を設定することができなかった。そのため、クライアントは一度オーディオファイルを取得、換言すれば、本来不要なはずのデータを含めたファイル全体を取得した上で、オーディオファイルのオブジェクトオーディオメタデータをパースしなければならず、帯域幅を有効活用できず、またクライアントには処理のオーバーヘッドが生じるという課題があった。
そこで、本開示は、上記問題に鑑みてなされたものであり、本開示の目的とするところは、取得されたオブジェクトオーディオデータごとに優先度を設定することが可能な、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提供することにある。
本開示によれば、取得されたオブジェクトオーディオデータごとに優先度を設定し、前記優先度に基づいて、1または2以上の前記オブジェクトオーディオデータから、生成されるセグメントファイルに含める前記オブジェクトオーディオデータを決定し、前記優先度に基づいて、生成された前記セグメントファイルに対し設定する新たな優先度を優先度情報として生成する処理部を備える、情報処理装置が提供される。
また、本開示によれば、取得されたオブジェクトオーディオデータごとに設定された優先度に基づいて1または2以上の前記オブジェクトオーディオデータから決定された前記オブジェクトオーディオデータを含めて生成されるセグメントファイルに対して、前記優先度に基づき新たな優先度が設定されたストリームデータを情報処理することを有する、コンピュータにより実行される情報処理方法が提供される。
また、本開示によれば、取得されたオブジェクトオーディオデータごとに設定された優先度に基づいて1または2以上の前記オブジェクトオーディオデータから決定された前記オブジェクトオーディオデータを含めて生成されるセグメントファイルに対して、前記優先度に基づき新たな優先度が設定されたストリームデータを情報処理すること、をコンピュータに実現させるためのプログラムが提供される。
以上説明したように本開示によれば、取得されたオブジェクトオーディオデータごとに優先度を設定することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の背景を説明する図である。 本開示の背景を説明する図である。 本開示の背景を説明する図である。 本開示の背景を説明する図である。 本開示の背景を説明する図である。 本実施形態に係る情報処理システムのシステム構成例を示す図である。 本実施形態に係るサーバ100の機能構成例を示すブロック図である。 本実施形態に係るクライアント200の機能構成例を示すブロック図である。 優先度に基づくオーディオファイルの生成例について説明する図である。 優先度に基づくオーディオファイルの生成例について説明する図である。 優先度に基づくオーディオファイルの生成例について説明する図である。 優先度に基づくオーディオファイルの生成例について説明する図である。 優先度が時間の経過に伴って変化しない場合の、優先度情報のシグナリング例を説明する図である。 優先度が時間の経過に伴って変化する場合のファイル構成を説明する図である。 MPEG-H 3D AudioでのオーディオファイルのISOBMFFを説明する図である。 ISOBMFFのBox構造を説明するための図である。 MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例1、RAW方式)を説明する図である。 MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例1、MHAS方式)を説明する図である。 MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例2、RAW方式)を説明する図である。 MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例2、MHAS方式)を説明する図である。 AAC 3D AudioでのオーディオファイルのISOBMFFを説明する図である。 AAC 3D AudioでのメタデータファイルのISOBMFF(実施例3)を説明する図である。 AAC 3D AudioでのメタデータファイルのISOBMFF(実施例4)を説明する図である。 オーディオファイルとメタデータファイルの対応付け例を説明するための図である。 オーディオファイルとメタデータファイルの対応付け例(実施例1)を説明する図である。 オーディオファイルとメタデータファイルの対応付け例(実施例2)を説明する図である。 オーディオファイルとメタデータファイルの対応付け例(実施例3)を説明する図である。 オーディオファイルとメタデータファイルの対応付け例(実施例4)を説明する図である。 オーディオファイルとメタデータファイルの対応付け例(実施例5)を説明する図である。 ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例1)を説明する図である。 ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例2)を説明する図である。 ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例3)を説明する図である。 ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例4)を説明する図である。 ビットレートが時間の経過に伴って変化する場合のシグナリング例を説明するための図である。 ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例5)を説明する図である。 ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例6)を説明する図である。 ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例7)を説明する図である。 ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例8)を説明する図である。 ディスクリプション情報のシグナリング例を説明する図である。 優先度が時間の経過に伴って変化しない場合において、クライアント200がオーディオコンテンツの再生に用いるオーディオファイルを取得するまでの処理例を示すフローチャートである。 優先度が時間の経過に伴って変化しない場合において、クライアント200がオーディオコンテンツの再生に用いるオーディオファイルを取得するまでの処理例を説明するための図である。 優先度が時間の経過に伴って変化する場合において、クライアント200がオーディオコンテンツの再生に用いるオーディオファイルを取得するまでの処理例を示すフローチャートである。 優先度が時間の経過に伴って変化する場合において、クライアント200がオーディオコンテンツの再生に用いるオーディオファイルを取得するまでの処理例を説明するための図である。 サーバ100またはクライアント200を具現する情報処理装置900のハードウェア構成例を示すブロック図である。 3da_meta_data()の構造を示す図である。 DSEに格納された3da_meta_data()の構造を示す図である。 DSEの構造を示す図である。 DSEにおけるdata_stream_byteに格納される3da_ancillary_dataの構造を示す図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.背景
2.構成例
3.優先度に基づくファイル生成例
4.優先度情報のシグナリング例
5.ビットレート情報のシグナリング例
6.ディスクリプション情報のシグナリング例
7.クライアント200の処理例
8.ハードウェア構成例
<1.背景>
まず、本開示の背景について説明する。
MPEG-H 3D AudioおよびAAC 3D Audioは、オブジェクト毎に生成されたオーディオデータであるオブジェクトオーディオデータを扱うことができる規格である。オーディオコンテンツは、音源の波形データである複数のオブジェクトオーディオデータと、オブジェクトの位置、音の広がり、もしくは、各種エフェクト等に関する情報を含むオブジェクトメタデータによって構成される。
例えば、図1に示すように、オブジェクトメタデータと複数のオブジェクトオーディオデータ(図1においては、オブジェクトオーディオデータ1~オブジェクトオーディオデータnが示されている)がサーバ等によってクライアントへ提供される。オブジェクトレンダラ―として機能するクライアントは、オブジェクトメタデータとオブジェクトオーディオデータを受信すると、再生環境情報(例えば、スピーカの位置または数等)に基づいてレンダリングを行い、スピーカ等の再生環境に対して波形データを提供することで、オーディオコンテンツの再生を実現する。
ここで、MPEG-H 3D AudioおよびAAC 3D Audioにおいては、全てのオブジェクトオーディオデータが必ずレンダリングされなくてもよい。これは、例えば、サーバが、レンダリングの対象外となるオブジェクトオーディオデータ自体をクライアントに提供しない、または、オブジェクトメタデータからレンダリングの対象外となるオブジェクトオーディオデータを除外する等の方法が考えられる。
また、これらの規格においては、複数のオブジェクトオーディオデータが互いに異なるビットレートによって再生されてもよい。例えば、図2の2Aに示すように、オーディオコンテンツが、オブジェクトメタデータと、高ビットレートおよび低ビットレートがそれぞれ用意されたオブジェクトオーディオデータ1~オブジェクトオーディオデータ3と、を有するとする。この場合、再生されるオブジェクトオーディオデータのビットレートの組合せは自由である。例えば、2Bに示すように、オブジェクトオーディオデータ1およびオブジェクトオーディオデータ2が高ビットレートで再生され、オブジェクトオーディオデータ3が低ビットレートで再生されてもよい。
オーディオコンテンツが提供される場合には、オブジェクトオーディオデータは、オーディオファイルに格納されてクライアントへ伝送される。ここで、図3を参照して具体例を説明する。図3の3Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3と、これらのデータに対応するオブジェクトメタデータが存在する場合、オーディオファイルに格納する態様は3B-1~3B-3に示すように複数の組み合わせが考えられる。
より具体的には、3B-1に示すように、全てのデータが1つのオーディオファイルに格納されてもよいし、3B-3に示すように、1つのオブジェクトオーディオデータとそれに対応するオブジェクトメタデータが1つのオーディオファイルに格納されてもよい。また、3B-2に示すように、1または2以上のオブジェクトオーディオデータとそれらに対応するオブジェクトメタデータがそれぞれオーディオファイルに格納されてもよい。
ところで、オーディオコンテンツがMPEG-DASHで提供される場合、互いにビットレートの異なるオーディオファイルが生成され、クライアントは、これらのオーディオファイルの中から所望のオーディオファイルを選択することが可能になる。
例えば、図4に示すように、64[kbps]と32[kbps]のビットレートを有するオブジェクトオーディオデータ1~オブジェクトオーディオデータ3がそれぞれ生成されたとする。この場合、クライアントが取得可能なオーディオファイルの組合せは2通り存在する。例えば、ファイル1-1、ファイル2-1、ファイル3-2の組合せ(合計で160[kbps])や、ファイル1-1、ファイル2-2、ファイル3-1の組合せ(合計で160[kbps])のように、合計のビットレートが同一となる組み合せが存在する。
しかし、クライアントは、合計のビットレートに関する情報だけでは、いずれの組合せがより適切であるかを判断することができない。そこで、クライアントがより適切な組合せを判断できるように、どのオブジェクトオーディオデータの音質をより高く(換言すると、ビットレートをより高く)再生すべきかを示す情報として優先度を設定することが検討され得る。
優先度情報として利用され得るオブジェクトメタデータの1つとして、MPEG-H 3D Audio等における「Priority」が挙げられる。しかし、Priorityは、オブジェクトメタデータに格納されるデータであるため、PriorityがMPEG-DASHへ適用される場合、クライアントは、一旦オーディオファイルを取得し、オブジェクトメタデータからPriorityを取得することでオーディオファイルのビットレートを決定することなる。換言すると、クライアントは、不要なデータを取得しなければならなくなる。
そこで、本件の開示者は上記事情に鑑みて、本開示に係る技術を創作するに至った。本開示は、取得されたオブジェクトオーディオデータごとに優先度を設定し、効率よく取得することを可能にし、当該優先度に基づいて適切なオーディオコンテンツの配信および再生を実現することができる。
また、MPEG-DASHにおいては、クライアントは、基本的にオーディオファイルのビットレートに基づいて取得するオーディオファイルを決定する。そのため、上記優先度情報が無い状況下においては、例えば、図5に示すようなオブジェクトオーディオデータ1とオブジェクトオーディオデータ2のビットレートの組み合わせによる4種類のオーディオファイルが生成された場合、ファイル2とファイル3のビットレートは共に96[kbps]であるため、クライアントは、ビットレートに関する情報だけではどちらのオーディオファイルがより適切であるかを判断することができず、また、コンテンツ者は、意図したオブジェクトオーディオデータとそのビットレートの組合せをクライアントに提供することができない。
一方、本開示は、オーディオファイルに格納されるオブジェクトオーディオデータ単位のビットレート情報をクライアントへ提供することができる。これによって、クライアントは、上記の優先度情報も併せて考慮することで、ファイル2とファイル3のいずれのオーディオファイルがより適切であるかを判断することができる。
また、本開示は、オブジェクトオーディオデータのDescription情報をクライアントへ提供することができる。これによって、クライアントを操作するユーザは、所望のオブジェクトオーディオデータを高ビットレートで再生させることができる。
以降では、本開示の一実施形態についてより詳細に説明していく。
<2.構成例>
上記では、本開示の背景について説明した。続いて、図6~図8を参照して、本開示の一実施形態に係る情報処理システムの構成例について説明する。
(2-1.システム構成例)
まず、図6を参照して、本実施形態に係る情報処理システムのシステム構成例について説明する。
図6に示すように、本実施形態に係る情報処理システムは、サーバ100と、クライアント200と、を備える。そして、サーバ100とクライアント200は、インターネット300によって互いに接続されている。
サーバ100は、MPEG-DASHに基づいて、オーディオコンテンツに用いられるオブジェクトオーディオデータをクライアント200に配信(ストリーミング)する情報処理装置(送信装置)である。より具体的には、サーバ100は、オーディオコンテンツに用いられるオーディオデータをオブジェクト毎に取得し、オブジェクト単位で当該データを符号化することでストリームデータを生成する。そして、サーバ100は、セグメントと呼ばれる数秒から10秒程度の時間単位ごとに、もしくはコンテンツすべてについて、当該ストリームデータをファイル化することでオーディオファイルを生成する。
なお、オブジェクトとは、音源であり、各オブジェクトのオーディオデータは、そのオブジェクトに取り付けられたマイクロフォン等により取得される。オブジェクトは、固定されたマイクスタンド等の物体であってもよいし、人物等の動体であってもよい。
また、サーバ100は、各オブジェクトの位置情報等を含むオブジェクトメタデータを符号化する。サーバ100は、オブジェクトメタデータの符号化データをセグメント単位でファイル化することでメタデータファイルを生成する。
さらに、サーバ100は、オーディオファイルを管理するMPD(Media Presentation Description)ファイル(制御情報)を生成する。
そして、サーバ100は、クライアント200からの要求に応じて、上記のオーディオファイル、メタデータファイル、または、MPDファイル等をクライアント200に送信する。
クライアント200は、オーディオコンテンツを再生する情報処理装置(受信装置)である。より具体的には、クライアント200は、サーバ100からMPDファイルを取得し、当該MPDファイルに基づいてサーバ100からメタデータファイルおよびオーディオファイルを取得する。そして、クライアント200は、サーバ100から取得されたオーディオファイルを復号し、合成して出力することでオーディオコンテンツの再生を実現する。
以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図6を参照して説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、サーバ100の機能の一部は、クライアント200またはその他の外部装置に備えられてもよい。例えば、サーバ100の機能の一部を提供するソフトウェア(例えば、所定のAPI(Application Programming Interface)が使用されたWEBアプリケーション等)がクライアント200上で実行されてもよい。また、逆に、クライアント200の機能の一部は、サーバ100またはその他の外部装置に備えられてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
(2-2.サーバ100の機能構成例)
上記では、本実施形態に係る情報処理システムのシステム構成例について説明した。続いて、図7を参照して、サーバ100の機能構成例について説明する。
図7に示すように、サーバ100は、処理部110と、制御部120と、通信部130と、記憶部140と、を備える。
処理部110は、オーディオコンテンツの提供に関する処理を行う機能構成である。図7に示すように、処理部110は、データ取得部111と、符号化処理部112と、セグメントファイル生成部113と、MPDファイル生成部114と、を備える。
データ取得部111は、オーディオコンテンツに用いられるオーディオデータをオブジェクト毎に取得する(換言すると、オブジェクトオーディオデータを取得する)機能構成である。データ取得部111は、サーバ100内から当該オブジェクトオーディオデータを取得してもよいし、サーバ100に接続している外部装置からオブジェクトオーディオデータを取得してもよい。また、データ取得部111は、所得したオブジェクトオーディオデータ毎に優先度を設定してもよいし、予め優先度が設定されたオブジェクトオーディオデータを取得してもよい。データ取得部111は、取得したオブジェクトオーディオデータを符号化処理部112に提供する。
符号化処理部112は、データ取得部111から提供されるオブジェクトオーディオデータをオブジェクトごとに符号化することでストリームデータを生成する機能構成である。また、符号化処理部112は、外部から入力される各オブジェクトのオブジェクト位置情報等を含むオブジェクトメタデータを符号化する。符号化処理部112は、各オブジェクトのストリームデータとオブジェクトメタデータの符号化データをセグメントファイル生成部113に提供する。
セグメントファイル生成部113は、オーディオコンテンツとして配信可能な単位のデータであるセグメントファイルを生成する機能構成である。より具体的には、セグメントファイル生成部113は、符号化処理部112から提供される各オブジェクトのストリームデータをセグメント単位でファイル化することでオーディオファイルを生成する。オーディオファイルの生成については様々な態様が存在する。例えば、セグメントファイル生成部113は、オブジェクトオーディオデータ毎の優先度に基づいて1または2以上のオブジェクトオーディオデータを1つのオーディオファイルに格納することでオーディオファイルを生成する。さらに、セグメントファイル生成部113は、当該ファイル毎に優先度情報を設定することもできる。優先度に基づくオーディオファイルの生成の詳細については後述する。
また、セグメントファイル生成部113は、符号化処理部112から提供される、オブジェクトメタデータの符号化データをセグメント単位でファイル化することで、オブジェクトメタデータのみを格納するメタデータファイルを生成することもできる。メタデータファイルの内容や、メタデータファイルが生成されるケースについては後述する。
MPDファイル生成部114は、MPDファイルを生成する機能構成である。本実施形態において、MPDファイル生成部114は、優先度情報、ビットレート情報またはディスクリプション情報を含むMPDファイルを生成する。MPDファイルの内容の詳細については後述する。
制御部120は、サーバ100が行う処理全般を統括的に制御する機能構成である。例えば、制御部120は、通信部130を介して受信されるクライアント200からの要求情報等に基づいて各構成の起動や停止を制御することができる。なお、制御部120の制御内容は特に限定されない。例えば、制御部120は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
通信部130は、クライアント200との各種通信を行う機能構成である(送信部としても機能する)。例えば、通信部130は、クライアント200からの要求情報を受信したり、当該要求情報への応答としてMPDファイル、メタデータファイルまたはオーディオファイル等をクライアント200へ送信したりする。なお、通信部130の通信内容はこれらに限定されない。
記憶部140は、各種情報を記憶する機能構成である。例えば、記憶部140は、オブジェクトオーディオデータ、オーディオファイル、オブジェクトメタデータ、メタデータファイルまたはMPDファイル等を記憶したり、サーバ100の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部140が記憶する情報はこれらに限定されない。
以上、サーバ100の機能構成例について説明した。なお、図7を用いて説明した上記の機能構成はあくまで一例であり、サーバ100の機能構成は係る例に限定されない。例えば、サーバ100は、図7に示す機能構成の全てを必ずしも備えなくてもよい。また、サーバ100の機能構成は、仕様や運用に応じて柔軟に変形可能である。
(2-3.クライアント200の機能構成例)
上記では、サーバ100の機能構成例について説明した。続いて、図8を参照して、クライアント200の機能構成例について説明する。
図8に示すように、クライアント200は、処理部210と、制御部220と、通信部230と、記憶部240と、を備える。
処理部210は、オーディオコンテンツの再生に関する処理を行う機能構成である。図8に示すように、処理部210は、MPDファイル取得部211と、MPDファイル処理部212と、セグメントファイル選択部213と、セグメントファイル取得部214と、復号処理部215と、合成処理部216と、を備える。
MPDファイル取得部211は、オーディオコンテンツの再生に先立ってサーバ100からMPDファイルを取得する機能構成である。より具体的には、MPDファイル取得部211は、ユーザ操作等に基づいてMPDファイルの要求情報を生成し、通信部230を介して当該要求情報をサーバ100へ提供することで、MPDファイルをサーバ100から取得する。MPDファイル取得部211は、取得したMPDファイルをMPDファイル処理部212に提供する。
MPDファイル処理部212は、MPDファイル取得部211から提供されるMPDファイルに関する処理を行う機能構成である。より具体的には、MPDファイル処理部212は、MPDファイルを解析することで、オーディオファイルもしくはそれに対応するメタデータファイルの取得に必要な情報(例えば、URL等)を認識したり、各オブジェクトオーディオデータ(またはオーディオファイル)の優先度もしくはビットレート等を認識したりする。MPDファイル処理部212は、これらの情報をセグメントファイル選択部213に提供する。
セグメントファイル選択部213は、取得対象となるセグメントファイルを選択する機能構成である。より具体的には、セグメントファイル選択部213は、MPDファイル処理部212から提供される上記の各種情報に基づいて取得対象となるオーディオファイルまたはメタデータファイルを選択する。例えば、セグメントファイル選択部213は、優先度のより高いオーディオファイルのビットレートがより高くなるように、取得対象となるオーディオファイルを選択する。その際、セグメントファイル選択部213は、利用可能な伝送帯域も考慮し、例えば、利用可能な伝送帯域においてビットレートの最も高いオーディオファイルを選択する。
なお、取得対象となるファイルの選択方法は上記に限定されない。例えば、セグメントファイル選択部213は、ユーザからの入力に基づいてユーザ所望のオーディオファイルを取得対象として選択してもよい。セグメントファイル選択部213は、取得対象となるファイルに関する情報をセグメントファイル取得部214に提供する。
セグメントファイル取得部214は、セグメントファイルの取得を行う機能構成である。より具体的には、セグメントファイル取得部214は、セグメントファイル選択部213から提供される各種情報に基づいてオーディオファイルまたはメタデータファイルの要求情報を生成し、通信部230を介して当該要求情報をサーバ100へ提供することで、これらのファイルをサーバ100から取得する。セグメントファイル取得部214は、取得したこれらのファイルを復号処理部215に提供する。
復号処理部215は、セグメントファイル取得部214から提供されるオーディオファイルまたはメタデータファイルに含まれるデータを復号する機能構成である。復号処理部215は、復号処理によって得られるオブジェクトオーディオデータ等を合成処理部216に提供する。
合成処理部216は、復号処理部215から提供される複数のオブジェクトオーディオデータを合成し、出力する機能構成である。合成処理部216は、合成後のデータを制御部220に提供する。
制御部220は、クライアント200が行う処理全般を統括的に制御する機能構成である。例えば、制御部220は、ディスプレイまたはスピーカ等の出力部(図示なし)を制御し、合成処理部216によって提供される合成後のデータを出力することで、オーディオコンテンツをユーザに提供する。また、制御部220は、ユーザによってマウス、キーボード等の入力部(図示なし)を用いて行われる入力に基づいて各種処理を制御する。なお、制御部220の制御内容は特に限定されない。例えば、制御部220は、汎用コンピュータ、PC、タブレットPC等において一般的に行われる処理を制御してもよい。
通信部230は、サーバ100との各種通信を行う機能構成である(受信部としても機能する)。例えば、通信部230は、ユーザ入力等に基づいてサーバ100へ要求情報を送信したり、当該要求情報への応答としてMPDファイル、メタデータファイルまたはオーディオファイル等をサーバ100から受信したりする。なお、通信部230の通信内容はこれらに限定されない。
記憶部240は、各種情報を記憶する機能構成である。例えば、記憶部240は、サーバ100から提供されたオブジェクトオーディオデータ、オーディオファイル、オブジェクトメタデータ、メタデータファイルまたはMPDファイル等を記憶したり、クライアント200の各機能構成によって使用されるプログラムまたはパラメータ等を記憶したりする。なお、記憶部240が記憶する情報はこれらに限定されない。
以上、クライアント200の機能構成例について説明した。なお、図8を用いて説明した上記の機能構成はあくまで一例であり、クライアント200の機能構成は係る例に限定されない。例えば、クライアント200は、図8に示す機能構成の全てを必ずしも備えなくてもよい。また、クライアント200の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<3.優先度に基づくオーディオファイル生成例>
上記では、クライアント200の機能構成例について説明した。続いて、優先度に基づくオーディオファイルの生成例について説明する。
上記のとおり、サーバ100のセグメントファイル生成部113は、オブジェクトオーディオデータ毎の優先度情報を用いて、1または2以上のオブジェクトオーディオデータを組み合わせて1つのオーディオファイルに格納することでオーディオファイルを生成する。さらに、セグメントファイル生成部113は、当該ファイル毎に優先度情報を設定することもできる。
ここで、図9~図12を参照して、優先度に基づくオーディオファイルの生成例について説明する。例えば、図9の9Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ4が存在し、これらのデータに予め優先度が設定されているとする。より具体的には、オブジェクトオーディオデータ1の優先度が3であり、オブジェクトオーディオデータ2およびオブジェクトオーディオデータ3の優先度が2であり、オブジェクトオーディオデータ4の優先度が1であるとする(なお、値が高いほど、より優先度が高いとする)。
この場合、セグメントファイル生成部113は、互いの優先度がより近い(優先度の差が所定値以下である)オブジェクトオーディオデータを組み合わせて1つのオーディオファイルに格納してもよい。例えば、9Bに示すように、セグメントファイル生成部113は、一連のデータのうちの最初のデータであるオブジェクトオーディオデータ1と、当該データの優先度3により近い(例えば、優先度の差が1以下である)優先度2を有するオブジェクトオーディオデータ2およびオブジェクトオーディオデータ3を組み合わせて1つのオーディオファイルに格納してもよい。そして、セグメントファイル生成部113は、残りのオブジェクトオーディオデータ4を別のオーディオファイルに格納してもよい。
そして、セグメントファイル生成部113は、1つのオーディオファイルに格納されるオブジェクトオーディオデータの優先度のうちの最も高い優先度を、当該オーディオファイルの優先度として設定してもよい。例えば、9Bに示すように、セグメントファイル生成部113は、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3の優先度のうちの最も高い優先度3を、これらのデータが格納されるオーディオファイルの優先度として設定してもよい。なお、オーディオファイルの優先度の設定方法はこれに限定されない。例えば、セグメントファイル生成部113は、1つのオーディオファイルに格納されるオブジェクトオーディオデータの優先度のうち、同一の優先度を有するデータ数が最も多い優先度を、当該オーディオファイルの優先度として設定してもよい。また、セグメントファイル生成部113は、1つのオーディオファイルに格納されるオブジェクトオーディオデータの優先度の平均値を、当該オーディオファイルの優先度として設定してもよい。
また、図10の10Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ4に優先度が設定されていない場合または優先度が全て同一である場合には、10Bに示すように、セグメントファイル生成部113は、全てのオブジェクトオーディオデータを同一のオーディオファイルに格納してもよい。そして、セグメントファイル生成部113は、オーディオファイルの優先度を設定しなくてもよいし、各オブジェクトオーディオデータに設定されている同一の優先度を、オーディオファイルの優先度として設定してもよい。
また、図11の11Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ4の優先度がそれぞれ異なる場合には、11Bに示すように、セグメントファイル生成部113は、各オブジェクトオーディオデータをそれぞれ異なるオーディオファイルに格納してもよい。そして、セグメントファイル生成部113は、各オブジェクトオーディオデータの優先度と同一の値を各オーディオファイルの優先度として設定してもよい。
また、図12の12Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3の優先度が2であり、オブジェクトオーディオデータ4の優先度が1であるとする。この場合、12Bに示すように、セグメントファイル生成部113は、同一の優先度を有するオブジェクトオーディオデータ1~オブジェクトオーディオデータ3を1つのオーディオファイルに格納し、異なる優先度を有するオブジェクトオーディオデータ4を別のオーディオファイルに格納してもよい。12Bにおいても、各オブジェクトオーディオデータの優先度と同一の値が、各オーディオファイルの優先度として設定されている。
ここで、MPEG-DASHにおいては、クライアント200は、オーディオファイル単位で取得制御を行う。そのため、図9の9B、図10の10B、図12の12Bに示したように、セグメントファイル生成部113が、1つのオーディオファイルに複数のオブジェクトオーディオデータを格納することによって、コンテンツ制作者は、オブジェクトオーディオデータとそのビットレートの組合せを制御することができる。換言すると、コンテンツ制作者は、意図したオブジェクトオーディオデータとビットレートの組合せでオーディオコンテンツを提供することができる。一方、ユーザにとっては、オブジェクトオーディオデータの取得の自由度が低くなる。
これに対して、図11の11Bに示したように、1つのオーディオファイルに1つのオブジェクトオーディオデータが格納される場合、ユーザは、所望のオブジェクトオーディオデータだけを取得することができるため、オブジェクトオーディオデータの取得の自由度が高くなる。一方、コンテンツ制作者にとっては、オブジェクトオーディオデータとビットレートの意図しない組合せでオーディオコンテンツが再生されることを防ぐことが困難となる。以上によって、コンテンツ制作者は、ユーザによるオブジェクトオーディオデータの取得の自由度をどの程度にするかを、オーディオファイルへのオブジェクトオーディオデータの格納の態様によって調整することができる。
なお、優先度に基づくオーディオファイルの生成方法、または、オーディオファイルの優先度の設定方法は上記に限定されず、適宜変更されてもよい。
<4.優先度情報のシグナリング例>
上記では、優先度に基づくオーディオファイルの生成例について説明した。続いて、優先度情報のシグナリング例について説明する。
(4-1.優先度が時間の経過に伴って変化しない場合のシグナリング例)
まず、優先度が時間の経過に伴って変化しない場合のシグナリング例について説明する。
同一オブジェクトオーディオデータが格納されるビットレート違いのオーディオファイルの優先度は互いに同一になる。そのため、MPDファイルのAdaptationSetによるシグナリングが適切である。より具体的には、本開示は、SupplementalPropertyを利用して、優先度情報であることを示すschemeIdUriを新たに規定し、サーバ100のMPDファイル生成部114は、valueに優先度情報を格納する。
ここで、図13を参照して、優先度情報のシグナリング例を説明する。図13の13Aに示すように、オブジェクトオーディオデータ1およびオブジェクトオーディオデータ2が格納されたオーディオファイルのビットレート違いと、オブジェクトオーディオデータ3が格納されたオーディオファイルのビットレート違いが存在する場合について考える(図中では、便宜的にオブジェクトオーディオデータを「obj」と表記している)。そして、オブジェクトオーディオデータ1とオブジェクトオーディオデータ2が格納されたオーディオファイルの優先度は2、オブジェクトオーディオデータ3が格納されたオーディオファイルの優先度は1であるとする。
この場合、MPDファイル生成部114は、13Bに示すようなMPDファイルを生成する。より具体的には、PreselectionのpreselectionComponentsにて、オーディオコンテンツで同時に再生されるオブジェクトオーディオデータを含むAdaptationSetが列挙される。1つ目のAdaptationSetは、オブジェクトオーディオデータ1とオブジェクトオーディオデータ2が格納されたオーディオファイルのAdaptationSet(AdaptationSetのidがo1であるもの)である。MPDファイル生成部114は、優先度が2であることを示すSupplementalPropertyを当該AdaptationSetに設定する。
2つ目のAdaptationSetは、オブジェクトオーディオデータ3が格納されたオーディオファイルのAdaptationSet(AdaptationSetのidがo2であるもの)である。MPDファイル生成部114は、優先度が1であることを示すSupplementalPropertyを当該AdaptationSetに設定する。これによって、クライアント200のMPDファイル処理部212
は、当該MPDファイルに基づいて各オーディオファイルの優先度を把握することができる。
なお、上記はあくまで一例であり、シグナリング方法は上記に限定されない。例えば、SupplementalPropertyが利用されるのではなく、AdaptationSetのAttributeとしてobjectAcquisitionPriorityが追加されてもよい。より具体的には、サーバ100のMPDファイル生成部114は、MPDファイルにおいて、SupplementalPropertyを利用することなく、「<AdaptationSet
id=”o1” objectAcquisitionPriority
=”2”>」、「<AdaptationSet id=”o2” objectAcquisitionPriority =”1”>」と記載してもよい。
(4-2.優先度が時間の経過に伴って変化する場合のシグナリング例)
上記では、優先度が時間の経過に伴って変化しない場合のシグナリング例について説明した。続いて、優先度が時間の経過に伴って変化する場合のシグナリング例について説明する。
優先度が時間の経過に伴って変化する場合、オブジェクトメタデータが時間の経過に伴って変化する。そのため、MPDまたはISOBMFFのファイルのMovieBox領域に記載すると、サーバの処理の負荷やクライアントの処理のオーバーヘッド増大の観点から適切ではない。そこで、サーバ100のセグメントファイル生成部113は、各オブジェクトオーディオデータに対応するオブジェクトメタデータのみを格納するメタデータファイルを生成する。
例えば、図14に示すように、オブジェクトオーディオデータ1、オブジェクトオーディオデータ2およびそれぞれに対応するオブジェクトメタデータ1+2が格納されたオーディオファイル1と、オブジェクトオーディオデータ3およびこれに対応するオブジェクトメタデータ3が格納されたオーディオファイル2が存在する場合について考える。この場合、セグメントファイル生成部113は、オブジェクトメタデータ1+2およびオブジェクトメタデータ3を統合したオブジェクトメタデータ1+2+3をファイル化することでメタデータファイルを生成する。なお、メタデータファイルは、オブジェクトメタデータのみを格納するファイルであることを想定しているが、これに限定されず、メタデータファイルはその他のデータを適宜格納してもよい。
ここで、メタデータファイルのファイルサイズは、オブジェクトオーディオデータが格納されるオーディオファイルのファイルサイズよりも小さいため、クライアント200は、オーディオファイルの取得前に、当該メタデータファイルを取得することで、当該ファイルに格納されたオブジェクトメタデータ1+2+3の優先度情報に基づいてオーディオファイルの取得制御を適切に行うことができる。
メタデータファイルのISOBMFFへの格納方法およびMPEG-DASHでの扱いは規定されていないため、本開示にて新たに規定する。以降では、MPEG-H 3D AudioとAAC 3D AudioでのメタデータファイルのISOBMFF(ISO Base Media File Format)、および、当該メタデータファイルに格納されるオブジェクトメタデータとオブジェクトオーディオデータとの対応付けの方法について説明していく。
(4-2-1.MPEG-H 3D AudioのISOBMFF)
MPEG-H 3D AudioでのメタデータファイルのISOBMFFを説明する前に、まず、既存のファイルフォーマットについて説明する。MPEG-H 3D Audioでは、オブジェクトオーディオデータとオブジェクトメタデータをオーディオファイルに格納する方法が規定されている。例えば、図15の15Aに示すように、オブジェクトオーディオデータ1、オブジェクトオーディオデータ2、オブジェクトメタデータ1+2が格納されるオーディオファイル1、および、オブジェクトオーディオデータ3、オブジェクトメタデータ3が格納されるオーディオファイル2が存在する場合について考える。
この場合、オーディオファイル1およびオーディオファイル2それぞれのISOBMFFは15Bのようになる。より具体的には、各オーディオファイルにおいては、MovieBox(‘moov’)のSampleEntryに含まれるMHAConfigurationBox(‘mhaC’)のMHADecoderConfigurationRecordに、sampleに含まれるオブジェクトのConfigurationが記載される。また、SampleEntryに含まれるMHAMultiStreamBox(‘maeM’)には、オーディオコンテンツが複数のオーディオファイルで提供される場合のそれぞれのオーディオファイルをユニークに識別するためのstreamIDが記載される。MediaDataBox(‘mdat’)に含まれる各sampleデータには、各時間のオブジェクトオーディオデータ(ES(Elementary Stream))とオブジェクトメタデータが含まれる。
なお、図15および以降で説明するISOBMFFのBox構造は適宜省略されている。より具体的には、図15の15Bに示したMovieBoxは、図16に示すように、Track Box等の様々な構成要素を含んでいる。そして、SampleEntryは、当該Box構造中のSample Description Boxに含まれている。
(4-2-1-1.MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例1))
上記では、MPEG-H 3D AudioでのオーディオファイルのISOBMFFについて説明した。続いて、図17を参照して、MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例1)について説明する。より具体的には、図15の15Aに示した、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3に対応するオブジェクトメタデータ1+2+3が格納される、MPEG-H 3D AudioでのメタデータファイルのISOBMFFについて説明する。また、MPEG-H 3D Audioにおいては、RAW方式とMHAS方式という2種類の格納方式が存在するところ、以下では、まず、RAW方式について説明する。
ここで、本開示は、MHAMetadataSampleEntry(’mham’)を新たに規定する。図17の17Aおよび17Bに示すように、SampleEntryには、メタデータファイルに対応するオーディオファイルに関する情報として、num_reference_streamIDおよびreference_streamIDが記載される。より具体的には、num_reference_streamIDによって、当該メタデータファイルが対応するオーディオファイル数が示され、reference_streamIDによって、当該メタデータファイルが対応するオーディオファイルのstreamIDが示される。
さらに、SampleEntryには、それぞれのオブジェクトメタデータの内容を示すためのMHAMetadataConfigurationBox(‘mhmC’)が含まれる。MHAMetadataConfigurationBox(‘mhmC’)には、図15の15Bに示したオーディオファイルと同じMHADecoderConfigurationRecordが含まれる。ただし、メタデータファイルのMHADecoderConfigurationRecordでは、Elementary
streamに関連するConfigurationが除かれることで、オブジェクトメタデータのみが含まれていることを示すことが可能である。
MediaDataBox(‘mdat’)のsampleには、各streamIDが示すオーディオファイルに対応するオブジェクトメタデータが格納される。換言すると、サーバ100のセグメントファイル生成部113は、各オーディオファイルに格納されるオブジェクトメタデータを、メタデータファイルにおけるsampleに格納する。その際、各オブジェクトメタデータの先頭には、各オブジェクトメタデータのデータサイズを示すsizeが付加される。
なお、本実施例では、num_reference_streamIDおよびreference_streamID等は、ISOBMFFのBox構造におけるSampleEntryにて示されたが、これに限定されない。例えば、num_reference_streamIDおよびreference_streamID等は、Sample Description Box、Sample GroupやSub-Sample Information Boxにて示されてもよい。
続いて、図18を参照して、MHAS方式のISOBMFFについて説明する。図18に示すように、MHAS方式においては、MHAMetadataSampleEntry(’mhmm’)が用いられる。また、MHAS方式では、MHAMetadataConfigurationBoxは、sampleにてMHAConfigurationBoxとして格納され得るため、SampleEntryに格納されなくてもよい(図中では、MHAMetadataConfigurationBoxがSampleEntryに格納される例を示している)。その他の点については、上記で説明したRAW方式と同一であるため説明を省略する。
(4-2-1-2.MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例2))
続いて、図19を参照して、MPEG-H 3D AudioでのメタデータファイルのISOBMFF(実施例2)のRAW方式について説明する。
当該実施例では、図15の15Aに示したオーディオファイル1に格納されるオブジェクトメタデータ1+2と、オーディオファイル2に格納されるオブジェクトメタデータ3が統合されたオブジェクトメタデータ1+2+3が、sampleに格納される。換言すると、サーバ100の符号化処理部112が、オブジェクトメタデータ1+2とオブジェクトメタデータ3を統合することでオブジェクトメタデータ1+2+3を生成し、セグメントファイル生成部113が、メタデータファイルを生成する際に当該オブジェクトメタデータ1+2+3をsampleに格納する。
当該実施例においては、sampleに格納されるオブジェクトメタデータのオブジェクト数がstreamID毎に示される。より具体的には、図19の19Aに示すように、streamID(reference_streamID)が1であるオーディオファイル1に対応するオブジェクトメタデータのオブジェクト数(object_num)は2であることが示されている。換言すると、streamIDが1であるオーディオファイル1には、オブジェクトオーディオデータ1とオブジェクトオーディオデータ2が格納されていることが示されている。また、streamID(reference_streamID)が2であるオーディオファイル2に対応するオブジェクトメタデータのオブジェクト数(object_num)は1であることが示されている。換言すると、streamIDが2であるオーディオファイル2には、オブジェクトオーディオデータ2の次のオブジェクトオーディオデータ3が格納されていることが示されている。
図19の19Aおよび19Bに示すMHAMetadataConfigurationBoxをはじめとするその他の事項は、図17を参照して説明したものと同一であるため説明を省略する。なお、本実施例では、reference_streamID等は、ISOBMFFのBox構造におけるSampleEntryにて示されたが、これに限定されない。例えば、reference_streamID等は、Sample Description Box、Sample GroupやSub-Sample Information Boxにて示されてもよい。
図20は、本実施例におけるMHAS方式のISOBMFFを示す図である。オブジェクトメタデータのオブジェクト数(object_num)が示される点以外は、図18を参照して説明したものと同一であるため説明を省略する。
(4-2-2.AAC 3D AudioのISOBMFF)
上記では、MPEG-H 3D AudioのISOBMFFについて説明した。続いて、AAC 3D AudioのISOBMFFについて説明する。
AAC
3D AudioでのメタデータファイルのISOBMFFを説明する前に、まず、既存のファイルフォーマットについて説明する。AAC 3D Audioでは、複数のオーディオファイルをシグナリングする方法は規定されていないため、本開示にて新たに規定する。
より具体的には、図21の21Aおよび21Bに示すように、SampleEntryについては、複数のオーディオファイルが用いられることを示すAAC3DAudioSampleEntry(‘a3a2’)が使用される(1つのファイルが用いられる場合はSampleEntry(‘a3a1’)が使用される)。また、複数のオーディオファイルをシグナリングするための情報としては、MPEG-H 3D Audioと同様に、MHAMultiStreamBox(‘maeM’)が使用される。これによって、MPEG-H
3D Audioと同様にstreamIDを用いてオーディオファイル間の関係を示すことが可能となる。
また、Track間の関係は、track referenceによって示される。より具体的には、main track(図21においては、オブジェクトオーディオデータ1とオブジェクトオーディオデータ2を含むfile1)からauxiliary track(図21においては、オブジェクトオーディオデータ3を含むfile2)への繋がりは、main trackのtrack reference(’maux’)によって示される。また、auxiliary trackからmain trackへの繋がりは、auxiliary trackのtrack reference(’mbas’)によって示される。
なお、図21を参照して説明したISOBMFFのBox構造も適宜省略されている。より具体的には、図21の21Aおよび21Bに示したMovieBoxは、図16に示すように、Track Box等の様々な構成要素を含んでいる。そして、SampleEntryは、当該Box構造中のSample Description Boxに含まれている(ただし、Sample Entryは、図16に示した(’mham’)ではなく(’a3a2’)である)。
(4-2-2-1.AAC 3D AudioでのメタデータファイルのISOBMFF(実施例3))
上記では、AAC 3D AudioでのオーディオファイルのISOBMFFについて説明した。続いて、図22を参照して、AAC 3D AudioでのメタデータファイルのISOBMFF(実施例3)について説明する。換言すると、図15の15Aに示した、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3に対応するオブジェクトメタデータ1+2+3が格納される、AAC 3D AudioでのメタデータファイルのISOBMFFについて説明する。
本開示においては、AAC 3D Audioでのメタデータファイルであることを示すA3AMetadataSampleEntry(’a3am’)が新たに規定される。図22の22Aおよび22Bに示すように、SampleEntryには、メタデータファイルに対応するオーディオファイルに関する情報として、num_reference_streamIDおよびreference_streamIDが記載される。より具体的には、num_reference_streamIDによって、当該メタデータファイルが対応するオーディオファイル数が示され、reference_streamIDによって、当該メタデータファイルが対応するオーディオファイルのstreamIDが示される。なお、AAC 3D Audioにおいて、オブジェクトメタデータのConfigurationは、MediaDataBox(‘mdat’)のsampleに格納されるため、SampleEntryではシグナリングされない。
MediaDataBox(‘mdat’)のsampleには、各streamIDが示すオーディオファイルに対応するオブジェクトメタデータが格納される。換言すると、サーバ100のセグメントファイル生成部113は、各オーディオファイルに格納されるオブジェクトメタデータを、メタデータファイルにおけるsampleに格納する。その際、各オブジェクトメタデータの先頭には、各オブジェクトメタデータのデータサイズを示すsizeが付加される。
ここで、sampleの構造については、AAC 3D Audioの3da_meta_data()が使用されてもよいし、AAC 3D AudioのElementary streamで使用される、DSEに格納された3da_meta_data()が使用されてもよい。なお、3da_meta_data()の構造は図45に示すものであり、DSEに格納された3da_meta_data()の構造は図46に示すものであり、DSEの構造は図47に示すものである。なお、図47に示す、DSEにおけるdata_stream_byteに格納される3da_ancillary_dataの構造は図48に示すものである。ただし、DSEのdata_stream_byteの最大サイズより3da_meta_data()のサイズが大きい場合においては、3da_meta_data()は分割されて複数のDSEに格納される。
なお、図22および以降で説明するISOBMFFのBox構造も適宜省略されている。より具体的には、図22の22Aに示したMovieBoxは、図16に示すように、Track Box等の様々な構成要素を含んでいる。そして、SampleEntryは、当該Box構造中のSample Description Boxに含まれている(ただし、Sample Entryは、図16に示した(’mham’)ではなく(’a3am’)である)。
また、本実施例では、num_reference_streamIDおよびreference_streamID等は、ISOBMFFのBox構造におけるSampleEntryにて示されたが、これに限定されない。例えば、num_reference_streamIDおよびreference_streamID等は、Sample Description Box、Sample GroupやSub-Sample Information Boxにて示されてもよい。
(4-2-2-2.AAC 3D AudioでのメタデータファイルのISOBMFF(実施例4))
続いて、図23を参照して、AAC 3D AudioでのメタデータファイルのISOBMFF(実施例4)について説明する。
当該実施例では、図15の15Aに示したオーディオファイル1に格納されるオブジェクトメタデータ1+2と、オーディオファイル2に格納されるオブジェクトメタデータ3が統合されたオブジェクトメタデータ1+2+3が、sampleに格納される。換言すると、符号化処理部112が、オブジェクトメタデータ1+2とオブジェクトメタデータ3を統合することでオブジェクトメタデータ1+2+3を生成し、セグメントファイル生成部113が、メタデータファイルを生成する際に当該オブジェクトメタデータ1+2+3をsampleに格納する。
当該実施例においては、sampleに格納されるオブジェクトメタデータのオブジェクト数がstreamID毎に示される。より具体的には、図23の23Aに示すように、streamID(reference_streamID)が1であるオーディオファイル1に対応するオブジェクトメタデータのオブジェクト数(object_num)は2であることが示されている。換言すると、streamIDが1であるオーディオファイル1には、オブジェクトオーディオデータ1とオブジェクトオーディオデータ2が格納されていることが示されている。また、streamID(reference_streamID)が2であるオーディオファイル2に対応するオブジェクトメタデータのオブジェクト数(object_num)は1であることが示されている。換言すると、streamIDが2であるオーディオファイル2には、オブジェクトオーディオデータ2の次のオブジェクトオーディオデータ3が格納されていることが示されている。
ここで、sampleの構造については、AAC 3D Audioの3da_meta_data()が使用されてもよいし、AAC 3D AudioのElementary streamで使用される、DSEに格納された3da_meta_data()が使用されてもよい。
図23の23Aおよび23Bに示すその他の事項は、図22を参照して説明したものと同一であるため説明を省略する。なお、本実施例では、reference_streamID等は、ISOBMFFのBox構造におけるSampleEntryにて示されたが、これに限定されない。例えば、reference_streamID等は、Sample Description Box、Sample GroupやSub-Sample Information Boxにて示されてもよい。
(4-2-3.オーディオファイルとメタデータファイルの対応付け例)
続いて、オーディオファイルとメタデータファイルの対応付け例について説明する。本開示は、MPDファイルを用いてオーディオファイルとメタデータファイルの対応付けを実現する。ここで、MPDファイルに関する規定においては、オーディオファイルのシグナリング方法は規定されているが、メタデータファイルのシグナリング方法は規定されていない。そこで、本開示にて、MPDファイルにおけるメタデータファイルのシグナリング方法を規定する。
例えば、図24に示すように、オブジェクトオーディオデータ1およびオブジェクトオーディオデータ2が格納されたオーディオファイルのビットレート違いと、オブジェクトオーディオデータ3が格納されたオーディオファイルのビットレート違いと、これらのオーディオファイルに対応するメタデータファイルと、が存在する場合について考える。
(4-2-3-1.オーディオファイルとメタデータファイルの対応付け例(実施例1))
当該実施例は、Preselection elementにPropertyを追加し、メタデータファイルの取得を容易にする方法である。図25を参照して、当該実施例について詳細に説明する。
図25に示すように、MPDファイルにおけるPreselectionによって、再生に用いられるオブジェクトオーディオデータを含むAdaptationSetがpreselectionComponentsに示されることによってオーディオコンテンツの再生が実現される。このように、Preselectionを起点に再生が行われるため、メタデータファイルの取得を容易にするために、本開示は、PreselectionにメタデータファイルのAdaptationSetをシグナリングする。
より具体的には、本開示は、「SupplementalProperty schemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataFile” value=“**”」を追加する。ここで、valueは、メタデータファイルを含むAdaptationSetのidを示す。例えば、図25のMPDファイルを取得したクライアント200のMPDファイル処理部212は、Preselectionに含まれるSupplementalPropertyから、メタデータファイルを含むAdaptationSetのidが”m1”(図中の符号10)であることを認識することができる。
そして、オーディオファイルとメタデータファイルの対応付けについては、既存のRepresentationのassociationIdが用いられる。より具体的には、クライアント200のMPDファイル処理部212は、associationIdが”o1-1”、”o1-2”、”o2-1”、”o2-2”(図中の符号11)であることに基づいて、当該メタデータファイルが対応するオーディオファイルを認識することができる。
しかし、当該実施例の方法では、クライアント200は、メタデータファイルに含まれているstreamIDと、各オーディオファイルのstreamIDの一致を確認するために、メタデータファイルのstreamIDを確認した後に、さらに、各オーディオファイルを取得し、当該オーディオファイルのMovieBox(‘moov’)部分を確認する必要がある。換言すると、クライアント200は、再生に用いない不要なオーディオファイルまで取得することになる。
また、オブジェクトメタデータはオブジェクトが同一であればビットレートに関係なく同じ内容である。つまり、同一のAdaptationSetに含まれるオーディオファイルに対応するオブジェクトメタデータは互いに同一である。そのため、associationIdにて行われる対応付けは、Representation単位ではなく、AdaptationSet単位で行われればよい。換言すると、オーディオファイルとメタデータファイルの対応付けに関する記載にも無駄が存在する。
(4-2-3-2.オーディオファイルとメタデータファイルの対応付け例(実施例2))
当該実施例は、上記の実施例1に対して、オーディオファイルのstreamIDを示す方法を追加したものである。より具体的には、図26に示すように、各オーディオファイルを含むAdaptationSetで、「SupplementalProperty
schemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataStreamID”value=“**”」(図中の符号12)が追加される。valueは、オーディオファイルのstreamIDを示す。
これによって、クライアント200のMPDファイル処理部212は、MPDファイルにて、メタデータファイルに含まれているstreamIDと、各オーディオファイルのstreamIDの一致を確認することができる。換言すると、クライアント200は、再生に用いない不要なオーディオファイルを取得する必要がなくなる。なお、オーディオファイルとメタデータファイルの対応付けをはじめとするその他の内容については、図25に示したMPDファイルと同一であるため説明を省略する。
(4-2-3-3.オーディオファイルとメタデータファイルの対応付け例(実施例3))
当該実施例は、上記の実施例2に対して、オーディオファイルとメタデータファイルの対応付けの無駄を省略したものである。メタデータファイルを含むAdaptationSetと、各オーディオファイルを含むAdaptationSetとの対応付けを行うassociationIdを、AdaptationSetのattributeとして設定可能とする。より具体的には、図27に示すように、オーディオファイルのAdaptationSetを示すassociationId(図中の符号13)を、メタデータファイルを含むAdaptationSetのattributeとして設定可能とする。これによって、オーディオファイルとメタデータファイルの対応付けに関する記載の無駄が削減される。なお、その他の内容については、図26に示したMPDファイルと同一であるため説明を省略する。
(4-2-3-4.オーディオファイルとメタデータファイルの対応付け例(実施例4))
当該実施例は、PreselectionにメタデータファイルのAdaptationSet等をシグナリングする方法である。より具体的には、図28に示すように、「SupplementalProperty
schemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataFileAndStreamID” value=“metadataASid,num_streamID,streamID1,audioASid1,streamID2,audioASid2,…,streamIDk,audioASidk”」(図中の符号14)が追加される。
valueについて、metadataASidは、メタデータファイルを含むAdaptationSetのidを示し、num_streamIDは、当該メタデータファイルが対応するオーディオファイル数を示す(換言すると、ISOBMFFにおけるnum_reference_streamIDと同じである)。そして、streamIDkは、当該メタデータファイルが対応するオーディオファイルのstreamIDを示し、audioASidkは、そのstreamIDのオーディオファイルを含むAdaptationSetのidを示す。
(4-2-3-5.オーディオファイルとメタデータファイルの対応付け例(実施例5))
当該実施例は、実施例4におけるnum_streamID、streamIDk、audioASidkをメタデータァイルのAdaptationSetでシグナリングするものである。より具体的には、図29に示すように、メタデータァイルのAdaptationSetに「SupplementalProperty
schemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataStreamID” value= “num_streamID,streamIDk,audioASidk”」(図中の符号15)が追加される。なお、その他の内容については、図28に示したMPDファイルと同一であるため説明を省略する。
<5.ビットレート情報のシグナリング例>
上記では、優先度情報のシグナリング例について説明した。続いて、ビットレート情報のシグナリング例について説明する。より具体的には、1つのオーディオファイルに複数のオブジェクトオーディオデータが格納される場合について、それぞれのオブジェクトオーディオデータのビットレート情報をMPDファイルで示す方法の例について説明する。
(5-1.ビットレートが時間の経過に伴って変化しない場合のシグナリング例)
まず、ビットレートが時間の経過に伴って変化しない場合のシグナリング例について説明する。
(5-1-1.ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例1))
当該実施例は、オーディオファイルに格納される複数のオブジェクトオーディオデータのビットレートが互いに等しい場合にのみ使用可能なビットレート情報のシグナリング例である。
例えば、図30の30Aに示すように、互いに等しいビットレート(64[kbps])を有するオブジェクトオーディオデータ1~オブジェクトオーディオデータ3が1つのオーディオファイルに格納されている場合について考える。この場合、サーバ100のMPDファイル生成部114は、30Bに示すようなMPDファイルを生成する。
より具体的には、MPDファイルのRepresentationに、「SupplementalProperty
schemeIdUri=”urn:mpeg:dash:objectAudio:objectNumber” value=“**”」(図中の符号16)が追加される。valueは、オーディオファイルに格納されているオブジェクトオーディオデータ数を示す。これによって、クライアント200のMPDファイル処理部212は、オーディオファイル全体のビットレート(図中の「bitrate=“192000”」)をオブジェクトオーディオデータ数で除算して得られる値を、各オブジェクトオーディオデータのビットレートとして算出することができる。なお、図30および以降で説明するMPDファイルの内容は適宜省略されている。
(5-1-2.ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例2))
当該実施例は、オーディオファイルに格納される複数のオブジェクトオーディオデータのビットレートが互いに異なる場合であっても使用可能なビットレート情報のシグナリング例である。
例えば、図31の31Aに示すように、64[kbps]のビットレートを有するオブジェクトオーディオデータ1とオブジェクトオーディオデータ2、および、32[kbps]のビットレートを有するオブジェクトオーディオデータ3が1つのオーディオファイルに格納されている場合について考える。この場合、サーバ100のMPDファイル生成部114は、31Bに示すようなMPDファイルを生成する。
より具体的には、MPDファイルのRepresentationに、「SupplementalProperty schemeIdUri=”urn:mpeg:dash:objectAudio:objectBitrate”value=“bitrate1,bitrate2,…,bitratek”」(図中の符号17)が追加される。valueは、オーディオファイルに格納されている各オブジェクトオーディオデータのビットレートを、オブジェクトオーディオデータの格納順に示すものである。これによって、クライアント200のMPDファイル処理部212は、各オブジェクトオーディオデータのビットレートを認識することができる。
(5-1-3.ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例3))
当該実施例は、オーディオファイルに格納される複数のオブジェクトオーディオデータのビットレートが互いに異なる場合であっても使用可能なビットレート情報のシグナリング例である。
例えば、図31の31Aに示すように、64[kbps]のビットレートを有するオブジェクトオーディオデータ1とオブジェクトオーディオデータ2、および、32[kbps]のビットレートを有するオブジェクトオーディオデータ3が1つのオーディオファイルに格納されている場合について考える。この場合、サーバ100のMPDファイル生成部114は、図32に示すようなMPDファイルを生成してもよい。
より具体的には、MPDファイルのRepresentationに、「SupplementalProperty
schemeIdUri=”urn:mpeg:dash:objectAudio:objectBitrateRatio”value=“ratio1,ratio2,…,ratiok”」(図中の符号18)が追加される。valueは、オーディオファイルに格納されている各オブジェクトオーディオデータのビットレートの比を、オブジェクトオーディオデータの格納順に示すものである。図32の例では、valueは、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3のビットレートの比が「2:2:1」であることを示している。
これによって、クライアント200のMPDファイル処理部212は、オーディオファイル全体のビットレート(図中の「bitrate=“160000”」)と各オブジェクトオーディオデータのビットレートの比を用いて各オブジェクトオーディオデータのビットレートを算出することができる。より具体的には、MPDファイル処理部212は、最初に格納されているオブジェクトオーディオデータ1のビットレートがオーディオファイル全体のビットレート(160[kbps])の2/5であることを認識し、オブジェクトオーディオデータ1のビットレートを64[kbps]と算出することができる。オブジェクトオーディオデータ2およびオブジェクトオーディオデータ3のビットレートについても同様の方法で算出可能である。
(5-1-4.ビットレートが時間の経過に伴って変化しない場合のシグナリング例(実施例4))
当該実施例は、上記の実施例1および実施例2を組み合せたビットレート情報のシグナリング例である。
例えば、図31の31Aに示すように、64[kbps]のビットレートを有するオブジェクトオーディオデータ1とオブジェクトオーディオデータ2、および、32[kbps]のビットレートを有するオブジェクトオーディオデータ3が1つのオーディオファイルに格納されている場合について考える。この場合、サーバ100のMPDファイル生成部114は、図33に示すようなMPDファイルを生成してもよい。
より具体的には、MPDファイルのRepresentationに、「SupplementalProperty
schemeIdUri=”urn:mpeg:dash:objectAudio:objectNumberBitrate”value=“number,bitrate1,bitrate2,…,bitratek”」(図中の符号19)が追加される。valueにおけるnumberは、オーディオファイルに格納されているオブジェクトオーディオデータ数を示し、bitratekは、各オブジェクトオーディオデータのビットレートを、オブジェクトオーディオデータの格納順に示す。
当該実施例においては、サーバ100のMPDファイル生成部114が上記のnumberまたはbitratekのいずれかを適宜省略しても、クライアント200のMPDファイル処理部212は、各オブジェクトオーディオデータのビットレートを適切に算出することができる。
なお、上記の実施例1および実施例2が組み合わされるのではなく、実施例1と実施例3が組み合わされてもよい。換言すると、オーディオファイルに格納されているオブジェクトオーディオデータ数の情報と、各オブジェクトオーディオデータのビットレートの比がオブジェクトオーディオデータの格納順に示された情報がMPDファイルに示されてもよい。
(5-2.ビットレートが時間の経過に伴って変化する場合のシグナリング例)
続いて、ビットレートが時間の経過に伴って変化する場合のシグナリング例について説明する。ここでは、ビットレートが優先度に応じて時間の経過と共に変化する場合のシグナリング例について説明する。
例えば、図34に示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3が1つのオーディオファイルに格納される場合について考える。そして、時刻t1においては、オブジェクトオーディオデータ1の優先度が3でビットレートが64[kbps]であり、オブジェクトオーディオデータ2の優先度が2でビットレートが64[kbps]であり、オブジェクトオーディオデータ3の優先度が1でビットレートが32[kbps]である。そして、その後の時刻t2においては、オブジェクトオーディオデータ2の優先度が1に、ビットレートが32[kbps]に変化し、オブジェクトオーディオデータ3の優先度が2に、ビットレートが64[kbps]に変化したとする。
(5-2-1.ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例5))
当該実施例は、オーディオファイルに格納されるオブジェクトオーディオデータのビットレートが時間の経過に伴って変化することだけを示すシグナリング例である。
より具体的には、図35に示すように、MPDファイルのRepresentationに、「SupplementalProperty schemeIdUri=“urn:mpeg:dash:objectAudio:objectDynamicBitrate”」(図中の符号20)が追加される。これによって、クライアント200のMPDファイル処理部212は、オブジェクトオーディオデータのビットレートが時間の経過に伴って変化することを認識することができ、任意の用途に活用することができる。なお、図35および以降で説明するMPDファイルの内容は適宜省略されている。
(5-2-2.ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例6))
当該実施例は、オーディオファイルに格納されるオブジェクトオーディオデータのビットレートが優先度に応じて決まることを示すことで、オブジェクトオーディオデータのビットレートが時間の経過に伴って変化することを示すシグナリング例である。
より具体的には、図36に示すように、MPDファイルのRepresentationに、「SupplementalProperty schemeIdUri=“urn:mpeg:dash:objectAudio:objectBitratePriority”value=“bitrate1,bitreta2,…,bitratek”」(図中の符号21)が追加される。valueは、優先度の高い順に並べられたオブジェクトオーディオデータのビットレートを示す。これによって、クライアント200のMPDファイル処理部212は、各オブジェクトオーディオデータのビットレートを認識することができる。
(5-2-3.ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例7))
当該実施例は、オーディオファイルに格納されるオブジェクトオーディオデータのビットレートの比が優先度に応じて決まることを示すことで、オブジェクトオーディオデータのビットレートが時間の経過に伴って変化することを示すシグナリング例である。
より具体的には、図37に示すように、MPDファイルのRepresentationに、「SupplementalProperty schemeIdUri=“urn:mpeg:dash:objectAudio:objectBitrateRatioPriority”
value=“ratio1, ratio2,…,ratiok”」(図中の符号22)が追加される。valueは、優先度の高い順に並べられたオブジェクトオーディオデータのビットレートの比を示す。
これによって、クライアント200のMPDファイル処理部212は、オーディオファイル全体のビットレート(図中の「bitrate=“160000”」)と各オブジェクトオーディオデータのビットレートの比を用いて各オブジェクトオーディオデータのビットレートを算出することができる。
(5-2-4.ビットレートが時間の経過に伴って変化する場合のシグナリング例(実施例8))
当該実施例は、ビットレートをオーディオファイルへの格納順で示す方法と、ビットレートを優先度の高い順で示す方法とを切り替えることができるシグナリング例である。
より具体的には、図38に示すように、MPDファイルのRepresentationに、「SupplementalProperty
schemeIdUri=“urn:mpeg:dash:objectAudio:objectBitrate” value=“flag,bitrate1,bitrate2,…,bitratek”」(図中の符号23)が追加される。valueにおけるflagは、ビットレートがオーディオファイルへの格納順で並んでいるのか、優先度の高い順で並んでいるのかを示す。例えば、flagが0であることは、ビットレートがオーディオファイルへの格納順で並んでいることを示し、flagが1であることは、ビットレートが優先度の高い順で並んでいることを示す。また、valueにおけるbitratekは、各オブジェクトオーディオデータのビットレートを示す。
なお、valueにおけるbitratekによって各オブジェクトオーディオデータのビットレートが示されるのではなく、ratiokによって各オブジェクトオーディオデータのビットレートの比が示されてもよい。また、オーディオファイルに含まれるオブジェクトオーディオデータの優先度が互いに同一であっても、オブジェクトオーディオデータのビットレートが互いに異なるオーディオファイルが作成され、上記のようなシグナリングが行われてもよい。この場合、クライアント200は、ユーザ所望のオーディオファイルを選択することができる。
<6.ディスクリプション情報のシグナリング例>
上記では、ビットレート情報のシグナリング例について説明した。続いて、ディスクリプション情報のシグナリング例について説明する。
ここで、ディスクリプション情報とは、オーディオファイルに格納されるオブジェクトオーディオデータの内容(または、種類、種別、カテゴリー等)を示す情報である。例えば、図39の39Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3が1つのオーディオファイルに格納されており、それぞれの内容が、メインボーカル、コーラス、バンドであるとする。この場合、サーバ100のMPDファイル生成部114は、39Bに示すようなMPDファイルを生成する。
より具体的には、MPDファイルのRepresentationに、「SupplementalProperty
schemeIdUri=“urn:mpeg:dash:objectAudio:objectDescription”value=“description1,description2,…,descriptionk”」(図中の符号24)が追加される。valueは、オブジェクトオーディオデータのディスクリプション情報を、オブジェクトオーディオデータの格納順に示すものである。例えば、valueには、39Bに示すように、「“メインボーカル,コーラス,バンド”」が格納される。
これによって、クライアント200を操作するユーザは、各オブジェクトオーディオデータの内容を認識することができるため、所望のオーディオファイルを容易に選択することができる。なお、図39の39Bに示したMPDファイルの内容は適宜省略されている。
<7.クライアント200の処理例>
上記では、ディスクリプション情報のシグナリング例について説明した。続いて、クライアント200の処理例について説明する。
(7-1.優先度が時間の経過に伴って変化しない場合のクライアント200の処理例)
まず、図40を参照して、優先度が時間の経過に伴って変化しない場合のクライアント200の処理例について説明する。図40は、優先度が時間の経過に伴って変化しない場合において、クライアント200がオーディオコンテンツの再生に用いるオーディオファイルを取得するまでの処理例を示すフローチャートである。
ステップS1000では、クライアント200のMPDファイル処理部212がMPDファイルのAdaptationSetの各オーディオファイルに格納されるオブジェクトオーディオデータのビットレート情報をMPDファイルから取得する(または、MPDファイルの情報に基づいて算出する)。ステップS1004では、MPDファイル処理部212がAdaptationSetのSupplementalPropertyのobjectAcquisitionPriorityから優先度情報を取得する。
ステップS1008では、セグメントファイル選択部213が、優先度のより高いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最低のビットレートが、優先度のより低いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最高のビットレート以上となるようなオーディオファイルの組合せを出力する。換言すると、セグメントファイル選択部213は、優先度のより高いオーディオファイルのオブジェクトオーディオデータのビットレートがより高くなるような組合せを出力する。そして、セグメントファイル選択部213は、出力したオーディオファイルを、合計のビットレートの高い順に並べる。
ここで、図41を参照して具体例について説明する。図41の41Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3が格納されたオーディオファイル1のビットレート違いであるオーディオファイル1-1~オーディオファイル1-3と、オブジェクトオーディオデータ4が格納されたオーディオファイル2のビットレート違いであるオーディオファイル2-1およびオーディオファイル2-2が存在する場合について考える。そして、オーディオファイル1の優先度は2、オーディオファイル2の優先度は1であるとする。
この場合、ステップS1008における、優先度のより高いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最低のビットレートが、優先度のより低いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最高のビットレート以上となるようなオーディオファイルの組合せは、41Bに示す組合せ1~組合せ4である。
そして、ステップS1012にて、セグメントファイル選択部213は、利用可能な伝送帯域を決定する。ステップS1016では、セグメントファイル選択部213が、利用可能な伝送帯域に基づいて最も高いビットレートで伝送可能な組合せを、ステップS1008で出力した組合せの中から選択し、セグメントファイル取得部214が当該組合せのオーディオファイルをサーバ100から取得する。
その後、次の時刻のセグメントデータがある場合(ステップS1020/No)、ステップS1012およびステップS1016の処理が継続して行われる。次の時刻のセグメントデータがない場合(ステップS1020/Yes)、すなわち、コンテンツの最後までセグメントデータを取得した場合は、オーディオファイルの取得に関する一連の処理が終了する。ステップS1016で取得されたセグメントデータは、復号処理部215および合成処理部216によって、オブジェクトオーディオデータの復号処理および合成処理等を行われることで、オーディオコンテンツがユーザに提供される。
(7-2.優先度が時間の経過に伴って変化する場合のクライアント200の処理例)
続いて、図42を参照して、優先度が時間の経過に伴って変化する場合のクライアント200の処理例について説明する。図42は、優先度が時間の経過に伴って変化する場合において、クライアント200がオーディオコンテンツの再生に用いるオーディオファイルを取得するまでの処理例を示すフローチャートである。
ステップS1100では、クライアント200のMPDファイル処理部212がMPDファイルのAdaptationSetの各オーディオファイルに格納されるオブジェクトオーディオデータのビットレート情報をMPDファイルから取得する(または、MPDファイルの情報に基づいて算出する)。ステップS1104では、セグメントファイル選択部213が、メタデータファイルから、次の再生時刻の再生に必要なすべてのオブジェクトオーディオデータの優先度を取得する。
ステップS1108では、セグメントファイル選択部213が、優先度のより高いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最低のビットレートが、優先度のより低いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最高のビットレート以上となるようなオーディオファイルの組合せを出力する。換言すると、セグメントファイル選択部213は、優先度のより高いオーディオファイルのオブジェクトオーディオデータのビットレートがより高くなるような組合せを出力する。そして、セグメントファイル選択部213は、出力したオーディオファイルを、合計のビットレートの高い順に並べる。
ここで、図43を参照して具体例について説明する。図43の43Aに示すように、オブジェクトオーディオデータ1~オブジェクトオーディオデータ3が格納されたオーディオファイル1のビットレート違いであるオーディオファイル1-1~オーディオファイル1-3と、オブジェクトオーディオデータ4が格納されたオーディオファイル2のビットレート違いであるオーディオファイル2-1およびオーディオファイル2-2が存在する場合について考える。そして、オブジェクトオーディオデータ1の優先度が4、オブジェクトオーディオデータ2の優先度が3、オブジェクトオーディオデータ3の優先度が2、オブジェクトオーディオデータ4の優先度が1であり、これらの優先度が時間の経過に伴って変化するとする。そして、オーディオファイル1およびオーディオファイル2の優先度は、それぞれに格納された各オブジェクトオーディオデータの優先度の変化に伴って変化するとする。
この場合、ステップS1108における、優先度のより高いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最低のビットレートが、優先度のより低いオーディオファイルに格納されるオブジェクトオーディオデータのうちの最高のビットレート以上となるようなオーディオファイルの組合せは、43Bに示す組合せ1~組合せ4である。
そして、ステップS1112にて、セグメントファイル選択部213は、利用可能な伝送帯域を決定する。ステップS1116では、セグメントファイル選択部213が、利用可能な伝送帯域に基づいて最も高いビットレートで伝送可能な組合せを、ステップS1108で出力した組合せの中から選択し、セグメントファイル取得部214が当該組合せのオーディオファイルをサーバ100から取得する。
その後、次の時刻のセグメントデータがある場合(ステップS1120/No)、ステップS1104~ステップS1116の処理が継続して行われる。換言すると、優先度が時間の経過に伴って変化するため、セグメントファイル選択部213は、随時取得されるメタデータファイルから、次の再生時刻の再生に必要なすべてのオブジェクトオーディオデータの優先度を取得し続けることで、優先度の変化に適切に対応する。次の時刻のセグメントデータがない場合(ステップS1120/Yes)、すなわち、コンテンツの最後までセグメントデータを取得した場合は、オーディオファイルの取得に関する一連の処理が終了する。ステップS1116で取得されたセグメントデータは、復号処理部215および合成処理部216によって、オブジェクトオーディオデータの復号処理および合成処理等を行われることで、オーディオコンテンツがユーザに提供される。
なお、図40および図42のフローチャートにおける各ステップは、必ずしも記載された順序に沿って時系列に処理される必要はない。すなわち、フローチャートにおける各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
<8.ハードウェア構成例>
上記では、クライアント200の処理例について説明した。続いて、図44を参照して、サーバ100またはクライアント200のハードウェア構成例について説明する。
図44は、サーバ100またはクライアント200を具現する情報処理装置900のハードウェア構成例を示すブロック図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only
Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置(HDD)910と、ドライブ911と、通信装置912とを備える。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス904により相互に接続されている。当該CPU901、ROM902およびRAM903の協働により、サーバ100の処理部110もしく制御部120、または、クライアント200の処理部210もしくは制御部220の各機能が実現される。
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置900を使用するユーザは、該入力装置908を操作することにより、各装置に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置909は、スピーカおよびヘッドホンなどの音声出力装置を含む。出力装置909は、例えば、再生されたコンテンツを出力する。具体的には、表示装置は再生された映像データ等の各種情報をテキストまたはイメージで表示する。一方、音声出力装置は、再生された音声データ等を音声に変換して出力する。
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。当該ストレージ装置910によって、サーバ100の記憶部140またはクライアント200の記憶部240の機能が実現される。
ドライブ911は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ911は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体913に記録されている情報を読み出して、RAM903に出力する。また、ドライブ911は、リムーバブル記憶媒体913に情報を書き込むこともできる。
通信装置912は、例えば、通信網914に接続するための通信デバイス等で構成された通信インタフェースである。通信装置912によって、サーバ100の通信部130またはクライアント200の通信部230の機能が実現される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
オブジェクトオーディオデータ単位で優先度が設定されたストリームデータを送信する送信部を備える、
送信装置。
(2)
前記ストリームデータは、MPEG-DASH(Dynamic Adaptive
Streaming over Http)によって規定されたデータである、
前記(1)に記載の送信装置。
(3)
前記優先度に基づいて1または2以上の前記オブジェクトオーディオデータをオーディオファイルに含めることで前記ストリームデータを生成する処理部をさらに備える、
前記(1)または(2)に記載の送信装置。
(4)
前記処理部は、前記優先度に基づいて前記オーディオファイル単位で別の優先度を設定する、
前記(3)に記載の送信装置。
(5)
前記処理部は、前記ストリームデータについてのMPDファイル、または、前記オブジェクトオーディオデータに対応するオブジェクトメタデータを含むメタデータファイルのいずれかに前記優先度に関する情報を含める、
前記(3)または(4)に記載の送信装置。
(6)
前記優先度が時間の経過に伴って変化しない場合、前記処理部は、前記MPDファイルに前記優先度に関する情報を含める、
前記(5)に記載の送信装置。
(7)
前記処理部は、前記MPDファイルのアダプテーションセット(AdaptationSet)に前記優先度に関する情報を含める、
前記(6)に記載の送信装置。
(8)
前記優先度が時間の経過に伴って変化する場合、前記処理部は、前記メタデータファイルに前記優先度に関する情報を含める、
前記(5)に記載の送信装置。
(9)
前記処理部は、前記MPDファイルを用いて前記メタデータファイルと前記オーディオファイルを対応付ける、
前記(8)に記載の送信装置。
(10)
前記処理部は、前記オブジェクトオーディオデータのビットレートに関する情報を前記MPDファイルに含める、
前記(5)から(9)のいずれか1項に記載の送信装置。
(11)
前記処理部は、前記ビットレートに関する情報を、前記オブジェクトオーディオデータごとに前記MPDファイルに含める、
前記(10)に記載の送信装置。
(12)
前記処理部は、前記ビットレートに関する情報を、前記優先度ごとに前記MPDファイルに含める、
前記(10)に記載の送信装置。
(13)
前記処理部は、前記ビットレートに関する情報を、前記オブジェクトオーディオデータごとに前記MPDファイルに含めるか、前記優先度ごとに前記MPDファイルに含めるかを示すflagを前記MPDファイルに含める、
前記(11)または(12)に記載の送信装置。
(14)
前記処理部は、前記オブジェクトオーディオデータのディスクリプション情報を前記MPDファイルに含める、
前記(5)から(13)のいずれか1項に記載の送信装置。
(15)
オブジェクトオーディオデータ単位で優先度が設定されたストリームデータを送信することを有する、
コンピュータにより実行される送信方法。
(16)
オブジェクトオーディオデータ単位で優先度が設定されたストリームデータを送信すること、
をコンピュータに実現させるためのプログラム。
(17)
オブジェクトオーディオデータ単位で優先度が設定されたストリームデータを受信する受信部を備える、
受信装置。
(18)
前記ストリームデータは、MPEG-DASH(Dynamic Adaptive
Streaming over Http)によって規定されたデータである、
前記(17)に記載の受信装置。
(19)
前記ストリームデータについてのMPDファイル、または、前記オブジェクトオーディオデータに対応するオブジェクトメタデータを含むメタデータファイルのいずれかに含まれる前記優先度に関する情報に基づいて前記ストリームデータの受信処理を行う処理部をさらに備える、
前記(17)または(18)に記載の受信装置。
(20)
前記優先度が時間の経過に伴って変化しない場合、前記処理部は、前記MPDファイルに含まれる前記優先度に関する情報に基づいて前記ストリームデータの受信処理を行う、
前記(19)に記載の受信装置。
(21)
前記優先度が時間の経過に伴って変化する場合、前記処理部は、前記メタデータファイルに含まれる前記優先度に関する情報に基づいて前記ストリームデータの受信処理を行う、
前記(19)に記載の受信装置。
(22)
前記処理部は、前記MPDファイルに含まれる、前記オブジェクトオーディオデータのビットレートに関する情報に基づいて前記ストリームデータの選択および前記受信処理を行う、
前記(19)から(21)のいずれか1項に記載の受信装置。
(23)
前記処理部は、前記MPDファイルに含まれる、前記オブジェクトオーディオデータのディスクリプション情報に基づいて前記ストリームデータの選択および前記受信処理を行う、
前記(19)から(22)のいずれか1項に記載の受信装置。
(24)
オブジェクトオーディオデータ単位で優先度が設定されたストリームデータを受信することを有する、
コンピュータにより実行される受信方法。
(25)
オブジェクトオーディオデータ単位で優先度が設定されたストリームデータを受信すること、
をコンピュータに実現させるためのプログラム。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
オブジェクトオーディオデータとオブジェクトメタデータを含むオーディオファイル、および、前記オブジェクトオーディオデータを含まず前記オブジェクトメタデータを含むメタデータファイルを生成する処理部を備える、
情報処理装置。
(2)
前記メタデータファイルは、複数の前記オーディオファイルのそれぞれに含まれるオブジェクトメタデータを含む、
前記(1)に記載の情報処理装置。
(3)
前記メタデータファイルは、前記オブジェクトオーディオデータ単位で設定された優先度に関する情報を含む、
前記(1)または(2)に記載の情報処理装置。
(4)
前記メタデータファイルおよび前記オーディオファイルは、MP4(ISO/IEC Part 12 ISO Base Media File Format)によって規定されたファイルである、
前記(1)から(3)のいずれか1項に記載の情報処理装置。
(5)
前記処理部は、前記メタデータファイルを生成する際、前記メタデータファイルが対応する前記オーディオファイルの特定に用いられる情報を前記MP4におけるMovie Boxに含める、
前記(4)に記載の情報処理装置。
(6)
前記処理部は、前記メタデータファイルが対応する前記オーディオファイルの特定に用いられる情報を前記Movie BoxにおけるSample Description Boxに含める、
前記(5)に記載の情報処理装置。
(7)
前記処理部は、前記メタデータファイルが対応する前記オーディオファイルの特定に用いられる情報を前記Sample Description BoxにおけるSample Entryに含める、
前記(6)に記載の情報処理装置。
(8)
前記オーディオファイルの特定に用いられる情報は、streamIDを含み、
前記メタデータファイルに含まれる前記オブジェクトメタデータは、前記streamIDによって前記オーディオファイルと対応付けられる、
前記(5)から(7)のいずれか1項に記載の情報処理装置。
(9)
前記オブジェクトメタデータおよび前記オブジェクトオーディオデータは、MPEG-H 3D AudioまたはAAC 3D Audioによって規定されたデータである、
前記(1)から(8)のいずれか1項に記載の情報処理装置。
(10)
前記オブジェクトメタデータおよび前記オブジェクトオーディオデータが前記AAC 3D Audioによって規定されたデータである場合、
前記処理部は、前記オーディオファイルを生成する際、前記オーディオファイルを含む複数のオーディオファイル間の対応関係を示す情報をMP4におけるMovie Boxに含める、
前記(9)に記載の情報処理装置。
(11)
オブジェクトオーディオデータとオブジェクトメタデータを含むオーディオファイル、および、前記オブジェクトオーディオデータを含まず前記オブジェクトメタデータを含むメタデータファイルを生成することを有する、
コンピュータにより実行される情報処理方法。
(12)
オブジェクトオーディオデータとオブジェクトメタデータを含むオーディオファイル、および、前記オブジェクトオーディオデータを含まず前記オブジェクトメタデータを含むメタデータファイルを生成すること、
をコンピュータに実現させるためのプログラム。
(13)
オブジェクトオーディオデータとオブジェクトメタデータを含むオーディオファイル、および、前記オブジェクトオーディオデータを含まず前記オブジェクトメタデータを含むメタデータファイルに対する受信処理を行う処理部を備える、
情報処理装置。
(14)
前記メタデータファイルは、複数の前記オーディオファイルのそれぞれに含まれるオブジェクトメタデータを含む、
前記(13)に記載の情報処理装置。
(15)
前記メタデータファイルは、前記オブジェクトオーディオデータ単位で設定された優先度に関する情報を含む、
前記(13)または(14)に記載の情報処理装置。
(16)
前記メタデータファイルおよび前記オーディオファイルは、MP4(ISO/IEC Part 12 ISO Base Media File Format)によって規定されたファイルである、
前記(13)から(15)のいずれか1項に記載の情報処理装置。
(17)
前記処理部は、前記メタデータファイルに対する受信処理の際、前記MP4におけるMovie Boxに含まれる情報を用いて前記メタデータファイルが対応する前記オーディオファイルを特定する、
前記(16)に記載の情報処理装置。
(18)
前記処理部は、前記Movie BoxにおけるSample Description Boxに含まれる情報を用いて前記メタデータファイルが対応する前記オーディオファイルを特定する、
前記(17)に記載の情報処理装置。
(19)
前記処理部は、前記Sample Description BoxにおけるSample Entryに含まれる情報を用いて前記メタデータファイルが対応する前記オーディオファイルを特定する、
前記(18)に記載の情報処理装置。
(20)
前記メタデータファイルに含まれる前記オブジェクトメタデータは、streamIDによって前記オーディオファイルと対応付けられる、
前記(17)から19のいずれか1項に記載の情報処理装置。
(21)
前記オブジェクトメタデータおよび前記オブジェクトオーディオデータは、MPEG-H 3D AudioまたはAAC 3D Audioによって規定されたデータである、
前記(13)から(20)のいずれか1項に記載の情報処理装置。
(22)
前記オブジェクトメタデータおよび前記オブジェクトオーディオデータが前記AAC 3D Audioによって規定されたデータである場合、
前記処理部は、前記オーディオファイルに対する受信処理の際、MP4におけるMovie Boxに含まれる情報を用いて前記オーディオファイルを含む複数のオーディオファイル間の対応関係を認識する、
前記(21)に記載の情報処理装置。
(23)
オブジェクトオーディオデータとオブジェクトメタデータを含むオーディオファイル、および、前記オブジェクトオーディオデータを含まず前記オブジェクトメタデータを含むメタデータファイルに対する受信処理を行うことを有する、
コンピュータにより実行される情報処理方法。
(24)
オブジェクトオーディオデータとオブジェクトメタデータを含むオーディオファイル、および、前記オブジェクトオーディオデータを含まず前記オブジェクトメタデータを含むメタデータファイルに対する受信処理を行うこと、
をコンピュータに実現させるためのプログラム。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
取得されたオブジェクトオーディオデータごとに優先度を設定し、
前記優先度に基づいて、1または2以上の前記オブジェクトオーディオデータから、生成されるセグメントファイルに含める前記オブジェクトオーディオデータを決定し、
前記優先度に基づいて、生成された前記セグメントファイルに対し設定する新たな優先度を優先度情報として生成する処理部を備える、
情報処理装置。
(2)
前記処理部は、更に、前記オブジェクトオーディオデータに対応する符号化されたオブジェクトメタデータを有するメタデータファイルを生成し、
前記オブジェクトメタデータには前記優先度情報が含まれる、
前記(1)に記載の情報処理装置。
(3)
前記優先度情報が時間の経過に伴って変化しない場合、前記処理部は、更に、前記セグメントファイルについてのMPDファイルを生成し、前記MPDファイルに前記優先度情報を含める、
前記(1)に記載の情報処理装置。
(4)
前記処理部は、前記MPDファイルのアダプテーションセット(AdaptationSet)に前記優先度情報を含める、
前記(3)に記載の情報処理装置。
(5)
前記優先度情報が時間の経過に伴って変化する場合、前記処理部は、更に、前記セグメントファイル及び前記メタデータファイルについてのMPDファイルを生成する、
前記(2)に記載の情報処理装置。
(6)
前記処理部は、前記オブジェクトオーディオデータのビットレートに関する情報を、前記オブジェクトオーディオデータごとに前記MPDファイルに含める、
前記(4)または(5)に記載の情報処理装置。
(7)
前記処理部は、前記セグメントファイルの特定に用いられる情報を、前記メタデータファイルのMovie BoxのSample Description Boxに格納する、
前記(2)に記載の情報処理装置。
(8)
前記処理部は、前記セグメントファイルの特定に用いられる情報を、前記Sample Description BoxにおけるSample Entryに格納する
前記(7)に記載の情報処理装置。
(9)
前記セグメントファイルの特定に用いられる情報には、前記セグメントファイルをユニークに識別するためのstreamIDが含まれる
前記(8)に記載の情報処理装置。
(10)
取得されたオブジェクトオーディオデータごとに優先度が設定されたストリームデータを情報処理することを有する、
コンピュータにより実行される情報処理方法。
(11)
取得されたオブジェクトオーディオデータごとに優先度が設定されたストリームデータを情報処理すること、
をコンピュータに実現させるためのプログラム。
100 サーバ
110 処理部
111 データ取得部
112 符号化処理部
113 セグメントファイル生成部
114 MPDファイル生成部
120 制御部
130 通信部
140 記憶部
200 クライアント
210 処理部
211 MPDファイル取得部
212 MPDファイル処理部
213 セグメントファイル選択部
214 セグメントファイル取得部
215 復号処理部
216 合成処理部
220 制御部
230 通信部
240 記憶部
300 インターネット

Claims (11)

  1. 取得されたオブジェクトオーディオデータごとに優先度を設定し、
    前記優先度に基づいて、1または2以上の前記オブジェクトオーディオデータから、生成されるセグメントファイルに含める前記オブジェクトオーディオデータを決定し、
    前記優先度に基づいて、生成された前記セグメントファイルに対し設定する新たな優先度を優先度情報として生成する処理部を備える、
    情報処理装置。
  2. 前記処理部は、更に、前記オブジェクトオーディオデータに対応する符号化されたオブジェクトメタデータを有するメタデータファイルを生成し、
    前記オブジェクトメタデータには前記優先度情報が含まれる、
    請求項1に記載の情報処理装置。
  3. 前記優先度情報が時間の経過に伴って変化しない場合、前記処理部は、更に、前記セグメントファイルについてのMPDファイルを生成し、前記MPDファイルに前記優先度情報を含める、
    請求項1に記載の情報処理装置。
  4. 前記処理部は、前記MPDファイルのアダプテーションセット(AdaptationSet)に前記優先度情報を含める、
    請求項3に記載の情報処理装置。
  5. 前記優先度情報が時間の経過に伴って変化する場合、前記処理部は、更に、前記セグメントファイル及び前記メタデータファイルについてのMPDファイルを生成する、
    請求項2に記載の情報処理装置。
  6. 前記処理部は、前記オブジェクトオーディオデータのビットレートに関する情報を、前記オブジェクトオーディオデータごとに前記MPDファイルに含める、
    請求項4または5に記載の情報処理装置。
  7. 前記処理部は、前記セグメントファイルの特定に用いられる情報を、前記メタデータファイルのMovie BoxのSample Description Boxに格納する、
    請求項2に記載の情報処理装置。
  8. 前記処理部は、前記セグメントファイルの特定に用いられる情報を、前記Sample Description BoxにおけるSample Entryに格納する
    請求項7に記載の情報処理装置。
  9. 前記セグメントファイルの特定に用いられる情報には、前記セグメントファイルをユニークに識別するためのstreamIDが含まれる
    請求項8に記載の情報処理装置。
  10. 取得されたオブジェクトオーディオデータごとに設定された優先度に基づいて1または2以上の前記オブジェクトオーディオデータから決定された前記オブジェクトオーディオデータを含めて生成されるセグメントファイルに対して、前記優先度に基づき新たな優先度が設定されたストリームデータを情報処理することを有する、
    コンピュータにより実行される情報処理方法。
  11. 取得されたオブジェクトオーディオデータごとに設定された優先度に基づいて1または2以上の前記オブジェクトオーディオデータから決定された前記オブジェクトオーディオデータを含めて生成されるセグメントファイルに対して、前記優先度に基づき新たな優先度が設定されたストリームデータを情報処理すること、
    をコンピュータに実現させるためのプログラム。
JP2019562790A 2017-12-28 2018-10-23 情報処理装置、情報処理方法およびプログラム Active JP7226335B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023018720A JP2023053131A (ja) 2017-12-28 2023-02-09 情報処理装置および情報処理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017253805 2017-12-28
JP2017253805 2017-12-28
PCT/JP2018/039286 WO2019130763A1 (ja) 2017-12-28 2018-10-23 情報処理装置、情報処理方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023018720A Division JP2023053131A (ja) 2017-12-28 2023-02-09 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2019130763A1 JPWO2019130763A1 (ja) 2020-12-17
JP7226335B2 true JP7226335B2 (ja) 2023-02-21

Family

ID=67063395

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019562790A Active JP7226335B2 (ja) 2017-12-28 2018-10-23 情報処理装置、情報処理方法およびプログラム
JP2023018720A Pending JP2023053131A (ja) 2017-12-28 2023-02-09 情報処理装置および情報処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023018720A Pending JP2023053131A (ja) 2017-12-28 2023-02-09 情報処理装置および情報処理方法

Country Status (9)

Country Link
US (1) US20200321015A1 (ja)
EP (1) EP3734594A4 (ja)
JP (2) JP7226335B2 (ja)
KR (1) KR20200101349A (ja)
CN (1) CN111512634A (ja)
BR (1) BR112020012494A2 (ja)
RU (1) RU2020120328A (ja)
TW (1) TW201939960A (ja)
WO (1) WO2019130763A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554877B (en) * 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
CN111510756A (zh) * 2019-01-30 2020-08-07 上海哔哩哔哩科技有限公司 音视频的切换方法、装置、计算机设备及可读存储介质
EP4062649A2 (en) * 2019-11-20 2022-09-28 Dolby International AB Methods and devices for personalizing audio content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014007603A (ja) 2012-06-25 2014-01-16 Panasonic Corp コンテンツ再生装置、コンテンツ再生システム、及びコンテンツ再生方法
WO2015182491A1 (ja) 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
JP2016010090A (ja) 2014-06-26 2016-01-18 ソニー株式会社 復号装置および方法、並びにプログラム
JP2017507365A (ja) 2014-03-06 2017-03-16 ディーティーエス・インコーポレイテッドDTS,Inc. 複数のオブジェクトオーディオのポスト符号化ビットレート低減

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526427B2 (en) * 2001-03-06 2009-04-28 Ati Technologies, Inc. System and method for reception, processing and transmission of digital audio stream
DE10339498B4 (de) * 2003-07-21 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodateiformatumwandlung
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
JP5726874B2 (ja) * 2009-08-14 2015-06-03 ディーティーエス・エルエルシーDts Llc オブジェクト指向オーディオストリーミングシステム
EP2525587B1 (en) * 2011-05-17 2017-07-05 Alcatel Lucent Method for streaming video content, node in a network for monitoring video content streaming
US9445136B2 (en) * 2011-09-21 2016-09-13 Qualcomm Incorporated Signaling characteristics of segments for network streaming of media data
US20130254611A1 (en) * 2012-03-23 2013-09-26 Qualcomm Incorporated Recovering data in multimedia file segments
JP6181650B2 (ja) * 2012-07-02 2017-08-16 サターン ライセンシング エルエルシーSaturn Licensing LLC 送信装置、送信方法およびネットワーク装置
CN105900174B (zh) * 2014-01-14 2019-07-30 索尼公司 信息处理设备、信息记录介质、信息处理系统、信息处理方法及计算机可读存储介质
EP3151242B1 (en) * 2014-05-30 2020-01-15 Sony Corporation Information processor and information processing method
WO2016076569A1 (ko) * 2014-11-12 2016-05-19 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
US10269387B2 (en) * 2015-09-30 2019-04-23 Apple Inc. Audio authoring and compositing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014007603A (ja) 2012-06-25 2014-01-16 Panasonic Corp コンテンツ再生装置、コンテンツ再生システム、及びコンテンツ再生方法
JP2017507365A (ja) 2014-03-06 2017-03-16 ディーティーエス・インコーポレイテッドDTS,Inc. 複数のオブジェクトオーディオのポスト符号化ビットレート低減
WO2015182491A1 (ja) 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
JP2016010090A (ja) 2014-06-26 2016-01-18 ソニー株式会社 復号装置および方法、並びにプログラム

Also Published As

Publication number Publication date
BR112020012494A2 (pt) 2020-11-24
JP2023053131A (ja) 2023-04-12
EP3734594A4 (en) 2020-11-11
EP3734594A1 (en) 2020-11-04
KR20200101349A (ko) 2020-08-27
WO2019130763A1 (ja) 2019-07-04
JPWO2019130763A1 (ja) 2020-12-17
RU2020120328A3 (ja) 2021-12-20
TW201939960A (zh) 2019-10-01
RU2020120328A (ru) 2021-12-20
CN111512634A (zh) 2020-08-07
US20200321015A1 (en) 2020-10-08

Similar Documents

Publication Publication Date Title
JP2023053131A (ja) 情報処理装置および情報処理方法
KR100868475B1 (ko) 객체기반 오디오 서비스를 위한 다중객체 오디오 콘텐츠파일의 생성, 편집 및 재생 방법과, 오디오 프리셋 생성방법
CN104253999B (zh) 用于发送内容的设备和方法
US7844661B2 (en) Composition of local media playback with remotely generated user interface
US7500175B2 (en) Aspects of media content rendering
US20140052770A1 (en) System and method for managing media content using a dynamic playlist
KR20040005919A (ko) 프리젠테이션의 재생 속도 실시간 제어
JP5652642B2 (ja) データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法
JP2009543201A (ja) ローカル・ユーザ・インターフェースの、リモートで生成されたユーザ・インターフェースおよびメディアとの組合せ構成
JP7396267B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021065605A1 (ja) 情報処理装置および情報処理方法
WO2021002338A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
WO2019216001A1 (ja) 受信装置、送信装置、受信方法、送信方法、およびプログラム
WO2019187434A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021065277A1 (ja) 情報処理装置、再生処理装置及び情報処理方法
US20220239994A1 (en) Information processing apparatus, information processing method, reproduction processing apparatus, and reproduction processing method
JPWO2014171385A1 (ja) サーバ装置、コンテンツ提供方法及びコンピュータプログラム
CN101395910A (zh) 用于记录对媒体内容的编辑的方法和系统
JP2019121037A (ja) 情報処理装置、情報処理方法およびプログラム
US11967153B2 (en) Information processing apparatus, reproduction processing apparatus, and information processing method
JP2016040919A (ja) 情報処理装置、情報処理方法およびプログラム
KR100940212B1 (ko) 적응화된 콘텐츠 제공방법 및 적응화된 콘텐츠 제공 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R151 Written notification of patent or utility model registration

Ref document number: 7226335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151