JP2023113872A - 受信装置および受信方法 - Google Patents
受信装置および受信方法 Download PDFInfo
- Publication number
- JP2023113872A JP2023113872A JP2023094430A JP2023094430A JP2023113872A JP 2023113872 A JP2023113872 A JP 2023113872A JP 2023094430 A JP2023094430 A JP 2023094430A JP 2023094430 A JP2023094430 A JP 2023094430A JP 2023113872 A JP2023113872 A JP 2023113872A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- encoded data
- group
- stream
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 11
- 238000012545 processing Methods 0.000 claims abstract description 50
- 230000005540 biological transmission Effects 0.000 claims description 97
- 238000004891 communication Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000006978 adaptation Effects 0.000 description 14
- 239000000872 buffer Substances 0.000 description 13
- 239000000284 extract Substances 0.000 description 7
- 238000009877 rendering Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 6
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 6
- 238000012384 transportation and delivery Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 101100041822 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sce3 gene Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 101100041819 Arabidopsis thaliana SCE1 gene Proteins 0.000 description 1
- 101100126625 Caenorhabditis elegans itr-1 gene Proteins 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/23439—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/633—Control signals issued by server directed to the network components or client
- H04N21/6332—Control signals issued by server directed to the network components or client directed to client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
- H04N21/64322—IP
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
- H04N21/4355—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
- H04N21/4358—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen for generating different versions, e.g. for different peripheral devices
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Library & Information Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Circuits Of Receivers In General (AREA)
- Time-Division Multiplex Systems (AREA)
- Communication Control (AREA)
- Stereophonic System (AREA)
Abstract
【課題】複数種類のオーディデータを送信する場合にあって受信側の処理負荷を軽減する。【解決手段】複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する。このメタファイルに、複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する。例えば、メタファイルに、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する。【選択図】図17
Description
本技術は、受信装置および受信方法に関する。
従来、立体(3D)音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている(例えば、特許文献1参照)。
5.1チャネル、7.1チャネルなどのチャネル符号化データと共に、符号化サンプルデータおよびメタデータからなるオブジェクト符号化データを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。
本技術の目的は、複数種類の符号化データを送信する場合にあって受信側の処理負荷を軽減することにある。
本技術の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部とを備える
送信装置にある。
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部とを備える
送信装置にある。
本技術において、送信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルが送信される。例えば、複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる、ようにされてもよい。
情報挿入部により、メタファイルに、複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入される。例えば、メタファイルは、MPD(Media Presentation Description)ファイルである、ようにされてもよい。この場合、例えば、情報挿入部は、“Supplementary Descriptor”を用いて、メタファイルに属性情報を挿入する、ようにされてもよい。
また、例えば、送信部は、メタファイルをRF伝送路または通信ネットワーク伝送路を通じて送信する、ようにされてもよい。また、例えば、送信部は、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナをさらに送信する、ようにされてもよい。例えば、コンテナは、MP4である。本発明報告では、MP4は、ISO base media file format(ISOBMFF)(ISO/IEC 14496-12:2012 )を指すものとする。
このように本技術においては、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルに、その複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入される。そのため、受信側では、複数のグループの符号化データのそれぞれの属性を当該符号化データのデコード前に容易に認識でき、必要なグループの符号化データのみを選択的にデコードして用いることができ、処理負荷を軽減することが可能となる。
なお、本技術において、例えば、情報挿入部は、メタファイルに、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する、ようにされてもよい。この場合、例えば、ストリーム対応関係情報は、複数のグループの符号化データのそれぞれを識別するグループ識別子と所定数のオーディオストリームのそれぞれのストリームを識別する識別子との対応関係を示す情報である、ようにされてもよい。この場合、受信側では、必要なグループの符号化データが含まれるオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。
また、本技術の他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理部をさらに備える
受信装置にある。
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理部をさらに備える
受信装置にある。
本技術において、受信部により、メタファイルが受信される。このメタファイルは、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つものである。例えば、複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる、ようにされてもよい。メタファイルには、複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されている。処理部により、所定数のオーディオストリームが、その属性情報に基づいて処理される。
このように本技術においては、メタファイルに挿入されている複数のグループの符号化データのそれぞれの属性を示す属性情報に基づいて、所定数のオーディオストリームの処理が行われる。そのため、必要なグループの符号化データのみを選択的に復号化して用いることができ、処理負荷を軽減することが可能となる。
なお、本技術において、例えば、メタファイルには、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、処理部は、属性情報の他に、ストリーム対応関係情報に基づいて所定数のオーディオストリームを処理する、ようにされてもよい。この場合、必要なグループの符号化データが含まれるオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。
また、本技術において、例えば、処理部は、属性情報およびストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を施す、ようにされてもよい。
また、本技術のさらに他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置にある。
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置にある。
本技術において、受信部により、メタファイルが受信される。このメタファイルは、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つものである。メタファイルには、複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されている。
処理部により、所定数のオーディオストリームから属性情報に基づいて所定のグループの符号化データが選択的に取得され、この所定のグループの符号化データを含むオーディオストリームが再構成される。そして、ストリーム送信部により、再構成されたオーディオストリームが外部機器に送信される。
このように本技術においては、メタファイルに挿入されている複数のグループの符号化データのそれぞれの属性を示す属性情報に基づいて、所定数のオーディオストリームから所定のグループの符号化データが選択的に取得されて、外部機器に送信すべきオーディオストリームが再構成される。必要なグループの符号化データの取得を容易に行うことができ、処理負荷を軽減することが可能となる。
なお、本技術において、例えば、メタファイルには、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、処理部は、属性情報の他に、ストリーム対応関係情報に基づいて、所定数のオーディオストリームから所定のグループの符号化データを選択的に取得する、ようにされてもよい。この場合、所定グループの符号化データが含まれるオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。
本技術によれば、複数種類の符号化データを送信する場合にあって受信側の処理負荷を軽減することが可能となる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
1.実施の形態
2.変形例
<1.実施の形態>
[MPEG-DASHベースのストリーム配信システムの概要]
最初に、本技術を適用し得るMPEG-DASHベースのストリーム配信システムの概要を説明する。
[MPEG-DASHベースのストリーム配信システムの概要]
最初に、本技術を適用し得るMPEG-DASHベースのストリーム配信システムの概要を説明する。
図1(a)は、MPEG-DASHベースのストリーム配信システム30Aの構成例を示している。この構成例では、メディアストリームとMPDファイルが、通信ネットワーク伝送路を通じて送信される。このストリーム配信システム30Aは、DASHストリームファイルサーバ31およびDASH MPDサーバ32に、N個のサービス受信機33-1,33-2,・・・,33-Nが、CDN(Content Delivery Network)34を介して、接続された構成となっている。
DASHストリームファイルサーバ31は、所定のコンテンツのメディアデータ(ビデオデータ、オーディオデータ、字幕データなど)に基づいて、DASH仕様のストリームセグメント(以下、適宜、「DASHセグメント」という)を生成し、サービス受信機からのHTTP要求に応じてセグメントを送出する。このDASHストリームファイルサーバ31は、ストリーミング専用のサーバであってもよいし、また、ウェブ(Web)サーバで兼用されることもある。
また、DASHストリームファイルサーバ31は、サービス受信機33(33-1,33-2,・・・,33-N)からCDN34を介して送られてくる所定ストリームのセグメントの要求に対応して、そのストリームのセグメントを、CDN34を介して、要求元の受信機に送信する。この場合、サービス受信機33は、MPD(Media Presentation Description)ファイルに記載されているレートの値を参照して、クライアントの置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択して要求を行う。
DASH MPDサーバ32は、DASHストリームファイルサーバ31において生成されるDASHセグメントを取得するためのMPDファイルを生成するサーバである。コンテンツマネジメントサーバ(図示せず)からのコンテンツメタデータと、DASHストリームファイルサーバ31において生成されたセグメントのアドレス(url)をもとに、MPDファイルを生成する。なお、DASHストリームファイルサーバ31とDASH MPDサーバ32は、物理的に同じものであってもよい。
MPDのフォーマットでは、ビデオやオーディオなどのそれぞれのストリーム毎にリプレゼンテーション(Representation)という要素を利用して、それぞれの属性が記述される。例えば、MPDファイルには、レートの異なる複数のビデオデータストリーム毎に、リプレゼンテーションを分けてそれぞれのレートが記述される。サービス受信機33では、そのレートの値を参考にして、上述したように、サービス受信機33の置かれているネットワーク環境の状態に応じて、最適なストリームを選択できる。
図1(b)は、MPEG-DASHベースのストリーム配信システム30Bの構成例を示している。この構成例では、メディアストリームとMPDファイルが、RF伝送路を通じて送信される。このストリーム配信システム30Bは、DASHストリームファイルサーバ31およびDASH MPDサーバ32が接続された放送送出システム36と、M個のサービス受信機35-1,35-2,・・・,35-Mとで構成されている。
このストリーム配信システム30Bの場合、放送送出システム36は、DASHストリームファイルサーバ31で生成されるDASH仕様のストリームセグメント(DASHセグメント)およびDASH MPDサーバ32で生成されるMPDファイルを、放送波に載せて送信する。
図2は、MPDファイルに階層的に配置されている各構造体の関係の一例を示している。図2(a)に示すように、MPDファイル全体としてのメディア・プレゼンテーション(Media Presentation)には、時間間隔で区切られた複数のピリオド(Period)が存在する。例えば、最初のピリオドはスタートが0秒から、次のピリオドはスタートが100秒から、などとなっている。
図2(b)に示すように、ピリオドには、複数のリプレゼンテーション(Representation)が存在する。この複数のリプレゼンテーションには、アダプテーションセット(AdaptationSet)でグルーピングされる、ストリーム属性、例えばレートの異なる同一内容のメディアストリームに係るリプレゼンテーション群が存在する。
図2(c)に示すように、リプレゼンテーションには、セグメントインフォ(SegmentInfo)が含まれている。このセグメントインフォには、図2(d)に示すように、イニシャライゼーションセグメント(Initialization Segment)と、ピリオドをさらに細かく区切ったセグメント(Segment)毎の情報が記述される複数のメディアセグメント(Media Segment)が存在する。メディアセグメントには、ビデオやオーディオなどのセグメントデータを実際に取得するためのアドレス(url)の情報等が存在する。
なお、アダプテーションセットでグルーピングされている複数のリプレゼンテーションの間では、ストリームのスイッチングを自由に行うことができる。これにより、サービス受信機が置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択でき、途切れのない配信が可能となる。
[送受信システムの構成例]
図3は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、サービス送信システム100とサービス受信機200により構成されている。この送受信システム10において、サービス送信システム100は、上述の図1(a)に示すストリーム配信システム30AのDASHストリームファイルサーバ31およびDASH MPDサーバ32に対応する。また、この送受信システム10において、サービス送信システム100は、上述の図1(b)に示すストリーム配信システム30BのDASHストリームファイルサーバ31、DASH MPDサーバ32および放送送出システム36に対応する。
図3は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、サービス送信システム100とサービス受信機200により構成されている。この送受信システム10において、サービス送信システム100は、上述の図1(a)に示すストリーム配信システム30AのDASHストリームファイルサーバ31およびDASH MPDサーバ32に対応する。また、この送受信システム10において、サービス送信システム100は、上述の図1(b)に示すストリーム配信システム30BのDASHストリームファイルサーバ31、DASH MPDサーバ32および放送送出システム36に対応する。
また、この送受信システム10において、サービス受信機200は、上述の図1(a)に示すストリーム配信システム30Aのサービス受信機33(33-1,33-2,・・・,33-N)に対応する。また、この送受信システム10において、サービス受信機200は、上述の図1(b)に示すストリーム配信システム30Bのサービス受信機35(35-1,35-2,・・・,35-M)に対応する。
サービス送信システム100は、DASH/MP4、つまりメタファイルとしてのMPDファイルと、ビデオやオーディオなどのメディアストリーム(メディアセグメント)が含まれるMP4を、RF伝送路(図1(b)参照)または通信ネットワーク伝送路(図1(a)参照)を通じて、送信する。
図4は、この実施の形態で取り扱う3Dオーディオ(MPEGH)の伝送データにおけるオーディオフレーム(1024サンプル)の構造を示している。このオーディオフレームは、複数のMPEGオーディオストリームパケット(mpeg Audio Stream Packet)からなっている。各MPEGオーディオストリームパケットは、ヘッダ(Header)とペイロード(Payload)により構成されている。
ヘッダは、パケットタイプ(Packet Type)、パケットラベル(Packet Label)、パケットレングス(Packet Length)などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“SYNC”情報と、3Dオーディオの伝送データの実際のデータである“Frame”情報と、この“Frame”情報の構成を示す“Config”情報が存在する。
“Frame”情報には、3Dオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、SCE(Single Channel Element)、CPE(Channel Pair Element)、LFE(Low Frequency Element)などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、SCE(Single Channel Element)の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント(Ext_element)として含まれる。
図5は、3Dオーディオの伝送データの構成例を示している。この例では、1つのチャネル符号化データと2つのオブジェクト符号化データとからなっている。1つのチャネル符号化データは、5.1チャネルのチャネル符号化データ(CD)であり、SCE1,CPE1.1,CPE1.2,LFE1の各符号化サンプルデータからなっている。
2つのオブジェクト符号化データは、イマーシブオーディオオブジェクト(IAO:Immersive audio object)およびスピーチダイアログオブジェクト(SDO:Speech Dialog object)の符号化データである。イマーシブオーディオオブジェクト符号化データは、イマーシブサウンドのためのオブジェクト符号化データであり、符号化サンプルデータSCE2と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータEXE_El(Object metadata)2とからなっている。
スピーチダイアログオブジェクト符号化データは、スピーチランゲージのためのオブジェクト符号化データである。この例では、第1、第2の言語のそれぞれに対応したスピーチダイアログオブジェクト符号化データが存在する。第1の言語に対応したスピーチダイアログオブジェクト符号化データは、符号化サンプルデータSCE3と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータEXE_El(Object metadata)3とからなっている。また、第2の言語に対応したスピーチダイアログオブジェクト符号化データは、符号化サンプルデータSCE4と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータEXE_El(Object metadata)4とからなっている。
符号化データは、種類別にグループ(Group)という概念で区別される。図示の例では、5.1チャネルの符号化チャネルデータはグループ1(Group 1)とされ、イマーシブオーディオオブジェクト符号化データはグループ2(Group 2)とされ、第1の言語に係るスピーチダイアログオブジェクト符号化データはグループ3(Group 3)とされ、第2の言語に係るスピーチダイアログオブジェクト符号化データはグループ4(Group 4)とされている。
また、受信側においてグループ間で選択できるものはスイッチグループ(SW Group)に登録されて符号化される。図示の例では、グループ3およびグループ4が、スイッチグループ1(SW Group 1)に登録されている。また、グループを束ねてプリセットグループ(preset Group)とされ、ユースケースに応じた再生が可能とされる。図示の例では、グループ1、グループ2およびグループ3が束ねられてプリセットグループ1とされ、グループ1、グループ2およびグループ4が束ねられてプリセットグループ2とされている。
図3に戻って、サービス送信システム100は、上述したように複数のグループの符号化データを含む3Dオーディオの伝送データを、1オーディオストリームとして1トラック(1 track)で送信するか、あるいは複数オーディオストリームとして複数トラック(Multiple track)で送信する。
図6(a)は、図5の3Dオーディオの伝送データの構成例において、1トラック(1オーディオストリーム)で送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、オーディオトラック1(Audio track 1)に、“SYNC”情報と“Config”情報と共に、チャネル符号化データ(CD)、イマーシブオーディオオブジェクト符号化データ(IAO)、スピーチダイアログオブジェクト符号化データ(SDO)が含まれる。
図6(b)は、図5の3Dオーディオの伝送データの構成例において、複数トラック(複数オーディオストリーム)、ここでは3トラックで送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、オーディオトラック1(Audio track 1)に、“SYNC”情報と“Config”情報と共に、チャネル符号化データ(CD)が含まれる。また、オーディオトラック2(Audio track 2)に、“SYNC”情報と“Config”情報と共に、イマーシブオーディオオブジェクト符号化データ(IAO)が含まれる。さらに、オーディオトラック3(Audio track 3)に、“SYNC”情報と“Config”情報と共に、スピーチダイアログオブジェクト符号化データ(SDO)が含まれる。
図7は、図5の3Dオーディオの伝送データの構成例において、4トラックで送信する場合のグループ分割例を示している。この場合、オーディオトラック1には、グループ1として区別されるチャネル符号化データ(CD)が含まれる。また、オーディオトラック2には、グループ2として区別されるイマーシブオーディオオブジェクト符号化データ(IAO)が含まれる。また、オーディオトラック3には、グループ3として区別される第1の言語のスピーチダイアログオブジェクト符号化データ(SDO)が含まれる。さらに、オーディオトラック4には、グループ4として区別される第2の言語のスピーチダイアログオブジェクト符号化データ(SDO)が含まれる。
図8は、図7のグループ分割例(4分割)におけるグループとオーディオトラックの対応関係などを示している。ここで、グループID(group ID)は、グループを識別するための識別子である。アトリビュート(attribute)は、各グループの符号化データの属性を示している。スイッチグループID(switch Group ID)は、スイッチンググループを識別するための識別子である。プリセットグループID(preset Group ID)は、プリセットグループを識別するための識別子である。トラックID(track ID)は、オーディオトラックを識別するための識別子である。
図示の対応関係は、グループ1に属する符号化データは、チャネル符号化データであって、スイッチグループを構成しておらず、オーディオトラック1に含まれている、ことを示している。また、図示の対応関係は、グループ2に属する符号化データは、イマーシブサウンドのためのオブジェクト符号化データ(イマーシブオーディオオブジェクト符号化データ)であって、スイッチグループを構成しておらず、オーディオトラック2に含まれている、ことを示している。
また、図示の対応関係は、グループ3に属する符号化データは、第1の言語のスピーチランゲージのためのオブジェクト符号化データ(スピーチダイアログオブジェクト符号化データ)であって、スイッチグループ1を構成しており、オーディオトラック3に含まれている、ことを示している。また、図示の対応関係は、グループ4に属する符号化データは、第2の言語のスピーチランゲージのためのオブジェクト符号化データ(スピーチダイアログオブジェクト符号化データ)であって、スイッチグループ1を構成しており、オーディオトラック4に含まれている、ことを示している。
また、図示の対応関係は、プリセットグループ1は、グループ1、グループ2およびグループ3を含む、ことが示されている。さらに、図示の対応関係は、プリセットグループ2は、グループ1、グループ2およびグループ4を含む、ことが示されている。
図9は、図5の3Dオーディオの伝送データの構成例において、2トラックで送信する場合のグループ分割例を示している。この場合、オーディオトラック1には、グループ1として区別されるチャネル符号化データ(CD)と、グループ2として区別されるイマーシブオーディオオブジェクト符号化データ(IAO)が含まれる。また、オーディオトラック2には、グループ3として区別される第1の言語のスピーチダイアログオブジェクト符号化データ(SDO)と、グループ4として区別される第2の言語のスピーチダイアログオブジェクト符号化データ(SDO)が含まれる。
図10は、図9のグループ分割例(2分割)におけるグループとサブストリームの対応関係などを示している。図示の対応関係は、グループ1に属する符号化データは、チャネル符号化データであって、スイッチグループを構成しておらず、オーディオトラック1に含まれている、ことを示している。また、図示の対応関係は、グループ2に属する符号化データは、イマーシブサウンドのためのオブジェクト符号化データ(イマーシブオーディオオブジェクト符号化データ)であって、スイッチグループを構成しておらず、オーディオトラック1に含まれている、ことを示している。
また、図示の対応関係は、グループ3に属する符号化データは、第1の言語のスピーチランゲージのためのオブジェクト符号化データ(スピーチダイアログオブジェクト符号化データ)であって、スイッチグループ1を構成しており、オーディオトラック2に含まれている、ことを示している。また、図示の対応関係は、グループ4に属する符号化データは、第2の言語のスピーチランゲージのためのオブジェクト符号化データ(スピーチダイアログオブジェクト符号化データ)であって、スイッチグループ1を構成しており、オーディオトラック2に含まれている、ことを示している。
また、図示の対応関係は、プリセットグループ1は、グループ1、グループ2およびグループ3を含む、ことが示されている。さらに、図示の対応関係は、プリセットグループ2は、グループ1、グループ2およびグループ4を含む、ことが示されている。
図3に戻って、サービス送信システム100は、MPDファイルに、3Dオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する。また、サービス送信システム100は、MPDファイルに、この複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報を挿入する。この実施の形態において、このストリーム対応関係情報は、例えば、グループID(group ID)とトラックID(track ID)との対応関係を示す情報とされる。
サービス送信システム100は、これらの属性情報およびストリーム対応関係情報をMPDファイルに挿入する。“SupplementaryDescriptor”により、「schemeIdUri」を、従来の規格における既定義とは別に、放送その他のアプリケーションとして新規に定義することが可能である、この実施の形態において、サービス送信システム100は、“SupplementaryDescriptor”を用いて、これらの属性情報およびストリーム対応関係情報をMPDファイルに挿入する。
図11は、図7のグループ分割例(4分割)に対応したMPDファイル記述例を示している。図12は、図9のグループ分割例(2分割)に対応したMPDファイル記述例を示している。ここでは、説明の簡単化のためにオーディオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームなどその他のメディアストリームに関する情報も記述されている。図13は、“SupplementaryDescriptor”による「schemeIdUri」の定義例を示す図である。
最初に、図11のMPDファイル記述例を説明する。「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ1が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「MPEGH(3Dオーディオ)」であることが示されている。図13に示すように、「schemeIdUri=“urn:brdcst:codecType”」は、コーデックの種類を示す。ここでは、“mpegh”とされる。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group1”/>」の記述により、オーディオストリームにグループ1“group1”の符号化データが含まれていることが示されている。図13に示すように、「schemeIdUri=“urn:brdcst:3dAudio:groupId”」は、グループの識別子を示す。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “channeldata”/>」の記述により、グループ1“group1”の符号化データがチャネル符号化データ“channeldata”であることが示されている。図13に示すように、「schemeIdUri=“urn:brdcst:3dAudio:attribute”」は、該当グループの符号化データの属性を示す。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ1“group1”の符号化データがいずれのスイッチグループにも属さないことが示されている。図13に示すように、「schemeIdUri=“urn:brdcst:3dAudio:switchGroupId”」は、該当グループが属するスイッチグループの識別子を示す。例えば、「value」が“0”であるときは、いずれのスイッチグループにも属さないことを示す。「value」が“0”以外であるときは、属するスイッチグループを示す。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ1“group1”の符号化データがプリセットグループ1“preset1”に属することが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ1“group1”の符号化データがプリセットグループ2“preset2”に属することが示されている。図13に示すように、「schemeIdUri=“urn:brdcst:3dAudio:presetGroupId”」は、該当グループが属するプリセットグループの識別子を示す。
「<Representation id=“1” bandwidth=“128000”>」の記述により、グループ1のアダプテーションセットの中に、「Representation id=“1”」で識別されるリプレゼンテーションとして、グループ1“group1”の符号化データを含むビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp1/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp1/128.mp4」として示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level1”/>」の記述により、そのオーディオストリームが、レベル1“level1”に対応したトラックで送信されることが示されている。図13に示すように、「schemeIdUri=“urn:brdcst:3dAudio:levelId」は、該当グループの符号化データを含むオーディオストリームを送信するトラックの識別子に対応するレベルの識別子を示す。なお、トラック識別子(track ID)とレベル識別子(level ID)との対応付けは、後述するように、例えば、“moov”ボックスに記述されている。
また、「<AdaptationSet mimeType=“audio/mp4” group=“2”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ2が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「MPEGH(3Dオーディオ)」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group2”/>」の記述により、オーディオストリームにグループ2“group2”の符号化データが含まれていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectSound”/>」の記述により、グループ2“group2”の符号化データがイマーシブサウンドのためのオブジェクト符号化データ“objectSound”であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ2“group2”の符号化データがいずれのスイッチグループにも属さないことが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ2“group2”の符号化データがプリセットグループ1“preset1”に属することが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ2“group2”の符号化データがプリセットグループ2“preset2”に属することが示されている。
「<Representation id=“2” bandwidth=“128000”>」の記述により、グループ2のアダプテーションセットの中に、「Representation id=“2”」で識別されるリプレゼンテーションとして、グループ2“group2”の符号化データを含むビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp2/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp2/128.mp4」として示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level2”/>」の記述により、そのオーディオストリームがレベル2“level2”に対応したトラックで送信されることが示されている。
また、「<AdaptationSet mimeType=“audio/mp4” group=“3”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ3が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「MPEGH(3Dオーディオ)」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group3”/>」の記述により、オーディオストリームにグループ3“group3”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang1”/>」の記述により、グループ3“group3”の符号化データが第1の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang1”であることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “1”/>」の記述により、グループ3“group3”の符号化データがスイッチグループ1(switch group 1)に属していることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ3“group3”の符号化データがプリセットグループ1“preset1”に属することが示されている。
「<Representation id=“3” bandwidth=“128000”>」の記述により、グループ3のアダプテーションセットの中に、「Representation id=“3”」で識別されるリプレゼンテーションとして、グループ3“group3”の符号化データを含むビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp3/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp3/128.mp4」として示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level3”/>」の記述により、そのオーディオストリームがレベル3“level3”に対応したトラックで送信されることが示されている。
また、「<AdaptationSet mimeType=“audio/mp4” group=“4”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ4が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「MPEGH(3Dオーディオ)」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group4”/>」の記述により、オーディオストリームにグループ4“group4”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang2”/>」の記述により、グループ4“group4”の符号化データが第2の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang2”であることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “1”/>」の記述により、グループ4“group4”の符号化データがスイッチグループ1(switch group 1)に属していることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ4“group4”の符号化データがプリセットグループ2“preset2”に属することが示されている。
「<Representation id=“4” bandwidth=“128000”>」の記述により、グループ4のアダプテーションセットの中に、「Representation id=“4”」で識別されるリプレゼンテーションとして、グループ4“group4”の符号化データを含むビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp4/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp4/128.mp4」として示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level4”/>」の記述により、そのオーディオストリームがレベル4“level4”に対応したトラックで送信されることが示されている。
次に、図12のMPDファイル記述例を説明する。「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ1が割り当てられていることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「MPEGH(3Dオーディオ)」であることが示されている。
「<Representation id=“1” bandwidth=“128000”>」の記述により、グループ1のアダプテーションセットの中に、「Representation id=“1”」で識別されるリプレゼンテーションとして、ビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp1/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp1/128.mp4」として示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level1”/>」の記述により、そのオーディオストリームがレベル1“level1”に対応したトラックで送信されることが示されている。
「<SubRepresentation id=“11” subgroupSet=“1”>」の記述により、「Representation id=“1”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“11”」で識別されるサブリプレゼンテーションが存在し、サブグループセット1が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group1”/>」の記述により、オーディオストリームにグループ1“group1”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “channeldata”/>」の記述により、グループ1“group1”の符号化データがチャネル符号化データ“channeldata”であることが示されている。
<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ1“group1”の符号化データがいずれのスイッチグループにも属さないことが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ1“group1”の符号化データがプリセットグループ1“preset1”に属することが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ1“group1”の符号化データがプリセットグループ2“preset2”に属することが示されている。
「<SubRepresentation id=“12” subgroupSet=“2”>」の記述により、「Representation id=“1”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“12”」で識別されるサブリプレゼンテーションが存在し、サブグループセット2が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group2”/>」の記述により、オーディオストリームにグループ2“group2”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectSound”/>」の記述により、グループ2“group2”の符号化データがイマーシブサウンドのためのオブジェクト符号化データ“objectSound”であることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ2“group2”の符号化データがいずれのスイッチグループにも属さないことが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ2“group2”の符号化データがプリセットグループ1“preset1”に属することが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ2“group2”の符号化データがプリセットグループ2“preset2”に属することが示されている。
また、「<AdaptationSet mimeType=“audio/mp4” group=“2”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ2が割り当てられていることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「MPEGH(3Dオーディオ)」であることが示されている。
「<Representation id=“2” bandwidth=“128000”>」の記述により、グループ1のアダプテーションセットの中に、「Representation id=“2”」で識別されるリプレゼンテーションとして、ビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp2/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp2/128.mp4」として示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level2”/>」の記述により、そのオーディオストリームがレベル2“level2”に対応したトラックで送信されることが示されている。
「<SubRepresentation id=“21” subgroupSet=“3”>」の記述により、「Representation id=“2”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“21”」で識別されるサブリプレゼンテーションが存在し、サブグループセット3が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group3”/>」の記述により、オーディオストリームにグループ3“group3”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang1”/>」の記述により、グループ3“group3”の符号化データが第1の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang1”であることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “1”/>」の記述により、グループ3“group3”の符号化データがスイッチグループ1(switch group 1)に属していることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ3“group3”の符号化データがプリセットグループ1“preset1”に属することが示されている。
「<SubRepresentation id=“22” subgroupSet=“4”>」の記述により、「Representation id=“2”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“22”」で識別されるサブリプレゼンテーションが存在し、サブグループセット4が割り当てられていることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group4”/>」の記述により、オーディオストリームにグループ4“group4”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang2”/>」の記述により、グループ4“group4”の符号化データが第2の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang2”であることが示されている。
「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “1”/>」の記述により、グループ4“group4”の符号化データがスイッチグループ1(switch group 1)に属していることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ4“group4”の符号化データがプリセットグループ2“preset2”に属することが示されている。
ここで、「<baseURL>」で示されるロケーション先のメディアファイル実体、すなわち、各オーディオトラックでコンテナされるファイルについて説明する。ノンフラグメンテッドMP4(Non-Fragmented MP4)の場合、例えば、図14(a)に示すように、“url 1”として定義される場合がある。この場合、最初にファイルタイプが記述される“ftyp”ボックスが配置される。この“ftyp”ボックスにより、断片化されていないMP4ファイルであることが示される。続いて、“moov”ボックスおよび“mdat”ボックスが配置される。“moov”ボックスには、全てのメタデータ、例えば、各トラックのヘッダ情報やコンテンツ内容のメタ記述、時刻情報などが含まれる。“mdat”ボックスには、メディアデータ本体が入る。
また、フラグメンテッドMP4(Fragmented MP4)の場合、例えば、図14(b)に示すように、“url 2”として定義される場合がある。この場合、最初にセグメントタイプが記述される“styp”ボックスが配置される。続いて、セグメントインデックスが記述される“sidx”ボックスが配置される。それに続いて、所定個数のムービーフラグメント(Movie Fragment)が配置される。ここで、ムービーフラグメントは、制御情報が入る“moof”ボックスと、メディアデータ本体が入る“mdat”ボックスから構成される。一つのムービーフラグメントの“mdat”ボックスには、伝送メディアが断片化されて得られた断片が入るので、ボックスに入る制御情報はその断片に関する制御情報となる。“styp”、“sidx”、“moof”、“mdat”がセグメントを構成する単位となる。
また、上述の“url 1”と“url 2”の組み合わせも考えられる。この場合、例えば、“url 1”がイニシャライゼーションセグメント(initialization segment)として、“url 1”と“url 2”を1サービスのMP4とすることも可能である。あるいは、“url 1”と“url 2”を一つにまとめて、図14(c)に示すように、“url 3”として定義することも可能である。
上述したように、“moov”ボックスには、トラック識別子(track ID)とレベル識別子(level ID)との対応付けが記述されている。図15(a)に示すように、“ftyp”ボックスと“moov”ボックスはイニシャライゼーションセグメント(Initialization segment)を構成している。“moov”ボックスの中には、“mvex”ボックスが存在し、さらにその中に“leva”ボックスが存在する。
図15(b)に示すように、この“leva”ボックスに、トラック識別子(track ID)とレベル識別子(level ID)との対応付けが定義されている。図示の例では、“level0”が“track0”に対応付けられ、“level1”が“track1”に対応付けられ、“level2”に“track2”が対応付けられている。
図16(a)は、放送系の場合における各ボックスの送信例を示している。先頭のイニシャライゼーションセグメント(is)と、それに続く“styp” 、そして“sidx”ボックスと、それに続く所定数のムービーフラグメント(“moof”ボックスと“mdat”ボックスからなる)により、1セグメントが構成されている。図示の例は、所定数が1の場合を示している。
上述したように、イニシャライゼーションセグメント(is)を構成する“moov”ボックスには、トラック識別子(track ID)とレベル識別子(level ID)との対応付けが記述されている。また、図16(b)に示すように、“sidx”ボックスには、各トラックがレベル(level)で示され、各トラックのレンジ情報が登録されて存在する。すなわち、各レベルに対応して、再生時間情報やファイル上のトラック開始位置情報が登録されている。受信側では、オーディオに関して、このレンジ情報に基づいて、所望のオーディオトラックのオーディオストリームを選択的に取り出すことが可能となる。
図3に戻って、サービス受信機200は、サービス送信システム100から、RF伝送路または通信ネットワーク伝送路を通じて送られてくるDASH/MP4、つまりメタファイルとしてのMPDファイルと、ビデオやオーディオなどのメディアストリーム(メディアセグメント)が含まれるMP4を受信する。
MP4は、上述したように、ビデオストリームの他に、3Dオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオトラック(オーディオストリーム)を有している。そして、MPDファイルには、3Dオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されていると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報が挿入されている。
サービス受信機200は、属性情報およびストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を行って、3Dオーディオのオーディオ出力を得る。
[サービス送信システムのDASH/MP4生成部]
図17は、サービス送信システム100が備えるDASH/MP4生成部110の構成例を示している。このDASH/MP4生成部110は、制御部111と、ビデオエンコーダ112と、オーディオエンコーダ113と、DASH/MP4フォーマッタ114を有している。
図17は、サービス送信システム100が備えるDASH/MP4生成部110の構成例を示している。このDASH/MP4生成部110は、制御部111と、ビデオエンコーダ112と、オーディオエンコーダ113と、DASH/MP4フォーマッタ114を有している。
ビデオエンコーダ112は、ビデオデータSVを入力し、このビデオデータSVに対してMPEG2、H.264/AVC、H.265/HEVCなどの符号化を施し、ビデオストリーム(ビデオエレメンタリストリーム)を生成する。オーディオエンコーダ113は、オーディオデータSAとして、チャネルデータと共に、イマーシブオーディオおよびスピーチダイアログのオブジェクトデータを入力する。
オーディオエンコーダ113は、オーディオデータSAに対してMPEGHの符号化を施し、3Dオーディオの伝送データを得る。この3Dオーディオの伝送データには、図5に示すように、チャネル符号化データ(CD)と、イマーシブオーディオオブジェクト符号化データ(IAO)と、スピーチダイアログオブジェクト符号化データ(SDO)が含まれる。オーディオエンコーダ113は、複数のグループ、ここでは4つのグループの符号化データ含む1つまたは複数のオーディオストリーム(オーディオエレメンタリストリーム)を生成する(図6(a),(b)参照)。
DASH/MP4フォーマッタ114は、ビデオエンコーダ112で生成されるビデオストリームおよびオーディオエンコーダ113で生成される所定数のオーディオストリームに基づいて、コンテンツであるビデオやオーディオなどのメディアストリーム(メディアセグメント)が含まれるMP4を生成する。ここで、ビデオやオーディオの各ストリームは、MP4に、それぞれ別個のトラック(track)として格納される。
また、DASH/MP4フォーマッタ114は、コンテンツメタデータやセグメントURL情報等を利用してMPDファイルを生成する。この実施の形態において、DASH/MP4フォーマッタ114は、このMPDファイルに、3Dオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入すると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報を挿入する(図11、図12参照)。
図17に示すDASH/MP4生成部110の動作を簡単に説明する。ビデオデータSVはビデオエンコーダ112に供給される。このビデオエンコーダ112では、そのビデオデータSVに対してH.264/AVC、H.265/HEVCなどの符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、DASH/MP4フォーマッタ114に供給される。
オーディオデータSAは、オーディオエンコーダ113に供給される。このオーディオデータSAには、チャネルデータと、イマーシブオーディオおよびスピーチダイアログのオブジェクトデータが含まれる。オーディオエンコーダ113では、オーディオデータSAに対して、MPEGHの符号化が施され、3Dオーディオの伝送データが得られる。
この3Dオーディオの伝送データには、チャネル符号化データ(CD)の他に、イマーシブオーディオオブジェクト符号化データ(IAO)と、スピーチダイアログオブジェクト符号化データ(SDO)が含まれる(図5参照)。そして、このオーディオエンコーダ113では、4つのグループの符号化データ含む1つまたは複数のオーディオストリームが生成される(図6(a),(b)参照)。このオーディオストリームは、DASH/MP4フォーマッタ114に供給される。
DASH/MP4フォーマッタ114では、ビデオエンコーダ112で生成されるビデオストリームおよびオーディオエンコーダ113で生成される所定数のオーディオストリームに基づいて、コンテンツであるビデオやオーディオなどのメディアストリーム(メディアセグメント)が含まれるMP4が生成される。ここで、ビデオやオーディオの各ストリームは、MP4に、それぞれ別個のトラック(track)として格納される。
また、DASH/MP4フォーマッタ114では、コンテンツメタデータやセグメントURL情報等を利用してMPDファイルが生成される。このMPDファイルには、3Dオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報が挿入される。
[サービス受信機の構成例]
図18は、サービス受信機200の構成例を示している。このサービス受信機200は、受信部201と、DASH/MP4解析部202と、ビデオデコーダ203と、映像処理回路204と、パネル駆動回路205と、表示パネル206を有している。また、このサービス受信機200は、コンテナバッファ211-1~211-Nと、コンバイナ212と、3Dオーディオデコーダ213と、音声出力処理回路214と、スピーカシステム215を有している。また、このサービス受信機200は、CPU221と、フラッシュROM222と、DRAM223と、内部バス224と、リモコン受信部225と、リモコン送信機226を有している。
図18は、サービス受信機200の構成例を示している。このサービス受信機200は、受信部201と、DASH/MP4解析部202と、ビデオデコーダ203と、映像処理回路204と、パネル駆動回路205と、表示パネル206を有している。また、このサービス受信機200は、コンテナバッファ211-1~211-Nと、コンバイナ212と、3Dオーディオデコーダ213と、音声出力処理回路214と、スピーカシステム215を有している。また、このサービス受信機200は、CPU221と、フラッシュROM222と、DRAM223と、内部バス224と、リモコン受信部225と、リモコン送信機226を有している。
CPU221は、サービス受信機200の各部の動作を制御する。フラッシュROM222は、制御ソフトウェアの格納およびデータの保管を行う。DRAM223は、CPU221のワークエリアを構成する。CPU221は、フラッシュROM222から読み出したソフトウェアやデータをDRAM223上に展開してソフトウェアを起動させ、サービス受信機200の各部を制御する。
リモコン受信部225は、リモコン送信機226から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU221に供給する。CPU221は、このリモコンコードに基づいて、サービス受信機200の各部を制御する。CPU221、フラッシュROM222およびDRAM223は、内部バス224に接続されている。
受信部201は、サービス送信システム100から、RF伝送路または通信ネットワーク伝送路を通じて送られてくるDASH/MP4、つまりメタファイルとしてのMPDファイルと、ビデオやオーディオなどのメディアストリーム(メディアセグメント)が含まれるMP4を受信する。
MP4は、ビデオストリームの他に、3Dオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオトラック(オーディオストリーム)を有している。また、MPDファイルには、3Dオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されていると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報が挿入されている。
DASH/MP4解析部202は、受信部201で受信されたMPDファイルおよびMP4を解析する。DASH/MP4解析部202は、MP4からビデオストリームを抽出し、ビデオデコーダ203に送る。ビデオデコーダ203は、ビデオストリームに復号化処理を行って非圧縮のビデオデータを得る。
映像処理回路204は、ビデオデコーダ203で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路205は、映像処理回路204で得られる表示用のビデオデータに基づいて、表示パネル206を駆動する。表示パネル206は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
また、DASH/MP4解析部202は、MPDファイルに含まれるMPD情報を抽出し、CPU221に送る。CPU221は、このMPD情報に基づいて、ビデオ、オーディオのストリームの取得処理を制御する。また、DASH/MP4解析部202は、MP4からメタデータ、例えば、各トラックのヘッダ情報やコンテンツ内容のメタ記述、時刻情報などを抽出し、CPU221に送る。
CPU21は、MPDファイルに含まれている、各グループの符号化データの属性を示す属性情報、各グループがどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報などに基づいて、スピーカ構成および視聴者(ユーザ)選択情報に適合する属性を持つグループの符号化データが含まれるオーディオトラック(オーディオストリーム)を認識する。
また、DASH/MP4解析部202は、CPU221の制御のもと、MP4が有する所定数のオーディオストリームのうち、スピーカ構成および視聴者(ユーザ)選択情報に適合する属性を持つグループの符号化データを含む一つまたは複数のオーディオストリームを、レベルID(level ID)、従ってトラックID(track ID)を参照して、選択的に取り出す。
コンテナバッファ211-1~211-Nは、それぞれ、DASH/MP4解析部202で取り出される各オーディオストリームを取り込む。ここで、コンテナバッファ211-1~211-Nの個数Nとしては必要十分な個数とされるが、実際の動作では、DASH/MP4解析部202で取り出されるオーディオストリームの数だけ用いられることになる。
コンバイナ212は、コンテナバッファ211-1~211-NのうちDASH/MP4解析部202で取り出される各オーディオストリームがそれぞれ取り込まれたコンテナバッファから、オーディオフレーム毎に、オーディオストリームを読み出し、3Dオーディオデコーダ213にスピーカ構成および視聴者(ユーザ)選択情報に適合する属性を持つグループの符号化データとして供給する。
3Dオーディオデコーダ213は、コンバイナ212から供給される符号化データに対してデコード処理を施し、スピーカシステム215の各スピーカを駆動するためのオーディオデータを得る。ここで、デコード処理される符号化データは、チャネル符号化データのみを含む場合、オブジェクト符号化データのみを含む場合、さらにはチャネル符号化データおよびオブジェクト符号化データの双方を含む場合の3通りが考えられる。
3Dオーディオデコーダ213は、チャネル符号化データをデコードするときは、スピーカシステム215のスピーカ構成へのダウンミックスやアップミックスの処理を行って、各スピーカを駆動するためのオーディオデータを得る。また、3Dオーディオデコーダ213は、オブジェクト符号化データをデコードするときは、オブジェクト情報(メタデータ)に基づきスピーカレンダリング(各スピーカへのミキシング割合)を計算し、その計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングする。
音声出力処理回路214は、3Dオーディオデコーダ213で得られた各スピーカを駆動するためのオーディオデータに対して、D/A変換や増幅等の必要な処理を行って、スピーカシステム215に供給する。スピーカシステム215は、複数チャネル、例えば2チャネル、5.1チャネル、7.1チャネル、22.2チャネルなどの複数のスピーカを備える。
図18に示すサービス受信機200の動作を簡単に説明する。受信部201では、サービス送信システム100から、RF伝送路または通信ネットワーク伝送路を通じて送られてくるDASH/MP4、つまりメタファイルとしてのMPDファイルと、ビデオやオーディオなどのメディアストリーム(メディアセグメント)とを含むMP4が受信される。このように受信されるMPDファイルおよびMP4は、DASH/MP4解析部202に供給される。
DASH/MP4解析部202では、受信部201で受信されたMPDファイルおよびMP4が解析される。そして、DASH/MP4解析部202では、MP4からビデオストリームが抽出され、ビデオデコーダ203に送られる。ビデオデコーダ203では、ビデオストリームに復号化処理が施されて非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路204に供給される。
映像処理回路204では、ビデオデコーダ203で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路205に供給される。パネル駆動回路205では、表示用のビデオデータに基づいて、表示パネル206を駆動することが行われる。これにより、表示パネル206には、表示用のビデオデータに対応した画像が表示される。
また、DASH/MP4解析部202では、MPDファイルに含まれるMPD情報が抽出され、CPU221に送られる。また、DASH/MP4解析部202では、MP4からメタデータ、例えば、各トラックのヘッダ情報やコンテンツ内容のメタ記述、時刻情報などが抽出され、CPU221に送られる。CPU221では、MPDファイルに含まれている属性情報、ストリーム対応関係情報などに基づいて、スピーカ構成および視聴者(ユーザ)選択情報に適合する属性を持つグループの符号化データが含まれるオーディオトラック(オーディオストリーム)が認識される。
また、DASH/MP4解析部202では、CPU221の制御のもと、MP4が有する所定数のオーディオストリームのうち、スピーカ構成および視聴者(ユーザ)選択情報に適合する属性を持つグループの符号化データを含む一つまたは複数のオーディオストリームが、トラックID(track ID)を参照して、選択的に取り出される。
DASH/MP4解析部202で取り出されたオーディオストリームは、コンテナバッファ211-1~211-Nのうち対応するコンテナバッファに取り込まれる。コンバイナ212では、オーディオストリームが取り込まれた各コンテナッファから、オーディオフレーム毎に、オーディオストリームが読み出され、3Dオーディオデコーダ213にスピーカ構成および視聴者選択情報に適合する属性を持つグループの符号化データとして供給される。3Dオーディオデコーダ213では、コンバイナ212から供給される符号化データに対してデコード処理が施され、スピーカシステム215の各スピーカを駆動するためのオーディオデータが得られる。
ここで、チャネル符号化データがデコードされるときは、スピーカシステム215のスピーカ構成へのダウンミックスやアップミックスの処理が行われて、各スピーカを駆動するためのオーディオデータが得られる。また、オブジェクト符号化データがデコードされるときは、オブジェクト情報(メタデータ)に基づきスピーカレンダリング(各スピーカへのミキシング割合)が計算され、その計算結果に応じて、オブジェクトのオーディオデータが各スピーカを駆動するためのオーディオデータにミキシングされる。
3Dオーディオデコーダ213で得られた各スピーカを駆動するためのオーディオデータは、音声出力処理回路214に供給される。この音声出力処理回路214では、各スピーカを駆動するためのオーディオデータに対して、D/A変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム215に供給される。これにより、スピーカシステム215からは表示パネル206の表示画像に対応した音響出力が得られる。
図19は、図18に示すサービス受信機200におけるCPU221のオーディオデコード制御処理の一例を示している。CPU221は、ステップST1において、処理を開始する。そして、CPU221は、ステップST2において、受信機スピーカ構成、つまりスピーカシステム215のスピーカ構成を検知する。次に、CPU221は、ステップST3において、視聴者(ユーザ)によるオーディオ出力に関する選択情報を得る。
次に、CPU221は、ステップST4において、MPD情報の各オーディオストリームに関係する情報、すなわち「groupID」、「attribute」、「switchGroupID」、「presetGroupID」、「levelID」を読む。そして、CPU221は、ステップST5において、スピーカ構成、視聴者選択情報に適合する属性を持つ符号化データグループが属するオーディオトラックのトラックID(track ID)を認識する。
次に、CPU221は、ステップST6において、認識結果に基づき、各オーディオトラックを選択し、格納されているオーディオストリームをコンテナバッファに取り込む。そして、CPU221は、ステップST7において、コンテナバッファからオーディオフレーム毎に、オーディオストリームを読み出し、3Dオーディデコーダ213へ必要なグループの符号化データを供給する。
次に、CPU221は、ステップST8において、オブジェクト符号化データをデコードするか否かを判断する。オブジェクト符号化データをデコードするとき、CPU221は、ステップST9において、オブジェクト情報(メタデータ)に基づき、アジマス(方位情報)とエレベーション(仰角情報)によりスピーカレンダリング(各スピーカへのミキシング割合)を計算する。その後に、CPU221は、ステップST10に進む。なお、ステップST8において、オブジェクト符号化データをデコードしないとき、CPU221は、直ちに、ステップST10に進む。
このステップST10において、CPU221は、チャネル符号化データをデコードするか否かを判断する。チャネル符号化データをデコードするとき、CPU221は、ステップST11において、スピーカシステム215のスピーカ構成へのダウンミックスやアップミックスの処理を行って、各スピーカを駆動するためのオーディオデータを得る。その後に、CPU221は、ステップST12に進む。なお、ステップST10において、オブジェクト符号化データをデコードしないとき、CPU221は、直ちに、ステップST12に進む。
このステップST12において、CPU221は、オブジェクト符号化データをデコードするとき、ステップST9の計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングし、その後にダイナミックレンジ制御を行う。その後、CPU21はステップST13において、処理を終了する。なお、オブジェクト符号化データをデコードしないとき、CPU221は、ステップST12をスキップする。
上述したように、図3に示す送受信システム10において、サービス送信システム100は、MPDファイルに、所定数のオーディオストリームに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する。そのため、受信側では、複数のグループの符号化データのそれぞれの属性を当該符号化データのデコード前に容易に認識でき、必要なグループの符号化データのみを選択的にデコードして用いることができ、処理負荷を軽減することが可能となる。
また、図3に示す送受信システム10において、サービス送信システム100は、MPDファイルに、複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報を挿入する。そのため、受信側では、必要なグループの符号化データが含まれるオーディオトラック(オーディオストリーム)を容易に認識でき、処理負荷を軽減することが可能となる。
<2.変形例>
なお、上述実施の形態において、サービス受信機200は、サービス送信システム100から送信されてくる複数のオーディオストリームから、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データが含まれるオーディオストリームを選択的に取り出し、デコード処理を行って所定数のスピーカ駆動用のオーディオデータを得る構成となっている。
なお、上述実施の形態において、サービス受信機200は、サービス送信システム100から送信されてくる複数のオーディオストリームから、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データが含まれるオーディオストリームを選択的に取り出し、デコード処理を行って所定数のスピーカ駆動用のオーディオデータを得る構成となっている。
しかし、サービス受信機として、サービス送信システム100から送信されてくる複数のオーディオストリームから、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データを持つ1つまたは複数のオーディオストリームを選択的に取り出し、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データを持つオーディオストリームを再構成し、その再構成オーディオストリームを、構内ネットワーク接続されたデバイス(DLNA機器も含む)に配信することも考えられる。
図20は、上述したように再構成オーディオストリームを構内ネットワーク接続されたデバイスに配信するサービス受信機200Aの構成例を示している。この図20において、図18と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
DASH/MP4解析部202は、CPU221の制御のもと、MP4が有する所定数のオーディオストリームのうち、スピーカ構成および視聴者(ユーザ)選択情報に適合する属性を持つグループの符号化データを含む一つまたは複数のオーディオストリームが、レベルID(level ID)、従ってトラックID(track ID)が参照されて、選択的に取り出される。
DASH/MP4解析部202で取り出されたオーディオストリームは、コンテナバッファ211-1~211-Nのうち対応するコンテナバッファに取り込まれる。コンバイナ212では、オーディオストリームが取り込まれた各コンテナバッファから、オーディオフレーム毎に、オーディオストリームが読み出され、ストリーム再構成部231に供給される。
ストリーム再構成部231では、スピーカ構成、視聴者選択情報に適合する属性を持つ所定グループの符号化データが選択的に取得され、この所定グループの符号化データを持つオーディオストリームが再構成される。この再構成オーディオストリームは配信インタフェース232に供給される。そして、この配信インタフェース232から、構内ネットワーク接続されたデバイス300に配信(送信)される。
この構内ネットワーク接続には、イーサネット接続、“WiFi”あるいは“Bluetooth”などのワイヤレス接続が含まれる。なお、「WiFi」、「Bluetooth」は、登録商標である。
また、デバイス300には、サラウンドスピーカ、セカンドディスプレイ、ネットワーク端末に付属のオーディオ出力装置が含まれる。再構成オーディオストリームの配信を受けるデバイス300は、図18のサービス受信機200における3Dオーディオデコーダ213と同様のデコード処理を行って、所定数のスピーカを駆動するためのオーディオデータを得ることになる。
また、サービス受信機としては、上述した再構成オーディオストリームを、“HDMI(High-Definition Multimedia Interface)”、“MHL(Mobile High definition Link)”、“DisplayPort”などのデジタルインタフェースで接続されたデバイスに送信する構成も考えられる。なお、「HDMI」、「MHL」は、登録商標である。
また、上述実施の形態においては、各グループの符号化データの属性情報を「attribute」のフィールドを設けて送信する例を示した(図11~図13参照)。しかし、本技術は、送受信機間でグループID(GroupID)の値自体に特別な意味を定義することで、特定のグループIDを認識すれば符号化データの種類(属性)が認識できるような方法も含むものである。この場合、グループIDは、グループの識別子として機能する他に、そのグループの符号化データの属性情報として機能することとなり、「attribute」のフィールドは不要となる。
また、上述実施の形態においては、複数のグループの符号化データに、チャネル符号化データおよびオブジェクト符号化データの双方が含まれる例を示した(図5参照)。しかし、本技術は、複数のグループの符号化データに、チャネル符号化データのみ、あるいはオブジェクト符号化データのみが含まれる場合にも同様に適用できる。
なお、本技術は、以下のような構成もとることができる。
(1)複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部とを備える
送信装置。
(2)上記情報挿入部は、
上記メタファイルに、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する
前記(1)に記載の送信装置。
(3)上記ストリーム対応関係情報は、
上記複数のグループの符号化データのそれぞれを識別するグループ識別子と上記所定数のオーディオストリームのそれぞれを識別する識別子との対応関係を示す情報である
前記(2)に記載の送信装置。
(4)上記メタファイルは、MPDファイルである
前記(1)から(3)のいずれかに記載の送信装置。
(5)上記情報挿入部は、
“Supplementary Descriptor”を用いて、上記メタファイルに上記属性情報を挿入する
前記(4)に記載の送信装置。
(6)上記送信部は、
上記メタファイルをRF伝送路または通信ネットワーク伝送路を通じて送信する
前記(1)から(5)のいずれかに記載の送信装置。
(7)上記送信部は、
上記複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナをさらに送信する
前記(1)から(6)のいずれかに記載の送信装置。
(8)上記コンテナは、MP4である
前記(7)に記載の送信装置。
(9)上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
前記(1)から(8)のいずれかに記載の送信装置。
(10)送信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信ステップと、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入ステップとを有する
送信方法。
(11)複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理部をさらに備える
受信装置。
(12)上記メタファイルには、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、
上記処理部は、
上記属性情報の他に、上記ストリーム対応関係情報に基づいて、上記所定数のオーディオストリームを処理する
前記(11)に記載の受信装置。
(13)上記処理部は、
上記属性情報および上記ストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を施す
前記(12)に記載の受信装置。
(14)上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
前記(11)から(13)のいずれかに記載の受信装置。
(15)受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理ステップをさらに有する
受信方法。
(16)複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置。
(17)上記メタファイルには、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、
上記処理部は、
上記属性情報の他に、上記ストリーム対応関係情報に基づいて、上記所定数のオーディオストリームから上記所定のグループの符号化データを選択的に取得する
前記(16)に記載の受信装置。
(18)受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理ステップと、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信ステップとをさらに有する
受信方法。
(1)複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部とを備える
送信装置。
(2)上記情報挿入部は、
上記メタファイルに、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する
前記(1)に記載の送信装置。
(3)上記ストリーム対応関係情報は、
上記複数のグループの符号化データのそれぞれを識別するグループ識別子と上記所定数のオーディオストリームのそれぞれを識別する識別子との対応関係を示す情報である
前記(2)に記載の送信装置。
(4)上記メタファイルは、MPDファイルである
前記(1)から(3)のいずれかに記載の送信装置。
(5)上記情報挿入部は、
“Supplementary Descriptor”を用いて、上記メタファイルに上記属性情報を挿入する
前記(4)に記載の送信装置。
(6)上記送信部は、
上記メタファイルをRF伝送路または通信ネットワーク伝送路を通じて送信する
前記(1)から(5)のいずれかに記載の送信装置。
(7)上記送信部は、
上記複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナをさらに送信する
前記(1)から(6)のいずれかに記載の送信装置。
(8)上記コンテナは、MP4である
前記(7)に記載の送信装置。
(9)上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
前記(1)から(8)のいずれかに記載の送信装置。
(10)送信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信ステップと、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入ステップとを有する
送信方法。
(11)複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理部をさらに備える
受信装置。
(12)上記メタファイルには、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、
上記処理部は、
上記属性情報の他に、上記ストリーム対応関係情報に基づいて、上記所定数のオーディオストリームを処理する
前記(11)に記載の受信装置。
(13)上記処理部は、
上記属性情報および上記ストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を施す
前記(12)に記載の受信装置。
(14)上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
前記(11)から(13)のいずれかに記載の受信装置。
(15)受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理ステップをさらに有する
受信方法。
(16)複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置。
(17)上記メタファイルには、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、
上記処理部は、
上記属性情報の他に、上記ストリーム対応関係情報に基づいて、上記所定数のオーディオストリームから上記所定のグループの符号化データを選択的に取得する
前記(16)に記載の受信装置。
(18)受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理ステップと、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信ステップとをさらに有する
受信方法。
本技術の主な特徴は、MPDファイルに、所定数のオーディオストリームに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報や複数のグループの符号化データがそれぞれどのオーディオトラック(オーディオストリーム)に含まれるかを示すストリーム対応関係情報を挿入することで、受信側の処理負荷を軽減可能としたことである(図11、図12、図17参照)。
10・・・送受信システム
30A,30B・・・MPEG-DASHベースのストリーム配信システム
31・・・DASHストリームファイルサーバ
32・・・DASH MPDサーバ
33,33-1~33-N)・・・サービス受信機
34・・・CDN
35,35-1~35-M)・・・サービス受信機
36・・・放送送出システム
100・・・サービス送信システム
110・・・DASH/MP4生成部
112・・・ビデオエンコーダ
113・・・オーディオエンコーダ
114・・・DASH/MP4フォーマッタ
200・・・サービス受信機
201・・・受信部
202・・・DASH/MP4解析部
203・・・ビデオデコーダ
204・・・映像処理回路
205・・・パネル駆動回路
206・・・表示パネル
211-1~211-N・・・コンテナバッファ
212・・・コンバイナ
213・・・3Dオーディオデコーダ
214・・・音声出力処理回路
215・・・スピーカシステム
221・・・CPU
222・・・フラッシュROM
223・・・DRAM
224・・・内部バス
225・・・リモコン受信部
226・・・リモコン送信機
231・・・ストリーム再構成部
232・・・配信インタフェース
300・・・デバイス
30A,30B・・・MPEG-DASHベースのストリーム配信システム
31・・・DASHストリームファイルサーバ
32・・・DASH MPDサーバ
33,33-1~33-N)・・・サービス受信機
34・・・CDN
35,35-1~35-M)・・・サービス受信機
36・・・放送送出システム
100・・・サービス送信システム
110・・・DASH/MP4生成部
112・・・ビデオエンコーダ
113・・・オーディオエンコーダ
114・・・DASH/MP4フォーマッタ
200・・・サービス受信機
201・・・受信部
202・・・DASH/MP4解析部
203・・・ビデオデコーダ
204・・・映像処理回路
205・・・パネル駆動回路
206・・・表示パネル
211-1~211-N・・・コンテナバッファ
212・・・コンバイナ
213・・・3Dオーディオデコーダ
214・・・音声出力処理回路
215・・・スピーカシステム
221・・・CPU
222・・・フラッシュROM
223・・・DRAM
224・・・内部バス
225・・・リモコン受信部
226・・・リモコン送信機
231・・・ストリーム再構成部
232・・・配信インタフェース
300・・・デバイス
Claims (6)
- 複数のグループの符号化データを含む一または複数のオーディオストリームを受信装置で取得するためのメタ情報を含むメタファイルを、通信ネットワーク伝送路またはRF伝送路を通じて受信する受信部を備え、
上記メタファイルは、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を含み、
ユーザから選択情報を取得する取得部と、
上記属性情報に基づいて、上記選択情報に適した属性をもつグループの符号化データを処理する処理部をさらに備える
受信装置。 - 上記メタファイルは、前記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに含む
請求項1に記載の受信装置。 - 上記ストリーム対応関係情報は、
上記複数のグループの符号化データのそれぞれを識別するグループ識別子と上記一または複数のオーディオストリームのそれぞれを識別する識別子との対応関係を示す情報である
請求項2に記載の受信装置。 - 上記処理部は、
上記属性情報および上記ストリーム対応関係情報に基づいて、スピーカ構成および上記選択情報に適した属性を持つグループの符号化データを処理する
請求項2に記載の受信装置。 - 上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
請求項1に記載の受信装置。 - 受信部により、複数のグループの符号化データを含む一または複数のオーディオストリームを受信装置で取得するためのメタ情報を含むメタファイルを、通信ネットワーク伝送路またはRF伝送路を通じて受信する受信ステップを有し、
上記メタファイルは、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を含み、
ユーザから選択情報を取得し、上記属性情報に基づいて、上記選択情報に適した属性をもつグループの符号化データを処理する処理ステップをさらに有する
受信方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014187085 | 2014-09-12 | ||
JP2014187085 | 2014-09-12 | ||
JP2020109981A JP2020170183A (ja) | 2014-09-12 | 2020-06-25 | 受信装置および受信方法 |
JP2022021541A JP7294472B2 (ja) | 2014-09-12 | 2022-02-15 | 受信装置および受信方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022021541A Division JP7294472B2 (ja) | 2014-09-12 | 2022-02-15 | 受信装置および受信方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023113872A true JP2023113872A (ja) | 2023-08-16 |
Family
ID=55459035
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016547428A Active JP6724783B2 (ja) | 2014-09-12 | 2015-09-07 | 送信装置、送信方法、受信装置および受信方法 |
JP2020109981A Pending JP2020170183A (ja) | 2014-09-12 | 2020-06-25 | 受信装置および受信方法 |
JP2022021541A Active JP7294472B2 (ja) | 2014-09-12 | 2022-02-15 | 受信装置および受信方法 |
JP2023094430A Pending JP2023113872A (ja) | 2014-09-12 | 2023-06-07 | 受信装置および受信方法 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016547428A Active JP6724783B2 (ja) | 2014-09-12 | 2015-09-07 | 送信装置、送信方法、受信装置および受信方法 |
JP2020109981A Pending JP2020170183A (ja) | 2014-09-12 | 2020-06-25 | 受信装置および受信方法 |
JP2022021541A Active JP7294472B2 (ja) | 2014-09-12 | 2022-02-15 | 受信装置および受信方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10878828B2 (ja) |
EP (2) | EP3196875B1 (ja) |
JP (4) | JP6724783B2 (ja) |
CN (4) | CN106663431B (ja) |
HU (2) | HUE059748T2 (ja) |
PL (2) | PL3509064T3 (ja) |
RU (1) | RU2701126C2 (ja) |
WO (1) | WO2016039287A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10067566B2 (en) * | 2014-03-19 | 2018-09-04 | Immersion Corporation | Systems and methods for a shared haptic experience |
PL3509064T3 (pl) * | 2014-09-12 | 2022-11-14 | Sony Group Corporation | Urządzenie odbiorcze strumieni audio i sposób |
US10475463B2 (en) * | 2015-02-10 | 2019-11-12 | Sony Corporation | Transmission device, transmission method, reception device, and reception method for audio streams |
US11341976B2 (en) | 2018-02-07 | 2022-05-24 | Sony Corporation | Transmission apparatus, transmission method, processing apparatus, and processing method |
WO2023199824A1 (ja) | 2022-04-11 | 2023-10-19 | セントラル硝子株式会社 | 表面処理組成物、およびウェハの製造方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020064285A1 (en) * | 2000-11-30 | 2002-05-30 | Deleon Roland H. | System and method for processing an audio signal prior to encoding |
WO2007027055A1 (en) * | 2005-08-30 | 2007-03-08 | Lg Electronics Inc. | A method for decoding an audio signal |
KR100754197B1 (ko) * | 2005-12-10 | 2007-09-03 | 삼성전자주식회사 | 디지털 오디오 방송(dab)에서의 비디오 서비스 제공및 수신방법 및 그 장치 |
JP2007288342A (ja) * | 2006-04-13 | 2007-11-01 | Nec Corp | メディアストリーム中継装置および方法 |
WO2008048068A1 (en) * | 2006-10-19 | 2008-04-24 | Lg Electronics Inc. | Encoding method and apparatus and decoding method and apparatus |
JP2008172767A (ja) * | 2006-12-14 | 2008-07-24 | Matsushita Electric Ind Co Ltd | 携帯端末装置 |
JP5541928B2 (ja) * | 2007-03-09 | 2014-07-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP4973422B2 (ja) * | 2007-09-28 | 2012-07-11 | ソニー株式会社 | 信号記録再生装置及び方法 |
US8615316B2 (en) * | 2008-01-23 | 2013-12-24 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
KR101061128B1 (ko) * | 2008-04-16 | 2011-08-31 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 이의 장치 |
US8175295B2 (en) * | 2008-04-16 | 2012-05-08 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
JP5174527B2 (ja) * | 2008-05-14 | 2013-04-03 | 日本放送協会 | 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置 |
WO2010008198A2 (en) * | 2008-07-15 | 2010-01-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8452430B2 (en) * | 2008-07-15 | 2013-05-28 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
EP4293665A3 (en) * | 2008-10-29 | 2024-01-10 | Dolby International AB | Signal clipping protection using pre-existing audio gain metadata |
JP5652642B2 (ja) | 2010-08-02 | 2015-01-14 | ソニー株式会社 | データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法 |
EP2665262A4 (en) * | 2011-01-12 | 2014-08-20 | Sharp Kk | PLAYING DEVICE, METHOD FOR CONTROLLING THE PLAYING DEVICE, MANUFACTURING DEVICE, METHOD FOR CONTROLLING THE PRODUCTION DEVICE, RECORDING MEDIUM, DATA STRUCTURE, CONTROL PROGRAM AND RECORDING MEDIUM WITH THE PROGRAM SAVED THEREFROM |
KR101739272B1 (ko) * | 2011-01-18 | 2017-05-24 | 삼성전자주식회사 | 멀티미디어 스트리밍 시스템에서 컨텐트의 저장 및 재생을 위한 장치 및 방법 |
WO2012122397A1 (en) * | 2011-03-09 | 2012-09-13 | Srs Labs, Inc. | System for dynamically creating and rendering audio objects |
CN103620678B (zh) * | 2011-05-20 | 2015-08-19 | 株式会社索思未来 | 比特流发送装置及方法、比特流收发系统、比特流接收装置及方法、以及比特流 |
EP3913931B1 (en) | 2011-07-01 | 2022-09-21 | Dolby Laboratories Licensing Corp. | Apparatus for rendering audio, method and storage means therefor. |
EP3968691A1 (en) * | 2011-10-21 | 2022-03-16 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Resource management concept |
US9219950B2 (en) * | 2011-11-01 | 2015-12-22 | Sony Corporation | Reproduction apparatus, reproduction method, and program |
US9164015B2 (en) * | 2012-06-29 | 2015-10-20 | General Electric Company | Systems and methods for processing and imaging of biological samples |
US9451298B2 (en) * | 2012-07-02 | 2016-09-20 | Sony Corporation | Transmission device, transmission method, and network apparatus |
CN104429093B (zh) | 2012-07-09 | 2018-01-05 | 华为技术有限公司 | 超文本传输协议动态自适应流媒体客户端及其会话管理实施方法 |
KR102059846B1 (ko) * | 2012-07-31 | 2020-02-11 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
US20140195222A1 (en) * | 2013-01-07 | 2014-07-10 | Microsoft Corporation | Speech Modification for Distributed Story Reading |
WO2014109321A1 (ja) * | 2013-01-09 | 2014-07-17 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
TWI530941B (zh) * | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
PL3509064T3 (pl) * | 2014-09-12 | 2022-11-14 | Sony Group Corporation | Urządzenie odbiorcze strumieni audio i sposób |
-
2015
- 2015-09-07 PL PL19156452.5T patent/PL3509064T3/pl unknown
- 2015-09-07 EP EP15839650.7A patent/EP3196875B1/en active Active
- 2015-09-07 CN CN201580047469.3A patent/CN106663431B/zh active Active
- 2015-09-07 CN CN202110322458.9A patent/CN113077800B/zh active Active
- 2015-09-07 CN CN202110322425.4A patent/CN112951250A/zh active Pending
- 2015-09-07 JP JP2016547428A patent/JP6724783B2/ja active Active
- 2015-09-07 HU HUE19156452A patent/HUE059748T2/hu unknown
- 2015-09-07 US US15/506,298 patent/US10878828B2/en active Active
- 2015-09-07 EP EP19156452.5A patent/EP3509064B1/en active Active
- 2015-09-07 WO PCT/JP2015/075318 patent/WO2016039287A1/ja active Application Filing
- 2015-09-07 RU RU2017106965A patent/RU2701126C2/ru active
- 2015-09-07 PL PL15839650T patent/PL3196875T3/pl unknown
- 2015-09-07 CN CN202110320813.9A patent/CN113035214B/zh active Active
- 2015-09-07 HU HUE15839650A patent/HUE042582T2/hu unknown
-
2020
- 2020-06-25 JP JP2020109981A patent/JP2020170183A/ja active Pending
-
2022
- 2022-02-15 JP JP2022021541A patent/JP7294472B2/ja active Active
-
2023
- 2023-06-07 JP JP2023094430A patent/JP2023113872A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
RU2017106965A (ru) | 2018-09-03 |
WO2016039287A1 (ja) | 2016-03-17 |
HUE042582T2 (hu) | 2019-07-29 |
EP3196875A4 (en) | 2018-03-07 |
PL3196875T3 (pl) | 2019-10-31 |
CN113077800B (zh) | 2024-07-02 |
CN113035214A (zh) | 2021-06-25 |
EP3509064A1 (en) | 2019-07-10 |
HUE059748T2 (hu) | 2022-12-28 |
PL3509064T3 (pl) | 2022-11-14 |
US20170263259A1 (en) | 2017-09-14 |
RU2701126C2 (ru) | 2019-09-24 |
EP3196875A1 (en) | 2017-07-26 |
CN113035214B (zh) | 2024-07-09 |
JP7294472B2 (ja) | 2023-06-20 |
JP2022065098A (ja) | 2022-04-26 |
JPWO2016039287A1 (ja) | 2017-06-22 |
JP2020170183A (ja) | 2020-10-15 |
US10878828B2 (en) | 2020-12-29 |
CN106663431A (zh) | 2017-05-10 |
CN106663431B (zh) | 2021-04-13 |
CN113077800A (zh) | 2021-07-06 |
JP6724783B2 (ja) | 2020-07-15 |
EP3196875B1 (en) | 2019-03-20 |
EP3509064B1 (en) | 2022-08-31 |
CN112951250A (zh) | 2021-06-11 |
RU2017106965A3 (ja) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7294472B2 (ja) | 受信装置および受信方法 | |
US10693936B2 (en) | Transporting coded audio data | |
JP7238925B2 (ja) | 送信装置、送信方法、受信装置および受信方法 | |
JP7468575B2 (ja) | 受信装置および受信方法 | |
JP2019504341A (ja) | トランスポートのためのコード化された次世代オーディオデータの選択 | |
KR102499231B1 (ko) | 수신 장치, 송신 장치 및 데이터 처리 방법 | |
JP7310849B2 (ja) | 受信装置および受信方法 | |
WO2017099092A1 (ja) | 送信装置、送信方法、受信装置および受信方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241002 |