JP2016010090A - 復号装置および方法、並びにプログラム - Google Patents

復号装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2016010090A
JP2016010090A JP2014130898A JP2014130898A JP2016010090A JP 2016010090 A JP2016010090 A JP 2016010090A JP 2014130898 A JP2014130898 A JP 2014130898A JP 2014130898 A JP2014130898 A JP 2014130898A JP 2016010090 A JP2016010090 A JP 2016010090A
Authority
JP
Japan
Prior art keywords
audio
combination
audio elements
decoding
buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014130898A
Other languages
English (en)
Other versions
JP2016010090A5 (ja
JP6432180B2 (ja
Inventor
優樹 山本
Yuki Yamamoto
優樹 山本
徹 知念
Toru Chinen
徹 知念
潤宇 史
Runyu Shi
潤宇 史
平林 光浩
Mitsuhiro Hirabayashi
光浩 平林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2014130898A priority Critical patent/JP6432180B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN201580032910.0A priority patent/CN106463139B/zh
Priority to EP15734263.5A priority patent/EP3161824A1/en
Priority to KR1020167034152A priority patent/KR20170021777A/ko
Priority to TW104119404A priority patent/TWI652670B/zh
Priority to PCT/JP2015/002992 priority patent/WO2015198556A1/en
Priority to US15/319,855 priority patent/US10573325B2/en
Publication of JP2016010090A publication Critical patent/JP2016010090A/ja
Publication of JP2016010090A5 publication Critical patent/JP2016010090A5/ja
Application granted granted Critical
Publication of JP6432180B2 publication Critical patent/JP6432180B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Communication Control (AREA)
  • Stereophonic System (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ハード規模の異なる機器でビットストリームをデコードできるようにする。【解決手段】選択部は、ビットストリームを構成するオーディオエレメントの組み合わせごとに定まる、オーディオエレメントのデコードに必要なバッファサイズに基づいて、オーディオエレメントの組み合わせを1つ選択する。オーディオバッファには、選択部により選択された組み合わせのオーディオエレメントが格納され、復号部は、オーディオバッファに格納されているオーディオエレメントをデコードして、オーディオ信号を生成する。本技術はデコーダに適用することができる。【選択図】図9

Description

本技術は復号装置および方法、並びにプログラムに関し、特に、ハード規模の異なる機器でビットストリームをデコードできるようにした復号装置および方法、並びにプログラムに関する。
従来の5.1チャネルサラウンド再生を超える、より高臨場感な再生や複数の音素材(オブジェクト)を伝送するための符号化技術として3D Audio規格が知られている(例えば、非特許文献1乃至3参照)。
3D Audio規格では、デコーダで持つべき入力ビットストリームを格納しておくためのバッファのサイズの最小値がMinimum decoder input bufferサイズとして規定されている。例えば非特許文献3の4.5.3.1節では、Minimum decoder input buffer サイズ=6144×NCC(bits)と規定されている。
ここで、NCCはNumber of Considered Channelの略であり、入力ビットストリームに含まれる全オーディオエレメントのうち、SCE(Single Channel Element)の数と、CPE(Channel Pair Element)の数の2倍との和を表している。
また、SCEは1つのチャネルのオーディオ信号が格納されるオーディオエレメントであり、CPEはペアとなる2つのチャネルのオーディオ信号が格納されるオーディオエレメントである。したがって、例えば入力ビットストリームに含まれるSCEの数が5個でありCPEの数が3個の場合、NCC=5+2×3=11となる。
このように3D Audio規格では、デコーダが入力ビットストリームをデコードしようとするときには、規定されたサイズのバッファを最低限確保する必要がある。
ISO/IEC JTC1/SC29/WG11 N14459, April 2014, Valencia, Spain, "Text of ISO/IEC 23008-3/CD, 3D audio" INTERNATIONAL STANDARD ISO/IEC 23003-3 First edition 2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3:Audio
ところが非特許文献1の3D Audio規格では、SCEの数およびCPEの数をほとんど任意に設定できるため、3D Audio規格で定めることのできるビットストリームの全てをデコードするためには、デコーダで持つべきMinimum decoder input bufferサイズが、非特許文献3の規格などに比べて非常に大きくなってしまう。
具体的には、非特許文献1の3D Audio規格では、SCEの数とCPEの数を合計で最大65805個持つことができる。よって、Minimum decoder input bufferのサイズの最大値は、Minimum decoder input buffer サイズの最大値= 6144×(0+65805×2)=808611840 (bits)となり、約100MByteとなる。
このように最低限必要とされるバッファのサイズであるMinimum decoder input bufferサイズが大きくなると、メモリサイズの小さいプラットフォームなどでは、この規定を満たすサイズのバッファを確保することができない場合もある。すなわち、機器のハード規模によっては、デコーダを実装できない場合がある。
本技術は、このような状況に鑑みてなされたものであり、ハード規模の異なる機器でビットストリームをデコードできるようにするものである。
本技術の一側面の復号装置は、オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択する選択部と、選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する生成部とを備える。
前記選択部には、同じコンテンツについて予め用意された複数の前記組み合わせのなかから1つの前記組み合わせを選択させることができる。
復号装置には、前記複数の前記組み合わせごとに用意された、前記組み合わせの前記オーディオエレメントから構成されるビットストリームのうちの、前記選択部により選択された前記組み合わせのビットストリームを受信する通信部をさらに設けることができる。
前記選択部には、ビットストリームを構成する複数の前記オーディオエレメントのうちのいくつかの前記オーディオエレメントを、1つの前記組み合わせとして選択させることができる。
前記選択部には、前記ビットストリームのメタデータに基づいて1つの前記組み合わせを選択させることができる。
前記選択部には、前記メタデータとして、予め定められた複数の前記組み合わせを示す情報、および前記オーディオエレメントの優先度情報のうちの少なくとも何れか一方に基づいて、1つの前記組み合わせを選択させることができる。
復号装置には、前記ビットストリームから、前記選択部により選択された前記組み合わせの前記オーディオエレメントを抽出する抽出部をさらに設けることができる。
復号装置には、前記選択部により選択された前記組み合わせの前記オーディオエレメントを受信する通信部をさらに設けることができる。
復号装置には、デコード対象として選択されなかった前記オーディオエレメントのサイズに基づいて、前記生成部によりデコードされる前記オーディオエレメントのバッファへの格納を制御するバッファ制御部をさらに設けることができる。
前記選択部には、選択した前記組み合わせを構成する前記オーディオエレメントのなかから、デコード対象としない前記オーディオエレメントをさらに選択させ、前記バッファ制御部には、前記選択部により選択された前記デコード対象としない前記オーディオエレメントのサイズに基づいて、前記選択部により選択された前記組み合わせを構成する、前記デコード対象としない前記オーディオエレメント以外の前記オーディオエレメントの前記バッファへの格納を制御させることができる。
前記選択部には、前記オーディオエレメントの優先度情報に基づいて、前記デコード対象としない前記オーディオエレメントを選択させることができる。
本技術の一側面の復号方法またはプログラムは、オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択し、選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成するステップを含む。
本技術の一側面においては、オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせが選択され、選択された前記組み合わせの前記オーディオエレメントがデコードされてオーディオ信号が生成される。
本技術の一側面によれば、ハード規模の異なる機器でビットストリームをデコードすることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
入力ビットストリームの構成について説明する図である。 入力ビットストリームの配置例について説明する図である。 優先度情報について説明する図である。 転送ビットレートの調整について説明する図である。 転送ビットレートの調整について説明する図である。 転送ビットレートの調整について説明する図である。 サイズ情報について説明する図である。 コンテンツ配信システムの構成例を示す図である。 デコーダの構成例を示す図である。 復号処理を説明するフローチャートである。 デコーダの構成例を示す図である。 復号処理を説明するフローチャートである。 デコーダの構成例を示す図である。 復号処理を説明するフローチャートである。 デコーダの構成例を示す図である。 復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
本技術は、様々な許容メモリサイズのデコーダ、つまりハード規模の異なる様々な機器において、エンコード(符号化)されたマルチチャネルオーディオ信号が格納されている入力ビットストリームをデコード(復号)することができるようにするものである。
本技術では、入力ビットストリーム内のオーディオエレメントの組み合わせを、入力ビットストリーム内で複数個定義し、オーディオエレメントの組み合わせごとに、デコーダで持つべき入力ビットストリームを格納しておくためのバッファのサイズの最小値を可変させることで、異なるハード規模でデコードができるようにされる。
まず、本技術の概要について説明する。
〈オーディオエレメントの組み合わせの定義の追加〉
本技術では3D Audio規格において、オーディオエレメントの組み合わせを複数個定義できるようにされている。ここでは、様々な許容メモリサイズのデコーダで入力ビットストリームをデコードできるように、複数個の組み合わせの定義が行われる。
例えば1つのコンテンツを再生するための入力ビットストリームが、図1に示すオーディオエレメントで構成されるとする。なお、図中、1つの長方形は入力ビットストリームを構成する1つのオーディオエレメントを表している。また、SCE(i)(但しiは整数)と記されているオーディオエレメントは、i番目のSCEを表しており、CPE(i)(但しiは整数)と記されているオーディオエレメントは、i番目のCPEを表している。
上述したようにSCEは、1チャネル分のオーディオ信号をデコードするために必要なデータ、つまり1チャネル分のオーディオ信号をエンコードして得られた符号化データが格納されているオーディオエレメントである。また、CPEはペアとなる2チャネル分のオーディオ信号をデコードするために必要なデータである。
図1では、CPE(1)は2チャネル再生のための環境音が格納されたオーディオエレメントとなっている。以下では、CPE(1)からなるエレメントのグループをチャネル音源グループ1とも称することとする。
また、SCE(1)、CPE(2)、およびCPE(3)は5チャネル再生のための環境音が格納されたオーディオエレメントとなっており、以下では、SCE(1)、CPE(2)、およびCPE(3)からなるエレメントのグループをチャネル音源グループ2とも称する。
SCE(2)乃至SCE(23)は22チャネル再生のための環境音が格納されたオーディオエレメントとなっており、以下では、SCE(2)乃至SCE(23)からなるエレメントのグループをチャネル音源グループ3とも称する。
SCE(24)はオブジェクト(音素材)として所定言語、例えば日本語の対話音が格納されたオーディオエレメントとなっており、以下では、SCE(24)からなるエレメントのグループをオブジェクト音源グループ1とも称する。同様にSCE(25)はオブジェクトとして韓国語の対話音が格納されたオーディオエレメントとなっており、以下では、SCE(25)からなるエレメントのグループをオブジェクト音源グループ2とも称する。
さらに、SCE(26)乃至SCE(30)は、オブジェクトとして車などの音が格納されたオーディオエレメントとなっており、以下では、SCE(26)乃至SCE(30)からなるエレメントのグループをオブジェクト音源グループ3とも称する。
入力ビットストリームをデコードしてコンテンツを再生する際には、デコーダではこれらのチャネル音源グループ1乃至チャネル音源グループ3やオブジェクト音源グループ1乃至オブジェクト音源グループ3を任意に組み合わせて再生することができる。
そのような場合、図1の例では、チャネル音源グループやオブジェクト音源グループのオーディオエレメントの組み合わせは、以下の6つの組み合わせCM(1)乃至CM(6)となる。
組み合わせCM(1)
チャネル音源グループ1、オブジェクト音源グループ1、オブジェクト音源グループ3
組み合わせCM(2)
チャネル音源グループ1、オブジェクト音源グループ2、オブジェクト音源グループ3
組み合わせCM(3)
チャネル音源グループ2、オブジェクト音源グループ1、オブジェクト音源グループ3
組み合わせCM(4)
チャネル音源グループ2、オブジェクト音源グループ2、オブジェクト音源グループ3
組み合わせCM(5)
チャネル音源グループ3、オブジェクト音源グループ1、オブジェクト音源グループ3
組み合わせCM(6)
チャネル音源グループ3、オブジェクト音源グループ2、オブジェクト音源グループ3
これらの各組み合わせCM(1)乃至組み合わせCM(6)は、それぞれ2チャネル日本語、2チャネル韓国語、5チャネル日本語、5チャネル韓国語、22チャネル日本語、および22チャネル韓国語でコンテンツを再生するためのオーディオエレメントの組み合わせとなる。
また、この場合、それぞれの組み合わせで必要となるデコーダのメモリサイズの大小関係は、以下のようになる。
組み合わせCM(1),CM(2) < 組み合わせCM(3),CM(4) < 組み合わせCM(5),CM(6)
このようなオーディオエレメントの組み合わせは、ビットストリームシンタックスとして定義することで実現することができる。
〈Minimum decoder input bufferの定義の修正〉
ところで3D Audio規格において、上述の組み合わせごとに、Minimum decoder input bufferのサイズが変えられるように、以下に示す現状の規定を修正することで、様々な許容メモリサイズのデコーダで入力ビットストリームをデコードできるようになる。
(現状の規定)
Minimum decoder input bufferサイズ=6144×NCC(bits)
上述したようにNCCは入力ビットストリームに含まれる全オーディオエレメントのうちのSCEの数と、CPEの数の2倍との和を表している。したがって、現状では、自身の許容メモリサイズ、つまり最大限確保可能なバッファサイズが、Minimum decoder input bufferサイズ(以下、必要バッファサイズとも称する)未満である機器では、所定の組み合わせに限っては十分なバッファサイズを確保できる場合であっても、入力ビットストリームをデコードすることができない。
そこで、本技術では、以下のような修正AM1または修正AM2を行うことで、各機器が自身のハード規模、つまり許容メモリサイズに応じて、自身に適したオーディオエレメントの組み合わせでコンテンツ(入力ビットストリーム)のデコードおよび再生を行うことができるようにした。
(修正AM1)
3D Audio規格で定められている規定において、NCCを入力ビットストリームに含まれる全オーディオエレメントのうちのSCEの数と、CPEの数の2倍との和としているのに代えて、NCCを入力ビットストリームに含まれるデコード対象となるオーディオエレメントの組み合わせに含まれる全オーディオエレメントのうちのSCEの数と、CPEの数の2倍との和とする
(修正AM2)
オーディオエレメントの組み合わせごとのMinimum decoder input bufferのサイズ(必要バッファサイズ)をビットストリームシンタックスとして定義する
このような修正AM1または修正AM2を行うことで、デコーダ側において、より許容メモリサイズが小さい機器においても入力ビットストリームのデコードを行うことができるようになるが、そのためにはデコーダ側とエンコーダ側において以下の修正が必要である。
(デコーダの信号処理の修正)
デコーダは、自身の許容メモリサイズと、入力ビットストリームのオーディオエレメントの組み合わせごとのサイズ(必要バッファサイズ)とを比較し、「自身の許容メモリサイズ ≧ 組み合わせごとのサイズ」という条件を満たすオーディオエレメントの組み合わせを特定し、その条件を満たす何れかの組み合わせのオーディオエレメントをデコードする
ここで、オーディオエレメントの組み合わせごとの必要バッファサイズを特定する方法は、修正AM1または修正AM2の何れかを適用すればよい。
すなわち、修正AM1を適用する場合には、例えばデコーダは、取得した入力ビットストリームに格納されている情報からオーディオエレメントの組み合わせを特定し、オーディオエレメントの各組み合わせについて必要バッファサイズを算出すればよい。また、修正AM2を適用する場合には、デコーダは入力ビットストリームからオーディオエレメントの組み合わせごとの必要バッファサイズを読み出せばよい。
なお、デコード対象とするオーディオエレメントの組み合わせは、必要バッファサイズが許容メモリサイズ以下となる組み合わせのうちの、ユーザ等により指定されたものとされてもよい。また、デコード対象とするオーディオエレメントの組み合わせは、必要バッファサイズが許容メモリサイズ以下となる組み合わせのうちの、定めた設定等により選択されたものとされてもよい。
さらに、以下では、オーディオエレメントの組み合わせについての必要バッファサイズが許容メモリサイズ以下となるという条件を、バッファサイズ条件とも称することとする。
デコード対象とするオーディオエレメントの組み合わせは、入力ビットストリームの取得前に選択されるようにしてもよいし、入力ビットストリームを取得してから選択されるようにしてもよい。つまり、本技術は、例えばテレビジョン放送などのプッシュ型のコンテンツ配信システムに適用することもできるし、MPEG(Moving Picture Experts Group)-DASH(Dynamic Adaptive Streaming over HTTP)に代表されるプル型のコンテンツ配信システムにも適用することができる。
(エンコーダの運用規定の修正)
エンコーダは、オーディオエレメントの全ての組み合わせについて、修正規定したMinimum decoder input bufferサイズでデコードできるように、時間フレームごとのオーディオエレメント(符号化データ)のビット量の調整を行いエンコードする。
すなわち、エンコーダは、デコーダがどのようなオーディオエレメントの組み合わせを選択したとしても、デコーダ側のバッファサイズが必要バッファサイズであるときにオーディオエレメントをデコードできるように、時間フレームごとに各チャネルの符号化データへの割り当てビット量を調整しながらエンコードを行う。ここで、オーディオエレメントをデコードできるとは、デコード対象とする組み合わせのオーディオエレメントを蓄積しておくバッファにおいて、オーバーフローもアンダーフローも生じさせることなくデコードを行うことができることをいう。
以上のように、デコーダ側で、オーディオエレメントの組み合わせごとの必要バッファサイズに応じて、オーディオエレメントの組み合わせを適切に選択することにより、様々な許容メモリサイズのデコーダで、入力ビットストリームのデコードを行うことができる。すなわち、ハード規模の異なる様々な機器で入力ビットストリームをデコードすることができるようになる。
〈オブジェクトの優先度情報を用いた転送ビットレートの削減〉
さらに、本技術をプル型のコンテンツ配信システムに適用する場合、メタデータ等に基づいて、必要なオーディオエレメントのみを選択して取得するようにすることで、入力ビットストリームの転送ビットレートを削減することができる。換言すれば、デコーダが不要なオーディオエレメントを取得しないようにすることで、入力ビットストリームの転送ビットレートを削減することができる。
ここではMPEG-DASHに代表されるプル型のコンテンツ配信サービスについて考えることとする。そのような場合、3D Audioの入力ビットストリームが、サーバ上に例えば以下の配置パターン(1)または配置パターン(2)の2通りのうちの何れかで配置される。
(配置パターン(1))
3D Audioの入力ビットストリーム全部を1本のストリームとして配置
(配置パターン(2))
3D Audioの入力ビットストリームを、オーディオエレメントの組み合わせごとに分割して配置
具体的には配置パターン(1)では、例えば図1に示したように全組み合わせのオーディオエレメント、つまり全てのチャネル音源グループおよびオブジェクト音源グループを構成するオーディオエレメントを含む1つの入力ビットストリームがサーバに配置される。
この場合、デコーダは、例えば予めサーバ等から取得した情報や入力ビットストリームのヘッダ等に格納されている情報(メタデータ)などから、デコード対象とするオーディオエレメントの組み合わせを選択し、選択した組み合わせのオーディオエレメントのみをサーバから取得してデコードすることができる。また、デコーダが一旦、入力ビットストリームを取得しておき、その入力ビットストリームから必要なオーディオエレメントを選択してデコードすることもできる。
なお、配置パターン(1)の例において、入力ビットストリームの転送時の速度、つまり転送ビットレートごとに入力ビットストリームが用意され、サーバに配置されるようにしてもよい。
また、配置パターン(2)では図1に示した入力ビットストリームが、オーディオエレメントの組み合わせごとに分割され、例えば図2に示すように分割により得られた各組み合わせのビットストリームがサーバに配置される。
なお、図2では、図1における場合と同様に、1つの長方形は1つのオーディオエレメント、すなわちSCEまたはCPEを表している。
この例では、サーバ上には、矢印A11に示す組み合わせCM(1)の構成要素からなるビットストリーム、矢印A12に示す組み合わせCM(2)の構成要素からなるビットストリーム、および矢印A13に示す組み合わせCM(3)の構成要素からなるビットストリームが配置されている。
さらに、サーバ上には矢印A14に示す組み合わせCM(4)の構成要素からなるビットストリーム、矢印A15に示す組み合わせCM(5)の構成要素からなるビットストリーム、および矢印A16に示す組み合わせCM(6)の構成要素からなるビットストリームが配置されている。
この場合、デコーダはサーバ等から取得した情報などから、デコード対象とするオーディオエレメントの組み合わせを選択し、選択した組み合わせのオーディオエレメントをサーバから取得してデコードする。なお、配置パターン(2)の例においても分割された入力ビットストリームが転送ビットレートごとに用意され、サーバに配置されてもよい。
また、配置パターン(1)に示した1つの入力ビットストリームが、サーバからデコーダ側に送信されるときに分割されて、要求された組み合わせのオーディオエレメントのみからなるビットストリームが送信されるようにしてもよい。
このようにデコード対象となるオーディオエレメントの組み合わせのみを取得するようにすれば、転送ビットレートを削減することができる。
例えばデコード対象となるオーディオエレメントの組み合わせのみデコーダ側により取得される場合には、入力ビットストリームに格納されているメタデータ等に基づいて、オーディオエレメントの組み合わせが選択されるようにすることができる。ここで、オーディオエレメントの組み合わせの選択は、例えば入力ビットストリームにメタデータとして格納されている、入力ビットストリームについて取得可能なオーディオエレメントの各組み合わせを示す情報などに基づいて行われる。
これに加え、デコーダが、デコード対象となる組み合わせのオーディオエレメントのなかの不要なオーディオエレメントを取得しないようにすれば、さらに転送ビットレートを削減することができる。例えば、そのような不要なオーディオエレメントは、ユーザにより指定されるようにしてもよいし、入力ビットストリームに格納されているメタデータ等に基づいて選択されてもよい。
特に、メタデータにより不要なオーディオエレメントを選択する場合には、各オブジェクトの優先度(重要度)、つまりオーディオエレメントの優先度を示す優先度情報に基づいて選択が行われるようにしてもよい。ここで、優先度情報は、その優先度情報の値が大きいほど、オーディオエレメントの優先度が高く、重要なエレメントであることを示している。
例えば3D Audio規格では、オブジェクト音源ごと、時間フレームごとに、オブジェクトの優先度情報(object_priority)が入力ビットストリーム内、より詳細にはEXTエレメントの内部で定義されている。特に3D Audio規格では、EXTエレメントはSCEやCPEと同じシンタックスレイヤに定義されている。
そこで、コンテンツを再生するクライアント側、つまりデコーダ側は、このオブジェクトの優先度情報を読み取り、その値が、クライアント側で予め定められた閾値以下であるオブジェクトのオーディオエレメントについては、転送しないようにサーバに対して命令を出す。これにより、サーバから転送される入力ビットストリーム(データ)に、命令により指定したオブジェクト音源のオーディオエレメント(SCE)が含まれないようにすることができ、転送データのビットレートを削減することが可能となる。
このような優先度情報を利用した転送ビットレートの削減を実現するには、オブジェクトの優先度情報の先読みと、修正規定したMinimum decoder input bufferサイズでデコードを可能とするための転送ビットレート調整処理との2つの処理が必要となる。
(優先度情報の先読み)
クライアント(デコーダ)がサーバに特定のオブジェクトのオーディオエレメントの非転送を要求するためには、クライアントは、オブジェクト音源のオーディオエレメントが転送される前に、オブジェクトの優先度情報を読み取らなければならない。
上述したように3D Audio規格では、各オブジェクトの優先度情報はEXTエレメントに含まれている。したがって、オブジェクトの優先度情報を先読みするために、例えばEXTエレメントを以下の配置位置A(1)や配置位置A(2)のような配置とすればよい。なお、これらの例に限らず、優先度情報の先読みが可能であれば、EXTエレメント、すなわち優先度情報の配置位置はどのような位置とされてもよいし、どのようにして取得されるようにしてもよい。
(配置位置A(1))
EXTエレメントを1つのファイルとしてもち、クライアントはデコードの開始時に全フレームもしくは先読み数フレーム分のオブジェクトの優先度情報を読み取っていく
(配置位置A(2))
EXTエレメントをビットストリーム内の各フレームの先頭に配置し、クライアントは時間フレームごとにオブジェクトの優先度情報を読み取っていく
例えば配置位置A(1)では、例えば図3の矢印A21に示すようにコンテンツを構成する全オブジェクト、つまり全オブジェクトのオーディオエレメントの時間フレームごとの優先度情報が格納された1つのファイル(EXTエレメント)がサーバに記録されている。
図3では、文字「EXT(1)」が記された1つの長方形が、1つのEXTエレメントを表している。この例では、クライアント(デコーダ)は、デコード開始前の任意のタイミングでサーバからEXTエレメントを取得し、非転送とするオーディオエレメントを選択する。
また、例えば配置位置A(2)では、矢印A22に示すように、入力ビットストリームの各フレームの先頭にEXTエレメントが配置されてサーバに記録されている。ここで、EXTエレメント以下、つまり図中、下側に配置されている各長方形は、図1における場合と同様に1つのオーディオエレメント(SCEまたはCPE)を表している。
この例では、サーバに記録されている入力ビットストリームは、図1に示した構成の先頭にさらにEXTエレメントが配置されたものとなっている。
したがって、この場合には、クライアント(デコーダ)は、まず対象となる時間フレームについて、入力ビットストリームのEXTエレメントを受信して優先度情報を読み出す。そして、クライアントは、優先度情報に基づいて、非転送とするオーディオエレメントを選択し、そのオーディオエレメントを非転送とする旨の要求(命令)をサーバに行うことになる。
(転送ビットレートの調整処理)
続いて、修正規定したMinimum decoder input bufferサイズでデコードを可能とするための転送ビットレート調整処理について説明する。
例えばエンコーダでは、上述したようにサーバ上に配置される入力ビットストリームの各オーディオエレメントについて、修正規定したMinimum decoder input bufferサイズでデコードできるように、オーディオエレメント(符号化データ)のビット量の調整が行われる。
したがって、デコーダ側において、どの組み合わせのオーディオエレメントが選択されたときでも、例えば図4に示すように、必要バッファサイズのバッファに入力ビットストリームを順次、格納しながらデコードを行ってもアンダーフローおよびオーバーフローは発生しない。
なお、図4において縦軸はデコーダ側のバッファ内に格納されている各時刻における入力ビットストリームのデータ量を示しており、横軸は時間を示している。また、図中、折れ線の傾きは、入力ビットストリームの転送ビットレートを示しており、転送ビットレートは、例えば入力ビットストリームの伝送路の平均ビットレートなどとされる。
この例ではdata[1]乃至data[4]は、各時間フレーム分のオーディオエレメントがサーバから受信されてバッファに格納される期間を表しており、a1、b1、b2、c1、c2、d1、およびd2は、それぞれ所定期間内にバッファに格納されたデータ量を示している。また、縦軸におけるBFZは、Minimum decoder input bufferサイズを示している。
図4では、デコーダのバッファに、受信したオーディオエレメントがBFZ分だけ格納されると、最初の時間フレームのオーディオエレメントのデコードが開始され、その後、各時間フレームのオーディオエレメントのデコードが一定時間間隔で行われる。
例えば時刻t1では、a1分のデータ量である先頭時間フレームのデータ、つまり先頭時間フレームの各オーディオエレメントがバッファから読み出されてデコードされている。同様に、時刻t2乃至時刻t4のそれぞれにおいて、2番目乃至4番目の時間フレームの各オーディオエレメントがバッファから読み出されてデコードが行われている。
このとき、バッファ内に格納されているオーディオエレメントのデータ量は、どの時刻においても0以上、かつBFZ以下となっており、アンダーフローもオーバーフローも生じていない。したがって、コンテンツが時間的に連続して途切れることなく再生されることになる。
しかし、符号化データのビット量を調整しながらのエンコードは、どのオーディオエレメントの組み合わせが選択された場合でも、選択された組み合わせを構成する全オーディオエレメントがデコードされるという前提で行われたものとなっている。つまり、優先度情報等に基づいて選択された、組み合わせを構成する全オーディオエレメントのうちのいくつかをデコードしない場合については、考慮されていない。
そのため、デコード対象とする組み合わせのオーディオエレメントのうちの、いくつかのオブジェクトのオーディオエレメントがデコードされない場合には、エンコーダ側での時間フレームごとのビット量の調整と、デコーダ側での各時間フレームでのデコードによるビットの消費量との整合が取れなくなってしまう。そうすると、場合によってはデコーダ側においてオーバーフローやアンダーフローが生じ、上述の修正規定したMinimum decoder input bufferサイズでのデコードができなくなってしまう。
そこで、本技術では、エンコーダ側でのビット量の調整と、デコーダ側でのビット消費量との整合をとり、上述の修正規定したMinimum decoder input bufferサイズでのデコードを行うことができるようにするために、以下の転送ビットレート調整処理RMT(1)または転送ビットレート調整処理RMT(2)が行われる。
(転送ビットレート調整処理RMT(1))
時間フレームごとに転送データに含めないオブジェクトのオーディオエレメントのサイズを読み取り、そのサイズから転送を停止する時間を算出し、その時間だけ転送を停止
(転送ビットレート調整処理RMT(2))
時間フレームごとに転送データに含めないオブジェクトのオーディオエレメントのサイズを読み取り、そのサイズから、転送対象となる時間フレームの転送レートを調整
転送ビットレート調整処理RMT(1)では、例えば図5に示すように所定の時間だけ入力ビットストリームの転送を停止させることにより、実質的に転送ビットレートを変更する。
なお、図5において縦軸はデコーダ側のバッファ内に格納されている各時刻における入力ビットストリームのデータ量を示しており、横軸は時間を示している。また、図5において図4における場合と対応する部分には、同じ文字等が記されており、その説明は適宜省略する。
この例では、図4においてa1、b1、b2、c1、d1、およびd2で表されていたデータ量が、それぞれa1’、b1’、b2’、c1’、d1’、およびd2’となっている。
例えば図4では先頭の時間フレームのデコード対象のオーディオエレメントの合計データ量がa1であったものが、図5では、所定のオブジェクトのオーディオエレメントのデコードが行われないためにa1’となっている。
そのため、先頭フレームでデコードしないとされた、つまり優先度情報等により選択されたオブジェクトのオーディオエレメントのサイズ(データ量)と、入力ビットストリームの転送ビットレート、つまり図中の折れ線の傾きとから定まる時間の期間T11だけ、入力ビットストリームの転送が停止されている。
同様に、先頭時間フレーム以降の各時間フレームについても、それぞれ期間T12乃至期間T14で入力ビットストリームの転送が一時的に停止されている。
このような転送ビットレート制御は、サーバ側で実現してもよいし、デコーダ側でバッファ制御を行うことで実現するようにしてもよい。
サーバ側でビットレート制御を行うときには、例えばデコーダがサーバ側に、入力ビットストリームの一時的な転送停止を指示するようにしてもよいし、サーバが転送停止時間を算出し、入力ビットストリームの転送を一時的に停止するようにしてもよい。
また、デコーダ側でのバッファ制御により転送ビットレート制御を行う場合、例えばデコーダは、受信した入力ビットストリームを蓄積しておくシステムバッファから、デコードのためのオーディオバッファへのオーディオエレメント転送時にオーディオエレメントの転送(格納)の一時的な停止を行う。
ここで、システムバッファは、例えばコンテンツを構成する音声の入力ビットストリームだけでなく、コンテンツを構成する映像の入力ビットストリームなども蓄積されるバッファなどとされる。また、オーディオバッファは、Minimum decoder input bufferサイズ以上のバッファサイズの確保が必要となるデコード用のバッファである。
一方、転送ビットレート調整処理RMT(2)では、例えば図6に示すように入力ビットストリームの転送ビットレートを可変させる。
なお、図6において縦軸はデコーダ側のオーディオバッファ内に格納されている各時刻における入力ビットストリームのデータ量を示しており、横軸は時間を示している。また、図6において図4または図5における場合と対応する部分には、同じ文字等が記されており、その説明は適宜省略する。
例えば図4では先頭の時間フレームのデコード対象のオーディオエレメントの合計データ量がa1であったものが、図6では、所定のオブジェクトのオーディオエレメントのデコードが行われないためにa1’となっている。
そのため、先頭フレーム分のオーディオエレメントの取得後、時刻t1までの期間において、先頭フレームでデコードしないとされた、つまり優先度情報等により選択されたオブジェクトのオーディオエレメントのサイズと、入力ビットストリームの転送ビットレートとから定まる新たな転送ビットレートで、オーディオエレメントの転送が行われている。
同様に、それ以降の期間でも入力ビットストリームの転送が、新たに算出された転送ビットレートで行われている。例えば時刻t2から時刻t3までの期間では、時刻t3においてオーディオバッファ内に格納されているオーディオエレメントの合計データ量が、図5の例の時刻t3における場合と同じとなるように、新たな転送ビットレートを定めればよい。
このような転送ビットレート制御は、サーバ側で実現してもよいし、デコーダ側でバッファ制御を行うことで実現するようにしてもよい。
サーバ側でビットレート制御を行うときには、例えばデコーダがサーバ側に、入力ビットストリームの新たな転送ビットレートを指示するようにしてもよいし、サーバが新たな転送ビットレートを算出するようにしてもよい。
また、デコーダ側でのバッファ制御により転送ビットレート制御を行う場合、例えばデコーダは、新たな転送ビットレートを算出し、その新たな転送ビットレートで、システムバッファからオーディオバッファへとオーディオエレメントを転送する。
ここで、転送ビットレート調整処理RMT(1)や転送ビットレート調整処理RMT(2)を行う場合、デコード対象としないオブジェクトのオーディオエレメントのサイズを先読みする必要がある。そこで本技術では、各オーディオエレメントのサイズを示すサイズ情報が、例えば以下のサイズ情報配置SIL(1)乃至サイズ情報配置SIL(3)に示す何れかの配置とされる。なお、サイズ情報の配置は、先読み可能な配置であれば、どのような配置とされてもよい。
(サイズ情報配置SIL(1))
サイズ情報を1つのファイルとしてもち、クライアントはデコードの開始時に全フレームもしくは先読み数フレーム分の各オーディオエレメントのサイズを読み取っていく
(サイズ情報配置SIL(2))
サイズ情報を入力ビットストリーム内の各フレームの先頭に配置し、クライアントは時間フレームごとにサイズ情報を読み取っていく
(サイズ情報配置SIL(3))
各オーディオエレメントの先頭にサイズ情報を定義し、クライアントはオーディオエレメントごとにサイズ情報を読み取っていく
サイズ情報配置SIL(1)では、例えば図7の矢印A31に示すようにコンテンツを構成する全オーディオエレメントの時間フレームごとのサイズ情報が格納された1つのファイルがサーバに記録されている。なお、図7において、文字「Size」が記された楕円がサイズ情報を表している。
この例では、例えばクライアント(デコーダ)は、デコード開始前の任意のタイミングでサーバからサイズ情報を取得し、転送ビットレート調整処理RMT(1)や転送ビットレート調整処理RMT(2)を行う。
また、例えばサイズ情報配置SIL(2)では、矢印A32に示すように、入力ビットストリームの各フレームの先頭にサイズ情報が配置されてサーバに記録されている。ここで、サイズ情報以下に配置されている各長方形は、図3における場合と同様に1つのオーディオエレメント(SCEまたはCPE)またはEXTエレメントを表している。
この例では、サーバに記録されている入力ビットストリームは、図3の矢印A22に示した構成の先頭にさらにサイズ情報が配置されたものとなっている。
したがって、この場合には、例えばクライアント(デコーダ)は、まず入力ビットストリームのサイズ情報やEXTエレメントを受信して、非転送とするオーディオエレメントを選択したり、その選択に応じて転送ビットレート調整処理RMT(1)や転送ビットレート調整処理RMT(2)を行ったりする。
さらに、例えばサイズ情報配置SIL(3)では、矢印A33に示すように、各オーディオエレメント内の先頭部分にサイズ情報が配置されている。したがって、この場合には、例えばクライアント(デコーダ)は、各オーディオエレメントからサイズ情報を読み出して、転送ビットレート調整処理RMT(1)や転送ビットレート調整処理RMT(2)を行う。
なお、以上においては、オブジェクトのオーディオエレメントを非転送とする例について説明したが、オブジェクトに限らず、各組み合わせを構成するどのオーディオエレメントを非転送とする場合でも、上述したオブジェクトの例と同様に、Minimum decoder input bufferサイズでのデコードが可能となる。
以上のように、入力ビットストリームのなかのデコード対象としない不要なオーディオエレメントをメタデータ等に基づいて選択し、転送されないようにすることで、転送ビットレートを削減することができる。
また、入力ビットストリームを構成する任意のオーディオエレメントをデコード対象としないようにする場合に、適切に転送ビットレートを調整することでMinimum decoder input bufferサイズでのデコードが可能となる。
〈コンテンツ配信システムの構成例〉
次に、以上において説明した本技術を適用した具体的な実施の形態について説明する。
以下では、本技術をMPEG-DASHに準ずるコンテンツ配信システムに適用した場合を例として説明する。そのような場合、本技術を適用したコンテンツ配信システムは、例えば図8に示すように構成される。
図8に示すコンテンツ配信システムは、サーバ11およびクライアント12から構成され、これらのサーバ11とクライアント12は、インターネットなどの有線や無線の通信網を介して相互に接続されている。
サーバ11には、例えば複数の転送ビットレートごとに、図1に示した入力ビットストリームや、図2に示した、入力ビットストリームをオーディオエレメントの組み合わせごとに分割して得られたビットストリームが記録されている。
また、サーバ11には、単独の1つのファイルとして、または各入力ビットストリームや分割された入力ビットストリームのフレームの先頭部分に配置されて、図3を参照して説明したEXTエレメントが記録されている。さらに、サーバ11には、単独の1つのファイルとして、各入力ビットストリームや分割された入力ビットストリームのフレームの先頭部分に配置されて、または各オーディオエレメント内の先頭部分に配置されて、図7を参照して説明したサイズ情報が記録されている。
サーバ11は、クライアント12からの要求に応じて、入力ビットストリームやEXTエレメント、サイズ情報などをクライアント12に送信する。
また、クライアント12は、サーバ11から入力ビットストリームを受信して、入力ビットストリームをデコードおよび再生することで、コンテンツをストリーミング再生する。
なお、入力ビットストリームの受信にあたっては、その入力ビットストリーム全部を受信するようにしてもよいし、入力ビットストリームの分割された一部分のみを受信するようにしてもよい。以下では、入力ビットストリームの全部と一部分とを特に区別する必要がない場合には、単に入力ビットストリームとも称することとする。
クライアント12は、ストリーミング制御部21、アクセス処理部22、およびデコーダ23を有している。
ストリーミング制御部21は、クライアント12全体の動作を制御する。例えばストリーミング制御部21は、サーバ11からEXTエレメント、サイズ情報、その他の制御情報を受信して、必要に応じてアクセス処理部22やデコーダ23に供給したり、受信した情報に基づいてストリーミング再生の制御を行ったりする。
アクセス処理部22は、デコーダ23等の要求に応じて、サーバ11に対して所定の転送ビットレートでの所定の組み合わせのオーディオエレメントの入力ビットストリームの送信を要求したり、サーバ11から送信されてきた入力ビットストリームを受信してデコーダ23に供給したりする。デコーダ23は、必要に応じてストリーミング制御部21やアクセス処理部22と情報の授受を行いながら、アクセス処理部22から供給された入力ビットストリームをデコードし、図示せぬスピーカ等に出力する。
〈デコーダの構成例〉
続いて、図8に示したデコーダ23のより詳細な構成について説明する。例えばデコーダ23は、より詳細には図9に示すように構成される。
図9に示すデコーダ23は、取得部71、バッファサイズ算出部72、選択部73、抽出部74、オーディオバッファ75、復号部76、および出力部77を有している。
この例では、アクセス処理部22から取得部71には、例えば図1に示した構成の、所定の転送ビットレートの入力ビットストリームが供給される。なお、アクセス処理部22がサーバ11から、どの転送ビットレートの入力ビットストリームを受信するかは、例えばアクセス処理部22等が通信網の状況等から、時間フレームごとに選択することができる。つまり、時間フレームごとに転送ビットレートを変更することができる。
取得部71は、アクセス処理部22から入力ビットストリームを取得してバッファサイズ算出部72および抽出部74に供給する。バッファサイズ算出部72は、取得部71から供給された入力ビットストリームに基づいて、各オーディオエレメントの組み合わせごとに必要バッファサイズを算出し、選択部73に供給する。
選択部73は、バッファサイズ算出部72から供給された各オーディオエレメントの組み合わせの必要バッファサイズと、デコーダ23、すなわちオーディオバッファ75の許容メモリサイズとを比較して、デコード対象とするオーディオエレメントの組み合わせを選択し、その選択結果を抽出部74に供給する。
抽出部74は、選択部73から供給された選択結果に基づいて、取得部71から供給された入力ビットストリームから、選択された組み合わせのオーディオエレメントを抽出し、オーディオバッファ75に供給する。
オーディオバッファ75は、予め定められた所定の許容メモリサイズのバッファであり、抽出部74から供給されたデコード対象となるオーディオエレメントを一時的に保持し、復号部76に供給する。復号部76は、オーディオバッファ75から時間フレーム単位でオーディオエレメントを読み出してデコード(復号)するとともに、デコードにより得られたオーディオ信号に基づいて、所定チャネル構成のオーディオ信号を生成し、出力部77に供給する。出力部77は、復号部76から供給されたオーディオ信号を後段のスピーカ等に出力する。
〈復号処理の説明〉
続いて、図9に示したデコーダ23により行われる復号処理について説明する。例えば復号処理は、時間フレームごとに行われる。
ステップS11において、取得部71は、アクセス処理部22から入力ビットストリームを取得してバッファサイズ算出部72および抽出部74に供給する。
ステップS12において、バッファサイズ算出部72は、取得部71から供給された入力ビットストリームに基づいて、オーディオエレメントの組み合わせごとに、必要バッファサイズを算出し、選択部73に供給する。
具体的にはバッファサイズ算出部72は、算出対象のオーディオエレメントの組み合わせについて、その組み合わせを構成するSCEの数と、CPEの数の2倍との和をNCCとし、NCCと6144との積を必要バッファサイズ(Minimum decoder input bufferサイズ)として算出する。
なお、入力ビットストリームに格納されているオーディオエレメントの選択可能な組み合わせは、メタデータ等を参照することで特定することができる。また、入力ビットストリームに各組み合わせについての必要バッファサイズを示す情報が格納されている場合には、バッファサイズ算出部72は、入力ビットストリームから、必要バッファサイズを示す情報を読み出して選択部73に供給する。
ステップS13において、選択部73は、バッファサイズ算出部72から供給された必要バッファサイズに基づいて、オーディオエレメントの組み合わせを選択し、その選択結果を抽出部74に供給する。
すなわち、選択部73は、各オーディオエレメントの組み合わせの必要バッファサイズと、デコーダ23、すなわちオーディオバッファ75の許容メモリサイズとを比較して、バッファサイズ条件を満たす組み合わせの1つをデコード対象として選択する。そして、選択部73は、その選択結果を抽出部74に供給する。
ステップS14において、抽出部74は、取得部71から供給された入力ビットストリームから、選択部73から供給された選択結果により示される組み合わせのオーディオエレメントを抽出し、オーディオバッファ75に供給する。
ステップS15において、復号部76は、オーディオバッファ75から1時間フレーム分のオーディオエレメントを読み出して、そのオーディオエレメント、すなわちオーディオエレメントに格納されている符号化データをデコードする。
また、復号部76は、デコードにより得られたオーディオ信号に基づいて、所定チャネル構成のオーディオ信号を生成し、出力部77に供給する。例えば復号部76は、オブジェクトのオーディオ信号をスピーカに対応する各チャネルに割り当てるなどして、目的とするチャネル構成の各チャネルのオーディオ信号を生成する。
ステップS16において、出力部77は、復号部76から供給されたオーディオ信号を後段のスピーカ等に出力し、復号処理は終了する。
以上のようにしてデコーダ23は、自身の許容メモリサイズと必要バッファサイズに応じて、オーディオエレメントの組み合わせを選択し、デコードを行う。これにより、ハード規模の異なる様々な機器で入力ビットストリームをデコードすることができる。
〈第2の実施の形態〉
〈デコーダの構成例〉
また、図9に示したデコーダ23では、オーディオエレメントの組み合わせを選択する例について説明したが、さらにデコーダ23において、優先度情報等のメタデータに基づいて、デコード対象としない不要なオーディオエレメントを選択するようにしてもよい。そのような場合、デコーダ23は、例えば図11に示すように構成される。なお、図11において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図11に示すデコーダ23は、取得部71、バッファサイズ算出部72、選択部73、抽出部74、システムバッファ111、オーディオバッファ75、復号部76、および出力部77を有している。図11に示すデコーダ23の構成は、新たにシステムバッファ111が設けられている点で図9のデコーダ23と異なり、その他の点では図9のデコーダ23と同じ構成とされる。
図11に示すデコーダ23には、例えば図1に示した構成の、所定の転送ビットレートの入力ビットストリームが供給される。
また、取得部71は、サーバ11からEXTエレメントおよびサイズ情報を取得し、EXTエレメントをバッファサイズ算出部72を介して選択部73に供給するとともに、サイズ情報を抽出部74を介してシステムバッファ111に供給する。
例えば図3の矢印A21に示したようにEXTエレメントが単独でサーバ11に記録されている場合、取得部71は、デコード開始前の任意のタイミングでストリーミング制御部21を介して、サーバ11からEXTエレメントを取得する。
また、例えば図3の矢印A22に示したようにEXTエレメントが入力ビットストリームのフレーム先頭に配置されている場合には、取得部71は、その入力ビットストリームをバッファサイズ算出部72に供給する。そして、バッファサイズ算出部72は、入力ビットストリームからEXTエレメントを読み出して選択部73に供給する。
なお、以下では、図3の矢印A21に示したようにEXTエレメントが単独でサーバ11に記録されており、予めEXTエレメントが選択部73に供給されているものとして説明を続ける。
さらに、例えば図7の矢印A31に示したようにサイズ情報が単独でサーバ11に記録されている場合、取得部71は、デコード開始前の任意のタイミングでストリーミング制御部21を介して、サーバ11からサイズ情報を取得する。
また、例えば図7の矢印A32や矢印A33に示したように、サイズ情報が入力ビットストリームの各フレームの先頭や、各オーディオエレメント内の先頭に配置されている場合、取得部71は、その入力ビットストリームを抽出部74に供給する。そして、抽出部74は、入力ビットストリームからサイズ情報を読み出してシステムバッファ111に供給する。
なお、以下では、図7の矢印A31に示したようにサイズ情報が単独でサーバ11に記録されており、予めサイズ情報がシステムバッファ111に供給されているものとして説明を続ける。
選択部73は、バッファサイズ算出部72から供給された必要バッファサイズに基づいて、オーディオエレメントの組み合わせを選択する。さらに選択部73は、バッファサイズ算出部72から供給されたEXTエレメントに含まれる優先度情報に基づいて、選択した組み合わせを構成する各オーディオエレメントのなかから、デコード対象としない不要なオーディオエレメント、つまり非転送とするオーディオエレメントを選択する。
なお、不要なオーディオエレメントは、オブジェクトのオーディオエレメントであってもよいし、それ以外のオーディオエレメントであってもよい。
選択部73は、組み合わせの選択結果と、不要なオーディオエレメントの選択結果とを抽出部74に供給する。
抽出部74は、選択部73から供給された選択結果に基づいて、取得部71から供給された入力ビットストリームから、選択された組み合わせを構成し、かつ不要であるとされなかったオーディオエレメントを抽出し、システムバッファ111に供給する。
システムバッファ111は、予め抽出部74から供給されたサイズ情報に基づいて、上述した転送ビットレート調整処理RMT(1)または転送ビットレート調整処理RMT(2)によりバッファ制御を行って、抽出部74から供給されたオーディオエレメントをオーディオバッファ75に供給する。なお、以下では、転送ビットレート調整処理RMT(1)が行われるものとして説明を続ける。
〈復号処理の説明〉
次に図12のフローチャートを参照して、図11に示したデコーダ23により行われる復号処理について説明する。なお、ステップS41およびステップS42の処理は、図10のステップS11およびステップS12の処理と同様であるので、その説明は省略する。
ステップS43において、選択部73は、バッファサイズ算出部72から供給された必要バッファサイズおよびEXTエレメントに含まれる優先度情報に基づいて、オーディオエレメントの組み合わせと、不要なオーディオエレメントとを選択する。
例えば選択部73は、図10のステップS13と同様の処理を行って、オーディオエレメントの組み合わせを選択する。さらに、選択部73は、選択した組み合わせのオーディオエレメントのうち、優先度情報の値が所定の閾値以下であるオーディオエレメントをデコード対象としない不要なオーディオエレメントとして選択する。
選択部73は、組み合わせの選択結果と、不要なオーディオエレメントの選択結果とを抽出部74に供給する。
ステップS44において、抽出部74は、選択部73から供給された選択結果に基づいて、取得部71から供給された入力ビットストリームから、選択された組み合わせを構成し、かつ不要であるとされなかったオーディオエレメントを抽出し、システムバッファ111に供給する。また、抽出部74は、選択部73により選択された、デコード対象としない不要なオーディオエレメントを示す情報をシステムバッファ111に供給する。
ステップS45において、システムバッファ111は、予め抽出部74から供給されたサイズ情報、および抽出部74から供給された不要なオーディオエレメントを示す情報に基づいて、バッファ制御を行う。
具体的には、システムバッファ111は、抽出部74から供給された情報により示されるオーディオエレメントのサイズ情報に基づいて、転送を停止させるべき時間を算出する。そして、システムバッファ111は、適切なタイミングで、算出した時間だけオーディオエレメントのオーディオバッファ75への転送(格納)を停止させながら、抽出部74から供給されたオーディオエレメントをオーディオバッファ75に転送する。
バッファ制御が行われると、その後、ステップS46およびステップS47の処理が行われて復号処理は終了するが、これらの処理は図10のステップS15およびステップS16の処理と同様であるので、その説明は省略する。
以上のようにしてデコーダ23は、オーディオエレメントの組み合わせを選択するとともに、優先度情報に基づいてデコード対象としないオーディオエレメントを選択する。これにより、ハード規模の異なる様々な機器で入力ビットストリームをデコードすることができる。また、バッファ制御により実質的な転送ビットレート制御を行うことで、Minimum decoder input bufferサイズでのデコードが可能となる。
〈第3の実施の形態〉
〈デコーダの構成例〉
また、以上においては取得した入力ビットストリームからデコード対象とする組み合わせのオーディオエレメントを抽出する例について説明したが、選択した組み合わせのオーディオエレメントをサーバ11から取得するようにしてもよい。そのような場合、デコーダ23は、例えば図13に示す構成とされる。なお、図13において、図9における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図13に示すデコーダ23は、通信部141、バッファサイズ算出部72、選択部73、要求部142、オーディオバッファ75、復号部76、および出力部77を有している。
図13に示すデコーダ23の構成は、取得部71および抽出部74が設けられておらず、新たに通信部141および要求部142が設けられている点で図9のデコーダ23の構成と異なる。
通信部141は、アクセス処理部22やストリーミング制御部21を介してサーバ11との通信を行う。例えば通信部141は、サーバ11から取得可能なオーディオエレメントの組み合わせを示す情報を受信してバッファサイズ算出部72に供給したり、要求部142から供給された、分割された入力ビットストリームの一部分の送信要求をサーバ11に送信したりする。また、通信部141は、送信要求に応じてサーバ11から送信されてきた、分割された入力ビットストリームの一部分を受信してオーディオバッファ75に供給する。
ここで、サーバ11から取得可能なオーディオエレメントの組み合わせを示す情報は、例えば入力ビットストリームのメタデータとして、入力ビットストリーム内に格納された状態で、または単独のファイルとしてサーバ11に記録されている。なお、ここではサーバ11から取得可能なオーディオエレメントの組み合わせを示す情報は、単独のファイルとしてサーバ11に記録されているものとする。
要求部142は、選択部73から供給された、デコード対象とするオーディオエレメントの組み合わせの選択結果に基づいて、選択された組み合わせのオーディオエレメントからなるビットストリーム、つまり分割された入力ビットストリームの一部分の送信要求を通信部141に供給する。
〈復号処理の説明〉
次に、図14のフローチャートを参照して、図13に示すデコーダ23により行われる復号処理について説明する。
ステップS71において、通信部141は、サーバ11から取得可能なオーディオエレメントの組み合わせを示す情報を受信してバッファサイズ算出部72に供給する。
すなわち、通信部141は、取得可能なオーディオエレメントの組み合わせを示す情報の送信要求を、ストリーミング制御部21を介してサーバ11に送信する。また、通信部141は、その送信要求に応じてサーバ11から送信されてきたオーディオエレメントの組み合わせを示す情報を、ストリーミング制御部21を介して受信して、バッファサイズ算出部72に供給する。
ステップS72において、バッファサイズ算出部72は、通信部141から供給された、サーバ11から取得可能なオーディオエレメントの組み合わせを示す情報に基づいて、その情報により示されるオーディオエレメントの組み合わせごとに、必要バッファサイズを算出し、選択部73に供給する。ステップS72では、図10のステップS12と同様の処理が行われる。
ステップS73において、選択部73は、バッファサイズ算出部72から供給された必要バッファサイズに基づいて、オーディオエレメントの組み合わせを選択し、その選択結果を要求部142に供給する。ステップS73では、図10のステップS13と同様の処理が行われる。また、このとき選択部73において、転送ビットレートも選択されるようにしてもよい。
さらに、オーディオエレメントの組み合わせが選択されると、要求部142は、選択部73から供給された選択結果により示される組み合わせのオーディオエレメントからなるビットストリームの送信要求を通信部141に供給する。この転送要求は、例えば図2の矢印A11乃至矢印A16のうちの何れかにより示されるビットストリームの送信を要求するものである。
ステップS74において、通信部141は、要求部142から供給された、ビットストリームの送信要求を、アクセス処理部22を介してサーバ11に送信する。
すると、サーバ11からは、送信要求に応じて、要求された組み合わせのオーディオエレメントからなるビットストリームが送信されてくる。
ステップS75において、通信部141は、アクセス処理部22を介して、サーバ11からビットストリームを受信してオーディオバッファ75に供給する。
ビットストリームが受信されると、その後、ステップS76およびステップS77の処理が行われて復号処理は終了するが、これらの処理は図10のステップS15およびステップS16の処理と同様であるので、その説明は省略する。
以上のようにしてデコーダ23は、オーディオエレメントの組み合わせを選択し、選択した組み合わせのビットストリームをサーバ11から受信してデコードを行う。これにより、ハード規模の異なる様々な機器で入力ビットストリームをデコードすることができるとともに、入力ビットストリームの転送ビットレートを削減することができる。
〈第4の実施の形態〉
〈デコーダの構成例〉
さらに、選択した組み合わせのオーディオエレメントをサーバ11から取得する場合に、その組み合わせのなかの不要なオーディオエレメントを非転送とするようにしてもよい。
そのような場合、デコーダ23は、例えば図15に示すように構成される。なお、図15において、図11または図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図15に示すデコーダ23は、通信部141、バッファサイズ算出部72、選択部73、要求部142、システムバッファ111、オーディオバッファ75、復号部76、および出力部77を有している。図15に示すデコーダ23の構成は、図13に示したデコーダ23の構成に、さらにシステムバッファ111を設けた構成とされている。
図15に示すデコーダ23では、選択部73はオーディオエレメントの組み合わせと、その組み合わせを構成するオーディオエレメントのなかの非転送とする不要なオーディオエレメントとを選択し、それらの選択結果を要求部142に供給する。
ここで、不要なオーディオエレメントの選択は、例えばEXTエレメントに含まれる優先度情報に基づいて行われるが、EXTエレメントはどのようにして取得されるようにしてもよい。
すなわち、例えば図3の矢印A21に示したようにEXTエレメントが単独でサーバ11に記録されている場合、通信部141は、デコード開始前の任意のタイミングでストリーミング制御部21を介して、サーバ11からEXTエレメントを取得する。そして、通信部141は、バッファサイズ算出部72を介して選択部73にEXTエレメントを供給する。
また、例えば図3の矢印A22に示したようにEXTエレメントが入力ビットストリームのフレーム先頭に配置されている場合には、通信部141は、まずは入力ビットストリームの先頭部分にあるEXTエレメントをサーバ11から受信してバッファサイズ算出部72に供給する。そして、バッファサイズ算出部72は、通信部141からのEXTエレメントを選択部73に供給する。
なお、以下では、図3の矢印A21に示したようにEXTエレメントが単独でサーバ11に記録されているものとして説明を続ける。
要求部142は、選択部73から供給された選択結果に基づいて、選択された組み合わせを構成する、非転送としなかったオーディオエレメントからなるビットストリームの送信要求を通信部141に供給する。
システムバッファ111は、通信部141からサイズ情報の供給を受ける。
例えば図7の矢印A31に示したようにサイズ情報が単独でサーバ11に記録されている場合、通信部141は、デコード開始前の任意のタイミングでストリーミング制御部21を介して、サーバ11からサイズ情報を取得し、システムバッファ111に供給する。
また、例えば図7の矢印A32や矢印A33に示したように、サイズ情報が入力ビットストリームの各フレームの先頭や、各オーディオエレメント内の先頭に配置されている場合、通信部141は、サーバ11から受信した入力ビットストリーム、より詳細には入力ビットストリームの分割された一部分をシステムバッファ111に供給する。
なお、図7の矢印A33に示したようにサイズ情報が各オーディオエレメント内の先頭に配置されている場合には、選択部73により選択された組み合わせの非転送とされたオーディオエレメントについては、サイズ情報だけがビットストリームに含まれるようにされる。
システムバッファ111は、サイズ情報に基づいて、上述した転送ビットレート調整処理RMT(1)または転送ビットレート調整処理RMT(2)によりバッファ制御を行って、通信部141から供給されたオーディオエレメントをオーディオバッファ75に供給する。なお、以下では、転送ビットレート調整処理RMT(1)が行われるものとして説明を続ける。
〈復号処理の説明〉
次に図16のフローチャートを参照して、図15に示したデコーダ23により行われる復号処理について説明する。
ステップS101において、通信部141は、サーバ11から取得可能なオーディオエレメントの組み合わせを示す情報、およびEXTエレメントを受信してバッファサイズ算出部72に供給する。
すなわち、通信部141は、取得可能なオーディオエレメントの組み合わせを示す情報、およびEXTエレメントの送信要求を、ストリーミング制御部21を介してサーバ11に送信する。また、通信部141は、その送信要求に応じてサーバ11から送信されてきたオーディオエレメントの組み合わせを示す情報、およびEXTエレメントを、ストリーミング制御部21を介して受信して、バッファサイズ算出部72に供給する。さらに、バッファサイズ算出部72は、通信部141からのEXTエレメントを選択部73に供給する。
オーディオエレメントの組み合わせを示す情報が取得されると、ステップS102およびステップS103の処理が行われて転送を要求するオーディオエレメントが選択されるが、これらの処理は図12のステップS42およびステップS43の処理と同様であるので、その説明は省略する。
但し、ステップS102では、オーディオエレメントの組み合わせを示す情報に基づいて必要バッファサイズが算出され、ステップS103では、選択部73による選択結果は要求部142に供給される。
また、要求部142は、選択部73から供給された選択結果に基づいて、選択された組み合わせを構成する、非転送としなかったオーディオエレメントからなるビットストリームの送信要求を通信部141に供給する。換言すれば、選択された組み合わせのオーディオエレメントの送信が要求されるとともに、その組み合わせのなかのデコード対象とされないものとして選択された不要なオーディオエレメントの非転送が要求される。
ステップS104において、通信部141は、要求部142から供給された、選択された組み合わせを構成する、非転送としなかったオーディオエレメントからなるビットストリームの送信要求を、アクセス処理部22を介してサーバ11に送信する。
すると、サーバ11からは、ビットストリームの送信要求に応じて、要求された組み合わせを構成する、非転送とされなかったオーディオエレメントからなるビットストリームが送信されてくる。
ステップS105において、通信部141は、アクセス処理部22を介して、サーバ11からビットストリームを受信してシステムバッファ111に供給する。
ビットストリームが受信されると、その後、ステップS106乃至ステップS108の処理が行われて復号処理は終了するが、これらの処理は図12のステップS45乃至ステップS47の処理と同様であるので、その説明は省略する。
以上のようにしてデコーダ23は、オーディオエレメントの組み合わせを選択するとともに、優先度情報に基づいてデコード対象としない不要なオーディオエレメントを選択する。これにより、ハード規模の異なる様々な機器で入力ビットストリームをデコードすることができるとともに入力ビットストリームの転送ビットレートを削減することができる。また、バッファ制御を行うことで、Minimum decoder input bufferサイズでのデコードが可能となる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
[1]
オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択する選択部と、
選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する生成部と
を備える復号装置。
[2]
前記選択部は、同じコンテンツについて予め用意された複数の前記組み合わせのなかから1つの前記組み合わせを選択する
[1]に記載の復号装置。
[3]
前記複数の前記組み合わせごとに用意された、前記組み合わせの前記オーディオエレメントから構成されるビットストリームのうちの、前記選択部により選択された前記組み合わせのビットストリームを受信する通信部をさらに備える
[2]に記載の復号装置。
[4]
前記選択部は、ビットストリームを構成する複数の前記オーディオエレメントのうちのいくつかの前記オーディオエレメントを、1つの前記組み合わせとして選択する
[1]または[2]に記載の復号装置。
[5]
前記選択部は、前記ビットストリームのメタデータに基づいて1つの前記組み合わせを選択する
[4]に記載の復号装置。
[6]
前記選択部は、前記メタデータとして、予め定められた複数の前記組み合わせを示す情報、および前記オーディオエレメントの優先度情報のうちの少なくとも何れか一方に基づいて、1つの前記組み合わせを選択する
[5]に記載の復号装置。
[7]
前記ビットストリームから、前記選択部により選択された前記組み合わせの前記オーディオエレメントを抽出する抽出部をさらに備える
[4]乃至[6]の何れか一項に記載の復号装置。
[8]
前記選択部により選択された前記組み合わせの前記オーディオエレメントを受信する通信部をさらに備える
[4]乃至[6]の何れか一項に記載の復号装置。
[9]
デコード対象として選択されなかった前記オーディオエレメントのサイズに基づいて、前記生成部によりデコードされる前記オーディオエレメントのバッファへの格納を制御するバッファ制御部をさらに備える
[5]に記載の復号装置。
[10]
前記選択部は、選択した前記組み合わせを構成する前記オーディオエレメントのなかから、デコード対象としない前記オーディオエレメントをさらに選択し、
前記バッファ制御部は、前記選択部により選択された前記デコード対象としない前記オーディオエレメントのサイズに基づいて、前記選択部により選択された前記組み合わせを構成する、前記デコード対象としない前記オーディオエレメント以外の前記オーディオエレメントの前記バッファへの格納を制御する
[9]に記載の復号装置。
[11]
前記選択部は、前記オーディオエレメントの優先度情報に基づいて、前記デコード対象としない前記オーディオエレメントを選択する
[10]に記載の復号装置。
[12]
オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択し、
選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する
ステップを含む復号方法。
[13]
オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択し、
選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
23 デコーダ, 71 取得部, 72 バッファサイズ算出部, 73 選択部, 74 抽出部, 75 オーディオバッファ, 76 復号部, 111 システムバッファ, 141 通信部, 142 要求部

Claims (13)

  1. オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択する選択部と、
    選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する生成部と
    を備える復号装置。
  2. 前記選択部は、同じコンテンツについて予め用意された複数の前記組み合わせのなかから1つの前記組み合わせを選択する
    請求項1に記載の復号装置。
  3. 前記複数の前記組み合わせごとに用意された、前記組み合わせの前記オーディオエレメントから構成されるビットストリームのうちの、前記選択部により選択された前記組み合わせのビットストリームを受信する通信部をさらに備える
    請求項2に記載の復号装置。
  4. 前記選択部は、ビットストリームを構成する複数の前記オーディオエレメントのうちのいくつかの前記オーディオエレメントを、1つの前記組み合わせとして選択する
    請求項1に記載の復号装置。
  5. 前記選択部は、前記ビットストリームのメタデータに基づいて1つの前記組み合わせを選択する
    請求項4に記載の復号装置。
  6. 前記選択部は、前記メタデータとして、予め定められた複数の前記組み合わせを示す情報、および前記オーディオエレメントの優先度情報のうちの少なくとも何れか一方に基づいて、1つの前記組み合わせを選択する
    請求項5に記載の復号装置。
  7. 前記ビットストリームから、前記選択部により選択された前記組み合わせの前記オーディオエレメントを抽出する抽出部をさらに備える
    請求項4に記載の復号装置。
  8. 前記選択部により選択された前記組み合わせの前記オーディオエレメントを受信する通信部をさらに備える
    請求項4に記載の復号装置。
  9. デコード対象として選択されなかった前記オーディオエレメントのサイズに基づいて、前記生成部によりデコードされる前記オーディオエレメントのバッファへの格納を制御するバッファ制御部をさらに備える
    請求項5に記載の復号装置。
  10. 前記選択部は、選択した前記組み合わせを構成する前記オーディオエレメントのなかから、デコード対象としない前記オーディオエレメントをさらに選択し、
    前記バッファ制御部は、前記選択部により選択された前記デコード対象としない前記オーディオエレメントのサイズに基づいて、前記選択部により選択された前記組み合わせを構成する、前記デコード対象としない前記オーディオエレメント以外の前記オーディオエレメントの前記バッファへの格納を制御する
    請求項9に記載の復号装置。
  11. 前記選択部は、前記オーディオエレメントの優先度情報に基づいて、前記デコード対象としない前記オーディオエレメントを選択する
    請求項10に記載の復号装置。
  12. オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択し、
    選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する
    ステップを含む復号方法。
  13. オーディオエレメントの組み合わせごとに定まる、前記組み合わせの前記オーディオエレメントのデコードに必要なバッファサイズに基づいて、前記オーディオエレメントの1つの前記組み合わせを選択し、
    選択された前記組み合わせの前記オーディオエレメントをデコードしてオーディオ信号を生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2014130898A 2014-06-26 2014-06-26 復号装置および方法、並びにプログラム Active JP6432180B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2014130898A JP6432180B2 (ja) 2014-06-26 2014-06-26 復号装置および方法、並びにプログラム
EP15734263.5A EP3161824A1 (en) 2014-06-26 2015-06-16 Decoding device, decoding method, and program
KR1020167034152A KR20170021777A (ko) 2014-06-26 2015-06-16 복호 장치 및 방법, 및 프로그램
TW104119404A TWI652670B (zh) 2014-06-26 2015-06-16 解碼裝置、解碼方法及程式
CN201580032910.0A CN106463139B (zh) 2014-06-26 2015-06-16 解码装置、解码方法和程序
PCT/JP2015/002992 WO2015198556A1 (en) 2014-06-26 2015-06-16 Decoding device, decoding method, and program
US15/319,855 US10573325B2 (en) 2014-06-26 2015-06-16 Decoding device, decoding method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014130898A JP6432180B2 (ja) 2014-06-26 2014-06-26 復号装置および方法、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2016010090A true JP2016010090A (ja) 2016-01-18
JP2016010090A5 JP2016010090A5 (ja) 2017-03-16
JP6432180B2 JP6432180B2 (ja) 2018-12-05

Family

ID=53510958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014130898A Active JP6432180B2 (ja) 2014-06-26 2014-06-26 復号装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US10573325B2 (ja)
EP (1) EP3161824A1 (ja)
JP (1) JP6432180B2 (ja)
KR (1) KR20170021777A (ja)
CN (1) CN106463139B (ja)
TW (1) TWI652670B (ja)
WO (1) WO2015198556A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019130763A1 (ja) * 2017-12-28 2019-07-04 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2019132898A (ru) * 2017-04-26 2021-04-19 Сони Корпорейшн Способ и устройство для обработки сигнала и программа
CN111081226B (zh) * 2018-10-18 2024-02-13 北京搜狗科技发展有限公司 语音识别解码优化方法及装置
CN109814406B (zh) * 2019-01-24 2021-12-24 成都戴瑞斯智控科技有限公司 一种轨道模型电控仿真系统的数据处理方法及解码器架构
CN112118481B (zh) * 2020-09-18 2021-11-23 珠海格力电器股份有限公司 一种音频片段生成方法、装置、播放器及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134294A (ja) * 1999-11-10 2001-05-18 Toshiba Corp オーディオ信号のビットストリームの処理方法及び処理装置
JP2002156998A (ja) * 2000-11-16 2002-05-31 Toshiba Corp オーディオ信号のビットストリーム処理方法、この処理方法を記録した記録媒体、及び処理装置
JP2004165776A (ja) * 2002-11-11 2004-06-10 Nippon Telegr & Teleph Corp <Ntt> 符号送信方法、符号受信方法、これらの装置及びその各プログラム
JP2005031289A (ja) * 2003-07-10 2005-02-03 Canon Inc 音声情報処理装置、プロセッサ負荷軽減方法、プログラム、及び記憶媒体
JP2012042972A (ja) * 2004-02-06 2012-03-01 Sony Corp 情報処理装置、情報処理方法、プログラム、データ構造、および記録媒体
US20120230497A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
WO2014007094A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
US6885992B2 (en) * 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
KR100390841B1 (ko) * 2001-03-27 2003-07-10 주식회사 하이닉스반도체 피아이디 검출을 고속화하기 위한 피아이디 저장 및 비교장치 및 방법
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US20050096918A1 (en) * 2003-10-31 2005-05-05 Arun Rao Reduction of memory requirements by overlaying buffers
US7929600B2 (en) * 2004-07-02 2011-04-19 Nippon Telegraph And Telephone Corporation Multi-channel signal encoding method, decoding method, device thereof, program, and recording medium thereof
US8264960B2 (en) * 2005-05-31 2012-09-11 Broadcom Corporation Method and system for sharing AV/record resources in a programmable transport demultiplexer and PVR engine
US7810017B2 (en) * 2006-03-20 2010-10-05 Micron Technology, Inc. Variable sector-count ECC
CN101059958B (zh) * 2007-03-15 2010-12-15 上海交通大学 利用缓存来加快量化数据取得的编码和解码方法
EP2186089B1 (en) * 2007-08-27 2018-10-03 Telefonaktiebolaget LM Ericsson (publ) Method and device for perceptual spectral decoding of an audio signal including filling of spectral holes
JP4477056B2 (ja) * 2007-12-05 2010-06-09 株式会社東芝 受信装置および受信方法
WO2009095839A1 (en) * 2008-01-28 2009-08-06 Nxp B.V. Device and method for decoding digital tv broadcast
CN101442586B (zh) * 2008-12-31 2012-06-27 中兴通讯股份有限公司 一种多媒体播放方法及播放终端
JP5358270B2 (ja) * 2009-04-28 2013-12-04 パナソニック株式会社 デジタル信号再生装置及びデジタル信号圧縮装置
KR20120062758A (ko) * 2009-08-14 2012-06-14 에스알에스 랩스, 인크. 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
CN102184739B (zh) * 2011-03-08 2012-11-07 深圳英飞拓科技股份有限公司 一种录像播放装置及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134294A (ja) * 1999-11-10 2001-05-18 Toshiba Corp オーディオ信号のビットストリームの処理方法及び処理装置
JP2002156998A (ja) * 2000-11-16 2002-05-31 Toshiba Corp オーディオ信号のビットストリーム処理方法、この処理方法を記録した記録媒体、及び処理装置
JP2004165776A (ja) * 2002-11-11 2004-06-10 Nippon Telegr & Teleph Corp <Ntt> 符号送信方法、符号受信方法、これらの装置及びその各プログラム
JP2005031289A (ja) * 2003-07-10 2005-02-03 Canon Inc 音声情報処理装置、プロセッサ負荷軽減方法、プログラム、及び記憶媒体
JP2012042972A (ja) * 2004-02-06 2012-03-01 Sony Corp 情報処理装置、情報処理方法、プログラム、データ構造、および記録媒体
US20120230497A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
WO2014007094A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019130763A1 (ja) * 2017-12-28 2019-07-04 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JPWO2019130763A1 (ja) * 2017-12-28 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP7226335B2 (ja) 2017-12-28 2023-02-21 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
CN106463139A (zh) 2017-02-22
US20170140763A1 (en) 2017-05-18
TWI652670B (zh) 2019-03-01
TW201610987A (zh) 2016-03-16
US10573325B2 (en) 2020-02-25
JP6432180B2 (ja) 2018-12-05
CN106463139B (zh) 2021-03-12
KR20170021777A (ko) 2017-02-28
EP3161824A1 (en) 2017-05-03
WO2015198556A1 (en) 2015-12-30

Similar Documents

Publication Publication Date Title
US20210326378A1 (en) Information processing apparatus and information processing method
US9984692B2 (en) Post-encoding bitrate reduction of multiple object audio
US11537562B2 (en) Auxiliary manifest file to provide timed metadata
JP6432180B2 (ja) 復号装置および方法、並びにプログラム
US9538183B2 (en) Audio-visual content delivery with partial encoding of content chunks
EP4013042A1 (en) Information processing device, reproduction processing device, and information processing method
JP7288760B2 (ja) インタラクティブなオーディオメタデータの操作
US11595056B2 (en) Encoding device and method, decoding device and method, and program
JP2023526136A (ja) 効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181022

R151 Written notification of patent or utility model registration

Ref document number: 6432180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151