JP7358986B2 - 復号装置および方法、並びにプログラム - Google Patents

復号装置および方法、並びにプログラム Download PDF

Info

Publication number
JP7358986B2
JP7358986B2 JP2019546624A JP2019546624A JP7358986B2 JP 7358986 B2 JP7358986 B2 JP 7358986B2 JP 2019546624 A JP2019546624 A JP 2019546624A JP 2019546624 A JP2019546624 A JP 2019546624A JP 7358986 B2 JP7358986 B2 JP 7358986B2
Authority
JP
Japan
Prior art keywords
audio
metadata
frame
data
aac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019546624A
Other languages
English (en)
Other versions
JPWO2019069710A1 (ja
Inventor
光行 畠中
徹 知念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019069710A1 publication Critical patent/JPWO2019069710A1/ja
Application granted granted Critical
Publication of JP7358986B2 publication Critical patent/JP7358986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本技術は、復号装置および方法、並びにプログラムに関し、特に、利便性を向上させることができるようにした復号装置および方法、並びにプログラムに関する。
従来、AAC(Advanced Audio Coding)やMP3(Moving Picture Experts Group 2 Audio Layer 3)などのオーディオ符号化技術が知られている(例えば、非特許文献1および非特許文献2参照)。
これらのAACやMP3などのオーディオ符号化技術は、音楽配信をはじめとする様々な用途で使用されており、音質面や実装面での実績がある。
ISO/IEC 14496-3:2009 Information technology -- Coding of audio-visual objects -- Part 3: Audio ISO/IEC 11172-3:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 3: Audio
しかしながら、これらのオーディオ符号化技術、すなわち従来のオーディオ符号化規格はチャンネルベースのオーディオデータを扱うことを前提とした符号化技術となっている。
そのため、3次元オーディオ(3D Audio)の再生に用いられるオブジェクトオーディオデータや、各オブジェクトオーディオデータの位置情報等を含む3D Audioメタデータをそのまま符号化することはできなかった。
このようなことから、上述のオーディオ符号化規格を3D Audioで利用するために従来規格との互換性を維持しながらの規格の拡張が望まれている。
本技術は、このような状況に鑑みてなされたものであり、利便性を向上させることができるようにするものである。
本技術の一側面の復号装置は、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームにおける任意のデータを格納可能な複数のフレームの領域のそれぞれから、前記オブジェクトオーディオのメタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る復号部と、前記メタデータに基づいて、復号された前記オーディオデータを出力し、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記データから得られた前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する出力部とを備える。
本技術の一側面の復号方法またはプログラムは、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームにおける任意のデータを格納可能な複数のフレームの領域のそれぞれから、前記オブジェクトオーディオのメタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得て、前記メタデータに基づいて、復号された前記オーディオデータを出力し、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記データから得られた前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力するステップを含む。
本技術の一側面においては、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータが復号されるとともに、前記符号化ビットストリームにおける任意のデータを格納可能な複数のフレームの領域のそれぞれから、前記オブジェクトオーディオのメタデータを分割して得られた複数のデータのそれぞれが読み出され、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータが得られ、前記メタデータに基づいて、復号された前記オーディオデータが出力される。また、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記データから得られた前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータが出力される。
本技術の一側面によれば、利便性を向上させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
本技術について説明する図である。 AACビットストリームについて説明する図である。 符号化装置の構成例を示す図である。 復号装置の構成例を示す図である。 3D AACビットストリームの構成例を示す図である。 3D Audioメタデータの適用について説明する図である。 外部取得3D Audioメタデータの使用について説明する図である。 オーディオオブジェクトの位置情報について説明する図である。 オーディオオブジェクトの位置情報について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 3D Audioメタデータの分割伝送について説明する図である。 3D Audioメタデータの分割伝送について説明する図である。 3D Audioメタデータの分割伝送について説明する図である。 フレーム内DSE分割情報について説明する図である。 フレーム分割情報について説明する図である。 分割情報について説明する図である。 3D Audioメタデータの複数フレームでの分割について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、もともとは3D Audio、すなわちオブジェクトオーディオデータを取り扱うことが想定されていないAACやMP3などの符号化方式を用いても、オブジェクトオーディオデータや3D Audioメタデータを符号化して伝送し、復号側において3D Audio再生を実現できるようにすることで、利便性を向上させるものである。
本技術は、特に以下のような特徴を有している。
特徴(1)
3D Audioに対応していないAAC等のコーデックにおいてアンシラリーデータ領域に3D Audioのレンダリングに必要な3D Audioメタデータを格納する
特徴(2)
3D Audioメタデータが1つのアンシラリーデータ領域に収まらない場合には、複数のアンシラリーデータ領域に3D Audioメタデータを格納する
特徴(3)
3D Audioメタデータが間欠的に存在する場合には、再生対象のフレームに対して、既に取得された3D Audioメタデータのうちの最後に得られたものを適用する
特徴(4)
3D Audioのオーディオデータの構成に関する情報をコーデック層のコメントフィールドに記述することで、従来のコーデック(符号化)規格を維持したままオーディオデータを伝送する
特徴(5)
3D Audioメタデータが1つのフレームのアンシラリーデータ領域に収まらない場合には、複数のフレームに跨って3D Audioメタデータを伝送する。その際、符号化装置側では、本来のフレームごとに格納すべき3D Audioメタデータの間引き処理を行い、複数フレームの3D Audioメタデータの代表値を伝送する
特徴(6)
3D Audioのチャンネルマッピングを可能な限り既存のチャンネルマッピングに割り当てて、そのチャンネルマッピングを示す情報をビットストリームに格納し、伝送する
以上のような特徴を有する本技術では、AACやMP3などの既存の符号化技術を用いて、その符号化技術の互換性を保ったまま3D Audioの再生を実現することができる。
具体的には、例えば3D Audioでは、3次元空間上の任意の位置にオーディオオブジェクト等の音源の音像を定位させることができる。
このような3D Audioでは、オーディオオブジェクトのオーディオデータ、すなわちオブジェクトベースのオーディオデータや、チャンネルベースのオーディオデータなどからなるオーディオエレメントに加え、3D Audioメタデータが必要になる。
ここで、3D Audioメタデータは、例えばオーディオオブジェクトの3次元空間上の位置を示す位置情報や、オーディオオブジェクトのオーディオデータのゲイン調整に用いるゲイン情報などを含むデータである。
しかし、AACやMP3などの符号化方式では、もともと、このような3D Audioメタデータを取り扱うことは想定されていないため、そのままでは3D Audioメタデータを符号化し、伝送することができない。
そこで本技術では、図1の矢印Q11に示すように、オーディオデータが格納される符号化ビットストリームに設けられた拡張領域に、符号化された3D Audioメタデータを格納するようにした。
これにより、3D Audioに対応していない符号化方式の符号化ビットストリームでも、3D Audioメタデータを伝送し、3D Audioの再生を行うことができるようになる。
ここで、3D Audioメタデータが格納される拡張領域は、既存符号化技術で定義されている、使用者が独自のルールで自由なデータを記録することが許される領域、つまり任意のデータを格納可能な領域であり、アンシラリーデータ領域とも呼ばれている。
具体的には、例えば本技術をAAC符号化技術に適用する場合、矢印Q12に示すように符号化ビットストリームであるAACビットストリームには、矢印Q11に示した例の拡張領域に対応する領域として、DSE(Data Stream Element)が設けられている。そこで、AAC符号化方式によりオーディオデータが符号化されるときには、符号化された3D AudioメタデータがアンシラリーデータとしてDSEに格納される。
例えば矢印Q12に示すAACビットストリームを受信した復号装置が、3D Audio、つまり3D Audioメタデータに対応している場合には、その復号装置はAACビットストリームから3D Audioメタデータを読み出して復号し、3D Audioの再生に用いることができる。
これに対して、3D Audioメタデータに非対応の復号装置は、DSEに記述されたアンシラリーデータとしての3D Audioメタデータを解釈することはできない。
しかし復号装置では、AAC規格で定義されている、DSEに記録されたアンシラリーデータのデータサイズを示すデータサイズ情報を得ることができる。したがって、復号装置は、そのデータサイズ情報を用いてDSE内の3D Audioメタデータの部分を読み飛ばすことができ、AAC規格との互換性を維持することができる。
また、本技術をMP3に適用する場合には、矢印Q13に示すように符号化ビットストリームであるMP3ビットストリームには、矢印Q11に示した例の拡張領域に対応する領域として、アンシラリーデータ領域が設けられている。そこで、MP3符号化方式によりオーディオデータが符号化されるときには、符号化された3D Audioメタデータが、アンシラリーデータとしてアンシラリーデータ領域に格納される。
それでは以下、本技術についてさらに詳細に説明する。以下では、説明を具体的にするため、本技術をAAC規格に適用した例、つまりAAC符号化技術を用いて、AAC規格の互換性を維持したまま3D Audioの再生を行う例について説明する。
本技術をAAC規格に適用した場合、AACビットストリーム、つまりAACに従ってオーディオデータを符号化することで得られた符号化ビットストリームは、図2に示す構成となる。
すなわち、AACビットストリームにはPCE(Program Config Element)およびDSEが設けられているとともに、再生に用いられるオーディオデータからなるAACオーディオエレメントデータが格納されている。
例えばAACオーディオエレメントデータには、3D Audioの再生を実現するためのオーディオデータとして、オーディオオブジェクトのオーディオデータ、チャンネルベースのオーディオデータ、およびHOA(High Order Ambisonic)ベースのオーディオデータの少なくとも何れかが含まれている。
ここで、オーディオオブジェクトのオーディオデータ、つまりオブジェクトベースのオーディオデータとは、いわゆるオブジェクトオーディオであり、オーディオオブジェクトの音を再生するためのオーディオ信号である。また、チャンネルベースのオーディオデータは、例えば5.1チャンネルや22.2チャンネルなどの所定のチャンネル構成の各チャンネルのオーディオ信号、つまり各チャンネルに対応するスピーカで再生される音のオーディオ信号である。
さらに、HOAベースのオーディオデータとは、アンビソニック形式のオーディオ信号である。すなわち、HOAベースのオーディオデータは、チャンネルベースのオーディオ信号をアンビソニック形式で表現したものである。なお、以下、HOAベースのオーディオデータを、アンビソニックベースのオーディオデータとも称することとする。
以下では、オーディオオブジェクトのオーディオデータ、チャンネルベースのオーディオデータ、およびアンビソニックベースのオーディオデータを特に区別する必要のない場合、単にオーディオデータとも称することとする。
AACビットストリームのPCEにおける任意のデータを格納可能なコメントフィールドには、AACオーディオエレメントデータの構成要素を示す3D Audio構成要素情報が格納される。ここでは、3D Audio構成要素情報は、AACオーディオエレメントデータを構成するチャンネルベースのオーディオデータの数であるチャンネルベース数、オーディオオブジェクトのオーディオデータの数であるオブジェクトオーディオ数、およびアンビソニックベースのオーディオデータの数であるHOAオーディオ数を示す情報となっている。
さらに、AACビットストリームのDSEには、AACオーディオエレメントデータを構成するオーディオデータのメタデータである3D Audioメタデータがアンシラリーデータとして格納される。
ここでは、3D Audioメタデータとして、チャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータが含まれている。
例えばチャンネルベースメタデータは、チャンネルベースのオーディオデータのメタデータであり、チャンネルベースの各オーディオデータがどのチャンネルのものであるかを示す対応チャンネル情報などからなる。
また、オブジェクトベースメタデータは、オーディオオブジェクトのオーディオデータのメタデータであり、オーディオオブジェクトの数を示すオブジェクト数情報や、各オーディオオブジェクトの3次元空間上の位置を示す位置情報、各オーディオオブジェクトのオーディオデータに乗算されるゲインを示すゲイン情報などからなる。
さらに、アンビソニックベースメタデータは、アンビソニックベースのオーディオデータのメタデータであり、アンビソニックの次数やモードを示す情報などからなる。
なお、以下では、本技術を適用して得られたAACビットストリーム、つまりAACをベースとした、3D Audioメタデータが格納される符号化ビットストリームを、特に3D AACビットストリームとも称することとする。
〈符号化装置の構成例〉
続いて、以上において説明した3D AACビットストリームを生成する符号化装置と、その符号化装置から出力された3D AACビットストリームを受信して復号する復号装置について説明する。
図3は、本技術を適用した符号化装置の構成例を示す図である。
図3に示す符号化装置11は、3D Audioメタデータ符号化部21、およびAAC符号化部22を有している。
符号化装置11では、外部から3D Audioメタデータ符号化部21には、チャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータが3D Audioメタデータとして供給される。
また、外部からAAC符号化部22には、オーディオオブジェクトのオーディオデータ(オブジェクトオーディオ)や、チャンネルベースのオーディオデータ、アンビソニックベースのオーディオデータなどの各種のオーディオデータ、および3D Audio構成要素情報が供給される。ここでは、各オーディオデータは、コンテンツを再生するためのPCM(Pulse Code Modulation)信号となっており、外部からAAC符号化部22には、少なくともオブジェクトオーディオを含む1または複数のオーディオデータが供給されるものとする。
3D Audioメタデータ符号化部21は、外部から供給された3D Audioメタデータを符号化し、符号化された3D AudioメタデータをAAC符号化部22に供給する。以下では、3D Audioメタデータ符号化部21により符号化された3D Audioメタデータを、符号化3D Audioメタデータとも称することとする。
AAC符号化部22は、3D Audioメタデータ符号化部21から供給された符号化3D Audioメタデータと、外部から供給された3D Audio構成要素情報およびオーディオデータとをAAC符号化方式で符号化して3D AACビットストリームを生成し、出力する。
ここでは、AAC符号化部22に供給されるオーディオデータはPCM信号となっているため、それらのオーディオデータをAAC規格のAACオーディオエレメントデータとして符号化することが可能である。
なお、外部からAAC符号化部22に3D Audio構成要素情報が供給されるのではなく、AAC符号化部22が3D Audioメタデータ符号化部21から必要な情報の供給を受けて、その情報に基づいて3D Audio構成要素情報を生成するようにしてもよい。
〈復号装置の構成例〉
次に、図3に示した符号化装置11から出力された3D AACビットストリームを受信して復号する復号装置の構成について説明する。そのような復号装置は、例えば図4に示すように構成される。
図4に示す復号装置51は、AAC復号部61、3D Audioメタデータ復号部62、3D Audioメタデータ取得部63、および3D Audioレンダラ64を有している。
AAC復号部61は、符号化装置11から送信されてきた3D AACビットストリームを受信し、受信した3D AACビットストリームを復号する。
AAC復号部61は、3D AACビットストリームの復号により得られた符号化3D Audioメタデータを3D Audioメタデータ復号部62に供給するとともに、復号により得られたオーディオデータ、すなわちPCM信号を3D Audioレンダラ64に供給する。
ここで、AAC復号部61から3D Audioレンダラ64に供給されるオーディオデータは、オーディオオブジェクトのオーディオデータ(オブジェクトオーディオデータ)や、チャンネルベースのオーディオデータ、アンビソニックベースのオーディオデータなどである。
また、AAC復号部61は、復号により得られた3D Audio構成要素情報を、適宜、復号装置51を制御する上位の制御部に供給する。
3D Audioメタデータ復号部62は、AAC復号部61から供給された符号化3D Audioメタデータを復号し、その結果得られた3D Audioメタデータとしてのチャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータを3D Audioレンダラ64に供給する。
3D Audioメタデータ取得部63は、適宜、外部から必要な情報を取得して3D Audioメタデータを生成したり、外部のサーバ等から3D Audioメタデータを受信したりすることで3D Audioメタデータを取得し、3D Audioレンダラ64に供給する。
3D Audioレンダラ64は、レンダリング処理を行って3D Audio再生のための再生データを生成するとともに、得られた再生データを出力する出力部、すなわち3D Audioメタデータに基づいて、復号されたオーディオデータを出力する出力部として機能する。
具体的には、3D Audioレンダラ64は、3D Audioメタデータ復号部62または3D Audioメタデータ取得部63から供給された3D Audioメタデータと、AAC復号部61から供給されたオーディオデータとに基づいてレンダリングを行い、所定チャンネル数のオーディオデータを再生データとして生成する。
再生データは、例えば2チャンネルや5.1チャンネルなどの所定のチャンネル構成の各チャンネルのオーディオデータからなる、3D Audio再生を実現するためのオーディオ信号である。この再生データに基づいて音を再生すれば、例えばオーディオオブジェクトの音の音像を、そのオーディオオブジェクトの3D Audioメタデータに含まれている位置情報により示される3次元空間上の位置に定位させることができる。
3D Audioレンダラ64は、得られた再生データを外部に出力する。例えば3D Audioレンダラ64は、再生データをスピーカに供給して音を再生させたり、再生データを図示せぬ記録部に供給して記録させたりする。
〈3D AACビットストリームの構成例〉
ここで、以上のような符号化装置11と復号装置51との間で授受される3D AACビットストリームの具体的な構成例について説明する。
例えばAACオーディオエレメントデータが、7.1チャンネルのチャンネルベースのオーディオデータと、2つのオーディオオブジェクトのオーディオデータと、アンビソニックベースの1次アンビソニックのオーディオデータとから構成されるとする。
そのような場合、3D AACビットストリームは、例えば図5に示すように構成される。この例では、オーディオデータの1フレーム分の3D AACビットストリームの先頭には、PCEとDSEが配置されている。そして、PCEには3D Audio構成要素情報が格納されており、DSEには符号化された3D Audioメタデータが格納されている。
また、DSEに続いて1つのSCE(Single Channel Element)、3つのCPE(Channel Pair Element)、および1つのLFE(Low Frequency Effects)が配置されている。そして、これらのSCE、CPE、およびLFEに7.1チャンネルのチャンネルベースのオーディオデータが格納されてチャンネルベースオーディオエレメントとされている。
さらに、チャンネルベースオーディオエレメントの後ろには、2つのSCEが配置されており、それらのSCEに2つのオーディオオブジェクトのオーディオデータが格納されてオブジェクトベースオーディオエレメントとされている。
オブジェクトベースオーディオエレメントに続いて、4つのSCEが配置されており、それらのSCEにアンビソニックベースの1次アンビソニックのオーディオデータが格納されてアンビソニックベースオーディオエレメントとされている。
そして、アンビソニックベースオーディオエレメントの後ろ、つまり1フレーム分の3D AACビットストリームの終端にはFILが配置されている。
このように図5に示した例では、AACオーディオエレメントデータは、チャンネルベースオーディオエレメント、オブジェクトベースオーディオエレメント、およびアンビソニックベースオーディオエレメントから構成されている。
なお、AACオーディオエレメントデータは、これらのチャンネルベースオーディオエレメント、オブジェクトベースオーディオエレメント、およびアンビソニックベースオーディオエレメントの少なくとも何れか1つから構成されるようにしてもよい。
〈3D Audioメタデータの伝送について〉
ところで、3D Audioでは基本的にはフレームごとに3D Audioメタデータが伝送される。しかし、例えばオーディオオブジェクトの動きがないフレーム区間など、必ずしも複数のフレームごとに3D Audioメタデータが必要ないときには、3D Audioメタデータをフレームごとに伝送しなくてもよい。
そのような場合、例えば図6に示すように3D Audioメタデータが伝送されなかったフレームでは、そのフレームよりも前のフレームの3D Audioメタデータのうち、時間的に最後に取得された3D Audioメタデータが現フレームのものとして利用される。
図6に示す例では、矢印A11乃至矢印A15により示される四角形のそれぞれがフレームN乃至フレーム(N+4)のそれぞれの3D AACビットストリームを表している。なお、以下では1フレーム分の3D AACビットストリームを、AACフレームデータとも称することとする。
例えばフレームNでは、AACフレームデータに、そのフレームNの3D Audioメタデータが格納されているので、復号装置51では、復号により得られたフレームNの3D Audioメタデータ(以下、3D Audioメタデータ(N)とも記すこととする)が用いられてレンダリングが行われる。
これに対して、次のフレーム(N+1)では、AACフレームデータに3D Audioメタデータが格納されていない。そこで、復号装置51では、最後に取得された、つまり最後に復号により得られたフレームNの3D Audioメタデータ(N)が用いられて、フレーム(N+1)のレンダリングが行われる。
このように現フレームの3D Audioメタデータがない場合には、既に3D AACビットストリームのDSEから読み出されている、現フレームよりも時間的に前のフレームの3D Audioメタデータのうち、最も現フレームに時間的に近いフレームの3D Audioメタデータが、現フレームの3D Audioメタデータとして用いられる。
換言すれば、現フレームよりも前のフレームでDSEから読み出されている3D Audioメタデータのうちの時間的に最後に読み出された3D Audioメタデータが、現フレームの3D Audioメタデータとして用いられ、現フレームのレンダリングが行われる。さらにいえば、結果として、現フレームの3D Audioメタデータがない場合には、その現フレームの直前のフレームで用いられた3D Audioメタデータを、現フレームのものとしても用いることになる。
フレーム(N+1)における場合と同様に、その後のフレーム(N+2)およびフレーム(N+3)においても、それらのフレームでは3D Audioメタデータが格納されていなかったので、最後に得られたフレームNの3D Audioメタデータ(N)が用いられてレンダリングが行われる。
これに対して、フレーム(N+3)に続くフレーム(N+4)では、復号によりそのフレーム(N+4)の3D Audioメタデータ(N+4)が得られるので、その3D Audioメタデータ(N+4)が用いられてレンダリングが行われる。
なお、現フレームにおいてDSEに何も格納されておらず、3D Audioメタデータが格納されていないと判定された場合に、現フレームよりも時間的に前のフレームの3D Audioメタデータを参照するようにすることができる。
この場合、現フレームのDSEに3D Audioメタデータが格納されていないことが、現フレームよりも時間的に前のフレームの3D Audioメタデータの参照の指示を表しているともいうことができる。
その他、DSEに3D Audioメタデータだけでなく、現フレームよりも時間的に前のフレームの3D Audioメタデータを使用(参照)するか否かを示す前フレーム参照フラグも格納するようにしてもよい。
すなわち、前フレーム参照フラグは、現フレームよりも前のフレームでDSEから読み出されている3D Audioメタデータのうちの時間的に最後に読み出された3D Audioメタデータを、現フレームの3D Audioメタデータとして用いるかを指示する情報である。
換言すれば前フレーム参照フラグは、現フレームの3D Audioメタデータとして、現フレームよりも時間的に前のフレームのDSEに格納された3D Audioメタデータのうちの、最も現フレームに近いフレームの3D Audioメタデータを用いるかを指示する情報である。
この場合、例えば前のフレームの3D Audioメタデータを参照する場合には前フレーム参照フラグの値が「1」とされ、DSEには値が1である前フレーム参照フラグのみが記述される。
これに対して、前のフレームの3D Audioメタデータを参照しない場合には前フレーム参照フラグの値が「0」とされ、DSEには値が0である前フレーム参照フラグに続いて3D Audioメタデータが記述される。以下では、DSEに前フレーム参照フラグが格納されるものとして説明を続ける。
また、3D Audioメタデータは、DSE内に格納されるデータであり、AAC符号化規格とは独立したデータとなる。
そのため、3D AACビットストリームを途中から再生する場合、つまりコンテンツを途中から再生する場合、AAC規格のフレーム(オーディオデータ)の復号ができたとしても3D Audioメタデータの復号が完了していないことがある。これは、3D Audioメタデータが差分符号化などにより符号化されている場合には、差分符号化を行わないリセットフレームが出現するまでは差分の起点が不明なことに起因するものである。
また、3D AACビットストリームを途中から再生する場合、いくつかのフレームで3D Audioメタデータが省略されていることもある。
そこで、本技術では現フレームの3D Audioメタデータが得られない場合に、時間的に前のフレームの3D Audioメタデータをそのまま用いる他、復号装置51側で予め保持されている3D Audioメタデータのデフォルト値を用いるようにすることができる。
なお、以下、復号装置51側で予め保持されているデフォルト値など、3D AACビットストリームから読み出された3D Audioメタデータとは異なる他の3D Audioメタデータを、外部取得3D Audioメタデータとも称することとする。
例えば図7に示すように、コンテンツの先頭部分のいくつかのフレームにおいて3D Audioメタデータが得られなかったとする。
図7では、矢印A21乃至矢印A25により示される四角形のそれぞれがフレーム0乃至フレーム4のそれぞれのAACフレームデータを表している。
この例では、先頭のフレーム0から4番目のフレーム3までの間は、AAC規格でのオーディオデータの復号はできたが、3D Audioメタデータの復号ができなかったり、DSEに3D Audioメタデータが格納されていなかったりなどの理由で3D Audioメタデータがない状態となっている。
そこで、3D Audioメタデータ取得部63は、予め定められた初期メタデータ値を外部取得3D Audioメタデータとして取得し、3D Audioレンダラ64に供給する。
例えば初期メタデータ値では、オーディオオブジェクトの位置情報により示される位置は、3次元空間上のユーザの真正面の位置など、予め定められた位置などとなっている。
また、初期メタデータ値の取得時には、例えば3D Audioメタデータ取得部63は、PCEから読み出された3D Audio構成要素情報に基づいて、外部取得3D Audioメタデータとしての初期メタデータ値を取得する。具体的には、例えば3D Audio構成要素情報により示されるオブジェクトオーディオ数に基づいて、オーディオオブジェクトの数だけ位置情報やゲイン情報が取得される。
外部取得3D Audioメタデータを取得する場合、AACオーディオエレメントデータがどのような構成となっているか、すなわちチャンネルベース数やオブジェクトオーディオ数など、オーディオデータの構成を示す情報が必要となる。そのため、例えば符号化装置11において前フレーム参照フラグの値が「1」とされ、3D AudioメタデータがDSEに格納されない場合には、必ずPCEに3D Audio構成要素情報が記述されるようにされる。
3D Audioレンダラ64は、外部取得3D Audioメタデータとしての初期メタデータ値の供給を受けると、フレーム0乃至フレーム3については、供給された初期メタデータ値を用いてレンダリングを行う。そして、フレーム4においてDSEから3D Audioメタデータが読み出されると、フレーム4については、その読み出された3D Audioメタデータに基づいてレンダリングが行われる。
このように、コンテンツの先頭部分や途中の部分など、長時間、DSEから3D Audioメタデータが得られなかった場合には、3D Audio構成要素情報等に基づいて取得した外部取得3D Audioメタデータを用いれば、さしあたり3D Audioの再生を行うことができる。
例えば符号化装置11側では、オブジェクトに動きがない場合など、複数のフレームにわたって3D Audioメタデータに変化がないときには、前フレーム参照フラグの値が「1」とされ、ある程度長い期間、3D Audioメタデータが伝送されないこともある。そのような場合に、復号装置51側において参照先とされる3D Audioメタデータが何らかの理由により得られなかったときには、外部取得3D Audioメタデータを利用することで、3D Audioの再生を行うことができる。
なお、外部取得3D Audioメタデータを用いる場合、その後、DSEから読み出された3D Audioメタデータを用いるときに、急に3D Audioメタデータが外部等から取得したものから、DSEから読み出されたものへと変化すると、オーディオオブジェクトの位置が不連続となるなど、違和感が生じてしまうこともある。そこで、例えば数フレームの間は、最後に用いた外部取得3D Audioメタデータと、DSEから読み出された3D Audioメタデータとに基づいて補間処理を行い、補間処理により得られた3D Audioメタデータが使用されるようにすることで、スムーズにオーディオオブジェクトの位置等が遷移するようにしてもよい。
また、外部取得3D Audioメタデータは、外部から取得した情報等に基づいて3D Audioメタデータ取得部63により生成される他、ネットワークを介してサーバから取得されたり、3D AACビットストリームとは別に符号化装置11から取得されたりするなど、どのようにして取得されるようにしてもよい。また、コンテンツごとに、各再生時刻の外部取得3D Audioメタデータが予め用意されており、コンテンツの再生時刻に応じて適切な外部取得3D Audioメタデータが取得されるなどしてもよい。
さらに、ユーザの指示等により3D Audioメタデータが変更されるようにしてもよい。一例として、例えばネットワーク型の対戦ゲームなど、インタラクティブに複数のユーザにより共有されて再生されるコンテンツについては、復号装置51におけるユーザ操作だけでなく、他のユーザの操作等も考慮されて3D Audioメタデータが変更されるようにすることができる。
上述したように、外部取得3D Audioメタデータが取得される場合、AAC符号化方式で符号化されたAACオーディオエレメントデータが、チャンネルベースのものであるか、オブジェクトベースのものであるか、アンビソニックベースのものであるかなど、オーディオデータの種別を識別する識別情報が必要となる。換言すれば、AACオーディオエレメントデータの構成を示す構成情報が必要となる。このような情報は、3D Audioメタデータを復号しなくても取得できなければならない。
そこで、本技術では、図2を参照して説明したように、オーディオデータの種別を識別する情報、つまりAACオーディオエレメントデータの構成を示す情報として、3D Audio構成要素情報がPCEのコメントフィールドに格納されている。なお、3D Audio構成要素情報により示される情報は、3D Audioメタデータにも含まれている。
PCEのコメントフィールドに3D Audio構成要素情報を格納することで、復号装置51では、AAC復号部61におけるAAC規格の復号処理の中で3D Audio構成要素情報を得ることができる。またPCEは、MPEG-4 File Format層でも独立に使用されるものとなるため、3D Audio構成要素情報のPCEへの格納には、システム層からも3D Audio構成要素情報を取得できるという利点がある。
なお、PCEのコメントフィールドについても、DSEにおける場合と同様に、本技術に対応していない復号装置はAAC規格で記録されたコメントフィールドのバイト数を読み飛ばすことができるので、AAC規格の互換性を維持することができる。
〈2次元平面上の位置情報の伝送について〉
ところで、AAC規格では、各オーディオエレメント、つまり各オーディオデータのスピーカ配置情報を、PCEにおいて前方位置(FRONT)、横位置(SIDE)、または後方位置(BACK)という2次元平面上の位置情報として記録することができる。すなわち、前方、後方、および側方の各方向のうちの何れの方向にオーディオデータを再生するスピーカがあるかを示すスピーカ配置情報をPCEに格納することが可能である。
一方で、3D AACビットストリームでは各オーディオオブジェクト、すなわちオブジェクトベースのオーディオデータの位置情報として、オーディオオブジェクトの平面方向の位置を示す角度と、高さ方向の位置を示す角度とが3D Audioメタデータに含まれている。
本技術では、エレメント個数の上限(制限)はあるが、可能な限り平面方向の角度に合わせてオーディオオブジェクトの位置に対応するスピーカ配置情報をPCEに記述するようにしてもよい。
具体的には、例えば図8に示すようにオーディオオブジェクトとして4つのオーディオオブジェクトEL11乃至オーディオオブジェクトEL14があるとする。
図8では、図中、手前側が視聴者であるユーザU11の正面の方向、つまり前方方向であり、図中、奥側がユーザU11の後方となっている。
この例では、オーディオオブジェクトEL11がユーザU11の前方上側に位置しており、オーディオオブジェクトEL12がユーザU11の前方右上に位置している。また、オーディオオブジェクトEL13がユーザU11の後方上側に位置しており、オーディオオブジェクトEL14がユーザU11の左側方上側に位置している。
このような場合、符号化装置11では、オーディオオブジェクトEL11とオーディオオブジェクトEL12が前方に位置する前方位置オーディオエレメントとされる。そして、それらのオーディオオブジェクトのスピーカ配置情報として前方位置を示す情報がPCEに記述される。
すなわち、オーディオオブジェクトEL11とオーディオオブジェクトEL12の3次元空間上の位置が、2次元平面上の前方位置にマッピングし直される。そして、そのマッピング結果に応じて、PCEには、それらのオーディオオブジェクトの位置情報、つまりスピーカ配置情報として前方位置を示す情報が記述される。
また、オーディオオブジェクトEL13が、後方に位置する後方位置オーディオエレメントとされ、そのオーディオオブジェクトEL13の2次元平面上の位置である後方位置を示す情報がスピーカ配置情報としてPCEに記述される。
同様に、オーディオオブジェクトEL14が、側方に位置する横位置オーディオエレメントとされ、そのオーディオオブジェクトEL14の2次元平面上の位置である横位置を示す情報がスピーカ配置情報としてPCEに記述される。
このようなスピーカ配置情報は、オーディオオブジェクトのオーディオデータを出力すべきスピーカを示す情報、つまりオーディオオブジェクトに対応するスピーカ配置に関する情報である。換言すれば、スピーカ配置情報は、各オーディオオブジェクトのオーディオデータがどのチャンネルのものであるか、つまりオーディオオブジェクトのチャンネルマッピングを示す情報である。
このようなスピーカ配置情報は、オーディオオブジェクトの2次元平面上の位置を示す位置情報であるともいうことができる。以下では、このようなスピーカ配置情報を、オーディオオブジェクトの2次元平面上の位置を示す位置情報とも称することとする。
このようにPCEに各オーディオオブジェクトの2次元平面上の位置情報を記述することで、復号装置51が3D Audioに対応していないなど、何らかの理由で復号装置51において3D Audioメタデータを利用することができなくても、各オーディオオブジェクトの2次元平面上の位置は特定することができる。
したがって、例えば図9に示すように、PCEに記述された2次元平面上の位置情報から、各オーディオオブジェクトの音像を2次元平面上における正しい位置に定位させることができる。なお、図9において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
この例では、復号装置51では、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の2次元平面上の位置を示す位置情報(スピーカ配置情報)をPCEから読み出すことで、それらの位置情報により示される位置に各オーディオオブジェクトを配置することができる。
すなわち、高さ方向の情報を得ることはできないが、3D Audioのチャンネルマッピングを可能な限り既存のチャンネルマッピングに割り当てることができる。これにより、オブジェクトベースのオーディオエレメントデータに基づく音を、オーディオオブジェクトの平面上におけるおおよその位置にあるスピーカから出力することができる。
図9に示す例では、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の高さはもとの高さとは異なり、ユーザU11の頭部の高さとなっている。しかし、オーディオオブジェクトEL11およびオーディオオブジェクトEL12はユーザU11の前方に配置されており、オーディオオブジェクトEL13はユーザU11の後方に配置されており、オーディオオブジェクトEL14はユーザU11の左側方に配置されている。
このように、2次元平面上の位置を示す位置情報を用いれば、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の音の音像を、もともとの方向と略同じ方向の位置に定位させることが可能である。
〈符号化処理の説明〉
続いて、符号化装置11および復号装置51の動作について説明する。
まず、図10のフローチャートを参照して、符号化装置11による符号化処理について説明する。この符号化処理は、符号化すべきオーディオデータが供給されると開始される。
ステップS11において、3D Audioメタデータ符号化部21は、処理対象とする現フレームについて、伝送すべき3D Audioメタデータがあるか否かを判定する。
例えば外部から3D Audioメタデータが供給された場合、伝送すべき3D Audioメタデータがあると判定される。なお、例えば処理対象の現フレームとその直前のフレームとで3D Audioメタデータに変化がない場合など、前のフレームの3D Audioメタデータを参照させるときには、処理対象の現フレームの3D Audioメタデータは供給されない。
ステップS11において、伝送すべき3D Audioメタデータがあると判定された場合、ステップS12において3D Audioメタデータ符号化部21は、外部から供給された3D Audioメタデータを符号化する3D Audioメタデータ符号化処理を行う。そして、3D Audioメタデータ符号化部21は、3D Audioメタデータ符号化処理により得られた符号化3D AudioメタデータをAAC符号化部22に供給する。
ステップS13において、AAC符号化部22は3D Audioメタデータ符号化部21から供給された符号化3D Audioメタデータ、前フレーム参照フラグ、および外部から供給されたオーディオデータをAAC符号化し、1フレーム分のAACフレームデータを生成する。
すなわち、AAC符号化部22は、AACフレームデータのDSEに、値が「0」である前フレーム参照フラグを格納した後、その前フレーム参照フラグに続いて符号化3D AudioメタデータをDSEに格納する。
また、AAC符号化部22は、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。
さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報(スピーカ配置情報)もAACフレームデータのPCEに格納する。これにより、例えば図5に示した構成のAACフレームデータが、1フレーム分の3D AACビットストリームとして得られる。
AAC符号化部22は、このようにして得られた1フレーム分の3D AACビットストリームを出力(送信)すると、その後、処理はステップS17へと進む。
一方、ステップS11において、伝送すべき3D Audioメタデータがないと判定された場合、ステップS14においてAAC符号化部22は、復号側において前のフレームの3D Audioメタデータを参照させるか否かを判定する。
ステップS14において前のフレームの3D Audioメタデータを参照させると判定された場合、その後、処理はステップS15へと進む。
ステップS15において、AAC符号化部22は前フレーム参照フラグの値を「1」として、外部から供給されたオーディオデータをAAC符号化する。
すなわち、AAC符号化部22は、AACフレームデータのDSEに、値が「1」である前フレーム参照フラグを格納する。また、AAC符号化部22は、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。
さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
AAC符号化部22は、このようにして得られたAACフレームデータを1フレーム分の3D AACビットストリームとして出力すると、その後、処理はステップS17へと進む。
これに対して、ステップS14において前のフレームの3D Audioメタデータを参照させないと判定された場合、その後、処理はステップS16へと進む。
ステップS16において、AAC符号化部22は前フレーム参照フラグの値を「0」として、外部から供給されたオーディオデータをAAC符号化する。
すなわち、AAC符号化部22は、AACフレームデータのDSEに、値が「0」である前フレーム参照フラグを格納するとともに、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACフレームデータに格納する。なお、以下では、符号化されたオーディオデータを符号化オーディオデータとも称することとする。
さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
AAC符号化部22は、このようにして得られたAACフレームデータを1フレーム分の3D AACビットストリームとして出力すると、その後、処理はステップS17へと進む。
ステップS13の処理、ステップS15の処理、またはステップS16の処理が行われると、その後、ステップS17の処理が行われる。
ステップS17において、符号化装置11は、符号化すべきオーディオデータがあるか否かを判定する。
ステップS17において、まだ符号化すべきオーディオデータがあると判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS17において符号化すべきオーディオデータがない、すなわち伝送するコンテンツのオーディオデータが全て符号化されて出力されたと判定された場合、符号化処理は終了する。
以上のようにして符号化装置11は、3D AudioメタデータをDSEに格納し、3D AACビットストリームを生成する。このようにすることで既存のAAC規格を拡張し、復号側において3D Audioメタデータを利用して3D Audio再生を行うことができるようになる。これにより、利便性を向上させることができる。
また、前フレーム参照フラグを格納することにより、復号側において時間的に前のフレームの3D Audioメタデータを参照することができるので、3D Audioメタデータの分だけ3D AACビットストリームの符号量を削減することができる。
さらに3D AACビットストリームのPCEに、各オーディオオブジェクトの2次元平面上における位置を示す位置情報を記述することで、復号側において3D Audioメタデータを得ることができなくても、各オーディオオブジェクトの音像を2次元平面上の正しい位置に定位させることができる。すなわち、臨場感を損なうことなくオーディオ再生を行うことができる。
〈復号処理の説明〉
次に、図11のフローチャートを参照して、復号装置51により行われる復号処理について説明する。この復号処理は、符号化装置11により送信された3D AACビットストリームが受信されると開始される。
ステップS41において、AAC復号部61は受信した1フレーム分の3D AACビットストリーム、すなわちAACフレームデータに対して、AAC符号化方式に対応する復号方式での復号処理であるAAC復号処理を行う。
すなわち、AAC復号部61は、PCEから3D Audio構成要素情報を読み出して上位の制御部に供給したり、PCEから各オーディオオブジェクトの2次元平面上の位置情報、すなわちスピーカ配置情報を読み出して、直接、または上位の制御部を介して3D Audioレンダラ64に供給したりする。
また、AAC復号部61は、AACフレームデータに格納されている符号化オーディオデータを復号し、その結果得られたPCMデータであるオーディオデータを3D Audioレンダラ64に供給する。
ステップS42において、AAC復号部61は、AACフレームデータのDSEに3D Audioメタデータがあるか否かを判定する。
例えばAAC復号部61は、DSEの先頭に記述された前フレーム参照フラグの値に続いて符号化3D Audioメタデータが記述されている場合、3D Audioメタデータがあると判定する。この場合、前フレーム参照フラグの値は「0」となっている。
ステップS42において3D Audioメタデータがあると判定された場合、AAC復号部61は、DSEから符号化3D Audioメタデータを読み出して3D Audioメタデータ復号部62に供給し、その後、処理はステップS43へと進む。
ステップS43において、3D Audioメタデータ復号部62は、AAC復号部61から供給された符号化3D Audioメタデータを復号し、その結果得られた3D Audioメタデータを3D Audioレンダラ64に供給する。このようにして3D Audioメタデータが得られると、その後、処理はステップS47へと進む。
また、ステップS42において3D Audioメタデータがないと判定された場合、ステップS44においてAAC復号部61は、DSEの先頭に記述されている前フレーム参照フラグの値が「1」であるか否かを判定する。
ステップS44において前フレーム参照フラグの値が「1」でない、つまり前フレーム参照フラグの値が「0」であるがDSEから3D Audioメタデータが得られなかった場合、その後、処理はステップS48へと進む。
これに対して、ステップS44において前フレーム参照フラグの値が「1」であると判定された場合、その後、処理はステップS45へと進む。この場合、DSEには符号化3D Audioメタデータが格納されていない。
ステップS45において、AAC復号部61は、過去の3D Audioメタデータがあるか否かを判定する。すなわち、同じコンテンツ、つまり復号対象の3D AACビットストリームにおける処理対象の現フレームよりも時間的に前のフレームについて、DSEから読み出された3D Audioメタデータがある場合、過去の3D Audioメタデータがあると判定される。
ステップS45において過去の3D Audioメタデータがあると判定された場合、AAC復号部61は、DSEから読み出された3D Audioメタデータがある過去のフレームのうちの現フレームに最も時間的に近いフレームの3D Audioメタデータ、つまり最後に用いられた3D Audioメタデータの出力を3D Audioメタデータ復号部62に指示し、その後、処理はステップS47へと進む。
この場合、3D Audioメタデータ復号部62は、AAC復号部61の指示に従って過去のフレームで用いた3D Audioメタデータを3D Audioレンダラ64に供給する。
具体的には、例えば図6に示した例においてフレーム(N+1)が現フレームであったとすると、3D Audioメタデータ復号部62は、フレームNの3D Audioメタデータ(N)を3D Audioレンダラ64に供給する。
一方、ステップS45において過去の3D Audioメタデータがないと判定された場合、何らかの理由により、3D AACビットストリームから現フレームで用いる3D Audioメタデータが得られなかったので、その後、処理はステップS46へと進む。
ステップS46においてAAC復号部61は、3D AACビットストリーム以外から取得された3D Audioメタデータがあるか否かを判定する。すなわち、3D Audioメタデータ取得部63により取得された外部取得3D Audioメタデータがあるか否かが判定される。
ステップS46において、取得された3D Audioメタデータがないと判定された場合、その後、処理はステップS48へと進む。
また、ステップS46において、取得された3D Audioメタデータがあると判定された場合、AAC復号部61は、取得した3D Audioメタデータの出力を3D Audioメタデータ取得部63に指示し、その後、処理はステップS47へと進む。
この場合、3D Audioメタデータ取得部63は、外部から取得したり自身が生成したりして得られた外部取得3D Audioメタデータを3D Audioレンダラ64に供給する。
ステップS43の処理が行われたか、ステップS45において過去の3D Audioメタデータがあると判定されたか、またはステップS46において取得された3D Audioメタデータがあると判定されると、その後、ステップS47の処理が行われる。
ステップS47において、3D Audioレンダラ64は、3D Audioメタデータ復号部62または3D Audioメタデータ取得部63から供給された3D Audioメタデータと、AAC復号部61から供給されたオーディオデータとに基づいてレンダリングを行う。
そして、3D Audioレンダラ64は、レンダリングにより得られた3D Audio再生を実現するための現フレームの再生データを出力し、その後、処理はステップS49へと進む。
また、ステップS44において前フレーム参照フラグの値が「1」でないと判定されたか、またはステップS46において取得された3D Audioメタデータがないと判定された場合、ステップS48の処理が行われる。
すなわち、ステップS48において3D Audioレンダラ64は、AAC復号部61から供給されたオーディオデータに基づいて、通常のAAC規格により定められたレンダリングを行い、その結果得られた再生データを出力する。
この場合、3D Audioレンダラ64は、適宜、PCEから読み出された各オーディオオブジェクトの2次元平面上の位置情報(スピーカ配置情報)に基づいて、各オーディオオブジェクトの音像が位置情報により示される2次元平面上の位置に定位するように各チャンネルのオーディオデータを再生データとして生成する。これにより、3D Audioメタデータが得られず、オーディオオブジェクト(音源)の高さ方向の音像定位制御を行うことができなくても、各オーディオオブジェクトの音像を2次元平面上の正しい位置に定位させることができる。
このようにして現フレームの再生データが出力されると、その後、処理はステップS49へと進む。
ステップS47の処理またはステップS48の処理が行われて1フレーム分の再生データが出力されると、ステップS49においてAAC復号部61は、復号すべき3D AACビットストリームがあるか否かを判定する。
例えばステップS49では、受信された3D AACビットストリームがまだ全て復号されていない場合、復号すべき3D AACビットストリームがあると判定される。
ステップS49において復号すべき3D AACビットストリームがあると判定された場合、処理はステップS41に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS49において復号すべき3D AACビットストリームがないと判定された場合、復号処理は終了する。
以上のようにして復号装置51は、DSEから3D Audioメタデータを読み出して、読み出した3D Audioメタデータを用いてレンダリングを行う。このようにすることで既存のAAC規格を拡張して3D Audio再生を行うことができ、利便性を向上させることができる。
また、3D AACビットストリームのPCEに、各オーディオオブジェクトの2次元平面上における位置を示す位置情報が記述されているので、3D Audioメタデータを得ることができなくても、各オーディオオブジェクトの音像を2次元平面上の正しい位置に定位させることができる。すなわち、臨場感を損なうことなくオーディオ再生を行うことができる。
〈第2の実施の形態〉
〈3D Audioメタデータの分割伝送について〉
ところで、オーディオオブジェクトの数、すなわちオブジェクトオーディオ数が多いほど、3D Audioメタデータのデータ量(符号量)は多くなる。
そのため、3D Audioメタデータのデータ量が多くなると、3D Audioメタデータのサイズ(データ量)がAAC規格で定義されているDSEの上限サイズを超えてしまうことがある。また、1つのフレームで3D Audioメタデータの格納に必要となるDSEの個数が、AAC規格で定義されているDSEの上限個数を超えてしまうこともある。
そこで、本技術では、3D Audioメタデータのデータ量が多い場合には、複数の各フレームの3D Audioメタデータを伝送するのではなく、それらの3D Audioメタデータを適宜間引いて、3D Audioメタデータの代表値をそれらの複数のフレームのDSEに格納して伝送するようにした。すなわち、複数のフレームにまたがって代表値を送信するようにした。
例えば図12に示すように、1つのフレームのAACフレームデータに3つのDSEを設けることができるとする。なお、図12において文字「DSE 1」乃至「DSE 3」のそれぞれが記された四角形は、1フレーム分のAACフレームデータ内に設けられたDSEのそれぞれを表している。以下では、それらのDSEをDSE 1乃至DSE 3とも称することとする。
この例では、1フレーム分の3D Audioメタデータのデータ量が多く、その3D Audioメタデータが1つ目のDSE 1には格納しきれない状態となっている。
このような場合、符号化装置11は、3D Audioメタデータを3つのデータに分割する。ここでは、3D Audioメタデータを分割して得られた3つのデータを、分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(3)と称することとする。さらに、以下、3D Audioメタデータを分割して得られた各データを特に区別する必要のない場合、分割3D Audioメタデータとも称することとする。
符号化装置11は、分割により得られた分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(3)のそれぞれを、DSE 1乃至DSE 3のそれぞれに格納する。
このとき、符号化装置11は、3D Audioメタデータが分割されたことや、どの分割3D Audioメタデータが先頭から何番目のデータであるかを特定することができるように、フレーム内DSE分割カウンタと、フレーム内DSE分割終端フラグを生成する。
フレーム内DSE分割カウンタは、1フレーム分のAACフレームデータにおける、分割3D Audioメタデータが格納された何番目のDSEであるかを示す情報である。
換言すれば、フレーム内DSE分割カウンタは、DSEに格納された分割3D Audioメタデータが、1フレーム分のAACフレームのDSEに格納された何番目の分割3D Audioメタデータであるかを示す情報であるともいうことができる。
例えば、フレーム内DSE分割カウンタの値が「i-1」(1≦i)であるDSEに格納されている分割3D Audioメタデータは、1フレーム分のAACフレームのDSEに格納された先頭からi番目の分割3D Audioメタデータとなる。
また、フレーム内DSE分割終端フラグは、1フレーム分のAACフレームデータにおいて順番に並べられたDSEのうち、分割3D Audioメタデータが格納されている最後のDSEであるか否かを示すフラグ情報である。
具体的には、フレーム内DSE分割終端フラグの値が「0」である場合、そのDSEは分割3D Audioメタデータが格納されている最後のDSEではないことを示している。
これに対して、フレーム内DSE分割終端フラグの値が「1」である場合、そのDSEは分割3D Audioメタデータが格納されているAACフレームデータ内の最後のDSEであることを示している。
符号化装置11は、各DSEに分割3D Audioメタデータとともにフレーム内DSE分割カウンタおよびフレーム内DSE分割終端フラグも格納する。
すなわち、この例では1番目のDSE 1には1番目の分割3D Audioメタデータであることを示す、値が「0」であるフレーム内DSE分割カウンタと、最後のDSEではないことを示す、値が「0」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ(1)とが格納される。
また、2番目のDSE 2には2番目の分割3D Audioメタデータであることを示す、値が「1」であるフレーム内DSE分割カウンタと、最後のDSEではないことを示す、値が「0」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ(2)が格納される。さらに、3番目のDSE 3には3番目の分割3D Audioメタデータであることを示す、値が「2」であるフレーム内DSE分割カウンタと、最後のDSEであることを示す、値が「1」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ(3)が格納される。
このようにフレーム内DSE分割カウンタとフレーム内DSE分割終端フラグを格納することで、復号側では分割3D Audioメタデータを読み出して、それらの分割3D Audioメタデータを正しく結合し、もとの3D Audioメタデータを得ることができる。
また、3D Audioメタデータが1フレーム分のAACフレームデータに格納しきれない場合、符号化装置11では例えば図13に示すように、3D Audioメタデータとしての代表値を複数フレーム分のAACフレームデータに分割して格納する。なお、ここでは、説明を簡単にするため1フレームにつき1つのDSEが設けられるものとする。
図13において、矢印A51乃至矢印A55のそれぞれにより示される四角形がフレーム(N-1)乃至フレーム(N+3)のそれぞれのAACフレームデータを表している。また、ここでは、もともとのフレーム(i)(但し、N-1≦i≦N+3)の3D Audioメタデータを3D Audioメタデータ(i)とも記すこととする。
この例では、もともとはフレーム(N-1)乃至フレーム(N+3)について、3D Audioメタデータ(N-1)乃至3D Audioメタデータ(N+3)が用意されていた。しかし、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+3)については、データ量が多いため、このままではそれらの3D Audioメタデータが、対応する1フレーム分のDSEに格納しきれない状態となっている。
そこで、符号化装置11は、フレーム(N)乃至フレーム(N+3)についての3D Audioメタデータを得るための新たな1つの3D Audioメタデータを生成する。換言すれば、いくつかの3D Audioメタデータが間引かれて代表的な3D Audioメタデータが選択される。
具体的には、例えば符号化装置11は、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)を代表する1つの3D Audioメタデータを代表値として定める。
ここで、代表値は、例えば3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)のなかの何れか1つの3D Audioメタデータとされてもよいし、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)の平均値が代表値とされてもよい。
この場合、例えば1つのオーディオオブジェクトに注目すると、3D Audioメタデータとしてのオーディオオブジェクトのフレーム(N)乃至フレーム(N+2)の位置情報の平均値等が、そのオーディオオブジェクトの3D Audioメタデータとしての代表値とされる。
その他、例えば複数のオーディオオブジェクトがあり、それらの複数のオーディオオブジェクトのなかの1つの特定のオーディオオブジェクトが最も重要であり、その特定のオーディオオブジェクトのフレーム(N+1)における動きが最も重要であったとする。
そのような場合、例えば特定のオーディオオブジェクトの3D Audioメタデータ(N+1)としての位置情報が、その特定のオーディオオブジェクトの代表値とされる。また、他の全てのオーディオオブジェクトについても、それらのオーディオオブジェクトの3D Audioメタデータ(N+1)としての位置情報のそれぞれが、それらのオーディオオブジェクトの代表値のそれぞれとされる。
さらに、例えば複数のオーディオオブジェクトがあり、それらの複数のオーディオオブジェクトのなかの1つの特定のオーディオオブジェクトが最も重要であり、その特定のオーディオオブジェクトのフレーム(N+1)における動きが最も重要であったとする。そのような場合に、例えばその特定のオーディオオブジェクトの3D Audioメタデータ(N+1)としての位置情報が、全てのオーディオオブジェクトの代表値とされるようにしてもよい。
さらに他の例として、複数のオーディオオブジェクトのそれぞれの最も動きが重要なフレームのそれぞれにおける位置情報の平均値が求められ、得られた平均値が全てのオーディオオブジェクトに共通の代表値とされるようにしてもよい。
符号化装置11は、3D Audioメタデータ(N)乃至3D Audioメタデータ(N+2)の代表値を定めると、分割して1つの3D Audioメタデータを送信する複数フレームからなる期間(以下、分割伝送期間とも称する)の終端のフレームの3D Audioメタデータを終端値として生成する。
例えば、この例ではフレーム(N)からフレーム(N+3)までの期間が分割伝送期間となっているので、その分割伝送期間の終端のフレームはフレーム(N+3)となる。そこで、符号化装置11は、3D Audioメタデータ(N+3)をそのまま終端値とするなど、何らかの方法により終端値を定める。
さらに、符号化装置11は、分割伝送期間内のフレームのうちの代表値を適用するフレームを代表値適用フレームとして、その代表値適用フレームを示す適用フレームインデックスを生成する。ここで、代表値適用フレームとは、復号側において代表値がそのまま3D Audioメタデータとして用いられるフレームである。
例えば図13の例において、代表値適用フレームがフレーム(N+1)である場合、符号化装置11は、そのフレーム(N+1)を示す情報を適用フレームインデックスとして生成する。
具体的には、例えば代表値適用フレームが分割伝送期間における先頭からi番目(1≦i)のフレームである場合、適用フレームインデックスの値は「i-1」とされる。したがって、図13に示す例では、分割伝送期間の先頭から2番目のフレーム(N+1)が代表値適用フレームであるので、適用フレームインデックスの値は「1」となる。
以上のようにして分割伝送期間の代表値、終端値、および適用フレームインデックスが得られると、符号化装置11は、代表値と終端値を分割伝送期間の3D Audioメタデータとするとともに、その3D Audioメタデータを分割する。
すなわち、符号化装置11は、分割伝送期間の3D Audioメタデータを、その分割伝送期間に含まれるフレームの数の分割3D Audioメタデータへと分割する。
この例では、分割伝送期間を構成するフレーム数は4であるので、3D Audioメタデータは、文字「分割3D Audioメタデータ(1)」乃至「分割3D Audioメタデータ(4)」により示される4つの分割3D Audioメタデータへと分割される。
なお、以下、文字「分割3D Audioメタデータ(1)」乃至「分割3D Audioメタデータ(4)」により示される分割3D Audioメタデータを、分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)とも称することとする。
分割3D Audioメタデータが得られると、符号化装置11は、それらの分割3D Audioメタデータを各フレームのAACフレームデータのDSEに格納し、出力する。
ここでは、矢印A61乃至矢印A65のそれぞれにより示される四角形は、実際に符号化装置11から出力されるフレーム(N-1)乃至フレーム(N+3)のそれぞれのAACフレームデータを表している。
この例では、フレーム(N-1)のAACフレームデータには、分割されていない3D Audioメタデータ(N-1)がそのままDSEに格納されている。
一方、フレーム(N)のAACフレームデータでは、分割3D Audioメタデータ(1)と適用フレームインデックスがDSEに格納され、フレーム(N+1)のAACフレームデータでは、分割3D Audioメタデータ(2)がDSEに格納される。また、フレーム(N+2)のAACフレームデータでは、分割3D Audioメタデータ(3)がDSEに格納され、フレーム(N+3)のAACフレームデータでは、分割3D Audioメタデータ(4)がDSEに格納される。
なお、適用フレームインデックスは、分割伝送期間内のフレームのDSEであれば、どのフレームのDSEに格納されてもよい。
さらに、このような3D AACビットストリームを受信した復号装置51では、例えば図14に示すように復号が行われる。なお、図14において図13における場合と対応する部分については、その説明は適宜省略する。
図14に示す例では、復号装置51において矢印A71乃至矢印A75のそれぞれにより示されるAACフレームデータからなる3D AACビットストリームが受信される。
ここで、矢印A71乃至矢印A75のそれぞれに示した各フレームのAACフレームデータは、図13の矢印A61乃至矢印A65のそれぞれに示した各フレームのAACフレームデータに対応する。
復号装置51は、3D Audioメタデータの分割が行われていないフレーム(N-1)については、矢印A81に示すように、そのフレーム(N-1)のAACフレームデータから3D Audioメタデータ(N-1)を読み出す。そして、復号装置51は、読み出した3D Audioメタデータ(N-1)に基づいてレンダリングを行う。
これに対して、3D Audioメタデータの分割が行われたフレーム(N)乃至フレーム(N+3)については、分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)に基づいて、それらのフレームの3D Audioメタデータが生成される。
すなわち、復号装置51のAAC復号部61は、フレーム(N)乃至フレーム(N+3)のDSEのそれぞれから、それらのフレームに対する3D Audioメタデータを分割して得られた分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)のそれぞれを読み出す。そして、AAC復号部61は、読み出したそれらの分割3D Audioメタデータ(1)乃至分割3D Audioメタデータ(4)を結合し、1つの符号化3D Audioメタデータとする。
そして、復号装置51は得られた符号化3D Audioメタデータを復号することで、代表値と終端値を得るとともに、DSEから適用フレームインデックスを読み出す。そして、復号装置51は得られた代表値、終端値、および適用フレームインデックスに基づいて補間処理を行うことで、分割伝送期間内のフレームの3D Audioメタデータを生成する。
具体的には、復号装置51は矢印A83に示すように、代表値を、適用フレームインデックスにより示されるフレーム(N+1)の3D Audioメタデータとする。
また、復号装置51は、矢印A82に示すようにフレーム(N-1)の3D Audioメタデータ(N-1)と、フレーム(N+1)の3D Audioメタデータである代表値とに基づいて、補間処理によりフレーム(N)の3D Audioメタデータ(N)を生成する。
さらに復号装置51は、矢印A85に示すように終端値をそのままフレーム(N+3)の3D Audioメタデータとする。復号装置51は、矢印A84に示すようにフレーム(N+1)の3D Audioメタデータである代表値と、フレーム(N+3)の3D Audioメタデータである終端値とに基づいて、補間処理によりフレーム(N+2)の3D Audioメタデータ(N+2)を生成する。
復号装置51はフレーム(N)乃至フレーム(N+3)では、このようにして得られた3D Audioメタデータ(N)乃至3D Audioメタデータ(N+3)を用いてレンダリングを行う。
復号装置51では、以上のようにして複数フレームにまたがって分割して格納された分割3D Audioメタデータを読み出し、分割伝送期間の各フレームの3D Audioメタデータを得る。このようにすることで、効率的に3D Audioメタデータを伝送して利便性を向上させるとともに、臨場感のある3D Audio再生を実現することができる。
なお、ここでは分割伝送期間の3D Audioメタデータに終端値が含まれる例について説明したが、終端値が含まれないようにしてもよい。そのような場合には、分割伝送期間の終端直後のフレームの3D Audioメタデータを終端値として用いるようにすればよい。
〈DSEシンタックス例〉
以上のように、1フレーム分のAACフレームデータにおいて、3D Audioメタデータを複数の分割3D Audioメタデータに分割して複数のDSEに格納する場合、復号側においてそのことを認識することができるようにする必要がある。
そのため、符号化側では、上述したフレーム内DSE分割カウンタやフレーム内DSE分割終端フラグを含む、フレーム内、つまりAACフレームデータ内での3D Audioメタデータの分割に関する情報であるフレーム内DSE分割情報がDSEに記述される。
このようなフレーム内DSE分割情報のシンタックスは、例えば図15に示すようになる。図15に示す例では、文字「dse_div_info()」は、フレーム内DSE分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。ここでは、フレーム内DSE分割情報はDSEごとに存在する。
また、フレーム内DSE分割情報には、文字「dse_div_cnt」により示されるフレーム内DSE分割カウンタ、および文字「dse_div_terminate」により示されるフレーム内DSE分割終端フラグが含まれている。
上述したようにフレーム内DSE分割カウンタは、対応するDSEが同じフレームにおける分割3D Audioメタデータが格納されているDSEのうちの何番目のものであるかを示す、0から始まるカウンタ情報である。ここでは、フレーム内DSE分割カウンタは3ビットの情報であるので、1フレーム内では、3D Audioメタデータまたは分割3D Audioメタデータを、最大で8個の分割3D Audioメタデータに分割することが可能となっている。すなわち、最大で8個のDSEを設けることができる。
また、フレーム内DSE分割終端フラグは、値が「0」とされているときには対応するDSEがフレーム内における、分割3D Audioメタデータが格納された最後のDSEではないことを示している。これに対して、フレーム内DSE分割終端フラグの値が「1」とされているときには、対応するDSEがフレーム内における、分割3D Audioメタデータが格納された最後のDSEであることを示している。
さらに、1つの3D Audioメタデータを分割して得られた分割3D Audioメタデータを複数のフレームのDSEに格納する場合、復号側においてそのことを認識することができるようにする必要がある。
そのため、符号化側では、フレーム内DSE分割情報における場合と同様に、フレーム間での3D Audioメタデータの分割、つまり複数フレームに対する3D Audioメタデータの分割に関する情報であるフレーム分割情報がDSEに記述される。
このようなフレーム分割情報のシンタックスは、例えば図16に示すようになる。
図16に示す例では、文字「frame_div_info()」は、フレーム分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。ここでは、フレーム分割情報は1フレームに対して1つ存在する。
フレーム分割情報には、文字「frm_div_mode」により示されるフレーム分割モード情報が含まれている。
このフレーム分割モード情報は、複数フレームにまたがって1つの3D Audioメタデータを伝送する、つまり複数フレームのDSEに1つの3D Audioメタデータを分割して格納するフレーム分割モードであるか否かを示す情報である。
ここでは、フレーム分割モード情報の値が「0」である場合には、フレーム分割モードではない、つまり1フレーム分の3D Audioメタデータが1フレーム分のDSEに格納されることを示している。
これに対して、フレーム分割モード情報の値が「1」である場合には、フレーム分割モードである、つまり複数フレームのDSEに1つの3D Audioメタデータが分割されて格納されることを示している。
また、フレーム分割モード情報の値が「1」である場合には、フレーム分割情報には、さらに文字「frm_div_cnt」により示されるフレーム分割カウンタと、文字「frm_div_terminate」により示されるフレーム分割終端フラグが格納されている。
フレーム分割カウンタは、対応するフレームが分割伝送期間を構成するフレームのうちの先頭から何番目のものであるかを示す、0から始まるカウンタ情報である。ここでは、フレーム分割カウンタは3ビットの情報であるので、分割伝送期間は最大で8フレームの期間とすることが可能となっている。すなわち、1つの3D Audioメタデータを8フレームにまたがって伝送することが可能となっている。
また、フレーム分割終端フラグは、値が「0」とされているときには対応するフレームが分割伝送期間における最後のフレームではないことを示している。これに対して、フレーム分割終端フラグの値が「1」とされているときには、対応するフレームが分割伝送期間における最後(終端)のフレームであることを示している。
さらに、フレーム分割カウンタの値が「0」である場合、フレーム分割情報には文字「apply_frm_Index」により示される適用フレームインデックスも格納されている。つまり、適用フレームインデックスは、分割伝送期間における最初(先頭)のフレームのDSEに格納される。
この適用フレームインデックスは代表値適用フレームを示す情報であり、ここでは代表値適用フレームのフレーム分割カウンタの値が、適用フレームインデックスの値となっている。
なお、分割フレーム数、つまり分割伝送期間を構成するフレーム数をFとしたときに、適用フレームインデックスの値がFよりも1だけ小さい(F-1)である場合には、3D Audioメタデータとして代表値または終端値のみが含まれている。
換言すれば、適用フレームインデックスにより示されるフレームが分割伝送期間の終端のフレームである場合には、終端値が代表値となるので、代表値または終端値のみが3D Audioメタデータとして伝送されることになる。
1フレーム分のAACフレームデータには、以上で説明したフレーム内DSE分割情報とフレーム分割情報が格納されることになる。以下では、フレーム内DSE分割情報やフレーム分割情報からなる情報を分割情報とも称することとする。但し、AACフレームデータの各DSEに分割情報が格納され、分割情報には、フレーム分割情報は必ずしも含まれていなくてもよいが、フレーム内DSE分割情報は必ず含まれているようにされる。
そのような場合、AACフレームデータに格納される分割情報のシンタックスは、例えば図17に示すようになる。
図17に示す例では、文字「div_info()」は分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。
また、ここでは分割情報として、文字「dse_div_info()」により示されるフレーム内DSE分割情報が含まれている。また、そのフレーム内DSE分割情報に含まれているフレーム内DSE分割カウンタ(dse_div_cnt)の値が「0」である場合、分割情報として、さらに文字「frame_div_info()」により示されるフレーム分割情報が含まれている。
すなわち、AACフレームデータにおける最初(先頭)のDSEには、分割情報としてフレーム内DSE分割情報とフレーム分割情報が含まれており、AACフレームデータにおける2番目以降のDSEには、分割情報としてフレーム内DSE分割情報のみが含まれている。
図17に示すようにAACフレームデータに分割情報が格納される場合、1つの3D Audioメタデータが3つのフレームにまたがって伝送されるときには、例えば図18に示すようになる。
図18に示す例では、矢印A101乃至矢印A103により示されるAACフレームデータであるAACフレームデータ(1)乃至AACフレームデータ(3)に1つの3D Audioメタデータが格納されている。
すなわち、1つ目のAACフレームデータ(1)には、1番目のDSEであるDSE1と、2番目のDSEであるDSE2とが設けられている。
このAACフレームデータ(1)のDSE1には、分割情報としてのフレーム内DSE分割情報(dse_div_info())およびフレーム分割情報(frame_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(1-1)とが格納されている。
この場合、AACフレームデータ(1)のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「0」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「0」とされる。
また、AACフレームデータ(1)のDSE1内のフレーム分割情報においては、フレーム分割モード情報(frm_div_mode)の値は「1」とされ、フレーム分割カウンタ(frm_div_cnt)の値は「0」とされ、フレーム分割終端フラグ(frm_div_terminate)の値は「0」とされ、適切な値の適用フレームインデックスが含まれている。
さらに、AACフレームデータ(1)のDSE2には、分割情報としてのフレーム内DSE分割情報(dse_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(1-2)とが格納されている。
この場合、AACフレームデータ(1)のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「1」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「1」とされる。
同様に、2つ目のAACフレームデータ(2)には、1番目のDSE1と、2番目のDSE2とが設けられている。
AACフレームデータ(2)のDSE1には、分割情報としてのフレーム内DSE分割情報(dse_div_info())およびフレーム分割情報(frame_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(2-1)とが格納されている。
この場合、AACフレームデータ(2)のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「0」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「0」とされる。
また、AACフレームデータ(2)のDSE1内のフレーム分割情報においては、フレーム分割モード情報(frm_div_mode)の値は「1」とされ、フレーム分割カウンタ(frm_div_cnt)の値は「1」とされ、フレーム分割終端フラグ(frm_div_terminate)の値は「0」とされる。なお、このフレーム分割情報には、適用フレームインデックスは含まれていない。
さらに、AACフレームデータ(2)のDSE2には、分割情報としてのフレーム内DSE分割情報(dse_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(2-2)とが格納されている。
この場合、AACフレームデータ(2)のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「1」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「1」とされる。
さらに3つ目のAACフレームデータ(3)には、1番目のDSE1と、2番目のDSE2とが設けられている。
AACフレームデータ(3)のDSE1には、分割情報としてのフレーム内DSE分割情報(dse_div_info())およびフレーム分割情報(frame_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(3-1)とが格納されている。
この場合、AACフレームデータ(3)のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「0」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「0」とされる。
また、AACフレームデータ(3)のDSE1内のフレーム分割情報においては、フレーム分割モード情報(frm_div_mode)の値は「1」とされ、フレーム分割カウンタ(frm_div_cnt)の値は「2」とされ、フレーム分割終端フラグ(frm_div_terminate)の値は「1」とされる。なお、このフレーム分割情報には、適用フレームインデックスは含まれていない。
さらに、AACフレームデータ(3)のDSE2には、分割情報としてのフレーム内DSE分割情報(dse_div_info())と、分割された3D Audioメタデータである分割3D Audioメタデータ(3-2)とが格納されている。
この場合、AACフレームデータ(3)のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ(dse_div_cnt)の値は「1」とされ、フレーム内DSE分割終端フラグ(dse_div_terminate)の値は「1」とされる。
したがって、復号装置51では、AACフレームデータ(1)乃至AACフレームデータ(3)に含まれている分割3D Audioメタデータ(1-1)、分割3D Audioメタデータ(1-2)、分割3D Audioメタデータ(2-1)、分割3D Audioメタデータ(2-2)、分割3D Audioメタデータ(3-1)、および分割3D Audioメタデータ(3-2)が読み出されてそれらの分割3D Audioメタデータが結合され、1つの3D Audioメタデータとされる。そして、得られた1つの3D Audioメタデータを復号することで、上述した代表値と終端値が得られる。
〈符号化処理の説明〉
次に、適宜、3D Audioメタデータが分割して格納される場合に行われる符号化処理と復号処理について説明する。まず、図19のフローチャートを参照して、符号化装置11による符号化処理について説明する。
ステップS81において、3D Audioメタデータ符号化部21は、処理対象とする現フレームについて、フレーム分割モード情報(frm_div_mode)の値を「0」とする。
そして、ステップS82において、3D Audioメタデータ符号化部21は、処理対象とする現フレームについて、伝送すべき3D Audioメタデータがあるか否かを判定する。ステップS82では、図10のステップS11における場合と同様の処理が行われる。
ステップS82において、伝送すべき3D Audioメタデータがあると判定された場合、ステップS83において3D Audioメタデータ符号化部21は、3D Audioメタデータ符号化処理を行って、外部から供給された3D Audioメタデータを符号化する。ステップS83では、図10のステップS12と同様の処理が行われる。
ステップS84において、3D Audioメタデータ符号化部21は、ステップS83の処理で得られた処理対象の現フレームの符号化3D Audioメタデータの符号量(データ量)が、予め定められた許容範囲内であるか否かを判定する。
ここでは、符号化3D Audioメタデータのデータ量が許容範囲となる閾値よりも多く(大きく)、符号化3D Audioメタデータを現フレームのAACフレームデータのDSEに格納しきれない場合に、許容範囲内ではないと判定される。
ステップS84において許容範囲内であると判定された場合、3D Audioメタデータ符号化部21は、ステップS83の処理で得られた符号化3D AudioメタデータをそのままAAC符号化部22に供給し、その後、処理はステップS90へと進む。
より詳細には、このとき3D Audioメタデータ符号化部21は、符号化3D Audioメタデータが1つのDSEに格納しきれないときには、符号化3D Audioメタデータをいくつかの分割3D Audioメタデータに分割する。そして、3D Audioメタデータ符号化部21は、分割により得られた分割3D Audioメタデータのそれぞれが現フレームのAACフレームデータにおける複数のDSEのそれぞれに格納されるようにする。
また、3D Audioメタデータ符号化部21は、適切なフレーム内DSE分割情報とフレーム分割情報も生成し、それらのフレーム内DSE分割情報とフレーム分割情報もAAC符号化部22に供給する。特に、ここでは現フレームの3D Audioメタデータが現フレームのAACフレームデータに格納されるので、フレーム分割モード情報(frm_div_mode)の値は「0」とされる。すなわち、ステップS81で設定されたフレーム分割モード情報がそのままAAC符号化部22へと供給される。
なお、符号化3D Audioメタデータの分割や、フレーム内DSE分割情報とフレーム分割情報の生成は、3D Audioメタデータ符号化部21ではなくAAC符号化部22において行われるようにしてもよい。
これに対して、ステップS84において許容範囲内ではないと判定された場合、その後、処理はステップS85へと進む。
ステップS85において、3D Audioメタデータ符号化部21は、ステップS81で設定した現フレームのフレーム分割モード情報(frm_div_mode)の値を「1」に変更する。
また、3D Audioメタデータ符号化部21は、これまで現フレームとしていたフレームを分割伝送期間の先頭フレームとする。
3D Audioメタデータ符号化部21は、その先頭フレームの時間的に次のフレームを新たな処理対象のフレームとし、その新たな処理対象のフレームの3D Audioメタデータも取得する。さらに、3D Audioメタデータ符号化部21は、分割伝送期間のフレームの3D Audioメタデータについて、適宜、重要度の低いオーディオオブジェクトや動きのないオーディオオブジェクトの位置情報等を削除するなどして、3D Audioメタデータのデータ量の削減を行うようにしてもよい。
ステップS86において、3D Audioメタデータ符号化部21は、分割伝送期間の先頭フレームから、現時点で処理対処とされているフレームまでの各フレームの3D Audioメタデータを対象として代表値と終端値を算出する。
すなわち、3D Audioメタデータ符号化部21は、現時点で処理対処とされているフレームが分割伝送期間の終端のフレームであるものとする。
そして、3D Audioメタデータ符号化部21は、分割伝送期間を構成する各フレームの3D Audioメタデータ、より詳細には終端のフレームを除く各フレームの3D Audioメタデータに基づいて、分割伝送期間についての3D Audioメタデータの代表値を決定する。例えば、3D Audioメタデータの代表値の決定時には、上述したように、平均値を求める演算等が必要に応じて行われ、代表値を適用する代表値適用フレームも3D Audioメタデータ符号化部21により決定される。
また、3D Audioメタデータ符号化部21は、分割伝送期間の終端のフレームの3D Audioメタデータ等に基づいて、その終端のフレームの最終的な3D Audioメタデータである終端値を決定する。
3D Audioメタデータ符号化部21は、このようにして決定された代表値と終端値を、分割伝送期間を構成する複数のフレームに対する3D Audioメタデータとする。この場合、3D Audioメタデータ符号化部21は、分割伝送期間の代表値と終端値を決定するメタデータ決定部として機能する。
ステップS87において、3D Audioメタデータ符号化部21は、ステップS86で得られた代表値と終端値を3D Audioメタデータとして3D Audioメタデータ符号化処理を行い、3D Audioメタデータを符号化する。
ステップS88において、3D Audioメタデータ符号化部21は、ステップS87の処理で得られた符号化3D Audioメタデータの符号量(データ量)が、分割伝送期間を構成するフレームの数により定まる許容範囲内であるか否かを判定する。
ここでは、符号化3D Audioメタデータのデータ量が許容範囲となる閾値よりも多く(大きく)、符号化3D Audioメタデータが分割伝送期間を構成する全フレームのAACフレームデータのDSEに格納しきれない場合に、許容範囲内ではないと判定される。
ステップS88において許容範囲内ではないと判定された場合、まだ分割伝送期間に対して3D Audioメタデータのデータ量が多すぎるので、処理はステップS86に戻り、上述した処理が繰り返し行われる。このとき、これまで分割伝送期間としてきた期間の終端のフレームの時間的に次のフレームが、新たな分割伝送期間の終端のフレームとされる。
これに対して、ステップS88において許容範囲内であると判定された場合、ステップS89において3D Audioメタデータ符号化部21は、フレーム分割処理を行う。
すなわち、3D Audioメタデータ符号化部21は、ステップS87の処理で得られた符号化3D Audioメタデータを、複数の分割3D Audioメタデータに分割する。例えば図18に示した例では、符号化3D Audioメタデータが分割3D Audioメタデータ(1-1)乃至分割3D Audioメタデータ(3-2)に分割される。
また、3D Audioメタデータ符号化部21は、3D Audioメタデータの分割結果や分割伝送期間等に応じて、ステップS85で定めた値が「1」であるフレーム分割モード情報を含むフレーム分割情報や、フレーム内DSE分割情報も生成する。ここでは、フレーム分割情報は分割伝送期間のフレームごとに生成され、フレーム内DSE分割情報は分割伝送期間の各フレームのDSEごとに生成される。
そして、3D Audioメタデータ符号化部21は、生成したフレーム内DSE分割情報およびフレーム分割情報と、分割3D AudioメタデータとをAAC符号化部22に供給し、その後、処理はステップS90へと進む。なお、ステップS89のフレーム分割処理は、AAC符号化部22により行われるようにしてもよい。
ステップS84において許容範囲内であると判定されたか、またはステップS89の処理が行われると、その後、ステップS90の処理が行われる。
ステップS90において、AAC符号化部22は3D Audioメタデータ符号化部21から供給された符号化3D Audioメタデータ、フレーム内DSE分割情報、およびフレーム分割情報と、外部から供給されたオーディオデータとをAAC符号化し、3D AACビットストリームを生成する。
具体的には、AAC符号化部22は、フレーム内DSE分割情報およびフレーム分割情報を、図15乃至図17に示したシンタックスに従ってAACフレームデータのDSEに格納するとともに、適宜、分割された符号化3D AudioメタデータもDSEに格納する。
例えば複数のフレームにまたがって3D Audioメタデータが伝送されるときには、AAC符号化部22は、分割伝送期間の複数のフレームのDSEのそれぞれに、それらの複数のフレームに対する3D Audioメタデータを分割して得られた分割3D Audioメタデータのそれぞれを格納する。その際、AAC符号化部22は、適切な値とされたフレーム分割モード情報や適用フレームインデックスなどを含むフレーム分割情報と、フレーム内DSE分割情報も適宜、DSEに格納する。
また、AAC符号化部22は、外部から供給されたオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。さらに、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
AAC符号化部22は、このようにして得られた1フレーム分または複数フレーム分のAACフレームデータからなる3D AACビットストリームを出力(送信)すると、その後、処理はステップS92へと進む。
また、ステップS82において伝送すべき3D Audioメタデータがないと判定された場合、その後、処理はステップS91へと進む。
ステップS91において、AAC符号化部22は、外部から供給されたオーディオデータをAAC符号化する。
すなわち、AAC符号化部22は、外部から供給された1フレーム分のオーディオデータをAAC符号化方式により符号化し、AACフレームデータに格納する。また、AAC符号化部22は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの2次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。
AAC符号化部22は、このようにして得られた1フレーム分のAACフレームデータからなる3D AACビットストリームを出力すると、その後、処理はステップS92へと進む。
なお、ここでは前フレーム参照フラグは用いられない例について説明したが、前フレーム参照フラグも用いられるようにしても勿論よい。
そのような場合、ステップS90ではDSEに前フレーム参照フラグが格納される。また、ステップS82において伝送すべき3D Audioメタデータがないと判定された場合には、その後、図10のステップS14乃至ステップS16と同様の処理が行われる。
ステップS90の処理、またはステップS91の処理が行われると、その後、ステップS92の処理が行われる。
ステップS92において、符号化装置11は、符号化すべきオーディオデータがあるか否かを判定する。
ステップS92において、まだ符号化すべきオーディオデータがあると判定された場合、処理はステップS81に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS92において符号化すべきオーディオデータがない、すなわち伝送するコンテンツのオーディオデータが全て符号化されて出力されたと判定された場合、符号化処理は終了する。
以上のようにして符号化装置11は、3D AudioメタデータをDSEに格納し、3D AACビットストリームを生成する。このようにすることで既存のAAC規格を拡張し、復号側において3D Audioメタデータを利用して3D Audio再生を行うことができるようになる。これにより、利便性を向上させることができる。特に3D Audioメタデータを1フレーム分のAACフレームデータに格納しきれないときには、代表値および終端値を3D Audioメタデータとし、複数フレームのAACフレームデータにまたがって格納することで、効率的に3D Audioメタデータを伝送することができる。
〈復号処理の説明〉
次に、図20のフローチャートを参照して、復号装置51により行われる復号処理について説明する。
ステップS131において、AAC復号部61は受信した3D AACビットストリームに対して、AAC符号化方式に対応する復号方式での復号処理であるAAC復号処理を行う。
ステップS131では、図11のステップS41と同様の処理が行われて、復号により得られた3D Audio構成要素情報が上位の制御部に供給されたり、各オーディオオブジェクトの2次元平面上の位置情報が読み出されたり、復号により得られたオーディオデータが3D Audioレンダラ64に供給されたりする。
ステップS132において、AAC復号部61は、3D AACビットストリームのAACフレームデータのDSEに3D Audioメタデータがあるか否かを判定する。
ステップS132において3D Audioメタデータがあると判定された場合、その後、処理はステップS133へと進む。
ステップS133において、AAC復号部61はAACフレームデータのDSEに格納されているフレーム分割モード情報(frm_div_mode)に基づいて、フレーム分割されているか否かを判定する。例えばフレーム分割モード情報の値が「1」である場合、フレーム分割されている、つまり1つの3D Audioメタデータが複数のフレームのAACフレームデータにまたがって記録されていると判定される。
ステップS133においてフレーム分割されていないと判定された場合、つまりフレーム分割モード情報の値が「0」である場合、処理はステップS134へと進む。
この場合、AAC復号部61は1フレーム分のAACフレームデータのDSEから符号化3D Audioメタデータを読み出して3D Audioメタデータ復号部62へと供給する。
なお、このとき1フレーム分のAACフレームデータの複数のDSEに3D Audioメタデータが分割して格納されている場合には、AAC復号部61は各DSEのフレーム内DSE分割情報を参照してそれらのDSEから分割3D Audioメタデータを読み出す。すなわち、1フレーム分のAACフレームデータの複数のDSEのそれぞれから、1フレーム分の3D Audioメタデータを分割して得られた分割3D Audioメタデータのそれぞれが読み出される。
そして、AAC復号部61は各DSEから読み出した分割3D Audioメタデータを結合して1つの符号化3D Audioメタデータとし、その符号化3D Audioメタデータを3D Audioメタデータ復号部62に供給する。
ステップS134において、3D Audioメタデータ復号部62は、AAC復号部61から供給された符号化3D Audioメタデータを復号し、その結果得られた1フレーム分の3D Audioメタデータを3D Audioレンダラ64に供給する。
このようにして3D Audioメタデータが得られると、その後、処理はステップS140へと進む。
これに対して、ステップS133においてフレーム分割されていると判定された場合、ステップS135において、AAC復号部61は1フレーム分のAACフレームデータのDSEから分割3D Audioメタデータを取得する(読み出す)。
この場合においても、1フレーム分のAACフレームデータにおいて分割3D Audioメタデータが複数のDSEに格納されている場合には、フレーム内DSE分割情報が参照されて、それらのDSEから分割された3D Audioメタデータが読み出される。
ステップS136において、AAC復号部61は、分割伝送期間の先頭フレームからこれまでの処理により得られた、分割された3D Audioメタデータを結合する。分割された3D Audioメタデータを結合する結合処理にあたっては、AAC復号部61は、適宜、DSEから読み出されたフレーム分割情報を参照しながら結合を行う。
ステップS137において、AAC復号部61は、直前のステップS135で処理したフレームが分割伝送期間の終端のフレームであるか否かを判定する。例えばAAC復号部61は、直前のステップS135で処理したフレームのフレーム分割終端フラグ(frm_div_terminate)の値が「1」である場合、終端のフレームであると判定する。
ステップS137において、終端のフレームではないと判定された場合、まだ分割3D Audioメタデータを読み出していない分割伝送期間のフレームがあるので、処理はステップS135に戻り、上述した処理が繰り返し行われる。すなわち、次のフレームについて分割3D Audioメタデータが読み出される。
これに対して、ステップS137において終端のフレームであると判定された場合、直前に行われたステップS136の処理により、分割伝送期間についての符号化3D Audioメタデータが得られたので、その後、処理はステップS138へと進む。
このとき、AAC復号部61は、結合により得られた分割伝送期間についての符号化3D Audioメタデータと、その分割伝送期間についてDSEのフレーム内DSE分割情報やフレーム分割情報から読み出された適用フレームインデックス(apply_frm_Index)等の情報とを3D Audioメタデータ復号部62に供給する。これにより、3D Audioメタデータ復号部62は、分割伝送期間が何フレームから構成されているかや、代表値がどのフレームに適用されるかを特定することができる。
ステップS138において、3D Audioメタデータ復号部62は、AAC復号部61から供給された分割伝送期間の符号化3D Audioメタデータを復号する。これにより、分割伝送期間についての代表値と終端値が得られることになる。
ステップS139において、3D Audioメタデータ復号部62は、ステップS138の処理で得られた代表値および終端値と、既に得られている分割伝送期間の直前のフレームの3D Audioメタデータと、適用フレームインデックスとに基づいて補間処理を行う。
例えば補間処理では、図14を参照して説明したように、分割伝送期間の直前のフレームの3D Audioメタデータと代表値とが用いられて、分割伝送期間の先頭のフレームから代表値が適用されるフレームの直前のフレームまでの間の各フレームの3D Audioメタデータが補間により算出される。
同様に、代表値と終端値とが用いられて、代表値が適用されるフレームの直後のフレームから、分割伝送期間の終端のフレームの直前のフレームまでの間の各フレームの3D Audioメタデータが補間により算出される。
この場合、3D Audioメタデータ復号部62は、補間処理を行って分割伝送期間のフレームの3D Audioメタデータを生成するメタデータ生成部として機能する。
このような処理により、分割伝送期間の各フレームの3D Audioメタデータが得られたことになる。なお、補間処理時には、適宜、適用フレームインデックスなどのAAC復号部61から供給された情報が参照される。
分割伝送期間の各フレームの3D Audioメタデータが得られると、3D Audioメタデータ復号部62は、それらの3D Audioメタデータを3D Audioレンダラ64に供給し、その後、処理はステップS140へと進む。
ステップS134またはステップS139の処理が行われて1または複数のフレームの3D Audioメタデータが得られると、その後、ステップS140の処理が行われる。
すなわち、ステップS140において、3D Audioレンダラ64は、3D Audioメタデータ復号部62から供給された3D Audioメタデータと、AAC復号部61から供給されたオーディオデータとに基づいてレンダリングを行う。なお、ステップS140では図11のステップS47における場合と同様の処理が行われる。
レンダリングにより再生データが得られると、3D Audioレンダラ64は、得られた再生データを出力し、その後、処理はステップS142へと進む。
一方、ステップS132において、3D Audioメタデータがないと判定された場合、その後、ステップS141の処理が行われる。
すなわち、ステップS141において3D Audioレンダラ64は、AAC復号部61から供給されたオーディオデータに基づいて、通常のAAC規格により定められたレンダリングを行い、その結果得られた再生データを出力する。ステップS141では図11のステップS48における場合と同様の処理が行われる。
このようにして再生データが出力されると、その後、処理はステップS142へと進む。
なお、ここでは前フレーム参照フラグは用いられない例について説明したが、前フレーム参照フラグも用いられるようにしても勿論よい。
そのような場合、ステップS132において、3D Audioメタデータがないと判定された場合には、その後、図11のステップS44乃至ステップS46、およびステップS48と同様の処理が行われる。
ステップS140またはステップS141の処理が行われると、ステップS142においてAAC復号部61は、復号すべき3D AACビットストリームがあるか否かを判定する。
ステップS142において復号すべき3D AACビットストリームがあると判定された場合、処理はステップS131に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS142において復号すべき3D AACビットストリームがないと判定された場合、復号処理は終了する。
以上のようにして復号装置51は、DSEから3D Audioメタデータを読み出して、読み出した3D Audioメタデータを用いてレンダリングを行う。このようにすることで既存のAAC規格を拡張して3D Audio再生を行うことができ、利便性を向上させることができる。
特に、分割伝送期間の3D Audioメタデータが複数フレームのAACフレームデータにまたがって格納されているときには、3D Audioメタデータとしての代表値および終端値に基づいて補間処理を行い、各フレームの3D Audioメタデータを得ることで、少ない符号量でも効率的に3D Audioの再生を行うことができる。
以上のように、本技術によればオーディオコーデック(符号化方式)に依存することなく、アンシラリーデータ領域を持つ既存のオーディオコーデックの規格内で3D Audioデータの伝送を行うことができる。
また、DSEなどのアンシラリーデータ領域の大きさに制限がある場合には、3D Audioメタデータを分割し、複数のアンシラリーデータ領域に分散して格納することで3D Audioメタデータを伝送することができる。
さらに、PCE等にオーディオオブジェクトの2次元平面上の位置を示す位置情報、つまりチャンネルマッピングに関する情報(スピーカ配置情報)を格納して伝送することで、3D Audioに対応していない既存の復号装置においても可能な限りの位置情報を用いてオーディオ再生を行うことができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、
前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部と
を備える復号装置。
(2)
前記復号部は、1フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて前記メタデータを得る
(1)に記載の復号装置。
(3)
前記復号部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る
(1)に記載の復号装置。
(4)
前記複数のフレームに対する前記メタデータは、前記複数のフレームからなる期間についての前記メタデータの代表値、および前記期間の終端フレームにおける前記メタデータである終端値である
(3)に記載の復号装置。
(5)
前記復号部は、前記領域から、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報をさらに読み出し、
前記代表値、前記終端値、および前記適用フレーム情報に基づいて補間処理を行うことで、前記期間内のフレームの前記メタデータを生成するメタデータ生成部をさらに備える
(4)に記載の復号装置。
(6)
前記出力部は、所定フレームよりも前のフレームで前記領域から読み出された前記メタデータのうちの時間的に最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
(1)乃至(5)の何れか一項に記載の復号装置。
(7)
前記出力部は、前記最後に読み出された前記メタデータを用いるかの指示に応じて、前記最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
(6)に記載の復号装置。
(8)
前記出力部は、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
(1)乃至(5)の何れか一項に記載の復号装置。
(9)
前記符号化ビットストリームはAACビットストリームであり、
前記復号部は、前記領域としてのDSEから前記メタデータを読み出す
(1)乃至(8)の何れか一項に記載の復号装置。
(10)
前記符号化ビットストリームはAACビットストリームであり、
前記復号部は、前記AACビットストリームのPCEから、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を読み出す
(1)乃至(9)の何れか一項に記載の復号装置。
(11)
復号装置が、
符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
前記メタデータに基づいて、復号された前記オーディオデータを出力する
ステップを含む復号方法。
(12)
符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
前記メタデータに基づいて、復号された前記オーディオデータを出力する
ステップを含む処理をコンピュータに実行させるプログラム。
(13)
オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える
符号化装置。
(14)
前記符号化部は、1フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれに、前記メタデータを分割して得られた複数のデータのそれぞれを格納する
(13)に記載の符号化装置。
(15)
前記符号化部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれに、前記複数のフレームに対する前記メタデータを分割して得られた複数のデータのそれぞれを格納する
(13)に記載の符号化装置。
(16)
前記複数のフレームからなる期間についての前記メタデータの代表値を決定し、前記代表値を前記複数のフレームに対する前記メタデータとするメタデータ決定部をさらに備える
(15)に記載の符号化装置。
(17)
前記メタデータ決定部は、前記期間の終端フレームにおける前記メタデータである終端値を決定し、前記代表値および前記終端値を前記複数のフレームに対する前記メタデータとする
(16)に記載の符号化装置。
(18)
前記符号化部は、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報を前記領域に格納する
(16)または(17)に記載の符号化装置。
(19)
前記符号化部は、所定フレームの前記メタデータとして、前記所定フレームよりも時間的に前のフレームの前記領域に格納された前記メタデータのうちの、最も前記所定フレームに近いフレームの前記メタデータを用いるかを指示する情報を前記領域に格納する
(13)乃至(18)の何れか一項に記載の符号化装置。
(20)
前記符号化ビットストリームはAACビットストリームであり、
前記符号化部は、前記領域としてのDSEに前記メタデータを格納する
(13)乃至(19)の何れか一項に記載の符号化装置。
(21)
前記符号化ビットストリームはAACビットストリームであり、
前記符号化部は、前記AACビットストリームのPCEに、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を格納する
(13)乃至(20)の何れか一項に記載の符号化装置。
(22)
符号化装置が、
オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
ステップを含む符号化方法。
(23)
オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
11 符号化装置, 21 3D Audioメタデータ符号化部, 22 AAC符号化部, 51 復号装置, 61 AAC復号部, 62 3D Audioメタデータ復号部, 63 3D Audioメタデータ取得部, 64 3D Audioレンダラ

Claims (7)

  1. 符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームにおける任意のデータを格納可能な複数のフレームの領域のそれぞれから、前記オブジェクトオーディオのメタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る復号部と、
    前記メタデータに基づいて、復号された前記オーディオデータを出力し、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記データから得られた前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する出力部と
    を備える復号装置。
  2. 前記複数のフレームに対する前記メタデータは、前記複数のフレームからなる期間についての前記メタデータの代表値、および前記期間の終端フレームにおける前記メタデータである終端値である
    請求項1に記載の復号装置。
  3. 前記復号部は、前記領域から、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報をさらに読み出し、
    前記代表値、前記終端値、および前記適用フレーム情報に基づいて補間処理を行うことで、前記期間内のフレームの前記メタデータを生成するメタデータ生成部をさらに備える
    請求項2に記載の復号装置。
  4. 前記符号化ビットストリームはAACビットストリームであり、
    前記復号部は、前記領域としてのDSEから前記メタデータを分割して得られた前記データを読み出す
    請求項1に記載の復号装置。
  5. 前記符号化ビットストリームはAACビットストリームであり、
    前記復号部は、前記AACビットストリームのPCEから、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を読み出す
    請求項1に記載の復号装置。
  6. 復号装置が、
    符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームにおける任意のデータを格納可能な複数のフレームの領域のそれぞれから、前記オブジェクトオーディオのメタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得て、
    前記メタデータに基づいて、復号された前記オーディオデータを出力し、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記データから得られた前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
    ステップを含む復号方法。
  7. 符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームにおける任意のデータを格納可能な複数のフレームの領域のそれぞれから、前記オブジェクトオーディオのメタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得て、
    前記メタデータに基づいて、復号された前記オーディオデータを出力し、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記データから得られた前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2019546624A 2017-10-05 2018-09-21 復号装置および方法、並びにプログラム Active JP7358986B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017195064 2017-10-05
JP2017195064 2017-10-05
PCT/JP2018/034981 WO2019069710A1 (ja) 2017-10-05 2018-09-21 符号化装置および方法、復号装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2019069710A1 JPWO2019069710A1 (ja) 2020-11-05
JP7358986B2 true JP7358986B2 (ja) 2023-10-11

Family

ID=65995091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019546624A Active JP7358986B2 (ja) 2017-10-05 2018-09-21 復号装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US11595056B2 (ja)
EP (1) EP3693961B1 (ja)
JP (1) JP7358986B2 (ja)
CN (1) CN111164679B (ja)
RU (1) RU2020111480A (ja)
WO (1) WO2019069710A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102508815B1 (ko) * 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015119477A (ja) 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
WO2015182491A1 (ja) 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
JP2016509249A (ja) 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
WO2016060101A1 (ja) 2014-10-16 2016-04-21 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2016522911A (ja) 2013-05-24 2016-08-04 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2016203994A1 (ja) 2015-06-19 2016-12-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI651005B (zh) 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
KR101751228B1 (ko) 2013-05-24 2017-06-27 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509249A (ja) 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
JP2016522911A (ja) 2013-05-24 2016-08-04 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
JP2015119477A (ja) 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
WO2015182491A1 (ja) 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
WO2016060101A1 (ja) 2014-10-16 2016-04-21 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2016203994A1 (ja) 2015-06-19 2016-12-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Also Published As

Publication number Publication date
KR20200054978A (ko) 2020-05-20
CN111164679A (zh) 2020-05-15
EP3693961B1 (en) 2024-06-12
JPWO2019069710A1 (ja) 2020-11-05
EP3693961A4 (en) 2020-11-11
RU2020111480A3 (ja) 2021-12-08
WO2019069710A1 (ja) 2019-04-11
RU2020111480A (ru) 2021-09-20
CN111164679B (zh) 2024-04-09
EP3693961A1 (en) 2020-08-12
US20200265853A1 (en) 2020-08-20
US11595056B2 (en) 2023-02-28

Similar Documents

Publication Publication Date Title
CN105981411B (zh) 用于高声道计数的多声道音频的基于多元组的矩阵混合
JP7409362B2 (ja) 再生装置および方法、並びにプログラム
ES2705100T3 (es) Método y aparato para analizar un flujo de bits de información lateral de una señal de audio multiobjeto
JP7205566B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP7358986B2 (ja) 復号装置および方法、並びにプログラム
US10679675B2 (en) Multimedia file joining method and apparatus
WO2023202095A1 (zh) 点云媒体的编解码方法、装置、电子设备和存储介质
US20230298600A1 (en) Audio encoding and decoding method and apparatus
JP7107305B2 (ja) 信号処理装置および方法、並びにプログラム
JP6798312B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
KR102683551B1 (ko) 복호 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터 판독가능 기록매체
US20210243485A1 (en) Receiving apparatus, transmission apparatus, receiving method, transmission method, and program
CN116261008A (zh) 音频处理方法和音频处理装置
WO2021124903A1 (ja) 信号処理装置および方法、並びにプログラム
JP2020005201A (ja) 送信装置及び受信装置
KR101114431B1 (ko) 실시간 스트리밍을 위한 오디오 생성장치, 오디오 재생장치 및 그 방법
KR102377449B1 (ko) 다중 코덱 기반의 전방위 몰입형 비디오에 대한 디코딩 방법 및 디코딩 장치
KR102421292B1 (ko) 오디오 객체 신호 재생 시스템 및 그 방법
JP5326724B2 (ja) 映像処理装置および映像処理装置の制御プログラム
CN115966216A (zh) 音频流处理方法及装置
CN115701777A (zh) 自适应音频传输和渲染
KR20160141373A (ko) 영상 재생 장치 및 방법
JP2014175945A (ja) 映像蓄積装置、映像蓄積再生装置、映像蓄積方法及び映像蓄積再生方法
JP2005159878A (ja) データ処理装置及びデータ処理方法、並びにプログラム、記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R151 Written notification of patent or utility model registration

Ref document number: 7358986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151