JP6531649B2 - 符号化装置および方法、復号化装置および方法、並びにプログラム - Google Patents

符号化装置および方法、復号化装置および方法、並びにプログラム Download PDF

Info

Publication number
JP6531649B2
JP6531649B2 JP2015537641A JP2015537641A JP6531649B2 JP 6531649 B2 JP6531649 B2 JP 6531649B2 JP 2015537641 A JP2015537641 A JP 2015537641A JP 2015537641 A JP2015537641 A JP 2015537641A JP 6531649 B2 JP6531649 B2 JP 6531649B2
Authority
JP
Japan
Prior art keywords
gain
value
difference value
difference
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015537641A
Other languages
English (en)
Other versions
JPWO2015041070A1 (ja
Inventor
本間 弘幸
弘幸 本間
徹 知念
徹 知念
潤宇 史
潤宇 史
光行 畠中
光行 畠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2015041070A1 publication Critical patent/JPWO2015041070A1/ja
Application granted granted Critical
Publication of JP6531649B2 publication Critical patent/JP6531649B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Description

本技術は符号化装置および方法、復号化装置および方法、並びにプログラムに関し、特に、より少ない符号量で適切な音量の音声を得ることができるようにした符号化装置および方法、復号化装置および方法、並びにプログラムに関する。
従来、MPEG(Moving Picture Experts Group)AAC(Advanced Audio Coding)(ISO/IEC14496-3:2001)のマルチチャネルオーディオ符号化技術では、ビットストリーム中にダウンミックスやDRC(Dinamic Range Compression)の補助情報を記録し、再生側でその環境に応じて補助情報を使用することができる(例えば、非特許文献1参照)。
このような補助情報を用いれば、再生側において音声信号をダウンミックスしたり、DRCにより適切な音量制御を行ったりすることができる。
Information technology Coding of audiovisual objects Part 3:Audio(ISO/IEC 14496-3:2001)
しかしながら、11.1チャネル(以下、チャネルをchとも記すこととする)等の超多チャネル信号の再生においては、その再生環境は2ch、5.1ch、7.1chなど様々なケースがあり、単一のダウンミックス係数では十分な音圧が得にくかったり、クリッピングが生じてしまったりする。
例えば上述したMPEG AACでは、ダウンミックスやDRCなどの補助情報がMDCT(Modified Discrete Cosine Transform)領域上でのゲインとして符号化されていた。そのため、11.1chのビットストリームをそのまま11.1chで再生するか、または2chにダウンミックスして再生するかで音圧レベルが低かったり、逆に大きくクリッピングしてしまったりすることがあり、適切な音量の音声を得ることが困難であった。
また、再生環境ごとに補助情報を符号化して伝送しようとすると、ビットストリームの符号量が多くなってしまう。
本技術は、このような状況に鑑みてなされたものであり、より少ない符号量で適切な音量の音声を得ることができるようにするものである。
本技術の第1の側面の符号化装置は、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値とをフレームごとに算出するゲイン計算部と、前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化するゲイン符号化部とを備える。
前記ゲイン符号化部には、前記フレーム内の複数の位置での前記第1のゲイン値と前記第2のゲイン値の前記第1の差分値を求めさせるか、または前記フレーム内の複数の位置での前記第1の差分値の間で前記第2の差分値を求めさせることができる。
前記ゲイン符号化部には、前記フレーム内の前記第1の差分値の傾きが変化するゲイン変化点に基づいて前記第2の差分値を求めさせることができる。
前記ゲイン符号化部には、前記ゲイン変化点と、他のゲイン変化点との差分を求めることで、前記第2の差分値を求めさせることができる。
前記ゲイン符号化部には、前記ゲイン変化点と、他のゲイン変化点を用いた1次予測による予測値との差分を求めることで、前記第2の差分値を求めさせることができる。
前記ゲイン符号化部には、前記フレーム内における前記ゲイン変化点の個数と、前記ゲイン変化点における前記第2の差分値に基づく情報を符号化させることができる。
前記ゲイン計算部には、前記ダウンミックスにより得られる異なるチャネル数の音声信号ごとに、前記第2のゲイン値を算出させることができる。
前記ゲイン符号化部には、前記第1のゲイン値と前記第2のゲイン値の相関に基づいて、前記第1の差分値を求めるか否かを選択させることができる。
前記ゲイン符号化部には、前記第1の差分値または前記第2の差分値を可変長符号化させることができる。
本技術の第1の側面の符号化方法またはプログラムは、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値とをフレームごとに算出し、前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化するステップを含む。
本技術の第1の側面においては、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値とがフレームごとに算出され、前記第1のゲイン値と前記第2のゲイン値の第1の差分値が求められ、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値が求められ、前記第1の差分値または前記第2の差分値に基づく情報が符号化される。
本技術の第2の側面の復号化装置は、フレームごとに算出された、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間での第2の差分値を求めることで生成されたゲイン符号列と、前記所定チャネル数の前記音声信号を符号化して得られた信号符号列とに、入力符号列を非多重化する非多重化部と、前記信号符号列を復号化する信号復号化部と、前記ゲイン符号列を復号化して、前記第1のゲイン値または前記第2のゲイン値を出力するゲイン復号化部とを備える。
前記第1の差分値は、前記フレーム内の複数の位置での前記第1のゲイン値と前記第2のゲイン値の差分値を求めることで符号化されており、前記第2の差分値は、前記フレーム内の複数の位置での前記第1の差分値の間での差分値を求めることで符号化されているようにすることができる。
前記第2の差分値が、前記フレーム内の前記第1の差分値の傾きが変化するゲイン変化点から求められることで符号化されているようにすることができる。
前記第2の差分値が、前記ゲイン変化点と、他のゲイン変化点との差分から求められることで符号化されているようにすることができる。
前記第2の差分値が、前記ゲイン変化点と、他のゲイン変化点を用いた1次予測による予測値との差分から求められることで符号化されているようにすることができる。
前記フレーム内における前記ゲイン変化点の個数と、前記ゲイン変化点における前記第2の差分値に基づく情報が前記第2の差分値として符号化されているようにすることができる。
本技術の第2の側面の復号化方法またはプログラムは、フレームごとに算出された、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間での第2の差分値を求めることで生成されたゲイン符号列と、前記所定チャネル数の前記音声信号を符号化して得られた信号符号列とに入力符号列を非多重化し、前記信号符号列を復号化し、前記ゲイン符号列を復号化して、前記第1のゲイン値または前記第2のゲイン値を出力するステップを含む。
本技術の第2の側面においては、フレームごとに算出された、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間での第2の差分値を求めることで生成されたゲイン符号列と、前記所定チャネル数の前記音声信号を符号化して得られた信号符号列とに入力符号列が非多重化され、前記信号符号列が復号化され、前記ゲイン符号列が復号化されて、前記第1のゲイン値または前記第2のゲイン値が出力される。
本技術の第1の側面および第2の側面によれば、より少ない符号量で適切な音量の音声を得ることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
音声信号を符号化した1フレーム分の符号列の例を示す図である。 復号化装置の構成を示す図である。 本技術を適用した符号化装置の構成例を示す図である。 DRC特性を示す図である。 各信号のゲインの相関について説明する図である。 ゲインシーケンス間の差分について説明する図である。 出力符号列の例を示す図である。 ゲイン符号化モードヘッダの例を示す図である。 ゲインシーケンスモードの例を示す図である。 ゲイン符号列の例を示す図である。 0次予測差分モードについて説明する図である。 位置情報の符号化について説明する図である。 符号帳の例を示す図である。 1次予測差分モードについて説明する図である。 時間フレーム間の差分について説明する図である。 時間フレーム間の差分の確率密度分布を示す図である。 符号化処理を説明するフローチャートである。 ゲイン符号化処理を説明するフローチャートである。 本技術を適用した復号化装置の構成例を示す図である。 復号化処理を説明するフローチャートである。 ゲイン復号化処理を説明するフローチャートである。 符号化装置の構成例を示す図である。 符号化処理を説明するフローチャートである。 符号化装置の構成例を示す図である。 符号化処理を説明するフローチャートである。 ゲイン符号化処理を説明するフローチャートである。 復号化装置の構成例を示す図である。 復号化処理を説明するフローチャートである。 ゲイン復号化処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術の概要〉
まず、一般的なMPEG AACのDRC処理について説明する。
図1は、音声信号を符号化して得られたビットストリームに含まれる1フレーム分の情報を示す図である。
図1に示す例では、1フレーム分の情報は、補助情報と主情報とからなる。
主情報は、スケールファクタやMDCT係数などの符号化された音声信号である出力時系列信号を構成するための主となる情報であり、補助情報は一般的にメタデータと呼ばれる出力時系列信号を様々な用途に活用するために有用な補助的な情報である。この補助情報には、ゲイン情報とダウンミックス情報とが含まれている。
ダウンミックス情報は、例えば11.1chなどの複数のチャネルからなる音声信号から、より少ないチャネル数の音声信号に変換するためのゲイン係数がインデックスの形で符号化されたものである。音声信号の復号化時には、各チャネルのMDCT係数にダウンミックス情報から得られるゲイン係数を乗算し、ゲイン係数が乗算された各チャネルのMDCT係数を加算することで、ダウンミックス後の出力チャネルのMDCT係数を得ることができる。
一方、ゲイン情報は、全チャネルまたはある特定のチャネルからなるグループの対を別の信号レベルに変換するためのゲイン係数がインデックスの形で符号化されたものである。ゲイン情報についてもダウンミックスのゲイン係数と同様に、復号化時に各チャネルのMDCT係数にゲイン情報から得られたゲイン係数を乗じることで、DRC処理後のMDCT係数を得ることができる。
次に、このような図1に示した情報が含まれたビットストリーム、すなわちMPEG AACの復号化処理について説明する。
図2は、MPEG AACの復号化処理を行う復号化装置の構成を示す図である。
図2に示す復号化装置11では、入力ビットストリームの1フレーム分の入力符号列が非多重化回路21に供給されると、非多重化回路21は入力符号列を主情報に相当する信号符号列と、補助情報に相当するゲイン情報およびダウンミックス情報とに非多重化する。
復号化・逆量子化回路22は、非多重化回路21から供給された信号符号列に対する復号化および逆量子化を行って、その結果得られたMDCT係数をゲイン適用回路23に供給する。また、ゲイン適用回路23は、ダウンミックス制御情報とDRC制御情報に基づいて、非多重化回路21から供給されたゲイン情報とダウンミックス情報から得られるゲイン係数のそれぞれをMDCT係数に乗算し、得られたゲイン適用MDCT係数を出力する。
ここで、ダウンミックス制御情報とDRC制御情報は、それぞれ上位の制御装置から与えられる情報であり、ダウンミックスおよびDRCの処理を行うか否かを示す情報である。
逆MDCT回路24は、ゲイン適用回路23からのゲイン適用MDCT係数に対して逆MDCT処理を施し、得られた逆MDCT信号を窓掛け・OLA回路25に供給する。そして、窓掛け・OLA回路25は、供給された逆MDCT信号に対して窓掛けおよびオーバーラップ加算処理を行い、MPEG AACの復号化装置11の出力となる出力時系列信号が得られる。
このようにMPEG AACでは、ダウンミックスやDRCの補助情報が、MDCT領域上でのゲインとして符号化されている。そのため、例えば11.1chのビットストリームをそのまま11.1chで再生するか、または2chにダウンミックスして再生するかで音圧レベルが低かったり、逆に大きくクリッピングしてしまったりすることがあり、適切な音量の音声を得ることができない場合があった。
例えば、MPEG AAC(ISO/IEC14496-3:2001)では、4.5.1.2.2節のMatrix-Mixdown processにおいて、5.1chから2chへのダウンミックス方法が次式(1)のように記載されている。
Figure 0006531649
なお、式(1)において、L、R、C、Sl、およびSrは、それぞれ5.1チャネル信号の左チャネル、右チャネル、センターチャネル、サイドレフトチャネル、およびサイドライトチャネルの信号を示している。また、LtおよびRtは、それぞれ2chへのダウンミックス後の左チャネルおよび右チャネルの信号を示している。
さらに、式(1)においてkはサイドチャネルの混合率を調整するための係数であり、係数kとして1/sqrt(2)、1/2、(1/2sqrt(2))、および0のなかから1つを選択することができるようになっている。
ここで、ダウンミックス後のクリップが生じるケースは、全チャネルが最大振幅の信号となる場合である。すなわちL、R、C、Sl、およびSrの各チャネルの信号の振幅が全て1.0であると仮定すると、式(1)によれば、kの値にかかわらずLtおよびRtの信号の振幅もそれぞれ1.0となる。つまりクリップ歪が発生しないダウンミックス式となっていることが保証されている。
但し、係数k=1/sqrt(2)である場合、式(1)におけるLまたはRのゲインは-7.65dBとなり、Cのゲインは-10.65dBとなり、SlまたはSrのゲインは-10.65dBとなる。したがって、クリップ歪が発生しないこととのトレードオフとして、ダウンミックス前の信号レベルから大幅に信号レベルが減少することになる。
このような信号レベルの低下を懸念し、MPEG AAC を用いた日本の地上デジタル放送においては、デジタル放送用受信装置標準規格 ARIB(Association of Radio Industries and Business) STD-B21 5.0版の6.2.1節(7-1)において、ダウンミックス方法が次式(2)のように記載されている。
Figure 0006531649
なお、式(2)においてL、R、C、Sl、Sr、Lt、Rt、およびkは式(1)における場合と同一である。
この例では、係数kとして、式(1)における場合と同様に1/sqrt(2)、1/2、(1/2sqrt(2))、および0のなかから1つを選択することができるようになっている。
式(2)ではk=1/sqrt(2)である場合、式(2)中のLまたはRのゲインは-3dBとなり、Cのゲインは-6dBとなり、SlまたはSrのゲインは-6dBとなって式(1)と比べてダウンミックス前後のレベルの変化が少ない。
但し、この場合、L、R、C、Sl、およびSrが全て1.0であったときにはクリップが発生する。しかし、ARIB STD-B21 5.0版 付属-4の記載においては、このダウンミックス式を用いた場合に、一般的な信号でクリップ歪が発生することは極めてまれであり、オーバーフローが発生した場合にも、符号反転しないような、いわゆるソフトクリップ処理を施しておけば、聴感上は大きな歪とはならないという旨の記述がある。
しかしながら、上記の例はチャネル数が5.1チャネルの場合であり、これが11.1チャネルや、さらに多くのチャネルを符号化し、ダウンミックスするようなケースではクリップ歪の発生やレベルの変化がさらに顕著になる。
そこで、例えばDRCの補助情報をゲインとして符号化するかわりに、既知のDRC特性のインデックスを符号化する方法をとることも考えられる。そのような場合、復号化の際に復号化後のPCM(Pulse Code Modulation)信号、すなわち上述した出力時系列信号上で、このインデックスのDRC特性になるように、DRC処理を行うことでダウンミックスの有無による音圧レベルの低下やクリッピングの発生を抑制することができる。
しかしながら、このような方法では、DRCの特性情報を復号化装置側で持つことになるため、コンテンツ制作者側が自由なDRC特性を表現することができず、また復号化装置側でDRC処理そのものを行うため、計算量が多くなってしまう。
一方で、ダウンミックス後の信号レベルの低下やクリップ歪の発生を防止するために、ダウンミックスの有無によって、異なるDRCのゲイン係数を適用する方法が考えられる。
ところが、従来の5.1チャネルよりもチャネル数が極めて多い場合、ダウンミックスされるチャネル数のパターンも多くなる。例えば、11.1chの信号から7.1ch、5.1ch、2chへとダウンミックスされるケースが考えられ、上述したように複数のゲインを送る場合には、4倍の符号量の増加となる。
また、近年DRCは視聴環境においてレンジの異なるDRC係数を適用したいといった需要も増えてきている。例えば、家庭内での試聴やモバイル端末を用いた視聴では、要求されるダイナミックレンジが異なり、異なるDRC係数を適用したほうが好ましい。この場合、各ダウンミックスのケースでそれぞれ2個の異なるレンジのDRC係数を復号化側に送信する場合、1つのDRC係数を送信する場合と比べて8倍の符号量の増加となる。
さらには、MPEG AAC(ISO/IEC14496-3:2001)のような、時間フレームあたり1個(ショートウィンドウ時には8個)のDRCゲイン係数を符号化するような方法では、時間分解能が不足しており1msec以下の時間分解能が要求されている。このようにさらなるDRCゲイン係数の増加が見込まれており、単純に既存の方法でDRCゲイン係数を符号化する場合、約8倍から数十倍程度の符号量の増加となる。
そこで、本技術では、符号化装置側でコンテンツ制作者が自由なDRCのゲインを設定でき、かつ復号化装置側での計算負荷を軽くしながら、伝送に必要な符号量を削減できるようにした。すなわち、本技術は、より少ない符号量で適切な音量の音声を得ることができるようにするものである。
〈符号化装置の構成例〉
次に、本技術を適用した具体的な実施の形態について説明する。
図3は、本技術を適用した符号化装置の一実施の形態の機能の構成例を示す図である。
図3に示す符号化装置51は、第一音圧レベル計算回路61、第一ゲイン計算回路62、ダウンミックス回路63、第二音圧レベル計算回路64、第二ゲイン計算回路65、ゲイン符号化回路66、信号符号化回路67、および多重化回路68を有している。
第一音圧レベル計算回路61は、供給されたマルチチャネルの音声信号である入力時系列信号に基づいて、入力時系列信号を構成する各チャネルの音圧レベルを計算し、それらのチャネルごとの音圧レベルの代表値を第一音圧レベルとして求める。
例えば、音圧レベルの計算方法は、入力時系列信号を構成するチャネルの音声信号の時間フレームの最大値やRMS(Root Mean Square)などとされ、入力時系列信号の各時間フレームについて、入力時系列信号を構成するチャネルごとに音圧レベルが求められる。
また、第一音圧レベルとされる代表値の計算方法としては、例えば各チャネルの音圧レベルのうちの最大値を代表値とする手法や、各チャネルの音圧レベルから特定の計算式で1つの代表値を算出する手法などを用いることができる。具体的には、例えばITU-R BS.1770-2(03/2011)に記載のラウドネス計算式を用いて代表値を算出することが可能である。
なお、音圧レベルの代表値は入力時系列信号の各時間フレームについて求められる。また、第一音圧レベル計算回路61で処理単位とされる時間フレームは、後述する信号符号化回路67で処理される入力時系列信号の時間フレームと同期し、信号符号化回路67での時間フレーム以下の長さの時間フレームとされる。
第一音圧レベル計算回路61は、求めた第一音圧レベルを第一ゲイン計算回路62に供給する。このようにして得られた第一音圧レベルは、例えば11.1chなどの所定数のチャネルの音声信号からなる入力時系列信号のチャネルの代表的な音圧レベルを示している。
第一ゲイン計算回路62は、第一音圧レベル計算回路61から供給された第一音圧レベルに基づいて第一ゲインを計算し、ゲイン符号化回路66に供給する。
ここで、第一ゲインは、復号化装置側において入力時系列信号を再生したときに最適な音量の音声が得られるように、入力時系列信号を音量補正するときのゲインを示している。換言すれば、入力時系列信号に対するダウンミックスが行われない場合、入力時系列信号を第一ゲインで音量補正すれば、再生側において最適な音量の音声を得ることができる。
第一ゲインを得る手法は様々なものがあるが、例えば図4に示すようなDRCの特性を用いることができる。
なお、図4において、横軸は入力音圧レベル(dBFS)、すなわち第一音圧レベルを示しており、縦軸は出力音圧レベル(dBFS)、すなわちDRC処理により入力時系列信号を音圧レベル補正(音量補正)したときの補正後の音圧レベルを示している。
折れ線C1および折れ線C2は、それぞれ入出力音圧レベルの関係を示している。例えば、折れ線C1に示されるDRC特性によれば、0dBFSの第一音圧レベルの入力があった場合、入力時系列信号の音圧レベルが-27dBFSとなるように音量補正される。したがって、この場合には、第一ゲインは-27dBFSとされる。
一方、例えば、折れ線C2に示されるDRC特性によれば、0dBFSの第一音圧レベルの入力があった場合、入力時系列信号の音圧レベルが-21dBFSとなるように音量補正される。したがって、この場合には、第一ゲインは-21dBFSとされる。
以下では、折れ線C1に示されるDRC特性で音量補正を行うモードをDRC_MODE1と称することとする。また、折れ線C2に示されるDRC特性で音量補正を行うモードをDRC_MODE2と称することとする。
第一ゲイン計算回路62では、DRC_MODE1やDRC_MODE2などの指定されたモードのDRC特性に従って第一ゲインが決定される。この第一ゲインは、信号符号化回路67の時間フレームと同期したゲイン波形として出力される。すなわち、第一ゲイン計算回路62では、入力時系列信号の処理対象となっている時間フレームを構成するサンプルごとに第一ゲインが算出される。
図3の説明に戻り、ダウンミックス回路63は、符号化装置51に供給された入力時系列信号に対して、上位の制御装置から供給されたダウンミックス情報を用いてダウンミックス処理を行い、その結果得られたダウンミックス信号を第二音圧レベル計算回路64に供給する。
なお、ダウンミックス回路63からは、1つのダウンミックス信号が出力されるようにしてもよいし、複数のダウンミックス信号が出力されるようにしてもよい。例えば11.1chの入力時系列信号に対してダウンミックス処理が行われ、2chの音声信号であるダウンミックス信号、5.1chの音声信号であるダウンミックス信号、および7.1chの音声信号であるダウンミックス信号が生成されるようにしてもよい。
第二音圧レベル計算回路64は、ダウンミックス回路63から供給されたマルチチャネルの音声信号であるダウンミックス信号に基づいて第二音圧レベルを計算し、第二ゲイン計算回路65に供給する。
第二音圧レベル計算回路64では、第一音圧レベル計算回路61における第一音圧レベルの計算手法と同じ手法が用いられて、ダウンミックス信号ごとに第二音圧レベルが計算される。
第二ゲイン計算回路65は、第二音圧レベル計算回路64から供給された各ダウンミックス信号の第二音圧レベルについて、ダウンミックス信号ごとに第二音圧レベルに基づいて第二ゲインを計算し、ゲイン符号化回路66に供給する。
ここで、第二ゲイン計算回路65では、第一ゲイン計算回路62で用いられたDRC特性およびゲイン計算方法によって第二ゲインが計算される。
したがって、第二ゲインは、復号化装置側において入力時系列信号をダウンミックスして再生したときに最適な音量の音声が得られるように、ダウンミックス信号を音量補正するときのゲインを示している。換言すれば、入力時系列信号に対するダウンミックスが行われた場合、得られたダウンミックス信号を第二ゲインで音量補正すれば、最適な音量の音声を得ることができる。
このような第二ゲインは、DRC特性に従って音声の音量をより最適な音量に補正するとともに、ダウンミックスにより変化する音圧レベルを補正するためのゲインであるということができる。
ここで、第一ゲイン計算回路62および第二ゲイン計算回路65において、第一ゲインや第二ゲインなどのゲイン波形を得る方法の一例について具体的に説明する。
時間フレームkにおけるゲイン波形g(k, n)は、次式(3)を計算することにより求めることができる。
Figure 0006531649
なお、式(3)においてnは、時間フレーム長をNとしたときに0からN-1までの値をとる時間サンプルを示しており、Gt(k)は時間フレームkにおける目標ゲインを示している。
また、式(3)におけるAは次式(4)により定まる値とされる。
Figure 0006531649
式(4)において、Fsはサンプリング周波数(Hz)を示しており、Tc(k)は時間フレームkにおける時定数を示しており、exp(x)は指数関数を表している。
また式(3)において、n=0である場合におけるg(k, n-1)としては、直前の時間フレームにおける末端のゲイン値g(k-1,N-1)が用いられる。
まず、Gt(k)は前述の第一音圧レベル計算回路61または第二音圧レベル計算回路64で得られた第一音圧レベルまたは第二音圧レベルと、図4に示したDRC特性によって得ることができる。
例えば、図4に示したDRC_MODE2の特性を利用した場合に、音圧レベルが-3dBFSであった場合、出力音圧レベルは-21dBFSであるので、Gt(k)はデシベル値では-18dBとなる。次に、時定数Tc(k)は、前述のGt(k)と前時間フレームのゲインg(k-1,N-1)の差から求めることができる。
DRCの一般的な特徴として、大きな音圧レベルが入力されゲインを下げる場合をアタックと呼び、ゲインを急激に下げるため時定数を短くとることが知られている。一方、音圧レベルが比較的小さくゲインを戻す場合をリリースと呼び、音のふらつきをおさえるためにゆっくりとゲインを戻すため時定数を長くとることが知られている。
この時定数は、所望のDRCの特性によって異なるのが一般的である。例えばボイスレコーダのような人の声を記録再生する機器では時定数が短めに設定され、一方で、携帯音楽プレイヤー等の音楽記録再生用途の機器ではリリースの時定数が長めに設定されるのが一般的である。本実施例の説明においては、説明を簡単にするため、Gt(k)-g(k-1,N-1)がゼロ未満であればアタックとして時定数を20ミリ秒とし、ゼロ以上であればリリースとして時定数を2秒とすることとする。
以上のように式(3)に従って計算を行うと、第一ゲインや第二ゲインとなるゲイン波形g(k, n)を得ることができる。
図3の説明に戻り、ゲイン符号化回路66は、第一ゲイン計算回路62から供給された第一ゲインと、第二ゲイン計算回路65から供給された第二ゲインとを符号化し、その結果得られたゲイン符号列を多重化回路68に供給する。
ここで、第一ゲインおよび第二ゲインの符号化では、それらのゲインの同じ時間フレーム内での差分、同じゲインの異なる時間フレーム間での差分、および同じ(対応する)時間フレームの異なるゲインの差分が適宜算出されて符号化される。なお、異なるゲインの差分とは、第一ゲインと第二ゲインの差分、または異なる第二ゲイン間の差分である。
信号符号化回路67は、供給された入力時系列信号を、所定の符号化方式、例えばMEPG AACによる符号化手法に代表される一般的な符号化手法により符号化し、その結果得られた信号符号列を多重化回路68に供給する。多重化回路68は、ゲイン符号化回路66から供給されたゲイン符号列、上位の制御装置から供給されたダウンミックス情報、および信号符号化回路67から供給された信号符号列を多重化し、その結果得られた出力符号列を出力する。
〈第一ゲインおよび第二ゲインについて〉
ここで、ゲイン符号化回路66に供給される第一ゲインおよび第二ゲインと、ゲイン符号化回路66から出力されるゲイン符号列の例について説明する。
例えば、ゲイン符号化回路66に供給される第一ゲインおよび第二ゲインとして、図5に示すゲイン波形が得られたとする。なお、図5において横軸は時間を示しており、縦軸はゲイン(dB)を示している。
図5の例では、折れ線C21は、第一ゲインとして得られた11.1chの入力時系列信号のゲインを表しており、折れ線C22は、第二ゲインとして得られた5.1chのダウンミックス信号のゲインを表している。ここで、5.1chのダウンミックス信号は、11.1chの入力時系列信号をダウンミックスすることで得られた音声信号である。
また、折れ線C23は、第一ゲインと第二ゲインの差分を表している。
折れ線C21乃至折れ線C23から分かるように、第一ゲインと第二ゲインには高い相関があり、それぞれ独立に符号化するよりも両者の相関を利用して符号化する方が効率的である。そこで、符号化装置51では、第一ゲインや第二ゲインなどのゲイン情報のうちの2つのゲインの差分が求められ、その差分と、差分を求めた一方のゲインとが、それぞれ効率的に符号化されるようになされている。
以下においては、第一ゲインや第二ゲインのゲイン情報のうち、被差分となる主たるゲイン情報をマスターゲインシーケンスとも称し、このマスターゲインシーケンスとの差分値が求められるゲイン情報をスレーブゲインシーケンスとも称することとする。また、マスターゲインシーケンスとスレーブゲインシーケンスを特に区別しない場合には、ゲインシーケンスと称することとする。
〈出力符号列について〉
また、以上の説明では、11.1chの入力時系列信号のゲインを第一ゲインとし、5.1chのダウンミックス信号のゲインを第二ゲインとする例について説明した。以下では、マスターゲインシーケンスとスレーブゲインシーケンスとの関係を詳細に説明するため、さらに11.1chの入力時系列信号をダウンミックスして得られた、7.1chのダウンミックス信号のゲインと、2chのダウンミックス信号のゲインとがあるものとして説明を続ける。すなわち、7.1chのゲインと2chのゲインは、それぞれ第二ゲイン計算回路65において求められた第二ゲインである。したがって、この例では、第二ゲイン計算回路65では3つの第二ゲインが計算されることになる。
図6は、マスターゲインシーケンスとスレーブゲインシーケンスとの関係の一例を示す図である。なお、図6において横軸は時間フレームを示しており、縦軸は各ゲインシーケンスを表している。
この例では、GAIN_SEQ0は、11.1chのゲインシーケンス、つまりダウンミックスされていない11.1chの入力時系列信号の第一ゲインを表している。また、GAIN_SEQ1は、7.1chのゲインシーケンス、つまりダウンミックスで得られた7.1chのダウンミックス信号の第二ゲインを表している。
さらに、GAIN_SEQ2は、5.1chのゲインシーケンス、つまり5.1chのダウンミックス信号の第二ゲインを表しており、GAIN_SEQ3は、2chのゲインシーケンス、つまり2chのダウンミックス信号の第二ゲインを表している。
また、図中、「M1」は1番目のマスターゲインシーケンスを表しており、「M2」は2番目のマスターゲインシーケンスを表している。さらに、図中、「M1」または「M2」に記された矢印の終点は、「M1」または「M2」で表されているマスターゲインシーケンスに対するスレーブゲインシーケンスを示している。
時間フレームJに注目すると、この時間フレームJでは11.1chのゲインシーケンスがマスターゲインシーケンスとされている。また、他の7.1ch、5.1ch、および2chのゲインシーケンスは、11.1chのゲインシーケンスに対するスレーブゲインシーケンスとされている。
そのため、時間フレームJでは、マスターゲインシーケンスである11.1chのゲインシーケンスは、そのまま符号化される。そして、スレーブゲインシーケンスである7.1ch、5.1ch、および2chのゲインシーケンスは、マスターゲインシーケンスとの差分が求められ、その差分が符号化される。このようにして各ゲインシーケンスを符号化して得られる情報が、ゲイン符号列とされる。
さらに、この時間フレームJでは、マスターゲインシーケンスとスレーブゲインシーケンスの関係であるゲイン符号化モードを示す情報が符号化されて、ゲイン符号化モードヘッダHD11とされ、ゲイン符号列とともに出力符号列に付加される。
このゲイン符号化モードヘッダは、処理対象となっている時間フレームにおけるゲイン符号化モードが、直前の時間フレームにおけるゲイン符号化モードと異なる場合に生成され、出力符号列に付加される。
したがって、時間フレームJの次のフレームである時間フレームJ+1では、ゲイン符号化モードが時間フレームJと同じであるので、ゲイン符号化モードヘッダの符号化は行われない。
これに対して、時間フレームKでは、マスターゲインシーケンスとスレーブゲインシーケンスとの対応関係に変化があり、ゲイン符号化モードが直前の時間フレームのものとは異なるので、ゲイン符号化モードヘッダHD12が出力符号列に付加されている。
この例では、11.1chのゲインシーケンスがマスターゲインシーケンスとされており、7.1chのゲインシーケンスが、11.1chのゲインシーケンスに対するスレーブゲインシーケンスとされている。また、5.1chのゲインシーケンスが2番目のマスターゲインシーケンスとされており、2chのゲインシーケンスが、5.1chのゲインシーケンスに対するスレーブゲインシーケンスとされている。
続いて、図6に示すように時間フレームとともにゲイン符号化モードが変化する場合に符号化装置51から出力されるビットストリーム、すなわち各時間フレームの出力符号列の例について、具体的に説明する。
符号化装置51から出力されるビットストリームは、例えば図7に示すように各時間フレームの出力符号列からなり、各出力符号列には、補助情報と主情報が含まれている。
例えば時間フレームJでは、図6に示したゲイン符号化モードヘッダHD11に対応するゲイン符号化モードヘッダと、ゲイン符号列と、ダウンミックス情報とが補助情報の構成要素として出力符号列に含まれている。
ここで、ゲイン符号列は、図6の例では11.1ch乃至2chの4つのゲインシーケンスを符号化して得られた情報である。また、ダウンミックス情報は、図1に示したダウンミックス情報と同じであり、復号化装置側において入力時系列信号をダウンミックスするときに必要となるゲイン係数を得るための情報(インデックス)である。
また、時間フレームJの出力符号列には、信号符号列が主情報として含まれている。
時間フレームJに続く時間フレームJ+1では、ゲイン符号化モードに変化がないので、補助情報にはゲイン符号化モードヘッダが含まれておらず、補助情報としてのゲイン符号列およびダウンミックス情報と、主情報としての信号符号列が出力符号列に含まれている。
時間フレームKでは、再びゲイン符号化モードが変化したので、補助情報としてのゲイン符号化モードヘッダ、ゲイン符号列、およびダウンミックス情報と、主情報としての信号符号列が出力符号列に含まれている。
さらに、以下、図7に示したゲイン符号化モードヘッダとゲイン符号列について詳細に説明していく。
出力符号列に含まれるゲイン符号化モードヘッダは、例えば図8に示す構成とされる。
図8に示すゲイン符号化モードヘッダにはGAIN_SEQ_NUM、GAIN_SEQ0、GAIN_SEQ1、GAIN_SEQ2、およびGAIN_SEQ3が含まれており、それらのデータが各2バイトで符号化される。
GAIN_SEQ_NUMは、符号化されるゲインシーケンスの個数を示しており、図6に示した例では4つのゲインシーケンスが符号化されるので、GAIN_SEQ_NUM=4となっている。また、GAIN_SEQ0乃至GAIN_SEQ3は、各ゲインシーケンスの内容を示すデータ、すなわちゲインシーケンスモードのデータであり、図6の例では11.1ch、7.1ch、5.1ch、および2chのゲインシーケンスに関する情報がそれぞれ格納される。
これらのGAIN_SEQ0乃至GAIN_SEQ3の各ゲインシーケンスモードのデータは、例えば図9に示す構成とされる。
ゲインシーケンスモードのデータには、MASTER_FLAG、DIFF_SEQ_ID、DMIX_CH_CFG_ID、およびDRC_MODE_IDが含まれており、これらの4つの要素はそれぞれ4ビットで符号化されている。
MASTER_FLAGは、このゲインシーケンスモードのデータで記述されているゲインシーケンスがマスターゲインシーケンスか否かを示す識別子である。
例えば、MASTER_FLAGの値が「1」である場合、ゲインシーケンスはマスターゲインシーケンスであるとされ、MASTER_FLAGの値が「0」である場合、ゲインシーケンスはスレーブゲインシーケンスであるとされる。
DIFF_SEQ_IDは、このゲインシーケンスモードのデータで記述されているゲインシーケンスが、どのマスターゲインシーケンスとの差分が計算されるかを示す識別子であり、MASTER_FLAGの値が「0」である場合に読み出される。
DMIX_CH_CFG_IDは、このゲインシーケンスが対応するチャネルの構成情報、つまり例えば11.1chや7.1chなどのマルチチャネルの音声信号のチャネル数を示す情報とされる。
DRC_MODE_IDは、第一ゲイン計算回路62または第二ゲイン計算回路65でのゲイン算出で用いられたDRCの特性を表す識別子であり、例えば図4に示した例では、DRC_MODE1またはDRC_MODE2の何れかを示す情報とされる。
なお、マスターゲインシーケンスと、スレーブゲインシーケンスとでDRC_MODE_IDが異なる場合もある。すなわち、互いに異なるDRCの特性に従ってゲインが求められたゲインシーケンス同士で差分が求められることもある。
ここで、例えば図6に示した時間フレームJでは、11.1chのゲインシーケンスに関する情報が図8のGAIN_SEQ0(ゲインシーケンスモード)に格納される。
そして、そのゲインシーケンスモードではMASTER_FLAGが1とされ、DIFF_SEQ_IDが0とされ、DMIX_CH_CFG_IDが11.1chを示す識別子とされ、DRC_MODE_IDが例えばDRC_MODE1を示す識別子とされて、ゲインシーケンスモードが符号化される。
同様に、7.1chのゲインシーケンスに関する情報が格納されるGAIN_SEQ1では、MASTER_FLAGが0とされ、DIFF_SEQ_IDが0とされ、DMIX_CH_CFG_IDが7.1chを示す識別子とされ、DRC_MODE_IDが例えばDRC_MODE1を示す識別子とされて、ゲインシーケンスモードが符号化される。
また、GAIN_SEQ2では、MASTER_FLAGが0とされ、DIFF_SEQ_IDが0とされ、DMIX_CH_CFG_IDが5.1chを示す識別子とされ、DRC_MODE_IDが例えばDRC_MODE1を示す識別子とされて、ゲインシーケンスモードが符号化される。
そして、GAIN_SEQ3では、MASTER_FLAGが0とされ、DIFF_SEQ_IDが0とされ、DMIX_CH_CFG_IDが2chを示す識別子とされ、DRC_MODE_IDが例えばDRC_MODE1を示す識別子とされて、ゲインシーケンスモードが符号化される。
また、上述したように時間フレームJ+1以降においては、マスターゲインシーケンスとスレーブゲインシーケンスとの対応関係に変化が無い場合には、ゲイン符号化モードヘッダはビットストリームには挿入されない。
一方、マスターゲインシーケンスとスレーブゲインシーケンスとの対応関係に変化がある場合、ゲイン符号化モードヘッダが符号化される。
例えば図6に示した時間フレームKでは、これまでスレーブゲインシーケンスであった5.1chのゲインシーケンス(GAIN_SEQ2)が、2番目のマスターゲインシーケンスとなっている。また、2chのゲインシーケンス(GAIN_SEQ3)が、5.1chのゲインシーケンスのスレーブゲインシーケンスとなっている。
そのため、この時間フレームKでは、ゲイン符号化モードヘッダのGAIN_SEQ0とGAIN_SEQ1は時間フレームJにおける場合と同一であるが、GAIN_SEQ2とGAIN_SEQ3が変化する。
すなわち、GAIN_SEQ2では、MASTER_FLAGが1とされ、DIFF_SEQ_IDが0とされ、DMIX_CH_CFG_IDが5.1chを示す識別子とされ、DRC_MODE_IDが例えばDRC_MODE1を示す識別子とされる。また、GAIN_SEQ3では、MASTER_FLAGが0とされ、DIFF_SEQ_IDが2とされ、DMIX_CH_CFG_IDが2chを示す識別子とされ、DRC_MODE_IDが例えばDRC_MODE1を示す識別子とされる。ここで、マスターゲインシーケンスである5.1chのゲインシーケンスについては、DIFF_SEQ_IDの読み出しは不要であるので、DIFF_SEQ_IDの値はどのような値とされてもよい。
さらに、図7に示した出力符号列の補助情報に含まれるゲイン符号列は、例えば図10に示すように構成される。
図10に示すゲイン符号列では、GAIN_SEQ_NUMは、ゲイン符号化モードヘッダに符号化されたゲインシーケンスの個数を示している。そして、GAIN_SEQ_NUMに示される個数分のゲインシーケンスの情報が、GAIN_SEQ_NUM以降に記述される。
GAIN_SEQ_NUMに続いて配置されるhld_modeは、時間的に直前の時間フレームのゲインを保持するか否かを示すフラグであり1ビットで符号化される。なお、図10において、uimsbfは、Unsigned Integer Most Significant Bit Firstを表しており、符号無し整数がMSB側を先頭ビットに符号化されていることを表している。
例えばhld_modeの値が1であれば、直前の時間フレームのゲイン、すなわち例えば復号化で得られた第一ゲインや第二ゲインが、現時間フレームのゲインとしてそのまま用いられる。したがってこの場合、第一ゲインや第二ゲインが時間フレーム間の差分を求めることにより符号化されるということができる。
一方、hld_modeの値が0であれば、現時間フレームのゲインとしてhld_mode以降に記述されている情報から得られるゲインが用いられる。
hld_modeの値が0である場合、hld_modeに続いてcmodeが2ビットで記述され、gpnumが6ビットで記述されている。
cmodeは、以降に符号化されるゲイン変化点からゲイン波形を生成するための符号化方法を表している。
特にcmodeの下位1ビットは、ゲイン変化点の差分符号化モードを表している。具体的には、cmodeの下位1ビットの値が0であった場合、ゲインの符号化方法が0次予測差分モード(以下、DIFF1モードとも称する)であることを示しており、cmodeの下位1ビットの値が1であった場合、ゲインの符号化方法が1次予測差分モード(以下、DIFF2モードとも称する)であることを示している。
ここで、ゲイン変化点とは、時間フレームの各時刻(サンプル)におけるゲインからなるゲイン波形において、前後の時刻でゲインの傾きが変化する時刻をいう。なお、以下では、ゲイン変化点の候補点とされる時刻(サンプル)が予め定められており、それらの候補点のうち、前後の時刻でゲインの傾きが変化する候補点がゲイン変化点とされるものとして説明を続ける。また、処理対象のゲインシーケンスがスレーブゲインシーケンスであるときには、マスターゲインシーケンスとのゲインの差分の波形において、そのゲイン(差分)の傾きが前後の時刻で変化する時刻がゲイン変化点となる。
0次予測差分モードは各時刻、すなわち各サンプルにおけるゲインからなるゲイン波形を符号化するときに、各ゲイン変化点のゲインを直前のゲイン変化点のゲインとの差分を求めることで符号化を行うモードである。換言すれば0次予測差分モードは、ゲイン波形の復号化時に、各時刻のゲインを他の時刻のゲインとの差分を利用して復号化を行うモードである。
これに対して、1次予測差分モードは、ゲイン波形を符号化するときに、各ゲイン変化点のゲインを直前のゲイン変化点を通る1次関数により、つまり1次予測により予測し、その予測値(1次予測値)と実際のゲインとの差分を求めることで符号化を行うモードである。
一方、cmodeの上位1ビットは、時間フレーム先頭のゲインを符号化するか否かを示している。具体的には、cmodeの上位1ビットが0であった場合、時間フレーム先頭のゲインが12ビットの固定長で符号化され、図10中のgval_abs_id0として記述される。
gval_abs_id0のMSB1ビットは符号ビットとなり、残りの11ビットは0.25dBステップで次式(5)により定まる「gval_abs_id0」の値(ゲイン)とされる。
Figure 0006531649
なお、式(5)においてgain_abs_linearはリニア値のゲイン、すなわちマスターゲインシーケンスのゲインである第一ゲイン若しくは第二ゲインか、またはマスターゲインシーケンスとスレーブゲインシーケンスのゲインの差分を示している。ここで、gain_abs_linearは時間フレームの先頭のサンプル位置のゲインである。また、式(5)において「^」はべき乗を表している。
さらにcmodeの上位1ビットが1であった場合、復号化時において直前の時間フレーム終端のゲイン値が、現時間フレームの先頭のゲイン値とされることを示している。
また、図10のゲイン符号列ではgpnumは、ゲイン変化点の数を示している。
さらにゲイン符号列ではgpnumまたはgval_abs_id0に続いてgloc_id[k]およびgval_diff_id[k]がgpnumに示されるゲイン変化点の数だけ記述されている。
ここで、gloc_id[k]およびgval_diff_id[k]は、ゲイン変化点、およびそのゲイン変化点の符号化されたゲインを示している。なお、gloc_id[k]およびgval_diff_id[k]におけるkは、ゲイン変化点を特定するインデックスであり、何番目のゲイン変化点であるかを示している。
この例では、gloc_id[k]は3ビットで記述され、gval_diff_id[k]は1ビットから11ビットまでの何れかのビット数で記述されている。なお、図10中のvlclbfは、Variable Length Code Left Bit Firstを表しており、可変長符号の左ビットを先頭として符号化されていることを意味している。
ここで、0次予測差分モード(DIFF1モード)と1次予測差分モード(DIFF2モード)について、より具体的に説明する。
まず、図11を参照して0次予測差分モードについて説明する。なお、図11において、横軸は時間(サンプル)を示しており、縦軸はゲインを示している。
図11では、折れ線C31は、処理対象となっているゲインシーケンスのゲイン、より詳細にはマスターゲインシーケンスのゲイン(第一ゲインまたは第二ゲイン)、またはマスターゲインシーケンスとスレーブゲインシーケンスのゲインの差分値を示している。
また、この例では、処理対象となっている時間フレームJからは、2つのゲイン変化点G11とゲイン変化点G12が検出されており、PREV11は時間フレームJの先頭位置、つまり時間フレームJ−1の終端位置を示している。
まず、ゲイン変化点G11の位置gloc[0]が、時間フレームJの先頭からの時間サンプル値を表す位置情報として3ビットで符号化される。
具体的には、ゲイン変化点は図12に示すテーブルに基づいて符号化される。
図12において、gloc_idは図10に示したゲイン符号列におけるgloc_id[k]として記述される値を示しており、gloc[gloc_id]はゲイン変化点の候補点の位置、すなわち時間フレーム先頭のサンプルもしくは直前のゲイン変化点から、候補点のサンプルまでのサンプル数を示している。
この例では、時間フレーム内に不等間隔で並んでいる、時間フレームの先頭から0、16、32、64、128、256、512、および1024個目のサンプルのそれぞれがゲイン変化点の候補点とされている。
したがって、例えばゲイン変化点G11が時間フレームJの先頭のサンプルから512番目の位置にあるサンプルである場合、gloc[gloc_id]=512に対応するgloc_idの値である「6」がk=0番目のゲイン変化点の位置を示すgloc_id[0]としてゲイン符号列に記述される。
図11の説明に戻り、続いてゲイン変化点G11のゲイン値gval[0]が、時間フレームJの先頭位置PREV11のゲイン値との差分として符号化される。この差分は図10に示したゲイン符号列のgval_diff_id[k]として1ビットから11ビットの可変長符号で符号化される。
例えば、ゲイン変化点G11のゲイン値gval[0]と、先頭位置PREV11のゲイン値との差分は、図13に示す符号化テーブル(符号帳)が用いられて符号化される。
この例では、ゲイン値の差分が0である場合にはgval_diff_id[k]として「1」が記述され、ゲイン値の差分が+0.1である場合にはgval_diff_id[k]として「01」が記述され、ゲイン値の差分が+0.2である場合にはgval_diff_id[k]として「001」が記述される。
また、ゲイン値の差分が+0.3以上または0以下である場合にはgval_diff_id[k]として、符号「000」と、その符号に続けてゲイン値の差分を示す8ビットの固定長符号が記述される。
このようにして最初のゲイン変化点G11の位置とゲイン値が符号化されると、続いて次のゲイン変化点G12の位置とゲイン値のそれぞれが、直前のゲイン変化点G11との差分として符号化される。
すなわち、ゲイン変化点G12の位置gloc[1]が、直前のゲイン変化点G11の位置gloc[0]からの時間サンプル値を表す位置情報として、ゲイン変化点G11の位置における場合と同様に図12に示したテーブルに基づいて3ビットで符号化される。例えばゲイン変化点G12が直前のゲイン変化点G11の位置gloc[0]から256番目の位置にあるサンプルである場合、gloc[gloc_id]=256に対応するgloc_idの値である「5」がk=1番目のゲイン変化点の位置を示すgloc_id[1]としてゲイン符号列に記述される。
また、ゲイン変化点G12のゲイン値gval[1]が、ゲイン変化点G11のゲイン値gval[0]との差分として、ゲイン変化点G11のゲイン値における場合と同様に図13に示した符号化テーブルに基づいて1ビットから11ビットまでの可変長符号で符号化される。つまり、ゲイン値gval[1]とゲイン値gval[0]との差分値が図13に示した符号化テーブルに基づいて符号化され、得られた符号がk=1番目のgval_diff_id[1]としてゲイン符号列に記述される。
なお、図12に記載したglocのテーブルは、これに限るものでは無く、gloc(ゲイン変化点の候補点)の最小間隔を1にして、時間分解能を向上させたテーブルを用いても良い。また、高いビットレートを確保できるアプリケーションでは、ゲイン波形について1サンプル毎に差分をとることも当然可能である。
次に、図14を参照して1次予測差分モード(DIFF2モード)について説明する。なお、図14において、横軸は時間(サンプル)を示しており、縦軸はゲインを示している。
図14では、折れ線C32は、処理対象となっているゲインシーケンスのゲイン、より詳細にはマスターゲインシーケンスのゲイン(第一ゲインまたは第二ゲイン)、またはマスターゲインシーケンスとスレーブゲインシーケンスのゲインの差分を示している。
また、この例では、処理対象となっている時間フレームJからは、2つのゲイン変化点G21とゲイン変化点G22が検出されており、PREV21は時間フレームJの先頭位置を示している。
まず、ゲイン変化点G21の位置gloc[0]が、時間フレームJの先頭からの時間サンプル値を表す位置情報として3ビットで符号化される。この符号化では、図11を参照して説明したゲイン変化点G11における場合と同様の処理が行われる。
次に、ゲイン変化点G21のゲイン値gval[0]が、ゲイン値gval[0]の1次予測値との差分として符号化される。
具体的には、時間フレームJの先頭位置PREV21から時間フレームJ−1のゲイン波形が延長され、その延長線上の位置gloc[0]にある点P11が求められる。そして、その点P11におけるゲイン値がゲイン値gval[0]の1次予測値とされる。
すなわち、先頭位置PREV21を通り、時間フレームJ−1のゲイン波形における終端部分の傾きの直線が、時間フレームJ−1のゲイン波形を延長した直線とされ、その直線を表す1次関数が用いられてゲイン値gval[0]の1次予測値が算出される。
さらに、このようにして求められた1次予測値と、実際のゲイン値gval[0]との差分が求められ、その差分が例えば図13に示した符号化テーブルに基づいて1ビットから11ビットまでの可変長符号で符号化される。そして、可変長符号化により得られた符号がk=0番目のゲイン変化点G21のゲイン値を示す情報として、図10に示したゲイン符号列のgval_diff_id[0]に記述される。
続いて、次のゲイン変化点G22の位置とゲイン値のそれぞれが、直前のゲイン変化点G21との差分として符号化される。
すなわち、ゲイン変化点G22の位置gloc[1]が、直前のゲイン変化点G21の位置gloc[0]からの時間サンプル値を表す位置情報として、ゲイン変化点G21の位置における場合と同様に図12に示したテーブルに基づいて3ビットで符号化される。
また、ゲイン変化点G22のゲイン値gval[1]が、ゲイン値gval[1]の1次予測値との差分として符号化される。
具体的には、1次予測値を求めるための傾きが、先頭位置PREV21と、直前のゲイン変化点G21とを結ぶ(通る)直線の傾きに更新されるとともに、その直線上の位置gloc[1]にある点P12が求められる。そして、その点P12におけるゲイン値がゲイン値gval[1]の1次予測値とされる。
すなわち、直前のゲイン変化点G21を通り、更新後の傾きを有する直線を表す1次関数が用いられてゲイン値gval[1]の1次予測値が算出される。さらに、このようにして求められた1次予測値と、実際のゲイン値gval[1]との差分が求められ、その差分が例えば図13に示した符号化テーブルに基づいて1ビットから11ビットまでの可変長符号で符号化される。そして、可変長符号化により得られた符号がk=1番目のゲイン変化点G22のゲイン値を示す情報として、図10に示したゲイン符号列のgval_diff_id[1]に記述される。
以上のようにして、各ゲインシーケンスのゲインが時間フレームごとに符号化されるが、ゲイン変化点におけるゲイン値の可変長符号化に用いられる符号化テーブルは、図13に示した符号化テーブルに限らず、どのようなものであってもよい。
特に、可変長符号化に用いる符号化テーブルは、ダウンミックスのチャネル数や、上述の図4に示したDRCの特性の違い、0次予測差分モードや1次予測差分モードなどの差分符号化モード等に応じて、異なる符号化テーブルが用いられるようにしてもよい。そのようにすることで、各ゲインシーケンスのゲインの符号化効率をさらに高めることができる。
ここで、例えばDRCと人の聴覚の一般的な性質を利用した符号化テーブルの構成方法について説明する。大きな音が入力された場合、所望のDRC特性になるようゲインを下げ、それ以降においては大きな音が入力されなかった場合にはゲインを戻す必要がある。
一般的に前者をアタック、後者をリリースと呼び、人間の聴覚の性質では、アタックを速く、リリースはアタックと比較して相当ゆっくりとしないと音が不安定でふらついたように聞こえてしまい具合が悪い。
このような性質から、一般的に用いられるアタック・リリースのDRC特性を用いて、上述の0次予測差分モードに相当するDRCゲインの時間フレーム間差分をとると、図15に示すような波形となる。
なお、図15において横軸は時間フレームを示しており、縦軸はゲインの差分値(dB)を示している。この例では、時間フレーム差分は、マイナス方向の差分は頻度としては少ないが絶対値は大きくなる。一方、プラス方向の差分は頻度が多いが絶対値は小さい。
このような時間フレーム差分の確率密度分布は一般的に図16に示す分布となる。なお、図16において、横軸は時間フレーム差分を示しており、縦軸は時間フレーム差分の出現確率を示している。
図16に示す確率密度分布では、0付近から正の値の出現確率は非常に高いが、あるレベル(時間フレーム差分)からは出現確率が極端に小さくなる。一方で、マイナス方向は出現確率は少ないものの、値が小さくなってもある程度の出現確率がある。
この例では、時間フレーム間の特性について説明しているが、時間フレーム内のサンプル間(時刻間)においても時間フレーム間における場合と同様の特性が得られる。
このような確率密度分布は0次予測差分モードまたは1次予測差分モードの何れで符号化を行うかや、ゲイン符号化モードヘッダの内容で変化するので、それに応じた可変長符号テーブルを構成することで効率よくゲイン情報の符号化を行うことができる。
ここまで、マスターゲインシーケンスとスレーブゲインシーケンスのゲイン波形から、ゲイン変化点を抽出し差分をとって可変長符号を用いて符号化することにより効率よくゲインを圧縮する手法の一例を説明してきたが、ある程度高いビットレートが許容されるかわりに、高いゲイン波形の精度が要求されるような応用例においては、マスターゲインシーケンスとスレーブゲインシーケンスの差分をとった後、直接、それぞれのゲイン波形を符号化することも当然可能である。この際、ゲイン波形は時系列の離散信号であるので、一般的に知られているような時系列信号の可逆圧縮手法などを用いて符号化することが可能である。
〈符号化処理の説明〉
次に、符号化装置51の動作について説明する。
符号化装置51は、入力時系列信号が1時間フレーム分だけ供給されると、その入力時系列信号を符号化して出力符号列を出力する符号化処理を行う。以下、図17のフローチャートを参照して、符号化装置51による符号化処理について説明する。
ステップS11において、第一音圧レベル計算回路61は、供給された入力時系列信号に基づいて、入力時系列信号の第一音圧レベルを算出し、第一ゲイン計算回路62に供給する。
ステップS12において、第一ゲイン計算回路62は、第一音圧レベル計算回路61から供給された第一音圧レベルに基づいて第一ゲインを算出し、ゲイン符号化回路66に供給する。例えば第一ゲイン計算回路62は、上位の制御装置により指定されたDRC_MODE1やDRC_MODE2などのモードのDRC特性に従って第一ゲインを算出する。
ステップS13において、ダウンミックス回路63は、供給された入力時系列信号に対して、上位の制御装置から供給されたダウンミックス情報を用いてダウンミックス処理を行い、その結果得られたダウンミックス信号を第二音圧レベル計算回路64に供給する。
ステップS14において、第二音圧レベル計算回路64は、ダウンミックス回路63から供給されたダウンミックス信号に基づいて第二音圧レベルを算出し、第二ゲイン計算回路65に供給する。
ステップS15において、第二ゲイン計算回路65は、第二音圧レベル計算回路64から供給された第二音圧レベルに基づいてダウンミックス信号の第二ゲインを算出し、ゲイン符号化回路66に供給する。
ステップS16において、ゲイン符号化回路66は、ゲイン符号化処理を行って、第一ゲイン計算回路62から供給された第一ゲインと、第二ゲイン計算回路65から供給された第二ゲインとを符号化する。そして、ゲイン符号化回路66はゲイン符号化処理により得られたゲイン符号化モードヘッダおよびゲイン符号列を多重化回路68に供給する。
なお、ゲイン符号化処理の詳細は後述するが、ゲイン符号化処理では、第一ゲインや第二ゲインといったゲインシーケンスについて、ゲインシーケンス間の差分や、時間フレーム間の差分、時間フレーム内の差分が求められて符号化される。また、ゲイン符号化モードヘッダは必要な場合のみ生成される。
ステップS17において、信号符号化回路67は、供給された入力時系列信号を所定の符号化方式に従って符号化し、その結果得られた信号符号列を多重化回路68に供給する。
ステップS18において、多重化回路68は、ゲイン符号化回路66からのゲイン符号化モードヘッダとゲイン符号列、上位の制御装置から供給されたダウンミックス情報、および信号符号化回路67からの信号符号列を多重化し、その結果得られた出力符号列を出力する。このようにして1時間フレーム分の出力符号列がビットストリームとして出力されると、符号化処理は終了する。そして、次の時間フレームの符号化処理が行われる。
以上のようにして、符号化装置51は、ダウンミックス前のもとの入力時系列信号の第一ゲインと、ダウンミックス後のダウンミックス信号の第二ゲインとを算出し、適宜、それらのゲインの差分を求めて符号化する。これにより、より少ない符号量で適切な音量の音声を得ることができるようになる。
すなわち、符号化装置51側では、DRCの特性を自由に設定することができるため、復号化側においてより適切な音量の音声を得ることができるようになる。しかもゲインの差分を求めて効率よく符号化することで、より少ない符号量でより多くの情報を伝送することができ、かつ復号化装置側の計算負荷も軽減させることができる。
〈ゲイン符号化処理の説明〉
次に、図18のフローチャートを参照して、図17のステップS16の処理に対応するゲイン符号化処理について説明する。
ステップS41において、ゲイン符号化回路66は、上位の制御装置からの指示に基づいて、ゲイン符号化モードを決定する。すなわち、各ゲインシーケンスについて、そのゲインシーケンスがマスターゲインシーケンスまたはスレーブゲインシーケンスの何れとされるかや、ゲインシーケンスがスレーブゲインシーケンスである場合に、どのゲインシーケンスとの差分が計算されるかなどが決定される。
具体的には、ゲイン符号化回路66は、各ゲインシーケンスのゲイン(第一ゲインまたは第二ゲイン)同士の差分を実際に計算し、ゲインの相関を求める。そして、ゲイン符号化回路66は、各ゲインの差分に基づいて、例えば他のどのゲインシーケンスともゲインの相関が高い(ゲインの差分が小さい)ゲインシーケンスをマスターゲインシーケンスとし、他のゲインシーケンスをスレーブゲインシーケンスとする。
なお、全てのゲインシーケンスがマスターゲインシーケンスとされるようにしてもよい。
ステップS42において、ゲイン符号化回路66は、処理対象となっている現時間フレームのゲイン符号化モードが、その時間フレームの直前の時間フレームのゲイン符号化モードと同一であるか否かを判定する。
ステップS42において、同一でないと判定された場合、ステップS43において、ゲイン符号化回路66は、ゲイン符号化モードヘッダを生成し、補助情報に付加する。例えば、ゲイン符号化回路66は図8に示したゲイン符号化モードヘッダを生成する。
ステップS43においてゲイン符号化モードヘッダが生成されると、その後、処理はステップS44へと進む。
また、ステップS42において、ゲイン符号化モードが同一であると判定された場合、出力符号列にゲイン符号化モードヘッダは付加されないので、ステップS43の処理は行われず、処理はステップS44に進む。
ステップS43においてゲイン符号化モードヘッダが生成されたか、またはステップS42においてゲイン符号化モードが同一であると判定された場合、ステップS44において、ゲイン符号化回路66は、ゲイン符号化モードに従って、各ゲインシーケンスの差分を求める。
例えば、第二ゲインとしての7.1chのゲインシーケンスがスレーブゲインシーケンスであり、そのスレーブゲインシーケンスに対するマスターゲインシーケンスが、第一ゲインとしての11.1chのゲインシーケンスであったとする。
この場合、ゲイン符号化回路66は、7.1chのゲインシーケンスと11.1chのゲインシーケンスの差分を求める。なお、このとき、マスターゲインシーケンスである11.1chのゲインシーケンスについては差分の計算は行われず、以降の処理においてそのまま符号化される。
このように、ゲインシーケンスの差分を求めることで、ゲインシーケンス間の差分が求められてゲインシーケンスの符号化が行われることになる。
ステップS45において、ゲイン符号化回路66は、1つのゲインシーケンスを処理対象のゲインシーケンスとして選択し、そのゲインシーケンス内でゲインが一定で、かつ直前の時間フレームのゲインと同一であるか否かを判定する。
例えば、時間フレームJにおいて、マスターゲインシーケンスとされた11.1chのゲインシーケンスが処理対象のゲインシーケンスとして選択されたとする。この場合、ゲイン符号化回路66は、時間フレームJにおいて11.1chのゲインシーケンスの各サンプルのゲイン(第一ゲインまたは第二ゲイン)がほぼ一定の値であるとき、ゲインシーケンス内でゲインが一定であるとする。
また、ゲイン符号化回路66は、時間フレームJにおける11.1chのゲインシーケンスの各サンプルのゲインと、直前の時間フレームである時間フレームJ−1における11.1chのゲインシーケンスの各サンプルのゲインとの差分がほぼ0であるとき、直前の時間フレームのゲインと同一であるとする。
なお、処理対象のゲインがスレーブゲインシーケンスである場合には、ステップS44において求めたゲインの差分が、時間フレーム内で一定であり、かつ直前の時間フレームにおけるゲインの差分と同一であるかが判定される。
ステップS45において、ゲインシーケンス内でゲインが一定で、かつ直前の時間フレームのゲインと同一であると判定された場合、ステップS46において、ゲイン符号化回路66は、hld_modeの値を1として、処理はステップS51へと進む。すなわち、ゲイン符号列のhld_modeとして1が記述される。
ゲインシーケンス内でゲインが一定で、かつ直前の時間フレームのゲインと同一であると判定された場合、直前の時間フレームや現時間フレーム内でゲインの変化がないので、復号化側において直前の時間フレームのゲインがそのまま用いられて復号化が行われる。したがって、このような場合には、時間フレーム間の差分が求められてゲインが符号化されているということができる。
これに対して、ステップS45において、ゲインシーケンス内でゲインが一定でないか、または直前の時間フレームのゲインと同一でないと判定された場合、ステップS47において、ゲイン符号化回路66は、hld_modeの値を0とする。すなわち、ゲイン符号列のhld_modeとして0が記述される。
ステップS48において、ゲイン符号化回路66は処理対象となっているゲインシーケンスのゲイン変化点を抽出する。
例えばゲイン符号化回路66は、図12を参照して説明したように時間フレーム内の予め定められたサンプル位置について、サンプル位置の前後でゲインの時間波形の傾きが変化したか否かを特定することで、そのサンプル位置がゲイン変化点であるかを特定する。
なお、より詳細には、処理対象となっているゲインシーケンスがスレーブゲインシーケンスであるときには、そのゲインシーケンスについて求めたマスターゲインシーケンスとのゲインの差分の時間波形からゲイン変化点が抽出される。
ゲイン符号化回路66は、ゲイン変化点を抽出すると、抽出されたゲイン変化点の数をgpnumとして図10に示したゲイン符号列に記述する。
ステップS49において、ゲイン符号化回路66はcmodeを決定する。
例えば、ゲイン符号化回路66は処理対象となっているゲインシーケンスについて、0次予測差分モードによる符号化と、1次予測差分モードによる符号化とを実際に行って、符号化の結果として得られる符号量がより少ない方の差分符号化モードを選択する。また、ゲイン符号化回路66は、例えば上位の制御装置からの指示に応じて、時間フレーム先頭のゲインを符号化するか否かを定める。これによりcmodeが定まる。
cmodeが決定されると、ゲイン符号化回路66は決定されたcmodeを示す値を図10に示したゲイン符号列に記述する。このとき、cmodeの上位1ビットが0である場合、ゲイン符号化回路66は処理対象のゲインシーケンスについて上述した式(5)を計算し、その結果得られた「gval_abs_id0」の値と符号ビットとを、図10に示したゲイン符号列におけるgval_abs_id0に記述する。
これに対して、cmodeの上位1ビットが1である場合には、直前の時間フレームの終端位置のゲイン値が、現時間フレームの先頭位置のゲイン値として用いられて復号化が行われるので、時間フレーム間の差分が求められて符号化されているということができる。
ステップS50において、ゲイン符号化回路66は、ステップS49の処理で選択された差分符号化モードにより、ステップS48で抽出された各ゲイン変化点のゲインを符号化する。そして、ゲイン符号化回路66は、各ゲイン変化点のゲインの符号化結果をgloc_id[k]およびgval_diff_id[k]として図10に示したゲイン符号列に記述する。
各ゲイン変化点のゲインの符号化時には、ゲイン符号化回路66に設けられたエントロピ符号化回路が、差分符号化モード等に対して適切に定められた、図13に示した符号化テーブルなどのエントロピ符号帳テーブルを切り替えながら、ゲイン値を符号化する。
このように、0次予測差分モードまたは1次予測差分モードにより符号化を行うことで、ゲインシーケンスの時間フレーム内の差分が求められてゲインが符号化されることになる。
ステップS46においてhld_modeが1とされたか、またはステップS50において符号化が行われると、ステップS51において、ゲイン符号化回路66は全ゲインシーケンスを符号化したか否かを判定する。例えば、全てのゲインシーケンスが処理対象とされて処理された場合、全てのゲインシーケンスを符号化したと判定される。
ステップS51において、全てのゲインシーケンスを符号化していない判定された場合、処理はステップS45に戻り、上述した処理が繰り返し行われる。すなわち、まだ処理対象とされていないゲインシーケンスが次の処理対象のゲインシーケンスとして符号化が行われる。
これに対して、ステップS51において全てのゲインシーケンスを符号化したと判定された場合、ゲイン符号列が得られたので、ゲイン符号化回路66は生成したゲイン符号化モードヘッダとゲイン符号列とを多重化回路68に供給する。なお、ゲイン符号化モードヘッダが生成されなかった場合には、ゲイン符号列のみが出力される。
このようにしてゲイン符号化モードヘッダとゲイン符号列が出力されると、ゲイン符号化処理は終了し、その後、処理は図17のステップS17へと進む。
以上のようにして、符号化装置51は、ゲインシーケンス間の差分やゲインシーケンスの時間フレーム間の差分、ゲインシーケンスの時間フレーム内の差分を求めてゲインを符号化し、ゲイン符号列を生成する。このように、ゲインシーケンス間の差分やゲインシーケンスの時間フレーム間の差分、ゲインシーケンスの時間フレーム内の差分を求めてゲインを符号化することで、第一ゲインや第二ゲインをより効率よく符号化することができる。つまり、符号化の結果として得られる符号量をより少なくすることができる。
〈復号化装置の構成例〉
次に、符号化装置51から出力された出力符号列を入力符号列として入力し、入力符号列の復号化を行う復号化装置について説明する。
図19は、本技術を適用した復号化装置の一実施の形態の機能の構成例を示す図である。
図19に示す復号化装置91は、非多重化回路101、信号復号化回路102、ゲイン復号化回路103、およびゲイン適用回路104を有している。
非多重化回路101は、供給された入力符号列、すなわち符号化装置51から受信した出力符号列を非多重化する。非多重化回路101は、非多重化により得られたゲイン符号化モードヘッダおよびゲイン符号列をゲイン復号化回路103に供給するとともに、信号符号列およびダウンミックス情報を信号復号化回路102に供給する。なお、入力符号列にゲイン符号化モードヘッダが含まれていない場合には、ゲイン符号化モードヘッダはゲイン復号化回路103には供給されない。
信号復号化回路102は、非多重化回路101から供給されたダウンミックス情報と、上位の制御装置から供給されたダウンミックス制御情報とに基づいて、非多重化回路101から供給された信号符号列の復号化とダウンミックスを行い、得られた時系列信号をゲイン適用回路104に供給する。ここで、時系列信号は例えば11.1chや7.1chの音声信号であり、時系列信号を構成する各チャネルの音声信号は、PCM信号とされる。
ゲイン復号化回路103は、非多重化回路101から供給されたゲイン符号化モードヘッダおよびゲイン符号列を復号化し、その結果得られたゲイン情報のうち、上位の制御装置から供給されたダウンミックス制御情報およびDRC制御情報により特定されるゲイン情報をゲイン適用回路104に供給する。ここで、ゲイン復号化回路103から出力されるゲイン情報は、上述した第一ゲインや第二ゲインに対応する情報である。
ゲイン適用回路104は、ゲイン復号化回路103から供給されたゲイン情報に基づいて、信号復号化回路102から供給された時系列信号のゲイン調整を行い、得られた出力時系列信号を出力する。
〈復号化処理の説明〉
次に、復号化装置91の動作について説明する。
復号化装置91は、入力符号列が1時間フレーム分だけ供給されると、その入力符号列を復号化して出力時系列信号を出力する復号化処理を行う。以下、図20のフローチャートを参照して、復号化装置91による復号化処理について説明する。
ステップS81において、非多重化回路101は入力符号列を非多重化し、その結果得られたゲイン符号化モードヘッダおよびゲイン符号列をゲイン復号化回路103に供給するとともに、信号符号列およびダウンミックス情報を信号復号化回路102に供給する。
ステップS82において、信号復号化回路102は、非多重化回路101から供給された信号符号列を復号化する。
例えば、信号復号化回路102は信号符号列に対する復号化および逆量子化を行って、各チャネルのMDCT係数を得る。そして、信号復号化回路102は、上位の制御装置から供給されたダウンミックス制御情報に基づいて、非多重化回路101から供給されたダウンミックス情報から得られるゲイン係数を各チャネルのMDCT係数に乗算して加算することで、ダウンミックス後の各チャネルのゲイン適用MDCT係数を算出する。
さらに、信号復号化回路102は、各チャネルのゲイン適用MDCT係数に対して逆MDCT処理を施し、得られた逆MDCT信号に対して窓掛けおよびオーバーラップ加算処理を行って、ダウンミックス後の各チャネルの信号からなる時系列信号を生成する。なお、ダウンミックス処理は、MDCT領域で行われてもよいし、時間領域で行われてもよい。
信号復号化回路102は、このようにして得られた時系列信号をゲイン適用回路104に供給する。
ステップS83において、ゲイン復号化回路103はゲイン復号化処理を行って、非多重化回路101から供給されたゲイン符号化モードヘッダおよびゲイン符号列を復号化し、ゲイン情報をゲイン適用回路104に供給する。なお、ゲイン復号化処理の詳細は後述する。
ステップS84において、ゲイン適用回路104は、ゲイン復号化回路103から供給されたゲイン情報に基づいて、信号復号化回路102から供給された時系列信号のゲイン調整を行い、得られた出力時系列信号を出力する。
出力時系列信号が出力されると、復号化処理は終了する。
以上のようにして復号化装置91は、ゲイン符号化モードヘッダおよびゲイン符号列を復号化し、得られたゲイン情報を時系列信号に適用して時間領域でゲインを調整する。
ゲイン符号列は、ゲインシーケンス間の差分やゲインシーケンスの時間フレーム間の差分、ゲインシーケンスの時間フレーム内の差分を求めることでゲインを符号化して得られたものである。そのため、復号化装置91では、より少ない符号量のゲイン符号列で、より適切なゲイン情報を得ることができる。すなわち、より少ない符号量で適切な音量の音声を得ることができる。
〈ゲイン復号化処理の説明〉
続いて、図21のフローチャートを参照して、図20のステップS83の処理に対応するゲイン復号化処理について説明する。
ステップS121において、ゲイン復号化回路103は、入力符号列にゲイン符号化モードヘッダがあるか否かを判定する。例えば、非多重化回路101からゲイン符号化モードヘッダが供給された場合、ゲイン符号化モードヘッダがあると判定される。
ステップS121において、ゲイン符号化モードヘッダがあると判定された場合、ステップS122において、ゲイン復号化回路103は非多重化回路101から供給されたゲイン符号化モードヘッダを復号化する。これにより、ゲイン符号化モードなどの各ゲインシーケンスに関する情報が得られる。
ゲイン符号化モードヘッダが復号化されると、その後、処理はステップS123に進む。
一方、ステップS121において、ゲイン符号化モードヘッダがないと判定された場合、処理はステップS123に進む。
ステップS122においてゲイン符号化モードヘッダが復号化されたか、またはステップS121においてゲイン符号化モードヘッダがないと判定された場合、ステップS123において、ゲイン復号化回路103は全ゲインシーケンスを復号化する。すなわち、ゲイン復号化回路103は、図10に示したゲイン符号列を復号化し、各ゲインシーケンスのゲイン波形、つまり第一ゲインまたは第二ゲインを得るために必要な情報を抽出する。
ステップS124において、ゲイン復号化回路103は、1つのゲインシーケンスを処理対象とし、そのゲインシーケンスのhld_modeの値が0であるか否かを判定する。
ステップS124において、hld_modeの値が0でない、つまり1であると判定された場合、処理はステップS125に進む。
ステップS125において、ゲイン復号化回路103は、直前の時間フレームのゲイン波形を現時間フレームのゲイン波形としてそのまま用いる。
現時間フレームのゲイン波形が得られると、その後、処理はステップS129に進む。
これに対して、ステップS124において、hld_modeの値が0であると判定された場合、ステップS126において、ゲイン復号化回路103は、cmodeが1より大きいか否か、すなわちcmodeの上位1ビットが1であるか否かを判定する。
ステップS126において、cmodeが1より大きい、つまりcmodeの上位1ビットが1であると判定された場合、直前の時間フレーム終端のゲイン値が、現時間フレームの先頭のゲイン値とされ、処理はステップS128に進む。
ここで、ゲイン復号化回路103は、時間フレームの終端位置のゲイン値をprevとして保持しており、ゲインの復号化時には、このprevの値が適宜、現時間フレームの先頭位置のゲイン値として用いられてゲインシーケンスのゲインが求められる。
これに対して、ステップS126において、cmodeが1以下である、つまりcmodeの上位1ビットが0であると判定された場合、ステップS127の処理が行われる。
すなわち、ステップS127において、ゲイン復号化回路103はゲイン符号列の復号化により得られたgval_abs_id0を上述した式(5)に代入して、現時間フレームの先頭のゲイン値を算出し、prevの値を更新する。すなわち、式(5)の計算により得られたゲイン値が新たなprevの値とされる。なお、より詳細には、処理対象のゲインシーケンスがスレーブゲインシーケンスである場合には、prevの値は、現時間フレームの先頭位置におけるマスターゲインシーケンスとの差分値の値となる。
ステップS127においてprevの値が更新されたか、またはステップS126においてcmodeが1より大きいと判定された場合、ステップS128において、ゲイン復号化回路103は処理対象のゲインシーケンスのゲイン波形を生成する。
具体的には、ゲイン復号化回路103は、ゲイン符号列の復号化により得られたcmodeを参照して、0次予測差分モードまたは1次予測差分モードの何れであるかを特定する。そして、ゲイン復号化回路103は、prevの値と、ゲイン符号列の復号化により得られた各ゲイン変化点のgloc_id[k]およびgval_diff_id[k]とを用いて、特定された差分符号化モードに応じて現時間フレーム内の各サンプル位置のゲインを求め、ゲイン波形とする。
例えばゲイン復号化回路103は、0次予測差分モードであると特定された場合、prevの値にgval_diff_id[0]により示されるゲイン値(差分値)を加算して得られた値を、gloc_id[0]により特定されるサンプル位置のゲイン値とする。このとき、時間フレームの先頭からgloc_id[0]により特定されるサンプル位置までの間の各位置では、prevの値からgloc_id[0]により特定されるサンプル位置のゲイン値まで、ゲイン値が線形に変化するものとして、各サンプル位置のゲイン値が求められる。
以降においても同様にして、直前のゲイン変化点のゲイン値と、注目するゲイン変化点のgloc_id[k]およびgval_diff_id[k]とから、その注目するゲイン変化点のゲイン値が求められ、時間フレーム内の各サンプル位置におけるゲイン値からなるゲイン波形が求まる。
ここで、処理対象となっているゲインシーケンスがスレーブゲインシーケンスである場合、以上の処理により得られたゲイン値(ゲイン波形)は、マスターゲインシーケンスのゲイン波形との差分値である。
そこで、ゲイン復号化回路103は、処理対象のゲインシーケンスのゲインシーケンスモードにおける図9に示したMASTER_FLAGとDIFF_SEQ_IDを参照し、処理対象のゲインシーケンスがスレーブゲインシーケンスであるか否かと、対応するマスターゲインシーケンスを特定する。
そして、ゲイン復号化回路103は、処理対象のゲインシーケンスがマスターゲインシーケンスである場合には、上述の処理により得られたゲイン波形を、処理対象のゲインシーケンスの最終的なゲイン情報とする。
一方、処理対象のゲインシーケンスがスレーブゲインシーケンスである場合には、ゲイン復号化回路103は、上述の処理により得られたゲイン波形に、処理対象のゲインシーケンスに対するマスターゲインシーケンスのゲイン情報(ゲイン波形)を加算して、処理対象のゲインシーケンスの最終的なゲイン情報とする。
以上のようにして処理対象のゲインシーケンスのゲイン波形(ゲイン情報)が得られると、その後、処理はステップS129に進む。
ステップS128またはステップS125において、ゲイン波形が生成されると、ステップS129の処理が行われる。
ステップS129において、ゲイン復号化回路103は、処理対象のゲインシーケンスのゲイン波形の現時間フレームの終端位置のゲイン値を次の時間フレームのprevの値として保持する。なお、処理対象のゲインシーケンスがスレーブゲインシーケンスである場合、0次予測差分モードまたは1次予測差分モードでの予測により得られたゲイン波形における時間フレームの終端位置、つまりマスターゲインシーケンスのゲイン波形との差分の時間波形における時間フレームの終端位置の値がprevの値とされる。
ステップS130において、ゲイン復号化回路103は、全ゲインシーケンスのゲイン波形が得られたか否かを判定する。例えばゲイン符号化モードヘッダに示される全てのゲインシーケンスが処理対象のゲインシーケンスとされてゲイン波形(ゲイン情報)が得られた場合、全ゲインシーケンスのゲイン波形が得られたと判定される。
ステップS130において、まだ全てのゲインシーケンスのゲイン波形が得られていないと判定された場合、処理はステップS124に戻り、上述した処理が繰り返し行われる。すなわち、次のゲインシーケンスが処理対象とされて、ゲイン波形(ゲイン情報)が求められる。
これに対して、ステップS130において、全ゲインシーケンスのゲイン波形が得られたと判定された場合、ゲイン復号化処理は終了し、その後、処理は図20のステップS84へと進む。
なお、この場合、ゲイン復号化回路103は、各ゲインシーケンスのうち、ダウンミックス制御情報により示されるダウンミックス後のチャネル数であり、かつDRC制御情報により示されるDRC特性でゲインが算出されたゲインシーケンスのゲイン情報をゲイン適用回路104に供給する。すなわち、図9に示した各ゲインシーケンスモードのDMIX_CH_CFG_IDとDRC_MODE_IDが参照されて、ダウンミックス制御情報とDRC制御情報により特定されるゲインシーケンスのゲイン情報が出力される。
以上のようにして、復号化装置91は、ゲイン符号化モードヘッダおよびゲイン符号列を復号化して、各ゲインシーケンスのゲイン情報を算出する。このようにゲイン符号列を復号化してゲイン情報を求めることで、より少ない符号量で適切な音量の音声を得ることができるようになる。
ところで、図6、図11、および図14に示したようにマスターゲインシーケンスが時間フレームごとに変化することがあり、また復号化装置91では、prevの値が利用されてゲインシーケンスの復号化が行われる。そのため、復号化装置91では、実際に復号化装置91で使用するダウンミックスのパターン以外のゲイン波形も毎時間フレーム計算する必要が生じる。
このようなゲイン波形を求める計算は簡易なものであるため、復号化装置91側の計算負荷はそれほど大きなものではない。しかし、例えば携帯端末等、計算負荷のさらなる低減が要求されるようなケースでは、ゲイン波形の再現性をある程度犠牲にして計算量を低減させることも可能である。
DRCのアタック・リリースの時定数の特性上、ゲインは急激に下げ、ゆっくりと戻すのが一般的である。したがって、符号化効率の観点上、0次予測差分モードが多く使用され、また時間フレーム内のゲイン変化点の個数gpnumは2個以下の少ない個数であり、さらにゲイン変化点のゲインの差分値であるgval_diff_id[k]も小さい値となる場合が多い。
例えば図11に示した例において、ゲイン変化点G11のゲイン値gval[0]と、先頭位置PREV11のゲイン値との差分値をgval_diff[0]とし、ゲイン変化点G11のゲイン値gval[0]と、ゲイン変化点G12のゲイン値gval[1]との差分値をgval_diff[1]とする。
このとき、復号化装置91において、prevの値である先頭位置PREV11のゲイン値と差分値gval_diff[0]がデシベル上で加算され、さらにその加算結果に差分値gval_diff[1]が加算される。これにより、ゲイン変化点G12のゲイン値gval[1]が求まることになる。以下、このようにして求められた先頭位置PREV11のゲイン値と差分値gval_diff[0]と差分値gval_diff[1]の加算結果を、ゲイン加算値とも称する。
この場合、次の時間フレームJ+1のprevの値は、ゲイン変化点G11の位置gloc[0]と、ゲイン変化点G12の位置gloc[1]の間をリニア値で直線補間し、時間フレームJ+1の先頭に相当する時間フレームJのNサンプル目の位置まで直線を延長したときのNサンプル目のゲイン値となる。このゲイン変化点G11とゲイン変化点G12を結ぶ直線の傾きが小さい場合は、前述の差分値gval_diff[1]まで加算したゲイン加算値をもって、時間フレームJ+1のprevの値としても特に問題は生じない。
なお、ゲイン変化点G11とゲイン変化点G12を結ぶ直線の傾きは、各ゲイン変化点の位置gloc[k]が2の冪乗であることを利用して簡単に求めることができる。すなち、図11の例では位置gloc[1]のサンプル数分除算するかわりに、サンプル数に相当するビット数分、前述の差分値の加算値を右シフトすることで直線の傾きを求めることができる。
この傾きがある閾値よりも小さい値である場合は、ゲイン加算値を次の時間フレームJ+1のprevの値とし、傾きが閾値以上であった場合には、以上の第1の実施の形態において説明した方法によりゲイン波形を求め、その時間フレーム終端のゲイン値をprevの値とすればよい。
また、1次予測差分モードである場合は、第1の実施の形態において説明した方法によりゲイン波形を直接求め、その時間フレーム終端の値をprevの値とすればよい。
このような手法をとることで、復号化装置91の計算負荷を低減させることができる。
〈第2の実施の形態〉
〈符号化装置の構成例〉
なお、以上においては、符号化装置51において、実際にダウンミックスを行って、得られたダウンミックス信号の音圧レベルを第二音圧レベルとして算出していたが、ダウンミックスを行わずに各チャネルの音圧レベルから、直接、ダウンミックス後の音圧レベルを求めてもよい。この場合、入力時系列信号の各チャネル間の相関によって多少音圧レベルが変動するが、演算量を低減させることができる。
このように、ダウンミックスを行わずに、直接、ダウンミックス後の音圧レベルを求める場合、符号化装置は、例えば図22に示すように構成される。なお、図22において、図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図22に示す符号化装置131は、第一音圧レベル計算回路61、第一ゲイン計算回路62、第二音圧レベル推定回路141、第二ゲイン計算回路65、ゲイン符号化回路66、信号符号化回路67、および多重化回路68を有している。
第一音圧レベル計算回路61は、供給された入力時系列信号に基づいて、入力時系列信号を構成する各チャネルの音圧レベルを計算して第二音圧レベル推定回路141に供給するとともに、各チャネルの音圧レベルの代表値を第一音圧レベルとして第一ゲイン計算回路62に供給する。
また、第二音圧レベル推定回路141は、第一音圧レベル計算回路61から供給された各チャネルの音圧レベルに基づいて、推定により第二音圧レベルを算出し、第二ゲイン計算回路65に供給する。
〈符号化処理の説明〉
続いて、符号化装置131の動作について説明する。以下、図23のフローチャートを参照して、符号化装置131により行われる符号化処理について説明する。
なお、ステップS161およびステップS162の処理は、図17のステップS11およびステップS12の処理と同様であるので、その説明は省略する。但し、ステップS161では、第一音圧レベル計算回路61は、入力時系列信号から求めた、入力時系列信号を構成する各チャネルの音圧レベルを第二音圧レベル推定回路141に供給する。
ステップS163において、第二音圧レベル推定回路141は、第一音圧レベル計算回路61から供給された各チャネルの音圧レベルに基づいて第二音圧レベルを算出し、第二ゲイン計算回路65に供給する。例えば、第二音圧レベル推定回路141は、各チャネルの音圧レベルを予め用意された係数を用いて重み付き加算(線形結合)することで、1つの第二音圧レベルを算出する。
第二音圧レベルが求められると、その後、ステップS164乃至ステップS167の処理が行われて符号化処理は終了するが、これらの処理は図17のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
以上のようにして、符号化装置131は、入力時系列信号の各チャネルの音圧レベルに基づいて第二音圧レベルを算出して、適宜、第二音圧レベルから求まる第二ゲインや、第一ゲインの差分を求めて符号化する。これにより、より少ない符号量で適切な音量の音声を得ることができるとともに、より少ない演算量で符号化を行うことができる。
〈第3の実施の形態〉
〈符号化装置の構成例〉
また、以上においては、時間領域でDRC処理を行う例について説明したが、MDCT領域でDRC処理を行うようにしてもよい。そのような場合、符号化装置は、例えば図24に示すように構成される。
図24に示す符号化装置171は、窓長選択・窓掛け回路181、MDCT回路182、第一音圧レベル計算回路183、第一ゲイン計算回路184、ダウンミックス回路185、第二音圧レベル計算回路186、第二ゲイン計算回路187、ゲイン符号化回路189、適応ビット割り当て回路190、量子化・符号化回路191、および多重化回路192を有している。
窓長選択・窓掛け回路181は、窓長を選択するとともに、選択した窓長で供給された入力時系列信号に対する窓掛け処理を行い、その結果得られた時間フレーム信号をMDCT回路182に供給する。
MDCT回路182は、窓長選択・窓掛け回路181から供給された時間フレーム信号に対してMDCT処理を行って、その結果得られたMDCT係数を第一音圧レベル計算回路183、ダウンミックス回路185、および適応ビット割り当て回路190に供給する。
第一音圧レベル計算回路183は、MDCT回路182から供給されたMDCT係数に基づいて、入力時系列信号の第一音圧レベルを計算し、第一ゲイン計算回路184に供給する。第一ゲイン計算回路184は、第一音圧レベル計算回路183から供給された第一音圧レベルに基づいて第一ゲインを計算し、ゲイン符号化回路189に供給する。
ダウンミックス回路185は、上位の制御装置から供給されたダウンミックス情報と、MDCT回路182から供給された入力時系列信号の各チャネルのMDCT係数に基づいて、ダウンミックス後の各チャネルのMDCT係数を算出し、第二音圧レベル計算回路186に供給する。
第二音圧レベル計算回路186は、ダウンミックス回路185から供給されたMDCT係数に基づいて第二音圧レベルを計算し、第二ゲイン計算回路187に供給する。第二ゲイン計算回路187は、第二音圧レベル計算回路186から供給された第二音圧レベルに基づいて第二ゲインを計算し、ゲイン符号化回路189に供給する。
ゲイン符号化回路189は、第一ゲイン計算回路184から供給された第一ゲインと、第二ゲイン計算回路187から供給された第二ゲインとを符号化し、その結果得られたゲイン符号列を多重化回路192に供給する。
適応ビット割り当て回路190は、MDCT回路182から供給されたMDCT係数に基づいて、MDCT係数の符号化時の目標となる符号量を示すビット割当情報を生成し、MDCT係数およびビット割当情報を量子化・符号化回路191に供給する。
量子化・符号化回路191は、適応ビット割り当て回路190から供給されたビット割当情報に基づいて、適応ビット割り当て回路190からのMDCT係数を量子化および符号化し、その結果得られた信号符号列を多重化回路192に供給する。多重化回路192は、ゲイン符号化回路189から供給されたゲイン符号列、上位の制御装置から供給されたダウンミックス情報、および量子化・符号化回路191から供給された信号符号列を多重化し、その結果得られた出力符号列を出力する。
〈符号化処理の説明〉
次に符号化装置171の動作について説明する。以下、図25のフローチャートを参照して、符号化装置171による符号化処理について説明する。
ステップS191において、窓長選択・窓掛け回路181は、窓長を選択するとともに、選択した窓長で供給された入力時系列信号に対する窓掛け処理を行い、その結果得られた時間フレーム信号をMDCT回路182に供給する。これにより、入力時系列信号を構成する各チャネルの信号が時間フレーム単位の信号である時間フレーム信号に分割される。
ステップS192において、MDCT回路182は、窓長選択・窓掛け回路181から供給された時間フレーム信号に対してMDCT処理を行って、その結果得られたMDCT係数を第一音圧レベル計算回路183、ダウンミックス回路185、および適応ビット割り当て回路190に供給する。
ステップS193において、第一音圧レベル計算回路183は、MDCT回路182から供給されたMDCT係数に基づいて、入力時系列信号の第一音圧レベルを算出し、第一ゲイン計算回路184に供給する。ここで、第一音圧レベル計算回路183により算出される第一音圧レベルは、図3の第一音圧レベル計算回路61で算出されるものと同じであるが、ステップS193では、MDCT領域で入力時系列信号の音圧レベルが算出される。
ステップS194において、第一ゲイン計算回路184は、第一音圧レベル計算回路183から供給された第一音圧レベルに基づいて第一ゲインを算出し、ゲイン符号化回路189に供給する。例えば、図4に示したDRC特性に従って第一ゲインが計算される。
ステップS195において、ダウンミックス回路185は、上位の制御装置から供給されたダウンミックス情報と、MDCT回路182から供給された入力時系列信号の各チャネルのMDCT係数に基づいてダウンミックスを行って、ダウンミックス後の各チャネルのMDCT係数を算出し、第二音圧レベル計算回路186に供給する。
例えば、各チャネルのMDCT係数に、ダウンミックス情報から得られるゲイン係数が乗算されて、それらのゲイン係数が乗算されたMDCT係数を加算することで、ダウンミックス後のチャネルのMDCT係数が算出される。
ステップS196において、第二音圧レベル計算回路186は、ダウンミックス回路185から供給されたMDCT係数に基づいて第二音圧レベルを算出し、第二ゲイン計算回路187に供給する。なお、第二音圧レベルの算出は、第一音圧レベルと同様の演算により求められる。
ステップS197において、第二ゲイン計算回路187は、第二音圧レベル計算回路186から供給された第二音圧レベルに基づいて第二ゲインを算出し、ゲイン符号化回路189に供給する。例えば、図4に示したDRC特性に従って第二ゲインが計算される。
ステップS198において、ゲイン符号化回路189は、ゲイン符号化処理を行って第一ゲイン計算回路184から供給された第一ゲインと、第二ゲイン計算回路187から供給された第二ゲインとを符号化する。そして、ゲイン符号化回路189は、ゲイン符号化処理により得られたゲイン符号化モードヘッダおよびゲイン符号列を多重化回路192に供給する。
なお、ゲイン符号化処理の詳細は後述するが、ゲイン符号化処理では、第一ゲインや第二ゲインといったゲインシーケンスについて、時間フレーム間の差分が求められて各ゲインが符号化される。また、ゲイン符号化モードヘッダは必要な場合のみ生成される。
ステップS199において、適応ビット割り当て回路190は、MDCT回路182から供給されたMDCT係数に基づいてビット割当情報を生成し、MDCT係数およびビット割当情報を量子化・符号化回路191に供給する。
ステップS200において、量子化・符号化回路191は、適応ビット割り当て回路190から供給されたビット割当情報に基づいて、適応ビット割り当て回路190からのMDCT係数を量子化および符号化し、その結果得られた信号符号列を多重化回路192に供給する。
ステップS201において、多重化回路192は、ゲイン符号化回路189から供給されたゲイン符号列とゲイン符号化モードヘッダ、上位の制御装置から供給されたダウンミックス情報、および量子化・符号化回路191から供給された信号符号列を多重化し、その結果得られた出力符号列を出力する。これにより、例えば図7に示した出力符号列が得られる。但し、ゲイン符号列は図10に示したものとは異なるものとされる。
このようにして1時間フレーム分の出力符号列がビットストリームとして出力されると、符号化処理は終了する。そして、次の時間フレームの符号化処理が行われる。
以上のようにして、符号化装置1711は、MDCT領域で、すなわちMDCT係数から第一ゲインと第二ゲインを算出し、それらのゲインの差分を求めて符号化する。これにより、より少ない符号量で適切な音量の音声を得ることができる。
〈ゲイン符号化処理の説明〉
次に、図26のフローチャートを参照して、図25のステップS198の処理に対応するゲイン符号化処理について説明する。なお、ステップS231乃至ステップS234の処理は、図18のステップS41乃至ステップS44の処理と同様であるので、その説明は省略する。
ステップS235において、ゲイン符号化回路189は、1つのゲインシーケンスを処理対象のゲインシーケンスとして選択し、そのゲインシーケンスの現時間フレームのゲイン(ゲイン波形)と、その直前の時間フレームのゲインとの差分値を求める。
具体的には、処理対象のゲインシーケンスの現時間フレームの各サンプル位置のゲイン値と、処理対象のゲインシーケンスの現時間フレームの直前の時間フレームの各サンプル位置のゲイン値との差分が求められる。つまり、ゲインシーケンスの時間フレーム間の差分が求められる。
なお、処理対象のゲインシーケンスがスレーブゲインシーケンスである場合には、ステップS234で求められたマスターゲインシーケンスとの差分の時間波形の時間フレーム間の差分値が求められる。すなわち、現時間フレームにおけるマスターゲインシーケンスとの差分の時間波形と、直前の時間フレームにおけるマスターゲインシーケンスとの差分の時間波形との差分値が求められる。
ステップS236において、ゲイン符号化回路189は全ゲインシーケンスを符号化したか否かを判定する。例えば、全てのゲインシーケンスが処理対象とされて処理された場合、全ゲインシーケンスを符号化したと判定される。
ステップS236において、全ゲインシーケンスを符号化していない判定された場合、処理はステップS235に戻り、上述した処理が繰り返し行われる。すなわち、まだ処理対象とされていないゲインシーケンスが次の処理対象のゲインシーケンスとされて符号化が行われる。
これに対して、ステップS236において全ゲインシーケンスを符号化したと判定された場合、ゲイン符号化回路189は、ステップS235で各ゲインシーケンスについて求めたゲインの時間フレーム間の差分値をゲイン符号列とする。そして、ゲイン符号化回路189は、生成したゲイン符号化モードヘッダとゲイン符号列とを多重化回路129に供給する。なお、ゲイン符号化モードヘッダが生成されなかった場合には、ゲイン符号列のみが出力される。
このようにしてゲイン符号化モードヘッダとゲイン符号列が出力されると、ゲイン符号化処理は終了し、その後、処理は図25のステップS199へと進む。
以上のようにして、符号化装置171は、ゲインシーケンス間の差分やゲインシーケンスの時間フレーム間の差分を求めることでゲインを符号化し、ゲイン符号列を生成する。このように、ゲインシーケンス間の差分やゲインシーケンスの時間フレーム間の差分を求めてゲインを符号化することで、第一ゲインや第二ゲインをより効率よく符号化することができる。つまり、符号化の結果として得られる符号量をより少なくすることができる。
〈復号化装置の構成例〉
次に、符号化装置171から出力された出力符号列を入力符号列として入力し、入力符号列の復号化を行う復号化装置について説明する。
図27は、本技術を適用した復号化装置の一実施の形態の構成例を示す図である。
図27に示す復号化装置231は、非多重化回路241、復号化・逆量子化回路242、ゲイン復号化回路243、ゲイン適用回路244、逆MDCT回路245、および窓掛け・OLA回路246を有している。
非多重化回路241は、供給された入力符号列を非多重化する。非多重化回路241は、非多重化により得られたゲイン符号化モードヘッダおよびゲイン符号列をゲイン復号化回路243に供給するとともに、信号符号列を復号化・逆量子化回路242し、さらにダウンミックス情報をゲイン適用回路244に供給する。
復号化・逆量子化回路242は、非多重化回路241から供給された信号符号列に対する復号化および逆量子化を行って、その結果得られたMDCT係数をゲイン適用回路244に供給する。
ゲイン復号化回路243は、非多重化回路241から供給されたゲイン符号化モードヘッダおよびゲイン符号列を復号化し、その結果得られたゲイン情報をゲイン適用回路244に供給する。
ゲイン適用回路244は、上位の制御装置から供給されたダウンミックス制御情報とDRC制御情報に基づいて、非多重化回路241から供給されたダウンミックス情報から得られるゲイン係数と、ゲイン復号化回路243から供給されたゲイン情報を、復号化・逆量子化回路242から供給されたMDCT係数に乗算し、得られたゲイン適用MDCT係数を逆MDCT回路245に供給する。
逆MDCT回路245は、ゲイン適用回路244から供給されたゲイン適用MDCT係数に対して逆MDCT処理を施し、得られた逆MDCT信号を窓掛け・OLA回路246に供給する。窓掛け・OLA回路246は、逆MDCT回路245から供給された逆MDCT信号に対して窓掛けおよびオーバーラップ加算処理を行い、これにより得られた出力時系列信号を出力する。
〈復号化処理の説明〉
続いて、復号化装置231の動作について説明する。
復号化装置231は、入力符号列が1時間フレーム分だけ供給されると、その入力符号列を復号化して出力時系列信号を出力する復号化処理を行う。以下、図28のフローチャートを参照して、復号化装置231による復号化処理について説明する。
ステップS261において、非多重化回路241は、供給された入力符号列を非多重化する。そして、非多重化回路241は、非多重化により得られたゲイン符号化モードヘッダおよびゲイン符号列をゲイン復号化回路243に供給し、信号符号列を復号化・逆量子化回路242し、さらにダウンミックス情報をゲイン適用回路244に供給する。
ステップS262において、復号化・逆量子化回路242は、非多重化回路241から供給された信号符号列に対する復号化および逆量子化を行って、その結果得られたMDCT係数をゲイン適用回路244に供給する。
ステップS263において、ゲイン復号化回路243は、ゲイン復号化処理を行って非多重化回路241から供給されたゲイン符号化モードヘッダおよびゲイン符号列を復号化し、その結果得られたゲイン情報をゲイン適用回路244に供給する。なお、ゲイン復号化処理の詳細は後述する。
ステップS264において、ゲイン適用回路244は、上位の制御装置からのダウンミックス制御情報とDRC制御情報に基づいて、非多重化回路241からのダウンミックス情報から得られるゲイン係数と、ゲイン復号化回路243からのゲイン情報を、復号化・逆量子化回路242からのMDCT係数に乗算し、ゲイン調整を行う。
具体的には、ゲイン適用回路244は、ダウンミックス制御情報に応じて、非多重化回路241から供給されたダウンミックス情報から得られるゲイン係数をMDCT係数に乗算する。そして、ゲイン適用回路244は、ゲイン係数が乗算されたMDCT係数を加算することで、ダウンミックス後のチャネルのMDCT係数を算出する。
さらに、ゲイン適用回路244は、DRC制御情報に応じて、ゲイン復号化回路243から供給されたゲイン情報を、ダウンミックス後の各チャネルのMDCT係数に乗算して、ゲイン適用MDCT係数とする。
ゲイン適用回路244は、このようにして得られたゲイン適用MDCT係数を逆MDCT回路245に供給する。
ステップS265において、逆MDCT回路245は、ゲイン適用回路244から供給されたゲイン適用MDCT係数に対して逆MDCT処理を施し、得られた逆MDCT信号を窓掛け・OLA回路246に供給する。
ステップS266において、窓掛け・OLA回路246は、逆MDCT回路245から供給された逆MDCT信号に対して窓掛けおよびオーバーラップ加算処理を行い、これにより得られた出力時系列信号を出力する。出力時系列信号が出力されると、復号化処理は終了する。
以上のようにして、復号化装置231は、ゲイン符号化モードヘッダおよびゲイン符号列を復号化し、得られたゲイン情報をMDCT係数に適用し、ゲインを調整する。
ゲイン符号列は、ゲインシーケンス間の差分やゲインシーケンスの時間フレーム間の差分を求めて得られたものである。そのため、復号化装置231では、より少ない符号量のゲイン符号列で、より適切なゲイン情報を得ることができる。すなわち、より少ない符号量で適切な音量の音声を得ることができる。
〈ゲイン復号化処理の説明〉
さらに、図29のフローチャートを参照して、図28のステップS263の処理に対応するゲイン復号化処理について説明する。
なお、ステップS291乃至ステップS293の処理は図21のステップS121乃至ステップS123の処理と同様であるので、その説明は省略する。但し、ステップS293では、ゲイン符号列に含まれている各ゲインシーケンスについての時間フレーム内の各サンプル位置におけるゲインの差分値が復号化により得られる。
ステップS294において、ゲイン復号化回路243は、1つのゲインシーケンスを処理対象とし、そのゲインシーケンスの現時間フレームの直前の時間フレームのゲイン値と、現時間フレームのゲインの差分値とから、現時間フレームのゲイン値を求める。
すなわち、ゲイン復号化回路243は、処理対象のゲインシーケンスのゲインシーケンスモードにおける図9に示したMASTER_FLAGとDIFF_SEQ_IDを参照し、処理対象のゲインシーケンスがスレーブゲインシーケンスであるか否かと、対応するマスターゲインシーケンスを特定する。
そして、ゲイン復号化回路243は、処理対象のゲインシーケンスがマスターゲインシーケンスである場合には、ゲイン符号列の復号により得られた、処理対象のゲインシーケンスの現時間フレームの各サンプル位置の差分値と、処理対象のゲインシーケンスの現時間フレームの直前の時間フレームの各サンプル位置のゲイン値とを加算する。そして、その結果得られた現時間フレームの各サンプル位置のゲイン値が、現時間フレームのゲインの時間波形、すなわち処理対象のゲインシーケンスの最終的なゲイン情報とされる。
一方、処理対象のゲインシーケンスがスレーブゲインシーケンスである場合には、ゲイン復号化回路243は、処理対象のゲインシーケンスの現時間フレームの直前の時間フレームにおけるマスターゲインシーケンスと、直前の時間フレームにおける処理対象のゲインシーケンスとの各サンプル位置におけるゲインの差分値を求める。
そして、ゲイン復号化回路243は、このようにして求めた差分値と、ゲイン符号列の復号により得られた、処理対象のゲインシーケンスの現時間フレームの各サンプル位置の差分値とを加算する。さらに、ゲイン復号化回路243は、その加算の結果得られたゲイン波形に、処理対象のゲインシーケンスに対する現時間フレームのマスターゲインシーケンスのゲイン情報(ゲイン波形)を加算して、処理対象のゲインシーケンスの最終的なゲイン情報とする。
ステップS295において、ゲイン復号化回路243は、全ゲインシーケンスのゲイン波形が得られたか否かを判定する。例えばゲイン符号化モードヘッダに示される全てのゲインシーケンスが処理対象のゲインシーケンスとされてゲイン波形(ゲイン情報)が得られた場合、全ゲインシーケンスのゲイン波形が得られたと判定される。
ステップS295において、まだ全てのゲインシーケンスのゲイン波形が得られていないと判定された場合、処理はステップS294に戻り、上述した処理が繰り返し行われる。すなわち、次のゲインシーケンスが処理対象とされて、ゲイン波形(ゲイン情報)が求められる。
これに対して、ステップS295において、全ゲインシーケンスのゲイン波形が得られたと判定された場合、ゲイン復号化処理は終了し、その後、処理は図28のステップS264へと進む。
このようにして、復号化装置231は、ゲイン符号化モードヘッダおよびゲイン符号列を復号化して、各ゲインシーケンスのゲイン情報を算出する。このようにゲイン符号列を復号化してゲイン情報を求めることで、より少ない符号量で適切な音量の音声を得ることができるようになる。
以上のように、本技術によれば、ダウンミックスの有無を含めた様々な再生環境において適切な音量レベルで符号化音声の再生が可能となり、また様々な再生環境においてクリッピングノイズが生じることもなくなる。さらに、必要な符号量が少ないので、多数のゲイン情報を効率的に符号化できる。また、本技術は、復号化装置の計算量が少なくてすむので携帯端末等に対しても適用可能である。
なお、以上においては、入力時系列信号の音量補正としてDRCによるゲイン補正を行う場合について説明したが、音量補正としてラウドネスなど、他の補正処理が行われるようにしてもよい。特に、MPEG AACでは、補助情報としてコンテンツ全体の音圧レベルを表すラウドネスもフレームごとに値を記述しておくことができ、このようなラウドネスの補正値もゲイン値として符号化される。
そこで、ラウドネス補正のゲインも符号化されてゲイン符号列に含めて送信されるようにすることができる。ラウドネス補正では、DRCと同じように各ダウンミックスパターン間で対応したゲイン値が必要とされる。
さらに、第一ゲインや第二ゲインの符号化時に、時間フレーム間でゲイン変化点の差分を求めて符号化を行うようにしてもよい。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
図30は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は、以下の構成とすることも可能である。
(1)
音声信号のフレームごとに音量補正のための第1のゲイン値と第2のゲイン値を算出するゲイン計算部と、
前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1のゲイン値と隣接する前記フレームの前記第1のゲイン値との間若しくは前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化するゲイン符号化部と
を備える符号化装置。
(2)
前記ゲイン符号化部は、前記フレーム内の複数の位置での前記第1のゲイン値と前記第2のゲイン値の前記第1の差分値を求め、または前記フレーム内の複数の位置での前記第1のゲイン値の間若しくは前記フレーム内の複数の位置での前記第1の差分値の間で前記第2の差分値を求める
(1)に記載の符号化装置。
(3)
前記ゲイン符号化部は、前記フレーム内の前記第1のゲイン値または前記第1の差分値の傾きが変化するゲイン変化点に基づいて前記第2の差分値を求める
(1)または(2)に記載の符号化装置。
(4)
前記ゲイン符号化部は、前記ゲイン変化点と、他のゲイン変化点との差分を求めることで、前記第2の差分値を求める
(3)に記載の符号化装置。
(5)
前記ゲイン符号化部は、前記ゲイン変化点と、他のゲイン変化点を用いた1次予測による予測値との差分を求めることで、前記第2の差分値を求める
(3)に記載の符号化装置。
(6)
前記ゲイン符号化部は、前記フレーム内における前記ゲイン変化点の個数と、前記ゲイン変化点における前記第2の差分値に基づく情報を符号化する
(3)に記載の符号化装置。
(7)
前記ゲイン計算部は、ダウンミックスにより得られる異なるチャネル数の前記音声信号ごとに、前記第2のゲイン値を算出する
(1)乃至(6)の何れか一項に記載の符号化装置。
(8)
前記ゲイン符号化部は、前記第1のゲイン値と前記第2のゲイン値の相関に基づいて、前記第1の差分値を求めるか否かを選択する
(1)乃至(7)の何れか一項に記載の符号化装置。
(9)
前記ゲイン符号化部は、前記第1の差分値または前記第2の差分値を可変長符号化する
(1)乃至(8)の何れか一項に記載の符号化装置。
(10)
音声信号のフレームごとに音量補正のための第1のゲイン値と第2のゲイン値を算出し、
前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1のゲイン値と隣接する前記フレームの前記第1のゲイン値との間若しくは前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化する
ステップを含む符号化方法。
(11)
音声信号のフレームごとに音量補正のための第1のゲイン値と第2のゲイン値を算出し、
前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1のゲイン値と隣接する前記フレームの前記第1のゲイン値との間若しくは前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化する
ステップを含む処理をコンピュータに実行させるプログラム。
(12)
音声信号のフレームごとに算出された音量補正のための第1のゲイン値と第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1のゲイン値と隣接する前記フレームの前記第1のゲイン値との間若しくは前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求めることで生成されたゲイン符号列と、前記音声信号を符号化して得られた信号符号列とに、入力符号列を非多重化する非多重化部と、
前記信号符号列を復号化する信号復号化部と、
前記ゲイン符号列を復号化して、前記音量補正のための前記第1のゲイン値または前記第2のゲイン値を出力するゲイン復号化部と
を備える復号化装置。
(13)
前記第1の差分値は、前記フレーム内の複数の位置での前記第1のゲイン値と前記第2のゲイン値の差分値を求めることで符号化されており、
前記第2の差分値は、前記フレーム内の複数の位置での前記第1のゲイン値の間または前記フレーム内の複数の位置での前記第1の差分値の間での差分値を求めることで符号化されている
(12)に記載の復号化装置。
(14)
前記第2の差分値が、前記フレーム内の前記第1のゲイン値または前記第1の差分値の傾きが変化するゲイン変化点から求められることで符号化されている
(12)または(13)に記載の復号化装置。
(15)
前記第2の差分値が、前記ゲイン変化点と、他のゲイン変化点との差分から求められることで符号化されている
(14)に記載の復号化装置。
(16)
前記第2の差分値が、前記ゲイン変化点と、他のゲイン変化点を用いた1次予測による予測値との差分から求められることで符号化されている
(14)に記載の復号化装置。
(17)
前記フレーム内における前記ゲイン変化点の個数と、前記ゲイン変化点における前記第2の差分値に基づく情報が前記第2の差分値として符号化されている
(14)乃至(16)の何れか一項に記載の復号化装置。
(18)
音声信号のフレームごとに算出された音量補正のための第1のゲイン値と第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1のゲイン値と隣接する前記フレームの前記第1のゲイン値との間若しくは前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求めることで生成されたゲイン符号列と、前記音声信号を符号化して得られた信号符号列とに入力符号列を非多重化し、
前記信号符号列を復号化し、
前記ゲイン符号列を復号化して、前記音量補正のための前記第1のゲイン値または前記第2のゲイン値を出力する
ステップを含む復号化方法。
(19)
音声信号のフレームごとに算出された音量補正のための第1のゲイン値と第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1のゲイン値と隣接する前記フレームの前記第1のゲイン値との間若しくは前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求めることで生成されたゲイン符号列と、前記音声信号を符号化して得られた信号符号列とに入力符号列を非多重化し、
前記信号符号列を復号化し、
前記ゲイン符号列を復号化して、前記音量補正のための前記第1のゲイン値または前記第2のゲイン値を出力する
ステップを含む処理をコンピュータに実行させるプログラム。
51 符号化装置, 62 第一ゲイン計算回路, 65 第二ゲイン計算回路, 66 ゲイン符号化回路, 67 信号符号化回路, 68 多重化回路, 91 復号化装置, 101 非多重化回路, 102 信号復号化回路, 103 ゲイン復号化回路, 104 ゲイン適用回路, 141 第二音圧レベル推定回路

Claims (19)

  1. 所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値とをフレームごとに算出するゲイン計算部と、
    前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化するゲイン符号化部と
    を備える符号化装置。
  2. 前記ゲイン符号化部は、前記フレーム内の複数の位置での前記第1のゲイン値と前記第2のゲイン値の前記第1の差分値を求め、または前記フレーム内の複数の位置での前記第1の差分値の間で前記第2の差分値を求める
    請求項1に記載の符号化装置。
  3. 前記ゲイン符号化部は、前記フレーム内の前記第1の差分値の傾きが変化するゲイン変化点に基づいて前記第2の差分値を求める
    請求項1または請求項2に記載の符号化装置。
  4. 前記ゲイン符号化部は、前記ゲイン変化点と、他のゲイン変化点との差分を求めることで、前記第2の差分値を求める
    請求項3に記載の符号化装置。
  5. 前記ゲイン符号化部は、前記ゲイン変化点と、他のゲイン変化点を用いた1次予測による予測値との差分を求めることで、前記第2の差分値を求める
    請求項3に記載の符号化装置。
  6. 前記ゲイン符号化部は、前記フレーム内における前記ゲイン変化点の個数と、前記ゲイン変化点における前記第2の差分値に基づく情報を符号化する
    請求項3に記載の符号化装置。
  7. 前記ゲイン計算部は、前記ダウンミックスにより得られる異なるチャネル数の音声信号ごとに、前記第2のゲイン値を算出する
    請求項1乃至請求項6の何れか一項に記載の符号化装置。
  8. 前記ゲイン符号化部は、前記第1のゲイン値と前記第2のゲイン値の相関に基づいて、前記第1の差分値を求めるか否かを選択する
    請求項1乃至請求項7の何れか一項に記載の符号化装置。
  9. 前記ゲイン符号化部は、前記第1の差分値または前記第2の差分値を可変長符号化する
    請求項1乃至請求項8の何れか一項に記載の符号化装置。
  10. 所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値とをフレームごとに算出し、
    前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化する
    ステップを含む符号化方法。
  11. 所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値とをフレームごとに算出し、
    前記第1のゲイン値と前記第2のゲイン値の第1の差分値を求め、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間で第2の差分値を求め、前記第1の差分値または前記第2の差分値に基づく情報を符号化する
    ステップを含む処理をコンピュータに実行させるプログラム。
  12. フレームごとに算出された、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間での第2の差分値を求めることで生成されたゲイン符号列と、前記所定チャネル数の前記音声信号を符号化して得られた信号符号列とに、入力符号列を非多重化する非多重化部と、
    前記信号符号列を復号化する信号復号化部と、
    前記ゲイン符号列を復号化して、前記第1のゲイン値または前記第2のゲイン値を出力するゲイン復号化部と
    を備える復号化装置。
  13. 前記第1の差分値は、前記フレーム内の複数の位置での前記第1のゲイン値と前記第2のゲイン値の差分値を求めることで符号化されており、
    前記第2の差分値は、前記フレーム内の複数の位置での前記第1の差分値の間での差分値を求めることで符号化されている
    請求項12に記載の復号化装置。
  14. 前記第2の差分値が、前記フレーム内の前記第1の差分値の傾きが変化するゲイン変化点から求められることで符号化されている
    請求項12または請求項13に記載の復号化装置。
  15. 前記第2の差分値が、前記ゲイン変化点と、他のゲイン変化点との差分から求められることで符号化されている
    請求項14に記載の復号化装置。
  16. 前記第2の差分値が、前記ゲイン変化点と、他のゲイン変化点を用いた1次予測による予測値との差分から求められることで符号化されている
    請求項14に記載の復号化装置。
  17. 前記フレーム内における前記ゲイン変化点の個数と、前記ゲイン変化点における前記第2の差分値に基づく情報が前記第2の差分値として符号化されている
    請求項14乃至請求項16の何れか一項に記載の復号化装置。
  18. フレームごとに算出された、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間での第2の差分値を求めることで生成されたゲイン符号列と、前記所定チャネル数の前記音声信号を符号化して得られた信号符号列とに入力符号列を非多重化し、
    前記信号符号列を復号化し、
    前記ゲイン符号列を復号化して、前記第1のゲイン値または前記第2のゲイン値を出力する
    ステップを含む復号化方法。
  19. フレームごとに算出された、所定チャネル数の音声信号の音量補正のための第1のゲイン値と、前記所定チャネル数の前記音声信号をダウンミックスすることで得られる、前記所定チャネル数とは異なる他のチャネル数の音声信号の音量補正のための第2のゲイン値について、前記第1のゲイン値と前記第2のゲイン値の第1の差分値、または前記第1の差分値と隣接する前記フレームの前記第1の差分値との間での第2の差分値を求めることで生成されたゲイン符号列と、前記所定チャネル数の前記音声信号を符号化して得られた信号符号列とに入力符号列を非多重化し、
    前記信号符号列を復号化し、
    前記ゲイン符号列を復号化して、前記第1のゲイン値または前記第2のゲイン値を出力する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2015537641A 2013-09-19 2014-09-05 符号化装置および方法、復号化装置および方法、並びにプログラム Active JP6531649B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013193787 2013-09-19
JP2013193787 2013-09-19
PCT/JP2014/073465 WO2015041070A1 (ja) 2013-09-19 2014-09-05 符号化装置および方法、復号化装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2015041070A1 JPWO2015041070A1 (ja) 2017-03-02
JP6531649B2 true JP6531649B2 (ja) 2019-06-19

Family

ID=52688721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015537641A Active JP6531649B2 (ja) 2013-09-19 2014-09-05 符号化装置および方法、復号化装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US9875746B2 (ja)
EP (1) EP3048609A4 (ja)
JP (1) JP6531649B2 (ja)
CN (1) CN105531762B (ja)
WO (1) WO2015041070A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101048935B (zh) 2004-10-26 2011-03-23 杜比实验室特许公司 控制音频信号的单位响度或部分单位响度的方法和设备
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
CN112185400A (zh) 2012-05-18 2021-01-05 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
US10083700B2 (en) 2012-07-02 2018-09-25 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
MX2018006149A (es) 2013-01-21 2021-09-17 Dolby Laboratories Licensing Corp Codificador y decodificador de audio con metadatos de limite y sonoridad de programa.
KR102473260B1 (ko) 2013-01-21 2022-12-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
CN110379434B (zh) 2013-02-21 2023-07-04 杜比国际公司 用于参数化多声道编码的方法
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN110083714B (zh) 2013-04-05 2024-02-13 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US10095468B2 (en) 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
CN105531759B (zh) 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
RU2764260C2 (ru) 2013-12-27 2022-01-14 Сони Корпорейшн Устройство и способ декодирования
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
WO2016057530A1 (en) 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
EP3753105B1 (en) * 2018-02-15 2023-01-11 Dolby Laboratories Licensing Corporation Loudness control methods and devices
CN110428381B (zh) * 2019-07-31 2022-05-06 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、移动终端及存储介质
CN112992159B (zh) * 2021-05-17 2021-08-06 北京百瑞互联技术有限公司 一种lc3音频编解码方法、装置、设备及存储介质
KR20240014462A (ko) * 2021-05-28 2024-02-01 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간 오디오 객체의 동적 범위 조정

Family Cites Families (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JPH03254223A (ja) 1990-03-02 1991-11-13 Eastman Kodak Japan Kk アナログデータ伝送方式
JP2655485B2 (ja) 1994-06-24 1997-09-17 日本電気株式会社 音声セル符号化装置
JP3498375B2 (ja) 1994-07-20 2004-02-16 ソニー株式会社 ディジタル・オーディオ信号記録装置
JP3189598B2 (ja) 1994-10-28 2001-07-16 松下電器産業株式会社 信号合成方法および信号合成装置
JPH1020888A (ja) 1996-07-02 1998-01-23 Matsushita Electric Ind Co Ltd 音声符号化・復号化装置
US6073100A (en) 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
EP0926658A4 (en) 1997-07-11 2005-06-29 Sony Corp INFORMATION DECODERS AND DECODING METHOD, INFORMATION CODERS AND CODING METHOD AND DISTRIBUTION MEDIUM
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6829360B1 (en) 1999-05-14 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for expanding band of audio signal
JP3454206B2 (ja) 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
CA2290037A1 (en) 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
JP2002268698A (ja) 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
SE0101175D0 (sv) 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
JP4231987B2 (ja) 2001-06-15 2009-03-04 日本電気株式会社 音声符号化復号方式間の符号変換方法、その装置、そのプログラム及び記憶媒体
CN1272911C (zh) 2001-07-13 2006-08-30 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
US6988066B2 (en) 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
EP1444688B1 (en) 2001-11-14 2006-08-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
JP3926726B2 (ja) 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
US7469206B2 (en) 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
EP1470550B1 (en) 2002-01-30 2008-09-03 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
JP2003255973A (ja) 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP2003316394A (ja) 2002-04-23 2003-11-07 Nec Corp 音声復号システム、及び、音声復号方法、並びに、音声復号プログラム
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7555434B2 (en) 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP4728568B2 (ja) 2002-09-04 2011-07-20 マイクロソフト コーポレーション レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
JP3646939B1 (ja) 2002-09-19 2005-05-11 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法
US7330812B2 (en) 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
AU2003219430A1 (en) 2003-03-04 2004-09-28 Nokia Corporation Support of a multichannel audio extension
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
KR20050027179A (ko) 2003-09-13 2005-03-18 삼성전자주식회사 오디오 데이터 복원 방법 및 그 장치
US7844451B2 (en) 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
ATE471557T1 (de) 2003-10-23 2010-07-15 Panasonic Corp Spektrum-codierungseinrichtung, spektrum- decodierungseinrichtung, übertragungseinrichtung für akustische signale, empfangseinrichtung für akustische signale und verfahren dafür
KR100587953B1 (ko) 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
EP1744139B1 (en) 2004-05-14 2015-11-11 Panasonic Intellectual Property Corporation of America Decoding apparatus and method thereof
EP3118849B1 (en) 2004-05-19 2020-01-01 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding device, decoding device, and method thereof
EP1749296B1 (en) 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
KR100608062B1 (ko) 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US20060106620A1 (en) 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
JP4977471B2 (ja) 2004-11-05 2012-07-18 パナソニック株式会社 符号化装置及び符号化方法
BRPI0517780A2 (pt) 2004-11-05 2011-04-19 Matsushita Electric Ind Co Ltd aparelho de decodificação escalável e aparelho de codificação escalável
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US8082156B2 (en) 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
TWI319565B (en) 2005-04-01 2010-01-11 Qualcomm Inc Methods, and apparatus for generating highband excitation signal
WO2006108543A1 (en) 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US20070005351A1 (en) 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
JP4899359B2 (ja) 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100813259B1 (ko) 2005-07-13 2008-03-13 삼성전자주식회사 입력신호의 계층적 부호화/복호화 장치 및 방법
KR101228630B1 (ko) 2005-09-02 2013-01-31 파나소닉 주식회사 에너지 정형 장치 및 에너지 정형 방법
CN101273404B (zh) 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
JP4954080B2 (ja) 2005-10-14 2012-06-13 パナソニック株式会社 変換符号化装置および変換符号化方法
EP1943643B1 (en) 2005-11-04 2019-10-09 Nokia Technologies Oy Audio compression
JP4876574B2 (ja) 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP4863713B2 (ja) 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US7953604B2 (en) 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7590523B2 (en) 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US20090248407A1 (en) 2006-03-31 2009-10-01 Panasonic Corporation Sound encoder, sound decoder, and their methods
DE602007013026D1 (de) 2006-04-27 2011-04-21 Panasonic Corp Audiocodierungseinrichtung, audiodecodierungseinrichtung und verfahren dafür
EP2200026B1 (en) 2006-05-10 2011-10-12 Panasonic Corporation Encoding apparatus and encoding method
JP2007316254A (ja) 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
KR20070115637A (ko) 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
JP2007333785A (ja) 2006-06-12 2007-12-27 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法
US8010352B2 (en) 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
JP5061111B2 (ja) 2006-09-15 2012-10-31 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8295507B2 (en) 2006-11-09 2012-10-23 Sony Corporation Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium
JP5141180B2 (ja) 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
KR101565919B1 (ko) 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
JP4930320B2 (ja) 2006-11-30 2012-05-16 ソニー株式会社 再生方法及び装置、プログラム並びに記録媒体
WO2008072737A1 (ja) 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP4984983B2 (ja) 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
JP2008261978A (ja) * 2007-04-11 2008-10-30 Toshiba Microelectronics Corp 再生音量自動調整方法
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
KR101355376B1 (ko) 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
EP2159790B1 (en) * 2007-06-27 2019-11-13 NEC Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
JP5071479B2 (ja) 2007-07-04 2012-11-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
JP5045295B2 (ja) * 2007-07-30 2012-10-10 ソニー株式会社 信号処理装置及び方法、並びにプログラム
US8041577B2 (en) 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
DK3591650T3 (da) 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller
ES2619277T3 (es) 2007-08-27 2017-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector de transitorio y método para soportar la codificación de una señal de audio
WO2009029037A1 (en) 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive transition frequency between noise fill and bandwidth extension
CN101868823B (zh) 2007-10-23 2011-12-07 歌乐株式会社 高频插值装置和高频插值方法
JP4733727B2 (ja) 2007-10-30 2011-07-27 日本電信電話株式会社 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
KR101373004B1 (ko) 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
JP5404412B2 (ja) 2007-11-01 2014-01-29 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
RU2449386C2 (ru) 2007-11-02 2012-04-27 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство для аудиодекодирования
US20090132238A1 (en) 2007-11-02 2009-05-21 Sudhakar B Efficient method for reusing scale factors to improve the efficiency of an audio encoder
CN101896968A (zh) 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
JP2009116275A (ja) 2007-11-09 2009-05-28 Toshiba Corp 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置
US8504377B2 (en) 2007-11-21 2013-08-06 Lg Electronics Inc. Method and an apparatus for processing a signal using length-adjusted window
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
ES2629453T3 (es) 2007-12-21 2017-08-09 Iii Holdings 12, Llc Codificador, descodificador y procedimiento de codificación
WO2009084221A1 (ja) 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
DE602008005250D1 (de) 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
CN101925953B (zh) 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
KR101413968B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
RU2455709C2 (ru) 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
KR101449434B1 (ko) * 2008-03-04 2014-10-13 삼성전자주식회사 복수의 가변장 부호 테이블을 이용한 멀티 채널 오디오를부호화/복호화하는 방법 및 장치
EP2104096B1 (en) 2008-03-20 2020-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8498344B2 (en) 2008-06-20 2013-07-30 Rambus Inc. Frequency responsive bus coding
WO2010003556A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
KR101223835B1 (ko) 2008-07-11 2013-01-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 합성기 및 오디오 신호 인코더
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
EP2320416B1 (en) 2008-08-08 2014-03-05 Panasonic Corporation Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device, and spectral smoothing method
JP2010079275A (ja) 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
WO2010028292A1 (en) 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
WO2010028299A1 (en) 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
GB2466201B (en) 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
PL3598447T3 (pl) 2009-01-16 2022-02-14 Dolby International Ab Transpozycja harmonicznych rozszerzona o iloczyn wektorowy
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8463599B2 (en) 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5564803B2 (ja) 2009-03-06 2014-08-06 ソニー株式会社 音響機器及び音響処理方法
CN101853663B (zh) 2009-03-30 2012-05-23 华为技术有限公司 比特分配方法、编码装置及解码装置
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CO6440537A2 (es) 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
JP5223786B2 (ja) 2009-06-10 2013-06-26 富士通株式会社 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機
US8515768B2 (en) 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
US8600749B2 (en) 2009-12-08 2013-12-03 At&T Intellectual Property I, L.P. System and method for training adaptation-specific acoustic models for automatic speech recognition
US8447617B2 (en) 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
EP2357649B1 (en) 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP5375683B2 (ja) 2010-03-10 2013-12-25 富士通株式会社 通信装置および電力補正方法
JP5598536B2 (ja) 2010-03-31 2014-10-01 富士通株式会社 帯域拡張装置および帯域拡張方法
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
WO2011127832A1 (en) 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8560330B2 (en) 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
PL3544007T3 (pl) 2010-07-19 2020-11-02 Dolby International Ab Przetwarzanie sygnałów audio podczas rekonstrukcji wysokiej częstotliwości
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP2012058358A (ja) 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2012052802A1 (en) 2010-10-18 2012-04-26 Nokia Corporation An audio encoder/decoder apparatus
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5704397B2 (ja) 2011-03-31 2015-04-22 ソニー株式会社 符号化装置および方法、並びにプログラム
JP6024077B2 (ja) 2011-07-01 2016-11-09 ヤマハ株式会社 信号送信装置および信号処理装置
JP5975243B2 (ja) 2011-08-24 2016-08-23 ソニー株式会社 符号化装置および方法、並びにプログラム
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP5809754B2 (ja) 2011-09-29 2015-11-11 ドルビー・インターナショナル・アーベー Fmステレオ電波信号における高品質検出
US20150088528A1 (en) 2012-04-13 2015-03-26 Sony Corporation Decoding apparatus and method, audio signal processing apparatus and method, and program
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
CA2843226A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
US10083700B2 (en) 2012-07-02 2018-09-25 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
CA2843223A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
JP2014123011A (ja) 2012-12-21 2014-07-03 Sony Corp 雑音検出装置および方法、並びに、プログラム

Also Published As

Publication number Publication date
EP3048609A4 (en) 2017-05-03
US9875746B2 (en) 2018-01-23
JPWO2015041070A1 (ja) 2017-03-02
CN105531762A (zh) 2016-04-27
CN105531762B (zh) 2019-10-01
WO2015041070A1 (ja) 2015-03-26
EP3048609A1 (en) 2016-07-27
US20160225376A1 (en) 2016-08-04

Similar Documents

Publication Publication Date Title
JP6531649B2 (ja) 符号化装置および方法、復号化装置および方法、並びにプログラム
JP6753499B2 (ja) 復号化装置および方法、並びにプログラム
CN107851440B (zh) 经编码音频扩展的基于元数据的动态范围控制
RU2689438C2 (ru) Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования и программа
JP5455647B2 (ja) オーディオデコーダ
RU2634422C2 (ru) Эффективное кодирование звуковых сцен, содержащих звуковые объекты
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
TW201503108A (zh) 後設資料驅動動態範圍控制
US11640825B2 (en) Time-domain stereo encoding and decoding method and related product
US11120807B2 (en) Method for determining audio coding/decoding mode and related product
US11355131B2 (en) Time-domain stereo encoding and decoding method and related product
US11727943B2 (en) Time-domain stereo parameter encoding method and related product
TW202123220A (zh) 使用方向性元資料之多通道音頻編碼及解碼
KR20090122145A (ko) 신호의 처리 방법 및 장치
JP2011118215A (ja) 符号化装置、符号化方法、プログラムおよび電子機器

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170828

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190506

R151 Written notification of patent or utility model registration

Ref document number: 6531649

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151