JP2013174689A - オーディオ符号化装置、オーディオ符号化方法、およびプログラム - Google Patents

オーディオ符号化装置、オーディオ符号化方法、およびプログラム Download PDF

Info

Publication number
JP2013174689A
JP2013174689A JP2012038434A JP2012038434A JP2013174689A JP 2013174689 A JP2013174689 A JP 2013174689A JP 2012038434 A JP2012038434 A JP 2012038434A JP 2012038434 A JP2012038434 A JP 2012038434A JP 2013174689 A JP2013174689 A JP 2013174689A
Authority
JP
Japan
Prior art keywords
quantization
unit
spectrum
frequency spectrum
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012038434A
Other languages
English (en)
Inventor
Yasuhiro Tokuri
康裕 戸栗
Yuji Maeda
祐児 前田
Shiro Suzuki
志朗 鈴木
Atsushi Matsumoto
淳 松本
Yuki Matsumura
祐樹 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012038434A priority Critical patent/JP2013174689A/ja
Publication of JP2013174689A publication Critical patent/JP2013174689A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】新たな情報を復号側に伝送することなく、符号化による音質劣化を防止することができるようにする。
【解決手段】複数の量子化部は、互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する。選択部は、複数の量子化部により量子化された正規化スペクトルのエネルギーのそれぞれと、量子化前の正規化スペクトルのエネルギーとの差分に基づいて、複数の量子化部のうちの1つの量子化部により量子化された正規化スペクトルを選択する。選択された量子化スペクトルは符号化される。本技術は、例えば、オーディオ符号化装置に適用することができる。
【選択図】図4

Description

本技術は、オーディオ符号化装置、オーディオ符号化方法、およびプログラムに関し、特に、新たな情報を復号側に伝送することなく、符号化による音質劣化を防止することができるようにしたオーディオ符号化装置、オーディオ符号化方法、およびプログラムに関する。
音声や音楽等のオーディオ信号を高能率符号化する手法として、変換符号化が知られている。変換符号化では、まず、時間領域のオーディオ信号が所定の時間単位でブロック化され、ブロックごとに周波数領域のスペクトルに変換される。そして、そのスペクトルが複数の所定の帯域幅の量子化ユニットに分割され、量子化ユニットごとにまとめて量子化され、符号化される。
このとき、量子化の前に、量子化ユニットごとに、周波数領域のスペクトル(以下、周波数スペクトルという)が所定の範囲内(絶対値が1以内など)に収まるように、周波数スペクトルに対して、スケールファクタを用いた正規化を行う場合もある。
また、低ビットレートの変換符号化では、復号側に伝送する情報の量を減らすために、各量子化ユニットに割り当てられるビット数を示すビット割り当て情報が伝送されず、復号側で、スケールファクタなどの情報からビット割り当て情報が復元される場合もある。
以上のような変換符号化が行われる場合、ビットレートが低いと、各量子化ユニットに割り当てられるビット数が少ないため、量子化によって周波数スペクトルのエネルギーに比較的大きい誤差が生じる。
図1は、この誤差を説明する図である。
なお、図1において、横軸は、正規化された周波数スペクトルの番号を表し、縦軸は、正規化された周波数スペクトルのパワーレベルを表している。また、図1の例では、4本の周波数スペクトルで構成される量子化ユニットが、絶対値の最大値が1未満となるように正規化され、正規化された周波数スペクトルが、符号を含めて2ビットに線形量子化されている。
従って、図1の例では、縦軸に付加された黒丸で示すように、量子化ポイント(量子化値)は、0と±2/3であり、各量子化ステップの上限の閾値は、±1/3と1である。そして、図1の左側に示す量子化ユニットは、量子化されると、図1の右側に示すようになる。
図1に示すように、量子化ユニットに割り当てられるビット数が少ない場合、線形量子化のステップ幅は大きくなるため、周波数スペクトルは量子化後にゼロになりやすい。これにより、量子化前後の量子化ユニットのエネルギーに比較的大きい誤差が生じる。
また、量子化後の量子化ユニットのパワーレベルの形状は、図1の右側に示すように、凹凸のある櫛型形状となる。その結果、復号結果に異音や音質劣化が生じる。一般的には、高域の量子化ユニットほど割り当てられるビット数が少ないため、異音や音質劣化は、特に中域から高域で発生しやすい。
そこで、スケールファクタを調整することで量子化により生じた量子化ユニットのエネルギーの誤差を補正する方法が考案されている(例えば、特許文献1参照)。
しかしながら、低ビットレートの変換符号化において、上述したように、復号側で、スケールファクタなどの情報からビット割り当て情報が復元される場合、符号化側でスケールファクタが変更されると、復号側でビット割り当て情報が復元できない。従って、低ビットレートの変換符号化であっても、復号側にビット割り当て情報を伝送する必要がある。
また、各量子化ステップの帰属成分数を初めに決定し、量子化前後の量子化ユニットのエネルギーが同一になるという拘束条件のもとで、設計関数に基づいて量子化ステップを補正する方法が考案されている(例えば、特許文献2参照)。
しかしながら、量子化ステップの閾値を変更しながら繰り返し量子化雑音を評価する必要があるため、処理が複雑化し、演算量が増加する。また、量子化インデックスに対応する量子化ポイントを変更するため、復号側に、各量子化インデックスに対応する量子化ポイントを伝送する必要がある。従って、特許文献2に記載されている方法で符号化されたオーディオ信号を、既存の規格の復号装置において復号することは困難である。
特許4168976号公報 特許4335245号公報
以上のように、特許文献1および特許文献2の方法では、ビット割り当て情報や各量子化インデックスに対応する量子化ポイントを新たに伝送する必要があるため、既存の復号装置は、変換符号化された周波数スペクトルを復号することができない。
本技術は、このような状況に鑑みてなされたものであり、新たな情報を復号側に伝送することなく、符号化による音質劣化を防止することができるようにするものである。
本技術の一側面のオーディオ符号化装置は、互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化部と、前記複数の量子化部により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する選択部と、前記選択部により選択された前記周波数スペクトルを符号化する符号化部とを備えるオーディオ符号化装置である。
本技術の一側面のオーディオ符号化方法およびプログラムは、本技術の一側面のオーディオ符号化装置に対応する。
本技術の一側面においては、複数の特性で、オーディオ信号の周波数スペクトルが量子化され、前記複数の特性で量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の特性のうちの1つの特性で量子化された前記周波数スペクトルが選択され、選択された前記周波数スペクトルが符号化される。
本技術の一側面によれば、新たな情報を復号側に伝送することなく、符号化による音質劣化を防止することができる。
量子化前後の正規化されたスペクトルのエネルギーの誤差を説明する図である。 本技術を適用したオーディオ符号化装置の第1実施の形態の構成例を示すブロック図である。 量子化ユニットの例を示す図である。 図2の最適量子化部の構成例を示すブロック図である。 図4の量子化部の構成例を示すブロック図である。 各量子化部の量子化の特性の例を示す図である。 量子化部における量子化を説明する図である。 量子化スペクトル、エネルギー、および差分の例を示す図である。 量子化スペクトル、エネルギー、および差分の例を示す図である。 図2のオーディオ符号化装置による符号化処理を説明するフローチャートである。 図10の量子化処理を説明するフローチャートである。 オーディオ復号装置の構成例を示すブロック図である。 図12のオーディオ復号装置の復号処理を説明するフローチャートである。 本技術を適用したオーディオ符号化装置の第2実施の形態の最適量子化部の構成例を示すブロック図である。 差分と差分の平均値の例を示す図である。 図14の最適量子化部の量子化処理を説明するフローチャートである。 本技術を適用したオーディオ符号化装置の第3実施の形態の最適量子化部の構成例を示すブロック図である。 差分と差分の指数荷重平均の例を示す図である。 図17の最適量子化部の量子化処理を説明するフローチャートである。 コンピュータのハードウエアの構成例を示すブロック図である。
<第1実施の形態>
[オーディオ符号化装置の第1実施の形態の構成例]
図2は、本技術を適用したオーディオ符号化装置の第1実施の形態の構成例を示すブロック図である。
図2のオーディオ符号化装置10は、スペクトル変換部11、正規化部12、最適量子化部13、スペクトル符号化部14、ビット割当計算部15、スケールファクタ符号化部16、および多重化部17により構成される。オーディオ符号化装置10は、オーディオのデジタル時間信号であるオーディオ信号をフレーム単位で符号化する。
具体的には、スペクトル変換部11は、外部からフレーム単位のオーディオ信号を受け取り、周波数スペクトルにスペクトル変換する。スペクトル変換としては、例えば、離散フーリエ変換(DFT(Discrete Fourier Transformation))、離散コサイン変換(DCT(Discrete Cosine Transformation)、修正離散コサイン変換(MDCT(Modified Discrete Cosine Transformation))等が用いられる。スペクトル変換部11は、周波数スペクトルを正規化部12に供給する。
正規化部12は、スペクトル変換部11から供給される周波数スペクトルを、以下の式(1)により、所定の帯域幅の量子化ユニットごとに正規化する。
Xnorm=X×2−SF(q)
・・・(1)
なお、式(1)において、Xnormは、量子化ユニットqの正規化された周波数スペクトルである正規化スペクトルであり、Xは、量子化ユニットqの周波数スペクトルである。また、SF(q)は、正規化スペクトルXnormの絶対値の最大値が1を超えないように決定される、量子化ユニットqのスケールファクタである。スケールファクタSF(q)は、整数であるため、正規化のステップ幅は、3dBである。
正規化部12は、正規化スペクトルXnormを最適量子化部13に供給し、スケールファクタSF(q)をビット割当計算部15とスケールファクタ符号化部16に供給する。
最適量子化部13は、ビット割当計算部15から供給されるビット割り当て情報に基づいて、K(Kは2以上)種類の特性で、量子化ユニットqごとに、正規化部12から供給される正規化スペクトルXnormを量子化する。このように、最適量子化部13は、量子化ユニットqごとに量子化を行うことにより、量子化ユニットqごとの量子化雑音を制御することができる。その結果、いわゆる聴覚マスキング効果等の性質を利用して高能率な符号化を行うことができる。
最適量子化部13は、K種類の特性で量子化された正規化スペクトルXnormのうちの、1種類の特性で量子化された正規化スペクトルXnormを選択し、量子化スペクトルとしてスペクトル符号化部14に供給する。
スペクトル符号化部14は、最適量子化部13から供給される量子化スペクトルに対して、ハフマン符号化や算術符号化などのエントロピー符号化を行う。なお、スペクトル符号化部14は、量子化スペクトルそのものではなく、隣接する量子化ユニットq-1の量子化スペクトルとの差分や、隣接する量子化ユニットq-1から予測される量子化ユニットqの量子化スペクトルとの差分などをエントロピー符号化するようにしてもよい。スペクトル符号化部14は、エントロピー符号化の結果得られる符号化スペクトルを多重化部17に供給する。
なお、ここでは、スペクトル符号化部14は、エントロピー符号化を行うものとするが、等長符号化を行うようにしてもよい。
ビット割当計算部15は、正規化部12から供給される量子化ユニットqごとのスケールファクタSF(q)に基づいて、例えば、以下の式(2)により、各量子化ユニットqに割り当てるビット数Nbits(q)を計算する。
Nbits(q)={SF(q)-NL(q)}/m
・・・(2)
なお、式(2)において、NL(q)は、予め設定された所定の許容ノイズレベルを表す整数であり、mは、所定の係数としての正の整数である。
式(2)によれば、スケールファクタSF(q)が大きい量子化ユニットqほど、ビット数Nbits(q)が大きくなる。即ち、ビット数Nbits(q)は、スケールファクタSF(q)、つまり周波数スペクトルXのパワーレベルに適応する。また、係数mの値を変更することにより、ビット数Nbits(q)の周波数スペクトルXのパワーレベルへの適応の程度を変更することができる。
また、スケールファクタSF(q)、許容ノイズレベルNL(q)、および係数mが全て整数であるので、式(2)によれば、整数演算によりビット数Nbits(q)を計算することができる。その結果、復号側において、スケールファクタSF(q)から符号化時と完全に同一のビット数Nbits(q)を復元することができる。
なお、式(2)により計算されたビット数Nbits(q)が、量子化ユニットqの所定の最小ビット数(例えば、1ビット)に満たない場合は、ビット割当計算部15は、ビット数Nbits(q)を最小ビット数にする。
ビット割当計算部15は、ビット数Nbits(q)を示すビット割り当て情報を最適量子化部13に供給する。
スケールファクタ符号化部16は、正規化部12から供給される量子化ユニットqごとのスケールファクタSF(q)に対してエントロピー符号化を行う。なお、スケールファクタ符号化部16は、スケールファクタSF(q)そのものではなく、隣接する量子化ユニットq-1のスケールファクタSF(q-1)との差分や、隣接する量子化ユニットq-1から予測されるスケールファクタSF(q)'との差分などをエントロピー符号化するようにしてもよい。
隣接する量子化ユニットq-1のスケールファクタSF(q-1)との差分ΔSF(q)(q≧1)は、以下の式(3)により求められる。
ΔSF(q)=SF(q)-SF(q-1)
・・・(3)
スケールファクタ符号化部16は、エントロピー符号化の結果得られる符号化スケールファクタを多重化部17に供給する。なお、ここでは、スケールファクタ符号化部16は、エントロピー符号化を行うものとするが、等長符号化を行うようにしてもよい。
多重化部17は、スペクトル符号化部14から供給される符号化スペクトル、スケールファクタ符号化部16から供給される符号化スケールファクタ、その他の付加情報などを、所定のフォーマットにしたがって多重化し、出力ビットストリームを生成する。多重化部17は、出力ビットストリームを復号装置に送信する。
[量子化ユニットの例]
図3は、量子化ユニットqの例を示す図である。
なお、図3において、横軸は、周波数を表し、縦軸は、周波数スペクトルXのパワーレベルを表す。また、図3では、低域からi番目の量子化ユニットqをqiと表す。
図3に示すように、いわゆる聴覚の臨界帯域幅(クリティカルバンド)が考慮されて、量子化ユニットqの帯域幅は高域ほど広くなっている。
[最適量子化部の構成例]
図4は、図2の最適量子化部13の構成例を示すブロック図である。
図4に示すように、最適量子化部13は、K個の量子化部31−1乃至31−K、K個のエネルギー計算部32−1乃至32−K、エネルギー計算部33、および選択部34により構成される。
量子化部31−1乃至31−Kは、図2の正規化部12から供給される正規化スペクトルXnormを、量子化ユニットqごとに、互いに異なる特性で量子化する。ここで、異なる特性の量子化とは、同一の量子化ポイントに対するステップ幅と閾値が異なる量子化を指す。量子化部31−1乃至31−Kは、それぞれ、量子化の結果得られる量子化スペクトルを、エネルギー計算部32−1乃至32−Kと選択部34に供給する。
エネルギー計算部32−1乃至32−Kは、それぞれ、量子化部31−1乃至31−Kから供給される量子化スペクトルのエネルギーを、以下の式(4)により、量子化ユニットqごとに計算し、選択部34に供給する。
Figure 2013174689
なお、Eq(k)は、量子化部31−k(k=1,2,・・・,K)により得られる量子化ユニットqの量子化スペクトルのエネルギーであり、Xは、量子化部31−k(k=1,2,・・・,K)により得られる量子化スペクトルである。
以下では、量子化部31−1乃至31−Kを特に区別する必要がない場合、それらをまとめて量子化部31という。同様に、エネルギー計算部32−1乃至32−Kをエネルギー計算部32という。
エネルギー計算部33は、図2の正規化部12から供給される正規化スペクトルXnormのエネルギーEq(0)を、上述した式(4)と同様の式により、量子化ユニットqごとに計算し、選択部34に供給する。
選択部34は、エネルギー計算部32から供給されるエネルギーEq(k)と、エネルギー計算部33から供給されるエネルギーEq(0)の差分ΔEq(k)を、量子化ユニットqごとに計算する。選択部34は、その差分ΔEq(k)に基づいて、量子化部31−1乃至31−Kのうちの、差分ΔEq(k)の絶対値が最小となるエネルギーEq(k)に対応する量子化部31から供給される量子化スペクトルXを量子化ユニットqごとに選択する。
具体的には、選択部34は、以下の式(5)により、差分ΔEq(k)の絶対値の最小値を与えるkの値sel_quantizer(q)を量子化ユニットqごとに求める。
sel_quantizer(q)=arg min1≦k≦K(|ΔEq(k)|)
・・・(5)
そして、選択部34は、量子化ユニットqごとに最小値を与えるsel_quantizer(q)に対応する量子化部31から供給される量子化スペクトルXを選択する。選択部34は、選択された量子化スペクトルXを図2のスペクトル符号化部14に供給する。
なお、ここでは、量子化部31が、全ての量子化ユニットqに対して共通に設けられたが、量子化ユニットqごとに複数の量子化部が設けられるようにしてもよい。この場合、量子化ユニットqごとに、量子化部の数や特性が異なるようにすることができる。
例えば、一般的に、高域の量子化ユニットqほど割り当てられるビット数Nbits(q)が少ないため、差分ΔEq(k)が発生しやすい。従って、高域の量子化ユニットqの正規化スペクトルXnormを量子化する量子化部の数が、低域の量子化ユニットqの正規化スペクトルXnormを量子化する量子化部の数に比べて多くされる。このとき、低域の量子化ユニットqの正規化スペクトルXnormを量子化する量子化部の数は1にしてもよい。
また、量子化ステップの閾値の絶対値は小さいほど音質が向上する。従って、エネルギーギャップによるノイズが人に知覚されやすい高域の量子化ユニットqの正規化スペクトルXnormを量子化する量子化部の特性としての閾値の絶対値は、低域の量子化ユニットqの正規化スペクトルXnormを量子化する量子化部の特性としての閾値の絶対値に比べて小さいものを含むようにしてもよい。
[量子化部の構成例]
図5は、図4の量子化部31の構成例を示すブロック図である。
図5に示すように、量子化部31は、非線形変換部51と線形量子化部52により構成される。
非線形変換部51は、図2の正規化部12から供給される量子化ユニットqごとの正規化スペクトルXnormを、以下の式(6)で表される非線形な関数で変換する。
Ynorm=sign(Xnorm)・|Xnorm|α(k)
・・・(6)
なお、式(6)において、Ynormは、変換後の正規化スペクトルXnormである変換スペクトルであり、α(k)は、後述するように、量子化部31-k(k=1,2,・・・,K)における量子化の各量子化ステップの閾値を変更するパラメータである。また、sign(Xnorm)はXnormの符号であり、|Xnorm|は、Xnormの絶対値である。非線形変換部51は、変換の結果得られる変換スペクトルYnormを線形量子化部52に供給する。
線形量子化部52は、非線形変換部51から供給される変換スペクトルYnormを、量子化ユニットqごとに均等なステップ幅で線形量子化し、その結果得られる量子化スペクトルXを図4のエネルギー計算部32に供給する。
以上のように構成される量子化部31では、α(k)=1である場合、均等なステップ幅で量子化が行われ、α(k)=1ではない場合、均等ではないステップ幅で量子化が行われる。
具体的には、線形量子化部52により正規化スペクトルXnormが符号を含めて2ビットに線形量子化される場合、α(k)=1であるとき、±(1/3)が、その線形量子化の量子化ステップの上限の閾値である±1/3と等しい。従って、量子化部31における量子化ステップの上限の閾値は±1/3と1であり、量子化部31における量子化は、均等なステップ幅の線形量子化となる。
一方、例えばα(k)=0.75であるとき、±(0.231)0.75が±1/3と略等しい。従って、量子化部31における量子化の量子化ステップの上限の閾値は±0.231と1であり、量子化部31における量子化は、均等ではないステップ幅の線形量子化となる。
即ち、正規化スペクトルXnormの絶対値が0.231以下である場合、変換スペクトルYnormの絶対値が1/3以下となり、量子化スペクトルXが0になる。一方、正規化スペクトルXnormが0.231より大きい場合、変換スペクトルYnormは1/3より大きくなり、量子化スペクトルXが2/3となる。また、正規化スペクトルXnormが-0.231より小さい場合、変換スペクトルYnormは-1/3より小さくなり、量子化スペクトルXが-2/3となる。
このように、量子化部31では、パラメータα(k)によって、線形量子化の量子化ステップの閾値に対応する正規化スペクトルXnormの値を変更することにより、量子化ステップの閾値が変更される。
[量子化の特性]
図6は、各量子化部31の量子化の特性の例を示す図である。
図6の例では、ビット数Nbitsが2ビットであり、量子化ステップ数は3である。また、各量子化ステップに対応する量子化値(量子化ポイント)は、-2/3(=-0.666),0,2/3(=0.666)である。図6では、各量子化ステップを、対応する量子化値の小さい方から順に、量子化ステップ#1、量子化ステップ#2、量子化ステップ#3と表す。
図6では、量子化部31−1の量子化ステップ#1の上限の閾値は-0.231であり、量子化ステップ#2の上限の閾値は0.231であり、量子化ステップ#3の上限の閾値は1.0である。即ち、パラメータα(1)は0.75である。
また、量子化部31−2の量子化ステップ#1の上限の閾値は-0.333であり、量子化ステップ#2の上限の閾値は0.333であり、量子化ステップ#3の上限の閾値は1.0である。即ち、パラメータα(2)は1である。従って、量子化部31−2による量子化は、図1に示した均等なステップ幅の線形量子化である。
さらに、図示は省略するが、量子化部31−3乃至31−(K−1)においても同様に、量子化ステップ#1乃至量子化ステップ#3の上限の閾値が、他の量子化部31とは異なる値となっている。また、量子化部31−Kの量子化ステップ#1の上限の閾値は-0.111であり、量子化ステップ#2の上限の閾値は0.111であり、量子化ステップ#3の上限の閾値は1.0である。ここで、±(0.111)0.5が±1/3と略等しい。即ち、パラメータα(K)は0.5である。
なお、図6では、ビット数Nbitsが2ビットである場合についてのみ説明したが、図6と同様のテーブルは、ビット数Nbitsごとに設定される。量子化部31は、ビット割り当て情報が示すビット数Nbitsに対応する特性に基づいて量子化を行う。
[量子化の説明]
図7は、量子化部31−1における量子化を説明する図である。
なお、図7において、横軸は、正規化スペクトルの番号を表し、縦軸は、正規化スペクトルのパワーレベルを表している。また、図7の例では、量子化ユニットqが、4本の周波数スペクトルXで構成され、正規化スペクトルXnormが符号を含めて2ビットに量子化される。
量子化部31−1における量子化の特性が、図6で示した特性である場合、図7の縦軸に付加された黒丸で示すように、量子化ポイント(量子化値)は、0と±2/3である。また、図7の左側において、点線で示すように、量子化ステップ#1の上限の閾値は-0.231であり、量子化ステップ#2の上限の閾値は0.231である。
従って、-1<Xnorm≦-0.231である場合、正規化スペクトルXnormは-2/3に量子化され、-0.231<Xnorm<0.231である場合、正規化スペクトルXnormは0に量子化され、0.231≦Xnorm<1である場合、正規化スペクトルXnormは2/3に量子化される。その結果、図7の左側に示す量子化ユニットqの正規化スペクトルXnormは、図7の右側に示すように、量子化される。
なお、正規化スペクトルXnormが±0.231である場合、正規化スペクトルXnormは0に量子化されてもよい。
量子化ステップ#1の上限の閾値を-aとし、量子化ステップ#2の上限の閾値をaとしたとき、上限の閾値aが小さいほど、正規化スペクトルXnormが0になりにくく、上限の閾値aが大きいほど、正規化スペクトルXnormが0になりやすい。
[量子化スペクトルの選択の説明]
図8および図9は、量子化スペクトルX、エネルギーEq(k)、および差分ΔEq(k)の例を示す図である。
なお、図8および図9の例では、量子化部31の特性が図6に示した特性である。また、量子化ユニットqを構成する周波数スペクトルXの数は4本であり、量子化ユニットqの4本の正規化スペクトルXnormを、それぞれ、X1乃至X4と表す。
図8に示すように、正規化スペクトルX1乃至X4が、それぞれ、0.9,0.8,0.3,0.5である場合、エネルギーEq(0)は、1.79である。また、量子化部31−1および量子化部31−Kにおいて正規化スペクトルX1乃至X4が量子化されることにより得られる量子化スペクトルXは、全て0.666である。従って、量子化部31−1により得られる量子化スペクトルXのエネルギーEq(1)は1.777であり、差分ΔEq(1)は0.012である。同様に、エネルギーEq(K)も1.777であり、差分ΔEq(K)も0.012である。
一方、量子化部31−2において正規化スペクトルX1乃至X4が量子化されることにより得られる量子化スペクトルは、それぞれ0.666,0.666,0.0,0.666である。従って、量子化部31−2により得られる量子化スペクトルXのエネルギーEq(2)は1.333であり、差分ΔEq(2)は0.457である。
ここで、量子化部31−3乃至31−(K−1)により得られる量子化スペクトルXの差分ΔEq(3)乃至ΔEq(K-1)が0.012より大きいとすると、選択部34は、差分ΔEq(k)が最小となる量子化部31−1または量子化部31−Kにより得られる量子化スペクトルXを選択する。
また、図9に示すように、正規化スペクトルX1乃至X4が、それぞれ、0.7,0.4,0.3,0.3である場合、エネルギーEq(0)は、0.83である。また、量子化部31−1および量子化部31−Kにおいて正規化スペクトルX1乃至X4が量子化されることにより得られる量子化スペクトルXは、全て0.666である。従って、量子化部31−1により得られる量子化スペクトルXのエネルギーEq(1)は1.777であり、差分ΔEq(1)は0.948である。同様に、エネルギーEq(K)も1.777であり、差分ΔEq(K)も0.948である。
また、量子化部31−2において正規化スペクトルX1乃至X4が量子化されることにより得られる量子化スペクトルは、それぞれ0.666,0.666,0.0,0.0である。従って、量子化部31−2により得られる量子化スペクトルXのエネルギーEq(2)は0.889であり、差分ΔEq(2)は0.059である。
ここで、量子化部31−3乃至31−(K−1)により得られる量子化スペクトルXの差分ΔEq(3)乃至ΔEq(K-1)が0.059より大きいとすると、選択部34は、差分ΔEq(k)が最小となる量子化部31−2により得られる量子化スペクトルXを選択する。
以上のように、正規化スペクトルXnormによって、差分ΔEq(k)が最小となる量子化部31は異なり、選択部34は、差分ΔEq(k)が最小となる量子化部31により得られる量子化スペクトルXを選択する。
[オーディオ符号化装置の処理の説明]
図10は、図2のオーディオ符号化装置10による符号化処理を説明するフローチャートである。この符号化処理は、例えば、オーディオ符号化装置10が、外部からフレーム単位のオーディオ信号を受け取るごとに、行われる。
図10のステップS11において、スペクトル変換部11は、受け取られたフレーム単位のオーディオ信号を周波数スペクトルXに変換し、周波数スペクトルXを正規化部12に供給する。
ステップS12において、正規化部12は、スペクトル変換部11から供給される周波数スペクトルXを、上述した式(1)により、量子化ユニットqごとに正規化する。正規化部12は、正規化スペクトルXnormを最適量子化部13に供給し、スケールファクタSF(q)をビット割当計算部15とスケールファクタ符号化部16に供給する。
ステップS13において、ビット割当計算部15は、正規化部12から供給される量子化ユニットqごとのスケールファクタSF(q)に基づいて、上述した式(2)により、各量子化ユニットqに割り当てるビット数Nbits(q)を計算する。ビット割当計算部15は、ビット数Nbits(q)を示すビット割り当て情報を最適量子化部13に供給する。
ステップS14において、スケールファクタ符号化部16は、正規化部12から供給される量子化ユニットqごとのスケールファクタをエントロピー符号化し、その結果得られる符号化スケールファクタを多重化部17に供給する。
ステップS15において、最適量子化部13は、正規化スペクトルXnormを量子化する量子化処理を行う。この量子化処理の詳細は、後述する図11を参照して説明する。
ステップS16において、スペクトル符号化部14は、最適量子化部13から供給される量子化スペクトルをエントロピー符号化し、その結果得られる符号化スペクトルを多重化部17に供給する。
ステップS17において、多重化部17は、スケールファクタ符号化部16から供給される符号化スケールファクタとスペクトル符号化部14から供給される符号化スペクトルなどを、所定のフォーマットにしたがって多重化し、出力ビットストリームを生成する。そして、多重化部17は、出力ビットストリームを復号装置に送信する。
図11は、図10の量子化処理を説明するフローチャートである。
図11のステップS21において、最適量子化部13の量子化部31−1乃至31−Kは、図2の正規化部12から供給される正規化スペクトルXnormを、量子化ユニットqごとに、互いに異なる特性で量子化する。量子化部31−1乃至31−Kは、それぞれ、量子化の結果得られる量子化スペクトルを、エネルギー計算部32−1乃至32−Kと選択部34に供給する。
ステップS22において、エネルギー計算部32−1乃至32−Kは、それぞれ、量子化部31−1乃至31−Kから供給される量子化スペクトルのエネルギーEq(k)を、上述した式(4)により、量子化ユニットqごとに計算し、選択部34に供給する。また、エネルギー計算部33は、図2の正規化部12から供給される正規化スペクトルXnormのエネルギーEq(0)を、上述した式(4)と同様の式により、量子化ユニットqごとに計算し、選択部34に供給する。
ステップS23において、選択部34は、エネルギー計算部32−1乃至32−Kから供給されるエネルギーEq(k)のそれぞれと、エネルギー計算部33から供給されるエネルギーEq(0)との差分ΔEq(k)を、量子化ユニットqごとに計算する。
ステップS24において、選択部34は、差分ΔEq(k)に基づいて、量子化部31−1乃至31−Kのうちの、差分ΔEq(k)が最小となるエネルギーEq(k)に対応する量子化部31から供給される量子化スペクトルXを、量子化ユニットqごとに選択する。そして、選択部34は、選択された量子化スペクトルXを図2のスペクトル符号化部14に供給し、処理を図10のステップS15に戻し、ステップS16に進む。
以上のように、オーディオ符号化装置10は、互いに異なる複数の特性で正規化スペクトルを量子化し、その結果得られる量子化スペクトルのエネルギーのそれぞれと、量子化前の正規化スペクトルのエネルギーとの差分に基づいて、複数の特性のうちの1つの特性で量子化された量子化スペクトルを選択する。従って、量子化前の正規化スペクトルとのエネルギーの差分がより少ない量子化スペクトルを生成し、符号化による音質劣化を防止することができる。また、オーディオ符号化装置10は、量子化ポイント(量子化値)やスケールファクタを変更しないため、新たな情報を復号側に伝送する必要がない。
[オーディオ復号装置]
図12は、図2のオーディオ符号化装置10から送信されてくる出力ビットストリームを復号するオーディオ復号装置の構成例を示すブロック図である。
図12に示すように、オーディオ復号装置70は、分離部71、スペクトル復号部72、スケールファクタ復号部73、ビット割当計算部74、逆量子化部75、逆正規化部76、およびスペクトル逆変換部77により構成される。
オーディオ復号装置70の分離部71は、図2のオーディオ符号化装置10から送信されてくる出力ビットストリームを受信する。分離部71は、受信された出力ビットストリームを、所定のフォーマットにしたがって分離し、その結果得られる符号化スペクトルをスペクトル復号部72に供給し、符号化スケールファクタをスケールファクタ復号部73に供給する。
スペクトル復号部72は、分離部71から供給される符号化スペクトルをエントロピー復号し、その結果得られる量子化スペクトルXを逆量子化部75に供給する。スケールファクタ復号部73は、分離部71から供給される符号化スケールファクタをエントロピー復号し、その結果得られるスケールファクタSF(q)をビット割当計算部74と逆正規化部76に供給する。
ビット割当計算部74は、ビット割当計算部15と同様に、スケールファクタSF(q)に基づいて、上述した式(2)により、各量子化ユニットqに割り当てるビット数Nbits(q)を復元する。ビット割当計算部74は、ビット数Nbits(q)を示すビット割り当て情報を逆量子化部75に供給する。
逆量子化部75は、ビット割当計算部74から供給されるビット割り当て情報に基づいて、スペクトル復号部72から供給される量子化スペクトルXを量子化ユニットqごとに逆量子化し、正規化スペクトルXnormを復元する。逆量子化部75は、復元された正規化スペクトルXnormを逆正規化部76に供給する。
逆正規化部76は、スケールファクタ復号部73から供給されるスケールファクタSF(q)に基づいて、逆量子化部75から供給される正規化スペクトルXnormを、量子化ユニットqごとに逆正規化し、周波数スペクトルXを復元する。逆正規化部76は、復元された周波数スペクトルXをスペクトル逆変換部77に供給する。
スペクトル逆変換部77は、逆正規化部76から供給される周波数スペクトルXをオーディオ信号に逆スペクトル変換し、出力する。
[復号装置の処理の説明]
図13は、図12のオーディオ復号装置70の復号処理を説明するフローチャートである。この復号処理は、オーディオ復号装置70が、図2のオーディオ符号化装置10から送信されてくる出力ビットストリームを受信したとき、開始される。
図13のステップS31において、オーディオ復号装置70の分離部71は、受信された出力ビットストリームを、所定のフォーマットにしたがって分離する。分離部71は、その結果得られる符号化スペクトルをスペクトル復号部72に供給し、符号化スケールファクタをスケールファクタ復号部73に供給する。
ステップS32において、スペクトル復号部72は、分離部71から供給される符号化スペクトルをエントロピー復号し、その結果得られる量子化スペクトルXを逆量子化部75に供給する。
ステップS33において、スケールファクタ復号部73は、分離部71から供給される符号化スケールファクタをエントロピー復号し、その結果得られるスケールファクタSF(q)をビット割当計算部74と逆正規化部76に供給する。
ステップS34において、ビット割当計算部74は、スケールファクタSF(q)に基づいて、上述した式(2)により、各量子化ユニットqに割り当てるビット数Nbits(q)を計算する。ビット割当計算部74は、ビット数Nbits(q)を示すビット割り当て情報を逆量子化部75に供給する。
ステップS35において、逆量子化部75は、ビット割当計算部74から供給されるビット割り当て情報に基づいて、スペクトル復号部72から供給される量子化スペクトルXを量子化ユニットqごとに逆量子化し、正規化スペクトルXnormを復元する。逆量子化部75は、復元された正規化スペクトルXnormを逆正規化部76に供給する。
ステップS36において、逆正規化部76は、スケールファクタ復号部73から供給されるスケールファクタSF(q)に基づいて、逆量子化部75から供給される正規化スペクトルXnormを、量子化ユニットqごとに逆正規化し、周波数スペクトルXを復元する。逆正規化部76は、復元された周波数スペクトルXをスペクトル逆変換部77に供給する。
ステップS37において、スペクトル逆変換部77は、逆正規化部76から供給される周波数スペクトルXをオーディオ信号に逆スペクトル変換し、出力する。
<第2実施の形態>
[オーディオ符号化装置の第2実施の形態の構成例]
図14は、本技術を適用したオーディオ符号化装置10の第2実施の形態の最適量子化部13の構成例を示すブロック図である。
図14に示す構成のうち、図4の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図14の最適量子化部13の構成は、選択部34の代わりに誤差演算部91、平均化部92、および選択部93が設けられている点が図4の構成と異なる。図14の最適量子化部13は、符号化対象のフレームを含む所定数のフレーム(10秒乃至100秒程度)からなるフレーム区間における差分ΔEq(k)の平均値に基づいて、量子化スペクトルXを選択する。
具体的には、最適量子化部13の誤差演算部91は、エネルギー計算部32から供給されるエネルギーEq(k)と、エネルギー計算部33から供給されるエネルギーEq(0)の差分ΔEq(k)を、量子化ユニットqごとに計算し、平均化部92に供給する。
平均化部92は、誤差演算部91から供給される差分ΔEq(k)を保持する。平均化部92は、フレーム区間の差分ΔEq(k)が保持されるごとに、フレーム区間の差分ΔEq(k)を平均化する。平均化部92は、その結果得られる差分ΔEq(k)の平均値を選択部93に供給する。
選択部93は、平均化部92から供給される差分ΔEq(k)の平均値に基づいて、量子化部31−1乃至31−Kのうちの、差分ΔEq(k)の平均値が最小となるエネルギーEq(k)に対応する量子化部31により得られたフレーム区間の量子化スペクトルXを、量子化ユニットqごとに選択する。そして、選択部93は、選択されたフレーム区間の量子化スペクトルXを図2のスペクトル符号化部14に供給する。
[量子化スペクトルの選択の説明]
図15は、差分ΔEq(k)と差分ΔEq(k)の平均値の例を示す図である。
なお、図15において、i番目のフレームをFrm#iと表す。また、図15の例では、フレーム区間を構成するフレームの数がNである。
図15に示すように、フレーム区間の差分ΔEq(1)、差分ΔEq(2)、および差分ΔEq(K)の平均値が、それぞれ、0.5,0.3,0.4である場合、差分ΔEq(3)乃至差分ΔEq(K-1)の平均値が0.3より大きいとき、選択部93は、最小の差分ΔEq(2)に対応する量子化部31−2により得られるフレーム区間の量子化スペクトルXを選択する。即ち、選択部93は、Frm#1乃至Frm#Nの間、同一の量子化部31−2により得られる量子化スペクトルXを選択する。
このように、差分ΔEq(k)の平均値に基づいて量子化スペクトルXが選択される場合、最適量子化部13は、量子化の特性の切り替えを頻繁に行わずに済むので、復号結果が不安定な音になったり、復号結果に異音が発生したりすることを抑制することができる。
これに対して、差分ΔEq(k)に基づいて量子化スペクトルXが選択される場合、量子化の特性は、Frm#1では、最小の差分ΔEq(K)に対応する量子化部31−Kにおける特性となるが、Frm#2では、最小の差分ΔEq(2)に対応する量子化部31−2における特性となり、Frm#Nでは、最小の差分ΔEq(K)に対応する量子化部31−Kにおける特性となる。
[符号化処理の説明]
オーディオ符号化装置10の第2実施の形態の符号化処理は、図10のステップS15の量子化処理と、符号化処理の処理単位を除いて、図10の符号化処理と同様であるので、量子化処理についてのみ説明する。オーディオ符号化装置10の第2実施の形態の符号化処理の処理単位は、フレーム単位のオーディオ信号ではなく、フレーム区間単位のオーディオ信号である。
図16は、図14の最適量子化部13の量子化処理を説明するフローチャートである。
図16のステップS51およびS52の処理は、図11のステップS21およびS22の処理と同様であるので、説明は省略する。
ステップS53において、最適量子化部13の誤差演算部91は、エネルギー計算部32から供給されるエネルギーEq(k)と、エネルギー計算部33から供給されるエネルギーEq(0)の差分ΔEq(k)を、量子化ユニットqおよびフレームごとに計算し、平均化部92に供給する。これにより、平均化部92は、誤差演算部91から供給されるフレーム区間分の差分ΔEq(k)を保持する。
ステップS54において、平均化部92は、保持されているフレーム区間分の差分ΔEq(k)を平均化し、保持している差分ΔEq(k)を削除する。平均化部92は、差分ΔEq(k)の平均値を選択部93に供給する。
ステップS55において、選択部93は、平均化部92から供給される差分ΔEq(k)の平均値に基づいて、量子化部31−1乃至31−Kのうちの、差分ΔEq(k)の平均値が最小となるエネルギーEq(k)に対応する量子化部31により得られたフレーム区間の量子化スペクトルXを選択する。そして、選択部93は、選択されたフレーム区間の量子化スペクトルXを図2のスペクトル符号化部14に供給する。
なお、図14の最適量子化部13は、フレーム区間の差分ΔEq(k)の統計量に基づいて、量子化スペクトルXを選択すればよく、差分ΔEq(k)の平均値ではなく、差分ΔEq(k)の最大値などに基づいて、量子化スペクトルXを選択するようにしてもよい。
<第3実施の形態>
[オーディオ符号化装置の第3実施の形態の構成例]
図17は、本技術を適用したオーディオ符号化装置10の第3実施の形態の最適量子化部13の構成例を示すブロック図である。
図17に示す構成のうち、図14の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図17の最適量子化部13の構成は、平均化部92の代わりに平均化部111が設けられている点、選択部93の代わりに選択部112が設けられている点が図14の構成と異なる。図17の最適量子化部13は、符号化対象のフレームより過去の複数フレームにおける差分ΔEq(k)の指数荷重平均に基づいて、量子化スペクトルXを選択する。
具体的には、最適量子化部13の平均化部111は、誤差演算部91から供給される差分ΔEq(k)を保持する。平均化部111は、保持されている、符号化対象のフレームより過去の複数フレームの差分ΔEq(k)の指数荷重平均を求める。平均化部111は、差分ΔEq(k)の指数荷重平均を選択部112に供給する。
選択部112は、平均化部111から供給される差分ΔEq(k)の指数荷重平均に基づいて、量子化部31−1乃至31−Kのうちの、差分ΔEq(k)の指数荷重平均が最小となるエネルギーEq(k)に対応する量子化部31により得られる量子化スペクトルXを、量子化ユニットqごとに選択する。選択部112は、選択された量子化スペクトルXを図2のスペクトル符号化部14に供給する。
[量子化スペクトルの選択の説明]
図18は、差分ΔEq(1)と差分ΔEq(2)の指数荷重平均の例を示す図である。
なお、図18において、横軸は、フレーム番号を表している。また、図18において、実線は、各フレームの差分ΔEq(1)と差分ΔEq(2)を示し、点線は、自己のフレームより過去の複数フレームの差分ΔEq(1)の指数過重平均ΔEq(1)'と差分ΔEq(2)の指数荷重平均ΔEq(2)’を示す。
図18に示すように、差分ΔEq(1)と差分ΔEq(2)の大小は頻繁に入れ替わるが、指数荷重平均ΔEq(1)’と指数荷重平均ΔEq(2)’の大小は頻繁に入れ替わらない。例えば、図18において、指数荷重平均ΔEq(3)’乃至指数荷重平均ΔEq(K)’が、指数荷重平均ΔEq(1)’と指数荷重平均ΔEq(2)’の間の値である場合、フレームTよりも前のフレームでは、最小の指数荷重平均ΔEq(1)’に対応する量子化部31−1による量子化スペクトルXが選択され、フレームT以降では、最小の指数荷重平均ΔEq(2)’に対応する量子化部31−2による量子化スペクトルXが選択される。
このように、差分ΔEq(k)の指数荷重平均ΔEq(k)'に基づいて量子化スペクトルXが選択される場合、最適量子化部13は、量子化の特性の切り替えを頻繁に行わずに済むので、復号結果が不安定な音になったり、復号結果に異音が発生したりすることを抑制することができる。
[符号化処理の説明]
オーディオ符号化装置10の第3実施の形態の符号化処理は、図10のステップS15の量子化処理を除いて、図10の符号化処理と同様であるので、量子化処理についてのみ説明する。
図19は、図17の最適量子化部13の量子化処理を説明するフローチャートである。
図19のステップS81およびS82の処理は、図11のステップS21およびS22の処理と同様であるので、説明は省略する。
ステップS83において、最適量子化部13の誤差演算部91は、エネルギー計算部32から供給されるエネルギーEq(k)と、エネルギー計算部33から供給されるエネルギーEq(0)の差分ΔEq(k)を、量子化ユニットqごとに計算し、平均化部111に供給する。これにより、平均化部111は、誤差演算部91から供給される差分ΔEq(k)を保持する。
ステップS84において、平均化部111は、保持されている、符号化対象のフレームより過去の複数フレームの差分ΔEq(k)の指数荷重平均ΔEq(k)'を求める。なお、符号化対象のフレームより過去の複数フレームの差分ΔEq(k)がまだ保持されていない場合には、平均化部111は、保持されている差分ΔEq(k)の指数荷重平均ΔEq(k)'を求める。平均化部111は、差分ΔEq(k)の指数荷重平均ΔEq(k)'を選択部112に供給する。
ステップS85において、選択部112は、平均化部111から供給される差分ΔEq(k)の指数荷重平均ΔEq(k)'に基づいて、量子化部31−1乃至31−Kのうちの、指数荷重平均ΔEq(k)'が最小となるエネルギーEq(k)に対応する量子化部31により得られた量子化スペクトルXを選択する。そして、選択部112は、選択された量子化スペクトルXを図2のスペクトル符号化部14に供給する。
なお、図17の最適量子化部13は、符号化対象のフレームより過去の複数フレームの差分ΔEq(k)の統計量に基づいて量子化スペクトルXを選択すればよく、差分ΔEq(k)の指数荷重平均ではなく、差分ΔEq(k)の平滑化値などに基づいて量子化スペクトルXを選択するようにしてもよい。図17の最適量子化部13は、差分ΔEq(k)の平滑化値に基づいて量子化スペクトルXを選択する場合、ローパスフィルタなどを用いて差分ΔEq(k)を平滑化する。
また、最適量子化部13により得られる量子化スペクトルの出現パターンは、従来の量子化による量子化スペクトルの出現パターンと異なるため、スペクトル符号化部14がハフマン符号化を行う場合には、最適量子化部13と同様の方法で量子化されたオーディオ信号の量子化スペクトルを用いて学習したハフマンテーブルが用いられることが望ましい。しかしながら、従来のハフマンテーブルが用いられることでハフマン符号化の効率が若干低下した場合であっても、最適量子化部13により、量子化前後の正規化スペクトルのエネルギーの誤差が軽減されるので、復号結果の音質は向上する。
<本技術を適用したコンピュータの説明>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図20は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、本技術は、以下のような構成もとることができる。
(1)
互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化部と、
前記複数の量子化部により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する選択部と、
前記選択部により選択された前記周波数スペクトルを符号化する符号化部と
を備えるオーディオ符号化装置。
(2)
前記複数の量子化部は、前記周波数スペクトルを所定の帯域ごとに量子化し、
前記所定の帯域ごとに、前記周波数スペクトルを量子化する前記量子化部の数は異なる
前記(1)に記載のオーディオ符号化装置。
(3)
前記複数の量子化部は、前記周波数スペクトルを所定の帯域ごとに量子化し、
前記所定の帯域ごとに、前記複数の量子化部の前記特性は異なる
前記(1)または(2)に記載のオーディオ符号化装置。
(4)
前記選択部は、処理対象のフレームを含む複数のフレームにおける前記差分の統計量に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する
前記(1)乃至(3)のいずれかに記載のオーディオ符号化装置。
(5)
前記選択部は、処理対象のフレームより過去の複数のフレームにおける前記差分の統計量に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する
前記(1)乃至(3)のいずれかに記載のオーディオ符号化装置。
(6)
前記複数の量子化部は、それぞれ、
前記特性に対応する変換関数を用いて前記周波数スペクトルを非線形変換する非線形変換部と、
前記非線形変換部により非線形変換された前記周波数スペクトルを、均等の量子化ステップ幅で線形量子化する線形量子化部と
を備える
前記(1)乃至(5)のいずれかに記載のオーディオ符号化装置。
(7)
オーディオ符号化装置が、
互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化ステップと、
前記複数の量子化ステップの処理により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化ステップの処理のうちの1つの量子化ステップの処理により量子化された前記周波数スペクトルを選択する選択ステップと、
前記選択ステップの処理により選択された前記周波数スペクトルを符号化する符号化ステップと
を含むオーディオ符号化方法。
(8)
コンピュータを、
互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化部と、
前記複数の量子化部により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する選択部と、
前記選択部により選択された前記周波数スペクトルを符号化する符号化部と
として機能させるためのプログラム。
10 オーディオ符号化装置, 14 スペクトル符号化部, 31−1乃至31−K 量子化部, 34 選択部, 51 非線形変換部, 52 線形量子化部, 93 選択部, 112 選択部

Claims (8)

  1. 互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化部と、
    前記複数の量子化部により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する選択部と、
    前記選択部により選択された前記周波数スペクトルを符号化する符号化部と
    を備えるオーディオ符号化装置。
  2. 前記複数の量子化部は、前記周波数スペクトルを所定の帯域ごとに量子化し、
    前記所定の帯域ごとに、前記周波数スペクトルを量子化する前記量子化部の数は異なる
    請求項1に記載のオーディオ符号化装置。
  3. 前記複数の量子化部は、前記周波数スペクトルを所定の帯域ごとに量子化し、
    前記所定の帯域ごとに、前記複数の量子化部の前記特性は異なる
    請求項1に記載のオーディオ符号化装置。
  4. 前記選択部は、処理対象のフレームを含む複数のフレームにおける前記差分の統計量に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する
    請求項1に記載のオーディオ符号化装置。
  5. 前記選択部は、処理対象のフレームより過去の複数のフレームにおける前記差分の統計量に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する
    請求項1に記載のオーディオ符号化装置。
  6. 前記複数の量子化部は、それぞれ、
    前記特性に対応する変換関数を用いて前記周波数スペクトルを非線形変換する非線形変換部と、
    前記非線形変換部により非線形変換された前記周波数スペクトルを、均等の量子化ステップ幅で線形量子化する線形量子化部と
    を備える
    請求項1に記載のオーディオ符号化装置。
  7. オーディオ符号化装置が、
    互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化ステップと、
    前記複数の量子化ステップの処理により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化ステップの処理のうちの1つの量子化ステップの処理により量子化された前記周波数スペクトルを選択する選択ステップと、
    前記選択ステップの処理により選択された前記周波数スペクトルを符号化する符号化ステップと
    を含むオーディオ符号化方法。
  8. コンピュータを、
    互いに異なる特性で、オーディオ信号の周波数スペクトルを量子化する複数の量子化部と、
    前記複数の量子化部により量子化された前記周波数スペクトルのエネルギーのそれぞれと、量子化前の前記周波数スペクトルのエネルギーとの差分に基づいて、前記複数の量子化部のうちの1つの量子化部により量子化された前記周波数スペクトルを選択する選択部と、
    前記選択部により選択された前記周波数スペクトルを符号化する符号化部と
    として機能させるためのプログラム。
JP2012038434A 2012-02-24 2012-02-24 オーディオ符号化装置、オーディオ符号化方法、およびプログラム Pending JP2013174689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012038434A JP2013174689A (ja) 2012-02-24 2012-02-24 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012038434A JP2013174689A (ja) 2012-02-24 2012-02-24 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2013174689A true JP2013174689A (ja) 2013-09-05

Family

ID=49267654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012038434A Pending JP2013174689A (ja) 2012-02-24 2012-02-24 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2013174689A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019167706A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 符号化装置、符号化方法、プログラム、および記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019167706A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 符号化装置、符号化方法、プログラム、および記録媒体
CN111788628A (zh) * 2018-03-02 2020-10-16 日本电信电话株式会社 编码装置、编码方法、程序以及记录介质
US20200402524A1 (en) * 2018-03-02 2020-12-24 Nippon Telegraph And Telephone Corporation Coding apparatus, coding method, program, and recording medium
US11621010B2 (en) * 2018-03-02 2023-04-04 Nippon Telegraph And Telephone Corporation Coding apparatus, coding method, program, and recording medium
CN111788628B (zh) * 2018-03-02 2024-06-07 日本电信电话株式会社 声音信号的编码装置、声音信号的编码方法以及记录介质

Similar Documents

Publication Publication Date Title
KR102284106B1 (ko) 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
US8019601B2 (en) Audio coding device with two-stage quantization mechanism
KR101959698B1 (ko) 허프만 부호화를 실행하기 위한 장치 및 방법
KR102200643B1 (ko) 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
JP6717746B2 (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
TW201618084A (zh) 編碼器、解碼器、編碼及解碼的系統及方法
EP3069449B1 (en) Split gain shape vector coding
JP6032509B2 (ja) 復号装置、復号方法、およびプログラム
CN111370008B (zh) 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置
JP2009198612A (ja) 符号化装置、符号化方法および符号化プログラム
JP2004309921A (ja) 符号化装置、符号化方法及びプログラム
JP6957444B2 (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
US8451148B2 (en) Encoding apparatus, encoding method, decoding apparatus, decoding method, and program
JP2013174689A (ja) オーディオ符号化装置、オーディオ符号化方法、およびプログラム
JP6179087B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
US7750829B2 (en) Scalable encoding and/or decoding method and apparatus
CN103035249B (zh) 一种基于时频平面上下文的音频算术编码方法
US8044830B2 (en) Method and an apparatus for processing a signal
Paliwal et al. A fractional bit encoding technique for the GMM-based block quantisation of images