JP2008158302A - 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 - Google Patents
信号処理装置、信号処理方法、再生装置、再生方法、電子機器 Download PDFInfo
- Publication number
- JP2008158302A JP2008158302A JP2006347514A JP2006347514A JP2008158302A JP 2008158302 A JP2008158302 A JP 2008158302A JP 2006347514 A JP2006347514 A JP 2006347514A JP 2006347514 A JP2006347514 A JP 2006347514A JP 2008158302 A JP2008158302 A JP 2008158302A
- Authority
- JP
- Japan
- Prior art keywords
- value
- signal
- audio signal
- prediction
- error candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】圧縮符号化により生じる中・高域の平坦化部分による音質劣化を抑制して高音質化を図る。
【解決手段】所定の情報圧縮処理がされたオーディオ信号について、周波数軸上でそのバンドの分解能の値と同値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換する。これにより、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができ、この結果、高音質化を図ることができる。
【選択図】図7
【解決手段】所定の情報圧縮処理がされたオーディオ信号について、周波数軸上でそのバンドの分解能の値と同値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換する。これにより、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができ、この結果、高音質化を図ることができる。
【選択図】図7
Description
本発明は、信号処理装置として、特に音声圧縮符号化処理により失われた中・高域の成分を補正する処理を行うための信号処理装置と、その方法とに関する。また、再生装置とその方法、及び電子機器に関する。
音声信号の圧縮符号化処理は、「量子化(PCM:Pulse Code Moduration)」、音声信号の時間的連続性を用いた「時間相関符号化」、人間の聴覚特性を用いた「周波数相関符号化」、これらの符号化から得られた符号の発生確率の偏りを用いた「エントロピー符号化」を組み合わせることで実現することができる。
音声信号の圧縮符号化の手法としては、MPEG(Moving Pictures Experts Group)、ATRAC(Adaptive TRansform Acoustic Coding:登録商標)、AC−3(Audio Code Number 3:登録商標)、WMA(Windows Media Audio:登録商標)などで規格化され、その符号化信号は現在、デジタルテレビジョン放送、デジタルオーディオプレーヤー、WEBストリーミングなど広範にわたって使用されている。
ここで、圧縮符号化処理の中でも、周波数相関符号化は、圧縮率や音質に大きな影響を与える符号化処理である。周波数相関符号化とは、量子化されたPCM信号を、時間領域から周波数領域に直交変換し、周波数領域における信号エネルギーの偏差を求める。この偏差を用いて符号化することで符号化効率を高めることができる。また直交変換後の信号に対して、心理聴覚特性を用いて、周波数帯域をいくつかの帯域に分け、より人間に知覚されやすい帯域の信号劣化を最小とするように、ある種の重み付けを行って量子化することにより、全体的な符号化品質を改善することができる。
心理聴覚特性を用いた符号化は、絶対可聴閾値と、マスキング効果で定まる相対可聴閾値を用いて、補正可聴閾値を求める。この補正可聴閾値に基づいて、分割された帯域ごとにビット割り当てを行う。聴感上聞こえないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うことができる。
心理聴覚特性を用いた符号化は、絶対可聴閾値と、マスキング効果で定まる相対可聴閾値を用いて、補正可聴閾値を求める。この補正可聴閾値に基づいて、分割された帯域ごとにビット割り当てを行う。聴感上聞こえないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うことができる。
このような心理聴覚特性を用いた音声信号の圧縮符号化方式は、MPEG規格で積極的に取り入られている。音声信号の圧縮符号化は各エンコーダーメーカーの技術力により、その傾向が決められるものではあるが、MPEG規格が採用されているデジタルテレビジョン放送の音声信号においては、上記符号化により低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が確認されている。すなわち、これによって低ビット数が割り当てられた帯域での音質の劣化(低下)が生じやすいものとなる。
このような圧縮符号化に伴う信号劣化による音質低下を抑制するための先行技術はいくつか存在する。
例えば、下記特許文献1に記載の「量子化誤差補正方法及び装置並びにオーディオ情報復号方法」では、補正対象である音声信号の本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出する。補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法が開示されている。
例えば、下記特許文献1に記載の「量子化誤差補正方法及び装置並びにオーディオ情報復号方法」では、補正対象である音声信号の本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出する。補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法が開示されている。
しかしながら、上記特許文献1に記載の手法では、隣接する周波数帯域の符号化信号により、数通りの場合分けが必要となり、その分処理負担が増大する。さらには、上記「補正値」の算出にあたって各信号において二次曲線を求めるものとしているが、このような補正値としてその精度を確保するためには比較的長時間にわたる信号をサンプルして計算を行う必要があり、この点でも処理量が増大化する傾向となる。
そこで、本発明では以上のような問題点に鑑み、信号処理装置として以下のように構成することとした。
つまり、所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段を備える。
さらに、上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものである。
つまり、所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段を備える。
さらに、上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものである。
上記のようにして周波数軸上で所定値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換することで、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。
上記のようにして本発明によれば、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。すなわち、これによって圧縮符号化による音質劣化を効果的に抑圧することができる。
そして、上記本発明によれば、このような音質改善効果を得るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明していく。
なお以下、実施の形態の説明にあたっては、音声符号化方式として、MPEG−2 AAC(Moving Pictures Experts Group-2 Advanced Audio Coding)と呼ばれるISO/IEC13818−7規格の符号化方式が採用され、その復号処理を行う場合を例に挙げる。
また、以下においては、MPEG−2 AACを、単にAACとも呼ぶ。
なお、上記ISOは、国際標準化機構(International Organization for Standardization)の略称であり、IECは、国際電気標準会議(International Electrotechnical Commission)の略称である。
なお以下、実施の形態の説明にあたっては、音声符号化方式として、MPEG−2 AAC(Moving Pictures Experts Group-2 Advanced Audio Coding)と呼ばれるISO/IEC13818−7規格の符号化方式が採用され、その復号処理を行う場合を例に挙げる。
また、以下においては、MPEG−2 AACを、単にAACとも呼ぶ。
なお、上記ISOは、国際標準化機構(International Organization for Standardization)の略称であり、IECは、国際電気標準会議(International Electrotechnical Commission)の略称である。
[AAC符号化処理の概要]
先ず、実施の形態を説明する上での前提として、AAC方式の符号化処理の概要について述べておく。
AAC方式による音声符号化処理は、周波数相関符号化処理として、心理聴覚(psycho acoustics)に基づいて、人が知覚できない音の領域はデータ化しないことで、圧縮効果を高めているものである。AAC方式の符号化によると、例えば2チャンネルステレオ音声の場合、96キロビット/秒程度の伝送量でもCD(Compact Disc)なみの音質が得られ、約1/15(15分の1)の圧縮率が得られるものとなる。
先ず、実施の形態を説明する上での前提として、AAC方式の符号化処理の概要について述べておく。
AAC方式による音声符号化処理は、周波数相関符号化処理として、心理聴覚(psycho acoustics)に基づいて、人が知覚できない音の領域はデータ化しないことで、圧縮効果を高めているものである。AAC方式の符号化によると、例えば2チャンネルステレオ音声の場合、96キロビット/秒程度の伝送量でもCD(Compact Disc)なみの音質が得られ、約1/15(15分の1)の圧縮率が得られるものとなる。
AAC方式では、上述した心理聴覚分析の結果に基づいて、(1)ゲイン調整処理→(2)適応ブロック長切換MDCT処理→(3)TNS処理→(4)インテンシティ・ステレオ符号化処理→(5)予測処理→(6)M/Sステレオ処理→(7)スケーリング処理が行われた後に、(8)量子化処理と(9)ハフマン符号化処理とが、割り当てられたビット数を下回るまで反復されて、符号化音声データが形成される。実際には、これらの処理過程において付すべき種々の係数等が付加されることにより最終的な符号化音声信号(AACビットストリーム)が形成される。
以下に、具体的な処理内容を示す。
先ず、入力された符号化処理前の音声信号は、ゲイン調整され、所定のサンプル数毎にブロック化されて、これが1フレームとして処理される。符号化装置では、入力フレームを心理聴覚分析部においてFFT(Fast Fourier Transform)処理して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、予め設定された周波数帯域毎の許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピー(PE:Perceptual Entropy)と呼ぶパラメータを求める。
先ず、入力された符号化処理前の音声信号は、ゲイン調整され、所定のサンプル数毎にブロック化されて、これが1フレームとして処理される。符号化装置では、入力フレームを心理聴覚分析部においてFFT(Fast Fourier Transform)処理して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、予め設定された周波数帯域毎の許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピー(PE:Perceptual Entropy)と呼ぶパラメータを求める。
心理聴覚エントロピーは、聴取者が雑音を知覚することがないようにそのフレームを量子化するのに必要な総ビット数に相当する。また、心理エントロピーは、音声信号のアタック部のように信号レベルが急激に増大するところで大きな値を取るという特性がある。そこで、心理エントロピーの値の急変部を元にしてMDCT(Modified Discrete Cosine Transform)の変換ブロック長を決定する。
MDCT処理は、心理聴覚分析部で決定されたブロック長で入力された音声信号を周波数スペクトル(以下、MDCT係数という)に変換する。変換ブロック長を、入力信号に応じて適応的に切り換える処理(適応ブロック切り換え)は、プリエコーと呼ばれる聴覚的に有害な雑音を抑制するために必要な処理である。
MDCT処理によって形成されたMDCT係数は、TNS(Temporal Noise Shaping)処理される。このTNS処理は、MDCT係数を時間軸上の信号であるかのように見たてて、線形予測を行い、MDCT係数に対して予測フィルタリングを行うものである。このTNS処理により、復号処理側で逆MDCTして得られる波形に含まれる量子化雑音は、信号レベルの大きなところに集まるようになる。
そして、TNS処理されたMDCT係数に対しては、インテンシティ・ステレオ符号化、すなわち、高い周波数領域の音は左チャンネル(Lチャンネル)と右チャンネル(Rチャンネル)を合わせた1つのカップリングチャンネルしか伝送しないようにするための処理が施される。
インテンシティ・ステレオ符号化されたMDCT係数は、MDCT係数1本毎に、過去2フレームにおける量子化されたMDCT係数から現在のMDCT係数の値が予測され、その予測残差が求められる。この予測処理されたMDCT係数は、M/Sステレオ処理により、左右チャンネルの和信号(M=L+R)と差信号(S=L−R)を伝送するか、左右チャンネルのそれぞれ(LチャンネルとRチャンネルとのそれぞれ)を伝送するかが決定され、出力される。
インテンシティ・ステレオ符号化されたMDCT係数は、MDCT係数1本毎に、過去2フレームにおける量子化されたMDCT係数から現在のMDCT係数の値が予測され、その予測残差が求められる。この予測処理されたMDCT係数は、M/Sステレオ処理により、左右チャンネルの和信号(M=L+R)と差信号(S=L−R)を伝送するか、左右チャンネルのそれぞれ(LチャンネルとRチャンネルとのそれぞれ)を伝送するかが決定され、出力される。
M/Sステレオ処理により出力されたMDCT係数は、予め設定された周波数帯域毎の複数本でグループ化されて(スケーリングされ)、これを単位として量子化が行われる。これらMDCT係数のグループをスケールファクタバンド(sfb)と呼んでいる。このsfbは、聴覚の特性に合わせて低域側では狭く、高域側では広くなるように設定されている。
量子化処理では、心理聴覚部で求めたsfb毎の許容量子化雑音電力を下回ることを目標に量子化を行う。量子化されたMDCT係数は、さらにハフマン符号化が施されて冗長度が削減される。この量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量が、フレームに割り当てられたビット数を下回るまで繰り返し行われる。
このように、AAC符号化方式は、心理聴覚分析の結果に基づいて、(1)ゲイン調整処理→(2)適応ブロック長切換MDCT処理→(3)TNS処理→(4)インテンシティ・ステレオ符号化処理→(5)予測処理→(6)M/Sステレオ処理→(7)スケーリング処理を行った後に、(8)量子化処理と(9)ハフマン符号化処理とを、割り当てられたビット数を下回るまで反復して行うことで、符号化された音声データを形成するようにされている。
なお、上述したAAC方式の音声符号化処理については、例えば「デジタルテレビ技術入門」高田豊、浅見聡著、米田出版、112頁〜124頁等の種々の文献、あるいは、Webページなどにおいても詳細に説明されている。
また、ゲイン調整処理、TNS処理、インテンシティ・ステレオ符号化処理、予測処理、M/Sステレオ処理は、オプション処理であり、AAC符号化全工程で行うものではない。すなわち、ゲイン調整処理、TNS処理、インテンシティ・ステレオ符号化処理、予測処理、M/Sステレオ処理は、オプション処理が選択された場合にのみ行われる処理である。以下で説明する実施の形態においては、上述したオプション処理を行うようにされて圧縮符号化された符号化音声信号を処理する場合を例にして説明することとする。
[実施の形態の再生装置の構成例]
図1は、本発明の再生装置(電子機器)の一実施形態としての、再生装置1の内部構成について示したブロック図である。
この再生装置1は、図示する記憶部2として、例えばHDD(Hard Disc Drive)やフラッシュメモリ等の記憶デバイスに記憶された圧縮符号化音声信号を復号して再生可能なオーディオプレイヤとして構成される。
再生装置1には、この記憶部2に加え、復調部3、圧縮符号復号化部4、DSP(Digital Signal Processor)5、バス6、システムコントローラ7、操作部8、表示部9が備えられている。
図1は、本発明の再生装置(電子機器)の一実施形態としての、再生装置1の内部構成について示したブロック図である。
この再生装置1は、図示する記憶部2として、例えばHDD(Hard Disc Drive)やフラッシュメモリ等の記憶デバイスに記憶された圧縮符号化音声信号を復号して再生可能なオーディオプレイヤとして構成される。
再生装置1には、この記憶部2に加え、復調部3、圧縮符号復号化部4、DSP(Digital Signal Processor)5、バス6、システムコントローラ7、操作部8、表示部9が備えられている。
先ず、記憶部2においては、圧縮符号化音声信号がランレングスリミテッド符号化処理やエラー訂正コード付加処理等の所定処理が施された状態で記憶されている。復調部3は、記憶部2からの読み出し信号について、上記ランレングスリミテッド符号のデコードや上記エラー訂正コードに基づくエラー訂正処理等、所定の復調処理を行って圧縮符号化音声信号を得る。
復調部3の復調処理により得られた圧縮符号化音声信号は、圧縮符号復号化部4に供給され、ここにおいて圧縮符号の復号化処理が行われる。先の説明から理解されるように、本実施の形態では圧縮符号化音声信号がAAC圧縮符号化音声信号であることを前提としており、この圧縮符号復号化部4としてはAAC方式に対応した復号化処理を行うように構成されている。すなわち、AAC圧縮符号化音声信号を音声出力可能な状態に復号化するように構成されている。
なお、この圧縮符号復号化部4の内部構成については後述する。
また、本実施の形態の場合、この圧縮符号復号化部4内には、図示するようにして量子化誤差補正部4aが備えられるがこれについても後述する。
なお、この圧縮符号復号化部4の内部構成については後述する。
また、本実施の形態の場合、この圧縮符号復号化部4内には、図示するようにして量子化誤差補正部4aが備えられるがこれについても後述する。
圧縮符号復号化部4の復号処理を経て得られた音声信号は、DSP5に供給され、ここで所要の音声信号処理(例えばボリューム調整や各種音響効果付加処理等)が施された後、図示する出力端子Toutに供給され外部出力される。
システムコントローラ7は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Randam Access Memory)などを備えたマイクロコンピュータで構成され、図示するバス6を介して接続される記憶部2、復調部3、圧縮符号復号化部4、DSP5との間で制御信号や各種データのやりとりすることで当該再生装置1の全体制御を行う。
例えばシステムコントローラ7は、後述する操作部8からの操作入力等に応じて記憶部2の信号読み出し制御を実行する。また、例えば操作部8からの操作入力等に応じてDSP5に音声信号処理の各種パラメータを設定する処理なども行う。
例えばシステムコントローラ7は、後述する操作部8からの操作入力等に応じて記憶部2の信号読み出し制御を実行する。また、例えば操作部8からの操作入力等に応じてDSP5に音声信号処理の各種パラメータを設定する処理なども行う。
操作部8は、例えば再生装置1の筐体外面に表出するようにして備えられる図示されない操作キー等によるの入力デバイスであって、ユーザが各種操作入力やデータ入力を行う。操作部8で入力された情報はシステムコントローラ7に対して操作又はデータの入力情報として伝達される。システムコントローラ7は入力された情報に対応して必要な演算や制御を行う。
表示部9は、例えば液晶パネルなどの表示パネルを備え、ユーザに対して各種情報表示を行う。この場合は、システムコントローラ7からの指示に基づく各種情報の表示を行う。
[圧縮符号復号化部の構成]
図2は、図1に示した圧縮符号復号化部4の内部構成について示している。
先ず、圧縮符号復号化部4の構成要素としては、大別すると、フォーマット解析部10、逆量子化処理部11、ステレオ処理部12、適応ブロック長切換逆MDCT部13、ゲイン制御部14に分けることができる。また、この場合の圧縮符号復号化部4には、図1にも示したように、量子化誤差補正部4aが備えられることになる。
図2は、図1に示した圧縮符号復号化部4の内部構成について示している。
先ず、圧縮符号復号化部4の構成要素としては、大別すると、フォーマット解析部10、逆量子化処理部11、ステレオ処理部12、適応ブロック長切換逆MDCT部13、ゲイン制御部14に分けることができる。また、この場合の圧縮符号復号化部4には、図1にも示したように、量子化誤差補正部4aが備えられることになる。
上記逆量子化処理部11には、ハフマン復号化部11a、逆量子化部11b、リスケーリング部11cとが備えられる。また、上記ステレオ処理部12には、M/Sステレオ処理部12a、予測処理部12b、インテンシティ・ステレオ処理部12c、TNS部12dとが備えられている。
先ず、図1に示した復調部3からの符号化音声信号(ビットストリーム)は、フォーマット解析部10に供給される。フォーマット解析部10は、供給された符号化音声信号をMDCT係数とそれ以外のパラメータや制御情報とに分離する。MDCT係数については、逆量子化処理部11内のハフマン復号化部11aに供給する。
また、フォーマット解析部10は、符号化音声信号のビットストリームから抽出したパラメータや制御情報に基づいて、各部に対する制御信号を形成し、これを図中の破線矢印で示すようにして圧縮符号復号化部4内の各部に対して供給することによって、各部における処理が制御される。
また、フォーマット解析部10は、符号化音声信号のビットストリームから抽出したパラメータや制御情報に基づいて、各部に対する制御信号を形成し、これを図中の破線矢印で示すようにして圧縮符号復号化部4内の各部に対して供給することによって、各部における処理が制御される。
上記のようにしてフォーマット解析部10で分離されたMDCT係数については、上述したAAC符号化時の処理とは言わば逆となる処理を施すことによって、符号化音声信号の復号化処理が行われる。
具体的に、先ず上記ハフマン復号化部11aでは、フォーマット解析部10から供給されるMDCT係数についてハフマン復号処理を行う。次に、逆量子化部11bにおいて逆量子化処理を行った後、リスケーリング部11cにおいてリスケーリング処理を行うことで量子化前のMDCT係数を復元する。
具体的に、先ず上記ハフマン復号化部11aでは、フォーマット解析部10から供給されるMDCT係数についてハフマン復号処理を行う。次に、逆量子化部11bにおいて逆量子化処理を行った後、リスケーリング部11cにおいてリスケーリング処理を行うことで量子化前のMDCT係数を復元する。
このようにして逆量子化処理部11にて量子化前の状態に復元されたMDCT係数は、ステレオ処理部12内のM/Sステレオ処理部12aに供給される。
M/Sステレオ処理部12aにおいては、左チャンネル(Lch)と右チャンネル(Rch)のMDCT係数が復元される。この左右2チャンネルのMDCT係数は、次の予測処理部12bにおいて処理されることで、符号化時の予測処理によるデータ圧縮前のMDCT係数に復元され、さらにインテンシティ・ステレオ処理部12cにおいて、インテンシティ・ステレオ復号化処理が施されて、高い周波数領域の音についても、左右のそれぞれのチャンネルのMDCT係数に分配される。この後、TNS部12dにおいて、予測フィルタリングがはずされ、符号化時においてMDCT処理された直後のMDCT係数が復元される。
M/Sステレオ処理部12aにおいては、左チャンネル(Lch)と右チャンネル(Rch)のMDCT係数が復元される。この左右2チャンネルのMDCT係数は、次の予測処理部12bにおいて処理されることで、符号化時の予測処理によるデータ圧縮前のMDCT係数に復元され、さらにインテンシティ・ステレオ処理部12cにおいて、インテンシティ・ステレオ復号化処理が施されて、高い周波数領域の音についても、左右のそれぞれのチャンネルのMDCT係数に分配される。この後、TNS部12dにおいて、予測フィルタリングがはずされ、符号化時においてMDCT処理された直後のMDCT係数が復元される。
本実施の形態の場合、このようにステレオ処理部12でMDCT処理された直後に相当する状態に復元されたMDCT係数は、図示するようにして量子化誤差補正部4aによる補正を経た後に、適応ブロック長切換逆MDCT部13に対して供給される。
なお、先にも述べたが、この量子化誤差補正部4aによる補正動作の内容、及びその内部構成については後述する。
なお、先にも述べたが、この量子化誤差補正部4aによる補正動作の内容、及びその内部構成については後述する。
適応ブロック長切換逆MDCT部13は、上記のようにして量子化誤差補正部4aを介して供給されるMDCT係数(周波数領域の音声信号)を逆MDCT処理することによって時間軸領域の音声信号(時間音声信号:音声出力可能な状態の音声信号)に変換し、これをゲイン制御部14に供給する。
適応ブロック長切換逆MDCT部13で得られた時間音声信号は、次段のゲイン制御部14にてゲイン調整が行われた後、先の図1に示したDSP5に対して供給される。
適応ブロック長切換逆MDCT部13で得られた時間音声信号は、次段のゲイン制御部14にてゲイン調整が行われた後、先の図1に示したDSP5に対して供給される。
[量子化誤差の補正]
上記のようにして圧縮符号復号化部4では、AAC方式で符号化されて形成された符号化音声信号の復号処理を行って、音声出力可能な音声信号を得るようにされる。
ここで、一般的に音声圧縮符号化は、周波数相関符号化として、上述したような心理聴覚分析を用いた方式が採られている。この心理聴覚特性を用いた符号化では、聴感上聴取することのできないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うように図られている。
しかしながら、このようにして低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が生じる。このような現象は、量子化誤差と呼ばれる。
上記のようにして圧縮符号復号化部4では、AAC方式で符号化されて形成された符号化音声信号の復号処理を行って、音声出力可能な音声信号を得るようにされる。
ここで、一般的に音声圧縮符号化は、周波数相関符号化として、上述したような心理聴覚分析を用いた方式が採られている。この心理聴覚特性を用いた符号化では、聴感上聴取することのできないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うように図られている。
しかしながら、このようにして低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が生じる。このような現象は、量子化誤差と呼ばれる。
図3は、このような割り当てビット数に起因して生じる量子化誤差について説明するための図である。
先ず、前提として、圧縮符号化では、上述のようにして所要の周波数帯域については割り当てるビット数を削減するものとしているが、このような帯域ごとのビット割り当て数は、その帯域について設定された分解能の値によって決定される。
図3では、それぞれ異なる分解能が設定された場合での元データ(原信号のデータ)、符号化による量子化前/後の各データ、及び復号結果としてのデータの関係を示している。具体的に図3(a)では分解能=2(高分解能)が設定された場合、図3(b)では分解能=5(低分解能)が設定された場合について示している。
先ず、前提として、圧縮符号化では、上述のようにして所要の周波数帯域については割り当てるビット数を削減するものとしているが、このような帯域ごとのビット割り当て数は、その帯域について設定された分解能の値によって決定される。
図3では、それぞれ異なる分解能が設定された場合での元データ(原信号のデータ)、符号化による量子化前/後の各データ、及び復号結果としてのデータの関係を示している。具体的に図3(a)では分解能=2(高分解能)が設定された場合、図3(b)では分解能=5(低分解能)が設定された場合について示している。
これらの図を参照してわかるように、高分解能とされた場合の方が、低分解能とされる場合よりも元データと復号結果との誤差が小さくなる。
具体的に、例えば図中の最左欄の元データ=8のケースに着目すると、分解能=2のときは、量子化前の値は8÷2により「4」であり、その量子化結果はこれを整数化したものと捉えることができ、図中量子化後として示すように同じ「4」となる。復号結果は、量子化後の値を分解能の値で戻したものに相当し、4×2により「8」となる。
これに対し、分解能=5のときは、元データ=8に対し量子化前の値は「1.6」となり、量子化後の値はこれが整数化されて「1」となってしまう。そして、復号結果は、この「1」を分解能「5」で戻した「5」となり、先の分解能=2の場合の復号結果「8」と比較して誤差が大きくなる。
具体的に、例えば図中の最左欄の元データ=8のケースに着目すると、分解能=2のときは、量子化前の値は8÷2により「4」であり、その量子化結果はこれを整数化したものと捉えることができ、図中量子化後として示すように同じ「4」となる。復号結果は、量子化後の値を分解能の値で戻したものに相当し、4×2により「8」となる。
これに対し、分解能=5のときは、元データ=8に対し量子化前の値は「1.6」となり、量子化後の値はこれが整数化されて「1」となってしまう。そして、復号結果は、この「1」を分解能「5」で戻した「5」となり、先の分解能=2の場合の復号結果「8」と比較して誤差が大きくなる。
このようにして分解能が低い場合には、量子化前の値と、これが整数化されたものに相当する量子化後の値との誤差が大きくなる傾向にあり、これに応じ復号結果にも元データの値からの大きな誤差を生じさせることとなる。これが、割り当てビット数の少ない部分で量子化誤差が生じやすい所以である。
ここで、例えば元データがとり得る値を仮に0〜100までの範囲としたとき、分解能を高くする(値としては小さくする)ことによっては、その分、細かい刻みで元データの値を表現することができるが、それに伴ってより多くのビット数を割り当てる必要がでてくることがわかる。一方で、分解能を低くする(値としては大きくする)ことによっては、元データの値を表現する上での刻み幅を粗くすることができるので、割り当てるビット数はより少なくすることができる。このようなことから、符号化の際に各バンドに設定する分解能の値により、そのバンドについての割り当てビット数が決定付けられることが理解できる。
図4は、実際の量子化誤差の発生形態の一例について説明するための図として、図4(a)ではビットレート=512kbpsのとき、図4(b)ではビットレート=128kbpsのときのスペクトル分布を示している。なお、この図ではスペクトル分布として、図2に示したステレオ処理部12から出力されるAAC1フレーム分(1024サンプル:時間に換算すると1024/44100=0.023sec)のMDCT係数の分布(図中黒丸)を示している。また、この図では、周波数相関符号化により割り当てビット数の削減率が比較的高くなる中・高域として、例えば7kHz以降(〜22kHz)のMDCT係数の分布を示している。
先ず、図4(a)に示す高ビットレートの場合、中・高域においても各バンドの割り当てビット数は比較的多くすることができるため、大きな量子化誤差はほぼ生じていないことが確認できる。
これに対し、図4(b)の低ビットレートの場合は、中・高域での割り当てビット数の削減率が高くなることに伴って、比較的大きな量子化誤差が生じやすくなる。この大きな量子化誤差部分は、図中の丸印で囲うように、同じ振幅値が連続する部分として確認することができる。これが、量子化誤差による平坦化と呼ばれる現象である。
これに対し、図4(b)の低ビットレートの場合は、中・高域での割り当てビット数の削減率が高くなることに伴って、比較的大きな量子化誤差が生じやすくなる。この大きな量子化誤差部分は、図中の丸印で囲うように、同じ振幅値が連続する部分として確認することができる。これが、量子化誤差による平坦化と呼ばれる現象である。
このような平坦化が生じた部分は、当然のことながら元の原信号の波形を忠実に再現したものとはならない。すなわち、このように平坦化が生じた部分で特に音質の劣化が生じるものである。
[量子化誤差の補正]
そこで、本実施の形態では、特にこのような平坦化部分による音質劣化を防止し、音質の改善を図る(つまり高音質化を図る)ものとする。そのための構成として、先の図2(図1)に示した量子化誤差補正部4aを設けるようにしている。
そこで、本実施の形態では、特にこのような平坦化部分による音質劣化を防止し、音質の改善を図る(つまり高音質化を図る)ものとする。そのための構成として、先の図2(図1)に示した量子化誤差補正部4aを設けるようにしている。
図5は、量子化誤差補正部4aの内部構成について示すブロック図である。
図示するようにして量子化誤差補正部4aには、平坦化部分抽出部21、置換判定部22、予測処理部23、置換部24が備えられている。
これら量子化誤差補正部4a内の各部に対しては、図2に示したステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数が入力される。
図示するようにして量子化誤差補正部4aには、平坦化部分抽出部21、置換判定部22、予測処理部23、置換部24が備えられている。
これら量子化誤差補正部4a内の各部に対しては、図2に示したステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数が入力される。
先ず、予測処理部23では、上記ステレオ処理部12から供給される1フレーム分ごとのMDCT係数に基づき、圧縮符号化前の原信号を予測した予測信号を生成する。
この予測処理部23が備える予測器として、本実施の形態ではAACのMainプロファイル(ISO/IEC13818-7)で規格化されている予測器を用いるものとしている。なおこの予測器は、先の図2に示した予測処理部12bが備えるものと同等のものである。
この予測処理部23が備える予測器として、本実施の形態ではAACのMainプロファイル(ISO/IEC13818-7)で規格化されている予測器を用いるものとしている。なおこの予測器は、先の図2に示した予測処理部12bが備えるものと同等のものである。
ここで、図6は、上記予測器による予測処理のフローを示している。
この予測器は、2次の後方適応格子型予測器である。予測値x est(n)は以下のように求められる。
x est(n) = x est,1(n)+ x est,2(n)
ここで、
x est,1(n) = bk1(n) r q,0(n-1)
x est,2(n) = bk2(n) r q,1(n-1)
であり、a=b=0.953125である。
r q,0(n) = axrec(n)
r q,1(n) = a(rq,0 (n-1) − bk1(n)eq,0(n))
e q,0(n) = xrec(n)
e q,1(n) = e q,0(n) − xest,1(n)
km(n+1),m=1,2は以下の式により求める。
km(n+1) = CORm(n)/VARm(n)
ここで、
CORm(n) = αCOR m(n-1)+r q,m-1(n-1) eq,m-1(n)
VARm(n) = αVAR m(n-1)+0.5(r2 q,m-1(n-1)+ e2q,m-1(n))
であり、α=0.90625である。
この予測器は、2次の後方適応格子型予測器である。予測値x est(n)は以下のように求められる。
x est(n) = x est,1(n)+ x est,2(n)
ここで、
x est,1(n) = bk1(n) r q,0(n-1)
x est,2(n) = bk2(n) r q,1(n-1)
であり、a=b=0.953125である。
r q,0(n) = axrec(n)
r q,1(n) = a(rq,0 (n-1) − bk1(n)eq,0(n))
e q,0(n) = xrec(n)
e q,1(n) = e q,0(n) − xest,1(n)
km(n+1),m=1,2は以下の式により求める。
km(n+1) = CORm(n)/VARm(n)
ここで、
CORm(n) = αCOR m(n-1)+r q,m-1(n-1) eq,m-1(n)
VARm(n) = αVAR m(n-1)+0.5(r2 q,m-1(n-1)+ e2q,m-1(n))
であり、α=0.90625である。
なお、本例では、上記予測処理部23として、先の予測処理部12bと同手法により予測処理を行う部分を別途設けるものとしているが、これは、AACのオプション処理として、図2に示すインテンシティステレオ処理部12c、TNS処理部12dとしての処理を行っていることに起因する。すなわち、これらのオプション処理を行う場合、予測処理部12bにおける処理結果は、本例の量子化誤差補正部4aで用いることのできるかたちでの予測信号として得ることができないため、別途の予測処理部23を設けているものである。
説明を図5に戻す。
平坦化部分抽出部21には、上述のようにしてステレオ処理部12からの1フレーム分のMDCT係数が供給されると共に、図2に示したフォーマット解析部10から入力される、先に述べたスケールファクタバンド(sfb)ごとの分解能の情報が供給される。
平坦化部分抽出部21では、これら1フレーム分のMDCT係数とsfbごとの分解能の情報とに基づき、sfbごとに、MDCT係数の値がそのsfbの分解能と同値となっている部分を検出(抽出)する。
多くの場合、このように分解能の値と同値となっているとして検出された部分が、先の図4(b)に示したような平坦化部分を形成する部分となる。
平坦化部分抽出部21には、上述のようにしてステレオ処理部12からの1フレーム分のMDCT係数が供給されると共に、図2に示したフォーマット解析部10から入力される、先に述べたスケールファクタバンド(sfb)ごとの分解能の情報が供給される。
平坦化部分抽出部21では、これら1フレーム分のMDCT係数とsfbごとの分解能の情報とに基づき、sfbごとに、MDCT係数の値がそのsfbの分解能と同値となっている部分を検出(抽出)する。
多くの場合、このように分解能の値と同値となっているとして検出された部分が、先の図4(b)に示したような平坦化部分を形成する部分となる。
ここで、本実施の形態では、量子化誤差の補正を行う帯域を、ビット割り当て数が不十分とされる中・高域に限定するものとしている。例えばこの場合は、先の図4に示されるような7kHz〜22kHzまでの帯域のみを対象として補正動作を行うものとしている。
これに応じ平坦化部分抽出部21では、1フレームを形成する各sfbのうち、このような7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。
平坦化帯域抽出部21は、検出したMDCT係数位置の情報(MDCT係数番号情報)と、さらにそのMDCT係数位置が属するsfbの分解能の情報とを併せて置換判定部22に供給する。
これに応じ平坦化部分抽出部21では、1フレームを形成する各sfbのうち、このような7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。
平坦化帯域抽出部21は、検出したMDCT係数位置の情報(MDCT係数番号情報)と、さらにそのMDCT係数位置が属するsfbの分解能の情報とを併せて置換判定部22に供給する。
置換判定部22は、上記平坦化部分抽出部21により検出されたMDCT係数番号の情報とそのバンドにおける分解能の情報、及びステレオ処理部12からのMDCT係数、さらに予測処理部23で生成された予測信号を入力し、それらの情報に基づき置換判定を行う。すなわち、上記平坦化部分抽出部21からのMDCT係数番号によって特定されるMDCT係数位置における上記予測信号の値と上記MDCT係数の値と、さらにそのMDCT係数位置が属するsfbの分解能の情報とに基づき、置換判定を行う。
具体的には、予測信号の値が、[MDCT係数の値(絶対値)+分解能/n]以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合は、n=2として、予測信号の値がMDCT係数の値+分解能の値/2以下であるか否かを判別する。
予測信号の値がMDCT係数の値+分解能の値/2以下となっていないとした場合、そのMDCT係数位置については置換を行わないとの判定結果を示す判定信号を次に説明する置換部24に対して供給する。一方、予測信号の値がMDCT係数の値+分解能の値/2以下となっているとした場合は、そのMDCT係数位置については置換を行うとの判定結果を示す判定信号を置換部24に対して供給する。
具体的には、予測信号の値が、[MDCT係数の値(絶対値)+分解能/n]以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合は、n=2として、予測信号の値がMDCT係数の値+分解能の値/2以下であるか否かを判別する。
予測信号の値がMDCT係数の値+分解能の値/2以下となっていないとした場合、そのMDCT係数位置については置換を行わないとの判定結果を示す判定信号を次に説明する置換部24に対して供給する。一方、予測信号の値がMDCT係数の値+分解能の値/2以下となっているとした場合は、そのMDCT係数位置については置換を行うとの判定結果を示す判定信号を置換部24に対して供給する。
置換部24は、ステレオ処理部12から供給されるMDCT係数と、上記置換判定部22からの判定信号と、さらに予測処理部23からの予測信号とに基づき、置換処理を行う。
具体的には、上記置換判定部22からの判定信号により置換を行うとの判定結果が示されたMDCT係数位置について、そのMDCT係数の値を予測信号の値で置換する。
この置換部24による置換処理が施された1フレーム分のMDCT係数が、先の図2に示した適応ブロック長切換逆MDCT部13に対して順次供給されることになる。
具体的には、上記置換判定部22からの判定信号により置換を行うとの判定結果が示されたMDCT係数位置について、そのMDCT係数の値を予測信号の値で置換する。
この置換部24による置換処理が施された1フレーム分のMDCT係数が、先の図2に示した適応ブロック長切換逆MDCT部13に対して順次供給されることになる。
上記のようにして本実施の形態では、圧縮符号化がされた音声信号(オーディオ信号)について、周波数軸上でそのバンド(sfb)の分解能の値となっているMDCT係数位置を検出し、その位置の振幅値を、予測信号の値との比較結果に基づいて予測信号の値で置換するものとしている。
ここで、上記のようにして本例においては、周波数軸上で分解能と同値となっている部分を検出するものとしているが、先の図3、図4の説明からも理解されるように、音質劣化の原因となる平坦化部分は、分解能と同値となっているところで生じやすいことになる。すなわち、分解能と同値(分解能の値×1)の部分は、量子化としての整数化で波数が切り捨てられた際に、その切り捨て率が相対的に高くなる可能性が高く、それに伴い生じる量子化誤差の率も高くなる傾向となって、大きな量子化誤差が生じやすい。
そこで本例では、上記のようにして先ずは分解能の値と同値となっている部分を置換候補部分として検出し、予測信号の値からその候補部分で大きな量子化誤差が生じているか、すなわち置換を行う妥当性があるかを判定した上で、妥当であるとされた場合にはその部分のMDCT係数を予測信号の値で置換するものとしている。
これにより、割り当てビット数の少なさに起因して大きな量子化誤差の生じている部分を適正に検出し、その誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。この結果、圧縮符号化による音質劣化を効果的に抑圧し、高音質化を図ることができる。
そこで本例では、上記のようにして先ずは分解能の値と同値となっている部分を置換候補部分として検出し、予測信号の値からその候補部分で大きな量子化誤差が生じているか、すなわち置換を行う妥当性があるかを判定した上で、妥当であるとされた場合にはその部分のMDCT係数を予測信号の値で置換するものとしている。
これにより、割り当てビット数の少なさに起因して大きな量子化誤差の生じている部分を適正に検出し、その誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。この結果、圧縮符号化による音質劣化を効果的に抑圧し、高音質化を図ることができる。
そして、このような本実施の形態としての補正動作によれば、高音質化を図るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
特に、予測信号の生成にあたり、上述したような2次の後方適応格子型による予測器を採用する本例の場合、その予測アルゴリズムとしては1フレームにつき1回の予測処理関数を呼び出せばよく、従来の如く各バンドで妥当とされる二次曲線などを求める場合のように複数フレーム間にわたって処理を行う必要はないものとでき、その分処理負担を格段に軽減することができる。また、さらには処理負担を音源によらず一定とすることもでき、処理の安定化を図ることができる。
また、本実施の形態では、例えば7kHz以降の中・高域の帯域のみを対象として補正動作を行うこととしているが、このことで、不必要な部分で置換が行われてしまうことを効果的に防止することができる。
例えば、先に示した特許文献1に記載の発明では、全周波数帯域を対象として補正を行うことを前提としているが、このように全周波数帯域を対象として補正を行った場合、低域などのビット割り当てが充分であるところで、求めた補正値がかえって本来の振幅値とかけ離れたものとなってしまう可能性があり、結果的に音質向上を図ることができなくなる可能性がある。
これに対し本例のように補正対象帯域をビット割り当てが不十分とされる中・高域に限定すれば、必要な帯域のみについて補正を行うことができ、そのような不具合の発生を効果的に防止できる。
例えば、先に示した特許文献1に記載の発明では、全周波数帯域を対象として補正を行うことを前提としているが、このように全周波数帯域を対象として補正を行った場合、低域などのビット割り当てが充分であるところで、求めた補正値がかえって本来の振幅値とかけ離れたものとなってしまう可能性があり、結果的に音質向上を図ることができなくなる可能性がある。
これに対し本例のように補正対象帯域をビット割り当てが不十分とされる中・高域に限定すれば、必要な帯域のみについて補正を行うことができ、そのような不具合の発生を効果的に防止できる。
なお、ここまでの説明では、本実施の形態としての量子化誤差の補正動作が、先の図5に示したようなハードウェア構成により実現される場合を例示したが、本実施の形態の補正動作としてはソフトウェア処理によっても実現することができる。つまり、量子化誤差補正部4aとしては、例えばCPUやメモリを備えた演算処理部で構成することができ、この演算処理部のソフトウェア処理により上述した実施の形態としての補正動作を実現するものである。
この場合において実行されるべき処理動作を、次の図7のフローチャートに示す。
なお、この図に示す処理動作は、上述のような演算処理部としての量子化誤差補正部4aが、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、図示による説明は省略するが、この演算処理部としての量子化誤差補正部4aは、この図に示す処理動作と並行して、ステレオ処理部12からのMDCT係数に基づき先の図6の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。
なお、この図に示す処理動作は、上述のような演算処理部としての量子化誤差補正部4aが、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、図示による説明は省略するが、この演算処理部としての量子化誤差補正部4aは、この図に示す処理動作と並行して、ステレオ処理部12からのMDCT係数に基づき先の図6の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。
先ずステップS101では、分解能情報を取得する。すなわち、先の図2に示したフォーマット解析部10からのsfbごとの分解能の情報を取得する。
続くステップS102では、平坦化部分を抽出するための処理を行う。すなわち、ステレオ処理部12から供給される1フレーム分のMDCT係数を入力し、この1フレームを形成する各sfbのうち、例えば7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。
さらに、次のステップS103では、予測信号に基づき抽出部分ごとに置換判定を行う。
すなわち、上記ステップS102によって検出したMDCT係数位置ごとに、MDCT係数の値、そのMDCT係数位置が属するsfbの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、MDCT係数の値+分解能の値/2以下となっているか否かを判別した結果に基づき、置換判定を行う。
すなわち、上記ステップS102によって検出したMDCT係数位置ごとに、MDCT係数の値、そのMDCT係数位置が属するsfbの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、MDCT係数の値+分解能の値/2以下となっているか否かを判別した結果に基づき、置換判定を行う。
その上で、続くステップS104においては、要置換部分のMDCT係数を予測信号に基づき置換する処理を行う。つまり、上記ステップS103の置換判定より、予測信号の値がMDCT係数の値+分解能の値/2以下となっていると判定したMDCT係数位置についてのみ、予測信号の値による置換を行う。
このステップS104を実行すると、図示するようにして「RETURN」となる。なお確認のために述べておくと、この図に示す処理動作はAAC1フレームごとに実行されるべきものである。
このステップS104を実行すると、図示するようにして「RETURN」となる。なお確認のために述べておくと、この図に示す処理動作はAAC1フレームごとに実行されるべきものである。
ここで、これまでの説明では、量子化誤差補正部4aが圧縮符号復号化部4内に設けられる場合を例示したが、例えば次の図8に示すようにして、圧縮符号復号化部4の外部に対して量子化誤差補正部4aを設けるようにすることもできる。
図8において、この場合の圧縮符号復号化部4内においては、量子化誤差補正部4aが省略され、ステレオ処理部12からのMDCT係数は直接的に適応ブロック長切換逆MDCT部13に供給されるようになっている。
そして、圧縮符号復号化部4から出力される音声信号(時間音声信号)を入力して、これを再度MDCT変換して周波数軸領域の音声信号に変換するMDCT変換部30を追加するものとしている。
その上で、この場合の量子化誤差補正部4aに対しては、このMDCT変換部30にて時間−周波数変換された音声信号(MDCT係数)を、AAC1フレーム単位ごとに入力する。さらには、図中の破線により示すように、フォーマット解析部10からのsfbごとの分解能の情報も入力する。
なお、この場合も量子化誤差補正部4aが行う動作としては先に説明したものと同様となるため改めての説明は省略する。
そして、圧縮符号復号化部4から出力される音声信号(時間音声信号)を入力して、これを再度MDCT変換して周波数軸領域の音声信号に変換するMDCT変換部30を追加するものとしている。
その上で、この場合の量子化誤差補正部4aに対しては、このMDCT変換部30にて時間−周波数変換された音声信号(MDCT係数)を、AAC1フレーム単位ごとに入力する。さらには、図中の破線により示すように、フォーマット解析部10からのsfbごとの分解能の情報も入力する。
なお、この場合も量子化誤差補正部4aが行う動作としては先に説明したものと同様となるため改めての説明は省略する。
そして、この量子化誤差補正部4aにて補正が行われたMDCT係数を、図中逆MDCT変換部31により再度逆MDCT変換させ、音声出力可能な時間音声信号に戻すようにする。このようにして得られた時間音声信号が、図1に示したDSP5に対して供給されることになる。
このようにして実施の形態としての補正動作を行う量子化誤差補正部4aとしては、圧縮符号復号化部4の外部に設けて、復号化処理の完了した音声信号について高音質化を図るようにすることもできる。
但し、上記説明からも理解されるように、このようにして圧縮符号復号化部4外部に設ける場合には、復号化後の時間音声信号を再度周波数変換された状態の音声信号に戻すための構成(MDCT変換部30)と、補正後の周波数軸領域の音声信号を再度時間軸領域の音声信号に戻すための構成(逆MDCT変換部31)とが別途必要となる。
この点に鑑み、先の図1に示した再生装置1では、量子化誤差補正部4aを圧縮符号復号化部4内に設けて、復号化処理の過程で既に周波数軸領域に変換された状態にある音声信号について高域補間を施すようにしたことで、上記のような別途の構成が不要となるようにしたものである。
但し、上記説明からも理解されるように、このようにして圧縮符号復号化部4外部に設ける場合には、復号化後の時間音声信号を再度周波数変換された状態の音声信号に戻すための構成(MDCT変換部30)と、補正後の周波数軸領域の音声信号を再度時間軸領域の音声信号に戻すための構成(逆MDCT変換部31)とが別途必要となる。
この点に鑑み、先の図1に示した再生装置1では、量子化誤差補正部4aを圧縮符号復号化部4内に設けて、復号化処理の過程で既に周波数軸領域に変換された状態にある音声信号について高域補間を施すようにしたことで、上記のような別途の構成が不要となるようにしたものである。
なお、この図8に示す変形例では、このように外付けとされた量子化誤差補正部4a(平坦化部分抽出部21)に対してフォーマット解析部10からの分解能の情報を入力するように構成したが、このようなフォーマット解析部10からの分解能の情報の入力は必須ではない。
フォーマット解析部10からの分解能の情報を入力しない場合、平坦化部分抽出部21に対し、圧縮符号復号化部4→MDCT変換部30を介して得られるMDCT係数を供給するようにしておく。その上で、この場合の平坦化部分抽出部21としては、各sfbにおいて最小の振幅値をそのsfbの分解能の値として検出し、平坦化部分の検出、及びその後の置換判定においては、このようにして検出した値を分解能の値として用いるようにする。或いは、各sfbごとに頻発する振幅値をそのsfbの分解能の値と見なしてこれを用いるようにすることもできる。
フォーマット解析部10からの分解能の情報を入力しない場合、平坦化部分抽出部21に対し、圧縮符号復号化部4→MDCT変換部30を介して得られるMDCT係数を供給するようにしておく。その上で、この場合の平坦化部分抽出部21としては、各sfbにおいて最小の振幅値をそのsfbの分解能の値として検出し、平坦化部分の検出、及びその後の置換判定においては、このようにして検出した値を分解能の値として用いるようにする。或いは、各sfbごとに頻発する振幅値をそのsfbの分解能の値と見なしてこれを用いるようにすることもできる。
以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した具体例に限定されるべきものではない。
例えば、これまでの説明では、AAC方式により圧縮符号化がされた音声信号(オーディオ信号)について補正処理を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について補正を行う場合にも本発明は好適に適用することができる。
例えば、これまでの説明では、AAC方式により圧縮符号化がされた音声信号(オーディオ信号)について補正処理を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について補正を行う場合にも本発明は好適に適用することができる。
また、これまでの説明では、所定の帯域のみについて補正処理を行う場合を例示したが、全帯域を対象として補正処理を行うものとしてもよい。
また、これまでの説明では、予測信号の生成にあたり、2次の後方適応格子型による予測器を用いる例を挙げたが、他の方式による予測器を用いることもできる。或いは、補間多項式や、多次元の近似式など多次元関数による予測処理で予測信号を生成することもできる。
但し、先にも述べたように処理負担の軽減の面では、実施の形態で採用したような2次の後方適応格子型による予測器を用いるのが好ましい。
但し、先にも述べたように処理負担の軽減の面では、実施の形態で採用したような2次の後方適応格子型による予測器を用いるのが好ましい。
また、これまでの説明では、本発明がLch(チャンネル)/Rchの2chオーディオ信号に対応する構成を例示したが、例えば5.1chなどのマルチchオーディオ信号、或いはモノラルオーディオ信号について補正を行う場合にも本発明は好適に適用できる。
また、これまでの説明では、置換の妥当性の判断基準として、誤差候補部分の予測信号の値が、MDCT係数の値+分解能の値/2以下であるか否かを判別する場合を例示したが、このような判断基準としては少なくとも分解能/nとすればよい。但し、量子化誤差はもともと分解能未満となる性質上、nの値としては、分解能/nの値を分解能の値未満とする値を選定すべきである。
或いは、置換の妥当性の判断としては、予測信号の値がMDCT係数の値±分解能の値/n以内であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能/nであるか否か判別することもできる。
或いは、置換の妥当性の判断としては、予測信号の値がMDCT係数の値±分解能の値/n以内であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能/nであるか否か判別することもできる。
また、これまでの説明では、本発明が、記憶部2としての例えばHDDやフラッシュメモリ等に記憶される音声信号について再生を行う再生装置に適用される場合を例示したが、本発明としては、例えばMD(Mini Disc(登録商標))などの光磁気ディスクやCD(Compact Disc)、DVD(Digital Versatile Disc)などの光ディスクを記録媒体として用いる再生装置にも適用することができる。
また、このように記録媒体に記憶される音声信号について再生を行う場合以外にも、デジタルテレビジョン放送信号中に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器や、Webストリームデータ内に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器に対しても好適に適用することができる。
また、このように記録媒体に記憶される音声信号について再生を行う場合以外にも、デジタルテレビジョン放送信号中に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器や、Webストリームデータ内に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器に対しても好適に適用することができる。
1 再生装置、2 記憶部、3 復調部、4 圧縮符号復号化部、4a 量子化誤差補正部、5 DSP、6 バス、7 システムコントローラ、8 操作部、9 表示部、10 フォーマット解析部、11 逆量子化処理部、11a ハフマン符号化部、11b 逆量子化部、11c リスケーリング部、12 ステレオ処理部、12a M/Sステレオ処理部、12b 予測処理部、12c インテンシティ・ステレオ処理部、12d TNS部、13 適応ブロック長切換逆MDCT部、14 ゲイン制御部、21 平坦化部分抽出部、22 置換判定部、23 予測処理部、24 置換部、30 MDCT変換部、31 逆MDCT変換部
Claims (10)
- 所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする信号処理装置。 - 上記誤差候補部分検出手段は、帯域を限定して上記誤差候補部分の検出を行うことを特徴とする請求項1に記載の信号処理装置。
- 上記誤差候補部分検出手段は、上記情報圧縮処理の際に設定された分解能の値と同値となっている部分を検出することを特徴とする請求項1に記載の信号処理装置。
- 上記置換手段は、
上記情報圧縮処理の際に設定された分解能の値に基づいて上記誤差候補部分の振幅値と予測信号の値とを比較した結果に基づき、その誤差候補部分の振幅値を上記予測信号の値に基づき置換する、
ことを特徴とする請求項1に記載の信号処理装置。 - 上記予測手段は、2次の後方適応格子型による予測処理によって上記予測信号を生成することを特徴とする請求項1に記載の信号処理装置。
- 上記予測手段は、近似式又は補間多項式により上記予測信号を生成することを特徴とする請求項1に記載の信号処理装置。
- 所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする信号処理方法。 - 記録媒体に記録された少なくともオーディオ信号を再生する再生装置であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする再生装置。 - 記録媒体に記録された少なくともオーディオ信号を再生する再生方法であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする再生方法。 - 所定の情報圧縮処理がされたオーディオ信号を取得する取得手段と、
上記取得手段により取得されたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする電子機器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006347514A JP2008158302A (ja) | 2006-12-25 | 2006-12-25 | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006347514A JP2008158302A (ja) | 2006-12-25 | 2006-12-25 | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008158302A true JP2008158302A (ja) | 2008-07-10 |
Family
ID=39659262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006347514A Pending JP2008158302A (ja) | 2006-12-25 | 2006-12-25 | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008158302A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016502139A (ja) * | 2012-11-26 | 2016-01-21 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 |
-
2006
- 2006-12-25 JP JP2006347514A patent/JP2008158302A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016502139A (ja) * | 2012-11-26 | 2016-01-21 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9728196B2 (en) | Method and apparatus to encode and decode an audio/speech signal | |
US7949014B2 (en) | Apparatus and method of encoding and decoding audio signal | |
JP3762579B2 (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
US20060031075A1 (en) | Method and apparatus to recover a high frequency component of audio data | |
JP4454664B2 (ja) | オーディオ符号化装置及びオーディオ符号化方法 | |
US7466245B2 (en) | Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method | |
JP2008096567A (ja) | オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム | |
JP2004199075A (ja) | ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置 | |
KR100682915B1 (ko) | 다채널 신호 부호화/복호화 방법 및 장치 | |
JP2008158301A (ja) | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 | |
JP4022504B2 (ja) | 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置 | |
JP2006018023A (ja) | オーディオ信号符号化装置、および符号化プログラム | |
US20130003980A1 (en) | Audio encoder, audio encoding method and program | |
JP4947145B2 (ja) | 復号装置、復号方法、及びプログラム | |
JP2008158302A (ja) | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 | |
CN101097716A (zh) | 数字信号处理设备、处理方法和再现设备 | |
JP2008158300A (ja) | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 | |
JP4347634B2 (ja) | 符号化装置及び符号化方法 | |
JP4721355B2 (ja) | 符号化データの符号化則変換方法および装置 | |
JP3813025B2 (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
JP2008033211A (ja) | 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム | |
JP4530567B2 (ja) | デジタルオーディオ復号装置 | |
JP4539180B2 (ja) | 音響復号装置及び音響復号方法 | |
JP2006023658A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
Ju et al. | Time-frequency domain fast audio transcoding |