JP2008158302A

JP2008158302A - 信号処理装置、信号処理方法、再生装置、再生方法、電子機器

Info

Publication number: JP2008158302A
Application number: JP2006347514A
Authority: JP
Inventors: Yukiko Unno; 由紀子海野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-12-25
Filing date: 2006-12-25
Publication date: 2008-07-10

Abstract

【課題】圧縮符号化により生じる中・高域の平坦化部分による音質劣化を抑制して高音質化を図る。
【解決手段】所定の情報圧縮処理がされたオーディオ信号について、周波数軸上でそのバンドの分解能の値と同値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換する。これにより、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができ、この結果、高音質化を図ることができる。
【選択図】図７

Description

本発明は、信号処理装置として、特に音声圧縮符号化処理により失われた中・高域の成分を補正する処理を行うための信号処理装置と、その方法とに関する。また、再生装置とその方法、及び電子機器に関する。

音声信号の圧縮符号化処理は、「量子化（ＰＣＭ：Pulse Code Moduration）」、音声信号の時間的連続性を用いた「時間相関符号化」、人間の聴覚特性を用いた「周波数相関符号化」、これらの符号化から得られた符号の発生確率の偏りを用いた「エントロピー符号化」を組み合わせることで実現することができる。

音声信号の圧縮符号化の手法としては、ＭＰＥＧ（Moving Pictures Experts Group）、ＡＴＲＡＣ（Adaptive TRansform Acoustic Coding：登録商標）、ＡＣ−３（Audio Code Number 3：登録商標）、ＷＭＡ（Windows Media Audio：登録商標）などで規格化され、その符号化信号は現在、デジタルテレビジョン放送、デジタルオーディオプレーヤー、ＷＥＢストリーミングなど広範にわたって使用されている。

ここで、圧縮符号化処理の中でも、周波数相関符号化は、圧縮率や音質に大きな影響を与える符号化処理である。周波数相関符号化とは、量子化されたＰＣＭ信号を、時間領域から周波数領域に直交変換し、周波数領域における信号エネルギーの偏差を求める。この偏差を用いて符号化することで符号化効率を高めることができる。また直交変換後の信号に対して、心理聴覚特性を用いて、周波数帯域をいくつかの帯域に分け、より人間に知覚されやすい帯域の信号劣化を最小とするように、ある種の重み付けを行って量子化することにより、全体的な符号化品質を改善することができる。
心理聴覚特性を用いた符号化は、絶対可聴閾値と、マスキング効果で定まる相対可聴閾値を用いて、補正可聴閾値を求める。この補正可聴閾値に基づいて、分割された帯域ごとにビット割り当てを行う。聴感上聞こえないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うことができる。

このような心理聴覚特性を用いた音声信号の圧縮符号化方式は、ＭＰＥＧ規格で積極的に取り入られている。音声信号の圧縮符号化は各エンコーダーメーカーの技術力により、その傾向が決められるものではあるが、ＭＰＥＧ規格が採用されているデジタルテレビジョン放送の音声信号においては、上記符号化により低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が確認されている。すなわち、これによって低ビット数が割り当てられた帯域での音質の劣化（低下）が生じやすいものとなる。

このような圧縮符号化に伴う信号劣化による音質低下を抑制するための先行技術はいくつか存在する。
例えば、下記特許文献１に記載の「量子化誤差補正方法及び装置並びにオーディオ情報復号方法」では、補正対象である音声信号の本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出する。補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法が開示されている。

特開２００１−１０２９３９号公報

しかしながら、上記特許文献１に記載の手法では、隣接する周波数帯域の符号化信号により、数通りの場合分けが必要となり、その分処理負担が増大する。さらには、上記「補正値」の算出にあたって各信号において二次曲線を求めるものとしているが、このような補正値としてその精度を確保するためには比較的長時間にわたる信号をサンプルして計算を行う必要があり、この点でも処理量が増大化する傾向となる。

そこで、本発明では以上のような問題点に鑑み、信号処理装置として以下のように構成することとした。
つまり、所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段を備える。
さらに、上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものである。

上記のようにして周波数軸上で所定値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換することで、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。

上記のようにして本発明によれば、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。すなわち、これによって圧縮符号化による音質劣化を効果的に抑圧することができる。

そして、上記本発明によれば、このような音質改善効果を得るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。

以下、発明を実施するための最良の形態（以下実施の形態とする）について説明していく。
なお以下、実施の形態の説明にあたっては、音声符号化方式として、ＭＰＥＧ−２ＡＡＣ（Moving Pictures Experts Group-2 Advanced Audio Coding）と呼ばれるＩＳＯ／ＩＥＣ１３８１８−７規格の符号化方式が採用され、その復号処理を行う場合を例に挙げる。
また、以下においては、ＭＰＥＧ−２ＡＡＣを、単にＡＡＣとも呼ぶ。
なお、上記ＩＳＯは、国際標準化機構（International Organization for Standardization）の略称であり、ＩＥＣは、国際電気標準会議（International Electrotechnical Commission）の略称である。

［ＡＡＣ符号化処理の概要］
先ず、実施の形態を説明する上での前提として、ＡＡＣ方式の符号化処理の概要について述べておく。
ＡＡＣ方式による音声符号化処理は、周波数相関符号化処理として、心理聴覚（psycho acoustics）に基づいて、人が知覚できない音の領域はデータ化しないことで、圧縮効果を高めているものである。ＡＡＣ方式の符号化によると、例えば２チャンネルステレオ音声の場合、９６キロビット／秒程度の伝送量でもＣＤ（Compact Disc）なみの音質が得られ、約１／１５（１５分の１）の圧縮率が得られるものとなる。

ＡＡＣ方式では、上述した心理聴覚分析の結果に基づいて、（１）ゲイン調整処理→（２）適応ブロック長切換ＭＤＣＴ処理→（３）ＴＮＳ処理→（４）インテンシティ・ステレオ符号化処理→（５）予測処理→（６）Ｍ／Ｓステレオ処理→（７）スケーリング処理が行われた後に、（８）量子化処理と（９）ハフマン符号化処理とが、割り当てられたビット数を下回るまで反復されて、符号化音声データが形成される。実際には、これらの処理過程において付すべき種々の係数等が付加されることにより最終的な符号化音声信号（ＡＡＣビットストリーム）が形成される。

以下に、具体的な処理内容を示す。
先ず、入力された符号化処理前の音声信号は、ゲイン調整され、所定のサンプル数毎にブロック化されて、これが１フレームとして処理される。符号化装置では、入力フレームを心理聴覚分析部においてＦＦＴ（Fast Fourier Transform）処理して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、予め設定された周波数帯域毎の許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピー（ＰＥ：Perceptual Entropy）と呼ぶパラメータを求める。

心理聴覚エントロピーは、聴取者が雑音を知覚することがないようにそのフレームを量子化するのに必要な総ビット数に相当する。また、心理エントロピーは、音声信号のアタック部のように信号レベルが急激に増大するところで大きな値を取るという特性がある。そこで、心理エントロピーの値の急変部を元にしてＭＤＣＴ（Modified Discrete Cosine Transform）の変換ブロック長を決定する。

ＭＤＣＴ処理は、心理聴覚分析部で決定されたブロック長で入力された音声信号を周波数スペクトル（以下、ＭＤＣＴ係数という）に変換する。変換ブロック長を、入力信号に応じて適応的に切り換える処理（適応ブロック切り換え）は、プリエコーと呼ばれる聴覚的に有害な雑音を抑制するために必要な処理である。

ＭＤＣＴ処理によって形成されたＭＤＣＴ係数は、ＴＮＳ（Temporal Noise Shaping）処理される。このＴＮＳ処理は、ＭＤＣＴ係数を時間軸上の信号であるかのように見たてて、線形予測を行い、ＭＤＣＴ係数に対して予測フィルタリングを行うものである。このＴＮＳ処理により、復号処理側で逆ＭＤＣＴして得られる波形に含まれる量子化雑音は、信号レベルの大きなところに集まるようになる。

そして、ＴＮＳ処理されたＭＤＣＴ係数に対しては、インテンシティ・ステレオ符号化、すなわち、高い周波数領域の音は左チャンネル（Ｌチャンネル）と右チャンネル（Ｒチャンネル）を合わせた１つのカップリングチャンネルしか伝送しないようにするための処理が施される。
インテンシティ・ステレオ符号化されたＭＤＣＴ係数は、ＭＤＣＴ係数１本毎に、過去２フレームにおける量子化されたＭＤＣＴ係数から現在のＭＤＣＴ係数の値が予測され、その予測残差が求められる。この予測処理されたＭＤＣＴ係数は、Ｍ／Ｓステレオ処理により、左右チャンネルの和信号（Ｍ＝Ｌ＋Ｒ）と差信号（Ｓ＝Ｌ−Ｒ）を伝送するか、左右チャンネルのそれぞれ（ＬチャンネルとＲチャンネルとのそれぞれ）を伝送するかが決定され、出力される。

Ｍ／Ｓステレオ処理により出力されたＭＤＣＴ係数は、予め設定された周波数帯域毎の複数本でグループ化されて（スケーリングされ）、これを単位として量子化が行われる。これらＭＤＣＴ係数のグループをスケールファクタバンド（ｓｆｂ）と呼んでいる。このｓｆｂは、聴覚の特性に合わせて低域側では狭く、高域側では広くなるように設定されている。

量子化処理では、心理聴覚部で求めたｓｆｂ毎の許容量子化雑音電力を下回ることを目標に量子化を行う。量子化されたＭＤＣＴ係数は、さらにハフマン符号化が施されて冗長度が削減される。この量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量が、フレームに割り当てられたビット数を下回るまで繰り返し行われる。

このように、ＡＡＣ符号化方式は、心理聴覚分析の結果に基づいて、（１）ゲイン調整処理→（２）適応ブロック長切換ＭＤＣＴ処理→（３）ＴＮＳ処理→（４）インテンシティ・ステレオ符号化処理→（５）予測処理→（６）Ｍ／Ｓステレオ処理→（７）スケーリング処理を行った後に、（８）量子化処理と（９）ハフマン符号化処理とを、割り当てられたビット数を下回るまで反復して行うことで、符号化された音声データを形成するようにされている。

なお、上述したＡＡＣ方式の音声符号化処理については、例えば「デジタルテレビ技術入門」高田豊、浅見聡著、米田出版、１１２頁〜１２４頁等の種々の文献、あるいは、Ｗｅｂページなどにおいても詳細に説明されている。

また、ゲイン調整処理、ＴＮＳ処理、インテンシティ・ステレオ符号化処理、予測処理、Ｍ／Ｓステレオ処理は、オプション処理であり、ＡＡＣ符号化全工程で行うものではない。すなわち、ゲイン調整処理、ＴＮＳ処理、インテンシティ・ステレオ符号化処理、予測処理、Ｍ／Ｓステレオ処理は、オプション処理が選択された場合にのみ行われる処理である。以下で説明する実施の形態においては、上述したオプション処理を行うようにされて圧縮符号化された符号化音声信号を処理する場合を例にして説明することとする。

［実施の形態の再生装置の構成例］
図１は、本発明の再生装置（電子機器）の一実施形態としての、再生装置１の内部構成について示したブロック図である。
この再生装置１は、図示する記憶部２として、例えばＨＤＤ（Hard Disc Drive）やフラッシュメモリ等の記憶デバイスに記憶された圧縮符号化音声信号を復号して再生可能なオーディオプレイヤとして構成される。
再生装置１には、この記憶部２に加え、復調部３、圧縮符号復号化部４、ＤＳＰ（Digital Signal Processor）５、バス６、システムコントローラ７、操作部８、表示部９が備えられている。

先ず、記憶部２においては、圧縮符号化音声信号がランレングスリミテッド符号化処理やエラー訂正コード付加処理等の所定処理が施された状態で記憶されている。復調部３は、記憶部２からの読み出し信号について、上記ランレングスリミテッド符号のデコードや上記エラー訂正コードに基づくエラー訂正処理等、所定の復調処理を行って圧縮符号化音声信号を得る。

復調部３の復調処理により得られた圧縮符号化音声信号は、圧縮符号復号化部４に供給され、ここにおいて圧縮符号の復号化処理が行われる。先の説明から理解されるように、本実施の形態では圧縮符号化音声信号がＡＡＣ圧縮符号化音声信号であることを前提としており、この圧縮符号復号化部４としてはＡＡＣ方式に対応した復号化処理を行うように構成されている。すなわち、ＡＡＣ圧縮符号化音声信号を音声出力可能な状態に復号化するように構成されている。
なお、この圧縮符号復号化部４の内部構成については後述する。
また、本実施の形態の場合、この圧縮符号復号化部４内には、図示するようにして量子化誤差補正部４ａが備えられるがこれについても後述する。

圧縮符号復号化部４の復号処理を経て得られた音声信号は、ＤＳＰ５に供給され、ここで所要の音声信号処理（例えばボリューム調整や各種音響効果付加処理等）が施された後、図示する出力端子Ｔoutに供給され外部出力される。

システムコントローラ７は、例えばＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Randam Access Memory）などを備えたマイクロコンピュータで構成され、図示するバス６を介して接続される記憶部２、復調部３、圧縮符号復号化部４、ＤＳＰ５との間で制御信号や各種データのやりとりすることで当該再生装置１の全体制御を行う。
例えばシステムコントローラ７は、後述する操作部８からの操作入力等に応じて記憶部２の信号読み出し制御を実行する。また、例えば操作部８からの操作入力等に応じてＤＳＰ５に音声信号処理の各種パラメータを設定する処理なども行う。

操作部８は、例えば再生装置１の筐体外面に表出するようにして備えられる図示されない操作キー等によるの入力デバイスであって、ユーザが各種操作入力やデータ入力を行う。操作部８で入力された情報はシステムコントローラ７に対して操作又はデータの入力情報として伝達される。システムコントローラ７は入力された情報に対応して必要な演算や制御を行う。

表示部９は、例えば液晶パネルなどの表示パネルを備え、ユーザに対して各種情報表示を行う。この場合は、システムコントローラ７からの指示に基づく各種情報の表示を行う。

［圧縮符号復号化部の構成］
図２は、図１に示した圧縮符号復号化部４の内部構成について示している。
先ず、圧縮符号復号化部４の構成要素としては、大別すると、フォーマット解析部１０、逆量子化処理部１１、ステレオ処理部１２、適応ブロック長切換逆ＭＤＣＴ部１３、ゲイン制御部１４に分けることができる。また、この場合の圧縮符号復号化部４には、図１にも示したように、量子化誤差補正部４ａが備えられることになる。

上記逆量子化処理部１１には、ハフマン復号化部１１ａ、逆量子化部１１ｂ、リスケーリング部１１ｃとが備えられる。また、上記ステレオ処理部１２には、Ｍ／Ｓステレオ処理部１２ａ、予測処理部１２ｂ、インテンシティ・ステレオ処理部１２ｃ、ＴＮＳ部１２ｄとが備えられている。

先ず、図１に示した復調部３からの符号化音声信号（ビットストリーム）は、フォーマット解析部１０に供給される。フォーマット解析部１０は、供給された符号化音声信号をＭＤＣＴ係数とそれ以外のパラメータや制御情報とに分離する。ＭＤＣＴ係数については、逆量子化処理部１１内のハフマン復号化部１１ａに供給する。
また、フォーマット解析部１０は、符号化音声信号のビットストリームから抽出したパラメータや制御情報に基づいて、各部に対する制御信号を形成し、これを図中の破線矢印で示すようにして圧縮符号復号化部４内の各部に対して供給することによって、各部における処理が制御される。

上記のようにしてフォーマット解析部１０で分離されたＭＤＣＴ係数については、上述したＡＡＣ符号化時の処理とは言わば逆となる処理を施すことによって、符号化音声信号の復号化処理が行われる。
具体的に、先ず上記ハフマン復号化部１１ａでは、フォーマット解析部１０から供給されるＭＤＣＴ係数についてハフマン復号処理を行う。次に、逆量子化部１１ｂにおいて逆量子化処理を行った後、リスケーリング部１１ｃにおいてリスケーリング処理を行うことで量子化前のＭＤＣＴ係数を復元する。

このようにして逆量子化処理部１１にて量子化前の状態に復元されたＭＤＣＴ係数は、ステレオ処理部１２内のＭ／Ｓステレオ処理部１２ａに供給される。
Ｍ／Ｓステレオ処理部１２ａにおいては、左チャンネル（Ｌｃｈ）と右チャンネル（Ｒｃｈ）のＭＤＣＴ係数が復元される。この左右２チャンネルのＭＤＣＴ係数は、次の予測処理部１２ｂにおいて処理されることで、符号化時の予測処理によるデータ圧縮前のＭＤＣＴ係数に復元され、さらにインテンシティ・ステレオ処理部１２ｃにおいて、インテンシティ・ステレオ復号化処理が施されて、高い周波数領域の音についても、左右のそれぞれのチャンネルのＭＤＣＴ係数に分配される。この後、ＴＮＳ部１２ｄにおいて、予測フィルタリングがはずされ、符号化時においてＭＤＣＴ処理された直後のＭＤＣＴ係数が復元される。

本実施の形態の場合、このようにステレオ処理部１２でＭＤＣＴ処理された直後に相当する状態に復元されたＭＤＣＴ係数は、図示するようにして量子化誤差補正部４ａによる補正を経た後に、適応ブロック長切換逆ＭＤＣＴ部１３に対して供給される。
なお、先にも述べたが、この量子化誤差補正部４ａによる補正動作の内容、及びその内部構成については後述する。

適応ブロック長切換逆ＭＤＣＴ部１３は、上記のようにして量子化誤差補正部４ａを介して供給されるＭＤＣＴ係数（周波数領域の音声信号）を逆ＭＤＣＴ処理することによって時間軸領域の音声信号（時間音声信号：音声出力可能な状態の音声信号）に変換し、これをゲイン制御部１４に供給する。
適応ブロック長切換逆ＭＤＣＴ部１３で得られた時間音声信号は、次段のゲイン制御部１４にてゲイン調整が行われた後、先の図１に示したＤＳＰ５に対して供給される。

[量子化誤差の補正]
上記のようにして圧縮符号復号化部４では、ＡＡＣ方式で符号化されて形成された符号化音声信号の復号処理を行って、音声出力可能な音声信号を得るようにされる。
ここで、一般的に音声圧縮符号化は、周波数相関符号化として、上述したような心理聴覚分析を用いた方式が採られている。この心理聴覚特性を用いた符号化では、聴感上聴取することのできないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うように図られている。
しかしながら、このようにして低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が生じる。このような現象は、量子化誤差と呼ばれる。

図３は、このような割り当てビット数に起因して生じる量子化誤差について説明するための図である。
先ず、前提として、圧縮符号化では、上述のようにして所要の周波数帯域については割り当てるビット数を削減するものとしているが、このような帯域ごとのビット割り当て数は、その帯域について設定された分解能の値によって決定される。
図３では、それぞれ異なる分解能が設定された場合での元データ（原信号のデータ）、符号化による量子化前／後の各データ、及び復号結果としてのデータの関係を示している。具体的に図３（ａ）では分解能＝２（高分解能）が設定された場合、図３（ｂ）では分解能＝５（低分解能）が設定された場合について示している。

これらの図を参照してわかるように、高分解能とされた場合の方が、低分解能とされる場合よりも元データと復号結果との誤差が小さくなる。
具体的に、例えば図中の最左欄の元データ＝８のケースに着目すると、分解能＝２のときは、量子化前の値は８÷２により「４」であり、その量子化結果はこれを整数化したものと捉えることができ、図中量子化後として示すように同じ「４」となる。復号結果は、量子化後の値を分解能の値で戻したものに相当し、４×２により「８」となる。
これに対し、分解能＝５のときは、元データ＝８に対し量子化前の値は「１．６」となり、量子化後の値はこれが整数化されて「１」となってしまう。そして、復号結果は、この「１」を分解能「５」で戻した「５」となり、先の分解能＝２の場合の復号結果「８」と比較して誤差が大きくなる。

このようにして分解能が低い場合には、量子化前の値と、これが整数化されたものに相当する量子化後の値との誤差が大きくなる傾向にあり、これに応じ復号結果にも元データの値からの大きな誤差を生じさせることとなる。これが、割り当てビット数の少ない部分で量子化誤差が生じやすい所以である。

ここで、例えば元データがとり得る値を仮に０〜１００までの範囲としたとき、分解能を高くする（値としては小さくする）ことによっては、その分、細かい刻みで元データの値を表現することができるが、それに伴ってより多くのビット数を割り当てる必要がでてくることがわかる。一方で、分解能を低くする（値としては大きくする）ことによっては、元データの値を表現する上での刻み幅を粗くすることができるので、割り当てるビット数はより少なくすることができる。このようなことから、符号化の際に各バンドに設定する分解能の値により、そのバンドについての割り当てビット数が決定付けられることが理解できる。

図４は、実際の量子化誤差の発生形態の一例について説明するための図として、図４（ａ）ではビットレート＝５１２ｋbpsのとき、図４（ｂ）ではビットレート＝１２８ｋbpsのときのスペクトル分布を示している。なお、この図ではスペクトル分布として、図２に示したステレオ処理部１２から出力されるＡＡＣ１フレーム分（１０２４サンプル：時間に換算すると１０２４／４４１００＝０．０２３sec）のＭＤＣＴ係数の分布（図中黒丸）を示している。また、この図では、周波数相関符号化により割り当てビット数の削減率が比較的高くなる中・高域として、例えば７ｋＨｚ以降（〜２２ｋＨｚ）のＭＤＣＴ係数の分布を示している。

先ず、図４（ａ）に示す高ビットレートの場合、中・高域においても各バンドの割り当てビット数は比較的多くすることができるため、大きな量子化誤差はほぼ生じていないことが確認できる。
これに対し、図４（ｂ）の低ビットレートの場合は、中・高域での割り当てビット数の削減率が高くなることに伴って、比較的大きな量子化誤差が生じやすくなる。この大きな量子化誤差部分は、図中の丸印で囲うように、同じ振幅値が連続する部分として確認することができる。これが、量子化誤差による平坦化と呼ばれる現象である。

このような平坦化が生じた部分は、当然のことながら元の原信号の波形を忠実に再現したものとはならない。すなわち、このように平坦化が生じた部分で特に音質の劣化が生じるものである。

［量子化誤差の補正］
そこで、本実施の形態では、特にこのような平坦化部分による音質劣化を防止し、音質の改善を図る（つまり高音質化を図る）ものとする。そのための構成として、先の図２（図１）に示した量子化誤差補正部４ａを設けるようにしている。

図５は、量子化誤差補正部４ａの内部構成について示すブロック図である。
図示するようにして量子化誤差補正部４ａには、平坦化部分抽出部２１、置換判定部２２、予測処理部２３、置換部２４が備えられている。
これら量子化誤差補正部４ａ内の各部に対しては、図２に示したステレオ処理部１２から出力されるＡＡＣ１フレーム単位ごとのＭＤＣＴ係数が入力される。

先ず、予測処理部２３では、上記ステレオ処理部１２から供給される１フレーム分ごとのＭＤＣＴ係数に基づき、圧縮符号化前の原信号を予測した予測信号を生成する。
この予測処理部２３が備える予測器として、本実施の形態ではＡＡＣのＭａｉｎプロファイル（ISO/IEC13818-7）で規格化されている予測器を用いるものとしている。なおこの予測器は、先の図２に示した予測処理部１２ｂが備えるものと同等のものである。

ここで、図６は、上記予測器による予測処理のフローを示している。
この予測器は、２次の後方適応格子型予測器である。予測値x est(n)は以下のように求められる。
x est(n) ＝ x est,1(n)＋ x est,2(n)
ここで、
x est,1(n) ＝ bk1(n) r q,0(n-1)
x est,2(n) ＝ bk2(n) r q,1(n-1)
であり、a=b=0.953125である。
r q,0(n) ＝ axrec(n)
r q,1(n) ＝ a(rq,0 (n-1) − bk1(n)eq,0(n))
e q,0(n) ＝ xrec(n)
e q,1(n) ＝ e q,0(n) − xest,1(n)
km(n+1),m=1,2は以下の式により求める。
km(n+1) ＝ CORm(n)/VARm(n)
ここで、
CORm(n) ＝ αCOR m(n-1)＋r q,m-1(n-1) eq,m-1(n)
VARm(n) ＝ αVAR m(n-1)＋0.5(r² q,m-1(n-1)＋ e²q,m-1(n))
であり、α＝0.90625である。

なお、本例では、上記予測処理部２３として、先の予測処理部１２ｂと同手法により予測処理を行う部分を別途設けるものとしているが、これは、ＡＡＣのオプション処理として、図２に示すインテンシティステレオ処理部１２ｃ、ＴＮＳ処理部１２ｄとしての処理を行っていることに起因する。すなわち、これらのオプション処理を行う場合、予測処理部１２ｂにおける処理結果は、本例の量子化誤差補正部４ａで用いることのできるかたちでの予測信号として得ることができないため、別途の予測処理部２３を設けているものである。

説明を図５に戻す。
平坦化部分抽出部２１には、上述のようにしてステレオ処理部１２からの１フレーム分のＭＤＣＴ係数が供給されると共に、図２に示したフォーマット解析部１０から入力される、先に述べたスケールファクタバンド（ｓｆｂ）ごとの分解能の情報が供給される。
平坦化部分抽出部２１では、これら１フレーム分のＭＤＣＴ係数とｓｆｂごとの分解能の情報とに基づき、ｓｆｂごとに、ＭＤＣＴ係数の値がそのｓｆｂの分解能と同値となっている部分を検出（抽出）する。
多くの場合、このように分解能の値と同値となっているとして検出された部分が、先の図４（ｂ）に示したような平坦化部分を形成する部分となる。

ここで、本実施の形態では、量子化誤差の補正を行う帯域を、ビット割り当て数が不十分とされる中・高域に限定するものとしている。例えばこの場合は、先の図４に示されるような７ｋHz〜２２ｋHzまでの帯域のみを対象として補正動作を行うものとしている。
これに応じ平坦化部分抽出部２１では、１フレームを形成する各ｓｆｂのうち、このような７ｋHz以降のｓｆｂのみを対象としてＭＤＣＴ係数の値がそのｓｆｂの分解能と同値となっているＭＤＣＴ係数位置を検出する。
平坦化帯域抽出部２１は、検出したＭＤＣＴ係数位置の情報（ＭＤＣＴ係数番号情報）と、さらにそのＭＤＣＴ係数位置が属するｓｆｂの分解能の情報とを併せて置換判定部２２に供給する。

置換判定部２２は、上記平坦化部分抽出部２１により検出されたＭＤＣＴ係数番号の情報とそのバンドにおける分解能の情報、及びステレオ処理部１２からのＭＤＣＴ係数、さらに予測処理部２３で生成された予測信号を入力し、それらの情報に基づき置換判定を行う。すなわち、上記平坦化部分抽出部２１からのＭＤＣＴ係数番号によって特定されるＭＤＣＴ係数位置における上記予測信号の値と上記ＭＤＣＴ係数の値と、さらにそのＭＤＣＴ係数位置が属するｓｆｂの分解能の情報とに基づき、置換判定を行う。
具体的には、予測信号の値が、［ＭＤＣＴ係数の値（絶対値）＋分解能／ｎ］以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合は、ｎ＝２として、予測信号の値がＭＤＣＴ係数の値＋分解能の値／２以下であるか否かを判別する。
予測信号の値がＭＤＣＴ係数の値＋分解能の値／２以下となっていないとした場合、そのＭＤＣＴ係数位置については置換を行わないとの判定結果を示す判定信号を次に説明する置換部２４に対して供給する。一方、予測信号の値がＭＤＣＴ係数の値＋分解能の値／２以下となっているとした場合は、そのＭＤＣＴ係数位置については置換を行うとの判定結果を示す判定信号を置換部２４に対して供給する。

置換部２４は、ステレオ処理部１２から供給されるＭＤＣＴ係数と、上記置換判定部２２からの判定信号と、さらに予測処理部２３からの予測信号とに基づき、置換処理を行う。
具体的には、上記置換判定部２２からの判定信号により置換を行うとの判定結果が示されたＭＤＣＴ係数位置について、そのＭＤＣＴ係数の値を予測信号の値で置換する。
この置換部２４による置換処理が施された１フレーム分のＭＤＣＴ係数が、先の図２に示した適応ブロック長切換逆ＭＤＣＴ部１３に対して順次供給されることになる。

上記のようにして本実施の形態では、圧縮符号化がされた音声信号（オーディオ信号）について、周波数軸上でそのバンド（ｓｆｂ）の分解能の値となっているＭＤＣＴ係数位置を検出し、その位置の振幅値を、予測信号の値との比較結果に基づいて予測信号の値で置換するものとしている。

ここで、上記のようにして本例においては、周波数軸上で分解能と同値となっている部分を検出するものとしているが、先の図３、図４の説明からも理解されるように、音質劣化の原因となる平坦化部分は、分解能と同値となっているところで生じやすいことになる。すなわち、分解能と同値（分解能の値×１）の部分は、量子化としての整数化で波数が切り捨てられた際に、その切り捨て率が相対的に高くなる可能性が高く、それに伴い生じる量子化誤差の率も高くなる傾向となって、大きな量子化誤差が生じやすい。
そこで本例では、上記のようにして先ずは分解能の値と同値となっている部分を置換候補部分として検出し、予測信号の値からその候補部分で大きな量子化誤差が生じているか、すなわち置換を行う妥当性があるかを判定した上で、妥当であるとされた場合にはその部分のＭＤＣＴ係数を予測信号の値で置換するものとしている。
これにより、割り当てビット数の少なさに起因して大きな量子化誤差の生じている部分を適正に検出し、その誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。この結果、圧縮符号化による音質劣化を効果的に抑圧し、高音質化を図ることができる。

そして、このような本実施の形態としての補正動作によれば、高音質化を図るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。

特に、予測信号の生成にあたり、上述したような２次の後方適応格子型による予測器を採用する本例の場合、その予測アルゴリズムとしては１フレームにつき１回の予測処理関数を呼び出せばよく、従来の如く各バンドで妥当とされる二次曲線などを求める場合のように複数フレーム間にわたって処理を行う必要はないものとでき、その分処理負担を格段に軽減することができる。また、さらには処理負担を音源によらず一定とすることもでき、処理の安定化を図ることができる。

また、本実施の形態では、例えば７ｋHz以降の中・高域の帯域のみを対象として補正動作を行うこととしているが、このことで、不必要な部分で置換が行われてしまうことを効果的に防止することができる。
例えば、先に示した特許文献１に記載の発明では、全周波数帯域を対象として補正を行うことを前提としているが、このように全周波数帯域を対象として補正を行った場合、低域などのビット割り当てが充分であるところで、求めた補正値がかえって本来の振幅値とかけ離れたものとなってしまう可能性があり、結果的に音質向上を図ることができなくなる可能性がある。
これに対し本例のように補正対象帯域をビット割り当てが不十分とされる中・高域に限定すれば、必要な帯域のみについて補正を行うことができ、そのような不具合の発生を効果的に防止できる。

なお、ここまでの説明では、本実施の形態としての量子化誤差の補正動作が、先の図５に示したようなハードウェア構成により実現される場合を例示したが、本実施の形態の補正動作としてはソフトウェア処理によっても実現することができる。つまり、量子化誤差補正部４ａとしては、例えばＣＰＵやメモリを備えた演算処理部で構成することができ、この演算処理部のソフトウェア処理により上述した実施の形態としての補正動作を実現するものである。

この場合において実行されるべき処理動作を、次の図７のフローチャートに示す。
なお、この図に示す処理動作は、上述のような演算処理部としての量子化誤差補正部４ａが、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、図示による説明は省略するが、この演算処理部としての量子化誤差補正部４ａは、この図に示す処理動作と並行して、ステレオ処理部１２からのＭＤＣＴ係数に基づき先の図６の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。

先ずステップＳ１０１では、分解能情報を取得する。すなわち、先の図２に示したフォーマット解析部１０からのｓｆｂごとの分解能の情報を取得する。

続くステップＳ１０２では、平坦化部分を抽出するための処理を行う。すなわち、ステレオ処理部１２から供給される１フレーム分のＭＤＣＴ係数を入力し、この１フレームを形成する各ｓｆｂのうち、例えば７ｋHz以降のｓｆｂのみを対象としてＭＤＣＴ係数の値がそのｓｆｂの分解能と同値となっているＭＤＣＴ係数位置を検出する。

さらに、次のステップＳ１０３では、予測信号に基づき抽出部分ごとに置換判定を行う。
すなわち、上記ステップＳ１０２によって検出したＭＤＣＴ係数位置ごとに、ＭＤＣＴ係数の値、そのＭＤＣＴ係数位置が属するｓｆｂの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらＭＤＣＴ係数の値、予測信号の値、分解能の値について、予測信号の値が、ＭＤＣＴ係数の値＋分解能の値／２以下となっているか否かを判別した結果に基づき、置換判定を行う。

その上で、続くステップＳ１０４においては、要置換部分のＭＤＣＴ係数を予測信号に基づき置換する処理を行う。つまり、上記ステップＳ１０３の置換判定より、予測信号の値がＭＤＣＴ係数の値＋分解能の値／２以下となっていると判定したＭＤＣＴ係数位置についてのみ、予測信号の値による置換を行う。
このステップＳ１０４を実行すると、図示するようにして「ＲＥＴＵＲＮ」となる。なお確認のために述べておくと、この図に示す処理動作はＡＡＣ１フレームごとに実行されるべきものである。

ここで、これまでの説明では、量子化誤差補正部４ａが圧縮符号復号化部４内に設けられる場合を例示したが、例えば次の図８に示すようにして、圧縮符号復号化部４の外部に対して量子化誤差補正部４ａを設けるようにすることもできる。

図８において、この場合の圧縮符号復号化部４内においては、量子化誤差補正部４ａが省略され、ステレオ処理部１２からのＭＤＣＴ係数は直接的に適応ブロック長切換逆ＭＤＣＴ部１３に供給されるようになっている。
そして、圧縮符号復号化部４から出力される音声信号（時間音声信号）を入力して、これを再度ＭＤＣＴ変換して周波数軸領域の音声信号に変換するＭＤＣＴ変換部３０を追加するものとしている。
その上で、この場合の量子化誤差補正部４ａに対しては、このＭＤＣＴ変換部３０にて時間−周波数変換された音声信号（ＭＤＣＴ係数）を、ＡＡＣ１フレーム単位ごとに入力する。さらには、図中の破線により示すように、フォーマット解析部１０からのｓｆｂごとの分解能の情報も入力する。
なお、この場合も量子化誤差補正部４ａが行う動作としては先に説明したものと同様となるため改めての説明は省略する。

そして、この量子化誤差補正部４ａにて補正が行われたＭＤＣＴ係数を、図中逆ＭＤＣＴ変換部３１により再度逆ＭＤＣＴ変換させ、音声出力可能な時間音声信号に戻すようにする。このようにして得られた時間音声信号が、図１に示したＤＳＰ５に対して供給されることになる。

このようにして実施の形態としての補正動作を行う量子化誤差補正部４ａとしては、圧縮符号復号化部４の外部に設けて、復号化処理の完了した音声信号について高音質化を図るようにすることもできる。
但し、上記説明からも理解されるように、このようにして圧縮符号復号化部４外部に設ける場合には、復号化後の時間音声信号を再度周波数変換された状態の音声信号に戻すための構成（ＭＤＣＴ変換部３０）と、補正後の周波数軸領域の音声信号を再度時間軸領域の音声信号に戻すための構成（逆ＭＤＣＴ変換部３１）とが別途必要となる。
この点に鑑み、先の図１に示した再生装置１では、量子化誤差補正部４ａを圧縮符号復号化部４内に設けて、復号化処理の過程で既に周波数軸領域に変換された状態にある音声信号について高域補間を施すようにしたことで、上記のような別途の構成が不要となるようにしたものである。

なお、この図８に示す変形例では、このように外付けとされた量子化誤差補正部４ａ（平坦化部分抽出部２１）に対してフォーマット解析部１０からの分解能の情報を入力するように構成したが、このようなフォーマット解析部１０からの分解能の情報の入力は必須ではない。
フォーマット解析部１０からの分解能の情報を入力しない場合、平坦化部分抽出部２１に対し、圧縮符号復号化部４→ＭＤＣＴ変換部３０を介して得られるＭＤＣＴ係数を供給するようにしておく。その上で、この場合の平坦化部分抽出部２１としては、各ｓｆｂにおいて最小の振幅値をそのｓｆｂの分解能の値として検出し、平坦化部分の検出、及びその後の置換判定においては、このようにして検出した値を分解能の値として用いるようにする。或いは、各ｓｆｂごとに頻発する振幅値をそのｓｆｂの分解能の値と見なしてこれを用いるようにすることもできる。

以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した具体例に限定されるべきものではない。
例えば、これまでの説明では、ＡＡＣ方式により圧縮符号化がされた音声信号（オーディオ信号）について補正処理を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について補正を行う場合にも本発明は好適に適用することができる。

また、これまでの説明では、所定の帯域のみについて補正処理を行う場合を例示したが、全帯域を対象として補正処理を行うものとしてもよい。

また、これまでの説明では、予測信号の生成にあたり、２次の後方適応格子型による予測器を用いる例を挙げたが、他の方式による予測器を用いることもできる。或いは、補間多項式や、多次元の近似式など多次元関数による予測処理で予測信号を生成することもできる。
但し、先にも述べたように処理負担の軽減の面では、実施の形態で採用したような２次の後方適応格子型による予測器を用いるのが好ましい。

また、これまでの説明では、本発明がＬｃｈ（チャンネル）／Ｒｃｈの２ｃｈオーディオ信号に対応する構成を例示したが、例えば５．１ｃｈなどのマルチｃｈオーディオ信号、或いはモノラルオーディオ信号について補正を行う場合にも本発明は好適に適用できる。

また、これまでの説明では、置換の妥当性の判断基準として、誤差候補部分の予測信号の値が、ＭＤＣＴ係数の値＋分解能の値／２以下であるか否かを判別する場合を例示したが、このような判断基準としては少なくとも分解能／ｎとすればよい。但し、量子化誤差はもともと分解能未満となる性質上、ｎの値としては、分解能／ｎの値を分解能の値未満とする値を選定すべきである。
或いは、置換の妥当性の判断としては、予測信号の値がＭＤＣＴ係数の値±分解能の値／ｎ以内であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能／ｎであるか否か判別することもできる。

また、これまでの説明では、本発明が、記憶部２としての例えばＨＤＤやフラッシュメモリ等に記憶される音声信号について再生を行う再生装置に適用される場合を例示したが、本発明としては、例えばＭＤ（Mini Disc（登録商標））などの光磁気ディスクやＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）などの光ディスクを記録媒体として用いる再生装置にも適用することができる。
また、このように記録媒体に記憶される音声信号について再生を行う場合以外にも、デジタルテレビジョン放送信号中に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器や、Ｗｅｂストリームデータ内に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器に対しても好適に適用することができる。

本発明の実施の形態としての再生装置（電子機器）の内部構成について示したブロック図である。実施の形態の再生装置内部に備えられる圧縮符号復号化部の内部構成について示したブロック図である。量子化誤差について説明するための図である。量子化誤差による平坦化について説明するための図である。実施の形態の信号処理装置（量子化誤差補正部）の内部構成について示したブロック図である。実施の形態で用いる予測器の処理フローを示した図である。実施の形態としての補正動作をソフトウェア処理によって実現するために行われるべき処理動作について示したフローチャートである。実施の形態の再生装置（電子機器）の変形例の構成を示したブロック図である。

符号の説明

１再生装置、２記憶部、３復調部、４圧縮符号復号化部、４ａ量子化誤差補正部、５ＤＳＰ、６バス、７システムコントローラ、８操作部、９表示部、１０フォーマット解析部、１１逆量子化処理部、１１ａハフマン符号化部、１１ｂ逆量子化部、１１ｃリスケーリング部、１２ステレオ処理部、１２ａＭ／Ｓステレオ処理部、１２ｂ予測処理部、１２ｃインテンシティ・ステレオ処理部、１２ｄＴＮＳ部、１３適応ブロック長切換逆ＭＤＣＴ部、１４ゲイン制御部、２１平坦化部分抽出部、２２置換判定部、２３予測処理部、２４置換部、３０ＭＤＣＴ変換部、３１逆ＭＤＣＴ変換部

Claims

所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする信号処理装置。
上記誤差候補部分検出手段は、帯域を限定して上記誤差候補部分の検出を行うことを特徴とする請求項１に記載の信号処理装置。
上記誤差候補部分検出手段は、上記情報圧縮処理の際に設定された分解能の値と同値となっている部分を検出することを特徴とする請求項１に記載の信号処理装置。
上記置換手段は、
上記情報圧縮処理の際に設定された分解能の値に基づいて上記誤差候補部分の振幅値と予測信号の値とを比較した結果に基づき、その誤差候補部分の振幅値を上記予測信号の値に基づき置換する、
ことを特徴とする請求項１に記載の信号処理装置。
上記予測手段は、２次の後方適応格子型による予測処理によって上記予測信号を生成することを特徴とする請求項１に記載の信号処理装置。
上記予測手段は、近似式又は補間多項式により上記予測信号を生成することを特徴とする請求項１に記載の信号処理装置。
所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする信号処理方法。
記録媒体に記録された少なくともオーディオ信号を再生する再生装置であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする再生装置。
記録媒体に記録された少なくともオーディオ信号を再生する再生方法であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする再生方法。
所定の情報圧縮処理がされたオーディオ信号を取得する取得手段と、
上記取得手段により取得されたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする電子機器。