JP4046454B2 - オーディオデータ符号化装置 - Google Patents
オーディオデータ符号化装置 Download PDFInfo
- Publication number
- JP4046454B2 JP4046454B2 JP2000090784A JP2000090784A JP4046454B2 JP 4046454 B2 JP4046454 B2 JP 4046454B2 JP 2000090784 A JP2000090784 A JP 2000090784A JP 2000090784 A JP2000090784 A JP 2000090784A JP 4046454 B2 JP4046454 B2 JP 4046454B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- frequency
- approximate
- audio data
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【発明の属する技術分野】
本発明は、デジタルデータの符号化技術に関し、特に、複数のチャンネルを有するオーディオデータの圧縮符号化技術に関する。
【0002】
【従来の技術】
オーディオデータの圧縮符号化処理において、インテンシティステレオ方式が知られている。インテンシティステレオ方式では、複数チャンネルのオーディオデータを、複数のチャンネルに対して、共通データとその共通データを基準とした倍率とを用いた近似データで表して、これらの共通データと倍率とを用いて符号化し、符号化効率の向上を図る。このインテンシティステレオ処理は、人間の聴覚が高周波数領域においては強度のみに敏感になるという特性に基づいて、ある周波数以上の帯域におけるオーディオデータに対して行なわれる。インテンシティステレオ方式では、高音域においては実質的に1チャンネル分程度のデータのみで複数チャンネルのデータが表されるため、複数チャンネルを有するオーディオデータの圧縮符号化効率を高めることができる。
【0003】
このインテンシティステレオ処理においては、まず、各チャンネルに含まれる、すべての周波数領域のオーディオデータをインテンシティステレオ処理せずに、圧縮符号化したときの符号化データのビット数を推定する。その符号化データのビット数が使用可能ビット数を超える場合に、ある周波数以上の高周波数領域のオーディオデータをインテンシティステレオ処理して、符号化データのビット数を推定する。このように、インテンシティステレオ処理する周波数領域を変えて、符号化データのビット数を推定して、使用可能ビット数を満足する最上限の周波数以上の周波数領域において、インテンシティステレオ処理が行われる。
【0004】
【発明が解決しようとする課題】
従来のインテンシティステレオ処理を行なう周波数領域は、使用可能ビット数を満足するように決定している。このため、使用可能ビット数を満足する、ある周波数以上の周波数領域において、インテンシティステレオ処理が行なわれる。しかし、このようにしてインテンシティステレオ処理を行う周波数領域を決定する方法では、オーディオデータがチャンネル間において大きく異なっている場合でも、インテンシティステレオ処理が行なわれてしまう。このような場合、インテンシティステレオ処理が行なわれる高周波数領域において音質の劣化が発生する。
【0005】
本発明は、上述の課題を解決するためになされたものであって、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することである。
【0006】
【課題を解決するための手段】
第1の発明に係るオーディオデータ符号化装置は、複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、変換手段に接続され、各周波数帯域ごとに複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、変換手段と近似データ算出手段とに接続され、各周波数帯域ごとに、周波数領域におけるデータと近似データとの差を示す誤差データと、周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、複数の周波数帯域ごとの、誤差データが聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、変換手段と評価データ算出手段とに接続され、各周波数帯域ごとに、評価データと予め定められたしきい値との比較に基づいて、周波数領域におけるデータおよび近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含む。
そして、評価データ算出手段は、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の2乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算することにより、複数の周波数帯域ごとの評価データを算出するための手段を含む。
【0007】
第1の発明によると、変換手段は、入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換する。近似データ算出手段は、各周波数帯域ごとに複数のチャンネルに対して、周波数領域における近似データを算出する。評価データ算出手段は、各周波数帯域ごとに、周波数領域におけるデータと近似データとの差を示す誤差データと、周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、複数の周波数帯域ごとの、誤差データが聴覚特性に与える影響を示す評価データを算出する。符号化手段は、各周波数帯域ごとに、評価データと予め定められたしきい値との比較に基づいて、周波数領域におけるデータおよび近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成する。これにより、たとえば、評価データが予め定められたしきい値を下回る場合、すなわち、誤差データが聴覚特性に与える影響が一定値以下の場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
また、評価データ算出手段は、各周波数帯域ごとに、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の2乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算することにより、複数の周波数帯域ごとの評価データを算出する。これにより、たとえば、誤差の2乗の和をマスキングデータにより除算した評価データが予め定められたしきい値を下回る場合、すなわち、誤差の2乗の和が聴覚特性に与える影響が一定値を下回る場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0010】
第2の発明に係るオーディオデータ符号化装置は、複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、変換手段に接続され、各周波数帯域ごとに複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、変換手段と近似データ算出手段とに接続され、各周波数帯域ごとに、周波数領域におけるデータと近似データとの差を示す誤差データと、周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、複数の周波数帯域ごとの、誤差データが聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、変換手段と評価データ算出手段とに接続され、各周波数帯域ごとに、評価データと予め定められたしきい値との比較に基づいて、周波数領域におけるデータおよび近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含む。
そして、評価データ算出手段は、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の2乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算したものを複数のチャンネル分加算することにより、複数の周波数帯域ごとの評価データを算出するための手段を含む。
【0011】
第2の発明によると、評価データ算出手段は、各周波数帯域ごとに、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の2乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算したものを複数のチャンネル分加算することにより評価データを算出する。これにより、たとえば、誤差の2乗の和をマスキングデータにより除算して、除算されたものを複数のチャンネル分加算した評価データが予め定められたしきい値を下回る場合、すなわち、複数のチャンネル分を加算した、誤差の2乗の和が聴覚特性に与える影響が一定値を下回る場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0014】
第3の発明に係るオーディオデータ符号化装置は、第1〜2のいずれかの発明の構成に加えて、符号化手段は、評価データが予め定められたしきい値を下回る場合に、近似データに基づいて、符号化データを生成するための手段を含む。
【0015】
第3の発明によると、符号化手段は、評価データが予め定められたしきい値を下回る場合に、近似データに基づいて、符号化データを生成する。これにより、評価データが予め定められたしきい値を下回る場合、すなわち、誤差データが聴覚特性に与える影響が一定値を下回る場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0018】
第4の発明に係るオーディオデータ符号化装置は、第1〜3のいずれかの発明の構成に加えて、予め定められたしきい値は、複数の周波数帯域に含まれる周波数により異なるしきい値である。
【0019】
第4の発明によると、予め定められたしきい値は、複数の周波数帯域に含まれる周波数により異なるしきい値であり、たとえば、しきい値は、人間の聴覚特性が高周波数領域において強度のみに敏感になるという特性に基づき、周波数が高くなるとしきい値が高くなるように選ばれたものとすることができる。このようにすると、高周波数領域において、より多く近似データを用いて符号化でき、符号化効率が高まる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0020】
第5の発明に係るオーディオデータ符号化装置は、第4の発明の構成に加えて、予め定められたしきい値は、複数の周波数帯域に含まれる周波数が高くなるとしきい値が高くなるように選ばれている。
【0021】
第5の発明によると、予め定められたしきい値は、人間の聴覚特性が高周波数領域において強度のみに敏感になるという特性に基づき、周波数が高くなるとしきい値が高くなるように選ばれたものである。このようにすると、高周波数領域において、より多く近似データを用いて符号化でき、符号化効率が高まる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0022】
第6の発明に係るオーディオデータ符号化装置は、第1〜5のいずれかの発明の構成に加えて、周波数変換手段は、チャンネルごとに、入力されたオーディオデータを、MDCT(Modified Discrete Cosine Transform)変換を用いて、複数の周波数帯域に分割された周波数領域におけるデータに変換するための手段を含む。
【0023】
第6の発明によると、周波数変換手段は、チャンネルごとに、入力されたオーディオデータを、MDCT変換を用いて、複数の周波数帯域に分割された周波数領域におけるデータに変換する。これにより、細かく周波数帯域に分割することができ、周波数に基づく聴覚特性を細かく反映させることができる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0024】
第7の発明に係るオーディオデータ符号化装置は、第1〜6のいずれかの発明の構成に加えて、近似データ算出手段は、複数のチャンネルに含まれる1のチャンネルの周波数領域におけるデータを近似する共通データを設定し、1のチャンネル以外のチャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出するための手段を含む。
【0025】
第7の発明によると、近似データ算出手段は、複数のチャンネルに含まれる1のチャンネルの周波数領域におけるデータを近似する共通データを設定し、1のチャンネル以外のチャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出する。これにより、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0026】
第8の発明に係るオーディオデータ符号化装置は、第1〜6のいずれかの発明の構成に加えて、オーディオデータは2チャンネルのオーディオデータであって、近似データ算出手段は、一方のチャンネルに含まれる周波数領域におけるデータを近似する共通データを設定し、他方のチャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出するための手段を含む。
【0027】
第8の発明によると、近似データ算出手段は、たとえば、左チャンネルに含まれる周波数領域におけるデータを近似する共通データを設定し、右チャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出する。これにより、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0028】
【発明の実施の形態】
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明の繰返しは適宜省略する。
【0029】
本発明の実施の形態に係るオーディオデータ符号化装置100は、たとえば、左右2チャンネルのオーディオデータを圧縮符号化する符号化装置である。
【0030】
図1を参照して、オーディオデータ符号化装置100は、入力されたオーディオデータに基づいてマスキング量および各種パラメータなどを算出するパーセプチュアルモデル部200を含む。マスキング量とは、人間の聴覚特性に基づいて算出される、聴覚的ノイズの許容範囲をいう。
【0031】
オーディオデータ符号化装置100はさらに、パーセプチュアルモデル部200に接続され、パーセプチュアルモデル部200において算出されたパラメータに基づいて、入力されたオーディオデータを複数の周波数帯域に分割された周波数領域におけるデータに周波数変換するフィルタバンク部300と、パーセプチュアルモデル部200とフィルタバンク部300とに接続され、パーセプチュアルモデル部200において算出されたパラメータに基づいて、フィルタバンク部300において変換された周波数領域におけるデータの中からデータを選択して線形予測処理するTNS(temporal noise shaping)処理部400と、パーセプチュアルモデル部200とTNS処理部400とに接続され、各周波数帯域ごとに、インテンシティステレオ処理されたデータの誤差とパーセプチュアルモデル部200において算出されたマスキング量とから人間の聴覚特性に与える影響を示す評価データを算出し、算出された評価データと周波数により定まるしきい値との比較に基づいて、TNS処理部400において部分的にTNS処理されたデータにインテンシティステレオ処理を行うインテンシティステレオ処理部500と、パーセプチュアルモデル部200とインテンシティステレオ処理部500とに接続され、各周波数帯域ごとに、パーセプチュアルモデル部200において算出されたマスキング量に基づいて、インテンシティステレオ処理されたデータの中からデータを選択して左右のチャンネルのオーディオデータの和信号と差信号とを生成するM/S(middle/side)処理部600と、パーセプチュアルモデル部200とM/S処理部600とに接続され、各周波数帯域ごとに、パーセプチュアルモデル部200において算出されたマスキング量に基づいて、M/S処理部600において部分的にM/S処理されたデータを量子化および符号化する量子化・符号化部700と、フィルタバンク部300とTNS処理部400とインテンシティステレオ処理部500とM/S処理部600と量子化・符号化部700とに接続され、符号化されたオーディオデータと符号化処理するために用いた各種パラメータなどを含む付加情報とを所定のフォーマットで出力する符号化データ出力部800とを含む。
【0032】
パーセプチュアルモデル部200は、入力オーディオデータに基づいて、インテンシティステレオ処理部500、M/S処理部600および量子化・符号化部700に対するマスキング量を算出する。また、このマスキング量を算出する際の中間データまたは算出されたマスキング量に基づいて、フィルタバンク部300およびTNS処理部400に対する各種パラメータを算出する。以下に、これらのマスキング量とパラメータとについて説明する。
【0033】
フィルタバンク部300に対するパラメータは、フィルタバンク部300において行なわれる周波数変換の1つであるMDCT変換などを行う際の窓長を決定するためのパラメータである。このパラメータには、たとえば、入力オーディオデータとマスキング量とから算出された聴覚心理的エントロピー信号が用いられる。パーセプチュアルモデル部200は、フィルタバンク部300へ聴覚心理的エントロピー信号を出力する。
【0034】
TNS処理部400に対するパラメータは、TNS処理部400において行なわれるTNS処理を行うか否かを決めるためのパラメータである。このパラメータには、たとえば、予測ゲインが用いられる。パーセプチュアルモデル部200は、TNS処理部400へ予測ゲインを出力する。
【0035】
インテンシティステレオ処理部500に対するマスキング量は、人間の聴覚特性であるマスキング特性(特定の音の検知限界は、時間的に前後して発生している音であって、周波数的に同時に聞こえる他の周波数の音によって大きく変化する性質)に基づいて算出される、聴覚的ノイズの許容範囲を示すものである。パーセプチュアルモデル部200は、インテンシティステレオ処理部500へこのマスキング量を出力する。
【0036】
M/S処理部600に対するマスキング量は、M/S処理部600において行なわれるM/S処理を行ったデータおよびM/S処理を行っていないデータのいずれか一方を選択するためのマスキング量である。パーセプチュアルモデル部200は、M/S処理を行ったデータに対するマスキング量とM/S処理を行っていないデータに対するマスキング量とを算出して、M/S処理部600へこれらのマスキング量を出力する。なお、M/S処理部600は、パーセプチュアルモデル部200が算出したこれらのマスキング量に基づいて、M/S処理を行った場合とM/S処理を行わなかった場合とで、実際に符号化に必要なデータ量を算出して、データ量の少ないほうを選択する。
【0037】
量子化・符号化部700に対するマスキング量(M/S処理が適用されている部分はM/S処理されたデータに対するマスキング量)は、量子化・符号化部700における量子化処理にて用いられるマスキング量である。パーセプチュアルモデル部200は、量子化・符号化部700へこのマスキング量を出力する。なお、量子化・符号化部700は、マスキング量に応じて量子化誤差を調整して、少ないデータ量であっても聴覚的に歪が少ない符号化処理を実現する。
【0038】
フィルタバンク部300は、たとえば、周波数変換の1つであるMDCT変換を用いて、時間領域のデータである入力オーディオデータを、複数の周波数帯域ごとの周波数領域のデータに周波数変換する。この際、フィルタバンク部300は、パーセプチュアルモデル部200から入力された聴覚心理的エントロピー信号に基づいて、周波数変換を行う場合の窓長の切替えを行う。その結果、フィルタバンク部300は、周波数変換により生成されたMDCT係数(短時間周波数変換された、時間方向と周波数方向との2次元データ)を、TNS処理部400へ出力する。また、フィルタバンク部300は、周波数変換に用いた窓の種類に関する情報(窓長、窓形状など)を、符号化データ出力部800へ出力する。
【0039】
TNS処理部400は、フィルタバンク部300で生成されたMDCT変換された係数に対して、線形予測処理を行い、MDCT係数を線形予測フィルタの係数とその残差信号(MDCT係数とその予測結果の差)とに変換する。この際、TNS処理部400は、パーセプチュアルモデル部200から入力されたパラメータに基づいてTNS処理を行うか否かを決定する。その結果、TNS処理部400は、部分的にTNS処理されたMDCT係数をインテンシティステレオ処理部500へ出力する。また、TNS処理部400は、TNS処理に用いたフィルタに関する情報(フィルタ数、適用範囲、フィルタ係数、フィルタ次数など)を、符号化データ出力部800へ出力する。
【0040】
インテンシティステレオ処理部500は、TNS処理部400に接続され、周波数帯域ごとに、左チャンネルのMDCT係数に基づくデータLkを近似する共通データIkを設定し、右チャンネルのMDCT係数に基づくデータRkの近似データを共通データIkのα倍として算出する共通化処理部510と、共通化処理部510とTNS処理部400とパーセプチュアルモデル部200とに接続され、周波数帯域ごとに、インテンシティステレオ処理されたデータの誤差とマスキング量とから人間の聴覚特性に与える影響を示す評価データを算出する聴覚的ノイズ算出部520と、聴覚的ノイズ算出部520に接続され、算出された聴覚的ノイズが、周波数に基づいて定められるしきい値である聴覚的ノイズ許容量を下回る場合にインテンシティステレオ処理を行ったデータを、それ以外の場合にはインテンシティステレオ処理を行っていないデータをM/S処理部600へ出力するように信号選択器540に選択信号を出力する適用判断部530と、TNS処理部400と共通化処理部510と適用判断部530とに接続され、適用判断部530から入力された選択信号に基づいて、インテンシティステレオ処理されたデータおよびインテンシティステレオ処理されていないデータのいずれか一方を選択して、M/S処理部600へ出力する信号選択器540とを含む。
【0041】
聴覚的ノイズ算出部520は、周波数帯域ごとに、その周波数帯域に含まれる周波数領域におけるデータ(TNS処置部400から出力されたデータ)と近似データ(共通化処理部510から出力されたデータ)との差である誤差の2乗を、その周波数帯域に含まれるMDCT係数の数の分だけ加算して、加算したものをその周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータ(パーセプチュアルモデル部200から出力されたデータ)により除算して、除算したものを2チャンネル分加算することにより、誤差データが聴覚特性に与える影響を示す聴覚的ノイズを算出する。
【0042】
適用判断部530は、聴覚的ノイズ算出部520で算出された聴覚的ノイズと、予めメモリなどに記憶された聴覚的ノイズ許容量とに基づいて、この周波数帯域において、算出された聴覚的ノイズが許容範囲にあるか否かを判断する。適用判断部530は、判断の結果、聴覚的ノイズが許容範囲である場合にはインテンシティステレオ処理したデータを選択する選択信号を信号選択部540へ出力する。また、判断の結果、聴覚的ノイズが許容範囲でない場合にはインテンシティステレオ処理されていないデータを選択する選択信号を信号選択部540へ出力する。
【0043】
信号選択器540は、適用判断部530からの選択信号に基づいて、周波数帯域ごとに、インテンシティステレオ処理されたデータ(共通化処理部510から出力されたデータ)およびインテンシティステレオ処理されていないデータ(TNS処理部400から出力されたデータ)のいずれかを選択して、M/S処理部600へ出力する。また、信号選択器540は、インテンシティステレオ処理の適用範囲に関する情報を、符号化データ出力部800へ出力する。
【0044】
M/S処理部600は、左右のチャンネルのMDCT係数に基づくデータを、左右のチャンネルの和信号と左右のチャンネルの差信号とに変換する。この際、M/S処理部600は、パーセプチュアルモデル部200から入力されたマスキング量に基づいて、実際に符号化に必要なデータ量を算出して、M/S処理されたデータとM/S処理されていないデータのうち、データ量が少なくなるほうを選択する。その結果、M/S処理部600は、部分的にM/S処理されたMDCT係数に基づくデータを量子化・符号化部700へ出力する。また、M/S処理部600は、M/S処理の適用範囲に関する情報を、符号化データ出力部800へ出力する。
【0045】
量子化・符号化部700は、M/S処理部600から出力されたMDCT係数に基づくデータを量子化する。この際、量子化誤差の大きさを示すスケールファクタを設定し、量子化はそのスケールファクタに対応させて行われる。その後、量子化・符号化部700は、たとえば、ハフマン符号を用いて符号化処理を行い、符号化データ出力部800へ符号化されたオーディオデータを出力する。また、量子化・符号化部700は、スケールファクタ、ハフマン符号表の識別子などに関する情報を、符号化データ出力部800へ出力する。
【0046】
また、オーディオデータ符号化装置100は、パーセプチュアルモデル部200、フィルタバンク部300、TNS処理部400、インテンシティステレオ処理部500、M/S処理部、量子化・符号化部700および符号化データ出力部800を制御する制御部を含む。
【0047】
図2を参照して、オーディオデータ符号化装置100で実行されるプログラムは、インテンシティステレオ処理部500において行なわれるインテンシティステレオ適用可否判断処理に関し、以下のような制御構造を有する。なお、以下において、入力されたオーディオデータに基づいて、パーセプチュアルモデル部200とフィルタバンク部300とTNS処理部400とにおけるそれぞれの処理が完了し、制御部に含まれるメモリにマスキング量、MDCT係数などが記憶され、インテンシティステレオ処理部500には、TNS処理部400において部分的にTNS処理されたMDCT係数に基づくデータが入力されている状態から説明する。
【0048】
ステップ100(以下、ステップをSと略す。)にて、制御部は、何番目のスケールファクターバンドであるかを示す変数sfbを初期値1に設定する。ここで、スケールファクターバンドとは、フィルタバンク部300において周波数変換された際の複数の周波数帯域の1つをいう。1つのスケールファクターバンドには、MDCT変換により算出される1024個のMDCT係数のなかの所定の数のMDCT係数を含む。また、変数sfbは、その周波数帯域の低周波数側または高周波数側から順に付された番号であって、1から60以下の任意の整数である。図3を参照して、スケールファクターバンドとは、周波数軸である横軸を複数の周波数帯域に分割した1つをいい、1つのスケールファクターバンドには所定数のMDCT係数を含む。ただし、フィルタバンク300において行なわれる周波数変換はMDCT変換に限られるものではないため、sfbの値の上限値も60に限られるものではない。なお、以下の説明においては、インテンシティステレオ処理部500における処理を一般的に説明するために、sfb番目のスケールファクターバンドにおける処理について説明する。
【0049】
S110にて、制御部は、フィルタバンク部300において周波数変換され、TNS処理部400において線形予測変換されたMDCT係数のなかで、このsfb番目のスケールファクターバンドに含まれる、MDCT係数の数をメモリから読出す。読み出されたMDCT係数の数はmとする。
【0050】
S120にて、制御部は、左チャンネルの聴覚的ノイズELと右チャンネルの聴覚的ノイズERとを初期化する。また、このsfb番目のスケールファクターバンドに含まれるMDCT係数の中で何番目のMDCT係数であるかを示す変数kを初期値1に設定する。なお、変数kは、1≦k≦mを満たす任意の整数である。なお、以下の説明においては、インテンシティステレオ処理部500における処理を一般的に説明するために、このsfb番目のスケールファクターバンドに含まれるk番目のMDCT係数に基づくデータの処理について説明する。
【0051】
S122にて、制御部は、右チャンネルのMDCT係数に基づくデータRkの近似データに用いる倍率αを算出する。
【0052】
S130にて、制御部は、左チャンネルのMDCT係数に基づくデータLkと右チャンネルのMDCT係数に基づくデータRkとをメモリから読出す。S140にて、制御部は、Lk≒Ik、Rk≒Ik×αとなる、共通データIkを算出する。S150にて、制御部は、EL=EL+(Lk−Ik)2およびER=ER+(Rk−Ik×α)2を計算する。
【0053】
S160にて、制御部は、k=k+1として、S170にて、制御部は、k>mであるか否かを判断する。kが、このsfb番目のスケールファクターバンドに含まれるMDCT係数の数であるmを上回ると(S170にてYES)、処理は、S180に移される。一方、kが、sfb番目のこのスケールファクターバンドに含まれるMDCT係数の数であるm以下であると(S170にてNO)、処理は、S130へ戻され、再度S130からS170までの処理が行なわれる。
【0054】
S180にて、制御部は、パーセプチュアルモデル部200において算出され、メモリに記憶されている、このsfb番目のスケールファクターバンドにおける左チャンネルのマスキング量ML(sfb)と右チャンネルのマスキング量MR(sfb)とを読出す。S190にて、制御部は、左チャンネルの聴覚的ノイズをEL=EL/ML(sfb)、右チャンネルの聴覚的ノイズをER=ER/MR(sfb)として算出する。これにより、このスケールファクターバンドにおける左右チャンネルの聴覚的ノイズが正規化される。
【0055】
S200にて、制御部は、このsfb番目のスケールファクターバンドに含まれる周波数に基づいて聴覚的ノイズ許容量P(sfb)を算出する。この聴覚的ノイズ許容量P(sfb)は、メモリに記憶された、周波数fと聴覚的ノイズ許容量Pとの関係により算出される。図4を参照して、周波数fと聴覚的ノイズ許容量Pとの関係は、周波数fが高くなるほど聴覚的ノイズ許容量が高くなる傾向を有する。なお、10kHzを超えると聴覚的ノイズ許容量は飽和する傾向がある。
【0056】
S210にて、制御部は、このsfb番目のスケールファクターバンドにおける左右チャンネルの聴覚的ノイズの和であるEL+ERと聴覚的ノイズ許容量P(sfb)とを比較する。聴覚的ノイズの和EL+ERが聴覚的ノイズ許容量P(sfb)を下回る場合には(S210にてYES)、処理は、S220へ移される。一方、聴覚的ノイズの和EL+ERが聴覚的ノイズ許容量P(sfb)以上である場合には(S210にてNO)、処理はS230へ移される。
【0057】
なお、このS210における処理は、左チャンネルの聴覚的ノイズELと聴覚的ノイズ許容量Pとを比較し、かつ右チャンネルの聴覚的ノイズERと聴覚的ノイズ許容量Pとを比較するようにしてもよい。この場合、EL<PかつER<Pの場合にS220へ処理を移すようにし、EL≧PまたはER≧Pの場合にS230へ処理を移すようにする。
【0058】
S220にて、制御部は、sfb番目のスケールファクターバンドについて、適用判断部530に、信号選択器540へインテンシティステレオ処理されたデータを選択する選択信号を出力させる。S230にて、制御部は、適用判断部530に、信号選択器540へインテンシティステレオ処理されていないデータを選択する選択信号を出力させる。
【0059】
S240にて、制御部は、sfb=sfb+1として、S250にて、制御部は、sfb>60であるか否かを判断する。sfb>60であると(S250にてYES)、処理はS110へ戻され、次のスケールファクターバンドに対して、S110からS250までの処理が行なわれる。
【0060】
この後、制御部は、インテンシティステレオ処理部500の信号選択器540から出力されたデータを、M/S処理部600においてM/S処理させて、M/S処理部600から出力されたデータを、量子化・符号化部700において量子化および符号化させて、符号化されたデータを符号化データ出力部800へ出力させる。
【0061】
以上のような、構造およびフローチャートに基づく、オーディオデータ符号化装置100の動作について説明する。
【0062】
オーディオデータが入力されると、パーセプチュアルモデル部200は、マスキング量と所定のパラメータとを算出する。フィルタバンド部300は、入力されたオーディオデータをMDCT変換などにより周波数変換して、周波数領域におけるデータを生成する。TNS処理部400は、フィルタバンク部300において生成されたMDCT係数に対して、線形予測処理を行ない、MDCT係数を線形予測フィルタの係数とその残差信号とに変換する。
【0063】
この周波数変換され、TNS処理された、MDCT係数に基づくデータに対して、sfb番目のスケールファクターバンドに含まれるMDCT係数の数mを読出す(S110)。
【0064】
このsfb番目のスケールファクターバンドに含まれる右チャンネルのMDCT係数に基づくデータRkの近似データに用いる倍率αを算出する(S122)。このsfb番目のスケールファクターバンドに含まれるk番目のMDCT係数に基づくデータであるLkおよびRkを読出し(S130)、Lk≒Ik、Rk≒Ik×αとなるように共通データIkを算出する(S140)。EL=EL+(Lk−Ik)2およびER=ER+(Rk−Ik×α)2として計算する(S150)。このような動作がこのsfb番目のスケールファクターバンドに含まれるMDCT係数の数mだけ繰返し行なわれる。
【0065】
このsfb番目のスケールファクターバンドに含まれるMDCT係数の数であるm回分の処理を終了すると(S170にてYES)、このsfb番目のスケールファクターバンドにおけるマスキング量ML(sfb)およびMR(sfb)を読出し(S180)、聴覚的ノイズを算出する(S190)。このsfb番目のスケールファクターバンドに含まれる周波数から聴覚的ノイズ許容量P(sfb)を読出す(S200、図4)。
【0066】
左右チャンネルを加算した聴覚的ノイズEL+ERと聴覚的ノイズ許容量P(sfb)とを比較して、聴覚的ノイズEL+ERが聴覚的ノイズ許容量P(sfb)を下回った場合(S210にてYES)には、sfb番目のスケールファクターバンドに関して、信号選択器540にインテンシティステレオ処理されたデータを選択する選択信号を出力する。聴覚的ノイズEL+ERが聴覚的ノイズ許容量P(sfb)以上である場合(S210にてNO)には、信号選択器540にインテンシティステレオ処理されていないデータを選択する選択信号を出力する。適用判断部530から信号選択器540へ出力された選択信号に基づいて、インテンシティステレオ処理部500がM/S処理部600へMDCT係数に基づくデータを出力する。このような動作がすべてのスケールファクターバンドに対して繰返し行なわれる。
【0067】
M/S処理部600は、インテンシティステレオ処理部500から入力されたデータにM/S処理を行ない、処理後のデータを量子化・符号化部700へ出力する。量子化・符号化部700は、M/S処理部600から入力されたデータに量子化および符号化処理を行ない、処理後のデータおよび処理に用いたデータを所定のフォーマットで、符号化データ出力部800へ出力する。
【0068】
以上のようにして、本発明に実施の形態に係るオーディオデータ符号化装置はスケールファクターバンドごとに、算出された聴覚的ノイズが許容量を下回る場合のみ、インテンシティステレオ処理してオーディオデータを符号化することができる。そのため、インテンシティステレオ処理が効果的な周波数領域ではインテンシティステレオ処理を行ない、聴覚的ノイズが多くなるところでは行なわないようにすることができる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【0069】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係るオーディオデータ符号化装置の制御ブロック図である。
【図2】 本発明の実施の形態に係るインテンシティステレオ適用可否判断処理の制御の手順を示すフローチャートである。
【図3】 スケールファクターバンドを説明する図である。
【図4】 周波数と聴覚的ノイズ許容量との関係を示す図である。
【符号の説明】
100 オーディオデータ符号化装置、200 パーセプチュアルモデル部、300 フィルタバンク部、400 TNS処理部、500 インテンシティステレオ処理部、600 M/S処理部、700 量子化・符号化部、800 符号化データ出力部
Claims (8)
- 複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、
入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、
前記変換手段に接続され、各前記周波数帯域ごとに前記複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、
前記変換手段と前記近似データ算出手段とに接続され、各前記周波数帯域ごとに、前記周波数領域におけるデータと前記近似データとの差を示す誤差データと、前記周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、前記複数の周波数帯域ごとの、前記誤差データが前記聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、
前記変換手段と前記評価データ算出手段とに接続され、各前記周波数帯域ごとに、前記評価データと予め定められたしきい値との比較に基づいて、前記周波数領域におけるデータおよび前記近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含み、
前記評価データ算出手段は、前記複数の周波数帯域に含まれる周波数に対応する、前記周波数領域におけるデータと前記近似データとの差を示す誤差の2乗の和を、前記複数の周波数帯域に対して算出される前記マスキングデータにより除算することにより、前記複数の周波数帯域ごとの前記評価データを算出するための手段を含む、オーディオデータ符号化装置。 - 複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、
入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、
前記変換手段に接続され、各前記周波数帯域ごとに前記複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、
前記変換手段と前記近似データ算出手段とに接続され、各前記周波数帯域ごとに、前記周波数領域におけるデータと前記近似データとの差を示す誤差データと、前記周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、前記複数の周波数帯域ごとの、前記誤差データが前記聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、
前記変換手段と前記評価データ算出手段とに接続され、各前記周波数帯域ごとに、前記評価データと予め定められたしきい値との比較に基づいて、前記周波数領域におけるデータおよび前記近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含み、
前記評価データ算出手段は、前記複数の周波数帯域に含まれる周波数に対応する、前記周波数領域におけるデータと前記近似データとの差を示す誤差の2乗の和を、前記複数の周波数帯域に対して算出される前記マスキングデータにより除算したものを前記複数のチャンネル分加算することにより、前記複数の周波数帯域ごとの前記評価データを算出するための手段を含む、オーディオデータ符号化装置。
- 前記符号化手段は、前記評価データが予め定められたしきい値を下回る場合に、前記近似データに基づいて、符号化データを生成するための手段を含む、請求項1又は2に記載のオーディオデータ符号化装置。
- 前記予め定められたしきい値は、前記複数の周波数帯域に含まれる周波数により異なるしきい値である、請求項1〜3のいずれかに記載のオーディオデータ符号化装置。
- 前記予め定められたしきい値は、前記複数の周波数帯域に含まれる周波数 が高くなるとしきい値が高くなるように選ばれている、請求項4に記載のオーディオデータ符号化装置。
- 前記周波数変換手段は、前記チャンネルごとに、入力されたオーディオデータを、MDCT変換を用いて、複数の周波数帯域に分割された周波数領域におけるデータに変換するための手段を含む、請求項1〜5のいずれかに記載のオーディオデータ符号化装置。
- 前記近似データ算出手段は、複数の前記チャンネルに含まれる1のチャンネルの周波数領域におけるデータを近似する共通データを設定し、前記1のチャンネル以外のチャンネルに含まれる周波数領域におけるデータの近似データを前記共通データの定数倍として算出するための手段を含む、請求項1〜6のいずれかに記載のオーディオデータ符号化装置。
- 前記オーディオデータは2チャンネルのオーディオデータであって、前記近似データ算出手段は、一方のチャンネルに含まれる周波数領域におけるデータを近似する共通データを設定し、他方のチャンネルに含まれる周波数領域におけるデータの近似データを前記共通データの定数倍として算出するための手段を含む、請求項1〜6のいずれかに記載のオーディオデータ符号化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000090784A JP4046454B2 (ja) | 2000-03-29 | 2000-03-29 | オーディオデータ符号化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000090784A JP4046454B2 (ja) | 2000-03-29 | 2000-03-29 | オーディオデータ符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001282290A JP2001282290A (ja) | 2001-10-12 |
JP4046454B2 true JP4046454B2 (ja) | 2008-02-13 |
Family
ID=18606340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000090784A Expired - Fee Related JP4046454B2 (ja) | 2000-03-29 | 2000-03-29 | オーディオデータ符号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4046454B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100851970B1 (ko) | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US8064608B2 (en) * | 2006-03-02 | 2011-11-22 | Qualcomm Incorporated | Audio decoding techniques for mid-side stereo |
US8352249B2 (en) | 2007-11-01 | 2013-01-08 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
-
2000
- 2000-03-29 JP JP2000090784A patent/JP4046454B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001282290A (ja) | 2001-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9305558B2 (en) | Multi-channel audio encoding/decoding with parametric compression/decompression and weight factors | |
US9443525B2 (en) | Quality improvement techniques in an audio encoder | |
KR100814673B1 (ko) | 오디오 부호화 | |
US7146313B2 (en) | Techniques for measurement of perceptual audio quality | |
JP3623449B2 (ja) | 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置 | |
MXPA06014968A (es) | Sntetizador de multicanal y metodo para generar una senal de salida de multicanal. | |
JP2001053617A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
US6772111B2 (en) | Digital audio coding apparatus, method and computer readable medium | |
JP2000276197A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
KR20060113999A (ko) | 정보 신호의 양자화 방법 및 장치 | |
JP2006018023A (ja) | オーディオ信号符号化装置、および符号化プログラム | |
JP4046454B2 (ja) | オーディオデータ符号化装置 | |
US7668715B1 (en) | Methods for selecting an initial quantization step size in audio encoders and systems using the same | |
JP2000151413A (ja) | オーディオ符号化における適応ダイナミック可変ビット割り当て方法 | |
JP4699117B2 (ja) | 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。 | |
JPH08160998A (ja) | 音声符号化装置 | |
JP3336619B2 (ja) | 信号処理装置 | |
JP3813025B2 (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
WO2003056546A1 (en) | Signal coding apparatus, signal coding method, and program | |
JP4721355B2 (ja) | 符号化データの符号化則変換方法および装置 | |
JPH11109994A (ja) | 楽音符号化装置及び楽音符号化方法並びに楽音符号化プログラムを記録した記録媒体 | |
JP2001148632A (ja) | 符号化装置、符号化方法、及びその記録媒体 | |
JP2003271199A (ja) | オーディオ信号の符号化方法及び符号化装置 | |
JP3089690B2 (ja) | ディジタルデータの高能率符号化方法 | |
JP2004015537A (ja) | オーディオ信号符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071120 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |