JP4046454B2

JP4046454B2 - オーディオデータ符号化装置

Info

Publication number: JP4046454B2
Application number: JP2000090784A
Authority: JP
Inventors: 康治田中
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2000-03-29
Filing date: 2000-03-29
Publication date: 2008-02-13
Anticipated expiration: 2020-03-29
Also published as: JP2001282290A

Description

【０００１】
【発明の属する技術分野】
本発明は、デジタルデータの符号化技術に関し、特に、複数のチャンネルを有するオーディオデータの圧縮符号化技術に関する。
【０００２】
【従来の技術】
オーディオデータの圧縮符号化処理において、インテンシティステレオ方式が知られている。インテンシティステレオ方式では、複数チャンネルのオーディオデータを、複数のチャンネルに対して、共通データとその共通データを基準とした倍率とを用いた近似データで表して、これらの共通データと倍率とを用いて符号化し、符号化効率の向上を図る。このインテンシティステレオ処理は、人間の聴覚が高周波数領域においては強度のみに敏感になるという特性に基づいて、ある周波数以上の帯域におけるオーディオデータに対して行なわれる。インテンシティステレオ方式では、高音域においては実質的に１チャンネル分程度のデータのみで複数チャンネルのデータが表されるため、複数チャンネルを有するオーディオデータの圧縮符号化効率を高めることができる。
【０００３】
このインテンシティステレオ処理においては、まず、各チャンネルに含まれる、すべての周波数領域のオーディオデータをインテンシティステレオ処理せずに、圧縮符号化したときの符号化データのビット数を推定する。その符号化データのビット数が使用可能ビット数を超える場合に、ある周波数以上の高周波数領域のオーディオデータをインテンシティステレオ処理して、符号化データのビット数を推定する。このように、インテンシティステレオ処理する周波数領域を変えて、符号化データのビット数を推定して、使用可能ビット数を満足する最上限の周波数以上の周波数領域において、インテンシティステレオ処理が行われる。
【０００４】
【発明が解決しようとする課題】
従来のインテンシティステレオ処理を行なう周波数領域は、使用可能ビット数を満足するように決定している。このため、使用可能ビット数を満足する、ある周波数以上の周波数領域において、インテンシティステレオ処理が行なわれる。しかし、このようにしてインテンシティステレオ処理を行う周波数領域を決定する方法では、オーディオデータがチャンネル間において大きく異なっている場合でも、インテンシティステレオ処理が行なわれてしまう。このような場合、インテンシティステレオ処理が行なわれる高周波数領域において音質の劣化が発生する。
【０００５】
本発明は、上述の課題を解決するためになされたものであって、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することである。
【０００６】
【課題を解決するための手段】
第１の発明に係るオーディオデータ符号化装置は、複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、変換手段に接続され、各周波数帯域ごとに複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、変換手段と近似データ算出手段とに接続され、各周波数帯域ごとに、周波数領域におけるデータと近似データとの差を示す誤差データと、周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、複数の周波数帯域ごとの、誤差データが聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、変換手段と評価データ算出手段とに接続され、各周波数帯域ごとに、評価データと予め定められたしきい値との比較に基づいて、周波数領域におけるデータおよび近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含む。
そして、評価データ算出手段は、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の２乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算することにより、複数の周波数帯域ごとの評価データを算出するための手段を含む。
【０００７】
第１の発明によると、変換手段は、入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換する。近似データ算出手段は、各周波数帯域ごとに複数のチャンネルに対して、周波数領域における近似データを算出する。評価データ算出手段は、各周波数帯域ごとに、周波数領域におけるデータと近似データとの差を示す誤差データと、周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、複数の周波数帯域ごとの、誤差データが聴覚特性に与える影響を示す評価データを算出する。符号化手段は、各周波数帯域ごとに、評価データと予め定められたしきい値との比較に基づいて、周波数領域におけるデータおよび近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成する。これにより、たとえば、評価データが予め定められたしきい値を下回る場合、すなわち、誤差データが聴覚特性に与える影響が一定値以下の場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
また、評価データ算出手段は、各周波数帯域ごとに、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の２乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算することにより、複数の周波数帯域ごとの評価データを算出する。これにより、たとえば、誤差の２乗の和をマスキングデータにより除算した評価データが予め定められたしきい値を下回る場合、すなわち、誤差の２乗の和が聴覚特性に与える影響が一定値を下回る場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００１０】
第２の発明に係るオーディオデータ符号化装置は、複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、変換手段に接続され、各周波数帯域ごとに複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、変換手段と近似データ算出手段とに接続され、各周波数帯域ごとに、周波数領域におけるデータと近似データとの差を示す誤差データと、周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、複数の周波数帯域ごとの、誤差データが聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、変換手段と評価データ算出手段とに接続され、各周波数帯域ごとに、評価データと予め定められたしきい値との比較に基づいて、周波数領域におけるデータおよび近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含む。
そして、評価データ算出手段は、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の２乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算したものを複数のチャンネル分加算することにより、複数の周波数帯域ごとの評価データを算出するための手段を含む。
【００１１】
第２の発明によると、評価データ算出手段は、各周波数帯域ごとに、複数の周波数帯域に含まれる周波数に対応する、周波数領域におけるデータと近似データとの差を示す誤差の２乗の和を、複数の周波数帯域に対して算出されるマスキングデータにより除算したものを複数のチャンネル分加算することにより評価データを算出する。これにより、たとえば、誤差の２乗の和をマスキングデータにより除算して、除算されたものを複数のチャンネル分加算した評価データが予め定められたしきい値を下回る場合、すなわち、複数のチャンネル分を加算した、誤差の２乗の和が聴覚特性に与える影響が一定値を下回る場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００１４】
第３の発明に係るオーディオデータ符号化装置は、第１〜２のいずれかの発明の構成に加えて、符号化手段は、評価データが予め定められたしきい値を下回る場合に、近似データに基づいて、符号化データを生成するための手段を含む。
【００１５】
第３の発明によると、符号化手段は、評価データが予め定められたしきい値を下回る場合に、近似データに基づいて、符号化データを生成する。これにより、評価データが予め定められたしきい値を下回る場合、すなわち、誤差データが聴覚特性に与える影響が一定値を下回る場合にのみ近似データを用いて符号化データを生成するようにできる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００１８】
第４の発明に係るオーディオデータ符号化装置は、第１〜３のいずれかの発明の構成に加えて、予め定められたしきい値は、複数の周波数帯域に含まれる周波数により異なるしきい値である。
【００１９】
第４の発明によると、予め定められたしきい値は、複数の周波数帯域に含まれる周波数により異なるしきい値であり、たとえば、しきい値は、人間の聴覚特性が高周波数領域において強度のみに敏感になるという特性に基づき、周波数が高くなるとしきい値が高くなるように選ばれたものとすることができる。このようにすると、高周波数領域において、より多く近似データを用いて符号化でき、符号化効率が高まる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００２０】
第５の発明に係るオーディオデータ符号化装置は、第４の発明の構成に加えて、予め定められたしきい値は、複数の周波数帯域に含まれる周波数が高くなるとしきい値が高くなるように選ばれている。
【００２１】
第５の発明によると、予め定められたしきい値は、人間の聴覚特性が高周波数領域において強度のみに敏感になるという特性に基づき、周波数が高くなるとしきい値が高くなるように選ばれたものである。このようにすると、高周波数領域において、より多く近似データを用いて符号化でき、符号化効率が高まる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００２２】
第６の発明に係るオーディオデータ符号化装置は、第１〜５のいずれかの発明の構成に加えて、周波数変換手段は、チャンネルごとに、入力されたオーディオデータを、ＭＤＣＴ（Modified Discrete Cosine Transform）変換を用いて、複数の周波数帯域に分割された周波数領域におけるデータに変換するための手段を含む。
【００２３】
第６の発明によると、周波数変換手段は、チャンネルごとに、入力されたオーディオデータを、ＭＤＣＴ変換を用いて、複数の周波数帯域に分割された周波数領域におけるデータに変換する。これにより、細かく周波数帯域に分割することができ、周波数に基づく聴覚特性を細かく反映させることができる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００２４】
第７の発明に係るオーディオデータ符号化装置は、第１〜６のいずれかの発明の構成に加えて、近似データ算出手段は、複数のチャンネルに含まれる１のチャンネルの周波数領域におけるデータを近似する共通データを設定し、１のチャンネル以外のチャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出するための手段を含む。
【００２５】
第７の発明によると、近似データ算出手段は、複数のチャンネルに含まれる１のチャンネルの周波数領域におけるデータを近似する共通データを設定し、１のチャンネル以外のチャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出する。これにより、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００２６】
第８の発明に係るオーディオデータ符号化装置は、第１〜６のいずれかの発明の構成に加えて、オーディオデータは２チャンネルのオーディオデータであって、近似データ算出手段は、一方のチャンネルに含まれる周波数領域におけるデータを近似する共通データを設定し、他方のチャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出するための手段を含む。
【００２７】
第８の発明によると、近似データ算出手段は、たとえば、左チャンネルに含まれる周波数領域におけるデータを近似する共通データを設定し、右チャンネルに含まれる周波数領域におけるデータの近似データを共通データの定数倍として算出する。これにより、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００２８】
【発明の実施の形態】
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明の繰返しは適宜省略する。
【００２９】
本発明の実施の形態に係るオーディオデータ符号化装置１００は、たとえば、左右２チャンネルのオーディオデータを圧縮符号化する符号化装置である。
【００３０】
図１を参照して、オーディオデータ符号化装置１００は、入力されたオーディオデータに基づいてマスキング量および各種パラメータなどを算出するパーセプチュアルモデル部２００を含む。マスキング量とは、人間の聴覚特性に基づいて算出される、聴覚的ノイズの許容範囲をいう。
【００３１】
オーディオデータ符号化装置１００はさらに、パーセプチュアルモデル部２００に接続され、パーセプチュアルモデル部２００において算出されたパラメータに基づいて、入力されたオーディオデータを複数の周波数帯域に分割された周波数領域におけるデータに周波数変換するフィルタバンク部３００と、パーセプチュアルモデル部２００とフィルタバンク部３００とに接続され、パーセプチュアルモデル部２００において算出されたパラメータに基づいて、フィルタバンク部３００において変換された周波数領域におけるデータの中からデータを選択して線形予測処理するＴＮＳ（temporal noise shaping）処理部４００と、パーセプチュアルモデル部２００とＴＮＳ処理部４００とに接続され、各周波数帯域ごとに、インテンシティステレオ処理されたデータの誤差とパーセプチュアルモデル部２００において算出されたマスキング量とから人間の聴覚特性に与える影響を示す評価データを算出し、算出された評価データと周波数により定まるしきい値との比較に基づいて、ＴＮＳ処理部４００において部分的にＴＮＳ処理されたデータにインテンシティステレオ処理を行うインテンシティステレオ処理部５００と、パーセプチュアルモデル部２００とインテンシティステレオ処理部５００とに接続され、各周波数帯域ごとに、パーセプチュアルモデル部２００において算出されたマスキング量に基づいて、インテンシティステレオ処理されたデータの中からデータを選択して左右のチャンネルのオーディオデータの和信号と差信号とを生成するＭ／Ｓ（middle／side）処理部６００と、パーセプチュアルモデル部２００とＭ／Ｓ処理部６００とに接続され、各周波数帯域ごとに、パーセプチュアルモデル部２００において算出されたマスキング量に基づいて、Ｍ／Ｓ処理部６００において部分的にＭ／Ｓ処理されたデータを量子化および符号化する量子化・符号化部７００と、フィルタバンク部３００とＴＮＳ処理部４００とインテンシティステレオ処理部５００とＭ／Ｓ処理部６００と量子化・符号化部７００とに接続され、符号化されたオーディオデータと符号化処理するために用いた各種パラメータなどを含む付加情報とを所定のフォーマットで出力する符号化データ出力部８００とを含む。
【００３２】
パーセプチュアルモデル部２００は、入力オーディオデータに基づいて、インテンシティステレオ処理部５００、Ｍ／Ｓ処理部６００および量子化・符号化部７００に対するマスキング量を算出する。また、このマスキング量を算出する際の中間データまたは算出されたマスキング量に基づいて、フィルタバンク部３００およびＴＮＳ処理部４００に対する各種パラメータを算出する。以下に、これらのマスキング量とパラメータとについて説明する。
【００３３】
フィルタバンク部３００に対するパラメータは、フィルタバンク部３００において行なわれる周波数変換の１つであるＭＤＣＴ変換などを行う際の窓長を決定するためのパラメータである。このパラメータには、たとえば、入力オーディオデータとマスキング量とから算出された聴覚心理的エントロピー信号が用いられる。パーセプチュアルモデル部２００は、フィルタバンク部３００へ聴覚心理的エントロピー信号を出力する。
【００３４】
ＴＮＳ処理部４００に対するパラメータは、ＴＮＳ処理部４００において行なわれるＴＮＳ処理を行うか否かを決めるためのパラメータである。このパラメータには、たとえば、予測ゲインが用いられる。パーセプチュアルモデル部２００は、ＴＮＳ処理部４００へ予測ゲインを出力する。
【００３５】
インテンシティステレオ処理部５００に対するマスキング量は、人間の聴覚特性であるマスキング特性（特定の音の検知限界は、時間的に前後して発生している音であって、周波数的に同時に聞こえる他の周波数の音によって大きく変化する性質）に基づいて算出される、聴覚的ノイズの許容範囲を示すものである。パーセプチュアルモデル部２００は、インテンシティステレオ処理部５００へこのマスキング量を出力する。
【００３６】
Ｍ／Ｓ処理部６００に対するマスキング量は、Ｍ／Ｓ処理部６００において行なわれるＭ／Ｓ処理を行ったデータおよびＭ／Ｓ処理を行っていないデータのいずれか一方を選択するためのマスキング量である。パーセプチュアルモデル部２００は、Ｍ／Ｓ処理を行ったデータに対するマスキング量とＭ／Ｓ処理を行っていないデータに対するマスキング量とを算出して、Ｍ／Ｓ処理部６００へこれらのマスキング量を出力する。なお、Ｍ／Ｓ処理部６００は、パーセプチュアルモデル部２００が算出したこれらのマスキング量に基づいて、Ｍ／Ｓ処理を行った場合とＭ／Ｓ処理を行わなかった場合とで、実際に符号化に必要なデータ量を算出して、データ量の少ないほうを選択する。
【００３７】
量子化・符号化部７００に対するマスキング量（Ｍ／Ｓ処理が適用されている部分はＭ／Ｓ処理されたデータに対するマスキング量）は、量子化・符号化部７００における量子化処理にて用いられるマスキング量である。パーセプチュアルモデル部２００は、量子化・符号化部７００へこのマスキング量を出力する。なお、量子化・符号化部７００は、マスキング量に応じて量子化誤差を調整して、少ないデータ量であっても聴覚的に歪が少ない符号化処理を実現する。
【００３８】
フィルタバンク部３００は、たとえば、周波数変換の１つであるＭＤＣＴ変換を用いて、時間領域のデータである入力オーディオデータを、複数の周波数帯域ごとの周波数領域のデータに周波数変換する。この際、フィルタバンク部３００は、パーセプチュアルモデル部２００から入力された聴覚心理的エントロピー信号に基づいて、周波数変換を行う場合の窓長の切替えを行う。その結果、フィルタバンク部３００は、周波数変換により生成されたＭＤＣＴ係数（短時間周波数変換された、時間方向と周波数方向との２次元データ）を、ＴＮＳ処理部４００へ出力する。また、フィルタバンク部３００は、周波数変換に用いた窓の種類に関する情報（窓長、窓形状など）を、符号化データ出力部８００へ出力する。
【００３９】
ＴＮＳ処理部４００は、フィルタバンク部３００で生成されたＭＤＣＴ変換された係数に対して、線形予測処理を行い、ＭＤＣＴ係数を線形予測フィルタの係数とその残差信号（ＭＤＣＴ係数とその予測結果の差）とに変換する。この際、ＴＮＳ処理部４００は、パーセプチュアルモデル部２００から入力されたパラメータに基づいてＴＮＳ処理を行うか否かを決定する。その結果、ＴＮＳ処理部４００は、部分的にＴＮＳ処理されたＭＤＣＴ係数をインテンシティステレオ処理部５００へ出力する。また、ＴＮＳ処理部４００は、ＴＮＳ処理に用いたフィルタに関する情報（フィルタ数、適用範囲、フィルタ係数、フィルタ次数など）を、符号化データ出力部８００へ出力する。
【００４０】
インテンシティステレオ処理部５００は、ＴＮＳ処理部４００に接続され、周波数帯域ごとに、左チャンネルのＭＤＣＴ係数に基づくデータＬｋを近似する共通データＩｋを設定し、右チャンネルのＭＤＣＴ係数に基づくデータＲｋの近似データを共通データＩｋのα倍として算出する共通化処理部５１０と、共通化処理部５１０とＴＮＳ処理部４００とパーセプチュアルモデル部２００とに接続され、周波数帯域ごとに、インテンシティステレオ処理されたデータの誤差とマスキング量とから人間の聴覚特性に与える影響を示す評価データを算出する聴覚的ノイズ算出部５２０と、聴覚的ノイズ算出部５２０に接続され、算出された聴覚的ノイズが、周波数に基づいて定められるしきい値である聴覚的ノイズ許容量を下回る場合にインテンシティステレオ処理を行ったデータを、それ以外の場合にはインテンシティステレオ処理を行っていないデータをＭ／Ｓ処理部６００へ出力するように信号選択器５４０に選択信号を出力する適用判断部５３０と、ＴＮＳ処理部４００と共通化処理部５１０と適用判断部５３０とに接続され、適用判断部５３０から入力された選択信号に基づいて、インテンシティステレオ処理されたデータおよびインテンシティステレオ処理されていないデータのいずれか一方を選択して、Ｍ／Ｓ処理部６００へ出力する信号選択器５４０とを含む。
【００４１】
聴覚的ノイズ算出部５２０は、周波数帯域ごとに、その周波数帯域に含まれる周波数領域におけるデータ（ＴＮＳ処置部４００から出力されたデータ）と近似データ（共通化処理部５１０から出力されたデータ）との差である誤差の２乗を、その周波数帯域に含まれるＭＤＣＴ係数の数の分だけ加算して、加算したものをその周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータ（パーセプチュアルモデル部２００から出力されたデータ）により除算して、除算したものを２チャンネル分加算することにより、誤差データが聴覚特性に与える影響を示す聴覚的ノイズを算出する。
【００４２】
適用判断部５３０は、聴覚的ノイズ算出部５２０で算出された聴覚的ノイズと、予めメモリなどに記憶された聴覚的ノイズ許容量とに基づいて、この周波数帯域において、算出された聴覚的ノイズが許容範囲にあるか否かを判断する。適用判断部５３０は、判断の結果、聴覚的ノイズが許容範囲である場合にはインテンシティステレオ処理したデータを選択する選択信号を信号選択部５４０へ出力する。また、判断の結果、聴覚的ノイズが許容範囲でない場合にはインテンシティステレオ処理されていないデータを選択する選択信号を信号選択部５４０へ出力する。
【００４３】
信号選択器５４０は、適用判断部５３０からの選択信号に基づいて、周波数帯域ごとに、インテンシティステレオ処理されたデータ（共通化処理部５１０から出力されたデータ）およびインテンシティステレオ処理されていないデータ（ＴＮＳ処理部４００から出力されたデータ）のいずれかを選択して、Ｍ／Ｓ処理部６００へ出力する。また、信号選択器５４０は、インテンシティステレオ処理の適用範囲に関する情報を、符号化データ出力部８００へ出力する。
【００４４】
Ｍ／Ｓ処理部６００は、左右のチャンネルのＭＤＣＴ係数に基づくデータを、左右のチャンネルの和信号と左右のチャンネルの差信号とに変換する。この際、Ｍ／Ｓ処理部６００は、パーセプチュアルモデル部２００から入力されたマスキング量に基づいて、実際に符号化に必要なデータ量を算出して、Ｍ／Ｓ処理されたデータとＭ／Ｓ処理されていないデータのうち、データ量が少なくなるほうを選択する。その結果、Ｍ／Ｓ処理部６００は、部分的にＭ／Ｓ処理されたＭＤＣＴ係数に基づくデータを量子化・符号化部７００へ出力する。また、Ｍ／Ｓ処理部６００は、Ｍ／Ｓ処理の適用範囲に関する情報を、符号化データ出力部８００へ出力する。
【００４５】
量子化・符号化部７００は、Ｍ／Ｓ処理部６００から出力されたＭＤＣＴ係数に基づくデータを量子化する。この際、量子化誤差の大きさを示すスケールファクタを設定し、量子化はそのスケールファクタに対応させて行われる。その後、量子化・符号化部７００は、たとえば、ハフマン符号を用いて符号化処理を行い、符号化データ出力部８００へ符号化されたオーディオデータを出力する。また、量子化・符号化部７００は、スケールファクタ、ハフマン符号表の識別子などに関する情報を、符号化データ出力部８００へ出力する。
【００４６】
また、オーディオデータ符号化装置１００は、パーセプチュアルモデル部２００、フィルタバンク部３００、ＴＮＳ処理部４００、インテンシティステレオ処理部５００、Ｍ／Ｓ処理部、量子化・符号化部７００および符号化データ出力部８００を制御する制御部を含む。
【００４７】
図２を参照して、オーディオデータ符号化装置１００で実行されるプログラムは、インテンシティステレオ処理部５００において行なわれるインテンシティステレオ適用可否判断処理に関し、以下のような制御構造を有する。なお、以下において、入力されたオーディオデータに基づいて、パーセプチュアルモデル部２００とフィルタバンク部３００とＴＮＳ処理部４００とにおけるそれぞれの処理が完了し、制御部に含まれるメモリにマスキング量、ＭＤＣＴ係数などが記憶され、インテンシティステレオ処理部５００には、ＴＮＳ処理部４００において部分的にＴＮＳ処理されたＭＤＣＴ係数に基づくデータが入力されている状態から説明する。
【００４８】
ステップ１００（以下、ステップをＳと略す。）にて、制御部は、何番目のスケールファクターバンドであるかを示す変数ｓｆｂを初期値１に設定する。ここで、スケールファクターバンドとは、フィルタバンク部３００において周波数変換された際の複数の周波数帯域の１つをいう。１つのスケールファクターバンドには、ＭＤＣＴ変換により算出される１０２４個のＭＤＣＴ係数のなかの所定の数のＭＤＣＴ係数を含む。また、変数ｓｆｂは、その周波数帯域の低周波数側または高周波数側から順に付された番号であって、１から６０以下の任意の整数である。図３を参照して、スケールファクターバンドとは、周波数軸である横軸を複数の周波数帯域に分割した１つをいい、１つのスケールファクターバンドには所定数のＭＤＣＴ係数を含む。ただし、フィルタバンク３００において行なわれる周波数変換はＭＤＣＴ変換に限られるものではないため、ｓｆｂの値の上限値も６０に限られるものではない。なお、以下の説明においては、インテンシティステレオ処理部５００における処理を一般的に説明するために、ｓｆｂ番目のスケールファクターバンドにおける処理について説明する。
【００４９】
Ｓ１１０にて、制御部は、フィルタバンク部３００において周波数変換され、ＴＮＳ処理部４００において線形予測変換されたＭＤＣＴ係数のなかで、このｓｆｂ番目のスケールファクターバンドに含まれる、ＭＤＣＴ係数の数をメモリから読出す。読み出されたＭＤＣＴ係数の数はｍとする。
【００５０】
Ｓ１２０にて、制御部は、左チャンネルの聴覚的ノイズＥＬと右チャンネルの聴覚的ノイズＥＲとを初期化する。また、このｓｆｂ番目のスケールファクターバンドに含まれるＭＤＣＴ係数の中で何番目のＭＤＣＴ係数であるかを示す変数ｋを初期値１に設定する。なお、変数ｋは、１≦ｋ≦ｍを満たす任意の整数である。なお、以下の説明においては、インテンシティステレオ処理部５００における処理を一般的に説明するために、このｓｆｂ番目のスケールファクターバンドに含まれるｋ番目のＭＤＣＴ係数に基づくデータの処理について説明する。
【００５１】
Ｓ１２２にて、制御部は、右チャンネルのＭＤＣＴ係数に基づくデータＲｋの近似データに用いる倍率αを算出する。
【００５２】
Ｓ１３０にて、制御部は、左チャンネルのＭＤＣＴ係数に基づくデータＬｋと右チャンネルのＭＤＣＴ係数に基づくデータＲｋとをメモリから読出す。Ｓ１４０にて、制御部は、Ｌｋ≒Ｉｋ、Ｒｋ≒Ｉｋ×αとなる、共通データＩｋを算出する。Ｓ１５０にて、制御部は、ＥＬ＝ＥＬ＋（Ｌｋ−Ｉｋ）²およびＥＲ＝ＥＲ＋（Ｒｋ−Ｉｋ×α）²を計算する。
【００５３】
Ｓ１６０にて、制御部は、ｋ＝ｋ＋１として、Ｓ１７０にて、制御部は、ｋ＞ｍであるか否かを判断する。ｋが、このｓｆｂ番目のスケールファクターバンドに含まれるＭＤＣＴ係数の数であるｍを上回ると（Ｓ１７０にてＹＥＳ）、処理は、Ｓ１８０に移される。一方、ｋが、ｓｆｂ番目のこのスケールファクターバンドに含まれるＭＤＣＴ係数の数であるｍ以下であると（Ｓ１７０にてＮＯ）、処理は、Ｓ１３０へ戻され、再度Ｓ１３０からＳ１７０までの処理が行なわれる。
【００５４】
Ｓ１８０にて、制御部は、パーセプチュアルモデル部２００において算出され、メモリに記憶されている、このｓｆｂ番目のスケールファクターバンドにおける左チャンネルのマスキング量ＭＬ（ｓｆｂ）と右チャンネルのマスキング量ＭＲ（ｓｆｂ）とを読出す。Ｓ１９０にて、制御部は、左チャンネルの聴覚的ノイズをＥＬ＝ＥＬ／ＭＬ（ｓｆｂ）、右チャンネルの聴覚的ノイズをＥＲ＝ＥＲ／ＭＲ（ｓｆｂ）として算出する。これにより、このスケールファクターバンドにおける左右チャンネルの聴覚的ノイズが正規化される。
【００５５】
Ｓ２００にて、制御部は、このｓｆｂ番目のスケールファクターバンドに含まれる周波数に基づいて聴覚的ノイズ許容量Ｐ（ｓｆｂ）を算出する。この聴覚的ノイズ許容量Ｐ（ｓｆｂ）は、メモリに記憶された、周波数ｆと聴覚的ノイズ許容量Ｐとの関係により算出される。図４を参照して、周波数ｆと聴覚的ノイズ許容量Ｐとの関係は、周波数ｆが高くなるほど聴覚的ノイズ許容量が高くなる傾向を有する。なお、１０ｋＨｚを超えると聴覚的ノイズ許容量は飽和する傾向がある。
【００５６】
Ｓ２１０にて、制御部は、このｓｆｂ番目のスケールファクターバンドにおける左右チャンネルの聴覚的ノイズの和であるＥＬ＋ＥＲと聴覚的ノイズ許容量Ｐ（ｓｆｂ）とを比較する。聴覚的ノイズの和ＥＬ＋ＥＲが聴覚的ノイズ許容量Ｐ（ｓｆｂ）を下回る場合には（Ｓ２１０にてＹＥＳ）、処理は、Ｓ２２０へ移される。一方、聴覚的ノイズの和ＥＬ＋ＥＲが聴覚的ノイズ許容量Ｐ（ｓｆｂ）以上である場合には（Ｓ２１０にてＮＯ）、処理はＳ２３０へ移される。
【００５７】
なお、このＳ２１０における処理は、左チャンネルの聴覚的ノイズＥＬと聴覚的ノイズ許容量Ｐとを比較し、かつ右チャンネルの聴覚的ノイズＥＲと聴覚的ノイズ許容量Ｐとを比較するようにしてもよい。この場合、ＥＬ＜ＰかつＥＲ＜Ｐの場合にＳ２２０へ処理を移すようにし、ＥＬ≧ＰまたはＥＲ≧Ｐの場合にＳ２３０へ処理を移すようにする。
【００５８】
Ｓ２２０にて、制御部は、ｓｆｂ番目のスケールファクターバンドについて、適用判断部５３０に、信号選択器５４０へインテンシティステレオ処理されたデータを選択する選択信号を出力させる。Ｓ２３０にて、制御部は、適用判断部５３０に、信号選択器５４０へインテンシティステレオ処理されていないデータを選択する選択信号を出力させる。
【００５９】
Ｓ２４０にて、制御部は、ｓｆｂ＝ｓｆｂ＋１として、Ｓ２５０にて、制御部は、ｓｆｂ＞６０であるか否かを判断する。ｓｆｂ＞６０であると（Ｓ２５０にてＹＥＳ）、処理はＳ１１０へ戻され、次のスケールファクターバンドに対して、Ｓ１１０からＳ２５０までの処理が行なわれる。
【００６０】
この後、制御部は、インテンシティステレオ処理部５００の信号選択器５４０から出力されたデータを、Ｍ／Ｓ処理部６００においてＭ／Ｓ処理させて、Ｍ／Ｓ処理部６００から出力されたデータを、量子化・符号化部７００において量子化および符号化させて、符号化されたデータを符号化データ出力部８００へ出力させる。
【００６１】
以上のような、構造およびフローチャートに基づく、オーディオデータ符号化装置１００の動作について説明する。
【００６２】
オーディオデータが入力されると、パーセプチュアルモデル部２００は、マスキング量と所定のパラメータとを算出する。フィルタバンド部３００は、入力されたオーディオデータをＭＤＣＴ変換などにより周波数変換して、周波数領域におけるデータを生成する。ＴＮＳ処理部４００は、フィルタバンク部３００において生成されたＭＤＣＴ係数に対して、線形予測処理を行ない、ＭＤＣＴ係数を線形予測フィルタの係数とその残差信号とに変換する。
【００６３】
この周波数変換され、ＴＮＳ処理された、ＭＤＣＴ係数に基づくデータに対して、ｓｆｂ番目のスケールファクターバンドに含まれるＭＤＣＴ係数の数ｍを読出す（Ｓ１１０）。
【００６４】
このｓｆｂ番目のスケールファクターバンドに含まれる右チャンネルのＭＤＣＴ係数に基づくデータＲｋの近似データに用いる倍率αを算出する（Ｓ１２２）。このｓｆｂ番目のスケールファクターバンドに含まれるｋ番目のＭＤＣＴ係数に基づくデータであるＬｋおよびＲｋを読出し（Ｓ１３０）、Ｌｋ≒Ｉｋ、Ｒｋ≒Ｉｋ×αとなるように共通データＩｋを算出する（Ｓ１４０）。ＥＬ＝ＥＬ＋（Ｌｋ−Ｉｋ）²およびＥＲ＝ＥＲ＋（Ｒｋ−Ｉｋ×α）²として計算する（Ｓ１５０）。このような動作がこのｓｆｂ番目のスケールファクターバンドに含まれるＭＤＣＴ係数の数ｍだけ繰返し行なわれる。
【００６５】
このｓｆｂ番目のスケールファクターバンドに含まれるＭＤＣＴ係数の数であるｍ回分の処理を終了すると（Ｓ１７０にてＹＥＳ）、このｓｆｂ番目のスケールファクターバンドにおけるマスキング量ＭＬ（ｓｆｂ）およびＭＲ（ｓｆｂ）を読出し（Ｓ１８０）、聴覚的ノイズを算出する（Ｓ１９０）。このｓｆｂ番目のスケールファクターバンドに含まれる周波数から聴覚的ノイズ許容量Ｐ（ｓｆｂ）を読出す（Ｓ２００、図４）。
【００６６】
左右チャンネルを加算した聴覚的ノイズＥＬ＋ＥＲと聴覚的ノイズ許容量Ｐ（ｓｆｂ）とを比較して、聴覚的ノイズＥＬ＋ＥＲが聴覚的ノイズ許容量Ｐ（ｓｆｂ）を下回った場合（Ｓ２１０にてＹＥＳ）には、ｓｆｂ番目のスケールファクターバンドに関して、信号選択器５４０にインテンシティステレオ処理されたデータを選択する選択信号を出力する。聴覚的ノイズＥＬ＋ＥＲが聴覚的ノイズ許容量Ｐ（ｓｆｂ）以上である場合（Ｓ２１０にてＮＯ）には、信号選択器５４０にインテンシティステレオ処理されていないデータを選択する選択信号を出力する。適用判断部５３０から信号選択器５４０へ出力された選択信号に基づいて、インテンシティステレオ処理部５００がＭ／Ｓ処理部６００へＭＤＣＴ係数に基づくデータを出力する。このような動作がすべてのスケールファクターバンドに対して繰返し行なわれる。
【００６７】
Ｍ／Ｓ処理部６００は、インテンシティステレオ処理部５００から入力されたデータにＭ／Ｓ処理を行ない、処理後のデータを量子化・符号化部７００へ出力する。量子化・符号化部７００は、Ｍ／Ｓ処理部６００から入力されたデータに量子化および符号化処理を行ない、処理後のデータおよび処理に用いたデータを所定のフォーマットで、符号化データ出力部８００へ出力する。
【００６８】
以上のようにして、本発明に実施の形態に係るオーディオデータ符号化装置はスケールファクターバンドごとに、算出された聴覚的ノイズが許容量を下回る場合のみ、インテンシティステレオ処理してオーディオデータを符号化することができる。そのため、インテンシティステレオ処理が効果的な周波数領域ではインテンシティステレオ処理を行ない、聴覚的ノイズが多くなるところでは行なわないようにすることができる。その結果、複数チャンネルのオーディオデータを共通データで近似することにより符号化効率を向上させ、かつ、音質の劣化を最小限に抑えることができるオーディオデータ符号化装置を提供することができる。
【００６９】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【図１】本発明の実施の形態に係るオーディオデータ符号化装置の制御ブロック図である。
【図２】本発明の実施の形態に係るインテンシティステレオ適用可否判断処理の制御の手順を示すフローチャートである。
【図３】スケールファクターバンドを説明する図である。
【図４】周波数と聴覚的ノイズ許容量との関係を示す図である。
【符号の説明】
１００オーディオデータ符号化装置、２００パーセプチュアルモデル部、３００フィルタバンク部、４００ＴＮＳ処理部、５００インテンシティステレオ処理部、６００Ｍ／Ｓ処理部、７００量子化・符号化部、８００符号化データ出力部

Claims

複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、
入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、
前記変換手段に接続され、各前記周波数帯域ごとに前記複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、
前記変換手段と前記近似データ算出手段とに接続され、各前記周波数帯域ごとに、前記周波数領域におけるデータと前記近似データとの差を示す誤差データと、前記周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、前記複数の周波数帯域ごとの、前記誤差データが前記聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、
前記変換手段と前記評価データ算出手段とに接続され、各前記周波数帯域ごとに、前記評価データと予め定められたしきい値との比較に基づいて、前記周波数領域におけるデータおよび前記近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含み、
前記評価データ算出手段は、前記複数の周波数帯域に含まれる周波数に対応する、前記周波数領域におけるデータと前記近似データとの差を示す誤差の２乗の和を、前記複数の周波数帯域に対して算出される前記マスキングデータにより除算することにより、前記複数の周波数帯域ごとの前記評価データを算出するための手段を含む、オーディオデータ符号化装置。
複数のチャンネルを含むオーディオデータを符号化するためのオーディオデータ符号化装置であって、
入力されたオーディオデータを、複数の周波数帯域に分割された周波数領域におけるデータに変換するための変換手段と、
前記変換手段に接続され、各前記周波数帯域ごとに前記複数のチャンネルに対して、周波数領域における近似データを算出するための近似データ算出手段と、
前記変換手段と前記近似データ算出手段とに接続され、各前記周波数帯域ごとに、前記周波数領域におけるデータと前記近似データとの差を示す誤差データと、前記周波数帯域に対して算出される人間の聴覚特性に基づくマスキングデータとに基づいて、前記複数の周波数帯域ごとの、前記誤差データが前記聴覚特性に与える影響を示す評価データを算出するための評価データ算出手段と、
前記変換手段と前記評価データ算出手段とに接続され、各前記周波数帯域ごとに、前記評価データと予め定められたしきい値との比較に基づいて、前記周波数領域におけるデータおよび前記近似データのいずれか一方のデータを選択し、その選択されたデータに基づいて、符号化データを生成するための符号化手段とを含み、
前記評価データ算出手段は、前記複数の周波数帯域に含まれる周波数に対応する、前記周波数領域におけるデータと前記近似データとの差を示す誤差の２乗の和を、前記複数の周波数帯域に対して算出される前記マスキングデータにより除算したものを前記複数のチャンネル分加算することにより、前記複数の周波数帯域ごとの前記評価データを算出するための手段を含む、オーディオデータ符号化装置。
前記符号化手段は、前記評価データが予め定められたしきい値を下回る場合に、前記近似データに基づいて、符号化データを生成するための手段を含む、請求項１又は２に記載のオーディオデータ符号化装置。
前記予め定められたしきい値は、前記複数の周波数帯域に含まれる周波数により異なるしきい値である、請求項１〜３のいずれかに記載のオーディオデータ符号化装置。
前記予め定められたしきい値は、前記複数の周波数帯域に含まれる周波数が高くなるとしきい値が高くなるように選ばれている、請求項４に記載のオーディオデータ符号化装置。
前記周波数変換手段は、前記チャンネルごとに、入力されたオーディオデータを、ＭＤＣＴ変換を用いて、複数の周波数帯域に分割された周波数領域におけるデータに変換するための手段を含む、請求項１〜５のいずれかに記載のオーディオデータ符号化装置。
前記近似データ算出手段は、複数の前記チャンネルに含まれる１のチャンネルの周波数領域におけるデータを近似する共通データを設定し、前記１のチャンネル以外のチャンネルに含まれる周波数領域におけるデータの近似データを前記共通データの定数倍として算出するための手段を含む、請求項１〜６のいずれかに記載のオーディオデータ符号化装置。
前記オーディオデータは２チャンネルのオーディオデータであって、前記近似データ算出手段は、一方のチャンネルに含まれる周波数領域におけるデータを近似する共通データを設定し、他方のチャンネルに含まれる周波数領域におけるデータの近似データを前記共通データの定数倍として算出するための手段を含む、請求項１〜６のいずれかに記載のオーディオデータ符号化装置。