JP2001154697A

JP2001154697A - オーディオ信号の符号化方法

Info

Publication number: JP2001154697A
Application number: JP33635099A
Authority: JP
Inventors: Michiyo Goto; 道代後藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-11-26
Filing date: 1999-11-26
Publication date: 2001-06-08

Abstract

(57)【要約】【課題】ＭＰＥＧ２Ａｕｄｉｏ符号化において、リ
アルタイムエンコーダを容易に実現するためには、信号
対マスク比の算出処理が比較的簡素な心理聴覚モデル部
が要求される。【解決手段】入力されたデジタルオーディオ信号をＭ
ＤＣＴ変換し、ＭＤＣＴ変換されたオーディオ信号を予
め定めた周波数分割帯域毎に符号化する際に、各周波数
分割帯域内のオーディオ信号に割り当てる量子化ビット
数を、入力されたデジタルオーディオ信号をＦＦＴ変換
し、ＦＦＴ変換されたオーディオ信号を用いて各周波数
分割帯域毎に算出した信号レベルとマスキングレベルの
比である信号対マスク比を基に決定する。これにより、
信号対マスク比の演算が比較的簡単になる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、デジタルオーディ
オ信号の符号化方法に関するものである。

【０００２】

【従来の技術】近年、デジタルオーディオ信号の符号化
方法の研究開発が活発になり、特に高品質で低ビットレ
ートの符号化方法として、MPEG１オーディオ符号化（IS
O/IEC11172-3）およびMPEG２オーディオ符号化（ISO/IE
C 13818-7）が国際標準として規格化されている。図２
はMPEG２オーディオ符号化装置の構成を示すものであ
る。図２において、入力されたデジタルオーディオ信号
は、心理聴覚モデル部２０１とゲインコントロール部２
０２に入力される。ゲインコントロール部２０２に入力
されたオーディオ信号は、順次、フィルタバンク部２０
３、ＴＮＳ（Temporal Noise Shaping）部２０４、イ
ンテンシティ／結合部２０５、予測部２０６、Ｍ／Ｓ
（Mid／Side）部２０７、スケールファクタ部２０８、
量子化部２０９およびノイズレス符号化部２１０の各ブ
ロックで処理を施され、ビットストリーム合成部２１１
へ送られて、ビットストリーム部２１１で符号化オーデ
ィオビットストリームとして出力される。また、量子化
部２０９は、心理聴覚モデル部２０１の出力と許容され
るビットレートをもとに、レート／歪み制御処理部２１
２が定める量子化ビット数に従って、オーディオ信号を
量子化する。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来の方法では、心理聴覚モデル部２０１において信号対
マスク比を算出し、この値に基づいてレート／歪み制御
処理部２１２において量子化ビット数が定められるが、
信号対マスク比を算出する過程が非常に複雑であり、リ
アルタイムエンコーダを実現するのは容易ではないとい
う問題があった。

【０００４】本発明は上記従来の問題を解決するもので
あり、信号対マスク比を算出することが比較的簡単で、
リアルタイムエンコーダに適したオーディオ信号の符号
化方法を提供するものである。

【０００５】

【課題を解決するための手段】本発明のオーディオ信号
の符号化方法は、入力されたデジタルオーディオ信号を
ＭＤＣＴ変換（Modified Discrete Cosine Transform：
変形離散コサイン変換）し、前記ＭＤＣＴ変換されたオ
ーディオ信号を予め定めた周波数分割帯域毎に符号化す
る際に、前記各周波数分割帯域内のオーディオ信号に割
り当てる量子化ビット数を、前記入力されたデジタルオ
ーディオ信号をＦＦＴ変換（Fast Fourier Transform：
高速フーリエ変換）し、前記ＦＦＴ変換されたオーディ
オ信号を用いて前記各周波数分割帯域毎に算出した信号
レベルとマスキングレベルの比である信号対マスク比を
基に決定することを特徴とするものであり、信号対マス
ク比の演算が比較的簡単になり、リアルタイムエンコー
ダを容易に実現できることとなる。

【０００６】また、本発明のオーディオ信号の符号化方
法は、それぞれ信号対マスク比を、各周波数分割帯域内
のスペクトラムエネルギーの和とマスキングエネルギー
の和の比、または各周波数分割帯域内のスペクトラムエ
ネルギーの平均値と当該周波数分割帯域内のマスキング
エネルギーの最小値との比、または各周波数分割帯域内
のスペクトラムエネルギーの最大値と当該周波数分割帯
域内のマスキングエネルギーの最小値との比とすること
を特徴とするものであり、これらの何れかを選択するか
によって、音質のよいオーディオ信号の符号化が実現で
きることとなる。

【０００７】

【発明の実施の形態】以下、本発明の実施の形態におけ
るオーディオ信号の符号化方法について図面を用いて説
明する。図１は本実施の形態における心理聴覚モデル部
の信号対マスク比の算出手順を示すフロー図である。ま
ず、ステップ１０１で、予め定めた入力オーディオサン
プル毎にＦＦＴ変換を行い、時間から周波数への変換の
計算を行う。次に、ステップ１０２で、やはり予め定め
た各周波数分割帯域に対する音圧レベルを決定する。こ
の音圧レベルが、信号対マスク比の信号レベルとなる。
次に、ステップ１０３で、最小可聴値を決定する。最小
可聴値は、量子化のビットレートによって偏位させる。
ビットレートが高いときは、最小可聴値はより小さくす
る。次に、ステップ１０４で、ＦＦＴ変換されたオーデ
ィオ信号から純音成分（トーナル成分）および非純音成
分（ノントーナル成分）を検出する。純音成分や非純音
成分がマスカーとなる。次に、ステップ１０５で、これ
らのマスカーのうち、意味のあるマスカーだけを得るた
めのマスカーの間引きを行う。次に、ステップ１０６
で、これらの個々のマスカーによって生じるマスキング
しきい値を計算する。マスキングしきい値は、それぞれ
周波数全体に対して求める。次に、ステップ１０７で、
個々のマスカーによって生じるマスキングしきい値を重
畳させることによって、全体マスキングしきい値を計算
する。次に、ステップ１０８で、予め定めた各周波数分
割帯域（音圧レベルを決定した際と同じ分割帯域）毎に
マスキングしきい値を決定する。そして、ステップ１０
９で、各周波数分割帯域毎に信号対マスク比を計算す
る。

【０００８】信号対マスク比は、例えば次式のように、
各周波数分割帯域毎にスペクトラムエネルギーの和と、
マスキングエネルギーの和の比として求めることができ
る。

【数１】

【０００９】また、信号対マスク比は、次式のように、
各周波数分割帯域毎にスペクトラムエネルギーの平均値
と、当該周波数分割帯域内のマスキングエネルギーの最
小値との比として求めることができる。

【数２】

【００１０】また、信号対マスク比は、次式のように、
各周波数分割帯域毎にスペクトラムエネルギーの最大値
と、当該周波数分割帯域内のマスキングエネルギーの最
小値との比として求めることができる。

【数３】

【００１１】

【発明の効果】以上のように本発明によれば、入力され
たデジタルオーディオ信号をＭＤＣＴ変換し、前記ＭＤ
ＣＴ変換されたオーディオ信号を予め定めた周波数分割
帯域毎に符号化する際に、前記各周波数分割帯域内のオ
ーディオ信号に割り当てる量子化ビット数を、前記入力
されたデジタルオーディオ信号をＦＦＴ変換し、前記Ｆ
ＦＴ変換されたオーディオ信号を用いて前記各周波数分
割帯域毎に算出した信号レベルとマスキングレベルの比
である信号対マスク比を基に決定するようにしたので、
信号対マスク比の演算が比較的簡単になり、リアルタイ
ムエンコーダを容易に実現できるという効果を有する。

【００１２】また、本発明によれば、それぞれ信号対マ
スク比を、各周波数分割帯域内のスペクトラムエネルギ
ーの和とマスキングエネルギーの和の比、または各周波
数分割帯域内のスペクトラムエネルギーの平均値と当該
周波数分割帯域内のマスキングエネルギーの最小値との
比、または各周波数分割帯域内のスペクトラムエネルギ
ーの最大値と当該周波数分割帯域内のマスキングエネル
ギーの最小値との比としたので、これらの何れかを選択
するかによって、音質のよいオーディオ信号の符号化が
実現できるという効果を有する。

【図面の簡単な説明】

【図１】本発明の実施の形態におけるオーディオ信号符
号化方法を示す心理聴覚モデル部における信号対マスク
比の算出手順のフロー図

【図２】本発明が実施されるＭＰＥＧ２オーディオ符号
化装置のブロック図

【符号の説明】

２０１心理聴覚モデル部２０２ゲインコントロール部２０３フィルタバンク部２０４ＴＮＳ部２０５インテンシティ／結合部２０６予測部２０７Ｍ／Ｓ部２０８スケールファクタ部２０９量子化部２１０ノイズレス符号化部２１１ビットストリーム合成部２１２レート／歪み制御処理部

Claims

【特許請求の範囲】

【請求項１】入力されたデジタルオーディオ信号をＭ
ＤＣＴ変換し、前記ＭＤＣＴ変換されたオーディオ信号
を予め定めた周波数分割帯域毎に符号化する際に、前記
各周波数分割帯域内のオーディオ信号に割り当てる量子
化ビット数を、前記入力されたデジタルオーディオ信号
をＦＦＴ変換し、前記ＦＦＴ変換されたオーディオ信号
を用いて前記各周波数分割帯域毎に算出した信号レベル
とマスキングレベルの比である信号対マスク比を基に決
定することを特徴とするオーディオ信号の符号化方法。
【請求項２】信号対マスク比は、各周波数分割帯域内
のスペクトラムエネルギーの和と、マスキングエネルギ
ーの和の比とすることを特徴とする請求項１記載のオー
ディオ信号の符号化方法。
【請求項３】信号対マスク比は、各周波数分割帯域内
のスペクトラムエネルギーの平均値と、当該周波数分割
帯域内のマスキングエネルギーの最小値との比とするこ
とを特徴とする請求項１記載のオーディオ信号の符号化
方法。
【請求項４】信号対マスク比は、各周波数分割帯域内
のスペクトラムエネルギーの最大値と、当該周波数分割
帯域内のマスキングエネルギーの最小値との比とするこ
とを特徴とする請求項１記載のオーディオ信号の符号化
方法。