JPH0758643A

JPH0758643A - 音声高能率符号化および復号化装置

Info

Publication number: JPH0758643A
Application number: JP21705893A
Authority: JP
Inventors: Norihiko Fuchigami; 徳彦渕上; Shoji Ueno; 昭治植野
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1993-08-09
Filing date: 1993-08-09
Publication date: 1995-03-03

Abstract

(57)【要約】【目的】システムにおいて使用可能な情報量が聴覚心
理上必要な情報量より少ない場合にエンコードおよびデ
コード後の音質を原音に近づけて劣化を防止する。【構成】量子化により発生した量子化ノイズと原音と
の関係において量子化ノイズによる原音のマスキング効
果により原音のラウドネス（音量）が減少する。符号化
装置ではオーディオ信号が複数の周波数帯域（サブバン
ド）に分割された各サブバンドのサンプル値がスケーリ
ング部１によりそのサブバンドのスケール値（最大値）
で割られ、この値がイコライジング部２により上記ラウ
ドネスの減少分を補うようにイコライズ情報に基づいて
イコライジング（増幅）される。復号化装置では、逆量
子化部６により逆量子化された各サブバンドのサンプル
値がイコライジング部７により上記ラウドネスの減少分
を補うようにイコライズ情報に基づいてイコライジング
される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、オーディオ信号を複数
の周波数帯域（サブバンド）に分割してサブバンド毎に
量子化および逆量子化する音声高能率符号化および復号
化装置に関し、特に聴覚心理分析に基づいてサブバンド
毎の量子化ビット数を決定する音声高能率符号化および
復号化装置に関する。

【０００２】

【従来の技術】ミニディスク（ＭＤ）、ディジタルコン
パクトカセット（ＤＣＣ）、カラオケＣＤ等における音
声高能率符号化は、オーディオ信号のデータ量を圧縮す
るので音楽圧縮とも呼ばれている。このような符号化方
式では、オーディオ信号がデジタルフィルタまたは直交
変換により複数のサブバンドに分割され、周波数領域に
おける聴覚心理分析に基づいてサブバンド毎の量子化ビ
ット数が決定される。なお、以下の説明では「エンコー
ド」という用語を符号化の他に圧縮の意味で用いる場合
もある。

【０００３】図８（ａ）〜（ｄ）は周波数帯域を直交変
換により分割する例を示している。図８（ａ）はエンコ
ードの対象となる１６ビットＰＣＭオーディオ信号を５
１２サンプル分切り出したことを示し、ここでは図の長
方形で囲まれる全情報量が１６ビット＊５１２＝８１９
２ビットとして説明する。もちろん、切り出されるサン
プル数やＰＣＭのビット数はこの値に限定されない。

【０００４】図８（ｂ）は図８（ａ）に示す信号をＤＣ
Ｔ（離散コサイン変換）やＦＦＴ（高速フーリエ変換）
等の直交変換により周波数変換した信号を示し、図の曲
線が周波数スペクトルのエンベロープを示している。こ
こで、直交変換により情報量が保存されると仮定する
と、この全情報量も図の長方形領域で表現することがで
きる。一方、聴覚心理モデルによれば、図８（ｂ）に示
す信号が存在したときに、その信号によりマスキングさ
れて聞こえなくなる信号レベルをカーブとして規定する
ことができ、これは一般にマスキング効果と言われる。

【０００５】図８（ｂ）からマスキングカーブを描くと
図８（ｃ）に示すように表すことができ、ここで、図８
（ｂ）に示す信号を再量子化することを考慮すると、再
量子化により発生する量子化ノイズレベルがマスキング
カーブで規定されるレベル以下であれば、そのノイズは
人間の耳には聞こえないということができる。そこで、
図８（ｄ）に示すようにスペクトルを複数データ毎にサ
ブバンドに分割し、各サブバンド毎の最大信号レベルを
Ｓとし、また、図８（ｃ）から許容されるノイズレベル
をＮとしてこのＳ／Ｎを満足するビット数で再量子化す
れば、そのときの量子化ノイズはマスキングされて聞こ
えない。

【０００６】図８（ｄ）の矩形は圧縮時および伸長時に
必要な情報量を示し、特に図の中央の変形矩形は主情報
を、図の下側の細長い矩形は補助情報を示している。な
お、補助情報とはデコード時に必要な各サブバンドの最
大値（スケール値）と量子化ビット数を示す情報等であ
る。したがって、図８（ｄ）において示される全情報量
は主情報量と補助情報量の和であり、図８（ａ）や図８
（ｂ）における全情報量の数分の１になることが分か
る。したがて、図９に示すように以上の処理（ステップ
Ｓ１〜Ｓ６）を所定区間（この例では５１２サンプル区
間）毎に繰り返すことにより音質を殆ど劣化することな
くエンコードすることができる。

【０００７】図１０（ａ）および（ｂ）はそれぞれ従来
の音声高能率符号化および復号化装置を示している。た
だし、符号化装置は図９のステップＳ６に相当する部分
を抽出したものであり、復号装置もそれと対になる部分
を抽出したものである。図１０（ａ）に示す符号化装置
では、オーディオ信号が複数の周波数帯域（サブバン
ド）に分割された各サブバンドのサンプル値がスケーリ
ング部１によりそのサブバンドのスケール値（最大値）
で割られ、この値が量子化部３によりサブバンド毎の量
子化ビット数で量子化され、この量子化後の整数値が符
号化部４により伝送等に適した形式に変換される。

【０００８】図１０（ｂ）に示す復号化装置では、各サ
ブバンドの符号が復号化部５により上記量子化後の整数
値に復号化され、この量子化値が逆量子化部６により各
サブバンドのサンプル値に逆量子化され、このサンプル
値が逆スケーリング部１によりそのサブバンドのスケー
ル値（最大値）を掛け算され、各サブバンドのサンプル
値が出力される。

【０００９】

【発明が解決しようとする課題】ところで、高能率符号
化システムの圧縮率と聴覚心理特性の満足度について説
明すると、上記符号化処理において聴覚心理上必要とさ
れる各サブバンドの量子化ビット数の総和と補助情報量
の和がシステムにおいて使用可能な情報量以下の場合に
は、原理上システムによるエンコードおよびデコード後
の音質の劣化を無視することができる（圧縮率に余裕が
ある場合）。しかしながら、システムにおいて使用可能
な情報量が聴覚心理上必要な情報量より少ない場合には
何らかの音質劣化が発生することになる（圧縮率に余裕
がない場合）。

【００１０】この場合の音質劣化の度合いは、聴覚心理
との偏差（マスキング上の許容ノイズレベルと実際の量
子化ノイズレベルとの差）の量に応じて、図１１に示す
ように聴感上「原音と差がない」、「少し差があり、何
となく丸くなる、鈍る」、「差があり、歪み・ノイズと
して検知できる」のように表現することができる。

【００１１】情報量が不足する場合の音質のまとめ方に
は次のような考え方、がある。全帯域での偏差の量が一定になるようにする。全帯域
のバランスとしてはこの方法がベストである可能性が高
いが、実際に採り得るスケール値や量子化ビット数は有
限の種類しか存在しないので、Ｓ／Ｎ比またはノイズレ
ベルを無限の精度でコントロールすることはできない。
したがって、全帯域での偏差の量が一定には成り得ず、
この偏りが発生する結果、偏差が特に図１１に示すプラ
スになった帯域では音質劣化が目立つ可能性がある。

【００１２】重要度が高いサブバンドの偏差が最小に
なるように情報を割り当てる。この重要度としては低域
ほど重視する場合やパワーが大きなサブバンドほど重視
する場合等が考えられ、この場合には重視されなかった
サブバンドの音質がより劣化するが、全帯域のトータル
な音質バランスは向上することもある。上記何れの考え
方、にしても、最終的な音質は原音との差が検知さ
れる可能性が高い。

【００１３】本発明は上記従来の問題点に鑑み、システ
ムにおいて使用可能な情報量が聴覚心理上必要な情報量
より少ない場合に、エンコードおよびデコード後の音質
を原音に近づけて劣化を軽減することができる音声高能
率符号化および復号化装置を提供することを目的とす
る。

【００１４】

【課題を解決するための手段】上記目的を達成するため
に、本発明ではエンコードまたはデコードのいずれかで
サブバンドのサンプル値を適切にイコライジング（増
幅）することにより音質劣化を軽減するようにしてい
る。ここで、図１１において説明したように、音質劣化
の最初の段階では聴感上「音が何となく丸くなる、鈍
る」というような変化が検知される場合、この理由は量
子化により発生した量子化ノイズと原音との関係におい
て、量子化ノイズによる原音のマスキング効果により原
音のラウドネス（音量）が減少することが１つの原因で
あると言うことができる。

【００１５】後述する図３に示すように、ホワイトノイ
ズが存在するときにマスクされる音のラウドネスは、ホ
ワイトノイズベルが少なくなるにつれて増加し、したが
って、このラウドネスの減少分を補うように音量を増
加、具体的にはサンプル値（振幅）を増加することによ
り上記「音の鈍り」等の劣化を軽減することができる。

【００１６】すなわち本発明によれば、オーディオ信号
を複数の周波数帯域のサブバンドに分割された各サブバ
ンドのオーディオ信号のサンプル値を、聴覚心理分析に
基づいて決定されたサブバンド毎の量子化ビット数で量
子化する量子化手段と、前記量子化手段により量子化さ
れる前のオーディオ信号のサンプル値の、量子化ノイズ
による原音のマスキング効果により減少すると予想され
る原音のラウドネス分をイコライジングするイコライジ
ング手段とを有する音声高能率符号化装置が提供され
る。

【００１７】また、本発明によれば、複数の周波数帯域
のサブバンドに分割された各サブバンドのオーディオ信
号を、聴覚心理分析に基づいて決定されたサブバンド毎
の量子化ビット数で量子化したデータを復号する音声高
能率復号化装置において、前記量子化データを前記サブ
バンド毎の量子化ビット数でオーディオ信号のサンプル
値に逆量子化する逆量子化手段と、前記逆量子化手段に
より逆量子化されたオーディオ信号のサンプル値の、量
子化ノイズによる原音のマスキング効果により減少する
と予想される原音のラウドネス分をイコライジングする
イコライジング手段とを有することを特徴とする音声高
能率復号化装置が提供される。

【００１８】

【作用】本発明では、量子化される前のオーディオ信号
のサンプル値または逆量子化されたオーディオ信号のサ
ンプル値の、量子化ノイズによる原音のマスキング効果
により減少する原音のラウドネス分がイコライジングさ
れる。したがって、システムにおいて使用可能な情報量
が聴覚心理上必要な情報量より少ない場合にエンコード
およびデコード後の音質を原音に近づけて劣化を防止す
ることができる。

【００１９】

【実施例】以下、図面を参照して本発明の実施例につい
て説明する。図１は本発明に係る音声高能率符号化およ
び復号化装置の一実施例を示すブロック図、図２は図１
の符号化装置に適用されるイコライズ情報算出部の一実
施例を示すブロック図、図３はホワイトノイズとマスク
されるラウドネスの関係を示す説明図、図４は量子化ノ
イズレベルと許容ノイズレベルの偏差とイコライズ量の
関係を示す説明図、図５はサブバンドパワーとイコライ
ズ量の関係を示す説明図、図６は周波数とイコライズ量
の関係を示す説明図、図７は量子化ビット数とイコライ
ズ量の関係を示す説明図である。

【００２０】図１（ａ）は音声高能率符号化装置を示
し、図１（ｂ）は音声高能率復号化装置を示している
が、上記ラウドネスの減少分を補うためのイコライジン
グ部２、７は符号化装置と復号化装置の何れか一方に設
けられる。図１（ａ）に示す符号化装置では、オーディ
オ信号が複数の周波数帯域（サブバンド）に分割された
各サブバンドのサンプル値がスケーリング部１によりそ
のサブバンドのスケール値（最大値）で割られ、この値
がイコライジング部２により上記ラウドネスの減少分を
補うように、図２に示すイコライズ情報算出部からのイ
コライズ情報に基づいてイコライジング（増幅）され
る。

【００２１】そして、イコライジング部２により処理さ
れた各サブバンドのサンプル値が量子化部３によりサブ
バンド毎の量子化ビット数で量子化され、この量子化後
の整数値が符号化部４により伝送等に適した形式に変換
される。なお、この例ではイコライジング（増幅）をス
ケーリングの後に行っているが、スケーリングの前に行
うようにしてもよく、いずれの場合でもオーバフローが
発生しないように注意する。また、量子化部３の量子化
ビット数は、公知のように聴覚心理分析に基づいて決定
される。

【００２２】図１（ｂ）に示す復号化装置では、まず、
従来例のように上記ラウドネスの減少分が補われていな
い各サブバンドの符号が復号化部５により上記量子化後
の整数値に復号化され、この量子化値が逆量子化部６に
より各サブバンドのサンプル値に逆量子化される。そし
て、このサンプル値がイコライジング部７により上記ラ
ウドネスの減少分を補うように、図５〜図７に示すイコ
ライズ情報に基づいてイコライジング（増幅）され、こ
の値が逆スケーリング部１によりそのサブバンドのスケ
ール値（最大値）を掛け算され、各サブバンドのサンプ
ル値が出力される。この場合にも同様に、イコライジン
グ（増幅）を逆スケーリングの後に行っても良く、いず
れの場合でもオーバフローが発生しないように注意す
る。

【００２３】図２〜図７を参照してイコライズ量の決定
方法の例を次の３つの方法（ａ）〜（ｃ）について詳し
く説明する。（ａ）各サブバンドにおいて聴覚心理上の許容ノイズレ
ベルと実際の量子化ノイズレベルとの差を評価し、この
差に応じてイコライズ量を決定する。これは図１（ａ）
に示すエンコーダ側のみで行う処理であり、前述した方
法のように偏差がプラスになった帯域の音質劣化を軽
減することができる。

【００２４】この方法では、図２に示すように聴覚心理
部１１により各サブバンドの周波数スペクトルから各サ
ブバンドの必要なＳ／Ｎ_A比と量子化後のＳ／Ｎ_B比（予
想値）が算出され、次いでＡ／Ｂ算出部１２により（Ｓ
／Ｎ_A）／（Ｓ／Ｎ_B）＝Ｎ_B／Ｎ_A＝量子化ノイズレベル
／許容ノイズレベル＝偏差が算出される。そして、この
偏差からイコライズの有無とイコライズ量が決定部１３
により決定され、図１に示すイコライジング部２に印加
される。したがって、図４に示すように偏差が大きいほ
どイコライズ量を増加することにより、偏差による音質
劣化を軽減することができる。

【００２５】（ｂ）サブバンドの重要度に応じて情報量
を配分し、配分の結果として配分が少なくなったサブバ
ンドにイコライジングを施す。この場合には図５に示す
ようにサブバンドパワーが小さいほどイコライズ量を増
加する方法と、図６に示すように周波数が高いほどイコ
ライズ量を増加する方法が例として考えられる。

【００２６】（ｃ）量子化ビット数に応じてイコライジ
ングを施す。図３からも明らかなように、マスクされる
音のラウドネスはホワイトノイズベルが増加するにつれ
て減少するので、量子化ビット数が少なくなり、量子化
ノイズレベルが増加するに従って原音のラウドネスが大
きく減少することが考えられる。したがって、図７に示
すように量子化ビット数が少なくなるほどイコライズ量
を増加することによりシステムにおいて使用可能な情報
量が聴覚心理上必要な情報量より少ない場合にエンコー
ドおよびデコード後の音質を原音に近づけて劣化を軽減
することができる。

【００２７】

【発明の効果】以上説明したように本発明によれば、量
子化される前のオーディオ信号のサンプル値または逆量
子化されたオーディオ信号のサンプル値の、量子化ノイ
ズによる原音のマスキング効果により減少すると予想さ
れる原音のラウドネス分をイコライジングするので、シ
ステムにおいて使用可能な情報量が聴覚心理上必要な情
報量より少ない場合にエンコードおよびデコード後の音
質を原音に近づけて劣化を軽減することができる。

【図面の簡単な説明】

【図１】本発明に係る音声高能率符号化および復号化装
置の一実施例を示すブロック図である。

【図２】図１の符号化装置に適用されるイコライズ情報
算出部の一実施例を示すブロック図である。

【図３】ホワイトノイズとマスクされるラウドネスの関
係を示す説明図である。

【図４】量子化ノイズレベルと許容ノイズレベルの偏差
とイコライズ量の関係を示す説明図である。

【図５】サブバンドパワーとイコライズ量の関係を示す
説明図である。

【図６】周波数とイコライズ量の関係を示す説明図であ
る。

【図７】量子化ビット数とイコライズ量の関係を示す説
明図である。

【図８】音声高能率符号化方法を模式的に示す説明図で
ある。

【図９】図８の音声高能率符号化処理を説明するための
フローチャートである。

【図１０】従来の音声高能率符号化および復号化装置を
示すブロック図である。

【図１１】聴覚心理との偏差と音質劣化の度合いを示す
説明図である。

【符号の説明】２，７イコライジング部（イコライジング手段）３量子化部（量子化手段）４符号化部５復号化部６逆量子化部（逆量子化手段）８逆スケーリング部１１聴覚心理部１２Ａ／Ｂ算出部１３イコライズ有無決定・イコライズ量決定部

Claims

【特許請求の範囲】

【請求項１】複数の周波数帯域のサブバンドに分割さ
れた各サブバンドのオーディオ信号のサンプル値を、聴
覚心理分析に基づいて決定されたサブバンド毎の量子化
ビット数で量子化する量子化手段と、前記量子化手段により量子化される前のオーディオ信号
のサンプル値の、量子化ノイズによる原音のマスキング
効果により減少すると予想される原音のラウドネス分を
イコライジングするイコライジング手段とを有する音声
高能率符号化装置。
【請求項２】複数の周波数帯域のサブバンドに分割さ
れた各サブバンドのオーディオ信号を、聴覚心理分析に
基づいて決定されたサブバンド毎の量子化ビット数で量
子化したデータを復号する音声高能率復号化装置におい
て、前記量子化データを前記サブバンド毎の量子化ビット数
でオーディオ信号のサンプル値に逆量子化する逆量子化
手段と、前記逆量子化手段により逆量子化されたオーディオ信号
のサンプル値の、量子化ノイズによる原音のマスキング
効果により減少すると予想される原音のラウドネス分を
イコライジングするイコライジング手段とを有すること
を特徴とする音声高能率復号化装置。