JPH11261421A

JPH11261421A - 情報符号化方法

Info

Publication number: JPH11261421A
Application number: JP5949798A
Authority: JP
Inventors: Masato Fuma; 正人夫馬; Saneyuki Okamoto; 実幸岡本
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1998-03-11
Filing date: 1998-03-11
Publication date: 1999-09-24
Anticipated expiration: 2018-03-11
Also published as: JP3408140B2

Abstract

(57)【要約】（修正有）【課題】周波数方向のスペクトルの連続性を確保し得
る情報符号化方法を提供する。【解決手段】ビットアロケーション＋量子化回路はＳ
ＭＲをワードレングスに割り付ける際に、ＳＭＲが６ｄ
Ｂ〜１２ｄＢのように低いレベルの信号に対しても２ビ
ットを割り付け、周波数方向のスペクトルの連続性を確
保して音質を良好にする。また、線形規則に従って割付
ける場合には、線形規則に従えば割付ビット数がゼロと
なる相対比領域に対しても強制的に量子化ビット数を割
付けることによって、周波数方向のスペクトルの連続性
を確保することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は情報符号化方法に
関し、特に、ＭＤやＤＣＣなどの記録媒体に情報を符号
化して書込むための情報符号化方法に関する。

【０００２】

【従来の技術】図１０はミニディスクシステムの構成を
示すブロック図である。図１０を参照して、ミニディス
クシステムの主要な構成について説明する。ミニディス
ク１はカートリッジ２に収納されており、再生時には光
学ピックアップ３から読出された信号がＲＦアンプ４に
入力されてＲＦ信号となる。ディスクに埋込まれたＡＤ
ＩＰ信号はアドレスデコーダ５によってデコードされ、
サーボ制御のために使用される。ＲＦ信号はＥＦＭ／Ｃ
ＩＲＣ／エンコーダ／デコーダ６，ショックプルーフメ
モリコントローラ７および音声圧縮ＡＴＲＡＣエンコー
ダ／デコーダ８によってディジタル処理され、Ｄ／Ａコ
ンバータ９によってアナログ信号に変換されてオーディ
オ信号が出力される。

【０００３】一方、録音時には、オーディオ入力信号が
Ａ／Ｄコンバータ１０によって量子化され、再生時と逆
の経路でディジタル処理される。その後、ヘッド駆動回
路１１によって記録ヘッド１２が駆動されてオーディオ
信号が磁界変調され、ディスク上に記録される。

【０００４】図１１は図１０に示した音声圧縮ＡＴＲＡ
Ｃエンコーダ／デコーダ８のうちのエンコーダ部分を示
すブロック図である。図１１において、ＡＴＲＡＣ（Ad
aptive TRansform Acoustic Coding）エンコーダは、Ｍ
Ｄシステムに採用される高能率圧縮方式であり、時間軸
データを直交変換により周波数軸データ、すなわちスペ
クトルデータに変換し、そのスペクトルデータを振り分
けてビットアロケーションしていく方式である。

【０００５】再生されたオーディオ信号は帯域分割フィ
ルタ（ＱＭＦ）８１に入力されて２分割される。分割さ
れた一方の帯域のオーディオ信号は帯域分割フィルタ８
２によってさらに２帯域に分割され、元のオーディオ信
号は低域，中域，高域の３帯域に分割される。なお、帯
域分割フィルタ８１で分割された他方の帯域のオーディ
オ信号は帯域分割フィルタ８２の遅延量だけディレイ８
３によって遅延される。

【０００６】分割されたオーディオ信号はＭＤＣＴ８
４，８５，８６によって改良離散コサイン変換されて時
系列のデータが周波数スペクトルデータに変換される。
変換された各帯域の周波数スペクトルデータはビットア
ロケーション＋量子化回路９０に入力される。

【０００７】前述の３帯域に分割されたオーディオ信号
はブロックサイズ選択回路８７，８８，８９に入力され
て各帯域ごとのブロックサイズが決定されて聴覚心理分
析回路９１に与えられる。聴覚心理分析回路９１は可聴
外のデータを抽出し、ビットアロケーション＋量子化回
路９０でオーディオデータを量子化する際に可聴外のデ
ータを選択的に削除することによって伝送量を圧縮す
る。

【０００８】ビットアロケーション＋量子化回路９０は
各帯域のスペクトルデータを聴覚心理分析回路９１の聴
覚分析処理に基づいてアロケーションを行ない、各々処
理バンド幅で最適なビット数で正規化を行なってフォー
マッティングを決定し、多重化回路９２に出力する。ま
た、聴覚心理分析回路９１には、ＭＤＣＴ８４，８５，
８６から低域，中域，高域の３帯域のスペクトルデータ
が与えられている。そして、聴覚心理分析回路９１から
量子化ビット数であるワードレングスと正規化スケール
であるスケールファクタとが多重化回路９２に与えられ
る。多重化回路９２は多重化されたビットストリームを
出力する。

【０００９】図１２は図１１に示した音声圧縮ＡＴＲＡ
Ｃエンコーダ／デコーダによる帯域分割とＭＤＣＴとの
関係を示す図である。０〜ｆｓ／２のオーディオデータ
は、図１１の帯域分割フィルタ８１，８２によって０〜
ｆｓ／８の低域と、ｆｓ／８〜ｆｓ／４の中域と、ｆｓ
／４〜ｆｓ／２の高域に分割され、それぞれ１２８／１
２８／２５６のスペクトルとなり、全帯域で５１２サン
プルとして表わされている。したがって、周波数分解能
は４３Ｈｚとなる。

【００１０】また、このスペクトルデータは、ブロック
サイズ選択回路８７，８８，８９によって図１２に示す
ように、２５６／３２，１２８／３２，１２８／３２に
分割されて示されている。

【００１１】図１３はＡＴＲＡＣエンコーダに入力され
る時系列の音声信号を示す図であり、図１４は図１３に
示した音声信号を図１１のＱＭＦ８１，８２によって帯
域分割し、ＭＤＣＴ８４〜８６によって変換された周波
数スペクトルデータを示す図であり、スペクトルの本数
はラフに示されている。図１５はビットアロケーション
＋量子化回路９０によってスペクトルデータからエネル
ギ量を求めたシグナルレベルを示す図であり、図１６は
マスキング計算を説明するための図である。

【００１２】聴覚心理分析回路９１は聴覚心理分析処理
を行なう。聴覚心理では、マスキング効果と最小可聴特
性が考慮される。マスキング効果は図１６のａに示すよ
うにある大きな音のスペクトルのまわりの斜線に示すス
ペクトルが大きな音にマスキングされて認識できないエ
リアが発生することをいう。図１５に示すシグナルレベ
ルから図１６のａに示すスペクトルが他のスペクトルに
及ぼすレベルの和を求めてマスキング計算を行なうこと
によって、図１７に示すトータルマスキング量が決定さ
れる。

【００１３】図１８は最小可聴特性カーブを示す図であ
る。最小可聴特性は、最小可聴限以下の音は可聴できな
いことを示す特性であり、４ｋＨｚ付近で一番感度が良
くなり、高域と低域は感度が悪くなる。このため、１ｋ
Ｈｚ〜５ｋＨｚの帯域ではＳＮ比を大きくし、低域と高
域はそれに比べてＳＮ比を落としても問題がないことに
なる。

【００１４】そこで、ビットアロケーション＋量子化回
路９０によって図１５に示すシグナルレベルから図１７
に示すトータルマスク量と図１８に示した最大可聴特性
による最小可聴限以下のスペクトルが間引かれる。その
状態を図１９に示す。

【００１５】図１９に示すシグナルレベルとマスクされ
るレベルとの比をＳＭＲ（Signal to Mask Ratio）と称
する。このＳＭＲを正規化するために、聴覚心理分析回
路９１から正規化するためのスケールとなるスケールフ
ァクタと、量子化ビット数であるワードレングスが多重
化回路９２に与えられる。

【００１６】ＳＭＲが何ｄＢのときにワードレングスが
何ビットになるかは予め決められており、従来はたとえ
ばＳＭＲが１２〜１８ｄＢではワードレングスが２ビッ
トに割り付けられ、６ｄＢ以下では０ビットが割り付け
られていた。

【００１７】

【発明が解決しようとする課題】上述のごとく、アロケ
ーションに際して情報量の圧縮効果が大きいために、Ｓ
ＭＲの非常に低いレベルの信号に対して０ビットが割り
付けられると、スペクトルデータがなくなってしまい、
周波数方向のスペクトルの連続性がなくなってしまい、
音質に問題を生じてしまうという欠点があった。

【００１８】それゆえに、この発明の主たる目的は、上
述のような問題に鑑みてなされたものであり、周波数方
向のスペクトルの連続性を確保できるような情報符号化
方法を提供することである。

【００１９】

【課題を解決するための手段】請求項１に係る発明は、
アナログデータを周波数データに変換し、この変換され
た所定の処理バンド幅内のスペクトルデータをエネルギ
換算してシグナルレベルを算定し、所定のマスキングレ
ベルに対するシグナルレベルの相対比に応じてその処理
バンド内の量子化ビット数を割付ける情報符号化方法で
あって、相対比の小さい領域では同一割付ビットに対応
する相対比の幅を大きくする。

【００２０】請求項２に係る発明では、アナログデータ
を周波数データに変換し、この変換された所定の処理バ
ンド幅内のスペクトルデータをエネルギ換算してシグナ
ルレベルを算定し、所定のマスキングレベルに対するシ
グナルレベルの相対比に応じてその処理バンド内の量子
化ビット数を所定の線形規則に従って割付ける情報符号
化方法であって、線形規則に従えば割付ビット数がゼロ
となる相対比領域に対しても、強制的に量子化ビット数
を割付ける。

【００２１】請求項３に係る発明では、請求項２の強制
的に割付ける量子化ビット数は、線形規則に従って割付
けられる最小の量子化ビット数をそのまま適用する。

【００２２】請求項４に係る発明では、請求項２または
３の強制的に量子化ビット数を割付ける相対比領域は、
線形規則により限界とされる相対比とゼロデシベルとの
中間までである。

【００２３】請求項５に係る発明では、請求項１〜４の
いずれかにおいて、アナログデータは音声データであっ
て、マスキングレベルは人の聞こえ方によって設定され
る。

【００２４】請求項６に係る発明では、請求項５におけ
る符号化されたデータは、ミニディスクに記録されるも
のであり、マスキングはスペクトル間の相関関係に起因
するマスキング効果と人の耳の最小可聴特性とを組合せ
たものである。

【００２５】

【発明の実施の形態】図１はこの発明の一実施形態の動
作を説明するためのフローチャートであり、図２は図１
における伝送量調整動作を説明するためのフローチャー
トである。

【００２６】これらの図１および図２に示したフローチ
ャートによる処理は前述の図１１に示したビットアロケ
ーション＋量子化回路９０によって実行される。すなわ
ち、ビットアロケーション＋量子化回路９０によってＳ
ＭＲが正規化されて最適な伝送量が決定される。また、
前述の図１４に示した各スペクトルデータからシグナル
レベルが計算される。このシグナルレベル計算では、ス
ペクトルデータをＳとすると、スペクトルを次式で求め
ることによって、図１５に示すようにエネルギ量で表わ
されたシグナルレベルが求められる。

【００２７】ΣＳ＊Ｓ次に、マスキングレベルが計算さ
れる。マスキングレベルの計算は、前述の図１６に示し
たように各スペクトルが他のスペクトルに及ぼすレベル
の和を求めることにより、全帯域に対するマスキングレ
ベルを計算できる。具体的には、クリティカルバンド単
位で他のクリティカルバンドからマスキングを受けるレ
ベルと、クリティカルバンドのマスキングレベルの総和
が求められ、前述の図１７に示すマスキング量が求めら
れる。

【００２８】最小可聴特性は、予め設定される。そし
て、最小可聴特性と計算されたマスキング量によってト
ータルマスキング計算が行なわれ、シグナルレベルから
トータルマスキングレベルが減算されてＳＭＲが計算さ
れる。すなわち、図１９に示す白抜きの部分が求められ
る。求められたＳＭＲに対してビットアロケーションが
行なわれる。

【００２９】図３はワードレングスと量子化ビット数と
の関係を示す図であり、図４はＳＭＲとワードレングス
との関係を示す図である。

【００３０】ビットアロケーションでは、図３および図
４に示すように、ＳＭＲが何ｄＢであるかによってワー
ドレングスＷＬのビット数が割当てられて伝送量が計算
される。

【００３１】従来、前述の如くＳＭＲをワードレングス
に割りつける際、ＳＭＲが１２〜１８ｄＢではワードレ
ングスが２ビットに割りつけられ、１２ｄＢ以下では０
ビットが割りつけられていた。これは、±の符号を表わ
すビットが必要なために最小の割付ビットが２ビットと
なり、よって図４に示すビット割付の線形的な規則に従
えば、最小のＳＭＲが１２ｄＢまでとなるためである。
このように、アロケーションに際して情報量の圧縮効果
が大きいために、ＳＭＲの非常に低いレベルの信号に対
して０ビットが割りつけられると、スペクトルデータが
なくなってしまい、周波数方向のスペクトルの連続性や
必要な倍音成分がなくなってしまい、音質に問題を生じ
てしまう。

【００３２】そこで、この発明の一実施形態では、図４
に示すように、ＳＭＲが６ｄＢ〜１２ｄＢのように低い
レベルの信号に対しても２ビットが割りつけられ、周波
数方向のスペクトルの連続性や倍音成分を確保して音質
が良好にされる。ただし、ＳＭＲがゼロの近傍になるま
で量子化ビットを割当てると、不要なノイズ音を拾い、
または音のバランスが悪化したりして、かえって耳障り
な音となってしまう。実験によれば、ＳＭＲが６程度ま
で量子化ビットを割当てると音質の改善効果は大きい
が、これよりも小さなＳＭＲまで割当てると、ノイズ音
が気になってくる。前述の伝送量計算が適切でなけれ
ば、２分法が用いられてＳＭＲの補正が行なわれる。

【００３３】図５はＳＭＲ調整ツリーを示し、図６およ
び図７は２分法により伝送量を最適値に近づける様子を
示している。この実施形態では、１２８ｄＢの調整が可
能なように最初のステップの調整値を３２ｄＢとし、ま
た、微調整のために±０．５ｄＢのステップを設けてい
る。この微調整時の値は、パラメータなどの精度から求
められる。この２分法で伝送量を調整したときに、７ス
テップ目で収束した例を図６に示し、８ステップ目で収
束した例を図７に示す。

【００３４】図５のＳＭＲ調整ツリーが示すように、３
２ｄＢから０．５ｄＢへ２分されるステップは７ステッ
プである。図６に示すように、７ステップ目の処理後、
伝送量以下になっていれば調整を終了できるが、図７に
示すように７ステップ目の処理後、伝送量が以下になっ
ていない場合がある。この場合は、補正ステップとして
もう１ステップ設けて調整が行なわれる。

【００３５】この実施形態では、最終調整のステップで
ある７ステップ目と同じ値を用いて調整を行なってい
る。調整値を分割して伝送量を調整した場合、最適伝送
量に近づくが、必ずしも最適伝送量以下になる保証がな
い。伝送量の調整結果を確実に最適伝送量以下にするた
めに、最終調整ステップ値と同じ値にし、強制的に最適
伝送量以下になるようにされる。

【００３６】ＳＭＲの調整は図２に示す手順で行なわれ
る。すなわち、まず図５に示すＳＭＲ調整ツリーに従っ
て、伝送量調整用の値Δがスタート値Δ＝３２ｄＢに設
定される。前述したビットアロケーション法により伝送
量が計算され、その伝送量が最適伝送量より多いか少な
いかが判断される。多ければＳＭＲの各帯域から３２ｄ
Ｂ引かれ、少なければＳＭＲの各帯域に３２ｄＢ加算さ
れる。次に、Δ値が３２ｄＢの１／２の１６ｄＢに設定
され、加減算後のＳＭＲから伝送量が求められる。再び
その伝送量が最適伝送量より多いか少ないかが判断さ
れ、多ければＳＭＲの各帯域から１６ｄＢ引かれ、少な
ければＳＭＲの各帯域に１６ｄＢ加算される。

【００３７】この処理が繰返され、Δが８，４，２，
１，０．５ｄＢのように順次２分され、演算が行なわれ
る。この場合、図６に示すように７ステップ目で伝送量
が最適伝送量以下になれば、そのまま伝送量の調整が終
了するが、図７に示すように７ステップ目で最適伝送量
以下にならなかったときには、８ステップ目で最適伝送
量以下になるようにΔの値が設定され、強制的に伝送量
が最適値以下にされる。

【００３８】伝送量の調整をする際、調整用の値Δを境
界線として、ＳＭＲの量が加減算される。この境界線の
遷移を図８および図９に示す。図８は伝送量が７ステッ
プ目で最適伝送量以下になる場合であり、図９は伝送量
が７ステップ目で最適伝送量以下にならない場合であ
る。

【００３９】伝送量調整演算を７または８ステップ以下
で終了させたい場合は、次のような方法もある。すなわ
ち、伝送量の調整時に、最適伝送量から最適伝送量−δ
までの範囲にある場合、直ちに終了させる。このとき、
δの値は予め設定された任意の値である。たとえば、こ
の実施形態では、微調整の範囲であるδ＝０．５とする
と良い結果が得られる。

【００４０】

【発明の効果】以上のように、この発明によれば、所定
の処理バンド幅内のスペクトルデータをエネルギ換算し
てシグナルレベルを算定し、所定のマスキングレベルに
対するシグナルレベルの相対比に応じて処理バンド内の
量子化ビット数を割付けるときに、相対比の小さい領域
では同一割付ビットに対応する相対比の幅を大きくする
ことによって、周波数方向のスペクトルの連続性を確保
できる。また、線形規則に従って割付ける場合には、線
形規則に従えば割付ビット数がゼロとなる相対比領域に
対しても強制的に量子化ビット数を割付けることによっ
て、周波数方向のスペクトルの連続性を確保することが
できる。

【図面の簡単な説明】

【図１】この発明の一実施形態の動作を説明するための
フローチャートである。

【図２】図１における伝送量調整動作を説明するための
フローチャートである。

【図３】ワードレングスと量子化ビット数との関係を示
す図である。

【図４】ＳＭＲとワードレングスとの関係を示す図であ
る。

【図５】ＳＭＲ調整パターンを示す図である。

【図６】２分法により７ステップで収束した例を示す図
である。

【図７】２分法により伝送量がオーバーして８ステップ
で強制的に収束させた例を示す図である。

【図８】伝送量が７ステップ目で最適伝送量以下になる
場合の遷移図である。

【図９】伝送量が７ステップ目で最適伝送量以下になら
ない場合の遷移図である。

【図１０】ミニディスクシステムの構成を示すブロック
図である。

【図１１】図１０に示した音声圧縮ＡＴＲＡＣエンコー
ダを示すブロック図である。

【図１２】図１１に示した音声圧縮ＡＴＲＡＣエンコー
ダによる帯域分割とＭＤＣＴとの関係を示す図である。

【図１３】ＡＴＲＡＣエンコーダに入力される時系列の
音声信号を示す図である。

【図１４】図１３に示した音声信号を帯域分割し、ＭＤ
ＣＴによって変換された周波数スペクトルデータを示す
図である。

【図１５】スペクトルデータからエネルギ量を求めたシ
グナルレベルを示す図である。

【図１６】マスキング計算を説明するための図である。

【図１７】トータルマスク量を示す図である。

【図１８】最小可聴特性カーブを示す図である。

【図１９】図１５に示したシグナルレベルと、図１７の
トータルマスク量と、図１８の最小可聴特性カーブを重
ねて示した図である。

【符号の説明】

８１，８２ＱＭＦ８３ディレイ８４，８５，８６ＭＤＣＴ８７，８８，８９ブロックサイズ選択回路９０ビットアロケーション＋量子化回路９１聴覚心理分析回路９２多重化回路

Claims

【特許請求の範囲】

【請求項１】アナログデータを周波数データに変換
し、この変換された所定の処理バンド幅内のスペクトル
データをエネルギ換算してシグナルレベルを算定し、所
定のマスキングレベルに対する前記シグナルレベルの相
対比に応じて当該処理バンド内の量子化ビット数を割付
ける情報符号化方法であって、前記相対比の小さい領域では同一割付ビットに対応する
前記相対比の幅を大きくしたことを特徴とする、情報符
号化方法。
【請求項２】アナログデータを周波数データに変換
し、この変換された所定の処理バンド幅内のスペクトル
データをエネルギ換算してシグナルレベルを算定し、所
定のマスキングレベルに対する前記シグナルレベルの相
対比に応じて当該処理バンド内の量子化ビット数を所定
の線形規則に従って割付ける情報符号化方法であって、前記線形規則に従えば割付ビット数がゼロとなる相対比
領域に対しても、強制的に量子化ビット数を割付けるこ
とを特徴とする、情報符号化方法。
【請求項３】前記強制的に割付ける量子化ビット数
は、前記線形規則に従って割付けられる最小の量子化ビ
ット数をそのまま適用することを特徴とする、請求項２
に記載の情報符号化方法。
【請求項４】前記強制的に量子化ビット数を割付ける
相対比領域は、線形規則により限界とされる相対比とゼ
ロデシベルとの中間までであることを特徴とする、請求
項２または３に記載の情報符号化方法。
【請求項５】前記アナログデータは音声データであっ
て、前記マスキングレベルは人の聞こえ方によって設定
されるものであることを特徴とする、請求項１〜４のい
ずれかに記載の情報符号化方法。
【請求項６】前記符号化されたデータはミニディスク
に記録されるものであり、マスキングはスペクトル間の
相関関係に起因するマスキング効果と人の耳の最小可聴
特性とを組合せたものであることを特徴とする、請求項
５に記載の情報符号化方法。