JPH07261799A

JPH07261799A - 直交変換符号化装置及び方法

Info

Publication number: JPH07261799A
Application number: JP6049517A
Authority: JP
Inventors: Masami Suzuki; 雅美鈴木; Kenki Ihara; 健喜井原
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 1994-03-18
Filing date: 1994-03-18
Publication date: 1995-10-13

Abstract

(57)【要約】【目的】ハードウェア及びアルゴリズムを簡略化して
高圧縮率符号化する。【構成】帯域分割手段はディジタル音声データを複数
の周波数帯域に分割し帯域分割データとし、分析手段は
各帯域分割データを所定の変換ブロック長で直交変換し
直交変換係数を算出、グループ化して直交変換係数群と
する。フーリエ変換手段はディジタル音声データをＦＦ
Ｔによりパワースペクトルデータとし、ビット割当情報
生成手段はこのパワースペクトルデータによるマスキン
グ量に基づき、直交変換係数群毎に複数の変換ブロック
にわたり同一のビット数で量子化すべく量子化ビット数
制御データ及びビット割当情報データを出力する。量子
化手段は量子化ビット数制御データに基づき直交変換係
数を量子化データに変換し、フォーマッティング手段は
量子化データ及びビット割当情報データを多重化し、符
号化データとして出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、直交変換符号化装置及
びその方法に係わり、特にディジタル音声データを高圧
縮率で符号化する直交変換符号化装置及びその方法に関
する。

【０００２】

【従来の技術】限られた記録容量や伝送帯域内でＣＤ
（Compact Disk）、ＤＡＴ（Digital Audio Tape）相当
の高音質のディジタルオーディオを記録、伝送するため
には、音質を損なわずにデータ量を圧縮する高能率符号
化が不可欠であり、様々な符号化方法の開発や標準化が
検討されている。

【０００３】一方、機器の小型化の流れの中で、将来的
には民生用の半導体録音機の出現が予想される。この場
合において、仮に２５６Ｍbitsのメモリに１チャネル１
時間の記録を行うものとすると、６４ｋbps ／chにデー
タを圧縮する必要がある。より具体的には、原音をＤＡ
Ｔ相当の量子化ビット数１６ビット、サンプリング周波
数４８ｋＨｚ（＝７６８ｋbps ／ch）とした場合、１／
１２にデータを圧縮する必要がある。

【０００４】ところで、現在実用化されているＭＤ（Mi
ni Disk ）の符号化方法であるＡＴＲＡＣ（Adaptive T
ransform Acoustic Coding）においてはＣＤのデータ
（７０５．６ｋbps ／ch）を１／４．８３の１４６ｋbp
s ／chに圧縮している。また、ＤＣＣ（Digital Compac
t Cassette）の符号化方法であるＰＡＳＣ（PrecisionA
daptive Subband Coding ）においては、ＤＡＴのデー
タ（７６８ｋbps ／ch）を１／４の１９２bps ／chに圧
縮している。

【０００５】このように上記従来のＭＤの符号化方法Ａ
ＴＲＡＣ、ＤＣＣの符号化方法ＰＡＳＣ等の符号化方法
では半導体録音機を実現するためにはまだ圧縮率が不足
しており、より高圧縮率の符号化装置及び符号化方法が
望まれている。

【０００６】高圧縮率符号化とは、信号に含まれる冗長
な相関成分を取り除き、無相関化することによりデータ
圧縮を行うことである。しかしながら、単に冗長な成分
を取り除くだけでは、圧縮率に限界があり、高音質なオ
ーディオ信号を１００ｋbps ／ch程度まで低ビットレー
ト化することは困難である。

【０００７】これを解決すべく、上述した最近の符号化
方法においては、冗長な成分を取り除くとともに、人間
の聴覚特性を利用して人間が知覚できない再生時に不要
な成分を取り除くことにより圧縮率の向上を図ってい
る。

【０００８】ここで人間の聴覚特性とは、マスキング特
性、臨界帯域幅、最小可聴しきい値、時間分解能−周波
数分解能特性等が挙げられる。図５に人間の聴覚特性を
考慮した従来の直交変換符号化装置の概要構成ブロック
図を示す。

【０００９】直交変換符号化装置５０は、入力されたデ
ィジタル音声データＤ_PCMを分析し、第１サブバンドデ
ータＤ₁〜第ｋサブバンドデータＤ_kに分割するＱＭＦ
（Quadrature Mirror Filter）と、入力されたサブバン
ドデータの直交変換をそれぞれ行い対応する直交変換係
数Ｄ_X1’〜Ｄ_Xk’を出力する第１〜第ｋ直交変換部５２
_-1〜５２_-kと、第１〜第ｋサブバンドデータＤ₁〜Ｄ_k
に基づいて、各直交変換部５２_-1〜５２_-kに対応するブ
ロック長制御信号Ｄ_CBS1〜Ｄ_CBSkを出力するとともに、
ブロック長情報データＤ_BSを出力するブロック長決定部
５３と、直交変換係数Ｄ_X1’〜Ｄ_Xk’及びブロック長情
報データＤ_BSに基づいてマスキング計算を行い、それに
基づいて直交変換係数の量子化ビット数を決定し、ビッ
ト割当情報データＤ_B’を出力するマスキング計算ビッ
ト割当部５４と、ビット割当情報データＤ_B’に基づい
て、直交変換係数Ｄ_X1’〜Ｄ_Xk’を量子化して量子化デ
ータＤ_QXとして出力する量子化器５５と、ビット割当情
報データＤ_B’、量子化データＤ_QX’及びブロック長情
報データＤ_BSを多重化して、符号化データＤ_CODE’とし
て出力するフォーマッティング部５６と、を備えて構成
されている。

【００１０】次に概要動作を説明する。人間の聴覚系
は、帯域フィルタが並んだフィルタバンクと考えられ、
その帯域幅は臨界帯域幅と呼ばれる。この臨界帯域幅は
低域では狭く、高域ほど広くなる。換言すれば、低域ほ
ど周波数分解能が高く、高域ほど周波数分解能が低い。

【００１１】一方、時間分解能は逆に低域ほど低く、高
域ほど高い。直交変換の周波数分解能・時間分解能は変
換ブロック長により決まり、ブロック長が大きいほど周
波数分解能が高く、時間分解能が低い。したがって聴覚
特性に合わせた信号分析を行うためには、入力ディジタ
ル音声データＤ_PCMを複数の周波数帯域に分割し、聴覚
の周波数−時間分解能特性に合わせて低い周波数帯域で
は大きいブロック長で、高い周波数帯域では小さいブロ
ック長で直交変換を行う必要がある。

【００１２】ところで直交変換は、変換ブロック長Ｎ_k
を大きく取ると符号化データＤ_CODE’に占めるビット割
当情報の割合を小さくできるというメリットがあるが、
急激な立ち上がり部をもつ波形の直前でプリエコーが知
覚されやすくなるというデメリットがある。したがっ
て、ディジタル音声データが定常的な部分ではブロック
長を大きくとり、急激な立上り部を含む部分ではブロッ
ク長を小さくする必要がある。

【００１３】そこでＱＭＦ５１は、入力されたディジタ
ル音声データＤ_PCMを第１サブバンドデータＤ₁、…、
第ｋサブバンドデータＤ_kに分割して、それぞれ対応す
る直交変換部５２_-1〜５２_-k及びブロック長決定部５３
に出力する。

【００１４】ブロック長決定部５３は、入力された第１
〜第ｋサブバンドデータＤ₁〜Ｄ_kを常時チェックし、
急激な立ち上がり部をもつサブバンドデータに対しては
適応的に変換ブロック長を短くすべく、ブロック長制御
データＤ_CBS1〜Ｄ_CBSkを対応する直交変換部に出力す
る。

【００１５】これにより第１〜第ｋ直交変換部５２_-1〜
５２_-kは、入力されたサブバンドデータをブロック長制
御データＤ_CBS1〜Ｄ_CBSkに基づいて直交変換し、直交変
換係数Ｄ_X1’〜Ｄ_Xk’として出力する。

【００１６】つづいてマスキング計算ビット割当部５４
は、ブロック長情報及び直交変換係数Ｄ_X1’〜Ｄ_Xk’に
基づいてマスキング計算を行い、それに基づいて直交変
換係数の量子化ビット数を決定し、ビット割当情報デー
タＤ_B’を量子化器５５及びフォーマッティング部５６
に出力する。この場合において、マスキング計算は、各
サブバンド毎の直交変換の結果として得られる直交変換
係数（周波数スペクトル）Ｄ_X1’〜Ｄ_Xk’を直接用いて
行っていた。

【００１７】これらの結果、量子化器５５は、ビット割
当情報データＤ_B’に基づいて直交変換データＤ_X1’〜
Ｄ_Xk’を量子化して量子化データＤ_QX’として出力し、
フォーマッティング部５６はビット割当情報データ
Ｄ_B’、量子化データＤ_QX’及びブロックサイズ情報デ
ータＤ_BSを多重化して、符号化データＤ_CODE’として出
力していた。

【００１８】以上の説明のように、上記従来の直交変換
符号化装置においては、直交変換する際の変換ブロック
長を、ディジタル音声データの性質に応じて適応的に切
換える必要があった。また直交変換係数の量子化ビット
割当を決めるために必要なマスキング計算は、直交変換
係数を直接用いて行っていた。

【００１９】

【発明が解決しようとする課題】しかしながら、上記従
来の直交変換符号化装置においては、変換ブロック長を
短く設定すればプリエコーの問題は回避できるが、以下
の様な問題点が生じていた。

【００２０】ａ）サイド情報としてのビット割当情報
は、各変換ブロック毎に付加されるので、変換ブロック
長が短い場合には、符号化データ全体に対するビット割
当情報の割合が増加し、特に低ビットレートでこの方法
を用いた場合には非常に不利になるという問題点があっ
た。

【００２１】ｂ）変換ブロック長を短くするというこ
とは、直交変換係数（周波数スペクトル）の周波数分解
能が低下し、この直交変換係数を直接用いてマスキング
計算を行っていることにより、その計算精度が低下して
しまうという問題点があった。

【００２２】また、各サブバンド毎に適応ブロック長切
換を行うことにより、以下の様な問題点が生じる。ｃ）各サブバンド毎のブロック長を決定するためのハ
ードウェア構成が非常に複雑になるという問題点があっ
た。

【００２３】ｄ）マスキング量計算のための周波数ス
ペクトルの構造が多数あり、アルゴリズム、ハードウェ
アが極めて複雑になるという問題点があった。より具体
的には、ＭＤの場合、３つのサブバンドに分割してお
り、各サブバンド毎にブロック長が長ブロック長及び短
ブロック長の２種類があり、それらを切り換えて用いて
いる。

【００２４】この結果、変換ブロック長の組合わせが８
通り（＝２×２×２）できることとなり、その各々の場
合で異なる構造の周波数スペクトルとなるので、マスキ
ング計算のアルゴリズムも８通り必要となり、これにと
もなってハードウェアも複雑化することとなる。

【００２５】そこで、本発明の目的は、ハードウェア及
びアルゴリズムを簡略化でき、かつビット割当情報を減
らし、マスキングの計算精度を向上させることにより、
より高圧縮率符号化が可能な直交変換符号化装置及び方
法を提供することにある。

【００２６】

【課題を解決するための手段】上記課題を解決するた
め、請求項１記載の発明は、ディジタル音声データを符
号化する直交変換符号化装置において、前記ディジタル
音声データを複数の周波数帯域に分割し帯域分割データ
として出力する帯域分割手段と、前記周波数帯域毎に予
め設定した所定の変換ブロック長で各前記帯域分割デー
タを直交変換して各変換ブロック毎の直交変換係数を算
出し、得られた直交変換係数をグループ化して直交変換
係数群として出力する分析手段と、前記ディジタル音声
データを高速フーリエ変換し、パワースペクトルデータ
を出力するフーリエ変換手段と、前記パワースペクトル
データに基づいてマスキング量を計算し、前記マスキン
グ量に基づいて同一の前記直交変換係数群を構成する前
記直交変換係数を複数の変換ブロックにわたって同一の
ビット数で量子化するためのビット数制御データを出力
するとともに、各前記直交変換係数群毎のビット割当情
報データを出力するビット割当情報生成手段と、前記ビ
ット数制御データに基づいて前記直交変換係数を量子化
して量子化データとして出力する量子化手段と、前記量
子化データ及び前記ビット割当情報データを多重化し、
符号化データとして出力するフォーマッティング手段
と、を備える。

【００２７】また、請求項２記載の発明は、ディジタル
音声データを符号化する直交変換符号化方法において、
前記ディジタル音声データを複数の周波数帯域に分割し
帯域分割データとして出力する帯域分割工程と、前記周
波数帯域毎に予め設定した所定の変換ブロック長で各前
記帯域分割データを直交変換して各変換ブロック毎の直
交変換係数を算出し、得られた直交変換係数をグループ
化して直交変換係数群として出力する分析工程と、前記
ディジタル音声データを高速フーリエ変換し、パワース
ペクトルデータを出力するフーリエ変換工程と、前記パ
ワースペクトルデータに基づいてマスキング量を計算
し、前記マスキング量に基づいて同一の前記直交変換係
数群を構成する前記直交変換係数を複数の変換ブロック
にわたって同一のビット数で量子化するためのビット数
制御データを出力するとともに、各前記直交変換係数群
毎のビット割当情報データを出力するビット割当情報生
成工程と、前記ビット数制御データに基づいて前記直交
変換係数を量子化して量子化データとして出力する量子
化工程と、前記量子化データ及び前記ビット割当情報デ
ータを多重化し、符号化データとして出力するフォーマ
ッティング工程と、を備える。

【００２８】

【作用】請求項１記載の発明によれば、帯域分割手段
は、ディジタル音声データを複数の周波数帯域に分割し
帯域分割データとして分析手段に出力する。

【００２９】分析手段は、前記周波数帯域毎に予め設定
した所定の変換ブロック長で各帯域分割データを直交変
換して各変換ブロック毎の直交変換係数を算出し、得ら
れた直交変換係数をグループ化して直交変換係数群とし
て量子化手段に出力する。

【００３０】これと並行して、フーリエ変換手段は、デ
ィジタル音声データを高速フーリエ変換し、パワースペ
クトルデータをビット割当情報生成手段に出力する。ビ
ット割当情報生成手段は、パワースペクトルデータに基
づいてマスキング量を計算し、このマスキング量に基づ
いて同一の直交変換係数群を構成する直交変換係数を複
数の変換ブロックにわたって同一のビット数で量子化す
るためのビット数制御データを量子化手段に出力すると
ともに、各直交変換係数群毎のビット割当情報データを
フォーマッティング手段に出力する。

【００３１】量子化手段は、ビット数制御データに基づ
いて直交変換係数を量子化して量子化データとしてフォ
ーマッティング手段に出力する。フォーマッティング手
段は、量子化データ及びビット割当情報データを多重化
し、符号化データとして出力する。

【００３２】また、請求項２記載の発明によれば、帯域
分割工程は、ディジタル音声データを複数の周波数帯域
に分割し帯域分割データとして分析工程に出力する。分
析工程は、周波数帯域毎に予め設定した所定の変換ブロ
ック長で各帯域分割データを直交変換して各変換ブロッ
ク毎の直交変換係数を算出し、得られた直交変換係数を
グループ化して直交変換係数群として量子化工程に出力
する。

【００３３】これと並行して、フーリエ変換手段は、デ
ィジタル音声データを高速フーリエ変換し、パワースペ
クトルデータをビット割当情報生成工程に出力する。ビ
ット割当情報生成工程は、パワースペクトルデータに基
づいてマスキング量を計算し、このマスキング量に基づ
いて同一の直交変換係数群を構成する直交変換係数を複
数の変換ブロックにわたって同一のビット数で量子化す
るためのビット数制御データを量子化工程に出力すると
ともに、各直交変換係数群毎のビット割当情報データを
フォーマッティング工程に出力する。

【００３４】量子化工程は、ビット数制御データに基づ
いて直交変換係数を量子化して量子化データとしてフォ
ーマッティング工程に出力する。フォーマッティング工
程は、量子化データ及びビット割当情報データを多重化
し、符号化データとして出力する。

【００３５】したがって、いずれの発明においても、直
交変換係数を量子化する際には、同一の直交変換係数群
を構成する直交変換係数は複数の変換ブロックにわたっ
て同一の量子化ビット数となり、ビット割当情報データ
の量を少なくすることができ、符号化データのディジタ
ル音声データに対する圧縮率を向上させることができ
る。

【００３６】さらに同一の直交変換係数群を構成する直
交変換係数は複数の変換ブロックにわたって同一のビッ
ト数で量子化するので、短い固定ブロック長の直交変換
を用いても、ビット割当情報データ量は増加することが
ない。

【００３７】したがって、短い固定ブロック長を採用す
ることができ、複雑な制御を必要とする適応ブロック長
切換等の手法を用いることなく、プリエコーを抑制する
ことができる。

【００３８】

【実施例】次に図面を参照して本発明の好適な実施例を
説明する。図１に実施例の直交変換符号化装置の基本構
成ブロック図を示す。

【００３９】直交変換符号化装置１は、後述するサブバ
ンド分割や直交変換により入力されたディジタル音声デ
ータＤ_PCMの相関成分を減少させ、直交変換係数Ｄ_Xを
出力する分析部２と、聴覚心理モデルを用い、ディジタ
ル音声データのパワースペクトルからマスキングオーデ
ィオグラム（マスキング量の周波数特性）を計算し量子
化ビット数を決定して量子化ビット数制御データＤ_QCを
出力するとともに、ビット割当情報データＤ_Bを出力す
るマスキング計算ビット割当部３と、量子化ビット数制
御データＤ_QCに基づいて直交変換係数Ｄ_Xを量子化して
量子化データＤ _QXを出力する量子化部４と、量子化デー
タＤ_QX及びビット割当情報データＤ_Bを多重化し、符号
化データＤ_CODEとして出力するフォーマッティング部５
と、を備えて構成されている。

【００４０】次に概要動作を説明する。分析部２は、入
力されたディジタル音声データＤ_PCMを複数のサブバン
ド（周波数帯域）に分割し、各サブバンド毎に同一のブ
ロック長を設定して直交変換を行い、直交変換係数Ｄ_X
として出力する。この際、直交変換係数Ｄ_Xは複数のグ
ループに分けられる。この場合において直交変換は、変
換ブロックが５０［％］オーバーラップするＭＤＣＴ
（Modified Discrete Cosine Transform）を用いて行っ
ている。

【００４１】これと並行してマスキング計算・ビット割
当部３は、ディジタル音声データＤ _PCMのパワースペク
トルからマスキングオーディオグラムを計算し、量子化
ビット数を決定して量子化ビット数制御データＤ_QCを量
子化部４に出力するとともに、ビット割当情報データＤ
_Bをフォーマッティング部５に出力する。

【００４２】量子化部４は、量子化ビット数制御データ
Ｄ_QCに基づいて直交変換係数Ｄ_Xを量子化して量子化デ
ータＤ_QXをフォーマッティング部５に出力する。これら
により、フォーマッティング部５は、量子化データＤ_QX
及びビット割当情報データＤ_Bを多重化し、符号化デー
タＤ_CODEとして出力する。

【００４３】上記処理においては、各サブバンド毎に同
一のブロック長を設定して直交変換を行い、各グループ
毎に複数の変換ブロックにわたって同一のビット数で量
子化を行っているので、ビット割当情報データ量が少な
くてすむ。換言すれば、符号化データＤ_CODEに含まれる
ビット割当情報データＤ_Bの量子化データＤ_QXに対する
割合は小さなものとなり、高圧縮率の符号化を達成でき
る。

【００４４】次に図２により具体的な直交変換符号化装
置の概要構成ブロック図を示す。直交変換符号化装置１
０は、入力されたディジタル音声データＤ_PCM（ＰＣＭ
ディジタル音声データ）を分析し、第１サブバンドデー
タＤ_SB1〜第ｋサブバンドデータＤ_SBkに分割するＱＭ
Ｆ（Quadrature Mirror Filter）１１と、入力されたサ
ブバンドデータの直交変換をそれぞれ行い対応する直交
変換係数Ｄ_X1〜Ｄ _Xkを出力する第１〜第ｋ直交変換部１
２_-1〜１２_-kと、ディジタル音声データＤ _PCMを高速フ
ーリエ変換し、パワースペクトル推定を行い、パワース
ペクトル推定データＤ_PSを出力する高速フーリエ変換部
（ＦＦＴ）１３と、パワースペクトル推定データＤ_PSに
基づいて、マスキングオーディオグラム（マスキング量
の周波数特性）を計算して量子化ビット数を決定して量
子化ビット数制御データＤ_QCを出力するとともに、ビッ
ト割当情報データＤ_Bを出力するマスキング計算ビット
割当部１４と、量子化ビット数制御データＤ_QCに基づい
て直交変換係数Ｄ_X1〜Ｄ_Xkを量子化して量子化データＤ
_QXとして出力する量子化器１５と、量子化データＤ_QX及
びビット割当情報データＤ_Bを多重化し、符号化データ
Ｄ_CODEとして出力するフォーマッティング部１６と、を
備えて構成されている。

【００４５】ここで直交変換符号化装置１０の詳細な動
作説明を行う。１）ＱＭＦの動作人間の聴覚は、上述したように、低域で周波数分解能が
高く、高域で時間分解能が高いという特性を持ってい
る。

【００４６】そこで、入力データの周波数成分分析を行
う際、予め幾つかの周波数帯域（サブバンド）に分割す
ることにより、各々のサブバンドにおいて最適な周波
数、時間分解能を持った直交変換を行うことができる。

【００４７】直交変換符号化装置１０においては、デシ
メーションによって生じた折り返し成分を除去するため
に、ＱＭＦ１１を用いてこのサブバンド分析を行ってい
る。２）第１〜第ｋ直交変換部の動作次に複数のサブバンドに分割された各帯域通過信号に対
し、各帯域通過信号毎に異なるブロック長でＭＤＣＴ
（Modified Discrete Cosine Transform）を用いて直交
変換（周波数分析）を行う。

【００４８】ＭＤＣＴは、ブロック歪を軽減するため入
力信号をオーバーラップさせながら直交変換を行ってい
るにもかかわらず、時間領域の折り返しを発生させずに
直交変換係数の数をオーバーラップさせない場合と同一
にすることができる。

【００４９】ところで、ＭＤＣＴのブロック長を長くと
りすぎると、図４（ａ）に示すように、急峻な立上がり
を持つ波形直前の静寂部において、図４（ｃ）に示すよ
うに量子化ノイズがプリエコーとして知覚されやすくな
る。

【００５０】これを防止するため、そのような入力デー
タに適応して図４（ｂ）のようにブロック長を短くして
量子化ノイズの時間的拡がりを制限して、後方性マスキ
ングの効果でプリエコーを知覚されないようにし、それ
以外の場合ではブロック長を長くすることが考えられる
が、本直交変換符号化装置１０においては、後述するよ
うにＭＤＣＴによる直交変換係数ではなく、入力ディジ
タル音声データを別途高速フーリエ変換して得られるパ
ワースペクトルを用いてマスキング計算を行うようにし
たこと並びに符号化の単位である符号化ブロック内の同
一のグループには、複数のＭＤＣＴブロックに対して同
じビット割当を用いるようにしたことにより、短い固定
ブロック長でＭＤＣＴを行うように構成してハードウエ
ア構成を簡単にしている。

【００５１】ここで、ＭＤＣＴの具体例を説明する。本
実施例における符号化の単位である符号化ブロックは、
２０４８サンプル（４８ｋＨｚサンプリングで４２．７
ｍｓ）からなっている（図３参照）。

【００５２】これをＱＭＦで二つのサブバンドに分割す
ると各帯域通過信号は、第１サブバンド：帯域０〜１２ｋＨｚ、１０２４サンプ
ル第２サブバンド：帯域０〜２４ｋＨｚ、１０２４サンプ
ルとなる。

【００５３】次に第１サブバンドについては５１２点
で、第２サブバンドについては２５６点で５０［％］ず
つオーバーラップさせながら固定ブロック長でＭＤＣＴ
を行う。

【００５４】この結果、符号化ブロック単位でみると、
第１サブバンドに対しては４回、第２サブバンドに対し
ては８回のＭＤＣＴを行っていることとなる。各サブバ
ンドの１回のＭＤＣＴで得られる変換係数の数は、第１
サブバンドで２５６点、第２サブバンドで１２８点とな
る。

【００５５】したがって、各サブバンドのＭＤＣＴの周
波数分解能Δｆは、第１サブバンド：Δｆ₁＝４６．８７５Ｈｚ第２サブバンド：Δｆ₂＝９３．７５Ｈｚとなり、第１サブバンドの方が第２サブバンドの２倍の
高分解能となる。

【００５６】また、各サブバンドのＭＤＣＴの時間分解
能Δｔは、第１サブバンド：Δｔ₁＝１０．７ｍｓ第２サブバンド：Δｔ₂＝５．３ｍｓとなり、逆に第２サブバンドのほうが第１サブバンドの
２倍の高分解能となっている。

【００５７】この様に直交変換符号化装置１０の構成に
よれば、ＱＭＦ及びＭＤＣＴによって得られる直交変換
係数の時間−周波数構造は低域で周波数分解能が高く、
高域で時間分解能が高いという、人間の聴覚特性にあわ
せたものとなる。

【００５８】上述した例の場合、第１サブバンドでは２
５６点のＭＤＣＴによる直交変換係数が得られ、第２サ
ブバンドでは１２８点のＭＤＣＴによる直交変換係数が
得られる。したがって、全帯域（０〜２４ｋＨｚ）で
は、３８４点の直交変換係数が得られる。

【００５９】得られた直交変換係数は、複数個づつグル
ープ化され、当該グループを単位としてビット数が割り
当てられ、量子化されることとなる。以下の説明におい
ては、このグループをバンドと呼ぶこととする。

【００６０】本実施例におけるＭＤＣＴ直交変換係数の
バンド分割は、聴覚特性を考慮して高域になるほどバン
ド幅が広くなるように分割している。具体的には、０〜６ｋＨｚ：バンド幅５００Ｈｚ→バンド１〜１
２６〜１２ｋＨｚ：バンド幅７５０Ｈｚ→バンド１３〜
２０１２〜２４ｋＨｚ：バンド幅１ｋＨｚ →バンド２１〜
２８程度となるようにバンド分割を行っている。３）高速フーリエ変換部及びマスキング計算ビット割当
部の動作マスキング効果とは、例えば、ジェット機の轟音で周囲
の他の音がかき消されてしまうようにあるマスク音（マ
スカー）によってマスクされる他の音（マスキー）が聞
こえなくなったり、聞こえにくくなる効果（現象）であ
る。これによりマスクされる周波数成分（直交変換係
数）は、記録、伝送しなくても良い。あるいは、直交変
換係数を少ないビット数で粗く量子化して、量子化ノイ
ズが大きい場合であっても感知されにくくなる。

【００６１】ディジタル音声データのパワースペクトル
と、パワースペクトルから計算されるマスキング量の周
波数特性（マスキングオーディオグラム）から各バンド
の直交変換係数を量子化するのに必要なビット数を算出
するが、そのためにはまずパワースペクトルを求めなけ
ればならない。

【００６２】ＱＭＦ、ＭＤＣＴを通した符号化対象の直
交変換係数をパワースペクトルの計算に使用すれば、周
波数領域に変換する処理ルーチンが一つですむこととな
る。しかしながら、符号化対象の直交変換係数を用いた
場合には、ビット割当情報の更新は、変換ブロック長単
位となるために、ビット割当情報を減らすために長いブ
ロック長にしなければならずプリエコーの問題が生じ
る。

【００６３】このプリエコーを回避するために信号の急
激な立上がり部分では、短いブロック長に切り換える適
応ブロック長切換を行う必要が生じ、装置構成が複雑と
なるというデメリットが生じる。

【００６４】このため、直交変換符号化装置１０では、
マスキング量の計算にＱＭＦを通さずにバイパスさせた
入力ＰＣＭディジタル音声データを高速フーリエ変換し
たものを用いている。

【００６５】これにより、直交変換ブロック長とフーリ
エ変換ブロック長を独立に設定できるので、直交変換ブ
ロック長として短い固定ブロック長を用いた直交変換を
採用することができるとともに、フーリエ変換ブロック
長を長く設定することができ、複数の直交変換ブロック
にわたって同一のビット割当を行うことができることと
なり、ビット割当情報量を減らすことができる。４）量子化器の動作直交変換係数の量子化は、符号化ブロック単位でバンド
毎に直交変換データをその標準偏差で正規化した振幅に
対して割り当てられたビット数で行う。これは、ＱＭ
Ｆ、ＭＤＣＴによって算出したスペクトラムはダイナミ
ックレンジが大きく、そのまま量子化したのでは非常に
効率が悪いからである。５）フォーマッティング部の動作この後、フォーマッティング部１６は、量子化データＤ
_QX及びビット割当情報データＤ_Bを多重化し、符号化デ
ータＤ_CODEとして出力する。

【００６６】本実施例によれば、サイド情報データとし
てのビット割当情報は、複数の直交変換ブロックからな
る符号化ブロック単位で更新されるので、符号化データ
全体に対するサイド情報データの割合が小さくなり、特
に低ビットレートでこの方法を用いた場合に有利とな
る。

【００６７】さらに、各サブバンド毎に定めた固定ブロ
ック長の直交変換を採用しているのでハードウェア構成
が非常に簡単になる。

【００６８】

【発明の効果】請求項１又は請求項２記載の発明によれ
ば、入力ディジタル音声データを直接フーリエ変換して
パワースペクトルを求め、求めたパワースペクトルに基
づいて直交変換係数を量子化するビット数を決定するこ
とにより、直交変換の変換ブロック長と、フーリエ変換
の変換ブロック長と、を独立に設定できる。

【００６９】したがって、直交変換の変換ブロック長と
して短い固定変換ブロック長を採用して直交変換を行う
ことができ、複雑な適応ブロック長切換を行わなくとも
プリエコーの問題を回避でき、ハードウェア構成を非常
に簡略化することができる。

【００７０】さらにフーリエ変換の変換ブロック長を長
くすることにより、グループ化した直交変換係数群を構
成する直交変換係数を複数の変換ブロックにわたって同
一のビット数で量子化することができるので、ビット割
当情報量を低減して、圧縮率を向上させることができ
る。したがって、特に低ビットレートの符号化で有利と
なる。

【図面の簡単な説明】

【図１】実施例の直交変換符号化装置の基本構成を示す
ブロック図である。

【図２】実施例の直交変換符号化装置の詳細構成を示す
ブロック図である。

【図３】サブバンド分割・直交変換のブロック長の具体
例の説明図である。

【図４】プリエコーの影響についての説明図である。

【図５】従来例の直交変換符号化装置の詳細構成を示す
ブロック図である。

【符号の説明】

１…直交変換符号化装置２…分析部３…聴覚心理モデル部４…量子化部５…フォーマッティング部１０…直交変換符号化装置１１…ＱＭＦ（Quadrature Mirror Filter）１２_-1〜１２_-k…第１〜第ｋ直交変換部１３…高速フーリエ変換部（ＦＦＴ）１４…マスキング計算ビット割当部１５…量子化器１６…フォーマッティング部Ｄ_PCM…ディジタル音声データＤ_X…直交変換係数Ｄ_QC…量子化ビット数制御データＤ_B…ビット割当情報データＤ_QX…量子化データＤ_CODE…符号化データＤ_SB1，Ｄ_SBk…第１〜第ｋサブバンドデータＤ_X1〜Ｄ_Xk…直交変換係数Ｄ_PS…パワースペクトル推定データＤ_BS…ブロック長情報データ

Claims

【特許請求の範囲】

【請求項１】ディジタル音声データを符号化する直交
変換符号化装置において、前記ディジタル音声データを複数の周波数帯域に分割し
帯域分割データとして出力する帯域分割手段と、前記周波数帯域毎に予め設定した所定の変換ブロック長
で各前記帯域分割データを直交変換して各変換ブロック
毎の直交変換係数を算出し、得られた直交変換係数をグ
ループ化して直交変換係数群として出力する分析手段
と、前記ディジタル音声データを高速フーリエ変換し、パワ
ースペクトルデータを出力するフーリエ変換手段と、前記パワースペクトルデータに基づいてマスキング量を
計算し、前記マスキング量に基づいて同一の前記直交変
換係数群を構成する前記直交変換係数を複数の変換ブロ
ックにわたって同一のビット数で量子化するためのビッ
ト数制御データを出力するとともに、各前記直交変換係
数群毎のビット割当情報データを出力するビット割当情
報生成手段と、前記ビット数制御データに基づいて前記直交変換係数を
量子化して量子化データとして出力する量子化手段と、前記量子化データ及び前記ビット割当情報データを多重
化し、符号化データとして出力するフォーマッティング
手段と、を備えたことを特徴とする直交変換符号化装置。
【請求項２】ディジタル音声データを符号化する直交
変換符号化方法において、前記ディジタル音声データを複数の周波数帯域に分割し
帯域分割データとして出力する帯域分割工程と、前記周波数帯域毎に予め設定した所定の変換ブロック長
で各前記帯域分割データを直交変換して各変換ブロック
毎の直交変換係数を算出し、得られた直交変換係数をグ
ループ化して直交変換係数群として出力する分析工程
と、前記ディジタル音声データを高速フーリエ変換し、パワ
ースペクトルデータを出力するフーリエ変換工程と、前記パワースペクトルデータに基づいてマスキング量を
計算し、前記マスキング量に基づいて同一の前記直交変
換係数群を構成する前記直交変換係数を複数の変換ブロ
ックにわたって同一のビット数で量子化するためのビッ
ト数制御データを出力するとともに、各前記直交変換係
数群毎のビット割当情報データを出力するビット割当情
報生成工程と、前記ビット数制御データに基づいて前記直交変換係数を
量子化して量子化データとして出力する量子化工程と、前記量子化データ及び前記ビット割当情報データを多重
化し、符号化データとして出力するフォーマッティング
工程と、を備えたことを特徴とする直交変換符号化方法。