JP2003280697A

JP2003280697A - 音声圧縮方法および音声圧縮装置

Info

Publication number: JP2003280697A
Application number: JP2002081035A
Authority: JP
Inventors: Tatsufumi Oyama; 達史大山; Hideki Yamauchi; 英樹山内
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2002-03-22
Filing date: 2002-03-22
Publication date: 2003-10-02

Abstract

(57)【要約】【課題】圧縮率に応じて量子化ビットを割り当てる音
声圧縮技術を提供する。【解決手段】聴覚心理分析部１１６は、調整係数選択
部１２４からマスキング曲線を調整するための調整係数
を受け取り、マスキングレベルＭをサブバンドごとに算
出する。この調整係数は、圧縮率に応じて設定されてい
る。聴覚心理分析部１１６は、達成すべきデータ圧縮率
に応じてマスキング曲線を生成し、このマスキング曲線
を用いて圧縮率に応じたマスキングレベルＭをサブバン
ドごとに設定する。ビット割当部１１８は、このマスキ
ングレベルＭに基づいてサブバンドごとに量子化ビット
の割当量を決定する。圧縮率に応じて量子化ビットの割
当てを実現することとしたため、圧縮率の変化に対応し
た音声符号化データを生成することが可能となり、聴感
上優れた再生信号を得ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号を圧縮す
る方法および装置に関し、特に量子化ビットをサブバン
ドごとに割り当てる技術に関する。

【０００２】

【従来の技術】近年、デジタル音声信号を高圧縮率で符
号化する研究開発が盛んに行われており、その適用分野
も拡大している。特に、ポータブル型音声再生装置の普
及に伴い、例えばＣＤ（コンパクトディスク）に記録さ
れたリニアＰＣＭ信号を、小型の半導体メモリやミニデ
ィスクなどの記録媒体に圧縮して記録することが一般化
している。また、情報が氾濫する現代においてデータ圧
縮技術は不可欠なものであり、ＨＤ（ハードディスク）
やＣＤ−Ｒ、ＤＶＤなどの大容量記録媒体であっても、
圧縮したデータを記録して記録容量を少なくすることが
望ましい。この圧縮符号化は、人間の聴覚特性を利用し
た不要な信号の選別や、量子化ビット量の割当ての最適
化、さらにはハフマン符号化など様々な技術を駆使する
ことにより行われる。高音質且つ高圧縮の音声信号圧縮
手法は、本分野の最重要課題として日々研究されてい
る。

【０００３】音声圧縮にあたっては、まず例えば１６ビ
ットのデジタル音声信号１０２４個を時間−周波数変換
して、複数の周波数帯域（サブバンド）に分割する。次
に、聴覚心理分析を行い、この情報に基づきサブバンド
ごとのマスキングレベルを決定し、このマスキングレベ
ルを用いて量子化ビットの割当てを行う。それから割り
当てられた量子化ビットによりサブバンドのスペクトラ
ム信号成分を量子化して可変長符号化する。

【０００４】人間の耳は、周波数に応じて可聴レベルに
限界があり（最小可聴限界）、またさらに高レベルのス
ペクトラム信号成分付近の信号も聞こえにくくなる（マ
スキング効果）特性を有している。これら２つの特性
は、前者が「最小可聴限界曲線」、後者が「マスキング
効果曲線」として関数で表現することができる。サブバ
ンドごとのマスキングレベルは、この最小可聴限界曲線
とマスキング効果曲線とを合成して得られる「マスキン
グ曲線」により決定される。マスキング効果曲線は、帯
域に応じて決定されることが知られている。

【０００５】

【発明が解決しようとする課題】今日のオーディオ装置
などでは、録音時にユーザが自由に圧縮率を選択できる
ようになっている。しかしながら、マスキング曲線が単
に帯域に応じて定められるものであるため、従来のビッ
ト割当て処理は様々な圧縮率に対応することができず、
圧縮率によっては高音質な再生信号を得ることが困難で
あるという問題があった。また、マスキング曲線を帯域
内のエネルギ量により修正する技術もあるが、これも圧
縮率の変化に対応していないことに変わりはない。

【０００６】そこで、本発明は、上記の課題を解決する
ことのできる音声圧縮方法および音声圧縮装置を提供す
ることを目的とする。

【０００７】

【課題を解決するための手段】上記課題を解決するため
に、本発明の一つの態様は音声信号を所定数のサブバン
ドに分割して、サブバンドごとにスペクトラム信号成分
を出力するステップと、達成すべきデータ圧縮率に応じ
てサブバンドごとに設定されるマスキングレベルに基づ
いて、サブバンドごとに量子化ビットの割当量を決定す
るステップと、割り当てられた量子化ビット量に基づい
てスペクトラム信号成分を量子化するステップとを備え
た音声圧縮方法を提供する。この態様の音声圧縮方法に
よると、データ圧縮率に応じてマスキングレベルが設定
されるため、圧縮率の変化に好適に対応したビット割当
てを行うことが可能となる。なお、音声信号とは、楽音
や声などを含む信号である。

【０００８】本発明の別の態様は、音声信号を所定数の
サブバンドに分割して、サブバンドごとにスペクトラム
信号成分を出力する分割部と、達成すべきデータ圧縮率
に応じてサブバンドごとに設定されるマスキングレベル
に基づいて、サブバンドごとに量子化ビットの割当量を
決定するビット割当部と、割り当てられた量子化ビット
量に基づいてスペクトラム信号成分を量子化して符号化
する量子化符号化部とを備えた音声圧縮装置を提供す
る。この態様の音声圧縮装置によると、データ圧縮率に
応じてマスキングレベルが設定されるため、圧縮率の変
化に好適に対応したビット割当てを行うことが可能とな
る。

【０００９】この音声圧縮装置は、マスキング曲線から
マスキングレベルを決定する聴覚心理分析部と、データ
圧縮率に応じて、マスキング曲線を調整するための調整
係数を聴覚心理分析部に出力する調整係数選択部とをさ
らに備えてもよい。調整係数選択部は、データ圧縮率
と、サブバンドごとの調整係数の関係を記述したテーブ
ルを保持し、このテーブルを用いて調整係数を聴覚心理
分析部に出力してもよい。

【００１０】なお、以上の構成要素の任意の組合せ、本
発明の表現を方法、装置、システム、記録媒体などの間
で変換したものもまた、本発明の態様として有効であ
る。

【００１１】

【発明の実施の形態】図１は、本発明の実施の形態に係
る音声圧縮装置１００の構成を示す。この音声圧縮装置
１００は、サブバンド分割部１１２、スケーリング部１
１４、聴覚心理分析部１１６、ビット割当部１１８、量
子化符号化部１２０、ビットストリーム生成部１２２お
よび調整係数選択部１２４を備える。音声圧縮装置１０
０は、ハードウエアコンポーネントでいえば、任意のオ
ーディオ装置のＣＰＵ、メモリ、メモリにロードされた
プログラムなどによって実現されるが、ここではそれら
の連携によって実現される機能ブロックを描いている。
音声圧縮装置１００の機能の全部または一部は、ＬＳＩ
化されてもよい。したがって、これらの機能ブロックが
ハードウエアのみ、ソフトウエアのみ、またはそれらの
組合せによっていろいろな形で実現できることは、当業
者には理解されるところである。

【００１２】音声信号が音声圧縮装置１００に供給され
ると、サブバンド分割部１１２が、音声信号を時間−周
波数変換して所定数のサブバンドに分割し、サブバンド
ごとにスペクトラム信号成分を出力する。音声信号は、
デジタル化された時系列信号であり、ＣＤによる音声信
号は、４４．１ｋＨｚで１６ビットの量子化ビット数を
もつリニアＰＣＭである。例えばサブバンド分割部１１
２は、１６ビットの信号１０２４個を時間−周波数変換
してスペクトラム信号を生成し、このスペクトラム信号
を所定の帯域が割り当てられた３２個のサブバンドに分
割する。これらのサブバンドは、低域側ほどデータ数が
少なく、高域側ほどデータ数が多いという特徴をもつ。
サブバンド分割部１１２は、複数の帯域分割フィルタな
どから構成される。

【００１３】スケーリング部１１４は、サブバンド分割
部１１２より送られてきたスペクトラム信号成分をスケ
ーリングし、サブバンドごとにスケールファクタを算出
して定める。具体的にスケーリング部１１４は、サブバ
ンドごとにスペクトラム信号成分の最大振幅値を検出
し、この最大振幅値以上であって且つ最もこの最大振幅
値に近いスケールファクタを算出する。このスケールフ
ァクタは、復号時に音声データをもとの波形に戻すため
の正規化時の倍率に応じた値であり、量子化データがと
りうる範囲を示す。スケーリング部１１４は、スケーリ
ング後のスペクトラム周波数成分およびスケールファク
タを量子化符号化部１２０に供給する。

【００１４】聴覚心理分析部１１６は、聴覚心理モデル
を用いて人間の耳に感知できないレベル閾値を示すマス
キングレベルＭをサブバンドごとに算出する。マスキン
グレベルは、最小可聴限界曲線とマスキング効果曲線と
を合成して得られるマスキング曲線により一意に決定さ
れる。聴覚心理分析部１１６は、このマスキング曲線を
用いて、達成すべきデータ圧縮率に応じてマスキングレ
ベルＭをサブバンドごとに設定する。それから、聴覚心
理分析部１１６は、信号ＳとマスキングレベルＭの相対
比であるＳＭＲを算出する。

【００１５】図２は、聴覚心理分析部１１６の構成を示
す。聴覚心理分析部１１６は、周波数分析部１３０、マ
スキングレベル算出部１３２およびＳＭＲ算出部１３４
を備える。周波数分析部１３０は、音声信号を受けて、
ＦＦＴなどにより周波数軸上の信号Ｓに変換する。マス
キングレベル算出部１３２は、調整係数選択部１２４か
らマスキング曲線を調整するための調整係数を受け取
り、マスキング曲線の関数を生成する。

【００１６】マスキング曲線は、最小可聴限界曲線とマ
スキング効果曲線を合成することによって生成される。
分割された複数のサブバンドのうち、ｉ番目のサブバン
ドに対するマスキング効果曲線は、ｉ番目のサブバンド
の電力総和の２乗をSiとし、マスキング効果曲線をMi
(j)とし、調整係数をfiとした場合に、 10^(Li(j)/10) = Si×10^(Mi(j)/10)×10^(fi/10) ・・・（１）と表現される。ここで、^は、ベキ乗を示す。

【００１７】最小可聴限界曲線をLa(j)と表現すると、
ｊ番目のサブバンドに対するマスキング曲線Tjは、 Tj = Σ(10^(Li(j)/10))＋10^(La(j)/10) ・・・（２）と表現される。

【００１８】数式（１）において、調整係数fiは、デー
タ圧縮率に応じて設定され、調整係数選択部１２４より
供給される。そのため、数式（２）で示されるマスキン
グ曲線Tjも圧縮率に応じて定められることとなり、マス
キングレベル算出部１３２は、このマスキング曲線から
マスキングレベルを決定する。

【００１９】図３は、調整係数選択部１２４により保持
されるデータ圧縮率と、サブバンドごとの調整係数の関
係を記述したテーブルの一例を示す。各圧縮率におい
て、調整係数fiがそれぞれのサブバンドごとに定められ
ている。理解を容易にするために、この調整係数は互い
の比をもって表現しており、実際にはこの値に所定の係
数を乗算した値が数式（１）に代入されることになる。
本発明者はこの調整係数を、再生信号の音質が好適とな
るように実験によって求めた。なお、実際の実験におい
ては、他の要素も加味して音質の調整を行った。

【００２０】図４は、調整係数を変化させたときのマス
キング効果曲線を模式的に示す。マスキング効果曲線
は、調整係数によって振幅（縦軸）方向に上下するよう
な傾向を示す。上下する結果、曲線１は信号２をマスク
するが、曲線２は信号２をマスクしないため、曲線２の
マスキング効果曲線を採用した場合には、最小可聴限界
曲線の影響を無視する限りにおいて、信号２をデータと
して扱うことが可能となる。マスキング効果曲線が変化
することによって、マスキング曲線も同様に変化するこ
ととなり、高レベルの信号周辺のサブバンドにおける信
号をデータとして扱うことができるようになるなど、デ
ータ圧縮率に応じた木目細かなビット割当てを実現する
ことが可能となる。

【００２１】図１に戻って、ビット割当部１１８は、圧
縮率に応じて算出されたＳＭＲを用いて、サブバンドご
とに量子化ビットの割当量を定める。このことは、ビッ
ト割当部１１８が、圧縮率に応じてサブバンドごとに設
定されるマスキングレベルに基づいて、サブバンドごと
に量子化ビット量を決定することに等しい。ビット割当
部１１８は、聴覚心理分析部１１６から供給されるＳＭ
Ｒを受け取り、サブバンドのマスキングレベルＭとノイ
ズＮの相対比を示すＭＮＲを算出する。この算出には、
信号ＳとノイズＮの相対比であるＳＮＲが用いられる。
このＳＮＲは、量子化ビット量に応じて定められる。Ｓ
ＭＲとＳＮＲの単位をデシベル（ｄＢ）に合せることに
よって、ＭＮＲ値は、ＭＮＲ＝ＳＮＲ−ＳＭＲで求めら
れる。ビット割当部１１８は、このＭＮＲを用いて様々
な手法でビットの割当量を決定することができ、例えば
ＭＮＲの低いサブバンドに対してビットを割り当てるよ
うにしてもよい。

【００２２】量子化符号化部１２０は、スケーリング部
１１４から供給されるスケールファクタと、ビット割当
部１１８から供給される量子化ビット割当量に基づい
て、各サブバンドのスペクトラム信号成分を量子化す
る。それから、量子化符号化部１２０は、この量子化さ
れたデータをハフマン符号化技術などを用いて可変長符
号化する。ビットストリーム生成部１２２は、量子化符
号化されたデータをビットストリームに生成して、録音
用の記録媒体などに供給する。

【００２３】以上、本発明をいくつかの実施の形態をも
とに説明した。これらの実施の形態は例示であり、それ
らの各構成要素や各処理プロセスの組合せにいろいろな
変形例が可能なこと、またそうした変形例も本発明の範
囲にあることは当業者に理解されるところである。

【００２４】

【発明の効果】本発明によると、圧縮率に応じた好適な
ビット割当てを行う音声圧縮技術を提供することができ
る。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声圧縮装置の構
成を示す図である。

【図２】聴覚心理分析部の構成を示す図である。

【図３】データ圧縮率と、サブバンドごとの調整係数
の関係を記述したテーブルの一例を示す図である。

【図４】調整係数を変化させたときのマスキング効果
曲線を模式的に示した図である。

【符号の説明】

１００・・・音声圧縮装置、１１２・・・サブバンド分
割部、１１６・・・聴覚心理分析部、１１８・・・ビッ
ト割当部、１２０・・・量子化符号化部、１２４・・・
調整係数選択部。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5D045 DA20 5J064 AA00 BA16 BB12 BC16 BC26 BD03

Claims

【特許請求の範囲】

【請求項１】音声信号を所定数のサブバンドに分割し
て、サブバンドごとにスペクトラム信号成分を出力する
ステップと、達成すべきデータ圧縮率に応じてサブバンドごとに設定
されるマスキングレベルに基づいて、サブバンドごとに
量子化ビットの割当量を決定するステップと、割り当て
られた量子化ビット量に基づいてスペクトラム信号成分
を量子化するステップとを備えることを特徴とする音声
圧縮方法。
【請求項２】音声信号を所定数のサブバンドに分割し
て、サブバンドごとにスペクトラム信号成分を出力する
分割部と、達成すべきデータ圧縮率に応じてサブバンドごとに設定
されるマスキングレベルに基づいて、サブバンドごとに
量子化ビットの割当量を決定するビット割当部と、割り当てられた量子化ビット量に基づいてスペクトラム
信号成分を量子化して符号化する量子化符号化部とを備
えたことを特徴とする音声圧縮装置。
【請求項３】マスキング曲線からマスキングレベルを
決定する聴覚心理分析部と、データ圧縮率に応じて、前記マスキング曲線を調整する
ための調整係数を前記聴覚心理分析部に出力する調整係
数選択部とを備えたことを特徴とする請求項２に記載の
音声圧縮装置。
【請求項４】前記調整係数選択部は、データ圧縮率
と、サブバンドごとの調整係数の関係を記述したテーブ
ルを保持することを特徴とする請求項３に記載の音声圧
縮装置。