JP2003280697A - 音声圧縮方法および音声圧縮装置 - Google Patents

音声圧縮方法および音声圧縮装置

Info

Publication number
JP2003280697A
JP2003280697A JP2002081035A JP2002081035A JP2003280697A JP 2003280697 A JP2003280697 A JP 2003280697A JP 2002081035 A JP2002081035 A JP 2002081035A JP 2002081035 A JP2002081035 A JP 2002081035A JP 2003280697 A JP2003280697 A JP 2003280697A
Authority
JP
Japan
Prior art keywords
subband
masking
unit
curve
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002081035A
Other languages
English (en)
Inventor
Tatsufumi Oyama
達史 大山
Hideki Yamauchi
英樹 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2002081035A priority Critical patent/JP2003280697A/ja
Publication of JP2003280697A publication Critical patent/JP2003280697A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 圧縮率に応じて量子化ビットを割り当てる音
声圧縮技術を提供する。 【解決手段】 聴覚心理分析部116は、調整係数選択
部124からマスキング曲線を調整するための調整係数
を受け取り、マスキングレベルMをサブバンドごとに算
出する。この調整係数は、圧縮率に応じて設定されてい
る。聴覚心理分析部116は、達成すべきデータ圧縮率
に応じてマスキング曲線を生成し、このマスキング曲線
を用いて圧縮率に応じたマスキングレベルMをサブバン
ドごとに設定する。ビット割当部118は、このマスキ
ングレベルMに基づいてサブバンドごとに量子化ビット
の割当量を決定する。圧縮率に応じて量子化ビットの割
当てを実現することとしたため、圧縮率の変化に対応し
た音声符号化データを生成することが可能となり、聴感
上優れた再生信号を得ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を圧縮す
る方法および装置に関し、特に量子化ビットをサブバン
ドごとに割り当てる技術に関する。
【0002】
【従来の技術】近年、デジタル音声信号を高圧縮率で符
号化する研究開発が盛んに行われており、その適用分野
も拡大している。特に、ポータブル型音声再生装置の普
及に伴い、例えばCD(コンパクトディスク)に記録さ
れたリニアPCM信号を、小型の半導体メモリやミニデ
ィスクなどの記録媒体に圧縮して記録することが一般化
している。また、情報が氾濫する現代においてデータ圧
縮技術は不可欠なものであり、HD(ハードディスク)
やCD−R、DVDなどの大容量記録媒体であっても、
圧縮したデータを記録して記録容量を少なくすることが
望ましい。この圧縮符号化は、人間の聴覚特性を利用し
た不要な信号の選別や、量子化ビット量の割当ての最適
化、さらにはハフマン符号化など様々な技術を駆使する
ことにより行われる。高音質且つ高圧縮の音声信号圧縮
手法は、本分野の最重要課題として日々研究されてい
る。
【0003】音声圧縮にあたっては、まず例えば16ビ
ットのデジタル音声信号1024個を時間−周波数変換
して、複数の周波数帯域(サブバンド)に分割する。次
に、聴覚心理分析を行い、この情報に基づきサブバンド
ごとのマスキングレベルを決定し、このマスキングレベ
ルを用いて量子化ビットの割当てを行う。それから割り
当てられた量子化ビットによりサブバンドのスペクトラ
ム信号成分を量子化して可変長符号化する。
【0004】人間の耳は、周波数に応じて可聴レベルに
限界があり(最小可聴限界)、またさらに高レベルのス
ペクトラム信号成分付近の信号も聞こえにくくなる(マ
スキング効果)特性を有している。これら2つの特性
は、前者が「最小可聴限界曲線」、後者が「マスキング
効果曲線」として関数で表現することができる。サブバ
ンドごとのマスキングレベルは、この最小可聴限界曲線
とマスキング効果曲線とを合成して得られる「マスキン
グ曲線」により決定される。マスキング効果曲線は、帯
域に応じて決定されることが知られている。
【0005】
【発明が解決しようとする課題】今日のオーディオ装置
などでは、録音時にユーザが自由に圧縮率を選択できる
ようになっている。しかしながら、マスキング曲線が単
に帯域に応じて定められるものであるため、従来のビッ
ト割当て処理は様々な圧縮率に対応することができず、
圧縮率によっては高音質な再生信号を得ることが困難で
あるという問題があった。また、マスキング曲線を帯域
内のエネルギ量により修正する技術もあるが、これも圧
縮率の変化に対応していないことに変わりはない。
【0006】そこで、本発明は、上記の課題を解決する
ことのできる音声圧縮方法および音声圧縮装置を提供す
ることを目的とする。
【0007】
【課題を解決するための手段】上記課題を解決するため
に、本発明の一つの態様は音声信号を所定数のサブバン
ドに分割して、サブバンドごとにスペクトラム信号成分
を出力するステップと、達成すべきデータ圧縮率に応じ
てサブバンドごとに設定されるマスキングレベルに基づ
いて、サブバンドごとに量子化ビットの割当量を決定す
るステップと、割り当てられた量子化ビット量に基づい
てスペクトラム信号成分を量子化するステップとを備え
た音声圧縮方法を提供する。この態様の音声圧縮方法に
よると、データ圧縮率に応じてマスキングレベルが設定
されるため、圧縮率の変化に好適に対応したビット割当
てを行うことが可能となる。なお、音声信号とは、楽音
や声などを含む信号である。
【0008】本発明の別の態様は、音声信号を所定数の
サブバンドに分割して、サブバンドごとにスペクトラム
信号成分を出力する分割部と、達成すべきデータ圧縮率
に応じてサブバンドごとに設定されるマスキングレベル
に基づいて、サブバンドごとに量子化ビットの割当量を
決定するビット割当部と、割り当てられた量子化ビット
量に基づいてスペクトラム信号成分を量子化して符号化
する量子化符号化部とを備えた音声圧縮装置を提供す
る。この態様の音声圧縮装置によると、データ圧縮率に
応じてマスキングレベルが設定されるため、圧縮率の変
化に好適に対応したビット割当てを行うことが可能とな
る。
【0009】この音声圧縮装置は、マスキング曲線から
マスキングレベルを決定する聴覚心理分析部と、データ
圧縮率に応じて、マスキング曲線を調整するための調整
係数を聴覚心理分析部に出力する調整係数選択部とをさ
らに備えてもよい。調整係数選択部は、データ圧縮率
と、サブバンドごとの調整係数の関係を記述したテーブ
ルを保持し、このテーブルを用いて調整係数を聴覚心理
分析部に出力してもよい。
【0010】なお、以上の構成要素の任意の組合せ、本
発明の表現を方法、装置、システム、記録媒体などの間
で変換したものもまた、本発明の態様として有効であ
る。
【0011】
【発明の実施の形態】図1は、本発明の実施の形態に係
る音声圧縮装置100の構成を示す。この音声圧縮装置
100は、サブバンド分割部112、スケーリング部1
14、聴覚心理分析部116、ビット割当部118、量
子化符号化部120、ビットストリーム生成部122お
よび調整係数選択部124を備える。音声圧縮装置10
0は、ハードウエアコンポーネントでいえば、任意のオ
ーディオ装置のCPU、メモリ、メモリにロードされた
プログラムなどによって実現されるが、ここではそれら
の連携によって実現される機能ブロックを描いている。
音声圧縮装置100の機能の全部または一部は、LSI
化されてもよい。したがって、これらの機能ブロックが
ハードウエアのみ、ソフトウエアのみ、またはそれらの
組合せによっていろいろな形で実現できることは、当業
者には理解されるところである。
【0012】音声信号が音声圧縮装置100に供給され
ると、サブバンド分割部112が、音声信号を時間−周
波数変換して所定数のサブバンドに分割し、サブバンド
ごとにスペクトラム信号成分を出力する。音声信号は、
デジタル化された時系列信号であり、CDによる音声信
号は、44.1kHzで16ビットの量子化ビット数を
もつリニアPCMである。例えばサブバンド分割部11
2は、16ビットの信号1024個を時間−周波数変換
してスペクトラム信号を生成し、このスペクトラム信号
を所定の帯域が割り当てられた32個のサブバンドに分
割する。これらのサブバンドは、低域側ほどデータ数が
少なく、高域側ほどデータ数が多いという特徴をもつ。
サブバンド分割部112は、複数の帯域分割フィルタな
どから構成される。
【0013】スケーリング部114は、サブバンド分割
部112より送られてきたスペクトラム信号成分をスケ
ーリングし、サブバンドごとにスケールファクタを算出
して定める。具体的にスケーリング部114は、サブバ
ンドごとにスペクトラム信号成分の最大振幅値を検出
し、この最大振幅値以上であって且つ最もこの最大振幅
値に近いスケールファクタを算出する。このスケールフ
ァクタは、復号時に音声データをもとの波形に戻すため
の正規化時の倍率に応じた値であり、量子化データがと
りうる範囲を示す。スケーリング部114は、スケーリ
ング後のスペクトラム周波数成分およびスケールファク
タを量子化符号化部120に供給する。
【0014】聴覚心理分析部116は、聴覚心理モデル
を用いて人間の耳に感知できないレベル閾値を示すマス
キングレベルMをサブバンドごとに算出する。マスキン
グレベルは、最小可聴限界曲線とマスキング効果曲線と
を合成して得られるマスキング曲線により一意に決定さ
れる。聴覚心理分析部116は、このマスキング曲線を
用いて、達成すべきデータ圧縮率に応じてマスキングレ
ベルMをサブバンドごとに設定する。それから、聴覚心
理分析部116は、信号SとマスキングレベルMの相対
比であるSMRを算出する。
【0015】図2は、聴覚心理分析部116の構成を示
す。聴覚心理分析部116は、周波数分析部130、マ
スキングレベル算出部132およびSMR算出部134
を備える。周波数分析部130は、音声信号を受けて、
FFTなどにより周波数軸上の信号Sに変換する。マス
キングレベル算出部132は、調整係数選択部124か
らマスキング曲線を調整するための調整係数を受け取
り、マスキング曲線の関数を生成する。
【0016】マスキング曲線は、最小可聴限界曲線とマ
スキング効果曲線を合成することによって生成される。
分割された複数のサブバンドのうち、i番目のサブバン
ドに対するマスキング効果曲線は、i番目のサブバンド
の電力総和の2乗をSiとし、マスキング効果曲線をMi
(j)とし、調整係数をfiとした場合に、 10^(Li(j)/10) = Si×10^(Mi(j)/10)×10^(fi/10) ・・・(1) と表現される。ここで、^は、ベキ乗を示す。
【0017】最小可聴限界曲線をLa(j)と表現すると、
j番目のサブバンドに対するマスキング曲線Tjは、 Tj = Σ(10^(Li(j)/10))+10^(La(j)/10) ・・・(2) と表現される。
【0018】数式(1)において、調整係数fiは、デー
タ圧縮率に応じて設定され、調整係数選択部124より
供給される。そのため、数式(2)で示されるマスキン
グ曲線Tjも圧縮率に応じて定められることとなり、マス
キングレベル算出部132は、このマスキング曲線から
マスキングレベルを決定する。
【0019】図3は、調整係数選択部124により保持
されるデータ圧縮率と、サブバンドごとの調整係数の関
係を記述したテーブルの一例を示す。各圧縮率におい
て、調整係数fiがそれぞれのサブバンドごとに定められ
ている。理解を容易にするために、この調整係数は互い
の比をもって表現しており、実際にはこの値に所定の係
数を乗算した値が数式(1)に代入されることになる。
本発明者はこの調整係数を、再生信号の音質が好適とな
るように実験によって求めた。なお、実際の実験におい
ては、他の要素も加味して音質の調整を行った。
【0020】図4は、調整係数を変化させたときのマス
キング効果曲線を模式的に示す。マスキング効果曲線
は、調整係数によって振幅(縦軸)方向に上下するよう
な傾向を示す。上下する結果、曲線1は信号2をマスク
するが、曲線2は信号2をマスクしないため、曲線2の
マスキング効果曲線を採用した場合には、最小可聴限界
曲線の影響を無視する限りにおいて、信号2をデータと
して扱うことが可能となる。マスキング効果曲線が変化
することによって、マスキング曲線も同様に変化するこ
ととなり、高レベルの信号周辺のサブバンドにおける信
号をデータとして扱うことができるようになるなど、デ
ータ圧縮率に応じた木目細かなビット割当てを実現する
ことが可能となる。
【0021】図1に戻って、ビット割当部118は、圧
縮率に応じて算出されたSMRを用いて、サブバンドご
とに量子化ビットの割当量を定める。このことは、ビッ
ト割当部118が、圧縮率に応じてサブバンドごとに設
定されるマスキングレベルに基づいて、サブバンドごと
に量子化ビット量を決定することに等しい。ビット割当
部118は、聴覚心理分析部116から供給されるSM
Rを受け取り、サブバンドのマスキングレベルMとノイ
ズNの相対比を示すMNRを算出する。この算出には、
信号SとノイズNの相対比であるSNRが用いられる。
このSNRは、量子化ビット量に応じて定められる。S
MRとSNRの単位をデシベル(dB)に合せることに
よって、MNR値は、MNR=SNR−SMRで求めら
れる。ビット割当部118は、このMNRを用いて様々
な手法でビットの割当量を決定することができ、例えば
MNRの低いサブバンドに対してビットを割り当てるよ
うにしてもよい。
【0022】量子化符号化部120は、スケーリング部
114から供給されるスケールファクタと、ビット割当
部118から供給される量子化ビット割当量に基づい
て、各サブバンドのスペクトラム信号成分を量子化す
る。それから、量子化符号化部120は、この量子化さ
れたデータをハフマン符号化技術などを用いて可変長符
号化する。ビットストリーム生成部122は、量子化符
号化されたデータをビットストリームに生成して、録音
用の記録媒体などに供給する。
【0023】以上、本発明をいくつかの実施の形態をも
とに説明した。これらの実施の形態は例示であり、それ
らの各構成要素や各処理プロセスの組合せにいろいろな
変形例が可能なこと、またそうした変形例も本発明の範
囲にあることは当業者に理解されるところである。
【0024】
【発明の効果】本発明によると、圧縮率に応じた好適な
ビット割当てを行う音声圧縮技術を提供することができ
る。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る音声圧縮装置の構
成を示す図である。
【図2】 聴覚心理分析部の構成を示す図である。
【図3】 データ圧縮率と、サブバンドごとの調整係数
の関係を記述したテーブルの一例を示す図である。
【図4】 調整係数を変化させたときのマスキング効果
曲線を模式的に示した図である。
【符号の説明】
100・・・音声圧縮装置、112・・・サブバンド分
割部、116・・・聴覚心理分析部、118・・・ビッ
ト割当部、120・・・量子化符号化部、124・・・
調整係数選択部。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D045 DA20 5J064 AA00 BA16 BB12 BC16 BC26 BD03

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を所定数のサブバンドに分割し
    て、サブバンドごとにスペクトラム信号成分を出力する
    ステップと、 達成すべきデータ圧縮率に応じてサブバンドごとに設定
    されるマスキングレベルに基づいて、サブバンドごとに
    量子化ビットの割当量を決定するステップと、割り当て
    られた量子化ビット量に基づいてスペクトラム信号成分
    を量子化するステップとを備えることを特徴とする音声
    圧縮方法。
  2. 【請求項2】 音声信号を所定数のサブバンドに分割し
    て、サブバンドごとにスペクトラム信号成分を出力する
    分割部と、 達成すべきデータ圧縮率に応じてサブバンドごとに設定
    されるマスキングレベルに基づいて、サブバンドごとに
    量子化ビットの割当量を決定するビット割当部と、 割り当てられた量子化ビット量に基づいてスペクトラム
    信号成分を量子化して符号化する量子化符号化部とを備
    えたことを特徴とする音声圧縮装置。
  3. 【請求項3】 マスキング曲線からマスキングレベルを
    決定する聴覚心理分析部と、 データ圧縮率に応じて、前記マスキング曲線を調整する
    ための調整係数を前記聴覚心理分析部に出力する調整係
    数選択部とを備えたことを特徴とする請求項2に記載の
    音声圧縮装置。
  4. 【請求項4】 前記調整係数選択部は、データ圧縮率
    と、サブバンドごとの調整係数の関係を記述したテーブ
    ルを保持することを特徴とする請求項3に記載の音声圧
    縮装置。
JP2002081035A 2002-03-22 2002-03-22 音声圧縮方法および音声圧縮装置 Pending JP2003280697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002081035A JP2003280697A (ja) 2002-03-22 2002-03-22 音声圧縮方法および音声圧縮装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002081035A JP2003280697A (ja) 2002-03-22 2002-03-22 音声圧縮方法および音声圧縮装置

Publications (1)

Publication Number Publication Date
JP2003280697A true JP2003280697A (ja) 2003-10-02

Family

ID=29229826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002081035A Pending JP2003280697A (ja) 2002-03-22 2002-03-22 音声圧縮方法および音声圧縮装置

Country Status (1)

Country Link
JP (1) JP2003280697A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518422A (ja) * 2007-02-02 2010-05-27 フランス・テレコム 改良形デジタルオーディオ信号符号化/復号化方法
JP2013512474A (ja) * 2009-12-10 2013-04-11 サムスン エレクトロニクス カンパニー リミテッド 音響通信のための装置及び方法
CN106548780A (zh) * 2016-10-28 2017-03-29 南京邮电大学 一种语音信号的压缩感知重构方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518422A (ja) * 2007-02-02 2010-05-27 フランス・テレコム 改良形デジタルオーディオ信号符号化/復号化方法
JP2013512474A (ja) * 2009-12-10 2013-04-11 サムスン エレクトロニクス カンパニー リミテッド 音響通信のための装置及び方法
US9251807B2 (en) 2009-12-10 2016-02-02 Samsung Electronics Co., Ltd. Acoustic communication device and method for filtering an audio signal to attenuate a high frequency section of the audio signal and generating a residual signal and psychoacoustic spectrum mask
CN106548780A (zh) * 2016-10-28 2017-03-29 南京邮电大学 一种语音信号的压缩感知重构方法
CN106548780B (zh) * 2016-10-28 2019-10-15 南京邮电大学 一种语音信号的压缩感知重构方法

Similar Documents

Publication Publication Date Title
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JP4899359B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP3274285B2 (ja) オーディオ信号の符号化方法
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
JP2005202248A (ja) オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
JP4628861B2 (ja) 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JPH1084284A (ja) 信号再生方法および装置
JP2001343997A (ja) デジタル音響信号符号化装置、方法及び記録媒体
KR100636144B1 (ko) 오디오 신호 부호화/복호화 장치 및 방법
US7305346B2 (en) Audio processing method and audio processing apparatus
JP2003280697A (ja) 音声圧縮方法および音声圧縮装置
JP3297238B2 (ja) 適応的符号化システム及びビット割当方法
JP4024185B2 (ja) デジタルデータ符号化装置
JP2003280695A (ja) 音声圧縮方法および音声圧縮装置
JP2002351500A (ja) ディジタルデータの符号化方法
JP2000293199A (ja) 音声符号化方法および記録再生装置
JP2001267928A (ja) オーディオデータ圧縮装置、及び記憶媒体
JP3552881B2 (ja) 信号符号化装置
JP4573670B2 (ja) 符号化装置、符号化方法、復号化装置及び復号化方法
JP2005195983A (ja) ディジタルデータの符号化方法および符号化装置
JP2003280698A (ja) 音声圧縮方法および音声圧縮装置
JP5569476B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100195712B1 (ko) 디지탈 오디오 복호화기의 음질 조절 장치
JP3141853B2 (ja) オーディオ信号処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061211

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070626