JP3446216B2

JP3446216B2 - 音声信号処理方法

Info

Publication number: JP3446216B2
Application number: JP04972092A
Authority: JP
Inventors: 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-03-06
Filing date: 1992-03-06
Publication date: 2003-09-16
Anticipated expiration: 2018-09-16
Also published as: US5651093A; JPH05248972A; US5475789A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号を高能率符号
化して伝送させる音声信号処理方法に関する。

【０００２】

【従来の技術】音声信号（オーディオ信号）の高能率符
号化においては、入力した音声信号を時間軸又は周波数
軸で複数のチャンネルに分割すると共に、各チャンネル
毎のビット数を適応的に割当てるビットアロケーション
（ビット割当て）による符号化技術がある。例えば、オ
ーディオ信号等のビット割当てによる符号化技術には、
時間軸上のオーディオ信号を複数の周波数帯域に分割し
て符号化する帯域分割符号化（サブ・バンド・コーディ
ング：ＳＢＣ）や、時間軸の信号を周波数軸上の信号に
変換（直交変換）して複数の周波数帯域に分割し各帯域
毎で適応的に符号化するいわゆる適応変換符号化（ＡＴ
Ｃ）、或いはサブ・バンド・コーディングといわゆる適
応予測符号化（ＡＰＣ）とを組合せ、時間軸の信号を帯
域分割して各帯域信号をベースバンド（低域）に変換し
た後複数次の線形予測分析を行って予測符号化するいわ
ゆる適応ビット割当て（ＡＰＣ−ＡＢ）等の符号化技術
がある。

【０００３】ここで、これらの高能率符号化の内で、例
えば、適応変換符号化においては、時間軸のオーディオ
信号を、高速フーリエ変換（ＦＦＴ）或いは離散的余弦
変換（ＤＣＴ）等の直交変換によって、時間軸に直交す
る軸（周波数軸）に変換し、その後複数の帯域に分割し
て、これら分割された各帯域のＦＦＴ係数，ＤＣＴ係数
等を適応的なビット割当てによって量子化（再量子化）
している。高速フーリエ変換の適応変換符号化における
再量子化の一例としては、図５に示すように、信号を高
速フーリエ変換した後の例えばＦＦＴ振幅値Ａｍ等をブ
ロック（ブロックＢ１，Ｂ２‥‥）分けして、これら各
ブロック毎に再量子化する際に必要となる付加情報を算
出し、この付加情報を用いてブロック毎に再量子化する
と共に、付加情報自体も量子化させる手法がある。

【０００４】

【発明が解決しようとする課題】ところで、このような
直交変換によって時間軸に直交する軸に変換処理する高
能率符号化では、一般にバーク毎のパワーよりマスキン
グ・スレッショルドを求め、そのマスキング・スレッシ
ョルドレベル以下に量子化ノイズが抑えられるように、
周波数軸上でのダイナミック・ビット・アロケーション
を行っていた。ここで、１バークの幅は人間の聴覚の特
性（人間が聞き分けられる能力）より決められるもの
で、１バーク毎の上述した処理を行うことで、聴覚のマ
スキング効果（同時刻マスキング）を利用した高能率符
号化が行われる。

【０００５】しかしながら、従来のこの種の符号化技術
では、マスキング効果などの聴覚の特性を最大限に利用
しているとは言えなかった。

【０００６】本発明の目的は、聴覚の特性に基づいたマ
スキング・スレッショルドレベルを利用した高能率符号
化が、より高い圧縮率でできる音声信号処理方法を提供
することにある。

【０００７】

【課題を解決するための手段】本発明は、音声信号を周
波数領域に変換し、この変換された信号のビットアロケ
ーションを行って符号化する音声信号処理方法におい
て、マスキング効果による聴覚上の雑音低減が行われる
マスキング・スレッショルドレベルの決定を、現在のフ
レームの信号スペクトル分布と、過去のフレームのマス
キング・スレッショルドレベルとを使用して行うように
したものである。

【０００８】また本発明は、音声信号を周波数領域に変
換し、この変換された信号のビットアロケーションを行
って符号化する音声信号処理方法において、マスキング
効果による聴覚上の雑音低減が行われるマスキング・ス
レッショルドレベルを、現在のフレームの信号スペクト
ル分布と、過去のフレームのマスキング・スレッショル
ドレベルとを使用して求めると共に、この求めた値と、
過去のフレームのマスキング・スレッショルドレベルと
の差が所定量以上あるとき、この所定量の差に制限され
た値を現在のフレームのマスキング・スレッショルドレ
ベルにするようにしたものである。

【０００９】また、この場合にマスキング・スレッショ
ルドレベルの制限が行われる所定量を、高域成分と低域
成分とで変化させ、高域成分での制限量を低域成分での
制限量よりも緩くしたものである。

【００１０】

【作用】本発明によると、現在のフレームの信号スペク
トル分布と、過去のフレームの信号スペクトル分布とを
使用して、現在のフレームのマスキング・スレッショル
ドレベルを決定するようにしたことで、継時マスキング
効果（テンポラル・マスキング効果）を利用した効率の
良いマスキング・スレッショルドレベルの設定が可能に
なり、符号化されたデータのビットレートを低減させる
ことができる。

【００１１】また本発明によると、現在のフレームの信
号スペクトル分布と、過去のフレームの信号スペクトル
分布とを使用して、現在のフレームのマスキング・スレ
ッショルドレベルを求めると共に、このとき求めた値
と、過去のフレームのマスキング・スレッショルドレベ
ルとの差が所定量以上あるとき、この所定量の差に制限
された値を現在のフレームのマスキング・スレッショル
ドレベルにするようにしたことで、符号化された音声デ
ータの品質を低下させずに、符号化されたデータのビッ
トレートをより効率良く低減させることができる。

【００１２】

【実施例】以下、本発明の一実施例を図１〜図４を参照
して説明する。

【００１３】本例においては、音声信号の送出側（エン
コーダ側）を図１に示すように構成し、音声信号の受信
側（デコーダ側）を図２に示すように構成する。

【００１４】まず、音声信号を高能率符号化するエンコ
ーダ側の構成について説明すると、図１において、１は
音声信号の入力端子を示し、この入力端子１に得られる
デジタル音声信号（デジタルオーディオ信号）を窓がけ
回路２に供給し、窓がけを行う。このときの窓がけとし
ては、例えば５０％オーバーラップのハニング窓で行
い、この窓がけされてブロック分けされたデータをＭＤ
ＣＴ回路３に供給し、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤ
ＣＴ：モディファイド離散的余弦変換）による直交変換
を行う。この場合、本例においては高速フーリエ変換
（ＦＦＴ）による高速演算でＭＤＣＴの変換処理を行
う。

【００１５】そして、ＭＤＣＴ回路３で変換されたデー
タを、適応量子化器４に供給し、量子化を行う。この場
合、後述するパラメータ量子化器６で量子化された付加
情報（マスキングスレッショルドレベル，ＲＭＳ値）
と、後述するビットアロケーション計算回路７で求めた
各ブロック内の１サンプルに割り振るビット数の値と
を、適応量子化器４に供給させ、供給される各データに
対応したビット数の量子化を行う。

【００１６】また、窓がけ回路２でブロック分けされた
データをマスキング・スレッショルド及びＲＭＳ値計算
回路５に供給し、このマスキング・スレッショルド及び
ＲＭＳ値計算回路５で、マスキング・スレッショルドレ
ベル及びＲＭＳ値（フローティング係数）を算出させ
る。このときには、各ブロックの各スペクトルの強度
（パワー）を算出し、各スペクトルの強度分布に基づい
てマスキング・スレッショルドレベル及びＲＭＳ値を算
出させる。なお、マスキング・スレッショルドレベルの
算出手順については、後で詳細に説明する。

【００１７】そして、算出されたマスキング・スレッシ
ョルドレベル及びＲＭＳ値をパラメータ量子化器６に供
給し、このパラメータ量子化器６で量子化されたマスキ
ング・スレッショルドレベルとＲＭＳ値とを適応量子化
器４に供給する。さらに、パラメータ量子化器６で量子
化されたマスキング・スレッショルドレベルとＲＭＳ値
とをビットアロケーション計算回路７に供給し、各ブロ
ック内の１サンプルに割り振るビット数の値を求める。
そして、求めたビット数の値を適応量子化器４に供給
し、適応量子化器４での量子化を対応したビット数で行
わせる。また、ビットアロケーション計算回路７で求め
たビット数の値をマスキング・スレッショルド及びＲＭ
Ｓ値計算回路５にも供給し、各パラメータの算出時のビ
ットレート調整をさせる。

【００１８】そして、適応量子化器４で量子化されたデ
ータを、データ出力端子８から出力させ、所定の伝送路
で伝送させたり、録音装置により記録を行う。また同時
に、付加情報としてパラメータ量子化器６で量子化され
たスレッショルド値とＲＭＳ値とを、付加情報出力端子
９から出力させ、所定の伝送路で伝送させたり、録音装
置により記録を行う。

【００１９】ここで、この回路による信号処理例を説明
すると、入力端子１に得られる音声信号のデータ列をＸ
（ｎ）とし、窓がけ回路２でのブロック分けで、ｎ＝０
〜１０２３として、１０２４ポイントのデータを１ブロ
ックとする。また、ＭＤＣＴ回路３での変換処理時に、
ＭＤＣＴ係数Ｃ（ｋ）としてｋ＝０〜５１１を設定し、
オーバーラップ量を５１２にする（即ち５１２で折り返
させる）。また、バークスペクトルをＢ（ｉ）とし、ス
プレッディドバークをＳ（ｉ）とし、マスキングスレッ
ショルドＴ（ｉ）とし、最小可聴限と比較済のマスキン
グスレッショルドをＴｎ（ｉ）とし、バンド幅によるノ
ーマライズを済ませた値をＴｂ（ｉ）とする。この場
合、バークは２５本であるのでｉ＝０〜２４とする。

【００２０】まず、窓がけ回路２でのブロック分けとし
て、ハニングの平方根のウィンドウを乗じる。これをＸ
Ｗ（ｎ）とすると、次の〔数１〕式で示される。

【００２１】

【数１】

【００２２】次に、ＭＤＣＴ回路３で、次の〔数２〕式
によりＭＤＣＴ係数列（５１２点）を求める。

【００２３】

【数２】

【００２４】なお、このＭＤＣＴ及び逆ＭＤＣＴの処理
には、例えば特願平３−１８１１７３号にて本出願人が
提案した高速処理方法が適用できる。

【００２５】次に、本例のマスキング・スレッショルド
及びＲＭＳ値計算回路５でのマスキング・スレッショル
ドレベルの算出方法について述べると、まずバークスペ
クトルＢ（ｉ）を、次の〔数３〕式より求める。

【００２６】

【数３】

【００２７】ここで、ｕ（ｉ）は各クリティカルバンド
の上限を示し、ｌ（ｉ）は各クリティカルバンドの下限
を示す。このとき、ｉ＝０〜２４としたことで、２５本
のクリティカルバンドのパワーを求めることになる。な
お、バークスペクトルＢ（ｉ）は、量子化済の各バーク
内のピークのＭＤＣＴ係数Ｃ（ｋ）に、或る係数を乗算
して擬似的に求めるようにしても良い。

【００２８】そして、スプレッティングファンクション
Ｈ（ｘ）により、バークスペクトルＢ（ｉ）を次式のよ
うにスプレッドする。

【００２９】

【数４】

【００３０】そして、マスキング・スレッショルドＴ
（ｉ）を、次式によりスプレッド・スペクトル・ドメイ
ンで求める。

【００３１】

【数５】

【００３２】なお、Ｏ（ｉ）はｉの関数であれば、どの
ように定義しても良い。但し、Ｏ（ｉ）の定義の方法
が、消費するビットレートや音質に影響を与えるので、
適切に定義する必要がある。

【００３３】そして、スプレッドされた領域におけるマ
スキング・スレッショルドＴ（ｉ）を、周波数領域（バ
ークドメイン）でのマスキング・スレッショルドＴｎ
（ｉ）に変換する。このとき、本来はデ・コンボリュー
ジョンする必要があるが、ここでは次式に示すように、
スプレッドファンクションの直流ゲインｄｇ（ｉ）でス
レッショルドＴ（ｉ）を割り込んで、スレッショルドＴ
ｎ（ｉ）を近似的に求める。

【００３４】

【数６】

【００３５】そして、このように求まる周波数領域での
マスキング・スレッショルドＴｎ（ｉ）を、最小可聴カ
ーブより求まるアブソリュート・スレッショルドと、各
クリティカルバンドｉ毎に比較し、レベルの大きな方を
スレッショルドレベルＴｎ（ｉ）とする。なお、ここで
はアブソリュート・スレッショルドは、最小可聴カーブ
のボトム部分（３．４ｋＨｚ付近）が１サンプル１６ビ
ットのＰＣＭオーディオデータの１ＬＳＢ（最下位ビッ
ト）に相当する大きさになるようにレベル合わせを行
う。即ち、ここでは１６ビットＰＣＭオーディオデータ
の１ＬＳＢに相当するノイズは許容する。

【００３６】そして、各バーク幅のパワーとして求まっ
ているマスキング・スレッショルドレベルＴｎ（ｉ）
を、次式により１サンプル当たりのｒｍｓ値に変換す
る。

【００３７】

【数７】

【００３８】そして本例においては、求めたｒｍｓ値
を、１フレーム前の値と比較する。ここで、１フレーム
前のｒｍｓ値をＴｂｐ（ｉ）、現在のフレームのｒｍｓ
値をＴｂｃ（ｉ）とし、ｔｃ（ｉ）を１フレームで減衰
できる最大の許容ｄＢ値とする。このとき、この許容ｄ
Ｂ値ｔｃ（ｉ）は、次式の演算によりリニア表示値ｔｃ
ｌ（ｉ）に変換できる。

【００３９】

【数８】

【００４０】そして、Ｔｂｐ（ｉ）＊ｔｃｌ（ｉ）＜Ｔ
ｂｃ（ｉ）であるとき（即ち許容値よりも現在のフレー
ムの信号の方が大きい場合）には、Ｔｂｃ（ｉ）をその
まま現在のフレームのｒｍｓ値にする。

【００４１】また、Ｔｂｐ（ｉ）＊ｔｃｌ（ｉ）≧Ｔｂ
ｃ（ｉ）であるとき（即ち許容値よりも現在のフレーム
の信号の方が小さい場合）には、Ｔｂｐ（ｉ）＊ｔｃｌ
（ｉ）をＴｂｃ（ｉ）に置き換え、この置き換えたＴｂ
ｃ（ｉ）を現在のフレームのｒｍｓ値にする。

【００４２】このような処理が行われることで、１フレ
ーム前の値Ｔｂｐ（ｉ）から現在のフレームの値Ｔｂｃ
（ｉ）への変化量（減衰量）に制限が加わることにな
り、最大でＴｂｐ（ｉ）＊ｔｃｌ（ｉ）までしか減衰で
きないことになる。即ち、マスキング・スレッショルド
レベルが、前フレームの値から大きく下回ることがなく
なる。このように制限が加わることで、ノイズレベルが
高く維持されることになり、消費されるビットレートが
下がる。そして、ノイズレベルを高く維持しても、前フ
レームの信号より継時マスキング効果が働くので、この
音声データを再生してもノイズとして認識されない。

【００４３】ここで、許容ｄＢ値Ｔｃ（ｉ）の２５本の
各クリティカルバンドでの一例を以下に示す。

【００４４】Ｔｃ（０）＝−１，Ｔｃ（１）＝−１，Ｔ
ｃ（２）＝−１，Ｔｃ（３）＝−２，Ｔｃ（４）＝−
２，Ｔｃ（５）＝−２，Ｔｃ（６）＝−２，Ｔｃ（７）
＝−２，Ｔｃ（８）＝−２，Ｔｃ（９）＝−２，Ｔｃ
（10）＝−２，Ｔｃ（11）＝−２，Ｔｃ（12）＝−２，
Ｔｃ（13）＝−２，Ｔｃ（14）＝−２，Ｔｃ（15）＝−
２，Ｔｃ（16）＝−２，Ｔｃ（17）＝−３，Ｔｃ（18）
＝−３，Ｔｃ（19）＝−３，Ｔｃ（20）＝−３，Ｔｃ
（21）＝−３，Ｔｃ（22）＝−３，Ｔｃ（23）＝−３，
Ｔｃ（24）＝−３

【００４５】このように、本例では周波数の高いクリテ
ィカルバンドになるに従って、許容減衰ｄＢ値を大きく
設定する。即ち、周波数の高い信号ほど、実際の音声信
号のレベルの減衰に忠実に追随したデータになり、周波
数の低い信号では、実際の音声信号のレベルが減衰した
ときのデータの追随が時定数を持つようになる。このよ
うにすることで、周波数の低い信号ほど継時マスキング
効果が高いと言う特性が有効に活用される。即ち、人間
の聴覚は、高域程その臨界帯域幅が広く、周波数分解能
が広い（悪い）のであるが、逆に時間分解能（時間方向
の追従特性）は高域程高い。従って、マスキング・スレ
ッショルドの変化も、高域程高く許容することで、デコ
ードされた音声として聴感上良好な特性のものが得られ
る。

【００４６】ここで、このような制限が加わったマスキ
ング・スレッショルドレベルを図３を用いて簡単に説明
すると、現在のフレームの音声波形Ａｃと過去のフレー
ム（１フレーム前）の音声波形Ａｐが図３に示すように
存在しているとする。このとき、過去のフレームの音声
波形Ａｐに対してマスキング・スレッショルドレベルＭ
ｐが設定され、このマスキング・スレッショルドレベル
Ｍｐ以下の範囲はノイズとして認識されないとする。そ
して、現在のフレームの音声波形Ｓｃに基づいて上述し
た演算でマスキング・スレッショルドレベルＭｃ′（破
線で示すレベル）が求まるとき、従来はこのレベルをそ
のまま現在のフレームのマスキング・スレッショルドレ
ベルとしていた。これに対し、本例では継時マスキング
効果を考慮して、上述した数式による両フレームのスレ
ッショルドレベルの比較で、マスキング・スレッショル
ドレベルＭｃを設定して、このレベルＭｃ以下の範囲を
ノイズとして知覚されない範囲としている。このように
していることで、マスキング・スレッショルドレベルと
音声波形との差が少なくなり、ビットレートの低減に貢
献する。

【００４７】なお、本例の演算により求めたマスキング
・スレッショルドレベルの一例を図４に示す。この図４
より判るように、周波数が低くなるに従って、スレッシ
ョルドレベルの変化量が制限されている。

【００４８】なお、マスキング・スレッショルドレベル
が高くなる場合には、制限を加えると音声の劣化が著し
いので、本例では特に制限を設けない。

【００４９】そして本例においては、このようにして求
まるマスキング・スレッショルドレベル及びｒｍｓ値を
使用して、ビットアロケーションの計算がビットアロケ
ーション計算回路７で行われる。このときのビットアロ
ケーションの計算としては、各クリティカルバンド内の
ピーク値をｐｋ（ｉ）とすると、次の〔数９〕式による
演算が行われる。

【００５０】

【数９】

【００５１】そして、この〔数９〕式により求まるｂａ
ｌ（ｉ）に従ったビットアロケーションを行う。このと
き、高能率符号化されたデータを一定レートで磁気テー
プなどに記録する場合などで、ビットレートを一定に維
持する必要のある場合には、ｂａｌ（ｉ）の積分値が一
定時間内で一定範囲に収まるように調整する必要があ
る。このような調整は、半導体メモリなどに記憶させる
いわゆる固体録音の場合には、必要ない。

【００５２】そして、ｂａｌ（ｉ）に従ったビットアロ
ケーションで、適応量子化器４によりＭＤＣＴ係数の量
子化を行う。このときには、線形量子化，非線形量子
化，ベクトル量子化などが適用される。このとき、量子
化効率向上のために、量子化器４の出力のインデックス
に、エントロピーコーディングを施しても良い。このエ
ントロピーコーディングを施すことで、量子化器の出力
を２０％程度圧縮できる。

【００５３】また、付加情報出力端子９から出力される
付加情報としてのマスキング・スレッショルドレベル及
びｒｍｓ値は、各バーク毎のピーク値やエネルギーＢ
（ｉ）をそのまま出力させる他に、これらの付加情報を
リニアドメイン又はｄＢドメインで、フレーム間の差分
量子化（ＤＰＣＭ）を行ったり、或いはベクトル量子化
を行って、ビットレートを低減させることも可能であ
る。ここで、これらの付加情報については、本例では上
述した処理により減衰時に制限を加えているので、フレ
ーム間で相関が強く、差分量子化などが効率良く行われ
て、ビットレートを大幅に低減させることができる。

【００５４】次に、このようにして量子化されたデータ
を受信するデコーダについて図２を参照して説明する
と、図中１１はエンコーダの端子８側から伝送されるデ
ータの入力端子を示し、１２はこのデータの付加情報
（スレッショルド値及びＲＭＳ値の量子化値）が伝送さ
れる付加情報入力端子を示す。そして、両入力端子１
１，１２に得られるデータを適応逆量子化器１３に供給
し、逆量子化を行う。そして、逆量子化されたデータを
逆ＭＤＣＴ回路１４に供給し、逆ＭＤＣＴによる変換処
理で元に戻されたデータを窓がけ・重ね合わせ回路１５
に供給し、窓がけされたデータを重ね合わせ、元の時間
軸のデジタルオーディオ信号を復元し、音声信号出力端
子１６にこのデジタルオーディオ信号を供給する。

【００５５】ここで、このように逆ＭＤＣＴで元に戻す
場合の本例の処理について説明すると、逆ＭＤＣＴで元
に戻されたデータｙ（ｎ）は次式〔数１０〕で示され
る。

【００５６】

【数１０】

【００５７】この〔数１０〕式において、ｎは〔０≦ｎ
≦Ｍ−１〕で示される範囲である。この〔数１０〕式に
基づいて逆ＭＤＣＴの処理を行い、求まった時間軸上の
波形に窓がけ，重ね合わせを行い、連続的なデジタル音
声信号とする。

【００５８】なお、上述実施例ではデコード時に現在の
フレームのマスキング・スレッショルドレベルを決定す
るのに、過去のフレームのマスキング・スレッショルド
レベルを参照して演算するようにしたが、過去のフレー
ムの他の信号スペクトルより演算するようにしても良
い。但し、上述実施例のようにマスキング・スレッショ
ルドレベルに基づいて演算することで、演算処理が簡単
になる。

【００５９】また、上述実施例においては、ＭＤＣＴに
よる直交変換されたデータのビットアロケーションに使
用するスレッショルドレベルに適用したが、ＤＣＴ，Ｆ
ＦＴ（高速フーリエ変換）などの他の直交変換にも適用
できると共に、サブ・バンド・コーデング（帯域分割符
号化）にも適用できる。

【００６０】また、上述実施例ではエンコーダで高能率
符号化されたデータの伝送系については何も説明しなか
ったが、有線系，無線系による各種伝送システムが適用
できると共に、エンコーダで高能率符号化されたデータ
を各種記録媒体に記録させた後、この記録媒体からの再
生信号をデコーダで復元させるようにしても良い。何れ
の場合でも、本例ではビットレートが大幅に低減されて
いるので、伝送効率（記録効率）が良い。

【００６１】

【発明の効果】本発明によると、現在のフレームの信号
スペクトル分布と、過去のフレームのマスキングスレッ
ショルドレベルとを使用して、現在のフレームのマスキ
ングスレッショルドレベルを決定するようにしたこと
で、継時マスキング効果（テンポラル・マスキング効
果）を利用した効率の良いマスキングスレッショルドレ
ベルの設定が可能になり、符号化されたデータのビット
レートを低減させることができる。

【００６２】また本発明によると、現在のフレームの信
号スペクトル分布と、過去のフレームのマスキングスレ
ッショルドレベルとを使用して、現在のフレームのマス
キングスレッショルドレベルを求めると共に、このとき
求めた値と、過去のフレームのマスキングスレッショル
ドレベルとの差が所定量以上あるとき、この所定量の差
に制限された値を現在のフレームのマスキングスレッシ
ョルドレベルにするようにしたことで、符号化されたデ
ータのビットレートをより効率良く低減させることがで
きる。

【００６３】この場合、マスキングスレッショルドレベ
ルの制限が行われる量を、高域成分と低域成分とで変化
させ、高域成分での制限量を低域成分での制限量よりも
緩くしたことで、符号化された音声データの品質を低下
させずに、効率良くビットレートを低減させることがで
きる。

【図面の簡単な説明】

【図１】本発明の一実施例によるエンコーダを示す構成
図である。

【図２】本発明の一実施例によるデコーダを示す構成図
である。

【図３】マスキング・スレッショルドレベルの設定状態
を示す説明図である。

【図４】一実施例によるマスキング・スレッショルドレ
ベルの変化状態を示す周波数特性図である。

【図５】適応変換符号化のブロックを示す説明図であ
る。

【符号の説明】

１音声信号入力端子２窓がけ回路３ＭＤＣＴ回路４適応量子化器５マスキング・スレッショルド及びＲＭＳ値計算回路６パラメータ量子化器７ビットアロケーション計算回路８データ出力端子９付加情報出力端子１１データ入力端子１２付加情報入力端子１３適応逆量子化器１４逆ＭＤＣＴ回路１５窓がけ・重ね合わせ回路１６音声信号出力端子

フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00,19/00 - 19/02 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声信号を周波数領域に変換し、該変換
された信号のビットアロケーションを行って符号化する
音声信号処理方法において、マスキング効果による聴覚上の雑音低減が行われるマス
キングスレッショルドレベルの決定を、現在のフレームの信号スペクトル分布と、過去のフレー
ムのマスキングスレッショルドレベルとを使用して行う
ようにした音声信号処理方法。
【請求項２】音声信号を周波数領域に変換し、該変換
された信号のビットアロケーションを行って符号化する
音声信号処理方法において、マスキング効果による聴覚上の雑音低減が行われるマス
キングスレッショルドレベルを、現在のフレームの信号スペクトル分布と、過去のフレー
ムのマスキングスレッショルドレベルとを使用して求め
ると共に、この求めた値と、上記過去のフレームのマスキングスレ
ッショルドレベルとの差が所定量以上あるとき、この所
定量の差に制限された値を現在のフレームのマスキング
スレッショルドレベルにするようにした音声信号処理方
法。
【請求項３】上記マスキングスレッショルドレベルの
制限が行われる所定量を、高域成分と低域成分とで変化
させ、高域成分での制限量を低域成分での制限量よりも
緩くした請求項２記載の音声信号処理方法。