JP2002041099A

JP2002041099A - マスク済み閾値表現方法、再構成方法、及びそのシステム

Info

Publication number: JP2002041099A
Application number: JP2001166327A
Authority: JP
Inventors: Bernd Andreas Edler; アンドレアスエドラベルンド; Christof Faller; ファーラークリストフ; Gerald Dietrich T Schuller; ディートリッヒトーマスシューラージェラルド
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2000-06-02
Filing date: 2001-06-01
Publication date: 2002-02-08
Anticipated expiration: 2021-06-01
Also published as: US6778953B1; JP5323295B2; EP1160769A2; EP1160769A3

Abstract

(57)【要約】【課題】知覚音声コーダにおけるマスク済み閾値を、
線形予測（ＬＰ）係数に係わる線スペクトル周波数（Ｌ
ＳＦ）あるいは他の表現を用いて表現表現する方法及び
その装置を実現することが本発明の課題である。【解決手段】本発明は、基地のＬＰＣ解析技法を用い
て、マスク済み閾値に係わるＬＰ係数を計算する。ある
実施例においては、マスク済み閾値は、知覚特性に適し
た非線形周波数スケールに変換されることも可能であ
る。ＬＰ係数は、線スペクトル周波数（ＬＳＦ）あるい
は同様の表現に変換され、送出目的で量子化される。ま
た上記と異なる実施例においては、マスク済み閾値は、
当該マスク済み閾値が直前のマスク済み閾値と著しく異
なる場合においてのみ送出される。送出されたマスク済
み閾値の各々の間では、マスク済み閾値は補間法を用い
て近似される。本発明は、短期間手のスペクトルの変化
ではなく、連続的なマスク済み閾値の変化に基づいて、
どのマスク済み閾値が送出するかを決定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声符号化技法に関
し、特に、会話及び音楽信号などの音声信号の知覚ベー
ス符号化に関する。

【０００２】

【従来の技術】知覚音声コーダ（ＰＡＣ）は、高度な聴
覚モデル及び信号処理技法を適用することによって、デ
ジタル音声データの蓄積あるいは伝送（もしくはその双
方）に必要となるビットレートを最小化することを試み
ている。知覚音声コーダ（ＰＡＣ）は、例えば、D.Sinh
aらによる“知覚音声コーダ”（書名：デジタルオーデ
ィオ、節４２、４２−１から４２−１８（CRC Press、
１９９８年））という表題の文献に記載されている。こ
の文献は、本発明の参照文献である。チャネル誤差が存
在しない場合には、ＰＡＣは、およそ１２８ｋｂｐｓの
レートで、ステレオのコンパクトディスク（ＣＤ）とほ
ぼ同等の音声品質を実現する。９６ｋｂｐｓというより
低いレートでは、その結果得られる品質は、種々のオー
ディオ素材に関しては、依然としてＣＤオーディオのそ
れにかなり近い。

【０００３】知覚音声コーダは、人間の知覚を活用し、
与えられたビットレートに対して知覚される歪みを最小
化することによって、音声信号を表現するために必要と
される情報量を低減する。知覚音声コーダは、まず、よ
りコンパクトな表現を実現する目的で時間−周波数変換
を適用し、スペクトル係数の量子化を行なう。図１は、
従来技術に係る知覚音声コーダ１００の模式的なブロッ
ク図である。図１に示されているように、通常の知覚音
声コーダ１００は、解析フィルタバンク１１０、知覚モ
デル１２０、量子化及び符号化ブロック１３０及びビッ
トストリームエンコーダ／マルチプレクサ１４０を有し
ている。

【０００４】解析フィルタバンク１１０は、入力サンプ
リング信号を、サブサンプリングされたスペクトル表現
に変換する。知覚モデル１２０は、信号のマスク閾値を
推定する。各スペクトル係数に関して、マスク閾値は、
知覚的にトランスペアレントな信号品質を依然として実
現する一方で音声信号に導入されてしまう最大符号化誤
差を与える。量子化及び符号化ブロック１３０は、マス
ク閾値推定に対応する精度に従って、スペクトル値を量
子化・符号化する。よって、量子化雑音は、対応する送
信信号によって隠される。最後に、符号化済みスペクト
ル値及び付加的な付随情報が、ビットストリームエンコ
ーダ／マルチプレクサ１４０によってビットストリーム
にパッキングされ、それがデコーダ宛に送出される。

【０００５】図２は、従来技術に係る知覚音声デコーダ
２００の模式的なブロック図である。図２に示されてい
るように、知覚音声デコーダは、ビットストリームデコ
ーダ／デマルチプレクサ２１０、復号化及び逆量子化ブ
ロック２２０及び合成フィルタバンク２３０を有してい
る。ビットストリームデコーダ／デマルチプレクサ２１
０は、ビットストリームを解釈して復号化し、符号化さ
れたスペクトル値及び付随情報を実現する。復号化及び
逆量子化ブロック２２０は、量子化されたスペクトル値
の符号化及び逆量子化を実行する。合成フィルタバンク
２３０は、スペクトル値を時間軸に再び変換する。

【０００６】図１に示されているような知覚音声コーダ
１００においては、量子化及び符号化ブロック１３０に
よるサブバンド信号の量子化及び符号化を制御する目的
で、マスク済み閾値が用いられる。

【０００７】図３は、音響心理モデルに従って計算され
たマスク済み閾値、及び、従来技術に係る知覚音声コー
ダによって用いられる、対応する近似３２０を示してい
る。

【０００８】図８に示されているように、マスク済み閾
値は、通常、階段関数によって近似され、符号化され
て、知覚音声デコーダ宛に付随情報として送出される。

【０００９】

【発明が解決しようとする課題】しかしながら、付随情
報に係る帯域が限られているために、マスク済み閾値の
粗い近似のみが送出されるに過ぎない。マスク済み閾値
表現の不充分な正確さは、知覚品質に影響を与える。

【００１０】それゆえ、マスク済み閾値をより正確に表
現する方法及びその装置に係るニーズが存在する。さら
に、マスク済み閾値をできる限り少ないビットで表現す
るための方法及びその装置に係るニーズも存在する。

【００１１】

【課題を解決するための手段】本明細書においては、知
覚音声コーダにおけるマスク済み閾値を、線型予測（Ｌ
Ｐ）係数に係る線型スペクトル周波数（ＬＳＦ）あるい
は他の表現を用いて表現する方法及びその装置が記載さ
れている。本発明は、既知のＬＰＣ解析技法を用いて、
マスク済み閾値に係るＬＰ係数を計算する。ある実施例
においては、マスク済み閾値は、聴覚特性に適した非線
型周波数スケールに変換されることも可能である。ＬＰ
けいすうは、線型スペクトル周波数（ＬＳＦ）あるいは
同様の表現に変換され、送出目的で量子化される。

【００１２】本発明の一側面に従って、マスク済み閾値
が、従来技術においては音声符号化技法に適用されてき
たＬＳＦ表現を用いて、知覚音声コーダ内でより正確に
表現される。本発明の別の側面に従って、マスク済み閾
値は、当該マスク済み閾値が直前のマスク済み閾値と著
しく異なる場合にのみ送出される。送出されたマスク済
み閾値の各々の間は、マスク済み閾値は補間法を用いて
近似される。本発明は、短期間でのスペクトルの変化で
はなく連続的なマスク済み閾値の変化に基づいて、どの
マスク済み閾値を送出するかを決定する。

【００１３】本発明は、マスク済み閾値の時間に対する
変化をモデリングするための種々の選択肢を提供する。
徐々に変化する信号に関しては、マスク済み閾値も徐々
に変化し、補間によって近似されうる。概して定常的で
あって、その後、急激に変化する信号に関しては、マス
ク済み閾値は、一度に変化する定マスク済み閾値によっ
て近似されうる。比較的一定であって、後に徐々に変化
するようなマスク済み閾値は、定マスク済み閾値と補間
との組み合わせによってモデル化されうる。

【００１４】短時間のうちに過渡的に変化する部分をそ
の中間に有するような概して定常的な信号は、時間的に
他の値へ変化するが初期値に戻るようなマスク済み閾値
を有する。この場合には、過渡変化の後のマスク済み閾
値を過渡変化の前のマスク済み閾値に設定し、過渡変化
の後のマスク済み閾値を送出しないことによって、効率
的にモデル化されうる。

【００１５】本発明のより完全な理解、及び、本発明の
さらなる特徴及び利点は、以下の発明の実施の形態及び
添付図面を参照することによって得られる。

【００１６】

【発明の実施の形態】本発明は、知覚音声コーダにおけ
るマスク済み閾値を表現する方法及びその装置を提供す
る。本発明は、線スペクトル周波数（ＬＳＦ）を用いて
マスク済み閾値係数を表現する。以下の“パワースペク
トルとして見たマスク済み閾値”という表題の節に議論
されているように、線型予測係数がスペクトル包絡線を
モデル化するために用いられうることは既知である。本
発明は、従来短期間のスペクトルに対してのみ適用され
てきた既知のＬＰＣ解析技法を利用して、マスク済み閾
値に係るＬＰ係数を計算する。マスク済み閾値は、聴覚
特性により適した非線型周波数スケールに変換されるこ
とも可能である。その後、マスク済み閾値をモデル化し
たＬＰ係数は、線スペクトル周波数（ＬＳＦ）あるいは
同等の表現に変換され、伝送目的で量子化される。

【００１７】よって、本発明の一側面に従って、マスク
済み閾値が、従来音声符号化技法に関して適用されてき
たＬＳＦ表現を用いて、知覚音声コーダにおいてより正
確に表現される。本発明の別の特徴に従って、マスク済
み閾値を、それが従前のものから著しく異なる場合にの
み適応して送出することによって、送信されるべきビッ
ト数をさらに低減する方法が記載される。送信された個
々のマスク済み閾値の間は、マスク済み閾値が補間法を
用いて近似される。

【００１８】知覚音声符号化の原理図４は、図１に示された量子化器及び符号化器１３０を
より詳細に示す図である。量子化器１３０は、マスク済
み閾値推定に対応する精度に従って、スペクトル値を量
子化する。通常、これは、ブロック４２０において固定
量子化器が適用される前にブロック４１０におけるスペ
クトル値をスケーリングすることによって実現される。

【００１９】知覚音声コーダにおいては、スペクトル係
数は符号化バンドにグループ化される。各々の符号化バ
ンドにおいては、サンプリングされた信号は同一のファ
クタでスケーリングされる。よって、復号化された信号
における量子化雑音は、各符号化バンド内で一定であ
り、図３に示されているような階段状関数３２０であ
る。透過符号化に関してマスク済み閾値を超過しないた
めに、知覚音声コーダは、各符号化バンドに関して、当
該符号化バンド内でのマスク済み閾値の最小値に対応す
る量子化雑音を実現するようなスケーリングファクタを
選択する。

【００２０】導入されてしまった量子化雑音の階段状関
数３２０は、知覚音声コーダによって用いられるマスク
済み閾値の近似と見なすことが可能である。マスク済み
閾値の近似３２０が真のマスク済み閾値３１０よりも低
い度合は、信号が必要以上の高精度で符号化されている
ことを示す度合である。よって、不関連性低減は完全に
は活用されていない。長変換ウィンドウモードでは、知
覚音声コーダは、短変換ウィンドウモードの場合より
も、ほとんど４倍ものスケーリングファクタを用いる。
よって、不関連性低減を活用しないことは、ＰＡＣの短
変換ウィンドウモードにおいてより厳しいものとなる。
一方では、マスク済み閾値は、不関連性低減を最大限に
活用する目的で、可能な限り正確にモデル化されるべき
である。しかしながら、他方では、付随情報に費やされ
るビット量を最小化するためには、できる限り少ないビ
ット数のみが用いられるべきである。

【００２１】知覚音声コーダなどの音声コーダは、マス
ク済み閾値に従って量子化雑音を成形する。マスク済み
閾値は、音響心理モデル１２０によって推定される。Ｎ
個のサンプリング信号を有し、スペクトル係数｛ｃ
_k（ｎ）｝（０［ｋ＜Ｎ）を有する各変換ブロックｎに
対しては、マスク済み閾値は、離散パワースペクトル
｛Ｍ _k（ｎ）｝（０［ｋ＜Ｎ）として与えられる。フィ
ルタバンクの各々のスペクトル係数ｃ_k（ｎ）に関して
は、対応するパワースペクトルＭ_k（ｎ）が存在する。
Ｍ_k（ｎ）の値は、対応するスペクトル係数ｃ_k（ｎ）を
知覚信号品質を損なうことなく量子化することによって
導入されてしまった雑音の変化を示している。

【００２２】図４に示されているように、係数は、符号
化器において、ステップサイズＱを有する固定線型量子
化器４２０に供給される前に、段階４１０においてスケ
ーリングされる。各スペクトル係数ｃ_k（ｎ）は、対応
するマスク済み閾値Ｍ_k（ｎ）が与えられると、次式に
従ってスケーリングされる：

【数１】その後、スケーリングされた係数は、量子化されて整数

【数２】にマッピングされる。その後、量子化器指数ｉ_k（ｎ）
が、ハフマン（Huffman）符号化器などの無雑音符号化
器４３０を用いて符号化される。復号化器においては、
逆ハフマン符号化を適合した後、量子化された整数係数
ｉ_k（ｎ）が

【数３】に従って逆量子化される。この量子化及び逆量子化プロ
セスによって、分散

【数４】を有する白色雑音ｄ_k（ｎ）が、スケーリングされた係
数

【数５】に対して以下のように付加される：

【数６】

【００２３】復号化器においては、量子化されたスケー
リング済み係数ｑ_k（ｎ）が次のように逆スケーリング
される：

【数７】復号化器のスペクトル係数における雑音の分散（式
（３）における

【数８】の項）はＭ_k（ｎ）である。よって、復号化された音声
信号のパワースペクトルは、マスク済み閾値に対応す
る。

【００２４】マスク済み閾値のモデル化前述されているように、本発明の一つの特徴に従って、
マスク済み閾値が、まず、線型予測（ＬＰ）係数によっ
てモデル化される。

【００２５】パワースペクトルとして見たマスク済み閾
値周波数毎のマスク済み閾値は、各周波数に関して、信号
に対して知覚されることなく追加されうる雑音の量を与
える。言い換えれば、マスク済み閾値は、元の信号と同
時に存在する場合に聴かれ得ない最大成形済み雑音のパ
ワースペクトルである。

【００２６】図３に示されているように、マスク済み閾
値３１０は、人間の聴覚システムの機能の仕方と、及
び、多くの場合に音声エネルギーが低周波数側に集中し
ているという事実とのために、低周波数側により詳細な
構造を有している。殆どの知覚モデルは、マスク済み閾
値を分割スケールで計算する。分割スケールは、バーク
スケールの近似である。線型周波数スケールは、周波数
ワープ関数Ｗによって分割スケールに対して次のように
マッピングされる：

【数９】ここで、Ｗ（０）＝０でＷ（π）＝πである。線型スケ
ールにおけるマスク済み閾値はＭ（ω）であり、分割ス
ケールにおけるマスク済み閾値から次式のように計算さ
れる：

【数１０】

【００２７】線型予測によるパワースペクトルのモデル
化 W.B.Kleijn及びK.K.Paliwalによる“音声符号化入門”
（音声符号化及び合成（Elsevier社、アムステルダム
（１９９５）））という表題の文献は、本発明の参照文
献であるが、マスク済み閾値などのパワースペクトルが
ＬＰ（線型予測）係数によってどのようにモデル化され
るかを記述している。それによれば、

【数１１】が成り立つ。ここで、ｅ（ｎ）は予測誤差であり、Ｓ
（ω）及び

【数１２】は、それぞれ、信号のパワースペクトル及び全極フィル
タのインパルス応答を著わしている。全極フィルタのス
ケーリングされたパワースペクトル

【数１３】は、元の信号のパワースペクトル

【数１４】の近似であって、

【数１５】である。

【００２８】よって、ＬＰ係数｛ａ_m｝（１［ｍ［Ｎ）
及び定数

【数１６】は、パワースペクトルの近似を表現することができる。

【００２９】マスク済み閾値のＬＰ係数によるモデル化全極フィルタは、ＭＳＥの観点からは、線型周波数スケ
ールにおいてマスク済み閾値を最も良好にモデル化す
る。しかしながら、低周波数側における詳細な構造は良
好にモデル化されない。殆どの音声信号においてその大
部分のエネルギーが低周波数側に存在しているため、低
周波数側のマスク済み閾値が正確にモデル化されること
は重要である。分割スケールドメインにおけるマスク済
み閾値はより滑らかであり、それゆえ、全極フィルタに
よって容易にモデル化されうる。

【００３０】しかしながら、高周波数側では、マスク済
み閾値は、分割スケールの場合には線型スケールの場合
よりも低精度でしかモデル化されない。ただ、マスク済
み閾値の高周波数側での精度の低さは、通常、高周波数
側に位置する信号エネルギーの割合が僅かであるため
に、殆ど影響を与えない。それゆえ、低周波数側でマス
ク済み閾値をより良好にモデル化することがより重要で
あり、結果として、分割スケールにおけるモデル化がよ
り望ましい。

【００３１】音響心理モデルは、分割スケールで等しい
幅を有するバンドにおけるＮ個のマスク済み閾値を、中
心周波数

【数１７】に関して計算する。各バンドに対して、音響心理モデル
は、閾値

【数１８】を計算する。

【００３２】分割スケールにおけるマスク済み閾値は、
線型周波数スケールにおけるパワースペクトルのように
取り扱われる。よって、ＬＰ係数は、マスク済み閾値か
ら、音声符号化に関して有用な技法を用いて計算されう
る。マスク済み閾値（パワースペクトル）の自己相関
が、ＬＰ係数を計算するために必要とされる。

【００３３】音響心理モデルから得られるマスク済み閾
値

【数１９】は、式（１４）に従って、π／（２Ｎ）だけ右にシフト
された周波数に対して与えられる。これに対して、パワ
ースペクトルは、自己相関関数の離散フーリエ変換によ
って計算される。マスク済み閾値のパワースペクトルの
自己相関は

【数２０】である。

【００３４】ＬＰ係数の線スペクトル周波数としての表
示線スペクトル周波数は、F.K.Soong及びB.-H.Juangによ
る“線スペクトル対（ＬＳＰ）及び音声データ圧縮”
（Proc. IEEE Int. Conf. Acoust., Speech, Signal Pr
ocessing, pp.1.10.1-1.10.4（１９８４年３月））とい
う表題の文献（本発明の参照文献である）に記載されて
いるものであるが、ＬＰ係数スペクトル表現の代替とし
て知られている。最小位相フィルタＡ（ｚ）から、二つ
の多項式

【数２１】が計算される。ＬＳＦ（線スペクトル周波数）は、二つ
の多項式Ｐ（ｚ）及びＱ（ｚ）の零点である。これら二
つの多項式に係る三つの興味深い特徴は以下の通りであ
る：・Ｐ（ｚ）及びＱ（ｚ）の全ての零点は単位円上に存在
する・Ｐ（ｚ）及びＱ（ｚ）の零点は、相互に互い違いにな
っている・Ａ（ｚ）の最小位相特性は、周波数上での順序を維持
しつつＰ（ｚ）及びＱ（ｚ）の零点を量子化した後にも
容易に保存される

【００３５】本発明は、これらの性質のために、ＬＳＦ
パラメータが効率的に計算されうる、ということを利用
する。さらに、結果として得られる全極フィルタの安定
性は、順序特性から確認されうる。音声符号化に係る文
献より、ＬＳＦパラメータの量子化特性は良好であるこ
とが示される。なぜなら、量子化誤差を周波数上で局在
させるからである。

【００３６】図５は、音響心理モデルに従って計算され
たマスク済み閾値５１０、及び、本発明に従ったマスク
済み閾値のＬＳＦ近似５２０を示している。ＬＳＦ近似
５２０は、図３に示されている、マスク済み閾値の従来
技術に係る階段関数表現と比較して、わずか半分のビッ
ト数のみを用いている。

【００３７】図６は、本発明に従った知覚音声コーダ及
び対応する知覚音声デコーダ６５０を模式的に示すブロ
ック図である。知覚音声コーダ６００は、従来技術に係
る様式で動作する解析フィルタバンク１１０及び量子化
器６１０を有している。図６に示されているように、音
響心理モデルに従って生成されたマスク済み閾値６２０
は、以下に記述される様式で、段階６３０においてＬＳ
Ｆ表現に変換される。ＬＳＦパラメータは段階６３０か
ら知覚音声デコーダ６５０宛に送出され、マスク済み閾
値を再構成するために用いられる。

【００３８】加えて、段階６３０において生成されたＬ
ＳＦパラメータは、符号化器の段階６４０において、及
び、復号化器６５０の段階６６０において、マスク済み
閾値を再構成する目的で用いられる。マスク済み閾値
は、量子化器６１０及び逆量子化器６７０のステップサ
イズを制御する。ＬＳＦ係数は、付随情報として、サブ
バンド信号と共に復号化器６５０宛に送出される。

【００３９】ビット数を削減するためには、マスク済み
閾値は、隣接する時間ウィンドウの各々に関して送出さ
れる必要はない。送出されたマスク済み閾値の間では、
送出されていないマスク済み閾値を近似する目的で、補
間が用いられる。長変換ウィンドウモード（１０２４Ｍ
ＤＣＴ）で知覚音声コーダが動作している場合には、マ
スク済み閾値を送出するために用いられるビットのパー
センテージは比較的小さい。この場合には、マスク済み
閾値は、１０２４サンプリング信号よりなる各々のブロ
ック毎に一度ずつデコーダ宛に送出される。しかしなが
ら、短変換ウィンドウモード（１２８ＭＤＣＴ）で知覚
音声コーダが動作している場合には、知覚音声コーダは
マスク済み閾値を８倍も多くデコーダ宛に送出しなけれ
ばならない（１２８サンプリング信号よりなるブロック
毎に一度）。各短ブロック毎にマスク済み閾値を送出す
ることを防止するために、知覚音声コーダは、短期間ス
ペクトルが著しく変化して直前のマスク済み閾値をマス
ク済み閾値が送出されていないブロックに亘っても維持
している場合にのみ、マスク済み閾値を送出する。

【００４０】しかしながら、時間に関したマスク済み閾
値のより正確な近似を実現する目的では、この種の決定
を、短期間スペクトルではなくマスク済み閾値の時間的
振る舞いに依拠させることがより適切であると思われ
る。

【００４１】本発明は、各マスク済み閾値を必ずしも全
て送出しない新たな方式を用いる。本発明は、短期間ス
ペクトルの変化ではなくマスク済み閾値の連続的な変化
に基づいて、どのマスク済み閾値が送出されるべきであ
るかを決定する。さらに、送出されたマスク済み閾値の
間では、精度を向上させる目的で、補間法が用いられ
る。

【００４２】徐々に変化する信号に関しては、マスク済
み閾値も徐々に変化し、図７の最初に示されているよう
に補間によって近似されうる。概して定常的であって、
その後、急激に変化する信号に関しては、マスク済み閾
値は、一度に変化する定マスク済み閾値によって近似さ
れうる。比較的一定であって、後に徐々に変化するよう
なマスク済み閾値は、定マスク済み閾値と補間との組み
合わせによってモデル化されうる。短時間のうちに過渡
的に変化する部分をその中間に有するような概して定常
的な信号は、時間的に他の値へ変化するが初期値に戻る
ようなマスク済み閾値を有する。この場合には、過渡変
化の後のマスク済み閾値を過渡変化の前のマスク済み閾
値に設定し、過渡変化の後のマスク済み閾値を送出しな
いことによって、効率的にモデル化されうる。

【００４３】図７に示された機構は、マスク済み閾値の
時間変化をモデル化するために利用されうる。各変換ブ
ロック毎にマスク済み閾値を送出する代わりに、少数の
マスク済み閾値のみを送出し、その他の各ブロックに関
しては、如何にモデル化するかを示すようなフラグのみ
が送出される、というようにすることも可能である。こ
の場合には、各ブロック毎に、以下の四つの可能性があ
る：Ｔ−−このブロックに関してマスク済み閾値を送出するｃ−−直前のブロックのマスク済み閾値を当該ブロック
のマスク済み閾値とする（マスク済み閾値を一定に保つ
ことに対応する）ｉ−−直前に送出されたマスク済み閾値と次に送出され
るマスク済み閾値との間で線型補間を行ない、当該ブロ
ックに係るマスク済み閾値を計算するＰ−−二つ前に送出されたマスク済み閾値を当該ブロッ
クに係るマスク済み閾値とする（図７に関連して最後に
記述されている場合に相当）

【００４４】マスク済み閾値の時間的なモデル化がフレ
ーム毎に分散させられる場合には、最初のブロックに係
るマスク済み閾値は必ずしも送出される必要は無い。あ
らゆるモデル化オプション｛Ｔ，ｃ，ｉ，Ｐ｝が最初の
ブロックに関して選択可能である。例えば、ｃが選択さ
れる場合には、フレームの最初のブロックに係るマスク
済み閾値は、直前のフレームの最後のブロックに係るマ
スク済み閾値と同一である。

【００４５】ＰＡＣにおける実装従来技術に係る知覚音声コーダにおけるスケーリングフ
ァクタは、短変換ウィンドウモード（１２８バンドＭＤ
ＣＴ）におけるマスク済み閾値のＬＳＦ表現によって置
換される。図５に示されているように、かつて用いられ
ていたビット数のおよそ半分のみを用いて、マスク済み
閾値はより正確にモデル化される。

【００４６】ＬＳＦは２４ビットベクトル量子化器を用
いて量子化されうる。さらに、定数ａ（式（１３））も
送出される（７ビット）。ＬＳＦパラメータ及びａはマ
スク済み閾値を表現する。量子化されたマスク済み閾値
と量子化されていないマスク済み閾値との差異は、２４
ビットベクトル量子化器の場合には可聴ではない。時間
モデル化に関しては、各短ブロック毎に、モデル化モー
ド｛Ｔ，ｃ，ｉ，Ｐ｝を通知する目的で２ビットが予約
される。ＰＡＣにおける実装がＰＡＣ短ブロックに関し
て記述されているが、本発明は、当業者には明らかなよ
うに、ＰＡＣ長及び短ブロックに関して実装されうる。

【００４７】以上の説明は、本発明の一実施例に関する
もので，この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。

【００４８】

【発明の効果】以上述べたごとく、本発明によれば、マ
スク済み閾値をより正確に表現する方法及びその装置、
さらに、マスク済み閾値をできる限り少ないビットで表
現するための方法及びその装置が提供される。

【００４９】特許請求の範囲の発明の要件の後に括弧で
記載した番号がある場合は本発明の一実施例の態様関係
を示すものであって、本発明の範囲を限定するものと解
釈してはならない。

【図面の簡単な説明】

【図１】従来技術に係る知覚音声コーダの模式的なブ
ロック図。

【図２】図１に示された知覚音声コーダに対応する、
従来技術に係る知覚音声デコーダの模式的なブロック
図。

【図３】図１に示された従来技術に係る知覚音声コー
ダによって用いられるマスク済み閾値と、対応する階段
関数近似を例示した図。

【図４】図１に示された量子化器及び符号化器をより
詳細に示す図。

【図５】音響心理モデルに従って計算されたマスク済
み閾値、及び、本発明に従ったマスク済み閾値の線スペ
クトル周波数（ＬＳＦ）近似を示す図。

【図６】本発明に従った知覚音声コーダ及び対応する
知覚音声デコーダを模式的に示すブロック図。

【図７】マスク済み閾値の時間的変化をモデリングす
るための選択肢のいくつかを示す図。

【符号の説明】

１００知覚音声コーダ１１０解析フィルタバンク１２０知覚モデル１３０量子化器及び符号化器１４０ビットストリームエンコーダ／マルチプレクサ２００知覚音声デコーダ２１０ビットストリームデコーダ／デマルチプレクサ２２０復号化器及び逆量子化器２３０合成フィルタバンク４１０スペクトル係数スケーリング段４２０固定量子化器４３０ハフマン符号化器６００知覚音声コーダ６１０量子化器６２０音響心理閾値６３０閾値−ＬＳＦ変換段６４０ＬＳＦ−閾値変換段６６０ＬＳＦ−閾値変換段６７０逆量子化器６８０合成フィルタバンク

フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者クリストフファーラーチェコ共和国、198 00、プラハ９、カピタナストランスケホ 21／982 ジリブロス方 (72)発明者ジェラルドディートリッヒトーマスシューラーアメリカ合衆国、07928 ニュージャージー州、チャタム、ヒッコリープレイス 25、アパートメントＣ18 Ｆターム(参考） 5D045 CC07 5J064 BB03 BB04 BC02 BC11 BC16 BC22 BC25 BD03

Claims

【特許請求の範囲】

【請求項１】知覚音声コーダでマスク済み閾値を表現
する方法において、（Ａ）前記マスク済み閾値をモデル化する目的で線型予
測係数を計算するステップと、（Ｂ）前記線型予測係数を伝送目的で量子化しうる表現
に変換するステップとからなることを特徴とするマスク
済み閾値表現方法。
【請求項２】前記表現は、線スペクトル周波数表現で
あることを特徴とする請求項１記載のマスク済み閾値表
現方法。
【請求項３】前記方法は、さらに、（Ｃ）前記線スペクトル周波数を伝送目的で量子化する
ステップを有することを特徴とする請求項２記載のマス
ク済み閾値表現方法。
【請求項４】前記方法は、さらに、（Ｄ）前記線型予測係数を聴覚特性に適した非線型周波
数スケールに変換するステップを有することを特徴とす
る請求項１記載のマスク済み閾値表現方法。
【請求項５】前記マスク済み閾値が量子化器のステッ
プサイズを制御することを特徴とする請求項１記載のマ
スク済み閾値表現方法。
【請求項６】前記方法は、さらに、（Ｅ）前記マスク済み閾値における以前のマスク済み閾
値からの変化分が所定の閾値を超過した場合にのみ前記
マスク済み閾値をデコーダ宛に選択的に伝送するステッ
プを有することを特徴とする請求項１記載のマスク済み
閾値表現方法。
【請求項７】前記方法は、さらに、（Ｆ）伝送されないマスク済み閾値を補間技法を用いて
近似するステップを有することを特徴とする請求項６記
載のマスク済み閾値表現方法。
【請求項８】前記マスク済み閾値は音響心理モデルか
ら導出されることを特徴とする請求項１記載のマスク済
み閾値表現方法。
【請求項９】知覚音声デコーダでマスク済み閾値を再
構成する方法において、（Ａ）前記マスク済み閾値の表現を受信するステップ
と、（Ｂ）前記表現を線型予測係数に変換するステップと、（Ｃ）前記線型予測係数から前記マスク済み閾値を導出
するステップからなることを特徴とするマスク済み閾値
再構成方法。
【請求項１０】前記マスク済み閾値は、線スペクトル
周波数を用いて表現されていることを特徴とする請求項
９記載のマスク済み閾値再構成方法。
【請求項１１】前記マスク済み閾値が、逆量子化器の
ステップサイズを制御することを特徴とする請求項９記
載のマスク済み閾値再構成方法。
【請求項１２】前記マスク済み閾値は、以前のマスク
済み閾値からの変化分が所定の閾値を超過した場合にの
み受信されることを特徴とする請求項９記載のマスク済
み閾値再構成方法。
【請求項１３】前記方法は、さらに、（Ｄ）受信されないマスク済み閾値を補間技法を用いて
近似するステップを有することを特徴とする請求項９記
載のマスク済み閾値再構成方法。
【請求項１４】知覚音声コーダにおけるマスク済み閾
値を表現する方法において、（Ａ）前記マスク済み閾値をモデル化する目的で線型予
測係数を計算するステップと、（Ｂ）前記線型予測係数を伝送目的で量子化しうる表現
に変換するステップと、（Ｃ）前記マスク済み閾値における以前のマスク済み閾
値からの変化分が所定の閾値を超過した場合にのみ前記
マスク済み閾値をデコーダ宛に選択的に伝送するステッ
プとからなることを特徴とするマスク済み閾値表現方
法。
【請求項１５】前記変化が前記マスク済み閾値におけ
る緩やかな変化を含んでおり、前記マスク済み閾値が補
間によって近似されることを特徴とする請求項１４記載
のマスク済み閾値表現方法。
【請求項１６】前記変化が前記マスク済み閾値におけ
る緩やかな変化及びそれに引き続く急激な変化を含んで
おり、前記マスク済み閾値が一度に変化する定マスク済
み閾値近似されることを特徴とする請求項１４記載のマ
スク済み閾値表現方法。
【請求項１７】前記変化が前記マスク済み閾値におけ
る定マスク済み閾値及びそれに引き続く緩やかな変化を
含んでおり、前記マスク済み閾値が定マスク済み閾値及
びそれに引き続く補間によって近似されることを特徴と
する請求項１４記載のマスク済み閾値表現方法。
【請求項１８】前記変化が前記マスク済み閾値におけ
る定マスク済み閾値及びその中間に存在する短時間の過
渡的な変化を含んでおり、前記過渡的な変化の後の前記
マスク済み閾値を前記過渡的な変化の前の前記マスク済
み閾値に設定することによって近似されることを特徴と
する請求項１４記載のマスク済み閾値表現方法。
【請求項１９】知覚音声コーダでマスク済み閾値を表
現するシステムにおいて、（Ａ）前記マスク済み閾値をモデル化するための線型予
測係数を計算するステップと、（Ｂ）前記線型予測係数を伝送目的で量子化されうる表
現に変換するステップとからなることを特徴とするマス
ク済み閾値表現システム。
【請求項２０】知覚音声デコーダでマスク済み閾値を
再構成するシステムにおいて、（Ａ）マスク済み閾値の表現を受信するステップと、（Ｂ）前記表現を線型予測係数に変換するステップと、（Ｃ）前記線型予測係数から前記マスク済み閾値を導出
するステップとからなることを特徴とするマスク済み閾
値再構成システム。
【請求項２１】知覚音声コーダでマスク済み閾値を表
現するシステムにおいて、（Ａ）前記マスク済み閾値をモデル化するための線型予
測係数を計算するステップと、（Ｂ）前記線型予測係数を伝送目的で量子化されうる表
現に変換するステップと、（Ｃ）前記マスク済み閾値における以前のマスク済み閾
値からの変化分が所定の閾値を超過した場合にのみ前記
マスク済み閾値をデコーダ宛に選択的に伝送するステッ
プとからなることを特徴とするマスク済み閾値表現シス
テム。