JP2002041099A - マスク済み閾値表現方法、再構成方法、及びそのシステム - Google Patents
マスク済み閾値表現方法、再構成方法、及びそのシステムInfo
- Publication number
- JP2002041099A JP2002041099A JP2001166327A JP2001166327A JP2002041099A JP 2002041099 A JP2002041099 A JP 2002041099A JP 2001166327 A JP2001166327 A JP 2001166327A JP 2001166327 A JP2001166327 A JP 2001166327A JP 2002041099 A JP2002041099 A JP 2002041099A
- Authority
- JP
- Japan
- Prior art keywords
- masked threshold
- masked
- threshold
- change
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008859 change Effects 0.000 claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 26
- 230000014509 gene expression Effects 0.000 claims abstract description 11
- 230000005540 biological transmission Effects 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 29
- 230000001052 transient effect Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 abstract description 5
- 238000013139 quantization Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000723418 Carya Species 0.000 description 1
- 206010042602 Supraventricular extrasystoles Diseases 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
線形予測(LP)係数に係わる線スペクトル周波数(L
SF)あるいは他の表現を用いて表現表現する方法及び
その装置を実現することが本発明の課題である。 【解決手段】 本発明は、基地のLPC解析技法を用い
て、マスク済み閾値に係わるLP係数を計算する。ある
実施例においては、マスク済み閾値は、知覚特性に適し
た非線形周波数スケールに変換されることも可能であ
る。LP係数は、線スペクトル周波数(LSF)あるい
は同様の表現に変換され、送出目的で量子化される。ま
た上記と異なる実施例においては、マスク済み閾値は、
当該マスク済み閾値が直前のマスク済み閾値と著しく異
なる場合においてのみ送出される。送出されたマスク済
み閾値の各々の間では、マスク済み閾値は補間法を用い
て近似される。本発明は、短期間手のスペクトルの変化
ではなく、連続的なマスク済み閾値の変化に基づいて、
どのマスク済み閾値が送出するかを決定する。
Description
し、特に、会話及び音楽信号などの音声信号の知覚ベー
ス符号化に関する。
覚モデル及び信号処理技法を適用することによって、デ
ジタル音声データの蓄積あるいは伝送(もしくはその双
方)に必要となるビットレートを最小化することを試み
ている。知覚音声コーダ(PAC)は、例えば、D.Sinh
aらによる“知覚音声コーダ”(書名:デジタルオーデ
ィオ、節42、42−1から42−18(CRC Press、
1998年))という表題の文献に記載されている。こ
の文献は、本発明の参照文献である。チャネル誤差が存
在しない場合には、PACは、およそ128kbpsの
レートで、ステレオのコンパクトディスク(CD)とほ
ぼ同等の音声品質を実現する。96kbpsというより
低いレートでは、その結果得られる品質は、種々のオー
ディオ素材に関しては、依然としてCDオーディオのそ
れにかなり近い。
与えられたビットレートに対して知覚される歪みを最小
化することによって、音声信号を表現するために必要と
される情報量を低減する。知覚音声コーダは、まず、よ
りコンパクトな表現を実現する目的で時間−周波数変換
を適用し、スペクトル係数の量子化を行なう。図1は、
従来技術に係る知覚音声コーダ100の模式的なブロッ
ク図である。図1に示されているように、通常の知覚音
声コーダ100は、解析フィルタバンク110、知覚モ
デル120、量子化及び符号化ブロック130及びビッ
トストリームエンコーダ/マルチプレクサ140を有し
ている。
リング信号を、サブサンプリングされたスペクトル表現
に変換する。知覚モデル120は、信号のマスク閾値を
推定する。各スペクトル係数に関して、マスク閾値は、
知覚的にトランスペアレントな信号品質を依然として実
現する一方で音声信号に導入されてしまう最大符号化誤
差を与える。量子化及び符号化ブロック130は、マス
ク閾値推定に対応する精度に従って、スペクトル値を量
子化・符号化する。よって、量子化雑音は、対応する送
信信号によって隠される。最後に、符号化済みスペクト
ル値及び付加的な付随情報が、ビットストリームエンコ
ーダ/マルチプレクサ140によってビットストリーム
にパッキングされ、それがデコーダ宛に送出される。
200の模式的なブロック図である。図2に示されてい
るように、知覚音声デコーダは、ビットストリームデコ
ーダ/デマルチプレクサ210、復号化及び逆量子化ブ
ロック220及び合成フィルタバンク230を有してい
る。ビットストリームデコーダ/デマルチプレクサ21
0は、ビットストリームを解釈して復号化し、符号化さ
れたスペクトル値及び付随情報を実現する。復号化及び
逆量子化ブロック220は、量子化されたスペクトル値
の符号化及び逆量子化を実行する。合成フィルタバンク
230は、スペクトル値を時間軸に再び変換する。
100においては、量子化及び符号化ブロック130に
よるサブバンド信号の量子化及び符号化を制御する目的
で、マスク済み閾値が用いられる。
たマスク済み閾値、及び、従来技術に係る知覚音声コー
ダによって用いられる、対応する近似320を示してい
る。
値は、通常、階段関数によって近似され、符号化され
て、知覚音声デコーダ宛に付随情報として送出される。
報に係る帯域が限られているために、マスク済み閾値の
粗い近似のみが送出されるに過ぎない。マスク済み閾値
表現の不充分な正確さは、知覚品質に影響を与える。
現する方法及びその装置に係るニーズが存在する。さら
に、マスク済み閾値をできる限り少ないビットで表現す
るための方法及びその装置に係るニーズも存在する。
覚音声コーダにおけるマスク済み閾値を、線型予測(L
P)係数に係る線型スペクトル周波数(LSF)あるい
は他の表現を用いて表現する方法及びその装置が記載さ
れている。本発明は、既知のLPC解析技法を用いて、
マスク済み閾値に係るLP係数を計算する。ある実施例
においては、マスク済み閾値は、聴覚特性に適した非線
型周波数スケールに変換されることも可能である。LP
けいすうは、線型スペクトル周波数(LSF)あるいは
同様の表現に変換され、送出目的で量子化される。
が、従来技術においては音声符号化技法に適用されてき
たLSF表現を用いて、知覚音声コーダ内でより正確に
表現される。本発明の別の側面に従って、マスク済み閾
値は、当該マスク済み閾値が直前のマスク済み閾値と著
しく異なる場合にのみ送出される。送出されたマスク済
み閾値の各々の間は、マスク済み閾値は補間法を用いて
近似される。本発明は、短期間でのスペクトルの変化で
はなく連続的なマスク済み閾値の変化に基づいて、どの
マスク済み閾値を送出するかを決定する。
変化をモデリングするための種々の選択肢を提供する。
徐々に変化する信号に関しては、マスク済み閾値も徐々
に変化し、補間によって近似されうる。概して定常的で
あって、その後、急激に変化する信号に関しては、マス
ク済み閾値は、一度に変化する定マスク済み閾値によっ
て近似されうる。比較的一定であって、後に徐々に変化
するようなマスク済み閾値は、定マスク済み閾値と補間
との組み合わせによってモデル化されうる。
の中間に有するような概して定常的な信号は、時間的に
他の値へ変化するが初期値に戻るようなマスク済み閾値
を有する。この場合には、過渡変化の後のマスク済み閾
値を過渡変化の前のマスク済み閾値に設定し、過渡変化
の後のマスク済み閾値を送出しないことによって、効率
的にモデル化されうる。
さらなる特徴及び利点は、以下の発明の実施の形態及び
添付図面を参照することによって得られる。
るマスク済み閾値を表現する方法及びその装置を提供す
る。本発明は、線スペクトル周波数(LSF)を用いて
マスク済み閾値係数を表現する。以下の“パワースペク
トルとして見たマスク済み閾値”という表題の節に議論
されているように、線型予測係数がスペクトル包絡線を
モデル化するために用いられうることは既知である。本
発明は、従来短期間のスペクトルに対してのみ適用され
てきた既知のLPC解析技法を利用して、マスク済み閾
値に係るLP係数を計算する。マスク済み閾値は、聴覚
特性により適した非線型周波数スケールに変換されるこ
とも可能である。その後、マスク済み閾値をモデル化し
たLP係数は、線スペクトル周波数(LSF)あるいは
同等の表現に変換され、伝送目的で量子化される。
済み閾値が、従来音声符号化技法に関して適用されてき
たLSF表現を用いて、知覚音声コーダにおいてより正
確に表現される。本発明の別の特徴に従って、マスク済
み閾値を、それが従前のものから著しく異なる場合にの
み適応して送出することによって、送信されるべきビッ
ト数をさらに低減する方法が記載される。送信された個
々のマスク済み閾値の間は、マスク済み閾値が補間法を
用いて近似される。
より詳細に示す図である。量子化器130は、マスク済
み閾値推定に対応する精度に従って、スペクトル値を量
子化する。通常、これは、ブロック420において固定
量子化器が適用される前にブロック410におけるスペ
クトル値をスケーリングすることによって実現される。
数は符号化バンドにグループ化される。各々の符号化バ
ンドにおいては、サンプリングされた信号は同一のファ
クタでスケーリングされる。よって、復号化された信号
における量子化雑音は、各符号化バンド内で一定であ
り、図3に示されているような階段状関数320であ
る。透過符号化に関してマスク済み閾値を超過しないた
めに、知覚音声コーダは、各符号化バンドに関して、当
該符号化バンド内でのマスク済み閾値の最小値に対応す
る量子化雑音を実現するようなスケーリングファクタを
選択する。
数320は、知覚音声コーダによって用いられるマスク
済み閾値の近似と見なすことが可能である。マスク済み
閾値の近似320が真のマスク済み閾値310よりも低
い度合は、信号が必要以上の高精度で符号化されている
ことを示す度合である。よって、不関連性低減は完全に
は活用されていない。長変換ウィンドウモードでは、知
覚音声コーダは、短変換ウィンドウモードの場合より
も、ほとんど4倍ものスケーリングファクタを用いる。
よって、不関連性低減を活用しないことは、PACの短
変換ウィンドウモードにおいてより厳しいものとなる。
一方では、マスク済み閾値は、不関連性低減を最大限に
活用する目的で、可能な限り正確にモデル化されるべき
である。しかしながら、他方では、付随情報に費やされ
るビット量を最小化するためには、できる限り少ないビ
ット数のみが用いられるべきである。
ク済み閾値に従って量子化雑音を成形する。マスク済み
閾値は、音響心理モデル120によって推定される。N
個のサンプリング信号を有し、スペクトル係数{c
k(n)}(0[k<N)を有する各変換ブロックnに
対しては、マスク済み閾値は、離散パワースペクトル
{M k(n)}(0[k<N)として与えられる。フィ
ルタバンクの各々のスペクトル係数ck(n)に関して
は、対応するパワースペクトルMk(n)が存在する。
Mk(n)の値は、対応するスペクトル係数ck(n)を
知覚信号品質を損なうことなく量子化することによって
導入されてしまった雑音の変化を示している。
化器において、ステップサイズQを有する固定線型量子
化器420に供給される前に、段階410においてスケ
ーリングされる。各スペクトル係数ck(n)は、対応
するマスク済み閾値Mk(n)が与えられると、次式に
従ってスケーリングされる:
が、ハフマン(Huffman)符号化器などの無雑音符号化
器430を用いて符号化される。復号化器においては、
逆ハフマン符号化を適合した後、量子化された整数係数
ik(n)が
セスによって、分散
数
リング済み係数qk(n)が次のように逆スケーリング
される:
(3)における
信号のパワースペクトルは、マスク済み閾値に対応す
る。
マスク済み閾値が、まず、線型予測(LP)係数によっ
てモデル化される。
値 周波数毎のマスク済み閾値は、各周波数に関して、信号
に対して知覚されることなく追加されうる雑音の量を与
える。言い換えれば、マスク済み閾値は、元の信号と同
時に存在する場合に聴かれ得ない最大成形済み雑音のパ
ワースペクトルである。
値310は、人間の聴覚システムの機能の仕方と、及
び、多くの場合に音声エネルギーが低周波数側に集中し
ているという事実とのために、低周波数側により詳細な
構造を有している。殆どの知覚モデルは、マスク済み閾
値を分割スケールで計算する。分割スケールは、バーク
スケールの近似である。線型周波数スケールは、周波数
ワープ関数Wによって分割スケールに対して次のように
マッピングされる:
ールにおけるマスク済み閾値はM(ω)であり、分割ス
ケールにおけるマスク済み閾値から次式のように計算さ
れる:
化 W.B.Kleijn及びK.K.Paliwalによる“音声符号化入門”
(音声符号化及び合成(Elsevier社、アムステルダム
(1995)))という表題の文献は、本発明の参照文
献であるが、マスク済み閾値などのパワースペクトルが
LP(線型予測)係数によってどのようにモデル化され
るかを記述している。それによれば、
(ω)及び
タのインパルス応答を著わしている。全極フィルタのス
ケーリングされたパワースペクトル
及び定数
ールにおいてマスク済み閾値を最も良好にモデル化す
る。しかしながら、低周波数側における詳細な構造は良
好にモデル化されない。殆どの音声信号においてその大
部分のエネルギーが低周波数側に存在しているため、低
周波数側のマスク済み閾値が正確にモデル化されること
は重要である。分割スケールドメインにおけるマスク済
み閾値はより滑らかであり、それゆえ、全極フィルタに
よって容易にモデル化されうる。
み閾値は、分割スケールの場合には線型スケールの場合
よりも低精度でしかモデル化されない。ただ、マスク済
み閾値の高周波数側での精度の低さは、通常、高周波数
側に位置する信号エネルギーの割合が僅かであるため
に、殆ど影響を与えない。それゆえ、低周波数側でマス
ク済み閾値をより良好にモデル化することがより重要で
あり、結果として、分割スケールにおけるモデル化がよ
り望ましい。
幅を有するバンドにおけるN個のマスク済み閾値を、中
心周波数
は、閾値
線型周波数スケールにおけるパワースペクトルのように
取り扱われる。よって、LP係数は、マスク済み閾値か
ら、音声符号化に関して有用な技法を用いて計算されう
る。マスク済み閾値(パワースペクトル)の自己相関
が、LP係数を計算するために必要とされる。
値
された周波数に対して与えられる。これに対して、パワ
ースペクトルは、自己相関関数の離散フーリエ変換によ
って計算される。マスク済み閾値のパワースペクトルの
自己相関は
示 線スペクトル周波数は、F.K.Soong及びB.-H.Juangによ
る“線スペクトル対(LSP)及び音声データ圧縮”
(Proc. IEEE Int. Conf. Acoust., Speech, Signal Pr
ocessing, pp.1.10.1-1.10.4(1984年3月))とい
う表題の文献(本発明の参照文献である)に記載されて
いるものであるが、LP係数スペクトル表現の代替とし
て知られている。最小位相フィルタA(z)から、二つ
の多項式
の多項式P(z)及びQ(z)の零点である。これら二
つの多項式に係る三つの興味深い特徴は以下の通りであ
る: ・P(z)及びQ(z)の全ての零点は単位円上に存在
する ・P(z)及びQ(z)の零点は、相互に互い違いにな
っている ・A(z)の最小位相特性は、周波数上での順序を維持
しつつP(z)及びQ(z)の零点を量子化した後にも
容易に保存される
パラメータが効率的に計算されうる、ということを利用
する。さらに、結果として得られる全極フィルタの安定
性は、順序特性から確認されうる。音声符号化に係る文
献より、LSFパラメータの量子化特性は良好であるこ
とが示される。なぜなら、量子化誤差を周波数上で局在
させるからである。
たマスク済み閾値510、及び、本発明に従ったマスク
済み閾値のLSF近似520を示している。LSF近似
520は、図3に示されている、マスク済み閾値の従来
技術に係る階段関数表現と比較して、わずか半分のビッ
ト数のみを用いている。
び対応する知覚音声デコーダ650を模式的に示すブロ
ック図である。知覚音声コーダ600は、従来技術に係
る様式で動作する解析フィルタバンク110及び量子化
器610を有している。図6に示されているように、音
響心理モデルに従って生成されたマスク済み閾値620
は、以下に記述される様式で、段階630においてLS
F表現に変換される。LSFパラメータは段階630か
ら知覚音声デコーダ650宛に送出され、マスク済み閾
値を再構成するために用いられる。
SFパラメータは、符号化器の段階640において、及
び、復号化器650の段階660において、マスク済み
閾値を再構成する目的で用いられる。マスク済み閾値
は、量子化器610及び逆量子化器670のステップサ
イズを制御する。LSF係数は、付随情報として、サブ
バンド信号と共に復号化器650宛に送出される。
閾値は、隣接する時間ウィンドウの各々に関して送出さ
れる必要はない。送出されたマスク済み閾値の間では、
送出されていないマスク済み閾値を近似する目的で、補
間が用いられる。長変換ウィンドウモード(1024M
DCT)で知覚音声コーダが動作している場合には、マ
スク済み閾値を送出するために用いられるビットのパー
センテージは比較的小さい。この場合には、マスク済み
閾値は、1024サンプリング信号よりなる各々のブロ
ック毎に一度ずつデコーダ宛に送出される。しかしなが
ら、短変換ウィンドウモード(128MDCT)で知覚
音声コーダが動作している場合には、知覚音声コーダは
マスク済み閾値を8倍も多くデコーダ宛に送出しなけれ
ばならない(128サンプリング信号よりなるブロック
毎に一度)。各短ブロック毎にマスク済み閾値を送出す
ることを防止するために、知覚音声コーダは、短期間ス
ペクトルが著しく変化して直前のマスク済み閾値をマス
ク済み閾値が送出されていないブロックに亘っても維持
している場合にのみ、マスク済み閾値を送出する。
値のより正確な近似を実現する目的では、この種の決定
を、短期間スペクトルではなくマスク済み閾値の時間的
振る舞いに依拠させることがより適切であると思われ
る。
て送出しない新たな方式を用いる。本発明は、短期間ス
ペクトルの変化ではなくマスク済み閾値の連続的な変化
に基づいて、どのマスク済み閾値が送出されるべきであ
るかを決定する。さらに、送出されたマスク済み閾値の
間では、精度を向上させる目的で、補間法が用いられ
る。
み閾値も徐々に変化し、図7の最初に示されているよう
に補間によって近似されうる。概して定常的であって、
その後、急激に変化する信号に関しては、マスク済み閾
値は、一度に変化する定マスク済み閾値によって近似さ
れうる。比較的一定であって、後に徐々に変化するよう
なマスク済み閾値は、定マスク済み閾値と補間との組み
合わせによってモデル化されうる。短時間のうちに過渡
的に変化する部分をその中間に有するような概して定常
的な信号は、時間的に他の値へ変化するが初期値に戻る
ようなマスク済み閾値を有する。この場合には、過渡変
化の後のマスク済み閾値を過渡変化の前のマスク済み閾
値に設定し、過渡変化の後のマスク済み閾値を送出しな
いことによって、効率的にモデル化されうる。
時間変化をモデル化するために利用されうる。各変換ブ
ロック毎にマスク済み閾値を送出する代わりに、少数の
マスク済み閾値のみを送出し、その他の各ブロックに関
しては、如何にモデル化するかを示すようなフラグのみ
が送出される、というようにすることも可能である。こ
の場合には、各ブロック毎に、以下の四つの可能性があ
る: T−−このブロックに関してマスク済み閾値を送出する c−−直前のブロックのマスク済み閾値を当該ブロック
のマスク済み閾値とする(マスク済み閾値を一定に保つ
ことに対応する) i−−直前に送出されたマスク済み閾値と次に送出され
るマスク済み閾値との間で線型補間を行ない、当該ブロ
ックに係るマスク済み閾値を計算する P−−二つ前に送出されたマスク済み閾値を当該ブロッ
クに係るマスク済み閾値とする(図7に関連して最後に
記述されている場合に相当)
ーム毎に分散させられる場合には、最初のブロックに係
るマスク済み閾値は必ずしも送出される必要は無い。あ
らゆるモデル化オプション{T,c,i,P}が最初の
ブロックに関して選択可能である。例えば、cが選択さ
れる場合には、フレームの最初のブロックに係るマスク
済み閾値は、直前のフレームの最後のブロックに係るマ
スク済み閾値と同一である。
ァクタは、短変換ウィンドウモード(128バンドMD
CT)におけるマスク済み閾値のLSF表現によって置
換される。図5に示されているように、かつて用いられ
ていたビット数のおよそ半分のみを用いて、マスク済み
閾値はより正確にモデル化される。
いて量子化されうる。さらに、定数a(式(13))も
送出される(7ビット)。LSFパラメータ及びaはマ
スク済み閾値を表現する。量子化されたマスク済み閾値
と量子化されていないマスク済み閾値との差異は、24
ビットベクトル量子化器の場合には可聴ではない。時間
モデル化に関しては、各短ブロック毎に、モデル化モー
ド{T,c,i,P}を通知する目的で2ビットが予約
される。PACにおける実装がPAC短ブロックに関し
て記述されているが、本発明は、当業者には明らかなよ
うに、PAC長及び短ブロックに関して実装されうる。
もので,この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。
スク済み閾値をより正確に表現する方法及びその装置、
さらに、マスク済み閾値をできる限り少ないビットで表
現するための方法及びその装置が提供される。
記載した番号がある場合は本発明の一実施例の態様関係
を示すものであって、本発明の範囲を限定するものと解
釈してはならない。
ロック図。
従来技術に係る知覚音声デコーダの模式的なブロック
図。
ダによって用いられるマスク済み閾値と、対応する階段
関数近似を例示した図。
詳細に示す図。
み閾値、及び、本発明に従ったマスク済み閾値の線スペ
クトル周波数(LSF)近似を示す図。
知覚音声デコーダを模式的に示すブロック図。
るための選択肢のいくつかを示す図。
Claims (21)
- 【請求項1】 知覚音声コーダでマスク済み閾値を表現
する方法において、 (A)前記マスク済み閾値をモデル化する目的で線型予
測係数を計算するステップと、 (B)前記線型予測係数を伝送目的で量子化しうる表現
に変換するステップとからなることを特徴とするマスク
済み閾値表現方法。 - 【請求項2】 前記表現は、線スペクトル周波数表現で
あることを特徴とする請求項1記載のマスク済み閾値表
現方法。 - 【請求項3】 前記方法は、さらに、 (C)前記線スペクトル周波数を伝送目的で量子化する
ステップを有することを特徴とする請求項2記載のマス
ク済み閾値表現方法。 - 【請求項4】 前記方法は、さらに、 (D)前記線型予測係数を聴覚特性に適した非線型周波
数スケールに変換するステップを有することを特徴とす
る請求項1記載のマスク済み閾値表現方法。 - 【請求項5】 前記マスク済み閾値が量子化器のステッ
プサイズを制御することを特徴とする請求項1記載のマ
スク済み閾値表現方法。 - 【請求項6】 前記方法は、さらに、 (E)前記マスク済み閾値における以前のマスク済み閾
値からの変化分が所定の閾値を超過した場合にのみ前記
マスク済み閾値をデコーダ宛に選択的に伝送するステッ
プを有することを特徴とする請求項1記載のマスク済み
閾値表現方法。 - 【請求項7】 前記方法は、さらに、 (F)伝送されないマスク済み閾値を補間技法を用いて
近似するステップを有することを特徴とする請求項6記
載のマスク済み閾値表現方法。 - 【請求項8】 前記マスク済み閾値は音響心理モデルか
ら導出されることを特徴とする請求項1記載のマスク済
み閾値表現方法。 - 【請求項9】 知覚音声デコーダでマスク済み閾値を再
構成する方法において、 (A)前記マスク済み閾値の表現を受信するステップ
と、 (B)前記表現を線型予測係数に変換するステップと、 (C)前記線型予測係数から前記マスク済み閾値を導出
するステップからなることを特徴とするマスク済み閾値
再構成方法。 - 【請求項10】 前記マスク済み閾値は、線スペクトル
周波数を用いて表現されていることを特徴とする請求項
9記載のマスク済み閾値再構成方法。 - 【請求項11】 前記マスク済み閾値が、逆量子化器の
ステップサイズを制御することを特徴とする請求項9記
載のマスク済み閾値再構成方法。 - 【請求項12】 前記マスク済み閾値は、以前のマスク
済み閾値からの変化分が所定の閾値を超過した場合にの
み受信されることを特徴とする請求項9記載のマスク済
み閾値再構成方法。 - 【請求項13】 前記方法は、さらに、 (D)受信されないマスク済み閾値を補間技法を用いて
近似するステップを有することを特徴とする請求項9記
載のマスク済み閾値再構成方法。 - 【請求項14】 知覚音声コーダにおけるマスク済み閾
値を表現する方法において、 (A)前記マスク済み閾値をモデル化する目的で線型予
測係数を計算するステップと、 (B)前記線型予測係数を伝送目的で量子化しうる表現
に変換するステップと、 (C)前記マスク済み閾値における以前のマスク済み閾
値からの変化分が所定の閾値を超過した場合にのみ前記
マスク済み閾値をデコーダ宛に選択的に伝送するステッ
プとからなることを特徴とするマスク済み閾値表現方
法。 - 【請求項15】 前記変化が前記マスク済み閾値におけ
る緩やかな変化を含んでおり、前記マスク済み閾値が補
間によって近似されることを特徴とする請求項14記載
のマスク済み閾値表現方法。 - 【請求項16】 前記変化が前記マスク済み閾値におけ
る緩やかな変化及びそれに引き続く急激な変化を含んで
おり、前記マスク済み閾値が一度に変化する定マスク済
み閾値近似されることを特徴とする請求項14記載のマ
スク済み閾値表現方法。 - 【請求項17】 前記変化が前記マスク済み閾値におけ
る定マスク済み閾値及びそれに引き続く緩やかな変化を
含んでおり、前記マスク済み閾値が定マスク済み閾値及
びそれに引き続く補間によって近似されることを特徴と
する請求項14記載のマスク済み閾値表現方法。 - 【請求項18】 前記変化が前記マスク済み閾値におけ
る定マスク済み閾値及びその中間に存在する短時間の過
渡的な変化を含んでおり、前記過渡的な変化の後の前記
マスク済み閾値を前記過渡的な変化の前の前記マスク済
み閾値に設定することによって近似されることを特徴と
する請求項14記載のマスク済み閾値表現方法。 - 【請求項19】 知覚音声コーダでマスク済み閾値を表
現するシステムにおいて、 (A)前記マスク済み閾値をモデル化するための線型予
測係数を計算するステップと、 (B)前記線型予測係数を伝送目的で量子化されうる表
現に変換するステップとからなることを特徴とするマス
ク済み閾値表現システム。 - 【請求項20】 知覚音声デコーダでマスク済み閾値を
再構成するシステムにおいて、 (A)マスク済み閾値の表現を受信するステップと、 (B)前記表現を線型予測係数に変換するステップと、 (C)前記線型予測係数から前記マスク済み閾値を導出
するステップとからなることを特徴とするマスク済み閾
値再構成システム。 - 【請求項21】 知覚音声コーダでマスク済み閾値を表
現するシステムにおいて、 (A)前記マスク済み閾値をモデル化するための線型予
測係数を計算するステップと、 (B)前記線型予測係数を伝送目的で量子化されうる表
現に変換するステップと、 (C)前記マスク済み閾値における以前のマスク済み閾
値からの変化分が所定の閾値を超過した場合にのみ前記
マスク済み閾値をデコーダ宛に選択的に伝送するステッ
プとからなることを特徴とするマスク済み閾値表現シス
テム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/586071 | 2000-06-02 | ||
US09/586,071 US6778953B1 (en) | 2000-06-02 | 2000-06-02 | Method and apparatus for representing masked thresholds in a perceptual audio coder |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002041099A true JP2002041099A (ja) | 2002-02-08 |
JP2002041099A5 JP2002041099A5 (ja) | 2008-07-10 |
JP5323295B2 JP5323295B2 (ja) | 2013-10-23 |
Family
ID=24344184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001166327A Expired - Fee Related JP5323295B2 (ja) | 2000-06-02 | 2001-06-01 | マスク済み閾値表現方法、再構成方法、及びそのシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6778953B1 (ja) |
EP (1) | EP1160769A3 (ja) |
JP (1) | JP5323295B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100474969B1 (ko) * | 2002-06-04 | 2005-03-10 | 에스엘투 주식회사 | 음성신호 부호화를 위한 선 스펙트럼 계수의 벡터 양자화방법과 이를 위한 마스킹 임계치 산출 방법 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047187B2 (en) * | 2002-02-27 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio error concealment using data hiding |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
WO2004008806A1 (en) * | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
JP4212591B2 (ja) * | 2003-06-30 | 2009-01-21 | 富士通株式会社 | オーディオ符号化装置 |
KR101141247B1 (ko) * | 2003-10-10 | 2012-05-04 | 에이전시 포 사이언스, 테크놀로지 앤드 리서치 | 디지털 신호를 확장성 비트스트림으로 인코딩하는 방법;확장성 비트스트림을 디코딩하는 방법 |
US20050096918A1 (en) * | 2003-10-31 | 2005-05-05 | Arun Rao | Reduction of memory requirements by overlaying buffers |
US7490044B2 (en) * | 2004-06-08 | 2009-02-10 | Bose Corporation | Audio signal processing |
US8332216B2 (en) | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
JP4548348B2 (ja) * | 2006-01-18 | 2010-09-22 | カシオ計算機株式会社 | 音声符号化装置及び音声符号化方法 |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
JP5065687B2 (ja) * | 2007-01-09 | 2012-11-07 | 株式会社東芝 | オーディオデータ処理装置及び端末装置 |
JP5262171B2 (ja) * | 2008-02-19 | 2013-08-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
CN101740033B (zh) * | 2008-11-24 | 2011-12-28 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
KR101747917B1 (ko) * | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
EP3182411A1 (en) | 2015-12-14 | 2017-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded audio signal |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0651795A (ja) * | 1992-03-02 | 1994-02-25 | American Teleph & Telegr Co <Att> | 信号量子化装置及びその方法 |
JPH08223052A (ja) * | 1995-02-17 | 1996-08-30 | Victor Co Of Japan Ltd | 音声高能率符号化装置 |
JPH09152895A (ja) * | 1995-09-19 | 1997-06-10 | Lucent Technol Inc | 合成フィルタの周波数応答に基づく知覚ノイズマスキング測定法 |
JPH09288498A (ja) * | 1996-04-19 | 1997-11-04 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JPH10107641A (ja) * | 1996-09-26 | 1998-04-24 | Toshiba Corp | 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 |
JPH11504733A (ja) * | 1996-02-26 | 1999-04-27 | エイ・ティ・アンド・ティ・コーポレーション | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 |
JP2000101436A (ja) * | 1998-09-17 | 2000-04-07 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化及び復号方法及び装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
EP0749647B1 (en) * | 1995-01-09 | 2003-02-12 | Koninklijke Philips Electronics N.V. | Method and apparatus for determining a masked threshold |
US5675701A (en) * | 1995-04-28 | 1997-10-07 | Lucent Technologies Inc. | Speech coding parameter smoothing method |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
FR2742568B1 (fr) * | 1995-12-15 | 1998-02-13 | Catherine Quinquis | Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application |
US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
US6035177A (en) * | 1996-02-26 | 2000-03-07 | Donald W. Moses | Simultaneous transmission of ancillary and audio signals by means of perceptual coding |
US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
DE19730130C2 (de) * | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
DE19736669C1 (de) * | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
US6499010B1 (en) * | 2000-01-04 | 2002-12-24 | Agere Systems Inc. | Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency |
-
2000
- 2000-06-02 US US09/586,071 patent/US6778953B1/en not_active Expired - Lifetime
-
2001
- 2001-05-22 EP EP01304475A patent/EP1160769A3/en not_active Ceased
- 2001-06-01 JP JP2001166327A patent/JP5323295B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0651795A (ja) * | 1992-03-02 | 1994-02-25 | American Teleph & Telegr Co <Att> | 信号量子化装置及びその方法 |
JPH08223052A (ja) * | 1995-02-17 | 1996-08-30 | Victor Co Of Japan Ltd | 音声高能率符号化装置 |
JPH09152895A (ja) * | 1995-09-19 | 1997-06-10 | Lucent Technol Inc | 合成フィルタの周波数応答に基づく知覚ノイズマスキング測定法 |
JPH11504733A (ja) * | 1996-02-26 | 1999-04-27 | エイ・ティ・アンド・ティ・コーポレーション | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 |
JPH09288498A (ja) * | 1996-04-19 | 1997-11-04 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JPH10107641A (ja) * | 1996-09-26 | 1998-04-24 | Toshiba Corp | 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法 |
JP2000101436A (ja) * | 1998-09-17 | 2000-04-07 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化及び復号方法及び装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100474969B1 (ko) * | 2002-06-04 | 2005-03-10 | 에스엘투 주식회사 | 음성신호 부호화를 위한 선 스펙트럼 계수의 벡터 양자화방법과 이를 위한 마스킹 임계치 산출 방법 |
Also Published As
Publication number | Publication date |
---|---|
US6778953B1 (en) | 2004-08-17 |
JP5323295B2 (ja) | 2013-10-23 |
EP1160769A2 (en) | 2001-12-05 |
EP1160769A3 (en) | 2003-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3782103B2 (ja) | アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。 | |
EP1160770B2 (en) | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction | |
JP3592473B2 (ja) | 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
KR101162275B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
EP2229677B1 (en) | A method and an apparatus for processing an audio signal | |
CA2185746C (en) | Perceptual noise masking measure based on synthesis filter frequency response | |
TWI585749B (zh) | 無損編碼方法 | |
EP0764939B1 (en) | Synthesis of speech signals in the absence of coded parameters | |
JP5323295B2 (ja) | マスク済み閾値表現方法、再構成方法、及びそのシステム | |
JP2001522156A (ja) | オーディオ信号をコーディングする方法及び装置並びにビットストリームをデコーディングする方法及び装置 | |
JPH10282999A (ja) | オーディオ信号を符号化する方法及び装置、並びに符号化されたオーディオ信号を復号する方法及び装置 | |
JPH09152900A (ja) | 予測符号化における人間聴覚モデルを使用した音声信号量子化法 | |
WO2004097796A1 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
KR20120125513A (ko) | 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더 | |
JP2004310088A (ja) | 半レート・ボコーダ | |
CN102150202A (zh) | 对音频/语音信号进行编码和解码的方法和设备 | |
US20090018823A1 (en) | Speech coding | |
JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JPH11184498A (ja) | 音声符号化/復号化方法 | |
KR100480341B1 (ko) | 광대역 저전송률 음성 신호의 부호화기 | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
US6678647B1 (en) | Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution | |
CN109427338B (zh) | 立体声信号的编码方法和编码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080523 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110704 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111004 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120104 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120913 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121213 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5323295 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |