JP5323295B2 - マスク済み閾値表現方法、再構成方法、及びそのシステム - Google Patents

マスク済み閾値表現方法、再構成方法、及びそのシステム Download PDF

Info

Publication number
JP5323295B2
JP5323295B2 JP2001166327A JP2001166327A JP5323295B2 JP 5323295 B2 JP5323295 B2 JP 5323295B2 JP 2001166327 A JP2001166327 A JP 2001166327A JP 2001166327 A JP2001166327 A JP 2001166327A JP 5323295 B2 JP5323295 B2 JP 5323295B2
Authority
JP
Japan
Prior art keywords
masked threshold
threshold
masked
change
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001166327A
Other languages
English (en)
Other versions
JP2002041099A (ja
JP2002041099A5 (ja
Inventor
アンドレアス エドラ ベルンド
ファーラー クリストフ
ディートリッヒ トーマス シューラー ジェラルド
Original Assignee
アルカテル−ルーセント ユーエスエー インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント ユーエスエー インコーポレーテッド filed Critical アルカテル−ルーセント ユーエスエー インコーポレーテッド
Publication of JP2002041099A publication Critical patent/JP2002041099A/ja
Publication of JP2002041099A5 publication Critical patent/JP2002041099A5/ja
Application granted granted Critical
Publication of JP5323295B2 publication Critical patent/JP5323295B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は音声符号化技法に関し、特に、会話及び音楽信号などの音声信号の知覚ベース符号化に関する。
知覚音声コーダ(PAC)は、高度な聴覚モデル及び信号処理技法を適用することによって、デジタル音声データの蓄積あるいは伝送(もしくはその双方)に必要となるビットレートを最小化することを試みている。知覚音声コーダ(PAC)は、例えば、D.Sinhaらによる“知覚音声コーダ”(書名:デジタルオーディオ、節42、42−1から42−18(CRC Press、1998年))という表題の文献に記載されている。この文献は、本発明の参照文献である。チャネル誤差が存在しない場合には、PACは、およそ128kbpsのレートで、ステレオのコンパクトディスク(CD)とほぼ同等の音声品質を実現する。96kbpsというより低いレートでは、その結果得られる品質は、種々のオーディオ素材に関しては、依然としてCDオーディオのそれにかなり近い。
知覚音声コーダは、人間の知覚を活用し、与えられたビットレートに対して知覚される歪みを最小化することによって、音声信号を表現するために必要とされる情報量を低減する。知覚音声コーダは、まず、よりコンパクトな表現を実現する目的で時間−周波数変換を適用し、スペクトル係数の量子化を行なう。図1は、従来技術に係る知覚音声コーダ100の模式的なブロック図である。図1に示されているように、通常の知覚音声コーダ100は、解析フィルタバンク110、知覚モデル120、量子化及び符号化ブロック130及びビットストリームエンコーダ/マルチプレクサ140を有している。
解析フィルタバンク110は、入力サンプリング信号を、サブサンプリングされたスペクトル表現に変換する。知覚モデル120は、信号のマスク閾値を推定する。各スペクトル係数に関して、マスク閾値は、知覚的にトランスペアレントな信号品質を依然として実現する一方で音声信号に導入されてしまう最大符号化誤差を与える。量子化及び符号化ブロック130は、マスク閾値推定に対応する精度に従って、スペクトル値を量子化・符号化する。よって、量子化雑音は、対応する送信信号によって隠される。最後に、符号化済みスペクトル値及び付加的な付随情報が、ビットストリームエンコーダ/マルチプレクサ140によってビットストリームにパッキングされ、それがデコーダ宛に送出される。
図2は、従来技術に係る知覚音声デコーダ200の模式的なブロック図である。図2に示されているように、知覚音声デコーダは、ビットストリームデコーダ/デマルチプレクサ210、復号化及び逆量子化ブロック220及び合成フィルタバンク230を有している。ビットストリームデコーダ/デマルチプレクサ210は、ビットストリームを解釈して復号化し、符号化されたスペクトル値及び付随情報を実現する。復号化及び逆量子化ブロック220は、量子化されたスペクトル値の符号化及び逆量子化を実行する。合成フィルタバンク230は、スペクトル値を時間軸に再び変換する。
図1に示されているような知覚音声コーダ100においては、量子化及び符号化ブロック130によるサブバンド信号の量子化及び符号化を制御する目的で、マスク済み閾値が用いられる。
図3は、音響心理モデルに従って計算されたマスク済み閾値、及び、従来技術に係る知覚音声コーダによって用いられる、対応する近似320を示している。
図8に示されているように、マスク済み閾値は、通常、階段関数によって近似され、符号化されて、知覚音声デコーダ宛に付随情報として送出される。
発明が解決しようとする課題
しかしながら、付随情報に係る帯域が限られているために、マスク済み閾値の粗い近似のみが送出されるに過ぎない。マスク済み閾値表現の不充分な正確さは、知覚品質に影響を与える。
それゆえ、マスク済み閾値をより正確に表現する方法及びその装置に係るニーズが存在する。さらに、マスク済み閾値をできる限り少ないビットで表現するための方法及びその装置に係るニーズも存在する。
課題を解決するための手段
本明細書においては、知覚音声コーダにおけるマスク済み閾値を、線型予測(LP)係数に係る線型スペクトル周波数(LSF)あるいは他の表現を用いて表現する方法及びその装置が記載されている。本発明は、既知のLPC解析技法を用いて、マスク済み閾値に係るLP係数を計算する。ある実施例においては、マスク済み閾値は、聴覚特性に適した非線型周波数スケールに変換されることも可能である。LPけいすうは、線型スペクトル周波数(LSF)あるいは同様の表現に変換され、送出目的で量子化される。
本発明の一側面に従って、マスク済み閾値が、従来技術においては音声符号化技法に適用されてきたLSF表現を用いて、知覚音声コーダ内でより正確に表現される。本発明の別の側面に従って、マスク済み閾値は、当該マスク済み閾値が直前のマスク済み閾値と著しく異なる場合にのみ送出される。送出されたマスク済み閾値の各々の間は、マスク済み閾値は補間法を用いて近似される。本発明は、短期間でのスペクトルの変化ではなく連続的なマスク済み閾値の変化に基づいて、どのマスク済み閾値を送出するかを決定する。
本発明は、マスク済み閾値の時間に対する変化をモデリングするための種々の選択肢を提供する。徐々に変化する信号に関しては、マスク済み閾値も徐々に変化し、補間によって近似されうる。概して定常的であって、その後、急激に変化する信号に関しては、マスク済み閾値は、一度に変化する定マスク済み閾値によって近似されうる。比較的一定であって、後に徐々に変化するようなマスク済み閾値は、定マスク済み閾値と補間との組み合わせによってモデル化されうる。
短時間のうちに過渡的に変化する部分をその中間に有するような概して定常的な信号は、時間的に他の値へ変化するが初期値に戻るようなマスク済み閾値を有する。この場合には、過渡変化の後のマスク済み閾値を過渡変化の前のマスク済み閾値に設定し、過渡変化の後のマスク済み閾値を送出しないことによって、効率的にモデル化されうる。
本発明のより完全な理解、及び、本発明のさらなる特徴及び利点は、以下の発明の実施の形態及び添付図面を参照することによって得られる。
本発明は、知覚音声コーダにおけるマスク済み閾値を表現する方法及びその装置を提供する。本発明は、線スペクトル周波数(LSF)を用いてマスク済み閾値係数を表現する。以下の“パワースペクトルとして見たマスク済み閾値”という表題の節に議論されているように、線型予測係数がスペクトル包絡線をモデル化するために用いられうることは既知である。本発明は、従来短期間のスペクトルに対してのみ適用されてきた既知のLPC解析技法を利用して、マスク済み閾値に係るLP係数を計算する。マスク済み閾値は、聴覚特性により適した非線型周波数スケールに変換されることも可能である。その後、マスク済み閾値をモデル化したLP係数は、線スペクトル周波数(LSF)あるいは同等の表現に変換され、伝送目的で量子化される。
よって、本発明の一側面に従って、マスク済み閾値が、従来音声符号化技法に関して適用されてきたLSF表現を用いて、知覚音声コーダにおいてより正確に表現される。本発明の別の特徴に従って、マスク済み閾値を、それが従前のものから著しく異なる場合にのみ適応して送出することによって、送信されるべきビット数をさらに低減する方法が記載される。送信された個々のマスク済み閾値の間は、マスク済み閾値が補間法を用いて近似される。
知覚音声符号化の原理
図4は、図1に示された量子化器及び符号化器130をより詳細に示す図である。量子化器130は、マスク済み閾値推定に対応する精度に従って、スペクトル値を量子化する。通常、これは、ブロック420において固定量子化器が適用される前にブロック410におけるスペクトル値をスケーリングすることによって実現される。
知覚音声コーダにおいては、スペクトル係数は符号化バンドにグループ化される。各々の符号化バンドにおいては、サンプリングされた信号は同一のファクタでスケーリングされる。よって、復号化された信号における量子化雑音は、各符号化バンド内で一定であり、図3に示されているような階段状関数320である。透過符号化に関してマスク済み閾値を超過しないために、知覚音声コーダは、各符号化バンドに関して、当該符号化バンド内でのマスク済み閾値の最小値に対応する量子化雑音を実現するようなスケーリングファクタを選択する。
導入されてしまった量子化雑音の階段状関数320は、知覚音声コーダによって用いられるマスク済み閾値の近似と見なすことが可能である。マスク済み閾値の近似320が真のマスク済み閾値310よりも低い度合は、信号が必要以上の高精度で符号化されていることを示す度合である。よって、不関連性低減は完全には活用されていない。長変換ウィンドウモードでは、知覚音声コーダは、短変換ウィンドウモードの場合よりも、ほとんど4倍ものスケーリングファクタを用いる。よって、不関連性低減を活用しないことは、PACの短変換ウィンドウモードにおいてより厳しいものとなる。一方では、マスク済み閾値は、不関連性低減を最大限に活用する目的で、可能な限り正確にモデル化されるべきである。しかしながら、他方では、付随情報に費やされるビット量を最小化するためには、できる限り少ないビット数のみが用いられるべきである。
知覚音声コーダなどの音声コーダは、マスク済み閾値に従って量子化雑音を成形する。マスク済み閾値は、音響心理モデル120によって推定される。N個のサンプリング信号を有し、スペクトル係数{ck(n)}(0[k<N)を有する各変換ブロックnに対しては、マスク済み閾値は、離散パワースペクトル{Mk(n)}(0[k<N)として与えられる。フィルタバンクの各々のスペクトル係数ck(n)に関しては、対応するパワースペクトルMk(n)が存在する。Mk(n)の値は、対応するスペクトル係数ck(n)を知覚信号品質を損なうことなく量子化することによって導入されてしまった雑音の変化を示している。
図4に示されているように、係数は、符号化器において、ステップサイズQを有する固定線型量子化器420に供給される前に、段階410においてスケーリングされる。各スペクトル係数ck(n)は、対応するマスク済み閾値Mk(n)が与えられると、次式に従ってスケーリングされる:
Figure 0005323295
その後、スケーリングされた係数は、量子化されて整数
Figure 0005323295
にマッピングされる。その後、量子化器指数ik(n)が、ハフマン(Huffman)符号化器などの無雑音符号化器430を用いて符号化される。復号化器においては、逆ハフマン符号化を適合した後、量子化された整数係数ik(n)が
Figure 0005323295
に従って逆量子化される。この量子化及び逆量子化プロセスによって、分散
Figure 0005323295
を有する白色雑音dk(n)が、スケーリングされた係数
Figure 0005323295
に対して以下のように付加される:
Figure 0005323295
復号化器においては、量子化されたスケーリング済み係数qk(n)が次のように逆スケーリングされる:
Figure 0005323295
復号化器のスペクトル係数における雑音の分散(式(3)における
Figure 0005323295
の項)はMk(n)である。よって、復号化された音声信号のパワースペクトルは、マスク済み閾値に対応する。
マスク済み閾値のモデル化
前述されているように、本発明の一つの特徴に従って、マスク済み閾値が、まず、線型予測(LP)係数によってモデル化される。
パワースペクトルとして見たマスク済み閾値
周波数毎のマスク済み閾値は、各周波数に関して、信号に対して知覚されることなく追加されうる雑音の量を与える。言い換えれば、マスク済み閾値は、元の信号と同時に存在する場合に聴かれ得ない最大成形済み雑音のパワースペクトルである。
図3に示されているように、マスク済み閾値310は、人間の聴覚システムの機能の仕方と、及び、多くの場合に音声エネルギーが低周波数側に集中しているという事実とのために、低周波数側により詳細な構造を有している。殆どの知覚モデルは、マスク済み閾値を分割スケールで計算する。分割スケールは、バークスケールの近似である。線型周波数スケールは、周波数ワープ関数Wによって分割スケールに対して次のようにマッピングされる:
Figure 0005323295
ここで、W(0)=0でW(π)=πである。線型スケールにおけるマスク済み閾値はM(ω)であり、分割スケールにおけるマスク済み閾値から次式のように計算される:
Figure 0005323295
線型予測によるパワースペクトルのモデル化
W.B.Kleijn及びK.K.Paliwalによる“音声符号化入門”(音声符号化及び合成(Elsevier社、アムステルダム(1995)))という表題の文献は、本発明の参照文献であるが、マスク済み閾値などのパワースペクトルがLP(線型予測)係数によってどのようにモデル化されるかを記述している。それによれば、
Figure 0005323295
が成り立つ。ここで、e(n)は予測誤差であり、S(ω)及び
Figure 0005323295
は、それぞれ、信号のパワースペクトル及び全極フィルタのインパルス応答を著わしている。全極フィルタのスケーリングされたパワースペクトル
Figure 0005323295
は、元の信号のパワースペクトル
Figure 0005323295
の近似であって、
Figure 0005323295
である。
よって、LP係数{am}(1[m[N)及び定数
Figure 0005323295
は、パワースペクトルの近似を表現することができる。
マスク済み閾値のLP係数によるモデル化
全極フィルタは、MSEの観点からは、線型周波数スケールにおいてマスク済み閾値を最も良好にモデル化する。しかしながら、低周波数側における詳細な構造は良好にモデル化されない。殆どの音声信号においてその大部分のエネルギーが低周波数側に存在しているため、低周波数側のマスク済み閾値が正確にモデル化されることは重要である。分割スケールドメインにおけるマスク済み閾値はより滑らかであり、それゆえ、全極フィルタによって容易にモデル化されうる。
しかしながら、高周波数側では、マスク済み閾値は、分割スケールの場合には線型スケールの場合よりも低精度でしかモデル化されない。ただ、マスク済み閾値の高周波数側での精度の低さは、通常、高周波数側に位置する信号エネルギーの割合が僅かであるために、殆ど影響を与えない。それゆえ、低周波数側でマスク済み閾値をより良好にモデル化することがより重要であり、結果として、分割スケールにおけるモデル化がより望ましい。
音響心理モデルは、分割スケールで等しい幅を有するバンドにおけるN個のマスク済み閾値を、中心周波数
Figure 0005323295
に関して計算する。各バンドに対して、音響心理モデルは、閾値
Figure 0005323295
を計算する。
分割スケールにおけるマスク済み閾値は、線型周波数スケールにおけるパワースペクトルのように取り扱われる。よって、LP係数は、マスク済み閾値から、音声符号化に関して有用な技法を用いて計算されうる。マスク済み閾値(パワースペクトル)の自己相関が、LP係数を計算するために必要とされる。
音響心理モデルから得られるマスク済み閾値
Figure 0005323295
は、式(14)に従って、π/(2N)だけ右にシフトされた周波数に対して与えられる。これに対して、パワースペクトルは、自己相関関数の離散フーリエ変換によって計算される。マスク済み閾値のパワースペクトルの自己相関は
Figure 0005323295
である。
LP係数の線スペクトル周波数としての表示
線スペクトル周波数は、F.K.Soong及びB.-H.Juangによる“線スペクトル対(LSP)及び音声データ圧縮”(Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, pp.1.10.1-1.10.4(1984年3月))という表題の文献(本発明の参照文献である)に記載されているものであるが、LP係数スペクトル表現の代替として知られている。最小位相フィルタA(z)から、二つの多項式
Figure 0005323295
が計算される。LSF(線スペクトル周波数)は、二つの多項式P(z)及びQ(z)の零点である。これら二つの多項式に係る三つの興味深い特徴は以下の通りである:
・P(z)及びQ(z)の全ての零点は単位円上に存在する
・P(z)及びQ(z)の零点は、相互に互い違いになっている
・A(z)の最小位相特性は、周波数上での順序を維持しつつP(z)及びQ(z)の零点を量子化した後にも容易に保存される
本発明は、これらの性質のために、LSFパラメータが効率的に計算されうる、ということを利用する。さらに、結果として得られる全極フィルタの安定性は、順序特性から確認されうる。音声符号化に係る文献より、LSFパラメータの量子化特性は良好であることが示される。なぜなら、量子化誤差を周波数上で局在させるからである。
図5は、音響心理モデルに従って計算されたマスク済み閾値510、及び、本発明に従ったマスク済み閾値のLSF近似520を示している。LSF近似520は、図3に示されている、マスク済み閾値の従来技術に係る階段関数表現と比較して、わずか半分のビット数のみを用いている。
図6は、本発明に従った知覚音声コーダ及び対応する知覚音声デコーダ650を模式的に示すブロック図である。知覚音声コーダ600は、従来技術に係る様式で動作する解析フィルタバンク110及び量子化器610を有している。図6に示されているように、音響心理モデルに従って生成されたマスク済み閾値620は、以下に記述される様式で、段階630においてLSF表現に変換される。LSFパラメータは段階630から知覚音声デコーダ650宛に送出され、マスク済み閾値を再構成するために用いられる。
加えて、段階630において生成されたLSFパラメータは、符号化器の段階640において、及び、復号化器650の段階660において、マスク済み閾値を再構成する目的で用いられる。マスク済み閾値は、量子化器610及び逆量子化器670のステップサイズを制御する。LSF係数は、付随情報として、サブバンド信号と共に復号化器650宛に送出される。
ビット数を削減するためには、マスク済み閾値は、隣接する時間ウィンドウの各々に関して送出される必要はない。送出されたマスク済み閾値の間では、送出されていないマスク済み閾値を近似する目的で、補間が用いられる。長変換ウィンドウモード(1024MDCT)で知覚音声コーダが動作している場合には、マスク済み閾値を送出するために用いられるビットのパーセンテージは比較的小さい。この場合には、マスク済み閾値は、1024サンプリング信号よりなる各々のブロック毎に一度ずつデコーダ宛に送出される。しかしなが、短変換ウィンドウモード(128MDCT)で知覚音声コーダが動作している場合には、知覚音声コーダはマスク済み閾値を8倍も多くデコーダ宛に送出しなければならない(128サンプリング信号よりなるブロック毎に一度)。各短ブロック毎にマスク済み閾値を送出することを防止するために、知覚音声コーダは、短期間スペクトルが著しく変化して直前のマスク済み閾値をマスク済み閾値が送出されていないブロックに亘っても維持している場合にのみ、マスク済み閾値を送出する。
しかしながら、時間に関したマスク済み閾値のより正確な近似を実現する目的では、この種の決定を、短期間スペクトルではなくマスク済み閾値の時間的振る舞いに依拠させることがより適切であると思われる。
本発明は、各マスク済み閾値を必ずしも全て送出しない新たな方式を用いる。本発明は、短期間スペクトルの変化ではなくマスク済み閾値の連続的な変化に基づいて、どのマスク済み閾値が送出されるべきであるかを決定する。さらに、送出されたマスク済み閾値の間では、精度を向上させる目的で、補間法が用いられる。
徐々に変化する信号に関しては、マスク済み閾値も徐々に変化し、図7の最初に示されているように補間によって近似されうる。概して定常的であって、その後、急激に変化する信号に関しては、マスク済み閾値は、一度に変化する定マスク済み閾値によって近似されうる。比較的一定であって、後に徐々に変化するようなマスク済み閾値は、定マスク済み閾値と補間との組み合わせによってモデル化されうる。短時間のうちに過渡的に変化する部分をその中間に有するような概して定常的な信号は、時間的に他の値へ変化するが初期値に戻るようなマスク済み閾値を有する。この場合には、過渡変化の後のマスク済み閾値を過渡変化の前のマスク済み閾値に設定し、過渡変化の後のマスク済み閾値を送出しないことによって、効率的にモデル化されうる。
図7に示された機構は、マスク済み閾値の時間変化をモデル化するために利用されうる。各変換ブロック毎にマスク済み閾値を送出する代わりに、少数のマスク済み閾値のみを送出し、その他の各ブロックに関しては、如何にモデル化するかを示すようなフラグのみが送出される、というようにすることも可能である。この場合には、各ブロック毎に、以下の四つの可能性がある:
T−−このブロックに関してマスク済み閾値を送出する
c−−直前のブロックのマスク済み閾値を当該ブロックのマスク済み閾値とする(マスク済み閾値を一定に保つことに対応する)
i−−直前に送出されたマスク済み閾値と次に送出されるマスク済み閾値との間で線型補間を行ない、当該ブロックに係るマスク済み閾値を計算する
P−−二つ前に送出されたマスク済み閾値を当該ブロックに係るマスク済み閾値とする(図7に関連して最後に記述されている場合に相当)
マスク済み閾値の時間的なモデル化がフレーム毎に分散させられる場合には、最初のブロックに係るマスク済み閾値は必ずしも送出される必要は無い。あらゆるモデル化オプション{T,c,i,P}が最初のブロックに関して選択可能である。例えば、cが選択される場合には、フレームの最初のブロックに係るマスク済み閾値は、直前のフレームの最後のブロックに係るマスク済み閾値と同一である。
PACにおける実装
従来技術に係る知覚音声コーダにおけるスケーリングファクタは、短変換ウィンドウモード(128バンドMDCT)におけるマスク済み閾値のLSF表現によって置換される。図5に示されているように、かつて用いられていたビット数のおよそ半分のみを用いて、マスク済み閾値はより正確にモデル化される。
LSFは24ビットベクトル量子化器を用いて量子化されうる。さらに、定数a(式(13))も送出される(7ビット)。LSFパラメータ及びaはマスク済み閾値を表現する。量子化されたマスク済み閾値と量子化されていないマスク済み閾値との差異は、24ビットベクトル量子化器の場合には可聴ではない。時間モデル化に関しては、各短ブロック毎に、モデル化モード{T,c,i,P}を通知する目的で2ビットが予約される。PACにおける実装がPAC短ブロックに関して記述されているが、本発明は、当業者には明らかなように、PAC長及び短ブロックに関して実装されうる。
以上の説明は、本発明の一実施例に関するもので,この技術分野の当業者であれば、本発明の種々の変形例が考え得るが、それらはいずれも本発明の技術的範囲に包含される。
発明の効果
以上述べたごとく、本発明によれば、マスク済み閾値をより正確に表現する方法及びその装置、さらに、マスク済み閾値をできる限り少ないビットで表現するための方法及びその装置が提供される。
特許請求の範囲の発明の要件の後に括弧で記載した番号がある場合は本発明の一実施例の態様関係を示すものであって、本発明の範囲を限定するものと解釈してはならない。
従来技術に係る知覚音声コーダの模式的なブロック図。 図1に示された知覚音声コーダに対応する、従来技術に係る知覚音声デコーダの模式的なブロック図。 図1に示された従来技術に係る知覚音声コーダによって用いられるマスク済み閾値と、対応する階段関数近似を例示した図。 図1に示された量子化器及び符号化器をより詳細に示す図。 音響心理モデルに従って計算されたマスク済み閾値、及び、本発明に従ったマスク済み閾値の線スペクトル周波数(LSF)近似を示す図。 本発明に従った知覚音声コーダ及び対応する知覚音声デコーダを模式的に示すブロック図。 マスク済み閾値の時間的変化をモデリングするための選択肢のいくつかを示す図。
100 知覚音声コーダ
110 解析フィルタバンク
120 知覚モデル
130 量子化器及び符号化器
140 ビットストリームエンコーダ/マルチプレクサ
200 知覚音声デコーダ
210 ビットストリームデコーダ/デマルチプレクサ
220 復号化器及び逆量子化器
230 合成フィルタバンク
410 スペクトル係数スケーリング段
420 固定量子化器
430 ハフマン符号化器
600 知覚音声コーダ
610 量子化器
620 音響心理閾値
630 閾値−LSF変換段
640 LSF−閾値変換段
660 LSF−閾値変換段
670 逆量子化器
680 合成フィルタバンク

Claims (21)

  1. 知覚音声コーダでマスク済み閾値を表現する方法であって、
    該マスク済み閾値をモデル化する目的で線型予測係数を計算するステップと、
    該線型予測係数を伝送目的で量子化しうる表現に変換するステップと
    からなることを特徴とするマスク済み閾値表現方法。

  2. 請求項1に記載の方法において、該伝送目的で量子化しうる表現は、線スペクトル周波数表現である方法。

  3. 請求項2に記載の方法において、該線スペクトル周波数を伝送目的で量子化するステップをさらに含む方法。

  4. 請求項1記載の方法において、
    該線型予測係数を聴覚特性に適した非線型周波数スケールに変換するステップをさらに含む方法。

  5. 請求項1に記載の方法において、該マスク済み閾値が量子化器のステップサイズを制御することを特徴とする方法。

  6. 請求項1に記載の方法において、
    該マスク済み閾値における以前のマスク済み閾値からの変化分が所定の閾値を超過した場合にのみ該マスク済み閾値をデコーダ宛に選択的に伝送するステップをさらに含む方法。

  7. 請求項6に記載の方法において、伝送されないマスク済み閾値を補間技法を用いて近似するステップをさらに含む方法。

  8. 請求項1に記載の方法において、該マスク済み閾値は音響心理モデルから導出される方法。

  9. 知覚音声デコーダでマスク済み閾値を再構成する方法であって、
    該マスク済み閾値の表現を受信するステップと、
    該表現を線型予測係数に変換するステップと、
    該線型予測係数から該マスク済み閾値を導出するステップとを含むマスク済み閾値再構成方法。

  10. 請求項9に記載の方法において、該マスク済み閾値は、線スペクトル周波数を用いて表現されている方法。

  11. 請求項9に記載の方法において、該マスク済み閾値が、逆量子化器のステップサイズを制御する方法。

  12. 請求項に記載の方法において、該マスク済み閾値は、該マスク済み閾値における以前のマスク済み閾値からの変化分が所定の閾値を超過した場合にのみ受信される方法。

  13. 請求項9に記載の方法において、受信されないマスク済み閾値を補間技法を用いて近似するステップをさらに含む方法。

  14. 請求項1に記載の方法において、
    該マスク済み閾値における以前のマスク済み閾値からの変化分が所定の閾値を超過した場合にのみ該マスク済み閾値をデコーダ宛に選択的に伝送するステップをさらに含む方法。

  15. 請求項14に記載の方法において、該変化が該マスク済み閾値における緩やかな変化を含んでおり、該マスク済み閾値が補間によって近似される方法。

  16. 請求項14に記載の方法において、該変化が該マスク済み閾値における緩やかな変化及びそれに引き続く急激な変化を含んでおり、該マスク済み閾値が一度に変化する定マスク済み閾値によって近似される方法。

  17. 請求項14に記載の方法において、該変化が、ほぼ一定の定マスク済み閾値及びそれに引き続く緩やかな変化を含んでおり、該マスク済み閾値が定マスク済み閾値及びそれに引き続く補間によって近似される方法。

  18. 請求項14に記載の方法において、該変化が、短時間の過渡的な変化を含むほぼ一定の定マスク済み閾値を含んでおり、該マスク済みの閾値が、該過渡的な変化の後の該マスク済み閾値を該過渡的な変化の前の該マスク済み閾値に設定することによって近似される方法。

  19. 知覚音声コーダでマスク済み閾値を表現するシステムであって、
    該マスク済み閾値をモデル化するための線型予測係数を計算する手段と、
    該線型予測係数を伝送目的で量子化されうる表現に変換する手段とを含むシステム。

  20. 知覚音声デコーダでマスク済み閾値を再構成するシステムであって、
    マスク済み閾値の表現を受信する手段と、
    該表現を線型予測係数に変換する手段と、
    該線型予測係数から該マスク済み閾値を導出する手段とを含むシステム。

  21. 請求項19に記載のシステムにおいて、
    該マスク済み閾値における以前のマスク済み閾値からの変化分が所定の閾値を超過した場合にのみ該マスク済み閾値をデコーダ宛に選択的に伝送するステップをさらに含むシステム。
JP2001166327A 2000-06-02 2001-06-01 マスク済み閾値表現方法、再構成方法、及びそのシステム Expired - Fee Related JP5323295B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/586071 2000-06-02
US09/586,071 US6778953B1 (en) 2000-06-02 2000-06-02 Method and apparatus for representing masked thresholds in a perceptual audio coder

Publications (3)

Publication Number Publication Date
JP2002041099A JP2002041099A (ja) 2002-02-08
JP2002041099A5 JP2002041099A5 (ja) 2008-07-10
JP5323295B2 true JP5323295B2 (ja) 2013-10-23

Family

ID=24344184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001166327A Expired - Fee Related JP5323295B2 (ja) 2000-06-02 2001-06-01 マスク済み閾値表現方法、再構成方法、及びそのシステム

Country Status (3)

Country Link
US (1) US6778953B1 (ja)
EP (1) EP1160769A3 (ja)
JP (1) JP5323295B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
KR100474969B1 (ko) * 2002-06-04 2005-03-10 에스엘투 주식회사 음성신호 부호화를 위한 선 스펙트럼 계수의 벡터 양자화방법과 이를 위한 마스킹 임계치 산출 방법
AU2003281128A1 (en) * 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
JP4849466B2 (ja) * 2003-10-10 2012-01-11 エージェンシー フォー サイエンス, テクノロジー アンド リサーチ デジタル信号をスケーラブルビットストリームにエンコードする方法、及びスケーラブルビットストリームをデコードする方法
US20050096918A1 (en) * 2003-10-31 2005-05-05 Arun Rao Reduction of memory requirements by overlaying buffers
US7490044B2 (en) * 2004-06-08 2009-02-10 Bose Corporation Audio signal processing
US8332216B2 (en) 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
JP5065687B2 (ja) * 2007-01-09 2012-11-07 株式会社東芝 オーディオデータ処理装置及び端末装置
JP5262171B2 (ja) * 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
CN101740033B (zh) * 2008-11-24 2011-12-28 华为技术有限公司 一种音频编码方法和音频编码器
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
DE69529609T2 (de) * 1995-01-09 2003-11-13 Koninkl Philips Electronics Nv Verfahren und gerät zur bestimmung einer maskierten schwellwertspannung
JP3254953B2 (ja) * 1995-02-17 2002-02-12 日本ビクター株式会社 音声高能率符号化装置
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
FR2742568B1 (fr) * 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
EP0954851A1 (en) * 1996-02-26 1999-11-10 AT&T Corp. Multi-stage speech coder with transform coding of prediction residual signals with quantization by auditory models
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6035177A (en) * 1996-02-26 2000-03-07 Donald W. Moses Simultaneous transmission of ancillary and audio signals by means of perceptual coding
JPH09288498A (ja) * 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3335852B2 (ja) * 1996-09-26 2002-10-21 株式会社東芝 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
JP3352406B2 (ja) 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency

Also Published As

Publication number Publication date
JP2002041099A (ja) 2002-02-08
EP1160769A2 (en) 2001-12-05
EP1160769A3 (en) 2003-04-09
US6778953B1 (en) 2004-08-17

Similar Documents

Publication Publication Date Title
JP3782103B2 (ja) アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。
EP1160770B2 (en) Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
JP5323295B2 (ja) マスク済み閾値表現方法、再構成方法、及びそのシステム
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
JP4506039B2 (ja) 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
RU2469422C2 (ru) Способ и устройство для формирования уровня улучшения в системе кодирования звука
EP0785631B1 (en) Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
RU2456682C2 (ru) Аудиокодер и декодер
JP4777918B2 (ja) 音声処理装置及び音声を処理する方法
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
KR100941011B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
JPH10282999A (ja) オーディオ信号を符号化する方法及び装置、並びに符号化されたオーディオ信号を復号する方法及び装置
JP6368029B2 (ja) 雑音信号処理方法、雑音信号生成方法、符号化器、復号化器、並びに符号化および復号化システム
US20060122828A1 (en) Highband speech coding apparatus and method for wideband speech coding system
WO2004097796A1 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
KR20040105741A (ko) 효율적으로 개선된 스케일러블 오디오 부호화
MX2008014222A (es) Codificacion de señal de informacion.
EP3217398B1 (en) Advanced quantizer
KR100945219B1 (ko) 인코딩된 신호의 처리
JP2002533963A (ja) 符号化通信信号の性能改良のための符号化された改良特性
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
EP1328923B1 (en) Perceptually improved encoding of acoustic signals
JP2007504503A (ja) 低ビットレートオーディオ符号化
JP3144009B2 (ja) 音声符号復号化装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080523

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111004

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120104

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121213

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130717

R150 Certificate of patent or registration of utility model

Ref document number: 5323295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees