JP2001236099A - 知覚品質の一貫性を改善する知覚音声符号器ビット割付けスキーム - Google Patents

知覚品質の一貫性を改善する知覚音声符号器ビット割付けスキーム

Info

Publication number
JP2001236099A
JP2001236099A JP2000396662A JP2000396662A JP2001236099A JP 2001236099 A JP2001236099 A JP 2001236099A JP 2000396662 A JP2000396662 A JP 2000396662A JP 2000396662 A JP2000396662 A JP 2000396662A JP 2001236099 A JP2001236099 A JP 2001236099A
Authority
JP
Japan
Prior art keywords
frames
signal
bit
encoding
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000396662A
Other languages
English (en)
Other versions
JP4219551B2 (ja
Inventor
Christof Faller
ファラー クリストフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JP2001236099A publication Critical patent/JP2001236099A/ja
Application granted granted Critical
Publication of JP4219551B2 publication Critical patent/JP4219551B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【課題】 音声信号符号化方法および装置を提供するこ
と。 【解決手段】 符号化方法は、音声信号を連続するフレ
ーム列に分割するステップと、列内の複数のフレームの
各々に対する雑音しきい値を計算するステップと、各フ
レームの対応する知覚符号化品質の各々に対するビット
デマンドを予測するステップと、知覚符号化品質の1つ
を選択し、個々のフレームの知覚符号化品質に対する予
測ビットデマンドに基づき、さらに、他のフレームに対
する予測ビットデマンドに基づいて個々のフレームを符
号化するステップと、特定のフレームに対して選択され
た上記知覚符号化品質に対応する雑音しきい値に基づい
て特定のフレームを符号化するステップとを含んでい
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般的には、知覚音
声符号化(PAC)技法に関し、特に、連続的に符号化
されたフレームの両端間に矛盾のない知覚品質を実現す
るビット割付けスキームに関する。
【0002】
【従来の技術】例えば、音声および音楽を表す信号を記
憶あるいは伝送するための符号化として使用される最新
技術の音声符号器では、通常、人間聴覚システムの特性
に基づく知覚モデルを用いて、特定の信号の符号化に必
要なビット数を低減している。特に、このような特性を
考慮することにより、ビット数を著しく低減した「透過
的」符号化(すなわち、知覚し得る品質損失のない符号
化)の実現を可能にしている。知覚音声符号器として通
常知られているこのような符号器では、先ず、符号化す
る信号が個別フレームに分割される。個別フレームの各
々は、例えば、約20msのタイムスライスのような小
さいタイムスライス信号からなっている。次に、通常、
フィルタバンクを使用して、特定のフレームの信号が周
波数領域に変換される。こうして得られたスペクトル係
数が量子化され、符号化される。特に、スペクトル係数
量子化用として知覚音声符号器に使用される量子化器
は、心理音響学モデル(すなわち、人間聴覚システムの
性能に基づくモデル)、および、特定のフレームの符号
化に利用できる特定のビット数で制御することが有利で
ある。例証となる知覚音声符号器(PAC)が、例え
ば、ルーセントテクノロジー社のK.Brandenb
urg等に対する、1991年8月13日発行の米国特
許第5,040,217号に記載されている。
【0003】音声信号の性質および心理音響学モデルの
効果により、ビットデマンド(すなわち、特定のフレー
ムを符号化するために量子化器が必要とするビット数)
は、通常、フレーム毎に広範囲に変動する。したがっ
て、とりわけ、所望のビットレート(例えば、符号化し
た信号を最終的に伝送するチャンネルのビットレート、
あるいは、符号化した信号を単に記憶させる場合であれ
ば、フレーム単位の有効記憶量)の比較的近くに、平均
ビットレートを確実に維持するビット割付けスキームを
必ず提供しなければならない。また、ビット割付けスキ
ームは、その符号器の出力「ビットバッファ」あるいは
「ビットリザーバ」(符号器に利用可能なビットを供給
する)を空の状態(アンダフロー状態と呼ばれる)で、
あるいは、満杯の状態(オーバフロー状態と呼ばれる)
で絶対にランしないようにしなければならない。(ビッ
トバッファあるいはビットリザーバを音声符号器に使用
することは、当分野の技術者には当たり前のことであ
る。)
【0004】典型的な従来技術のビット割付けスキーム
については、例えば、ルーセントテクノロジー社のJ.
Johnstonに対する1997年5月6日発行の米
国特許第5,627,938号に記載されている。特
に、この従来技術ビット割付けスキームは次のように動
作している。先ず、符号化する各信号フレームが量子化
器ステップサイズで符号化される。量子化器ステップサ
イズは、心理音響学モデルによって計算されるマスクし
きい値によって決定され、マスクしきい値が透過的符号
化品質に相当している。つまり、マスクしきい値に基づ
いて量子化器ステップサイズを設定することにより、一
般的に、再構成時に元の信号と同一の音声(人間の耳に
は)になる符号化を提供している。
【0005】ビット割付けスキームに、上記で符号化さ
れたフレームのビットデマンドおよびビットバッファの
状態(すなわち、「空」または「満杯」の程度)を与え
ると、フレームを符号化するために実際に量子化器に与
えるビット数が決定される。すなわち、ビットアロケー
タを、初期ビットデマンドおよびバッファ状態の両方に
与える許容ビット数を制御する制御装置と見なすことが
できる。具体的には、次に、量子化器ステップサイズが
修正され、許容ビット数への適合が試みられ、次に、フ
レームが、その修正されたステップサイズを用いて再符
号化される。その後、ビットアロケータが、実際に量子
化器に与えるビット数を再度決定する。このプロセス
は、実際にビットアロケータが容認する数に近いビット
数でフレームが量子化され符号化されるまで繰り返され
る。(音声符号化分野では、この繰り返しプロセスを
「レートループ」と呼んでいる。)
【0006】連続する初期符号化フレームの平均ビット
デマンドが、符号器の平均オーバオールビットレートよ
り著しく高いか、あるいは著しく低い場合、ビット割付
けは必ずビットバッファの実質的影響を受けるため、こ
のレートループプロセスの性能が制限される。したがっ
て、プロセスは、ビット割付けの結果に対して適切な知
覚インパクトを引き起こすことができない。言い換える
と、ビットバッファが、割り付けたビット数のどれほど
の数が初期デマンドビットの実際の数から逸脱している
かを決定する唯一の要素になっている。
【0007】この問題に部分的に対処するため、PAC
のような従来技術の音声符号器は、所定の値だけマスク
しきい値を超過した、雑音しきい値として知られている
ものを使用している。通常、これにより所望のビットレ
ートに近い平均ビットデマンドを得ている。この方法に
よれば、ビットバッファ状態は比較的良好な挙動を維持
し(すなわち、空あるいはオーバフローの状態でランす
る危険がほとんどない)、ビットアロケータの制御タス
クも比較的直線的である。
【0008】適正な特定範囲の平均ビットデマンドをも
たらす雑音しきい値のビットデマンドを、透過性を実現
するために必要なビットレートより十分低く押さえるこ
とができることは明らかである。したがって、異なる目
標ビットレートに対して異なる雑音しきい値を使用しな
ければならないことの欠点の1つは、合理的レベルの効
率および性能を実現するために、各固有目標ビットレー
ト用符号器の心理音響学モデルを手動でチューニングし
なければならないことである。しかし、様々な種類の音
声信号が極めて多様なビットデマンドを必要とするた
め、仮にこのような手動チューニングプロセスを符号器
に設け、常に変動する特性を有する単一音声信号に対し
ては良好に動作したとしても、全ての種類の音声信号に
対して良好に機能することは困難である。典型的な結果
として、連続するフレームに、比較的矛盾のない品質レ
ベルで確実に符号化する方法でビットを割り付けるビッ
トアロケータの不良のため、品質レベルが頻繁に著しく
(常に)変動する符号器になってしまうであろう。実
際、この相反する挙動は、目標ビットレートと最初に符
号化されたフレームのビットデマンド間の逸脱が大きい
ほど激しくなる。
【0009】より矛盾のない知覚品質が常に、遥かに快
い聴覚経験をリスナに提供することが分かっている。つ
まり、一般的には、たとえ品質の無矛盾レベルが向上し
たとしても、復元音声信号の知覚品質中の有意な変動の
方が、リスナをより当惑させている。また、フレームの
初期ビットデマンドおよびビットバッファ状態だけでビ
ット割付けプロセスを制御するには、無矛盾知覚品質を
常に提供するだけでは不十分であることも分かってい
る。したがって、本発明の原理によれば、ビット割付け
プロセスはさらに、複数のフレームの特性を考慮し、か
つ、それらのフレームの各々を様々な知覚品質レベルで
符号化するビット必要条件を解析することによって制御
される。
【0010】
【発明が解決しようとする課題】特に、本発明は、音声
信号符号化方法(および装置)を提供する。
【課題を解決するための手段】その符号化方法は、音声
信号を連続するフレーム列に分割するステップと、列内
の複数のフレームの各々に対して雑音しきい値を計算
し、個々のフレームの雑音しきい値の各々が、そのフレ
ームに対する様々な知覚符号化品質に対応するステップ
と、各フレームの対応する知覚符号化品質の各々に対す
るビットデマンドを予測し、該予測した各ビットデマン
ドが多数のビットからなり、対応する知覚符号化品質で
特定のフレームを符号化するために使用されるステップ
と、知覚符号化品質の1つを選択し、個々のフレームの
知覚符号化品質に対する予測ビットデマンドと、さら
に、他のフレームに対する予測ビットデマンドに基づい
て個々のフレームを符号化するステップと、個々のフレ
ームに対して選択された上記知覚符号化品質に対応する
雑音しきい値に基づいて個々のフレームを符号化するス
テップとを含んでいる。特に、また、本発明の一実施形
態によれば、複数の異なる知覚品質のそれぞれにおい
て、複数のフレームの各々を符号化するための平均ビッ
トデマンドが有利に予測され、これらの予測に基づい
て、1つのフレームから次のフレームへ比較的矛盾のな
い知覚品質を維持するように、各フレームが符号化され
る。
【0011】
【発明の実施の形態】従来の知覚音声符号器におけるビ
ット割付け図1は、PACのような従来技術による音声
符号器のビット割付け部分の概要を示したものである。
図には、心理音響学モデル11、量子化器/ハフマン
符号器12、ビットアロケータ13およびビットバッフ
ァ14が示されている。既に記述したように、心理音響
学モデル11がマスクしきい値を提供し、(量子化器/
ハフマン符号器12の)量子化器がそのマスクしきい値
を使用して量子化ステップサイズを決定し、最初に音声
信号の特定のフレームの透過性符号化をもたらしてい
る。これらのステップサイズに基づいて特定のフレーム
のスペクトル係数が量子化され、その結果得られたデー
タを量子化器/ハフマン符号器12でハフマン符号化し
て初期ビットデマンド(すなわち、結果として生じる符
号化に必要なビット数)を得ている。このビットデマン
ドが、必要なビットレート(すなわち、ビットバッファ
14によって最終的に出力される定レートビットストリ
ームのレート)について十分認識しているビットアロケ
ータ13にもたらされる。
【0012】一方、ビットバッファ14は、バッファ状
態(すなわち、バッファの満杯または空の程度)をビッ
トアロケータ13に提供している。初期ビットデマンド
がバッファ状態および特定必要ビットレートに矛盾しな
ければ、フレームは特定の符号化(量子化器/ハフマン
符号器12によって決定される)で符号化される。初期
ビットデマンドがバッファ状態および特定必要ビットレ
ートに矛盾する場合(これが普通である)は、異なる量
子化ステップサイズでフレームを再符号化するよう、ビ
ットアロケータ13が量子化器/ハフマン符号器12に
指示する。この再符号化プロセスは、バッファ状態およ
び特定必要ビットレートに矛盾しないビットデマンドが
達成されるまで繰り返される。
【0013】単一知覚音声符号器のための新しいビット
割付けスキーム図2は、本発明の実施形態による知覚音
声符号器のビット割付け部分の概要を示したものであ
る。図には、心理音響学モデル21、量子化器/ハフマ
ン符号器22、拡張ビットアロケータ23およびビット
バッファ24が示されている。本発明の実施形態によれ
ば、符号化のために特定のフレームが符号器にもたらさ
れると、心理音響学モデル21が、対応する知覚品質を
表す雑音しきい値(すなわち、特定量の追加雑音が付加
されたマスクしきい値)を提供する。例えば、本発明の
一実施形態では、例えば心理音響学モデル21が、特定
のフレームに対する透過知覚品質を表すしきい値、およ
び、連続的に低い知覚品質を表すいくつかの他のしきい
値を提供することができる。
【0014】心理音響学モデル21によって提供される
雑音しきい値に基づいて、量子化器/ハフマン符号器2
2が、様々な異なる知覚品質に対する対応ビットデマン
ドを決定する。具体的には、これらの各しきい値が個々
の量子化ステップサイズに変換され、そのステップサイ
ズに基づいて所定フレームのスペクトル係数が量子化さ
れ、その結果得られたデータを量子化器/ハフマン符号
器12でハフマン符号化して、様々な知覚品質に対応す
るビットデマンドセットを得ている。次に、拡張ビット
アロケータ23が、特定のフレームを符号化する知覚品
質レベルを決定する。
【0015】特定のフレームを符号化する知覚品質レベ
ルの選択は、要素の数に基づくことが有利である。要素
には、所要ビットレート(すなわち、ビットバッファ2
4によって最終的に出力される定レートビットストリー
ムのレート)、ビットバッファ状態(ビットバッファ2
4によって提供される)、様々な知覚品質の各々で特定
のフレームを符号化するために必要な様々なビットデマ
ンド(量子化器/ハフマン符号器22で決定される)、
および、本発明の原理による、他のフレームに対する知
覚品質でのビットデマンドの解析などがある。これらの
他のフレームには、例えば、特定のフレームの前の(す
なわち、「過去の」フレーム)フレーム数、および/ま
たは、特定のフレームの次の(すなわち、「未来の」フ
レーム)フレーム数を含むことが有利である。
【0016】図3は、典型的な立体音声信号に適用され
る典型的な知覚音声符号器に対する、時間を関数とした
一定知覚品質でのビットデマンドのグラフを示したもの
である。図の例の場合、平均ビットレートは、立体信号
に対するサンプルレート32kHで毎秒68キロビット
である。一般的に、ビットデマンドb(k,Q)は時間
k(フレーム数)と知覚品質Qの関数である。ここで、
Qは、通常、知覚品質が増加すると単純増加する数を表
す。低品質音声の短いバーストはオーバオール信号の知
覚品質を低下させる傾向があるため、知覚音声符号器
は、比較的一定の知覚品質Qでランすることが理想であ
るが、特定のフレームの信号エネルギーの変化、およ
び、符号化プロセスによって実現される不適切リダクシ
ョンおよび適切リダクション双方の量の変化のため、図
3に示すように、定知覚品質に対するビットデマンド
は、フレーム毎に大幅に変化する。本発明によれば、平
均ビットレートおよびビットバッファサイズという特定
の制約の下で、連続するフレームが比較的一定の知覚品
質で符号化されるように、ビットが有利に割り付けられ
る。
【0017】比較的長い時間スパンで見た場合、定知覚
品質に対するビットデマンドは、その意味が一定ではな
いという点で不動ではない。しかし、例えば400ms
即ち20フレーム(各フレームは、通常、20msであ
る)のように比較的短い時間スパンで見た場合、ビット
デマンドは完全に一定であり、常に比較的ゆっくり変化
する。図4は、音声クリップ列に適用される典型的な知
覚音声符号器に対する、時間を関数とした一定知覚品質
での平均ビットデマンドのグラフを示したものである。
実例の音声クリップ列は、約15分間持続する約25個
の音楽および音声クリップからなっている。図から分か
るように、異なるクリップは異なる平均ビットデマンド
を有する。したがって、中途半端なサイズの出力ビット
バッファでは、定知覚品質でこれら一連のクリップを符
号化することはできない。
【0018】したがって、本発明の実施形態によれば、
各音声フレームkに対して、知覚品質Q(k)が常に適
合される。このような適合に対して、2つの条件が有利
に適応される。1つは、平均デマンドが所望のビットレ
ートに近い値で有利に維持されること。もう1つは、フ
レームからフレームへのゆっくりした知覚品質の変化だ
けが有利に許容されることである。したがって、本発明
の実施形態の性能は、少なくとも定知覚品質を維持する
ための「理想的な」シナリオである。
【0019】特に、特定知覚品質Qに対する平均ビット
デマンドが、短時間の間、比較的一定であることに注目
すると、一般的に、重み付けされた平均未来ビットデマ
ンド値および過去ビットデマンド値を用いて、各時間
(すなわちフレーム)kにおける平均ビットデマンドm
(k,Q)を、式(1)に示すように有利に予測するこ
とができる。
【数1】
【0020】特に、ベクトルw(i)は、平均ビットデ
マンドを予測するための重み付けベクトルからなり、本
発明の様々な実施形態において、計算平均値を特定のフ
レームにより近いフレームのビットデマンドへ向けて重
み付けすることができる。他の実施形態では、この重み
付けベクトルを単純な方形窓(それによって、そのビッ
トデマンドが計算に役立つ連続フレームの個々のサブシ
ーケンスを形成する)で構成することができ、例えば、
−K#i#L に対して、w(i)=1となる。また、
Lが特定のフレームの前の(すなわち、過去のフレー
ム)フレーム数であり、Kが特定のフレームの次の(す
なわち、未来のフレーム)フレーム数であることにも注
目しなければならない。それらのビットデマンド値が、
平均ビットデマンドm(k,Q)の計算に考慮されてい
る。K=0である本発明の一実施形態では過去のフレー
ムのみが考慮されている。そのためプロセスが著しく単
純化されている(「前を見る」必要がないため)が、そ
れにもかかわらずこの新しいビット割付けプロセスの性
能を著しく制限しているようなことはない。
【0021】特定の種類の異なる音声信号に対して、あ
るいは特定の音楽信号の異なる部分に対してさえも、平
均ビットデマンドは大きく変化することができる。した
がって、本発明の実施形態によれば、各特定フレームを
符号化する知覚品質が、その時の状態に基づいて更新さ
れる。特に、各時間(すなわちフレーム)kにおいて、
予測平均ビットデマンドm(k,Q)が、各フレームが
所望のビットレートで利用することができる平均ビット
数Bに等しい知覚品質Q(k)を、式(2)に示すよう
に有利に計算することができる。 m(k,Q(k))=B (2)
【0022】式(2)を満足する品質Q(k)を与える
と、b(k,Q(k))ビットを符号フレームkに有利
に割り付けることができる。十分に大きい予測窓を選択
して与える(すなわち、十分な数の過去および/または
未来フレームに対するビットデマンドが、特定のフレー
ム符号化用平均ビットデマンドの計算に含まれている)
と、知覚品質Q(k)が常に(すなわちkの増加に従っ
て)ゆっくりと有利に変化することになる。本発明のあ
る実施形態によれば、当分野の技術者には明らかな追加
制限を課すことによって、知覚品質Q(k)の急激な変
化を防止している。例えば、知覚品質に対する最大変化
基準を、当分野の技術の1つによって容易に上記スキー
ムに組み込むことができる。
【0023】また、本発明の様々な実施形態によれば、
従来のビットバッファ制御を用いて、ビットバッファが
絶対に空または満杯の状態でランしないようにすること
も可能である。しかし、本発明の技法は(本明細書に記
述する様々な実施形態によれば)、通常、ビットの割付
けを特定のビットレートの極めて近くに確実にトラック
させるため、このようなビットバッファ制御は、その結
果得られるビット割付けに対してほとんど影響力を持た
ない。
【0024】多重知覚音声符号器のための新規実例ビッ
ト割付けスキーム 本発明の他の実施形態によれば、上記ビット割付けスキ
ームを有利に拡張し、並列にランするN個の知覚音声符
号器に同時にビットを割り付けることができる。このよ
うな多重音声符号器を使用して、例えば、複数の独立音
声プログラムを符号化することができる。あるいは、多
重音声符号器を使用して、同一プログラムの多重チャン
ネルを符号化することができる。このような実施形態に
よれば、複数の(例えばN個)音声符号器の結合平均ビ
ットデマンドを、式(3)に示すように、常に有利に予
測することができる。
【数2】 この方法によれば、上記で計算される予測平均ビットデ
マンドm(k,Q(k))が、式(2)に示す特定のビ
ットレートでのフレーム当たりの平均ビット数Bに等し
いか、ほぼ等しくなるように、知覚品質Q(k)が時間
kの各ポイントで有利に計算される。このとき、知覚品
質Q(k)は、N個の音声符号器の全てが特定のフレー
ムを符号化する品質である。つまり、N個の音声符号器
j={1,2,...,N}のそれぞれに、bj(k,
Q(k))ビットがその対応するフレームkに割り付け
られる。
【0025】ビットデマンドおよび知覚品質の実例関係 本発明の様々な実施形態によれば、異なる知覚品質
(Q)を多くの方法で定義することができ、その多くは
当分野の技術者には明らかであろう。例えば一実施形態
によれば、各可能知覚品質の(または固定数の可能知覚
品質の)雑音レベル(すなわち雑音しきい値)を計算す
る心理音響学モデルを、従来の関連技法、例えば心理音
響学実験に基づいて引き出すことができる。あるいは、
他の実施形態によれば、所望の知覚品質に対応する雑音
しきい値を予測するために、マスクしきい値(現在、従
来の心理音響学モデルを用いて計算している)に雑音を
系統的に付加することができる。このような「強化」心
理音響学モデルは多くの方法で実施することができ、そ
の多くは当分野の技術者には明らかである。
【0026】例えば一実施形態によれば、多重知覚品質
の比較的簡単な実施態様(すなわち、従来のPAC符号
器の修正が最小の実施態様)が、次のように単純に仮定
することによって得られる。すなわち、(対応する雑音
しきい値を生成するために)2つのフレームのマスクし
きい値が同一のオフセットで増加あるいは減少する場
合、その2つのフレームは同一の知覚品質で符号化され
る。特に、2つのフレームの知覚品質を同一量だけ減少
させると、対数目盛における同一オフセット(すなわ
ち、線形目盛上の同一係数)だけ、それらの対応するマ
スクしきい値を有利に高くすることができる。このよう
な修正マスクしきい値を与えると、特定の知覚品質に必
要なビット数、すなわち、ビットデマンドb(k,Q)
を計算するために、特定のフレームの信号を符号化する
ことができる。しかし、極めて多数の可能知覚品質に対
するこのようなビットデマンドの計算は、計算的に集約
的であるため、本発明のある実施形態によれば、以下に
示す2つの実施態様スキームのいずれかを用いることに
よって計算の複雑さが有利に低減されている。
【0027】分散知覚品質セットを用いた第1の実施態
様 図5は、本発明の第1の実施形態による分散知覚品質セ
ットを用いたビット割付けスキームの実施態様を示した
ものである。特に、各フレームについて、少数の分散知
覚品質のそれぞれに対して1セットづつ、比較的小さい
ビットデマンドセットが有利に計算されている。
【0028】特に、上記のように、限定数の分散知覚品
質が、マスクしきい値の一定オフセット(または、より
一般的には、一定量の追加雑音でマスクされたしきい
値)に対応するように、予め定められている。さらに、
これらのオフセットが、ビットレートおよびシステム設
計者によるシステム性能の期待値に基づいて有利に設定
される。例えば、しばしば透過性符号化を実現すること
が可能な比較的高いビットレートの場合、「最も高品質
の」知覚品質を、完全透過品質に設定することができ
(例えば、元のマスクしきい値を使用することによっ
て)、また、連続的に低い品質の各々を設定して、ほぼ
等しい量だけその前の透過品質より「透過性を低く」す
ることができる。一方、透過性の発生を期待できない低
ビットレートの場合は、「中間」知覚品質の1つを有利
に選択して、平均品質レベルより連続的に上および連続
的に下に、それぞれほぼ等しい間隔にある高品質レベル
および低品質レベルの平均「期待」品質にすることがで
きる。
【0029】特に、本発明の第1の実施形態によれば、
各フレームkについて、M個の所定分散知覚品質セット
(0#j<M)の各々におけるビットデマンドb(k,
j)は次のように計算される。特定知覚品質Qjに対す
る量子化雑音しきい値njが、上記心理音響学モデルに
よって計算される。次に、特定のフレームkに対するス
ペクトル係数がnjに対応する量子化誤差で量子化さ
れ、ハフマン符号化され、対応するビットデマンドb
(k,Qj)が、各jに対して計算される。
【0030】図5を注意深く見てみると、心理音響学モ
デル51がM個の個別雑音しきい値n0ないしnM-1を発
生し、その各々を対応する量子化器/符号器520ない
し52M-1に供給している。各量子化器/符号器は、複
数のフレームの各々に対して、対応する知覚品質レベル
でスペクトル係数を量子化し、符号化している。次に、
各フレームkに対して、ビットアロケータ53が、式
(2)を最も満足する品質Qjを選択し、b(k,Qj
ビットをそのフレームに割り付け、スイッチ54を制御
して、量子化器/符号器52jによって作り出された符
号化を、符号化ビットストリームに供給している。
【0031】第1の実施形態によれば、計算された知覚
品質でのビットデマンドを確実にビットレートの範囲内
に入れるために、知覚品質レベルが常にゆっくりと有利
に適合される。例えば、このことは、Q0におけるビッ
トデマンドの長期間平均が、所望ビットレートにおける
フレーム当たりの平均ビット数Bより僅かに高くなるよ
うに、最良品質Q0を有利に選択することによって実施
することができる。同様に、予測平均ビットデマンド
(式(1))が絶対にあるいは滅多にBを超えないよう
に、最低品質QM-1を有利に選択することができる。次
に、Q0とQM-1間における品質レベルを、それらの間に
知覚的に等間隔にすることができる。
【0032】さらに、ビットバッファが空の状態(すな
わち、次のフレームを符号化するために利用できるビッ
トがない状態)でランしないことを追加保証するため
に、「エスケープ」品質QEについても有利に提供する
ことができる。特に、エスケープ品質QEは他の知覚品
質より十分低くなるように選択され、ビットバッファが
危険な低速でランしたときはいつでもビットアロケータ
53がその品質を選択して特定のフレームを符号化す
る。(しかし、実際にはこのような選択の必要性はほと
んどない。)
【0033】本発明の第1の実施形態によるスキーム
が、典型的な従来技術による知覚音声符号器に用いられ
ているレートループの必要性を排除している。固定限定
数の異なる知覚品質を提供することにより、十分に制御
されたビット割付けプロセスになり、それによって知覚
性能が改善されるばかりでなく、せいぜい固定数の反復
の必要性しかないことを保証している。このように、符
号器の結果における計算的負荷の変動の度合いが、従来
技術の音声符号器と比較して著しく低減され、したがっ
て、符号化の実施、特に実時間アプリケーション用の符
号化の実施を容易にしている。
【0034】予測ビットデマンドを用いた第2の実施態
様 本発明の第2の実施形態によれば、異なる知覚品質に対
するビットデマンドが、実際に符号化することなく、ま
た、使用するビット数を数えることなく予測される。簡
単な近似式を用いてビットコマンドb(k,Q)を大ま
かに予測することができ、この予測に基づいて、各フレ
ームを符号化するために使用される品質レベルが選択さ
れる。
【0035】特に、ビットデマンドb(k,Q)が副情
報s(k)、および、実際にスペクトル係数h(k)を
表すビット(ハフマンビット)からなることに先ず注意
しなければならない。これを数学的に式(4)で表すこ
とができる。 b(k,Q)=s(k)+h(k,Q) (4)
【0036】現在の近似式(本発明の第2の実施形態に
よる)のために、次のように仮定している。すなわち、
ハフマンビット数が比例して等しく変化する場合、2つ
のフレームの符号化は、その品質が知覚的に等しく変化
し、一特定品質レベル、例えば、Q=1.0に対するビ
ットデマンドを与える。したがって、特定品質Q>0に
対するビットデマンドを予測することができ、式(5)
に示すように、品質Q=1.0における実際のビットデ
マンドを与える。 b(k,Q)=s(k)+h(k,1.0)Q=(b(k,1.0)-s(k))Q+s(k) (5) 単純な方形窓を用いると、 −K#i#Lの場合 w(i)= 1/(K+L+1) (6) その他の場合 w(i)=0 また、副情報を一定(s(k)=s)と仮定すると、予
測平均デマンドは式(1)から式(7)がえられる。
【数3】 式(2)の条件を与えると、各フレームkに対する品質
Q(k)を式(8)から計算することができる。 Q(k)=(B−s)/(m(k,1.0)−s) (8) さらに、各フレームkに対して、式(9)に示す品質Q
(k)に対応するビット数を割り付けることができる。 b(k)=b(k,Q(k))=(B-s) x b(k,Q=1.0) / (m(k,1.0)-s) (9) これは式(2)を満足する。特に、本発明の第2の実施
形態によれば、b(k)ビットのほとんどを使用してフ
レームkを符号化するまで、レートループ(従来の知覚
音声符号器と同様に)を反復(量子化器のステップサイ
ズを変更しながら)させることができる。
【0037】この第2の実施形態による実施態様は、最
小の改変だけで既存の音声符号器に組み込むことができ
る。この実施態様は、知覚品質の関数としてビットデマ
ンドを予測するために簡単な公式しか用いていないた
め、例えば上記第1の実施形態による実施態様と比較し
た場合、明らかに知覚制御が劣っているが、この手法の
単純さ、および、この手法を使用するための既存符号器
の改変の容易さが、確かな利点を提供している。
【0038】さらに、本発明の他の実施形態によれば、
第1および第2の実施形態の態様を、当分野の技術者に
は明らかな方法で組み合わせることができる。例えば、
新しいデータポイントを計算することによって、ビット
デマンドを知覚品質の関数として予測することができ
(上記第1の実施形態のように)、次に、2つのこれら
のデータポイント間を補間することにより、より「正確
な」品質レベルを有利に選択することができる(第2の
実施形態の手法による)。すなわち、その反復を、2つ
の事前計算知覚品質間での反復に制限する反復型レート
ループを用いて、上記第1および第2の実施形態の双方
の利点を確実に得ることができる。
【0039】詳細説明の追加 以上の説明は、単に本発明の原理を示したものに過ぎな
い。本明細書には明確に記述または示されていないが、
当分野の技術者には、本発明の精神および範囲を逸脱す
ることなく、その原理を具体化する様々な構造を工夫す
ることができることは認識されよう。例えば、本発明の
原理を、ビットデマンドがフレーム毎に変化し、かつ、
例えばビデオ符号器のように知覚基準に基づいているあ
らゆる形態の情報源符号化に適用することができる。さ
らに、本明細書で詳述されている全ての事例および条件
言語は、主として本発明の原理、および、技術をさらに
深めるための本発明者による貢献の概念に対する読者の
理解を補助するために、教育目的用としてのみ特別に意
図したものであり、ここで詳述した事例および条件に制
限されることなく解釈されるべきものである。また、本
明細書で詳述している本発明の原理、態様、実施形態お
よび特定事例についての全ての記述は、構造的等価物お
よび機能的等価物の双方を包含することを意図してい
る。さらに、このような等価物が、広く知られている等
価物および将来的に開発される等価物(すなわち、構造
に関係なく同一の機能を実行する開発要素)を包含する
ことを意図している。
【0040】したがって、本明細書の構成図が、本発明
の原理を具体化する回路の概念図を表すことは、当分野
の技術者には認識されよう。同様に、全ての流れ図、状
態変化図、擬似符号その他が、本質的にコンピュータ読
取り可能媒体に表すことができる様々なプロセスを表
し、したがって、コンピュータまたは処理装置が明確に
示されている、あるいは示されていないにかかわらず、
それらによって実行させることができることは、当分野
の技術者には認識されよう。
【0041】「処理装置」または「モジュール」の名称
が付された機能ブロックを含み、図に示されている様々
な構成要素の機能は、専用のハードウェア、および、適
当なソフトウェアと結合したソフトウェア実行可能ハー
ドウェアを利用して提供することができる。処理装置に
よる場合、単一専用処理装置、単一共有処理装置または
複数の個別処理装置(その内のいくつかを共有すること
ができる)によって機能を提供することができる。ま
た、「処理装置」または「制御装置」という用語の明確
な使用を、もっぱらソフトウェア実行可能ハードウェア
を意味するものと解釈してはならない。それらは、制限
なしに、ディジタル信号処理装置(DSP)ハードウェ
ア、ソフトウェア記憶用読出し専用記憶装置(RO
M)、直接アクセス記憶装置(RAM)および持久記憶
を暗に含んでいる。量産品および/または注文品等、そ
の他のハードウェアも含まれている。同様に、図に示さ
れているスイッチは全て概念上のものである。それらの
機能は、プログラム論理のオペレーション、専用論理、
プログラム制御と専用論理の相互作用を通して、あるい
は手動によって実行され、個々の技法は、その点に関し
てより深く理解している作成者による選択が可能であ
る。
【0042】本明細書の特許請求において、特定機能を
実行する手段として表現されている構成要素は全て、例
えば(a)その機能を実行する回路素子の組合せ、ある
いは(b)その機能を実行するためのソフトウェアを実
行する適当な回路と組み合わされたファームウェア、マ
イクロ符号等を含むあらゆる形態のソフトウェアを含
み、その機能を実行するあらゆる方法を包含することを
意図している。
【図面の簡単な説明】
【図1】PACなどの従来技術による音声符号器のビッ
ト割付け部分の概要を示す図である。
【図2】本発明の実施形態による知覚音声符号器のビッ
ト割付け部分の概要を示す図である。
【図3】典型的な立体音声信号に適用される典型的な知
覚音声符号器に対する、時間を関数とした一定知覚品質
でのビットデマンドを示すグラフである。
【図4】特定の音声クリップ列に適用される典型的な知
覚音声符号器に対する、時間を関数とした一定知覚品質
での平均ビットデマンドを示すグラフである。
【図5】本発明の第1の実施形態による分散知覚品質セ
ットを用いたビット割付けスキームの実施態様を示す図
である。
【符号の説明】
PAC 知覚音声符号器 11 心理音響学モデル 12,22 量子化器/ハフマン符号器 13,53 ビットアロケータ 14,24 ビットバッファ 21,51 心理音響学モデル 23 拡張ビットアロケータ 52 量子化器/符号器 54 スイッチ
───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 クリストフ ファラー チェコ、198 00、プラハ 9、カピタナ ストランスケホ 21/982、c/o ジ リ ブロッツ

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】 知覚モデルに基づく信号符号化方法にお
    いて、前記信号符号化方法が、(A)信号を連続フレー
    ム列に分割するステップと、(B)前記連続フレーム列
    の複数のフレームの各々に対して雑音しきい値を計算
    し、前記フレームの特定の1つに対する前記雑音しきい
    値の各々が、前記フレームの前記特定の1つに対する異
    なる知覚符号化品質に対応するステップと、(C)前記
    複数の前記フレームの各々に対する前記対応知覚符号化
    品質の各々に対するビットデマンドを予測し、該予測ビ
    ットデマンドの各々が、前記フレームの所定の1つを前
    記対応知覚符号化品質で符号化するために使用される多
    数のビットからなるステップと、(D)前記知覚符号化
    品質の1つを選択し、前記フレームの前記特定の1つに
    する前記知覚符号化品質の前記予測ビットデマンド、
    さらに、他の前記フレームに対して予測されたビットデ
    マンドに基づいて前記フレームの特定の1つを符号化す
    るステップと、(E)前記フレームの前記特定の1つに
    対する前記知覚符号化品質の前記選択された1つに基づ
    いて、前記フレームの前記特定の1つを符号化するステ
    ップとを含むことを特徴とする信号符号化方法。
  2. 【請求項2】 前記信号が音声信号からなり、かつ、前
    記知覚モデルが心理音響学モデルからなることを特徴と
    する請求項1に記載の信号符号化方法。
  3. 【請求項3】 前記連続するフレームが前記信号の時間
    セグメントからなり、前記時間セグメントの各々が約2
    0msの持続期間を有することを特徴とする請求項2に
    記載の信号符号化方法。
  4. 【請求項4】 前記異なる知覚符号化品質が知覚透過符
    号化品質を含み、前記知覚透過符号化品質に対応する前
    記フレームの前記雑音しきい値が前記フレームに対する
    マスクしきい値からなることを特徴とする請求項2に記
    載の信号符号化方法。
  5. 【請求項5】 特定フレームに対する前記雑音しきい値
    が、複数の所定の固定オフセットによって前記特定フレ
    ームのマスクしきい値を修正することによって計算され
    ることを特徴とする請求項2に記載の信号符号化方法。
  6. 【請求項6】 所定のビットレートに基づいて信号が符
    号化され、前記フレームの各々に対する前記雑音しきい
    値が、前記所定ビットレートに基づいて計算されること
    を特徴とする請求項2に記載の信号符号化方法。
  7. 【請求項7】 前記フレームの特定の1つに対する前記
    知覚符号化品質の特定の1つのビットデマンドの前記予
    測が、(F)前記特定のフレームに対する前記特定知覚
    符号化品質に対応する前記雑音しきい値に基づいて量子
    化ステップサイズを引き出すステップと、(G)前記特
    定のフレームを、前記引き出された量子化ステップサイ
    ズに基づいて符号化し、量子化値セットを作り出すステ
    ップと、(H)前記量子化値セットをハフマン符号化す
    るステップと、(I)前記量子化値セットの前記ハフマ
    ン符号化に基づいてビット数を計算するステップとを含
    むことを特徴とする請求項2に記載の信号符号化方法。
  8. 【請求項8】 前記フレームの特定の1つに対する前記
    知覚符号化品質の特定の1つのビットデマンドの前記予
    測が、(J)所定の公式に基づいて前記ビットデマンド
    の近似値を計算するステップを含むことを特徴とする請
    求項2に記載の信号符号化方法。
  9. 【請求項9】 前記ステップ(D)が、(D1)前記特
    定のフレームに対する前記特定知覚符号化品質に対応す
    る前記雑音しきい値に基づいて量子化ステップサイズを
    引き出すステップと、(D2)前記特定のフレームを、
    前記引き出された量子化ステップサイズに基づいて符号
    化し、量子化値セットを作り出すステップと、(D3)
    前記量子化値セットをハフマン符号化するステップと、
    (D4)前記量子化値セットの前記ハフマン符号化に基
    づいてビット数を計算するステップと、(D5)前記ス
    テップ(D1)、ステップ(D2)、ステップ(D3)
    およびステップ(D4)を、前記ビット数の計算値が、
    前記ビットデマンドの前記近似値の所定の範囲内になる
    まで反復するステップとを含むことを特徴とする請求項
    8に記載の信号符号化方法。
  10. 【請求項10】 前記ステップ(D)が、対応する複数
    の前記フレームに対する前記知覚符号化品質の前記各々
    に対する複数の前記予測ビットデマンドの数学平均から
    なる平均ビットデマンドに基づいており、前記対応する
    複数の前記フレームが、前記フレームの前記特定の1つ
    を含み、さらに、前記連続フレーム列内の前記フレーム
    の前記特定の1つの前に、前記フレームの少なくとも1
    つの前記他のフレームを含むことを特徴とする請求項2
    に記載の信号符号化方法。
  11. 【請求項11】 さらに、(K)前記連続フレーム列内
    の前記フレームの前記特定の1つの直前のフレームを、
    既に選択されている知覚符号化品質で符号化するステッ
    プを含み、前記ステップ(D)が、(D6)前記既に選
    択されている知覚符号化品質に対して所定量だけ小さい
    知覚符号化品質を選択するステップを含むことを特徴と
    する請求項10に記載の信号符号化方法。
  12. 【請求項12】 前記信号符号化方法が、前記信号を前
    記符号化するためのビット割り付け用としてビットバッ
    ファを使用し、前記ステップ(D)がさらに、前記連続
    フレーム列内の前記フレームの前記特定の1つの直前の
    フレームが符号化された後に決定される前記ビットバッ
    ファの満杯状態の測定に基づいていることを特徴とする
    請求項1に記載の信号符号化方法。
  13. 【請求項13】 さらに、(L)追加信号を符号化する
    ステップを含み、信号および前記追加信号がそれぞれ対
    応する連続フレームの対応する列に分割され、前記ステ
    ップ(D)がさらに、前記フレームの前記特定の1つに
    対応する前記追加信号のフレームに対して予測されたビ
    ットデマンドに基づいていることを特徴とする請求項1
    に記載の信号符号化方法。
  14. 【請求項14】 前記ステップ(D)が、前記信号の対
    応する複数の前記フレーム、および、前記追加信号の対
    応する複数の前記対応するフレームに対する前記知覚符
    号化品質の前記各々に対する複数の前記予測ビットデマ
    ンドの数学平均からなる平均ビットデマンドに基づいて
    おり、前記信号の前記対応する複数の前記フレーム、お
    よび、前記追加信号の前記対応する複数の前記対応する
    フレームが,それぞれ前記フレームの前記特定の1つを
    含み、さらに、それぞれ前記信号の前記連続フレーム列
    内、および、前記追加信号の対応する連続フレームの前
    記対応する列内の前記フレームの前記特定の1つの前
    に、前記フレームの少なくとも1つの前記他のフレーム
    を含むことを特徴とする請求項13に記載の信号符号化
    方法。
  15. 【請求項15】 知覚モデルに基づく信号符号化装置に
    おいて、前記信号符号化装置が、(A)信号を連続フレ
    ーム列に分割する手段と、(B)前記連続フレーム列の
    複数のフレームの各々に対する雑音しきい値を計算する
    手段と、(C)前記複数の前記フレームの各々に対する
    前記対応知覚符号化品質の各々に対するビットデマンド
    を予測する手段と、(D)前記知覚符号化品質の1つを
    選択する手段と、(E)前記フレームの前記特定の1つ
    に対する前記知覚符号化品質の前記選択された1つに基
    づいて、前記フレームの前記特定の1つを符号化する手
    段とを備えることを特徴とし、前記手段(B)におい
    て、前記フレームの特定の1つに対する前記雑音しきい
    値の各々が、前記フレームの前記特定の1つに対する異
    なる知覚符号化品質に対応し、前記手段(C)におい
    て、予測ビットデマンドの各々が、前記フレームの所定
    の1つを前記対応知覚符号化品質で符号化するために使
    用される多数のビットからなり、かつ、前記手段(D)
    において、前記フレームの前記特定の1つに対する前記
    知覚符号化品質に対する前記予測ビットデマンド、さら
    に、他の前記フレームに対して予測されたビットデマン
    ドに基づいて前記フレームの特定の1つが符号化され
    る、信号符号化装置。
  16. 【請求項16】 前記信号が音声信号からなり、かつ、
    前記知覚モデルが心理音響学モデルからなることを特徴
    とする請求項15に記載の信号符号化装置。
  17. 【請求項17】 前記連続するフレームが前記信号の時
    間セグメントからなり、前記時間セグメントの各々が約
    20msの持続期間を有することを特徴とする請求項1
    6に記載の信号符号化装置。
  18. 【請求項18】 前記異なる知覚符号化品質が知覚透過
    符号化品質を含み、前記知覚透過符号化品質に対応する
    前記フレームの前記雑音しきい値が前記フレームに対す
    るマスクしきい値からなることを特徴とする請求項16
    に記載の信号符号化装置。
  19. 【請求項19】 特定フレームに対する前記雑音しきい
    値が、複数の所定の固定オフセットによって前記特定フ
    レームのマスクしきい値を修正することによって計算さ
    れることを特徴とする請求項16に記載の信号符号化装
    置。
  20. 【請求項20】 信号の符号化が、所定のビットレート
    に基づいて実行され、前記フレームの各々に対する前記
    雑音しきい値が、前記所定ビットレートに基づいて計算
    されることを特徴とする請求項16に記載の信号符号化
    装置。
  21. 【請求項21】 前記予測手段(C)が、(C1)前記
    特定のフレームに対する前記特定知覚符号化品質に対応
    する前記雑音しきい値に基づいて量子化ステップサイズ
    を引き出す手段と、(C2)前記特定のフレームを、前
    記引き出された量子化ステップサイズに基づいて符号化
    し、量子化値セットを作り出す手段と、(C3)前記量
    子化値セットをハフマン符号化する手段と、(C4)前
    記ハフマン符号化に基づいてビット数を計算する手段と
    を含むことを特徴とする請求項16に記載の信号符号化
    装置。
  22. 【請求項22】 前記予測手段(C)が、(C5)所定
    の公式に基づいて前記ビットデマンドの近似値を計算す
    る手段を含むことを特徴とする請求項16に記載の信号
    符号化装置。
  23. 【請求項23】 前記選択手段(D)が、(D1)前記
    特定のフレームに対する前記特定知覚符号化品質に対応
    する前記雑音しきい値に基づいて量子化ステップサイズ
    を引き出す手段と、(D2)前記引き出された量子化ス
    テップサイズに基づいて前記特定フレームを符号化し、
    量子化値セットを作り出す手段と、(D3)前記量子化
    値セットをハフマン符号化する手段と、(D4)前記ハ
    フマン符号化に基づいてビット数を計算する手段と、
    (D5)前記手段(D1)、手段(D2)、手段(D
    3)および手段(D4)を、前記ビット数の計算値が、
    前記ビットデマンドの前記近似値の所定の範囲内になる
    まで反復する手段とを含むことを特徴とする請求項22
    に記載の信号符号化装置。
  24. 【請求項24】 前記手段(D)が、対応する複数の前
    記フレームに対する前記知覚符号化品質の前記各々に対
    する複数の前記予測ビットデマンドの数学平均からなる
    平均ビットデマンドに基づいており、前記対応する複数
    の前記フレームが、前記フレームの前記特定の1つを含
    み、さらに、前記連続フレーム列内の前記フレームの前
    記特定の1つの前に、前記フレームの少なくとも1つの
    前記他のフレームを含むことを特徴とする請求項16に
    記載の信号符号化装置。
  25. 【請求項25】 さらに、(F)前記連続フレーム列内
    の前記フレームの前記特定の1つの直前のフレームを、
    既に選択されている知覚符号化品質で符号化する手段を
    備え、前記手段(D)が、(D6)前記既に選択されて
    いる知覚符号化品質に対して所定量だけ小さい知覚符号
    化品質を選択する手段を備えることを特徴とする請求項
    24に記載の信号符号化装置。
  26. 【請求項26】 さらに、前記信号を前記符号化するた
    めのビット割付け用ビットバッファを備え、前記手段
    (D)がさらに、前記連続フレーム列内の前記フレーム
    の前記特定の1つの直前のフレームが符号化された後に
    決定される前記ビットバッファの満杯状態の測定に基づ
    いていることを特徴とする請求項15に記載の信号符号
    化装置。
  27. 【請求項27】 さらに、(G)追加信号を符号化する
    手段を備え、信号および前記追加信号がそれぞれ対応す
    る連続フレームの対応する列に分割され、前記手段
    (D)がさらに、前記フレームの前記特定の1つに対応
    する前記追加信号のフレームに対して予測されたビット
    デマンドに基づいていることを特徴とする請求項15に
    記載の信号符号化装置。
  28. 【請求項28】 前記手段(D)が、前記信号の対応す
    る複数の前記フレーム、および、前記追加信号の対応す
    る複数の前記対応するフレームに対する前記知覚符号化
    品質の前記各々に対する複数の前記予測ビットデマンド
    の数学平均からなる平均ビットデマンドに基づいてお
    り、前記信号の前記対応する複数の前記フレーム、およ
    び、前記追加信号の前記対応する複数の前記対応するフ
    レームが、それぞれ前記フレームの前記特定の1つを含
    み、さらに、それぞれ前記信号の前記連続フレーム列
    内、および、前記追加信号の対応する連続フレームの対
    応する列内の前記フレームの前記特定の1つの前に、前
    記フレームの少なくとも1つの前記他のフレームを含む
    ことを特徴とする請求項27に記載の信号符号化装置。
JP2000396662A 2000-01-04 2000-12-27 知覚モデルに基づいて信号を符号化する方法および装置 Expired - Fee Related JP4219551B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/477,314 US6499010B1 (en) 2000-01-04 2000-01-04 Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US09/477314 2000-01-04

Publications (2)

Publication Number Publication Date
JP2001236099A true JP2001236099A (ja) 2001-08-31
JP4219551B2 JP4219551B2 (ja) 2009-02-04

Family

ID=23895405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000396662A Expired - Fee Related JP4219551B2 (ja) 2000-01-04 2000-12-27 知覚モデルに基づいて信号を符号化する方法および装置

Country Status (5)

Country Link
US (1) US6499010B1 (ja)
EP (1) EP1117089B1 (ja)
JP (1) JP4219551B2 (ja)
CA (1) CA2327405C (ja)
DE (1) DE60000047T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090268024A1 (en) * 2008-04-28 2009-10-29 Sony Corporation Apparatus and method for information processing and program
JP2011501228A (ja) * 2007-10-31 2011-01-06 ケンブリッジ シリコン ラジオ リミテッド 知覚モデルの適応的調整

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US6987889B1 (en) * 2001-08-10 2006-01-17 Polycom, Inc. System and method for dynamic perceptual coding of macroblocks in a video frame
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030220800A1 (en) * 2002-05-21 2003-11-27 Budnikov Dmitry N. Coding multichannel audio signals
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US7724827B2 (en) 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
GB0428160D0 (en) * 2004-12-22 2005-01-26 British Telecomm Variable bit rate processing
US8599925B2 (en) 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
WO2007029304A1 (ja) * 2005-09-05 2007-03-15 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
US8332216B2 (en) 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
US8010370B2 (en) * 2006-07-28 2011-08-30 Apple Inc. Bitrate control for perceptual coding
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
JP2008233436A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd 符号化装置、符号化プログラムおよび符号化方法
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8346547B1 (en) * 2009-05-18 2013-01-01 Marvell International Ltd. Encoder quantization architecture for advanced audio coding
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
KR20140017338A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
CN105264600B (zh) * 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
CN109451309B (zh) * 2018-12-04 2022-07-26 南京邮电大学 Hevc全i帧编码基于显著性的ctu层码率分配方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9000338A (nl) * 1989-06-02 1991-01-02 Koninkl Philips Electronics Nv Digitaal transmissiesysteem, zender en ontvanger te gebruiken in het transmissiesysteem en registratiedrager verkregen met de zender in de vorm van een optekeninrichting.
US5040217A (en) 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
KR970005131B1 (ko) * 1994-01-18 1997-04-12 대우전자 주식회사 인간의 청각특성에 적응적인 디지탈 오디오 부호화장치
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JPH1035876A (ja) 1996-07-19 1998-02-10 Daifuku Co Ltd 仕分け装置
US6108372A (en) * 1996-10-30 2000-08-22 Qualcomm Inc. Method and apparatus for decoding variable rate data using hypothesis testing to determine data rate
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
JP3802219B2 (ja) 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501228A (ja) * 2007-10-31 2011-01-06 ケンブリッジ シリコン ラジオ リミテッド 知覚モデルの適応的調整
US20090268024A1 (en) * 2008-04-28 2009-10-29 Sony Corporation Apparatus and method for information processing and program
US9509955B2 (en) * 2008-04-28 2016-11-29 Sony Corporation Apparatus and method for information processing and program

Also Published As

Publication number Publication date
DE60000047D1 (de) 2002-02-21
CA2327405C (en) 2005-05-03
DE60000047T2 (de) 2002-07-11
EP1117089B1 (en) 2001-11-14
JP4219551B2 (ja) 2009-02-04
US6499010B1 (en) 2002-12-24
CA2327405A1 (en) 2001-07-04
EP1117089A1 (en) 2001-07-18

Similar Documents

Publication Publication Date Title
JP2001236099A (ja) 知覚品質の一貫性を改善する知覚音声符号器ビット割付けスキーム
RU2456682C2 (ru) Аудиокодер и декодер
KR100548891B1 (ko) 음성 부호화 장치 및 음성 부호화 방법
US7644002B2 (en) Multi-pass variable bitrate media encoding
KR100469002B1 (ko) 오디오 코딩 방법 및 장치
JP4810335B2 (ja) 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
KR101045520B1 (ko) 격자를 사용하여 엠피이지-2 에이에이씨를 위한 스케일팩터 전송 코스트 감소 방법
EP0858067B1 (en) Multichannel acoustic signal coding and decoding methods and coding and decoding devices using the same
US20050015259A1 (en) Constant bitrate media encoding techniques
EP0967593B1 (en) Audio coding and quantization method
JP2016505168A (ja) 音声信号復号化または符号化の時間領域レベル調整
CN105144288B (zh) 高级量化器
JP2023169294A (ja) 符号化及び復号化のための符号化装置、復号化装置、システム及び方法
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
US11741974B2 (en) Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
US7613609B2 (en) Apparatus and method for encoding a multi-channel signal and a program pertaining thereto
JP4843142B2 (ja) 音声符号化のための利得−適応性量子化及び不均一符号長の使用
CN114258567A (zh) 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序
KR102486258B1 (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP5451603B2 (ja) デジタルオーディオ信号の符号化
US20030220800A1 (en) Coding multichannel audio signals
JP2000078018A (ja) 音声符号化方式、音声符号化装置、及びデ―タ記録媒体
JPH09288498A (ja) 音声符号化装置
JP3301886B2 (ja) 可変レート音声符号化方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060313

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060613

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060913

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080922

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees