JP2016514857A - オーディオ・エンコーダおよびデコーダ - Google Patents

オーディオ・エンコーダおよびデコーダ Download PDF

Info

Publication number
JP2016514857A
JP2016514857A JP2016505841A JP2016505841A JP2016514857A JP 2016514857 A JP2016514857 A JP 2016514857A JP 2016505841 A JP2016505841 A JP 2016505841A JP 2016505841 A JP2016505841 A JP 2016505841A JP 2016514857 A JP2016514857 A JP 2016514857A
Authority
JP
Japan
Prior art keywords
transform
transform coefficients
envelope
blocks
current block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016505841A
Other languages
English (en)
Other versions
JP6227117B2 (ja
Inventor
ヴィレモーズ,ラーシュ
クレイサ,ヤヌッシュ
ヘデリン,ペール
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016514857A publication Critical patent/JP2016514857A/ja
Application granted granted Critical
Publication of JP6227117B2 publication Critical patent/JP6227117B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Abstract

本稿はオーディオ・エンコードおよびデコード・システム(オーディオ・コーデック・システムと称される)に関する。詳細には、本稿は、声のエンコード/デコードに特に好適な変換ベースのオーディオ・コーデック・システムに関する。発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダ(100、170)が記述される。エンコーダ(100、170)は、ブロックの集合(132、332)を受領するよう構成されたフレーム構成ユニット(101)を有する。ブロックの集合(132、332)は、変換係数の複数の逐次的なブロック(131)を含み、該複数のブロック(131)は発話信号のサンプルを示す。変換係数のブロックは、対応する複数の周波数ビン(301)についての複数の変換係数を含む。さらに、エンコーダ(100、170)は、変換係数の前記複数の逐次的なブロック(131)に基づいて現在の包絡(133)を決定するよう構成されている包絡推定ユニット(102)を有する。前記現在の包絡(133)は、前記対応する複数の周波数ビン(301)について複数のスペクトル・エネルギー値(303)を示す。さらに、エンコーダ(100、170)は、現在の包絡(133)に基づいて、それぞれ変換係数の前記複数のブロック(131)について複数の補間された包絡(136)を決定するよう構成された包絡補間ユニット(104)を有する。さらに、エンコーダ(100、170)は、それぞれ前記対応する複数の補間された包絡(136)を使って変換係数の前記対応する複数のブロック(131)を平坦化することによって、平坦化された変換係数の複数のブロック(140)を決定するよう構成された平坦化ユニット(108)を有する。前記ビットストリームは平坦化された変換係数の前記複数のブロック(140)に基づいて決定される。

Description

本稿はオーディオ・エンコードおよびデコード・システム(オーディオ・コーデック・システムと称される)に関する。詳細には、本稿は、声のエンコード/デコードに特に好適な変換ベースのオーディオ・コーデック・システムに関する。
汎用の知覚的オーディオ符号化器は、数十ミリ秒(たとえば20ms)をカバーするサンプルのブロック・サイズをもつ修正離散コサイン変換(MDCT)のような変換を使うことによって、比較的高い符号化利得を達成する。そのような変換ベースのオーディオ・コーデック・システムの例は先進オーディオ符号化(AAC)または高効率(HE)-AACである。しかしながら、そのような変換ベースのオーディオ・コーデック・システムを声信号に使うときは、声信号の品質は、より低ビットレートに向かって、音楽信号の品質より速く劣化する。特に、ドライな(非残響性の)発話信号の場合にそうである。
よって、変換ベースのオーディオ・コーデック・システムは、声信号の符号化のため、あるいは声成分を含むオーディオ信号の符号化のためには本来的に好適ではない。換言すれば、変換ベースのオーディオ・コーデック・システムは、声信号について達成される符号化利得に比べて音楽信号について達成される符号化利得に関して非対称性を示す。この非対称性は、変換ベースの符号化にアドオンを提供することによって対処されてもよい。ここで、該アドオンは、改善されたスペクトル整形または信号マッチングをねらいとする。そのようなアドオンの例は事前/事後整形、時間的ノイズ整形(TNS: Temporal Noise Shaping)および時間歪みMDCT(Time Warped MDCT)である。さらに、この非対称性は、短期的な予測フィルタリング(LPC)および長期的な予測(long term prediction)(LTP)に基づく古典的な時間領域発話符号化器の組み込みによって対処されてもよい。
変換ベースの符号化にアドオンを提供することによって得られる改善は典型的には、音楽信号と発話信号の間の性能ギャップをならすには不十分であることが示せる。他方、古典的な時間領域の発話符号化器の組み込みは性能ギャップを埋めるものの、性能の非対称性が逆方向に反転される限りにおいてである。これは、古典的な時間領域の発話符号化器は人間の発話生成系をモデル化するものであって、発話信号の符号化のために最適化されているという事実のためである。
上記に鑑み、変換ベースのオーディオ・コーデックは、古典的な時間領域の発話コーデックと組み合わせて使用されてもよく、ここで、古典的な時間領域の発話コーデックはオーディオ信号の発話セグメントのために使用され、変換ベースのコーデックはオーディオ信号の残りのセグメントのために使用される。しかしながら、単一のオーディオ・コーデック・システムにおける時間領域と変換領域のコーデックの併存は、オーディオ信号の属性に基づいて異なるコーデックの間で切り換えを行なうための信頼できるツールを必要とする。さらに、(発話コンテンツのための)時間領域コーデックと(残りのコンテンツのための)変換領域コーデックの間の実際の切り換えは、実装するのが難しいことがある。特に、時間領域のコーデックと変換領域のコーデックの間の(およびその逆の)なめらかな遷移を保証することが難しいことがある。さらに、たとえば器楽のバックグラウンドと一緒の歌声をエンコードするために非発話信号をエンコードすることが時折不可避となることについて、時間領域のコーデックを、より堅牢にするために、時間領域のコーデックへの修正が必要とされることがある。本稿は、オーディオ・コーデック・システムの上述した技術的課題に対処する。特に、本稿は、発話コーデックの枢要な特徴のみを移入し、それにより、変換ベースのコーデック・アーキテクチャ内に留まりながら発話および音楽についての均等な性能を達成するオーディオ・コーデック・システムを記述する。換言すれば、本稿は、変換ベースのオーディオ・コーデックであって、発話または声信号のエンコードに特に好適なものを記述する。
ある側面によれば、変換ベースの発話エンコーダが記述される。発話エンコーダは、発話信号をビットストリームにエンコードするよう構成されている。下記において、そのような変換ベースの発話エンコーダのさまざまな側面が記述されることを注意しておくべきである。それらのさまざまな側面はさまざまな仕方で互いに組み合わせることができることをはっきりと指摘しておく。特に、種々の独立請求項に従属して記述される側面を他の独立請求項と組み合わせることができる。さらに、エンコーダのコンテキストにおいて記述される側面は、対応するデコーダに類似の仕方で適用可能である。
発話エンコーダは、ブロックの集合を受領するよう構成されたフレーム構成ユニットを有していてもよい。ブロックの集合は、本稿の詳細な説明において記述されるシフトされたブロックの集合に対応していてもよい。あるいはまた、ブロックの集合は、本稿の詳細な説明において記述される現在のブロックの集合に対応していてもよい。ブロックの集合は、変換係数の複数の逐次的なブロックを含み、該複数の逐次的なブロックは発話信号のサンプルを示す。特に、ブロックの集合は変換係数の四つ以上のブロックを含んでいてもよい。前記複数の逐次的なブロックのうちのブロックは、発話信号の所定数のサンプルを時間領域から周波数領域に変換するよう構成されている変換ユニットを使って、発話信号から決定されたものであってもよい。特に、変換ユニットは、修正離散コサイン変換(MDCT)のような時間領域から周波数領域への変換を実行するよう構成されていてもよい。よって、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数(周波数係数またはスペクトル係数とも称される)を含んでいてもよい。特に、変換係数のブロックはMDCT係数を含んでいてもよい。
周波数ビンの数またはブロックのサイズは典型的には、変換ユニットによって実行される変換のサイズに依存する。ある好ましい例では、前記複数の逐次的なブロックからのブロックは、たとえば256個の周波数ビンを含むいわゆる短ブロックに対応する。短ブロックに加えて、変換ユニットはたとえば1024個の周波数ビンを含むいわゆる長ブロックを生成するよう構成されていてもよい。長ブロックは、入力オーディオ信号の静的なセグメントをエンコードするためにオーディオ・エンコーダによって使用されてもよい。しかしながら、発話信号(または入力オーディオ信号内に含まれる発話セグメント)をエンコードするために使われる前記複数の逐次的なブロックは、短ブロックのみを含んでいてもよい。特に、変換係数のブロックは256個の周波数ビンにおける256個の変換係数を含んでいてもよい。
より一般的な表現では、周波数ビンの数またはブロックのサイズは、変換係数のブロックが発話信号の3ないし7ミリ秒(たとえば発話信号の5ms)の範囲においてカバーするようなものであってもよい。ブロックのサイズは、発話エンコーダがビデオ・エンコーダによってエンコードされるビデオ・フレームと同期して動作しうるよう選択されてもよい。変換ユニットは、異なる数の周波数ビンをもつ変換係数のブロックを生成するよう構成されていてもよい。例として、変換ユニットは、48kHzのサンプリング・レートで、1920、960、480、240、120個の周波数ビンをもつブロックを生成するよう構成されていてもよい。発話信号の3ないし7ミリ秒の範囲においてカバーするブロック・サイズが発話エンコーダのために使われてもよい。上記の例では、240個の周波数ビンを含むブロックが発話エンコーダのために使われてもよい。
発話エンコーダはさらに、変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定するよう構成されている包絡推定ユニットを有していてもよい。現在の包絡は、ブロックの集合の前記複数の逐次的なブロックに基づいて決定されてもよい。追加的なブロックが考慮に入れられてもよい。たとえば、前記ブロックの集合の直前のブロックの集合の諸ブロックである。代替的または追加的に、いわゆる先読みブロックが考慮に入れられてもよい。全体として、これはブロックの一連の集合の間の連続性を提供するために有益でありうる。現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示してもよい。換言すれば、現在の包絡は、前記複数の逐次的なブロック内の各ブロックと同じ次元を有していてもよい。さらに別の言い方では、単一の現在の包絡が、発話信号の複数の(すなわち二つ以上の)ブロックについて決定されてもよい。これは、前記複数の逐次的なブロック内に含まれるスペクトル・データに関する有意な統計を提供するために有利である。
現在の包絡は、対応する複数の周波数帯域について複数のスペクトル・エネルギー値を示してもよい。周波数帯域は、一つまたは複数の周波数ビンを含んでいてもよい。特に、周波数帯域の一つまたは複数は二つ以上の周波数ビンを含んでいてもよい。周波数帯域当たりの周波数ビンの数は周波数が増すとともに増大してもよい。換言すれば、周波数帯域当たりの周波数ビンの数は音響心理学的な考察に依存してもよい。包絡推定ユニットは、特定の周波数帯域についてのスペクトル・エネルギー値を、その特定の周波数帯域内にはいる前記複数の逐次的なブロックの変換係数に基づいて決定するよう構成されていてもよい。特に、包絡推定ユニットは、その特定の周波数帯域内にはいる前記複数の逐次的なブロックの変換係数の二乗平均平方根値に基づいて決定するよう構成されていてもよい。よって、現在の包絡は、前記複数の逐次的なブロックのスペクトル包絡の平均スペクトル包絡を示していてもよい。さらに、現在の包絡は帯域化された(banded)周波数分解能を有していてもよい。
発話エンコーダはさらに、現在の包絡に基づいて、それぞれ変換係数の前記複数の逐次的なブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットを有していてもよい。特に、前記複数の補間された包絡は、対応するデコーダにおいても利用可能な量子化された現在の包絡に基づいて決定されてもよい。そうすることにより、前記複数の補間された包絡が発話エンコーダと対応する発話デコーダにおいて同じ仕方で決定されうることが保証される。よって、発話デコーダのコンテキストにおいて記述される包絡補間ユニットの特徴は発話エンコーダにも適用可能であり、逆に、発話エンコーダのコンテキストにおいて記述される包絡補間ユニットの特徴は発話デコーダにも適用可能である。全体として、包絡補間ユニットは、前記複数の逐次的なブロックのそれぞれのスペクトル包絡の近似(すなわち補間された包絡)を現在の包絡に基づいて決定するよう構成されていてもよい。
発話エンコーダはさらに、それぞれ対応する複数の補間された包絡を使って変換係数の対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定するよう構成された平坦化ユニットを有していてもよい。特に、特定のブロックについての補間された包絡(またはそれから導出される包絡)は、その特定のブロック内に含まれる変換係数を平坦化する、すなわち該変換係数のスペクトル形状を除去するために使われてもよい。平坦化(flattening)プロセスは、変換係数の特定のブロックに適用される白色化(whitening)動作とは異なることを注意しておくべきである。すなわち、平坦化された変換係数は、古典的な発話エンコーダのLPC(linear predictive coding[線形予測符号化])解析によって典型的に生成される時間領域の白色化された信号の変換係数と解釈することはできない。比較的平坦なパワースペクトルをもつ信号を生成するという側面だけが共通である。しかしながら、そのような平坦なパワースペクトルを得るプロセスは異なる。本稿で概説されるように、変換係数のブロックを平坦化するための推定されるスペクトル包絡の使用は、推定されるスペクトル包絡がビット割り当て目的のために使用されうるので、有益である。
変換ベースの発話エンコーダはさらに、それぞれ変換係数の前記複数のブロックについて複数の包絡利得を決定するよう構成された包絡利得決定ユニットを有していてもよい。さらに、変換ベースの発話エンコーダは、それぞれ前記複数の包絡利得に従って前記複数の補間された包絡をシフトさせることによって、複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有していてもよい。包絡利得決定ユニットは、(前記複数の逐次的なブロックからの)変換係数の第一のブロックのための第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が、第一の補間された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散に比べて低減されるように、決定するよう構成されていてもよい。第一の調整された包絡は、第一の包絡利得を使って第一の補間された包絡をシフトさせることによって決定されてもよい。第一の補間された包絡は、変換係数の前記複数のブロックからの変換係数の前記第一のブロックについて、前記複数の補間された包絡からの前記補間された包絡であってもよい。
特に、包絡利得決定ユニットは、変換係数の前記第一のブロックについての前記第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が1になるように、決定するよう構成されていてもよい。平坦化ユニットは、平坦化された変換係数の前記複数のブロックを、それぞれ対応する複数の調整された包絡を使って変換係数の対応する複数のブロックを平坦化することによって決定するよう構成されていてもよい。結果として、平坦化された変換係数のブロックはそれぞれ分散1をもちうる。
包絡利得決定ユニットは、前記複数の包絡利得を示す利得データをビットストリーム中に挿入するよう構成されていてもよい。結果として、対応するデコーダは、エンコーダと同じ仕方で前記複数の調整された包絡を決定できるようにされる。
発話エンコーダは、前記ビットストリームを、平坦化された変換係数の前記複数のブロックに基づいて決定するよう構成されていてもよい。特に、発話エンコーダは、平坦化された変換係数の前記複数のブロックに基づいて係数データを決定するよう構成されていてもよく、該係数データが前記ビットストリームに挿入される。平坦化された変換係数の前記複数のブロックに基づいて係数データを決定するための例示的な手段は後述する。
変換ベースの発話エンコーダは、現在の包絡を量子化することによって量子化された現在の包絡を決定するよう構成された包絡量子化ユニットを有していてもよい。さらに、包絡量子化ユニットは、包絡データを前記ビットストリーム中に挿入するよう構成されていてもよく、該包絡データは量子化された現在の包絡を示す。結果として、対応するデコーダは、包絡データをデコードすることによって量子化された現在の包絡を知らされてもよい。包絡補間ユニットは、量子化された現在の包絡に基づいて前記複数の補間された包絡を決定するよう構成されていてもよい。そうすることにより、エンコーダおよびデコーダが同じ複数の補間された包絡を決定するよう構成されることが保証されうる。
変換ベースの発話エンコーダは複数の異なるモードで動作するよう構成されていてもよい。該異なるモードは、短ストライド・モードおよび長ストライド・モードを含んでいてもよい。前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、変換ベースの発話エンコーダが短ストライド・モードで動作させられるときは、変換係数の前記複数の逐次的なブロックを含むブロックの前記集合を処理するよう構成されていてもよい。よって、短ストライド・モードにあるときは、エンコーダは、オーディオ信号のセグメント/フレームを、エンコーダが逐次的な仕方で処理する逐次的なブロックのシーケンスに細分するよう構成されていてもよい。一方、前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、変換ベースの発話エンコーダが長ストライド・モードで動作させられるときは、変換係数の前記複数の単一のブロックのみを含むブロックの集合を処理するよう構成されていてもよい。よって、長ストライド・モードにあるときは、エンコーダは、オーディオ信号の完全なセグメント/フレームを、ブロックに細分することなく処理するよう構成されていてもよい。これは、オーディオ信号の短いセグメント/フレームについておよび/または音楽信号について有益でありうる。長ストライド・モードにあるとき、包絡推定ユニットは、ブロックの前記集合内に含まれる変換係数の前記単一のブロックの現在の包絡を決定するよう構成されていてもよい。包絡補間ユニットは、変換係数の前記単一のブロックについての補間された包絡を、変換係数の前記単一のブロックの前記現在の包絡として決定するよう構成されていてもよい。換言すれば、長ストライド・モードにあるときは本稿に記載される包絡補間がバイパスされてもよく、前記単一のブロックの現在の包絡が、(さらなる処理のために)補間された包絡であると設定されてもよい。
もう一つの側面によれば、再構成された発話信号を提供するためにビットストリームをデコードするよう構成された変換ベースの発話デコーダが記述される。上記ですでに示したように、デコーダは、対応するエンコーダのコンポーネントと類似のコンポーネントを有していてもよい。デコーダは、ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定するよう構成された包絡デコード・ユニットを有していてもよい。上記で示したように、量子化された現在の包絡は典型的には、諸周波数帯域の対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示す。さらに、ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータ(たとえば前記係数データ)を含んでいてもよい。再構成された平坦化された変換係数の前記複数の逐次的なブロックは、典型的には、エンコーダにおける平坦化された変換係数の前記対応する複数の逐次的なブロックに関連付けられている。前記複数の逐次的なブロックは、ブロックの集合の、たとえば後述するシフトされたブロックの集合の前記複数の逐次的なブロックに対応してもよい。再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む。
デコーダはさらに、量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットを有していてもよい。デコーダの包絡補間ユニットは典型的にはエンコーダの包絡補間ユニットと同じ仕方で動作する。包絡補間ユニットは、前記複数の補間された包絡を、量子化された以前の包絡にさらに基づいて決定するよう構成されていてもよい。量子化された以前の包絡は、再構成された変換係数の前記複数のブロックの直前の、再構成された変換係数の複数の以前のブロックに関連付けられていてもよい。よって、量子化された以前の包絡は、変換係数のブロックの以前の集合についての包絡データとしてデコーダによって受領されたものであってもよい(たとえばいわゆるPフレームの場合)。代替的または追加的に、ブロックの前記集合についての包絡データは、量子化された現在の包絡を示すことに加えて、量子化された以前の包絡を示してもよい(たとえばいわゆるIフレームの場合)。これは、以前のデータを知ることなくIフレームがデコードできるようにする。
包絡補間ユニットは、第一の補間された包絡のある特定の周波数ビンについてのスペクトル・エネルギー値を、第一の中間時点において、量子化された現在の包絡と量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されていてもよい。第一の補間された包絡は、再構成された平坦化された変換係数の前記複数の逐次的なブロックの第一のブロックに関連付けられているまたは対応する。上記で概説したように、量子化された以前および現在の包絡は典型的には帯域化された(banded)包絡である。特定の周波数帯域についてのスペクトル・エネルギー値は典型的には、その周波数帯域内に含まれるすべての周波数ビンについて一定である。
包絡補間ユニットは、前記第一の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、量子化された現在の包絡と量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値の間の補間を量子化することによって、決定するよう構成されていてもよい。よって、前記複数の補間された包絡は、量子化された補間された包絡であってもよい。
包絡補間ユニットは、第二の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、第二の中間時点において、量子化された現在の包絡と量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されていてもよい。第二の補間された包絡は、再構成された平坦化された変換係数の前記複数のブロックの第二のブロックに関連付けられているまたは対応するのでもよい。再構成された平坦化された変換係数の前記第二のブロックは、再構成された平坦化された変換係数の前記第一のブロックより後であってもよく、前記第二の中間時点は前記第一の中間時点より後であってもよい。特に、前記第二の中間時点と前記第一の中間時点との間の差は、再構成された平坦化された変換係数の前記第二のブロックと再構成された平坦化された変換係数の前記第一のブロックとの間の時間間隔に対応してもよい。
包絡補間ユニットは、線形補間、幾何的補間および調和的補間の一つまたは複数を実行するよう構成されていてもよい。さらに、包絡補間ユニットは、対数領域において補間を実行するよう構成されていてもよい。
さらに、デコーダは、それぞれ対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定するよう構成された逆平坦化ユニットを有していてもよい。上記で示したように、ビットストリームは、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて(前記利得データ内で)複数の包絡利得を示していてもよい。変換ベースの発話デコーダはさらに、それぞれ前記複数の補間された包絡に前記複数の包絡利得を適用することによって複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有していてもよい。逆平坦化ユニットは、それぞれ対応する複数の調整された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記複数のブロックを決定するよう構成されていてもよい。
デコーダは、再構成された変換係数の前記複数のブロックに基づいて、再構成された発話信号を決定するよう構成されていてもよい。
もう一つの側面によれば、発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダが記述される。本エンコーダは、本稿に記載されるエンコーダ関係の特徴および/またはコンポーネントの任意のものを有しうる。特に、本エンコーダは、変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットを有していてもよい。前記複数の逐次的なブロックは現在のブロックおよび一つまたは複数の以前のブロックを含む。上記で示したように、前記複数の逐次的なブロックは発話信号のサンプルを示している。
さらに、エンコーダは、それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の対応する現在のブロックおよび一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定するよう構成された平坦化ユニットを有していてもよい。ブロック包絡は、上述した調整された包絡に対応してもよい。
さらに、エンコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから(たとえば前記予測器を使って)導出されたものであってもよい。
予測器は、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器を有していてもよい。よって、該抽出器は、平坦化されていない領域で動作しうる(すなわち、抽出器は、スペクトル形状をもつ変換係数のブロックに対して動作しうる)。これは、推定された変換係数の現在のブロックを決定するために抽出器によって使用される信号モデルに関して有益でありうる。
さらに、予測器は、推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡のうちの少なくとも一つに基づき、かつ前記一つまたは複数の予測器パラメータのうちの少なくとも一つに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有していてもよい。よって、スペクトル整形器は、推定された変換係数の前記現在のブロックを平坦化領域に変換して、推定された平坦化された変換係数の前記現在のブロックを提供するよう構成されていてもよい。対応するデコーダのコンテキストにおいて概説したように、スペクトル整形器は、この目的のために前記複数の調整された包絡(または前記複数のブロック包絡)を利用してもよい。
上記で示したように、予測器(特に抽出器)は、信号モデルを使うモデル・ベースの予測器を有していてもよい。信号モデルは、一つまたは複数のモデル・パラメータを有していてもよく、前記一つまたは複数の予測器パラメータは、前記一つまたは複数のモデル・パラメータを示していてもよい。モデル・ベースの予測器の使用は、サブバンド(または周波数ビン)予測器によって使われる予測係数を記述するビットレート効率のよい手段を提供するために有益でありうる。特に、ほんの少数のモデル・パラメータを使って予測係数の完全な集合を決定することが可能でありうる。そのような少数のモデル・パラメータは、ビットレート効率のよい仕方で対応するデコーダに予測器データとして伝送されうる。よって、モデル・ベースの予測器は、(たとえばダービン・レヴィンソン(Durbin-Levinson)・アルゴリズムを使って)信号モデルの前記一つまたは複数のモデル・パラメータを決定するよう構成されていてもよい。
さらに、モデル・ベースの予測器は、前記信号モデルに基づき、かつ前記一つまたは複数のモデル・パラメータに基づいて、再構成された変換係数の以前のブロックの第一の周波数ビン内の第一の再構成された変換係数に適用されるべき予測係数を決定するよう構成されていてもよい。特に、複数の再構成された変換係数についての複数の予測係数が決定されてもよい。そうすることにより、推定された変換係数の現在のブロックの前記第一の周波数ビン内の第一の推定された変換係数の推定値が、前記第一の再構成された変換係数に前記予測係数を適用することによって決定されてもよい。特に、そうすることにより、推定された変換係数の現在のブロックの推定された変換係数が決定されうる。
例として、前記信号モデルは一つまたは複数の正弦波モデル成分を含んでいてもよく、前記一つまたは複数のモデル・パラメータは前記一つまたは複数の正弦波モデル成分の周波数を示していてもよい。特に、前記一つまたは複数のモデル・パラメータは、複数正弦波信号モデルの基本周波数を示していてもよい。そのような基本周波数は、時間領域における遅延に対応してもよい。予測器は、予測誤差係数の現在のブロックの予測誤差係数の平均平方値が低減される(たとえば最小化される)よう、前記一つまたは複数の予測パラメータを決定するよう構成されていてもよい。これはたとえば、ダービン・レヴィンソン・アルゴリズムを使って達成されてもよい。予測器は、前記一つまたは複数の予測器パラメータを示す予測器データをビットストリーム中に挿入するよう構成されていてもよい。結果として、対応するデコーダは、エンコーダと同じ仕方で、推定された平坦化された変換係数の現在のブロックを決定できるようにされる。
さらに、エンコーダは、平坦化された変換係数の現在のブロックに基づいて、かつ推定された平坦化された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットを有していてもよい。ビットストリームは、予測誤差係数の現在のブロックに基づいて決定されてもよい。特に、ビットストリームの係数データは、予測誤差係数の現在のブロックを示していてもよい。
あるさらなる側面によれば、ビットストリームをデコードして、再構成された発話信号を提供するよう構成された変換ベースの発話デコーダが記載される。本デコーダは、本稿に記載されるデコーダ関係の特徴および/またはコンポーネントの任意のものを有しうる。特に、本デコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリーム(の予測器データ)から導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。対応するエンコーダのコンテキストにおいて概説したように、予測器は、再構成された変換係数の前記一つまたは複数の以前のブロックのうちの少なくとも一つに基づき、かつ前記一つまたは複数の予測器パラメータのうちの少なくとも一つに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器を有していてもよい。さらに、予測器は、推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡(たとえば以前の調整された包絡)に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有していてもよい。
前記一つまたは複数の予測器パラメータは、ブロック遅延パラメータTを含んでいてもよい。ブロック遅延パラメータは、推定された平坦化された変換係数の前記現在のブロックに先行するブロック数を示していてもよい。特に、ブロック遅延パラメータTは、発話信号の周期性を示していてもよい。よって、ブロック遅延パラメータTは、再構成された変換係数の以前のブロックのどの一つまたは複数が変換係数の前記現在の係数に(最も)似ているかを示してもよく、よって、変換係数の前記現在のブロックを予測するために使われてもよい。すなわち、推定された変換係数の前記現在のブロックを決定するために使われてもよい。
スペクトル整形器は、現在の推定された包絡を使って推定された変換係数の前記現在のブロックを平坦化するよう構成されていてもよい。さらに、スペクトル整形器は、前記一つまたは複数の以前のブロック包絡のうちの少なくとも一つに基づき、かつ前記ブロック遅延パラメータに基づいて、現在の推定された包絡を決定するよう構成されていてもよい。特に、スペクトル整形器は、ブロック遅延パラメータTに基づいて整数遅延値T0を決定するよう構成されていてもよい。整数遅延値T0は、ブロック遅延パラメータTを最も近い整数に丸めることによって決定されてもよい。さらに、スペクトル整形器は、推定された平坦化された変換係数の現在のブロックより整数遅延値に対応するブロック数だけ先行する、再構成された変換係数の以前のブロックの以前のブロック包絡(たとえば以前の調整された包絡)として、前記現在の推定された包絡を決定するよう構成されていてもよい。デコーダのスペクトル整形器について記述される特徴は、エンコーダのスペクトル整形器にも適用可能であることを注意しておくべきである。
抽出器は、再構成された変換係数の前記一つまたは複数の以前のブロックのうちの少なくとも一つに基づき、かつブロック遅延パラメータTに基づいて、推定された変換係数の現在のブロックを決定するよう構成されていてもよい。この目的のために、抽出器は、対応するエンコーダのコンテキストにおいて概説したように、モデル・ベースの予測器を利用してもよい。このコンテキストにおいて、ブロック遅延パラメータTは、複数正弦波モデルの基本周波数を示してもよい。
さらに、発話デコーダは、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダを有していてもよい。この目的のために、スペクトル・デコーダは、本稿に記載される逆量子化器を利用してもよい。さらに、発話デコーダは、推定された平坦化された変換係数の現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットを有していてもよい。さらに、発話デコーダは、現在のブロック包絡を使って、再構成された平坦化された変換係数の現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有していてもよい。さらに、平坦化ユニットは、それぞれ前記一つまたは複数の以前のブロック包絡(たとえば以前の調整された包絡)を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記一つまたは複数の以前のブロックを決定するよう構成されていてもよい。発話デコーダは、再構成された変換係数の現在のブロックおよび一つまたは複数の以前のブロックに基づいて、再構成された発話信号を決定するよう構成されていてもよい。
変換ベースの発話デコーダは、一つまたは複数の以前のブロック包絡を記憶するよう構成された包絡バッファを有していてもよい。スペクトル整形器は、整数遅延値T0を包絡バッファ内に記憶されている以前のブロック包絡の数に制限することによって、整数遅延値T0を決定するよう構成されていてもよい。包絡バッファ内に記憶されている以前のブロック包絡の数は(たとえばIフレームの先頭において)変わりうる。スペクトル整形器は、包絡バッファに記憶されている以前の包絡の数を決定し、しかるべく整数遅延値T0を制限するよう構成されていてもよい。そうすることにより、誤った包絡ループアップ(loop-ups)が回避されうる。
スペクトル整形器は、前記一つまたは複数の予測器パラメータの適用前に(特に、前記予測器利得の適用前に)、(たとえば周波数帯域の一部または全部において)平坦化された推定された変換係数の現在のブロックが分散1を示すよう、推定された変換係数の現在のブロックを平坦化するよう構成されていてもよい。この目的のために、ビットストリームは、分散利得パラメータを含んでいてもよく、スペクトル整形器は、分散利得パラメータを、推定された変換係数の現在のブロックに適用するよう構成されていてもよい。これは、予測の品質に関して有益でありうる。
あるさらなる側面によれば、発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダが記述される。上記ですでに示したように、本エンコーダは、本稿に記載されるエンコーダ関係の特徴および/またはコンポーネントの任意のものを有しうる。特に、本エンコーダは、変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットを有していてもよい。前記複数の逐次的なブロックは現在のブロックおよび一つまたは複数の以前のブロックを含む。さらに、前記複数の逐次的なブロックは発話信号のサンプルを示している。
さらに、発話エンコーダは、対応する現在のブロック包絡(たとえば対応する調整された包絡)を使って変換係数の対応する現在のブロックを平坦化することによって、平坦化された変換係数の現在のブロックを決定するよう構成された平坦化ユニットを有していてもよい。さらに、発話エンコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータ(たとえば予測器利得を含む)に基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものであってもよい。さらに、発話エンコーダは、平坦化された変換係数の現在のブロックに基づいて、かつ推定された平坦化された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットを有していてもよい。
予測器は、重み付けされた平均平方誤差基準を使って(たとえば重み付けされた平均平方誤差基準を最小化することによって)推定された平坦化された変換係数の現在のブロックを決定するよう構成されていてもよい。重み付けされた平均平方誤差基準は、現在のブロック包絡または現在のブロック包絡の何らかのあらかじめ定義された関数を、重みとして考慮に入れてもよい。本稿では、重み付けされた平均平方誤差基準を使って予測器利得を決定するさまざまな異なる方法が記述される。
さらに、発話エンコーダは、一組のあらかじめ決定された量子化器を使って、予測誤差係数の現在のブロックから導出される係数を量子化するよう構成された係数量子化ユニットを有していてもよい。係数量子化ユニットは、前記一つまたは複数の予測器パラメータのうちの少なくとも一つに依存して、前記一組のあらかじめ決定された量子化器を決定するよう構成されていてもよい。つまり、予測器の性能が、係数量子化ユニットによって使用される量子化器に影響をもちうる。係数量子化ユニットは、量子化された係数に基づいてビットストリームについての係数データを決定するよう構成されていてもよい。よって、係数データは、予測誤差係数の現在のブロックの量子化されたバージョンを示していてもよい。変換ベースの発話エンコーダはさらに、一つまたは複数のスケーリング規則を使って、予測誤差係数の現在のブロックに基づいて、再スケーリングされた誤差係数の現在のブロックを決定するよう構成されたスケーリング・ユニットを有していてもよい。平均で、再スケーリングされた誤差係数の現在のブロックの再スケーリングされた誤差係数の分散が、予測誤差係数の現在のブロックの予測誤差係数の分散より高くなるように、再スケーリングされた誤差係数の現在のブロックが決定されてもよく、および/または前記一つまたは複数のスケーリング規則がそのようになっていてもよい。特に、前記一つまたは複数のスケーリング規則は、予測誤差係数の分散がすべての周波数ビンまたは周波数帯域について1により近くなるようなものであってもよい。係数量子化ユニットは、係数データを与えるために、再スケーリングされた誤差係数の現在のブロックの、再スケーリングされた誤差係数を量子化するよう構成されていてもよい。
予測誤差係数の現在のブロックは典型的には、対応する複数の周波数ビンについての複数の予測誤差係数を含む。前記スケーリング規則に従って前記スケーリング・ユニットによって予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存していてもよい。さらに、スケーリング規則は、前記一つまたは複数の予測器パラメータに、たとえば予測器利得に依存してもよい。代替的または追加的に、スケーリング規則は、現在のブロック包絡に依存してもよい。本稿では、周波数ビン依存のスケーリング規則を決定するためのさまざまな異なる方法が記述される。
変換ベースの発話エンコーダはさらに、現在ブロック包絡に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニットを有していてもよい。割り当てベクトルは、予測誤差係数の現在ブロックから導出された第一の係数を量子化するために使われる前記一組のあらかじめ決定された量子化器からの第一の量子化器を示していてもよい。特に、割り当てベクトルは、それぞれ予測誤差係数の現在ブロックから導出された係数全部を量子化するために使われる量子化器を示していてもよい。例として、割り当てベクトルは、各周波数帯域について使われる異なる量子化器を示していてもよい。
ビット割り当てユニットは、予測誤差係数の現在ブロックについての係数データが所定のビット数を超えないよう割り当てベクトルを決定するよう構成されていてもよい。さらに、ビット割り当てユニットは、現在ブロック包絡から導出される(たとえば、現在の調整された包絡から導出される)割り当て包絡に適用されるべきオフセットを示すオフセット値を決定するよう構成されていてもよい。オフセット値は、対応するデコーダが、係数データを決定するために使われた量子化器を同定できるようにするために、ビットストリーム中に含められてもよい。
もう一つの側面によれば、ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダが記述される。発話デコーダは、本稿に記載される特徴および/またはコンポーネントの任意のものを有しうる。特に、本デコーダは、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器を有していてもよい。さらに、発話デコーダは、一組のあらかじめ決定された量子化器を使って、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数(またはその再スケーリングされたバージョン)の現在のブロックを決定するよう構成されたスペクトル・デコーダを有していてもよい。特に、スペクトル・デコーダは、対応する発話エンコーダによって使用される前記一組のあらかじめ決定された量子化器に対応する一組のあらかじめ決定された逆量子化器を利用してもよい。
スペクトル・デコーダは、一つまたは複数の予測器パラメータに依存して前記一組のあらかじめ決定された量子化器(および/または前記対応する一組のあらかじめ決定された逆量子化器)を決定するよう構成されていてもよい。特に、スペクトル・デコーダは、前記一組のあらかじめ決定された量子化器のために、対応する発話エンコーダの係数量子化ユニットと同じ選択プロセスを実行してもよい。前記一組のあらかじめ決定された量子化器を前記一つまたは複数の予測器パラメータに依存させることによって、再構成された発話信号の知覚的品質が改善されうる。
前記一組のあらかじめ決定された量子化器は、異なる信号対雑音比(および異なる関連したビットレート)をもつ異なる量子化器を含んでいてもよい。さらに、前記一組のあらかじめ決定された量子化器は、少なくとも一つのディザリングされる量子化器を含んでいてもよい。前記一つまたは複数の予測器パラメータは、予測器利得gを含んでいてもよい。予測器利得gは、再構成された変換係数の現在のブロックについての再構成された変換係数の前記一つまたは複数の以前のブロックの関連度を示してもよい。よって、予測器利得gは、予測誤差係数の現在のブロック内に含まれる情報の量の指標を提供してもよい。相対的に高い予測器利得gは相対的に低い情報量を示してもよく、相対的に低い予測器利得gは相対的に高い情報量を示してもよい。前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得に依存してもよい。特に、前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得が増すのとともに減少してもよい。
スペクトル・デコーダは、あらかじめ決定された量子化器の第一の集合および第二の集合へのアクセスを有していてもよい。第二の集合は、量子化器の第一の集合より、少数のディザリングされる量子化器を含んでいてもよい。スペクトル・デコーダは、予測器利得gに基づいて集合基準rfuを決定するよう構成されていてもよい。スペクトル・デコーダは、集合基準rfuが所定の閾値より小さければ、あらかじめ決定された量子化器の第一の集合を使うよう構成されていてもよい。さらに、スペクトル・デコーダは、集合基準rfuが前記所定の閾値以上であれば、あらかじめ決定された量子化器の第二の集合を使うよう構成されていてもよい。集合基準はrfu=min(1,max(g,0))であってもよく、ここで、予測器利得はgである。この集合基準rfuは、0以上1以下の値を取る。所定の閾値は0.75であってもよい。
上記で示したように、集合基準は所定の制御パラメータrfuに依存してもよい。ある代替例では、制御パラメータrfuは、次の条件を使って決定されてもよい:g<−1.0についてはrfu=1.0;−1.0≦g<0.0についてはrfu=−g;0.0≦g<1.0についてはrfu=g;1.0≦g<2.0についてはrfu=2.0−g;および/またはg≧2.0についてはrfu=0.0。
さらに、発話デコーダは、推定された平坦化された変換係数の現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットを有していてもよい。さらに、発話デコーダは、現在のブロック包絡を使って、再構成された平坦化された変換係数の現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有していてもよい。再構成された変換係数の現在のブロックに基づいて(たとえば逆変換ユニットを使って)、再構成された発話信号が決定されてもよい。
変換ベースの発話デコーダは、逆スケーリング規則を使って、量子化された予測誤差係数の現在のブロックの量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有していてもよい。逆スケーリング規則に従って逆スケーリング・ユニットによって前記量子化された予測誤差係数に適用されるスケーリング利得は、それぞれの量子化された予測誤差係数の周波数ビンに依存してもよい。換言すれば、逆スケーリング規則は周波数依存であってもよい。すなわち、スケーリング利得は周波数に依存してもよい。逆スケーリング規則は、種々の周波数ビンについての量子化された予測誤差係数の分散を調整するよう構成されていてもよい。
逆スケーリング規則は典型的には、対応する変換ベースの発話エンコーダのスケーリング・ユニットによって適用されるスケーリング規則の逆である。よって、本稿でスケーリング規則の決定および属性に関して述べた諸側面は、逆スケーリング規則にも(類似の仕方で)適用可能である。
その際、前記加算ユニットは、再スケーリングされた予測誤差係数の現在のブロックを、推定された平坦化された変換係数の現在のブロックに加えることによって、再構成された平坦化された変換係数の現在のブロックを決定するよう構成されていてもよい。
前記一つまたは複数の制御パラメータは分散保存フラグを含んでいてもよい。分散保存フラグは、量子化された予測誤差係数の現在のブロックの分散がどのように整形されるべきかを示してもよい。換言すれば、分散保存フラグは、量子化された予測誤差係数の現在のブロックの分散に影響をもつ、デコーダによって実行されるべき処理を示していてもよい。
例として、前記一組のあらかじめ決定された量子化器は、分散保存フラグに依存して決定されてもよい。特に、前記一組のあらかじめ決定された量子化器はノイズ合成量子化器を含んでいてもよい。このノイズ合成量子化器のノイズ利得が、分散保存フラグに依存してもよい。代替的または追加的に、前記一組のあらかじめ決定された量子化器はあるSNR範囲をカバーする一つまたは複数のディザリングされる量子化器を含む。SNR範囲は、分散保存フラグに依存して決定されてもよい。前記一つまたは複数のディザリングされる量子化器の少なくとも一つは、量子化された予測誤差係数を決定するときに、事後利得γを適用するよう構成されていてもよい。事後利得γは、分散保存フラグに依存してもよい。変換ベースの発話デコーダは、量子化された予測誤差係数の現在のブロックの量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有していてもよい。前記加算ユニットは、分散保存フラグに依存して、推定された平坦化された変換係数の現在のブロックに対して、再スケーリングされた予測誤差係数の現在のブロックを加えることによって、あるいは量子化された予測誤差係数の現在のブロックを加えることによって、再構成された平坦化された変換係数の現在のブロックを決定するよう構成されていてもよい。
分散保存フラグは、量子化器のノイズ性(noisiness)の度合いを予測の品質に適応させるために使われてもよい。この結果として、コーデックの知覚的品質が改善されうる。
もう一つの側面によれば、変換ベースのオーディオ・エンコーダが記述される。本オーディオ・エンコーダは、第一のセグメント(たとえば発話セグメント)を含むオーディオ信号をビットストリームにエンコードするよう構成される。特に、本オーディオ・エンコーダは、オーディオ信号の一つまたは複数の発話セグメントを、変換ベースの発話エンコーダを使ってエンコードするよう構成されていてもよい。さらに、本オーディオ・エンコーダは、オーディオ信号の一つまたは複数の非発話セグメントを、一般的な変換ベースのオーディオ・エンコーダを使ってエンコードするよう構成されていてもよい。
本オーディオ・エンコーダは、オーディオ信号から前記第一のセグメント(たとえば発話セグメント)を識別するよう構成された信号分類器を有していてもよい。より一般的な表現では、信号分類器は、オーディオ信号から、変換ベースの発話エンコーダによってエンコードされるべきセグメントを決定するよう構成されていてもよい。決定された第一のセグメントは、(該セグメントは必ずしも実際の発話を含んでいなくてもよいのではあるが)発話セグメントと称されてもよい。特に、信号分類器は、オーディオ信号の種々のセグメント(たとえばフレームまたはブロック)を発話または非発話に分類するよう構成されていてもよい。
上記で概説したように、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含んでいてもよい。さらに、オーディオ・エンコーダは、前記第一のセグメントに基づいて変換係数の複数の逐次的なブロックを決定するよう構成された変換ユニットを有していてもよい。変換ユニットは、発話セグメントおよび非発話セグメントを変換するよう構成されていてもよい。
変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。特に、サンプルの第一の数は1024であってもよく、サンプルの第二の数は256であってもよい。前記複数の逐次的なブロックの諸ブロックは、短ブロックであってもよい。特に、オーディオ・エンコーダは、オーディオ信号の、発話に分類されたすべてのセグメントを短ブロックに変換するよう構成されていてもよい。
さらに、オーディオ・エンコーダは、前記複数の逐次的なブロックをビットストリームにエンコードするよう構成された(本稿で記載されるような)変換ベースの発話エンコーダを有していてもよい。さらに、オーディオ・エンコーダは、オーディオ信号の前記第一のセグメント以外のセグメント(たとえば非発話セグメント)をエンコードするよう構成された一般的な変換ベースのオーディオ・エンコーダを有していてもよい。一般的な変換ベースのオーディオ・エンコーダは、AAC(Advanced Audio Coder[先進オーディオ符号化器])またはHE(High Efficiency[高効率])-AACエンコーダであってもよい。すでに上記で概説したように、変換ユニットはMDCTを実行するよう構成されていてもよい。よって、オーディオ・エンコーダは、(発話セグメントおよび非発話セグメントを含む)完全な入力オーディオ信号を変換領域で(単一の変換ユニットを使って)エンコードするよう構成されていてもよい。
もう一つの側面によれば、発話セグメント(すなわち、変換ベースの発話エンコーダを使ってエンコードされたセグメント)を含むオーディオ信号を示すビットストリームをデコードするよう構成された対応する変換ベースのオーディオ・デコーダが記述される。本オーディオ・デコーダは、ビットストリームに含まれるデータ(たとえば包絡データ、利得データ、予測器データおよび係数データ)に基づいて、再構成された変換係数の複数の逐次的なブロックを決定するよう構成された変換ベースの発話デコーダを有していてもよい。さらに、ビットストリームは、受領されたデータが発話デコーダを使ってデコードされることを示してもよい。
さらに、オーディオ・デコーダは、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定するよう構成された逆変換ユニットを有していてもよい。再構成された変換係数のブロックは、対応する複数の周波数ビンについて複数の再構成された変換係数を含んでいてもよい。逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。前記複数の逐次的なブロックの諸ブロックは短ブロックであってもよい。
あるさらなる側面によれば、発話信号をビットストリームにエンコードする方法が記述される。本方法は、一組のブロックを受領することを含んでいてもよい。前記一組のブロックは、変換係数の複数の逐次的なブロックを含んでいてもよい。前記複数の逐次的なブロックは、発話信号のサンプルを示していてもよい。さらに、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含んでいてもよい。本方法は、変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定することにおいて進んでもよい。現在の包絡は、対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示してもよい。さらに、本方法は、現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定することを含んでいてもよい。さらに、本方法は、それぞれ対応する複数の補間された包絡を使って変換係数の対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定することを含んでいてもよい。ビットストリームは、平坦化された変換係数の前記複数のブロックに基づいて決定されてもよい。
もう一つの側面によれば、ビットストリームをデコードして再構成された発話信号を提供する方法が記述される。本方法は、ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定することを含んでいてもよい。量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示していてもよい。ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータ(たとえば前記係数データおよび/または予測器データ)を含んでいてもよい。再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含んでいてもよい。さらに、本方法は、量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定することを含んでいてもよい。本方法は、それぞれ対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定することにおいて進んでもよい。再構成される発話信号は、再構成された変換係数の前記複数のブロックに基づいていてもよい。
もう一つの側面によれば、発話信号をビットストリームにエンコードする方法が記述される。本方法は、現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領することを含んでいてもよい。前記複数の逐次的なブロックは発話信号のサンプルを示している。本方法は、それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の対応する現在のブロックおよび一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定することにおいて進んでもよい。
さらに、本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定することを含んでいてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものであってもよい。推定された平坦化された変換係数の現在のブロックを決定するステップは、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し、推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定することを含んでいてもよい。
さらに、本方法は、平坦化された変換係数の現在のブロックに基づいて、かつ推定された平坦化された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定することを含んでいてもよい。ビットストリームは、予測誤差係数の現在のブロックに基づいて決定されてもよい。
あるさらなる側面によれば、ビットストリームをデコードして、再構成された発話信号を提供する方法が記載される。本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリームから導出される予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定することを含んでいてもよい。推定された平坦化された変換係数の現在のブロックを決定するステップは、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し;推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含んでいてもよい。
さらに、本方法は、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定することを含んでいてもよい。本方法は、推定された平坦化された変換係数の現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定することにおいて進んでもよい。再構成された変換係数の現在のブロックが、現在のブロック包絡(たとえば現在の調整された包絡)を使って、再構成された平坦化された変換係数の現在のブロックにスペクトル形状を与えることによって決定されてもよい。さらに、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ前記一つまたは複数の以前のブロック包絡(たとえば前記一つまたは複数の以前の調整された包絡)を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、決定されてもよい。さらに、本方法は、再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、再構成された発話信号を決定することを含んでいてもよい。
あるさらなる側面によれば、発話信号をビットストリームにエンコードする方法が記述される。本方法は、現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領することを含んでいてもよい。前記複数の逐次的なブロックは発話信号のサンプルを示していてもよい。
さらに、本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定することを含んでいてもよい。再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものであってもよい。本方法は、変換係数の現在のブロックに基づいて、かつ推定された変換係数の現在のブロックに基づいて、予測誤差係数の現在のブロックを決定することにおいて進んでもよい。
さらに、本方法は、一組のあらかじめ決定された量子化器を使って、予測誤差係数の現在のブロックから導出される係数を量子化することを含んでいてもよい。前記一組のあらかじめ決定された量子化器は、前記予測器パラメータに依存していてもよい。さらに、本方法は、量子化された係数に基づいてビットストリームについての係数データを決定することを含んでいてもよい。
もう一つの側面によれば、ビットストリームをデコードして、再構成された発話信号を提供する方法が記載される。本方法は、再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつビットストリームから導出される予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定することを含んでいてもよい。さらに、本方法は、一組のあらかじめ決定された量子化器を使って、ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定することを含んでいてもよい。前記一組のあらかじめ決定された量子化器は、前記予測器パラメータの関数であってもよい。本方法は、推定された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の現在のブロックに基づいて、再構成された変換係数の現在のブロックを決定することにおいて進んでもよい。再構成された発話信号は、再構成された変換係数の現在のブロックに基づいて決定されてもよい。
あるさらなる側面によれば、発話セグメントを含むオーディオ信号をビットストリームにエンコードする方法が記述される。本方法は、オーディオ信号から前記発話セグメントを識別することを含んでいてもよい。さらに、本方法は、変換ユニットを使って、前記発話セグメントに基づいて変換係数の複数の逐次的なブロックを決定することを含んでいてもよい。変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。前記複数の逐次的なブロックの諸ブロックは、短ブロックであってもよい。さらに、本方法は、前記複数の逐次的なブロックをビットストリームにエンコードすることを含んでいてもよい。
もう一つの側面によれば、発話セグメントを含むオーディオ信号を示すビットストリームをデコードする方法が記述される。本方法は、ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定することを含んでいてもよい。さらに、本方法は、逆変換ユニットを使って、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定することを含んでいてもよい。逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されていてもよい。サンプルの第一の数はサンプルの第二の数より大きくてもよい。前記複数の逐次的なブロックの諸ブロックは短ブロックであってもよい。
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために、かつ該プロセッサによって実行されたときに本稿において概説される方法段階を実行するために適応されていてもよい。
もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のために、かつ該プロセッサによって実行されたときに本稿において概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。
さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿において概説される方法段階を実行するための実行可能命令を含んでいてもよい。
本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独で、あるいは本稿に開示される他の方法およびシステムとの組み合わせで使われてもよいことを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、さまざまな仕方で組み合わされうる。特に、請求項の特徴は、任意の仕方で互いに組み合わされうる。
本発明は、付属の図面を参照して例示的な仕方で下記に説明される
一定ビットレートでビットストリームを提供する例示的なオーディオ・エンコーダのブロック図である。 可変ビットレートでビットストリームを提供する例示的なオーディオ・エンコーダのブロック図である。 変換係数の複数のブロックに基づく例示的な包絡の生成を示す図である。 変換係数のブロックの例示的な包絡を示す図である。 例示的な補間された包絡の決定を示す図である。 量子化器の例示的な諸集合を示す図である。 例示的なオーディオ・デコーダのブロック図である。 図5aのオーディオ・デコーダの例示的な包絡デコーダのブロック図である。 図5aのオーディオ・デコーダの例示的なサブバンド予測器のブロック図である。 図5aのオーディオ・デコーダの例示的なスペクトル・デコーダのブロック図である。
背景セクションにおいて概説したように、発話または声信号について相対的に高い符号化利得を示す変換ベースのオーディオ・コーデックを提供することが望ましい。そのような変換ベースのオーディオ・コーデックは、変換ベースの発話コーデックまたは変換ベースの声コーデックと称されてもよい。変換ベースの発話コーデックは、やはり変換領域で動作するので、AACまたはHE-AACのような一般的な変換ベースのオーディオ・コーデックと便利に組み合わされうる。さらに、入力オーディオ信号のセグメント(たとえばフレーム)の発話または非発話への分類およびその後の一般的オーディオ・コーデックと特定的発話コーデックとの間の切り換えは、両方のコーデックが変換領域で動作するという事実のため、簡略化されうる。
図1aは、例示的な変換ベースの発話エンコーダ100のブロック図を示している。エンコーダ100は、入力として、変換係数のブロック131(符号化単位とも称される)を受領する。変換係数のブロック131は、入力オーディオ信号のサンプルのシーケンスを時間領域から変換領域に変換するよう構成された変換ユニットによって得られたものであってもよい。変換ユニットは、MDCTを実行するよう構成されていてもよい。変換ユニットは、AACまたはHE-AACのような一般的オーディオ・コーデックの一部であってもよい。そのような一般的オーディオ・コーデックは、異なるブロック・サイズ、たとえば長ブロックおよび短ブロックを利用してもよい。例示的なブロック・サイズは長ブロックについては1024サンプル、短ブロックについては256サンプルである。サンプリング・レート44.1kHzおよび50%の重複を想定すると、長ブロックは入力オーディオ信号の約20msをカバーし、短ブロックは入力オーディオ信号の約5msをカバーする。長ブロックは典型的には、入力オーディオ信号の静的セグメントのために使われ、短ブロックは典型的には入力オーディオ信号の過渡的セグメントのために使われる。
発話信号は、約20msの時間的セグメントにおいて静的であると考えられてもよい。特に、発話信号のスペクトル包絡は、約20msの時間的セグメントにおいて静的であると考えられてもよい。そのような20msセグメントについて変換領域において意味のある統計量を導出できるためには、変換ベースの発話エンコーダ100に、変換係数の(たとえば5msの長さをもつ)諸短ブロック131を提供することが有用でありうる。そうすることにより、複数の短ブロック131は、たとえば20msの時間セグメント(たとえば長ブロックまたはフレームの時間セグメント)に関して統計を導出するために使用されることができる。さらに、これは、発話信号について十分な時間分解能を提供する利点がある。
よって、変換ユニットは、入力オーディオ信号の現在セグメントが発話に分類される場合には、変換係数の短ブロック131を提供するよう構成されていてもよい。エンコーダ100は、ブロック131の集合132と称される変換係数の複数のブロック131を抽出するよう構成されたフレーミング・ユニット101を有していてもよい。ブロックの集合132はフレームと称されてもよい。例として、ブロック131の集合132は、256個の変換係数の四つの短ブロックを含んでいてもよく、それにより入力オーディオ信号の約20msのセグメントをカバーする。
変換ベースの発話エンコーダ100は複数の異なるモード、たとえば短ストライド・モードおよび長ストライド・モードで動作するよう構成されていてもよい。短ストライド・モードで動作させられるときは、変換ベースの発話エンコーダ100は、オーディオ信号(たとえば発話信号)のセグメントまたはフレームを、(上記で概説したような)短ブロック131の集合132に細分するよう構成されていてもよい。他方、長ストライド・モードで動作させられるときは、変換ベースの発話エンコーダ100は、オーディオ信号のセグメントまたはフレームを直接処理するよう構成されていてもよい。例として、短ストライド・モードで動作させられるときは、エンコーダ100はフレーム当たり四つのブロック131を処理するよう構成されていてもよい。エンコーダ100のフレームは、ビデオ・フレーム同期動作のある種のセッティングのために、物理的時間において比較的短くてもよい。これは、発話信号のセグメントまたはフレームの時間的長さの縮小につながる増大したビデオ・フレーム周波数(たとえば50Hzに対して100Hz)について当てはまる。そのような場合、フレームの複数の(短)ブロック131への細分は、変換領域における分解能低下のため、不都合であることがある。よって、フレーム当たり一つのブロック131のみを使うようにするために長ストライド・モードが使用されてもよい。フレーム当たり単一のブロック131の使用は、(比較的長いフレームについてでも)音楽を含むオーディオ信号をエンコードするためにも有益である。この恩恵は、フレーム当たり単一のブロック131のみを使うときまたはフレーム当たり低減した数のブロック131を使うときの、変換領域における分解能向上のためでありうる。
以下では、短ストライド・モードでのエンコーダ100の動作がさらに詳細に記述される。ブロックの集合132は、包絡推定ユニット102に提供されてもよい。包絡推定ユニット102は、ブロックの集合132に基づいて包絡133を決定するよう構成されていてもよい。包絡133は、ブロックの集合132内に含まれる複数のブロック131の対応する変換係数の二乗平均平方根(RMS)値に基づいていてもよい。ブロック131は典型的には、対応する複数の周波数ビン301(図3a参照)において複数の変換係数(たとえば256個の変換係数)を与える。複数の周波数ビン301は、複数の周波数帯域302にグループ化されてもよい。複数の周波数帯域302は、音響心理学的考察に基づいて選択されてもよい。例として、周波数ビン301は、対数スケールまたはバーク・スケールに従って周波数帯域302にグループ化されてもよい。ブロックの現在集合132に基づいて決定された包絡134は、それぞれ複数の周波数帯域302についての複数のエネルギー値を含んでいてもよい。特定の周波数帯域302についての特定のエネルギー値は、その特定の周波数帯302内にはいる周波数ビン301に対応する、集合132の諸ブロック131の変換係数に基づいて決定されてもよい。特定のエネルギー値は、これらの変換係数のRMS値に基づいて決定されてもよい。よって、ブロックの現在の集合132についての包絡133(現在の包絡133とも称される)は、ブロックの現在集合132内に含まれる変換係数の諸ブロック131の平均包絡を示してもよく、あるいは包絡133を決定するために使われる変換係数の諸ブロック132の平均包絡を示してもよい。
現在の包絡133が、ブロックの現在集合132に隣接する変換係数の一つまたは複数のさらなるブロック131に基づいて決定されてもよいことを注意しておくべきである。これは図2において示されている。そこでは、現在の包絡133(量子化された現在の包絡134によって示される)がブロックの現在集合132の諸ブロック131に基づき、かつブロックの現在集合132に先行するブロックの集合からのブロック201に基づいて決定される。図示した例では、現在の包絡133は、五つのブロック131に基づいて決定される。現在の包絡133を決定するときに隣接するブロックを考慮に入れることにより、ブロックの隣接する諸集合132の諸包絡の連続性が保証されうる。
現在の包絡133を決定するとき、異なるブロック131の変換係数が重み付けされてもよい。特に、現在の包絡133を決定するために考慮に入れられる最も外側のブロック201、202は、残りのブロック131より低い重みを有していてもよい。例として、最も外側のブロック201、202の変換係数は、0.5で重み付けされてもよく、他のブロック131の変換係数は1で重み付けされてもよい。
ブロックの先行する集合132の諸ブロック201を考慮するのと同様の仕方で、ブロックの直後の集合132の一つまたは複数のブロック(いわゆる先読みブロック)が、現在の包絡133を決定するために考慮されてもよいことを注意しておくべきである。
現在の包絡133のエネルギー値は、対数スケールで(たとえばdBスケールで)表わされてもよい。現在の包絡133は、現在の包絡133のエネルギー値を量子化するよう構成されている包絡量子化ユニット103に提供されてもよい。包絡量子化ユニット103は、所定の量子化器分解能、たとえば3dBの分解能を提供してもよい。包絡133の量子化インデックスは、エンコーダ100によって生成されたビットストリーム内の包絡データ161として提供されてもよい。さらに、量子化された包絡134、すなわち包絡133の量子化されたエネルギー値を有する包絡は、補間ユニット104に提供されてもよい。
補間ユニット104は、量子化された現在の包絡134に基づき、かつ量子化された以前の包絡135(ブロックの現在集合132の直前のブロックの集合132について決定されたもの)に基づいてブロックの現在の集合132の各ブロック131について包絡を決定するよう構成されている。補間ユニット104の動作は図2、図3aおよび図3bに示されている。図2は、変換係数の諸ブロック131のシーケンスを示している。ブロック131のシーケンスはブロックの相続く諸集合132にグループ化される。ここで、ブロックの各集合132は、量子化された包絡、たとえば量子化された現在の包絡134および量子化された以前の包絡135を決定するために使われる。図3aは、量子化された以前の包絡135および量子化された現在の包絡134の例を示している。上記で示したように、これらの包絡は、スペクトル・エネルギー303を(たとえばdBスケールで)示していてもよい。同じ周波数帯域302についての量子化された以前の包絡135および量子化された現在の包絡134の対応するエネルギー値303が(たとえば線形補間を使って)補間されて、補間された包絡136を決定してもよい。換言すれば、ある特定の周波数帯域302の諸エネルギー値303が補間されて、その特定の周波数帯域302内の補間された包絡136のエネルギー値303を提供してもよい。
補間された包絡136が決定され、適用されるブロックの集合は、量子化された現在の包絡134が決定されるもとになったブロックの現在の集合132とは異なることがあることを注意しておくべきである。これは図2に示されている。図2は、ブロックのシフトされた集合332を示している。これは、ブロックの現在の集合132に比してシフトされており、ブロックの以前の集合132のブロック3および4(それぞれ参照符号203および201によって示されている)およびブロックの現在の集合132のブロック1および2(それぞれ参照符号204および205によって示されている)を含む。実のところ、量子化された現在の包絡134に基づき、かつ量子化された以前の包絡135に基づいて決定された補間された包絡136は、ブロックの現在の集合132のブロックについての関連性に比べ、ブロックのシフトされた集合332のブロックについて増大した関連性を有することがある。
よって、図3bに示される補間された包絡が、ブロックのシフトされた集合332のブロック131を平坦化するために使われてもよい。これは、図2と組み合わせて図3bによって示されている。図3bの補間された包絡341が図2のブロック203に適用されてもよいこと、図3bの補間された包絡342が図2のブロック201に適用されてもよいこと、図3bの補間された包絡343が図2のブロック204に適用されてもよいこと、図3bの補間された包絡344(図示した例ではこれは量子化された現在の包絡136に対応)が図2のブロック205に適用されてもよいこと、が見て取れる。よって、量子化された現在の包絡134を決定するためのブロックの集合132は、補間された包絡136がそれについて決定され、補間された包絡136が(平坦化のために)それに適用されるところのブロックのシフトされた集合332とは異なることがある。特に、量子化された現在の包絡134は、ブロックのシフトされた集合332のブロック203、201、204、205に関してある種の先読みを使って決定されてもよい。これらのブロックは、量子化された現在の包絡134を使って平坦化される。これは、連続性の観点から有益である。
補間された包絡136を決定するためのエネルギー値303の補間は、図3bに示される。量子化された以前の包絡135のエネルギー値から量子化された現在の包絡134の対応するエネルギー値の間の補間により、補間された包絡136のエネルギー値が、ブロックのシフトされた集合332の諸ブロック131について決定されうることが見て取れる。特に、シフトされた集合332の各ブロック131について、補間された包絡136が決定されてもよく、それによりブロックのシフトされた集合332の複数のブロック203、201、204、205について複数の補間された包絡136を提供する。変換係数のあるブロック131(たとえば、ブロックのシフトされた集合332のブロック203、201、204、205のうちの任意のもの)の補間された包絡136は、変換係数のブロック131をエンコードするために使われてもよい。現在の包絡133の量子化インデックス161がビットストリーム内の対応するデコーダに提供されることを注意しておくべきである。結果として、対応するデコーダは、エンコーダ100の補間ユニット104と類似の仕方で前記複数の補間された包絡136を決定するよう構成されていてもよい。
フレーミング・ユニット101、包絡推定ユニット103、包絡量子化ユニット103および補間ユニット104はブロックの集合(すなわち、ブロックの現在の集合132および/またはブロックのシフトされた集合332)に対して動作する。他方、変換係数の実際のエンコードはブロックごとに実行されてもよい。以下では、ブロックのシフトされた集合332(または変換ベースの発話エンコーダ100の他の実装において可能性としてはブロックの現在の集合132)の複数のブロック131のうちの任意のものであってよい変換係数の現在ブロック131のエンコードが参照される。
さらに、エンコーダ100はいわゆる長ストライド・モードにおいて動作させられてもよいことを注意しておくべきである。このモードでは、オーディオ信号のセグメントのフレームは、細分されず、単一のブロックとして処理される。よって、フレーム当たり、変換係数の単一のブロック131だけが決定される。長ストライド・モードで動作するときは、フレーミング・ユニット101は、オーディオ信号のセグメントまたはフレームについて変換係数の単一の現在のブロック131を抽出するよう構成されていてもよい。包絡推定ユニット102は、現在のブロック131について現在の包絡133を決定するよう構成されていてもよく、包絡量子化ユニット103は、単一の現在の包絡133を量子化して量子化された現在の包絡134を決定する(そして現在のブロック131についての包絡データ161を決定する)よう構成されていてもよい。長ストライド・モードにあるときは、包絡補間は典型的には無用である。よって、現在のブロック131についての補間された包絡136は典型的には量子化された現在の包絡134に対応する(エンコーダ100が長ストライド・モードで動作させられるとき)。
現在ブロック131についての現在の補間された包絡136は、現在ブロック131の変換係数のスペクトル包絡の近似を提供してもよい。エンコーダ100は、事前平坦化ユニット105および包絡利得決定ユニット106を有していてもよい。これらは、現在の補間された包絡136に基づき、かつ現在ブロック131に基づいて、現在ブロック131についての調整された包絡139を決定するよう構成される。特に、現在ブロック131の平坦化された変換係数の分散が調整されるよう、現在ブロック131についての包絡利得が決定されてもよい。X(k)、k=1,…,Kは現在ブロック131の変換係数であってもよく(たとえばK=256)、E(k)、k=1,…,Kは現在の補間された包絡136の平均スペクトル・エネルギー値303であってもよい(同じ周波数帯域302のエネルギー値E(k)は等しい)。包絡利得aは、平坦化された変換係数
Figure 2016514857
の分散が調整されるよう決定されてもよい。特に、包絡利得aは分散が1になるよう決定されてもよい。
包絡利得aが、変換係数の現在ブロック131の完全な周波数範囲のサブ範囲について決定されてもよいことを注意しておくべきである。換言すれば、包絡利得aは、周波数ビン301の部分集合のみに基づいておよび/または周波数帯域302の部分集合のみに基づいて決定されてもよい。例として、包絡利得aは、開始周波数ビン304(開始周波数ビンは0または1より大きい)より大きい諸周波数ビン301に基づいて決定されてもよい。結果として、現在ブロック131についての調整された包絡139は、包絡利得aを、開始周波数ビン304より上にある諸周波数ビン301に関連付けられた現在の補間された包絡136の平均スペクトル・エネルギー値303にのみ適用することによって決定されてもよい。よって、現在のブロック131についての調整された包絡139は、開始周波数ビン以下の諸周波数ビン301については現在の補間された包絡136に対応してもよく、開始周波数より上の諸周波数ビン301については現在の補間された包絡136を包絡利得aによりオフセットしたものに対応してもよい。これは、調整された包絡339によって図3aに示されている(破線で示す)。
包絡利得a 137(レベル補正利得とも称される)の、現在の補間された包絡136への適用は、現在の補間された包絡136の調整またはオフセットに対応し、それにより図3aに示されるように調整された包絡139が与えられる。包絡利得a 137は、利得データ162として、ビットストリーム中にエンコードされてもよい。
エンコーダ100はさらに、包絡利得a 137に基づき、かつ現在の補間された包絡136に基づいて、調整された包絡139を決定するよう構成される包絡洗練ユニット107を有していてもよい。調整された包絡139は、変換係数のブロック131の信号処理のために使われてもよい。包絡利得a 137は、(3dBのきざみで量子化されていてもよい)現在の補間された包絡136に比べ、より高い分解能に(たとえば1dBきざみで)量子化されてもよい。よって、調整された包絡139は、包絡利得a 137の前記より高い分解能まで(たとえば、1dBきざみで)量子化されてもよい。
さらに、包絡洗練ユニット107は、割り当て包絡138を決定するよう構成されていてもよい。割り当て包絡138は、調整された包絡139の量子化されたバージョン(たとえば3dB量子化レベルまで量子化)に対応してもよい。割り当て包絡138は、ビット割り当て目的のために使われてもよい。特に、割り当て包絡138は、――現在ブロック131のある特定の変換係数について――所定の一組の量子化器からある特定の量子化器を決定するために使われてもよい。ここで、前記特定の量子化器が、前記特定の変換係数を量子化するために使われる。
エンコーダ100は、調整された包絡139を使って現在ブロック131を平坦化し、それにより平坦化された変換係数のブロック140を与えるよう構成されている平坦化ユニット108を有する。平坦化された変換係数のブロック140は、変換領域内で予測ループを使ってエンコードされてもよい。よって、ブロック140は、サブバンド予測器117を使ってエンコードされてもよい。予測ループは、平坦化された変換係数
Figure 2016514857
のブロック140に基づき、かつ推定された変換係数
Figure 2016514857
のブロック150に基づき、予測誤差係数Δ(k)のブロック141を決定するよう構成された差分ユニット115を有する。たとえば、
Figure 2016514857
である。ブロック140が平坦化された変換係数、すなわち調整された包絡139のエネルギー値303を使って正規化または平坦化された変換係数を含むという事実のため、推定された変換係数のブロック150も平坦化された変換係数の推定値を含むことを注意しておくべきである。換言すれば、差分ユニット115はいわゆる平坦化領域(flattened domain)で動作する。結果として、予測誤差係数Δ(k)のブロック141は平坦化された領域で表わされる。
予測誤差係数Δ(k)のブロック141は、1とは異なる分散を示すことがある。エンコーダ100は、予測誤差係数Δ(k)を再スケーリングして、再スケーリングされた誤差係数のブロック142を与えるよう構成された再スケーリング・ユニット111を有していてもよい。再スケーリング・ユニット111は、再スケーリングを実行するために一つまたは複数の所定のヒューリスティック規則を利用してもよい。結果として、再スケーリングされた誤差係数のブロック142は、(予測誤差係数のブロック141に比べて)(平均で)1により近い分散を示す。これは、その後の量子化およびエンコードにとって有益であることがある。
エンコーダ100は、予測誤差係数のブロック141または再スケーリングされた誤差係数のブロック142を量子化するよう構成された係数量子化ユニット112を有する。係数量子化ユニット112は、一組の所定の量子化器を有していてもよく、あるいはそれを利用してもよい。前記一組の所定の量子化器は、異なる精密度または異なる分解能をもつ諸量子化器を提供してもよい。このことは、種々の量子化器321、322、323が示される図4に示されている。種々の量子化器は異なるレベルの精度(異なるdB値によって示される)を提供しうる。前記複数の量子化器321、322、323のうちの特定の量子化器が、割り当て包絡138の特定の値に対応してもよい。よって、割り当て包絡138のエネルギー値は、前記複数の量子化器の対応する量子化器をポイントしてもよい。よって、割り当て包絡138の決定は、ある特定の誤差係数について使われるべき量子化器の選択プロセスを簡略化しうる。換言すれば、割り当て包絡138はビット割り当てプロセスを簡略化しうる。
前記一組の量子化器は、量子化誤差をランダム化するためのディザリングを利用する一つまたは複数の量子化器322を有していてもよい。これは図4に示されている。この図は、ディザリングされる量子化器(dithered quantizer)の部分集合324を含む所定の量子化器の第一の集合326と、ディザリングされる量子化器の部分集合325を含む所定の量子化器の第二の集合327とを示している。よって、係数量子化ユニット112は、所定の量子化器の異なる集合326、327を利用しうる。ここで、係数量子化ユニット112によって使用される所定の量子化器の集合は、予測器117によって提供される制御パラメータ146に依存してもよい。特に、係数量子化ユニット112は、制御パラメータ146に基づいて、再スケーリングされた誤差係数のブロック142を量子化するための所定の量子化器の集合326、327を選択するよう構成されていてもよい。ここで、制御パラメータ146は、予測器117によって提供される一つまたは複数の予測器パラメータに依存してもよい。前記一つまたは複数の予測器パラメータは、予測器117によって提供される推定される変換係数のブロック150の品質を示してもよい。
量子化された誤差係数は、たとえばハフマン符号を使ってエントロピー符号化されてもよく、それによりエンコーダ100によって生成されるビットストリーム中に含められる係数データ163を与える。
エンコーダ100は、ビット割り当てプロセスを実行するよう構成されていてもよい。この目的のために、エンコーダ100は、ビット割り当てユニット109、110を有していてもよい。ビット割り当てユニット109は、再スケーリングされた誤差係数の現在ブロック142をエンコードするために利用可能である総ビット数143を決定するよう構成されていてもよい。総ビット数143は、割り当て包絡138に基づいて決定されてもよい。ビット割り当てユニット110は、割り当て包絡138における対応するエネルギー値に依存して、種々の再スケーリングされた誤差係数へのビットの相対的な割り当てを提供するよう構成されていてもよい。
ビット割り当てプロセスは、逐次反復的な割り当て手順を利用してもよい。割り当て手順の過程で、割り当て包絡138は、オフセット・パラメータを使ってオフセットされてもよい。それにより、増大/減少した分解能をもつ量子化器が選択される。よって、オフセット・パラメータは、全体的な量子化を洗練するまたは粗くするために使われてもよい。オフセット・パラメータは、オフセット・パラメータおよび割り当て包絡138によって与えられる量子化器を使って得られる係数データ163が、現在ブロック131に割り当てられた総ビット数143に対応する(またはそれを超えない)ビット数を含むように決定されてもよい。現在ブロック131をエンコードするためにエンコーダ100によって使われたオフセット・パラメータは、係数データ163としてビットストリーム中に含められる。結果として、対応するデコーダは、再スケーリングされた誤差係数のブロック142を量子化するために係数量子化ユニット112によって使用された量子化器を決定することができるようにされる。
再スケーリングされた誤差係数の量子化の結果として、量子化された誤差係数のブロック145が得られる。量子化された誤差係数のブロック145は、対応するデコーダにおいて利用可能な誤差係数のブロックに対応する。結果として、量子化された誤差係数のブロック145は推定された変換係数のブロック150を決定するために使用されうる。エンコーダ100は、再スケーリング・ユニット113によって実行された再スケーリング動作の逆を実行して、それによりスケーリングされた量子化された誤差係数のブロック147を与えるよう構成された逆再スケーリング・ユニット113を有していてもよい。推定された変換係数のブロック150をスケーリングされた量子化された誤差係数のブロック147に加えることによって、再構成された平坦化された係数のブロック148を決定するために、加算ユニット116が使われてもよい。さらに、再構成された平坦化された係数のブロック148に調整された包絡139を適用し、それにより再構成された係数のブロック149を与えるために、逆平坦化ユニット114が使われてもよい。再構成された係数のブロック149は、対応するデコードにおいて利用可能な変換係数のブロック131のバージョンに対応する。結果として、再構成された係数のブロック149は、予測器117において、推定された係数のブロック150を決定するために使われてもよい。
再構成された係数のブロック149は、平坦化されていない領域で表現されている。すなわち、再構成された係数のブロック149は、現在ブロック131のスペクトル包絡をも表わす。下記で概説するように、これは、予測器117のパフォーマンスにとって有益であることがある。
予測器117は、再構成された係数の一つまたは複数の以前のブロック149に基づいて、推定された変換係数のブロック150を推定するよう構成されていてもよい。特に、予測器117は、所定の予測誤差基準が低減される(たとえば最小化される)よう一つまたは複数の予測器パラメータを決定するよう構成されていてもよい。例として、前記一つまたは複数の予測器パラメータは、予測誤差係数のブロック141のエネルギーまたは知覚的に重み付けされたエネルギーが低減される(たとえば最小化される)よう決定されてもよい。前記一つまたは複数の予測器パラメータは、予測器データ164として、エンコーダ100によって生成されるビットストリーム中に含められてもよい。
予測器データ164は、前記一つまたは複数の予測器パラメータを示していてもよい。本稿で概説するように、予測器117は、オーディオ信号のフレームまたはブロック131の部分集合についてのみ使われてもよい。特に、予測器117は、典型的には以前のブロックとは独立してエンコードされるIフレーム(独立フレーム)の最初のブロック131については使われなくてもよい。これに加え、予測器データ164は、特定のブロック131についての予測器171の存在を示す一つまたは複数のフラグを含んでいてもよい。予測器の寄与が事実上有意でないブロックについては(たとえば、予測器利得が0に量子化されるとき)、予測器存在フラグを使ってこの状況を信号伝達することが有益であることがある。それが必要とするビット数は、典型的には、0利得を伝送するのに比べて、有意に低くなる。換言すれば、ブロック131についての予測器データ164は、一つまたは複数の予測器パラメータが決定されたか(そして予測器データ164に含まれているか)どうかを示す一つまたは複数の予測器存在フラグを含んでいてもよい。一つまたは複数の予測器存在フラグの使用は、特定のブロック131について予測器117が使われない場合にビットを節約するために使用されうる。よって、予測器117を使わずにエンコードされるブロック131の数に依存して、一つまたは複数の予測器存在フラグの使用は、デフォルトの(たとえば値0の)予測器パラメータの伝送より、(平均では)ビットレート効率がよいことがある。
予測器117の存在は、ブロック毎に明示的に伝送されてもよい。これは、予測器が使われないときにビットを節約することを許容する。例として、Iフレームについては、三つの予測器存在フラグだけが使用されうる。Iフレームの最初のブロックは予測を使うことができないからである。換言すれば、特定のブロック131がIフレームの最初のブロックであることがわかっていれば、この特定のブロック131について予測器存在フラグが伝送される必要はないことがある(その特定のブロック131が予測器117を利用しないことが対応するデコーダにすでにわかっているので)。
予測器117は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において記述されているような信号モデルを利用してもよい。前記一つまたは複数の予測器パラメータは、信号モデルの一つまたは複数のモデル・パラメータに対応してもよい。
図1bは、さらなる例示的な変換ベースの発話エンコーダ170のブロック図を示している。図1bの変換ベースの発話エンコーダ170は、図1aのエンコーダ100のコンポーネントの多くを有するが、図1bの変換ベースの発話エンコーダ170は可変ビットレートをもつビットストリームを生成するよう構成されている。この目的のために、エンコーダ170は、先行する諸ブロック131のためにビットストリームによってすでに使用されたビットレートを追跡するよう構成された平均ビットレート(ABR: Average Bit Rate)状態ユニット172を有する。ビット割り当てユニット171は、変換係数の現在ブロック131をエンコードするために利用可能な総ビット数143を決定するためにこの情報を使う。
全体的に、変換ベースの発話エンコーダ100、170は、以下を示すまたは以下を含むビットストリームを生成するよう構成される。
・量子化された現在の包絡134を示す包絡データ161。量子化された現在の包絡134は、変換係数のブロックの現在の集合132またはシフトされた集合332の諸ブロックの包絡を記述するために使われる。
・変換係数の現在ブロック131の補間された包絡136を調整するためのレベル補正利得aを示す利得データ162。典型的には、ブロックの現在の集合132またはシフトされた集合332の各ブロック131について異なる利得aが提供される。
・現在ブロック131についての予測誤差係数のブロック141を示す係数データ163。特に、係数データ163は、量子化された誤差係数のブロック145を示す。さらに、係数データ163は、デコーダにおいて逆量子化を実行するための量子化器を決定するために使われてもよいオフセット・パラメータを示してもよい。
・再構成された係数の以前のブロック149から、推定された係数のブロック150を決定するために使われるべき一つまたは複数の予測器係数を示す予測器データ164。
以下では、対応する変換ベースの発話デコーダ500が図5aないし5dのコンテキストにおいて記述される。図5aは、例示的な変換ベースの発話デコーダ500のブロック図を示している。ブロック図は、再構成された係数のブロック149を変換領域から時間領域に変換し、それによりデコードされたオーディオ信号のサンプルを与えるために使われる合成フィルタバンク504(逆変換ユニットとも称される)を示している。合成フィルタバンク504は、所定のストライド(たとえば、約5msまたは256サンプルのストライド)をもつ逆MDCTを利用してもよい。
デコーダ500の主ループは、このストライドの単位で動作する。各ステップは、システムの所定の帯域幅設定に対応する長さまたは次元をもつ変換領域ベクトル(ブロックとも称される)を生成する。合成フィルタバンク504の変換サイズにするゼロ・パディングに際し、変換領域ベクトルは、合成フィルタバンク504の重複/加算プロセスへの所定の長さ(たとえば5ms)の時間領域信号更新を合成するために使われる。
上記で示したように、一般的な変換ベースのオーディオ・コーデックは、典型的には、過渡成分の扱いのための5ms範囲の短ブロックのシーケンスをもつ諸フレームを用いる。よって、一般的な変換ベースのオーディオ・コーデックは、短ブロックおよび長ブロックのシームレスな共存のための必要な変換および窓切り換えツールを提供する。したがって、図5aの合成フィルタバンク504を省略することによって定義される声スペクトル・フロントエンドは、追加的な切り換えツールを導入する必要なしに、汎用の変換ベースのオーディオ・コーデックに便利に統合されうる。換言すれば、図5aの変換ベースの発話デコーダ500は、一般的な変換ベースのオーディオ・デコーダと便利に組み合わされてもよい。特に、図5aの変換ベースの発話デコーダ500は、一般的な変換ベースのオーディオ・デコーダ(たとえばAACまたはHE-AACデコーダ)によって提供される合成フィルタバンク504を利用してもよい。
はいってくるビットストリームから(特にビットストリーム内に含まれる包絡データ161からおよび利得データ162から)、包絡デコーダ503によって、信号包絡が決定されてもよい。特に、包絡デコーダ503は、包絡データ161および利得データ162に基づいて、調整された包絡139を決定するよう構成されてもよい。よって、包絡デコーダ503は、エンコーダ100、170の補間ユニット104および包絡洗練ユニット107と同様のタスクを実行してもよい。上記で概説したように、調整された包絡109は、あらかじめ定義された周波数帯域302の集合における信号分散のモデルを表わす。
さらに、デコーダ500は、調整された包絡139を、名目上分散1であってもよい要素をもつ平坦化領域ベクトルに適用するよう構成されている逆平坦化ユニット114を有する。平坦化領域ベクトルは、エンコーダ100、170のコンテキストにおいて記述された再構成された平坦化された係数のブロック148に対応する。逆平坦化ユニット114の出力において、再構成された係数のブロック149が得られる。再構成された係数のブロック149は、(デコードされたオーディオ信号を生成するための)合成フィルタバンク504およびサブバンド予測器517に与えられる。
サブバンド予測器517は、エンコーダ100、170の予測器117と同様の仕方で動作する。特に、サブバンド予測器517は、(ビットストリーム内で信号伝達される前記一つまたは複数の予測器パラメータを使って)再構成された係数の一つまたは複数の以前のブロック149に基づいて、(平坦化された領域における)推定された変換係数のブロック150を決定するよう構成されている。換言すれば、サブバンド予測器517は、予測器ラグ〔予測器遅延〕および予測器利得のような予測器パラメータに基づいて、以前にデコードされた出力ベクトルおよび信号包絡のバッファから、予測された平坦化領域ベクトルを出力するよう構成されている。デコーダ500は、予想器データ164をデコードして前記一つまたは複数の予測器パラメータを決定するよう構成された予測器デコーダ501を有する。
デコーダ500はさらに、典型的にはビットストリームの最大の部分に基づいて(すなわち、係数データ163に基づいて)予測された平坦化領域ベクトルに加算的補正を備えるよう構成されているスペクトル・デコーダ502を有する。スペクトル・デコード・プロセスは、前記包絡および伝送された割り当て制御パラメータ(オフセット・パラメータとも称される)から導出される割り当てベクトルによって主として制御される。図5aに示されるように、スペクトル・デコーダ502の予測器パラメータ520への直接的な依存性があってもよい。よって、スペクトル・デコーダ502は、受領された係数データ163に基づいて、スケーリングされた量子化された誤差係数のブロック147を決定するよう構成されていてもよい。エンコーダ100、170のコンテキストで概説したように、再スケーリングされた誤差係数のブロック142を量子化するために使われる量子化器321、322、323は、典型的には、割り当て包絡138(これは調整された包絡139から導出できる)およびオフセット・パラメータに依存する。さらに、量子化器321、322、323は、予測器117によって提供される制御パラメータ146に依存してもよい。制御パラメータ146は、(エンコーダ100、170と類似の仕方で)予測器パラメータ520を使ってデコーダ500によって導出されてもよい。
上記で示したように、受領されるビットストリームは、包絡データ161および利得データ162を含み、これは調整された包絡139を決定するために使用されうる。特に、包絡デコーダ503のユニット531は、包絡データ161から、量子化された現在の包絡134を決定するよう構成されていてもよい。例として、量子化された現在の包絡134は、(図3aに示されるように)あらかじめ定義された周波数帯域302における3dBの分解能を有していてもよい。量子化された現在の包絡134は、ブロックの集合132、332毎に(たとえば四つの符号化単位、すなわちブロック毎に、あるいは20ms毎に)、特にブロックのシフトされた集合332毎に更新されてもよい。量子化された現在の包絡134の周波数帯域302は、人間の聴覚の属性に適合するために、周波数の関数として、周波数ビン301の増大する数を有していてもよい。
量子化された現在の包絡134は、ブロックのシフトされた集合332の(あるいは可能性としてはブロックの現在の集合132の)各ブロック131について、量子化された以前の包絡135から、補間された包絡136に、線形に補間されてもよい。補間された包絡136は、量子化された3dB領域で決定されてもよい。これは、補間されたエネルギー値303が最も近い3dBレベルに丸められてもよいことを意味する。例示的な補間された包絡136は図3aの点線のグラフによって示されている。各量子化された現在の包絡134について、四つのレベル補正利得a 137(包絡利得とも称される)が利得データ162として提供される。利得デコード・ユニット532は、利得データ162からレベル補正利得a 137を決定するよう構成されていてもよい。レベル補正利得は、1dBきざみで量子化されてもよい。各レベル補正利得は、種々のブロック131について調整された包絡139を提供するために対応する補間された包絡136に適用される。レベル補正利得137の増大した分解能のため、調整された包絡139は増大した分解能(たとえば1dB分解能)をもつことがある。
図3bは、量子化された以前の包絡135と量子化された現在の包絡134との間の例示的な線形または幾何的補間を示している。包絡135、134は、対数スペクトルの平均レベル部分および形状部分に分離されてもよい。これらの部分は、線形、幾何的または調和的(並列な抵抗器)戦略のような独立な戦略を用いて補間されてもよい。よって、補間された包絡136を決定するために種々の補間方式が使用されうる。デコーダ500によって使われる補間方式は典型的には、エンコーダ100、170によって使われた補間方式に対応する。
包絡デコーダ503の包絡洗練ユニット107は、調整された包絡139を(たとえば3dBきざみに)量子化することによって、調整された包絡139から割り当て包絡138を決定するよう構成されていてもよい。割り当て包絡138は、割り当て制御パラメータまたはオフセット・パラメータ(係数データ163内に含まれる)との関連で使われて、スペクトル・デコード、すなわち係数データ163のデコードを制御するために使用される名目整数割り当てベクトルを生成してもよい。特に、名目整数割り当てベクトルは、係数データ163内に含まれる量子化インデックスを逆量子化するための量子化器を決定するために使われてもよい。割り当て包絡138および名目整数割り当てベクトルは、エンコーダ100、170においてとデコーダ500においてとで類似の仕方で決定されてもよい。
デコーダ500が受領されたビットストリームと同期できるようにするために、種々の型のフレームが伝送されうる。フレームは、ブロックの集合132、332、特にブロックのシフトされたブロック332に対応しうる。特に、以前のフレームに対して相対的な仕方でエンコードされる、いわゆるPフレームが伝送されてもよい。上記において、デコーダ500は量子化された以前の包絡135を知っていることが想定された。量子化された以前の包絡135は以前のフレーム内で与えられてもよく、よって、現在の集合132または対応するシフトされた集合332がPフレームに対応しうる。しかしながら、スタートアップ・シナリオでは、デコーダ500は典型的には量子化された以前の包絡135を知らない。この目的のために、(たとえばスタートアップ時にまたは定期的に)Iフレームが伝送されてもよい。Iフレームは二つの包絡を含んでいてもよく、その一方が量子化された以前の包絡135として使われ、他方が量子化された現在の包絡134として使われる。Iフレームは、声スペクトル・フロントエンドの(すなわち、変換ベースの発話デコーダ500の)スタートアップの場合のために、たとえば異なるオーディオ符号化モードを用いるフレームに続くときに、および/またはオーディオ・ビットストリームの接合点を明示的に可能にするためのツールとして、使われてもよい。
サブバンド予測器517の動作が図5dに示されている。図示した例では、予測器パラメータ520はラグ・パラメータおよび予測器利得パラメータgである。予測器パラメータ520は、ラグ・パラメータおよび予測器利得パラメータについての可能な値の所定のテーブルを使って、予測器データ164から決定されてもよい。これは、予測器パラメータ520のビットレート効率のよい伝送を可能にする。
前記一つまたは複数の以前にデコードされた変換係数ベクトル(すなわち、再構成された係数の前記一つまたは複数の以前のブロック149)は、サブバンド(またはMDCT)信号バッファ541内に記憶されてもよい。バッファ541は、ストライドに従って(たとえば5ms毎に)更新されてもよい。予測器抽出器543は、規格化されたラグ・パラメータTに依存してバッファ541に対して作用するよう構成されていてもよい。規格化されたラグ・パラメータTは、ラグ・パラメータ520をストライド単位に(たとえばMDCTストライド単位に)規格化することによって決定されてもよい。ラグ・パラメータTが整数であれば、抽出器543は、T時間単位バッファ541にはいったところの一つまたは複数の以前にデコードされた変換係数ベクトルを取ってきてもよい。換言すれば、ラグ・パラメータTは、再構成された係数の前記一つまたは複数の以前のブロック149のうちのどれが推定される変換係数のブロック150を決定するために使われるかを示してもよい。抽出器543の可能な実装に関する詳細な議論は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において提供されている。
抽出器543は、フル信号包絡を担持するベクトル(またはブロック)に対して作用してもよい。他方、(サブバンド予測器517によって与えられる)推定された変換係数のブロック150は、平坦化された領域で表わされてもよい。結果的に、抽出器543の出力は、平坦化領域ベクトルに整形されてもよい。これは、再構成された係数の前記一つまたは複数の以前のブロック149の調整された包絡139を利用する整形器544を使って達成されてもよい。再構成された係数の前記一つまたは複数の以前のブロック149の調整された包絡139は、包絡バッファ542に記憶されていてもよい。整形器ユニット544は、T0時間単位だけ包絡バッファ542にはいったところから平坦化において使われる遅延された信号包絡を取ってくるよう構成されていてもよい。ここで、T0はTに最も近い整数である。次いで、平坦化領域ベクトルは、利得パラメータgによってスケーリングされて、(平坦化領域での)推定された変換係数のブロック150を与えてもよい。
整形器ユニット544は、整形器ユニット544の出力における平坦化領域ベクトルが各周波数帯域において1の分散を示すよう、平坦化領域ベクトルを決定するよう構成されていてもよい。整形器ユニット544は、この目標を達成するために完全に包絡バッファ542内のデータに依拠してもよい。例として、整形器ユニット544は、整形器ユニット544の出力における平坦化領域ベクトルが各周波数帯域において1の分散を示すよう、遅延された信号包絡を選択するよう構成されていてもよい。代替的または追加的に、整形器ユニット544は、整形器ユニット544の出力における平坦化領域ベクトルの分散を測定し、分散1の属性に向けてそれらのベクトルの分散を調整するよう構成されていてもよい。規格化の一つの可能な型は、平坦化領域ベクトルを分散1のベクトルに規格化する、(スロット毎の)単一の広帯域の利得を利用してもよい。前記利得は、エンコーダ100から対応するデコーダ500にビットストリーム内において(量子化され、エンコードされた形で)伝送されてもよい。
代替として、平坦化領域で作用するサブバンド予測器517、たとえば再構成された平坦化された係数のブロック148に対して作用するサブバンド予測器517を使うことによって、整形器544によって実行される遅延された平坦化プロセスは省略されてもよい。しかしながら、平坦化領域ベクトル(またはブロック)のシーケンスが、変換(たとえばMDCT変換)の時間エイリアシングされた(time-aliased)諸側面のため、時間信号にはうまくマップしないことが見出されている。結果として、抽出器543の根底にある信号モデルへのフィットが低減され、より高いレベルの符号化ノイズがこの代替構成から帰結する。換言すれば、サブバンド予測器517によって使用される信号モデル(たとえば正弦波または周期的モデル)は、(平坦化された領域に比して)平坦化されない領域において増大したパフォーマンスを与えることが見出されている。
ある代替的な例では、予測器517の出力(すなわち、推定された変換係数のブロック150)は、逆平坦化ユニット114の出力において(すなわち再構成された係数のブロック149に)加えられてもよいことを注意しておくべきである(図5a参照)。その場合、図5cの整形器ユニット544は、遅延された平坦化および逆平坦化の組み合わされた動作を実行するよう構成されていてもよい。
受領されたビットストリーム中の要素が、サブバンド・バッファ541および包絡バッファ541を、たとえばIフレームの最初の符号化単位(すなわち、最初のブロック)の場合に、時折フラッシュすることを制御してもよい。これは、以前のデータを知ることなくIフレームをデコードすることを可能にする。最初の符号化単位は典型的には予測寄与を利用できないが、それでも予測器情報520を伝達するために相対的により少数のビットを使ってもよい。予測利得の喪失は、この最初の符号化単位の予測誤差符号化により多くのビットを割り当てることによって補償されてもよい。典型的には、予測器寄与はIフレームの第二の符号化単位(すなわち第二のブロック)についてやはり実質的である。これらの側面のため、たとえIフレームを非常に頻繁に使ったとしても、比較的小さなビットレート増で品質を維持できる。
換言すれば、ブロックの集合132,332(フレームとも称される)は、予測符号化を使ってエンコードされうる複数のブロック131を含む。Iフレームをエンコードするとき、ブロックの集合332の最初のブロック203だけは、予測エンコーダによって達成される符号化利得を使ってエンコードされることができない。すでに直後のブロック201は予測エンコードの恩恵を利用しうる。つまり、符号化効率に関するIフレームの欠点は、フレーム332の変換係数の最初のブロック203のエンコードに限定され、フレーム332の他のブロック201、204、205には当てはまらないということである。よって、本稿に記載される変換ベースの発話符号化方式は、符号化効率に対する著しい影響なしに、Iフレームの比較的頻繁な使用を許容する。よって、本稿に記載される変換ベースの発話符号化方式は、比較的高速および/またはデコーダとエンコーダの間の比較的頻繁な同期を必要とする用途に特に好適である。
上記で示したように、Iフレームの初期化の間、予測器信号バッファ、すなわちサブバンド・バッファ541は、0でフラッシュされてもよく、包絡バッファ542は一時間スロットの値で埋められてもよい、すなわち(当該Iフレームの最初のブロック131に対応する)単一の調整された包絡139で埋められてもよい。Iフレームの最初のブロック131は典型的には予測を使わない。二番目のブロック131は、包絡バッファ542の二つの時間スロットへの(最初および二番目のブロック131の包絡139への)アクセスをもつだけである。三番目のブロックは三つの時間スロットのみ(すなわち三つのブロック131の包絡139)、四番目のブロックは四つの時間スロットのみ(すなわち四つのブロック131の包絡139)へのアクセスをもつだけである。
((平坦化領域における)推定された変換係数のブロック150を決定するための包絡を識別するための)スペクトル整形器544の遅延された平坦化規則は、ブロック・サイズKの単位(ここで、ブロック・サイズの単位は時間スロットまたはスロットと称されることがある)の予測器ラグ・パラメータTを最も近い整数に丸めることによって決定される整数ラグ値T0に基づく。しかしながら、Iフレームの場合、この整数ラグ値T0は、包絡バッファ542内の利用不能な項目をポイントすることがある。これに鑑み、スペクトル整形器544は、整数ラグ値T0が、包絡バッファ542内に記憶されている包絡139の数に制限されるよう、すなわち、整数ラグ値T0が包絡バッファ542内で利用可能でない包絡139をポイントしないように、整数ラグ値T0を決定するよう構成されていてもよい。この目的のために、整数ラグ値T0は、現在フレーム内のブロック・インデックスの関数である値に制限されてもよい。例として、整数ラグ値T0は、現在フレーム内の(エンコードされるべき)現在ブロック131のインデックス値に(たとえば、フレームの最初のブロック131については1に、二番目のブロック131については2に、三番目のブロック131については3に、四番目のブロックについては4に)制限されてもよい。そうすることにより、平坦化プロセスに起因する望ましくない状態および/または歪みが回避されうる。
図5dは、例示的なスペクトル・デコーダ502のブロック図を示している。スペクトル・デコーダ502は、エントロピー符号化された係数データ163をデコードするよう構成されている無損失デコーダ551を有する。さらに、スペクトル・デコーダ502は、係数データ163内に含まれる量子化インデックスに係数値を割り当てるよう構成されている逆量子化器552を有する。エンコーダ100、170のコンテキストにおいて概説したように、所定の量子化器の集合、たとえばモデル・ベースのスカラー量子化器の有限な集合から選択される異なる量子化器を使って異なる変換係数が量子化されてもよい。図4に示されるように、量子化器321、322、323の集合は、量子化器の種々の型を含んでいてもよい。量子化器の集合は、(0ビットレートの場合)ノイズ合成を提供する量子化器321、(比較的低い信号対雑音比SNRのためおよび中間的なビットレートのための)一つまたは複数のディザリングされる量子化器322および/または(比較的高いSNRおよび比較的高いビットレートのための)一つまたは複数の普通の量子化器323を含んでいてもよい。
包絡洗練ユニット107は、割り当てベクトルを与えるために係数データ163内に含まれるオフセット・パラメータと組み合わされてもよい割り当て包絡138を提供するよう構成されていてもよい。割り当てベクトルは、各周波数帯302について整数値を含む。特定の周波数帯域302についての整数値は、特定の周波数帯域302の変換係数の逆量子化のために使われるべきレート‐歪み点を指す。換言すれば、特定の周波数帯域302についての整数値は、特定の周波数帯域302の変換係数の逆量子化のために使われるべき量子化器を指す。整数値が1増すことは、SNRにおける1.5dBの増加に対応する。ディザリングされる量子化器322および普通の量子化器323について、ラプラシアン確率分布モデルが、算術符号化を用いてもよい無損失符号化において使われてもよい。低ビットレートと高ビットレートの場合の間でシームレスな仕方でギャップを埋めるために、一つまたは複数のディザリングされる量子化器322が使われてもよい。ディザリングされる量子化器322は、静的なノイズ様信号について十分になめらかな出力オーディオ品質を生成することにおいて有益でありうる。
換言すれば、逆量子化器522は、変換係数の現在のブロック131の係数量子化インデックスを受領するよう構成されていてもよい。特定の周波数帯域302の前記一つまたは複数の係数量子化インデックスは、所定の一組の量子化器からの対応する量子化器を使って決定されている。特定の周波数帯域302についての(オフセット・パラメータを用いて割り当て包絡138をオフセットすることによって決定されうる)割り当てベクトルの値は、特定の周波数帯域302の前記一つまたは複数の係数量子化インデックスを決定するために使われた量子化器を示す。量子化器を同定したら、前記一つまたは複数の係数量子化インデックスは、逆量子化されて、量子化された誤差係数のブロック145を与えてもよい。
さらに、スペクトル・デコーダ502は、スケーリングされた量子化された誤差係数のブロック147を提供する逆再スケーリング・ユニット113を有していてもよい。図5dの無損失デコーダ551および逆量子化器552のまわりの追加的なツールおよび相互接続は、図5aに示される全体的なデコーダ500におけるその使用にスペクトル・デコードを適応させるために使われてもよい。ここで、スペクトル・デコーダ502の出力(すなわち量子化された誤差係数のブロック145)は、予測された平坦化領域ベクトルに(すなわち、推定された変換係数のブロック150に)加算的補正を提供するために使われる。特に、追加的なツールは、デコーダ500によって実行される処理がエンコーダ100、170によって実行された処理に対応することを保証してもよい。
特に、スペクトル・デコーダ502は、ヒューリスティック・スケーリング・ユニット111を有していてもよい。エンコーダ100、170との関連で示したように、ヒューリスティック・スケーリング・ユニット111はビット割り当てに対する影響をもつことがある。エンコーダ100、170では、予測誤差係数の現在ブロック141が、ヒューリスティック規則によって分散1までスケール・アップされてもよい。結果として、デフォルトの割り当ては、ヒューリスティック・スケーリング・ユニット111の最終的なダウンスケーリングされた出力の細かすぎる量子化につながることがある。よって、割り当ては、予測誤差係数の修正と同様の仕方で修正されるべきである。
しかしながら、下記で概説するように、低周波数ビン(または低周波数帯域)の一つまたは複数についての符号化資源の低減を避けることが有益であることがある。特に、これは、実は有声状況において(すなわち、比較的大きな制御パラメータ146、rfuをもつ信号について)最も顕著であるLF(低周波数)ランブル/ノイズ・アーチファクトに対抗するために有益であることがある。よって、後述する制御パラメータ146に依存したビット割り当て/量子化器選択は、「有声適応LF品質ブースト」と考えられてもよい。
スペクトル・デコーダは、rfuと名付けられる制御パラメータ146に依存してもよい。rfuは予測器利得gの制限されたバージョンであってもよく、たとえば
rfu=min(1,max(g,0))
である。制御パラメータ146 rfuを決定するための代替的な諸方法が使われてもよい。特に、制御パラメータ146は、表1において与えられる擬似コードを使って決定されてもよい。
Figure 2016514857
変数f_gainおよびf_predは等しく設定されてもよい。特に変数f_gainは予測器利得gに対応してもよい。制御パラメータ146 rfuは表1ではf_rfuとして言及されている。利得f_gainは実数であってもよい。
制御パラメータ146の最初の定義に比較して、(表1による)後者の定義は、1より大きな予測器利得について制御パラメータ146 rfuを低減し、負の予測器利得については制御パラメータ146 rfuを増大させる。
制御パラメータ146を使って、エンコーダ100、170の係数量子化ユニット112において使われるおよび逆量子化器552において使われる量子化器の集合が適応されてもよい。特に、量子化器の集合のノイズ性が、制御パラメータ146に基づいて適応されてもよい。例として、1に近い制御パラメータ146 rfuの値は、ディザリングされる量子化器を使って割り当てレベルの範囲の制限をトリガーしてもよく、ノイズ合成レベルの分散の低減をトリガーしてもよい。一例では、rfu=0.75におけるディザ決定閾値および1−rfuに等しいノイズ利得が設定されてもよい。ディザ適応は、無損失デコードおよび逆量子化器の両方に影響しうる一方、ノイズ利得適応は典型的には逆量子化器のみに影響する。
予測器寄与は有声/トーン性状況について実質的であることが想定されてもよい。よって、比較的高い予測器利得g(すなわち、比較的高い制御パラメータ146)は有声またはトーン性の発話信号を示していてもよい。そのような状況では、ディザに関係したまたは明示的な(0割り当ての場合)ノイズの追加は、経験的に、エンコードされた信号の知覚される品質に対して逆効果であることが示されている。結果として、ディザリングされる量子化器322の数および/またはノイズ合成量子化器321のために使われるノイズの型は、予測器利得gに基づいて適応され、それによりエンコードされた発話信号の知覚される品質を改善してもよい。
よって、制御パラメータ146は、ディザリングされる量子化器322が使用されるSNRの範囲324、325を修正するために使われてもよい。例として、制御パラメータ146 rfu<0.75である場合には、ディザリングされる量子化器の範囲324が使われてもよい。換言すれば、制御パラメータ146が所定の閾値より下であれば、量子化器の第一の集合326が使用されてもよい。他方、制御パラメータ146 rfu≧0.75であれば、ディザリングされる量子化器のための範囲325が使われてもよい。換言すれば、制御パラメータ146が前記所定の閾値以上であれば、量子化器の第二の集合327が使用されてもよい。
さらに、制御パラメータ146は、分散およびビット割り当ての修正のために使われてもよい。その理由は、典型的には、うまくいった予測では必要とされる補正も小さく、特に0〜1kHzの低周波数範囲ではそうであるということである。より高い周波数帯域302に符号化資源を解放するために、単位分散モデルからのこの逸脱を量子化器に明示的に知らせることが有利であることがありうる。このことは、その内容が参照によって組み込まれるWO2009/086918の図17cのパネルiiiのコンテキストにおいて記述されている。デコーダ500では、この修正は、(スケーリング・ユニット111を使うことによって適用される)ヒューリスティック・スケーリング規則に従って名目割り当てベクトルを修正し、同時に、逆スケーリング・ユニット113を使って逆ヒューリスティック・スケーリング規則に従って逆量子化器552の出力をスケーリングすることによって実装されてもよい。WO2009/086918の理論に従い、ヒューリスティック・スケーリング規則および逆ヒューリスティック・スケーリング規則は緊密にマッチされるべきである。しかしながら、有声の信号成分についてLF(低周波数)ノイズに関わる時折の問題に対抗するために、一つまたは複数の最低周波数帯域302については割り当て修正を打ち消すことが有利であることが経験的に見出されている。割り当て修正の打ち消しは、予測器利得gおよび/または制御パラメータ146の値に依存して実行されてもよい。特に、割り当て修正の打ち消しは、制御パラメータ146がディザ決定閾値を超える場合にのみ実行されてもよい。
上記で概説したように、エンコーダ100、170および/またはデコーダ500は予測誤差係数Δ(k)を再スケーリングして再スケーリングされた誤差係数のブロック142を与えるよう構成されたスケーリング・ユニット111を有していてもよい。再スケーリング・ユニット111は、再スケーリングを実行するために一つまたは複数の所定のヒューリスティック規則を利用してもよい。一例では、再スケーリング・ユニット111は、利得d(f)、たとえば
Figure 2016514857
を含むヒューリスティック・スケーリング規則を利用してもよい。ここで、ブレーク周波数f0はたとえば1000Hzに設定されてもよい。よって、再スケーリング・ユニット111は、予測誤差係数に周波数依存の利得d(f)を適用して再スケーリングされた誤差係数のブロック142を与えるよう構成されていてもよい。逆再スケーリング・ユニット113は、周波数依存の利得d(f)の逆を適用するよう構成されていてもよい。周波数依存の利得d(f)は、制御パラメータrfu 146に依存していてもよい。上記の例において、利得d(f)は低域通過特性を示し、よって予測誤差係数は、低周波数より高周波数においてより減衰されるおよび/または予測誤差係数は高周波数より低周波数においてより強調される。上述した利得d(f)は常に1以上である。よって、ある好ましい実施形態では、ヒューリスティック・スケーリング規則は、予測誤差係数が(周波数に依存して)因数1によってまたはそれ以上強調されるというものである。
周波数依存利得がパワーまたは分散を示していてよいことを注意すべきである。そのような場合、スケーリング規則および逆スケーリング規則は、周波数依存の利得の平方根に基づいて、たとえば√d(f)に基づいて導出されるべきである。
強調および/または減衰の度合いは、予測器117によって達成される予測の品質に依存してもよい。予測器利得gおよび/または制御パラメータrfu 146は、予測の品質を示していてもよい。特に、制御パラメータrfu 146の比較的低い値(比較的0に近い)は、予測の低い品質を示しうる。そのような場合、予測誤差係数がすべての周波数にわたって比較的高い(絶対的な)値を有することが期待される。制御パラメータrfu 146の比較的高い値(比較的1に近い)は、予測の高い品質を示しうる。そのような場合、予測誤差係数が(予測がより難しい)高周波数について比較的高い(絶対的な)値を有することが期待される。よって、再スケーリング・ユニット111の出力における単位分散を達成するためには、利得d(f)は、予測の比較的低い品質の場合に利得d(f)がすべての周波数について実質的に平坦であり、予測の比較的高い品質の場合には利得d(f)は低域通過特性をもち、低周波数での分散を増大またはブーストするようなものであってもよい。これは、上述したrfu依存の利得d(f)について当てはまる。
上記で概説したように、ビット割り当てユニット110は、割り当て包絡138における対応するエネルギー値に依存して、異なる再スケーリングされた誤差係数にビットの相対的な割り当てを提供するよう構成されていてもよい。ビット割り当てユニット110は、ヒューリスティック再スケーリング規則を考慮に入れるよう構成されていてもよい。ヒューリスティック再スケーリング規則は、予測の品質に依存してもよい。予測の比較的高い品質の場合には、低周波数での係数のエンコードよりも、高周波数での予測誤差係数(または再スケーリングされた誤差係数のブロック142)のエンコードに、相対的に増大した数のビットを割り当てることが有益でありうる。これは、予測の高い品質の場合、低周波数係数はすでによく予測されており、一方、高周波数係数は典型的にはそれほどよく予測されないという事実のためでありうる。他方、予測の比較的低い品質の場合には、ビット割り当ては不変のままであるべきである。
上記の振る舞いは、予測の品質を考慮に入れる割り当て包絡138を決定するために、現在の調整された包絡139にヒューリスティック規則/利得d(f)の逆を適用することによって実装されうる。
調整された包絡139、予測誤差係数および利得d(f)は、対数またはdB領域で表わされてもよい。そのような場合、予測誤差係数への利得d(f)の適用は、「加算」演算に対応してもよく、調整された包絡139への利得d(f)の逆の適用は、「減算」演算に対応してもよい。
ヒューリスティック規則/利得d(f)のさまざまな変形が可能であることを注意しておくべきである。特に、低域通過特性の固定した周波数依存曲線(1+(f/f0)3-1は、包絡データに(たとえば現在ブロック131についての調整された包絡139に)依存する関数によって置き換えられてもよい。修正されたヒューリスティック規則は、制御パラメータrfu 146および包絡データの両方に依存してもよい。
以下では、予測器利得gに対応しうる予測器利得ρを決定するための種々の方法が記述される。予測器利得ρは、予測の品質の指示として使われてもよい。予測残差ベクトル(すなわち、予測誤差係数のブロック141)zは、z=x−ρyによって与えられてもよい。ここで、xはターゲット・ベクトル(たとえば、平坦化された変換係数の現在のブロック140または変換係数の現在のブロック131)であり、yは予測のための選ばれた候補を表わすベクトル(たとえば再構成された係数の以前のブロック149)であり、ρは(スカラー)予測器利得である。
w≧0が予測器利得ρの決定のために使われる重みベクトルであってもよい。いくつかの実施形態では、重みベクトルは信号包絡の関数(たとえば、エンコーダ100、170において推定され、次いでデコーダ500に伝送されてもよい、調整された包絡139の関数)である。重みベクトルは典型的には、ターゲット・ベクトルおよび候補ベクトルと同じ次元をもつ。ベクトルxのi番目の要素はxiによって表わされてもよい(たとえばi=1,…,K)。
予測器利得ρを定義するための種々の仕方がある。ある実施形態では、予測器利得ρは、最小平均平方誤差基準に従って定義されるMMSE(最小平均平方誤差)利得である。この場合、予測器利得ρは次の公式を使って計算されてもよい。
Figure 2016514857
そのような予測器利得ρは典型的には
Figure 2016514857
として定義される平均平方誤差を最小化する。
平均平方誤差Dの定義に重み付けを導入することがしばしば(知覚上)有益である。重み付けは、信号スペクトルの知覚的に重要な部分についてはxとyの間のマッチの重要性を強調し、比較的重要でない信号スペクトルの部分についてはxとyの間のマッチの重要性を脱強調するために使われてもよい。そのようなアプローチは、次のような誤差基準を与える:
Figure 2016514857
これは(重み付けされた平均平方誤差の意味での)最適予測器利得の次の定義につながる:
Figure 2016514857
予測器利得の上記の定義は典型的には、制限されない利得を与える。上記で示したように、重みベクトルwの重みwiは調整された包絡139に基づいて決定されてもよい。たとえば、重みベクトルwは、調整された包絡139のあらかじめ定義された関数を使って決定されてもよい。あらかじめ定義された関数は、エンコーダおよびデコーダにおいて既知であってもよい(これは調整された包絡139についても成り立つ)。よって、重みベクトルは、エンコーダおよびデコーダにおいて同じ仕方で決定されうる。
もう一つの可能な予測器利得公式は次式によって与えられる:
Figure 2016514857
予測器利得のこの定義は、常に区間[−1,1]内である利得を与える。この公式によって指定される予測器利得の重要な特徴は、予測器利得ρがターゲット信号のエネルギーxと残差信号のエネルギーzの間の扱える関係を容易にするということである。LTP残差エネルギーは、
Figure 2016514857
と表わされてもよい。
制御パラメータrfu 146は、上述した公式を使って予測器利得gに基づいて決定されてもよい。予測器利得gは、上述した公式の任意のものを使って決定される予測器利得ρに等しくてもよい。
上記で概説したように、エンコーダ100、170は、残差ベクトルz(すなわち予測誤差係数のブロック141)を量子化し、エンコードするよう構成されている。量子化プロセスは典型的は信号包絡によって(たとえば割り当て包絡138によって)、根底にある知覚モデルに従って、利用可能なビットを知覚的に意味のある仕方で信号のスペクトル成分の間で分配するために、案内される。レート割り当てのプロセスは、入力信号から(たとえば変換係数のブロック131から)導出される信号包絡によって(たとえば割り当て包絡138によって)案内される。予測器117の動作は典型的には信号包絡を変える。量子化ユニット112は典型的には、単位分散源に対する作用を想定して設計される量子化器を利用する。特に、高品質予測の場合(すなわち、予測器117がうまくいっているとき)、単位分散属性はもはや成り立たないことがあり、すなわち、予測誤差係数のブロック141は単位分散を示さないことがある。
予測誤差係数のブロック141の(すなわち残差zについての)包絡を推定し、この包絡をデコーダに伝送する(そして推定された包絡を使って予測誤差係数のブロック141を再平坦化する)ことは典型的には効率的ではない。その代わりに、エンコーダ100およびデコーダ500は、(上記で概説したように)予測誤差係数のブロック141を再スケーリングするためのヒューリスティック規則を利用してもよい。ヒューリスティック規則は、予測誤差係数のブロック141を再スケーリングするために使われてもよい。それにより、再スケーリングされた係数のブロック142は単位分散に近づく。この結果として、(単位分散を想定する量子化器を使って)量子化結果は改善されうる。
さらに、すでに概説したように、ヒューリスティック規則は、ビット割り当てプロセスのために使われる割り当て包絡138を修正するために使われてもよい。割り当て包絡138の修正および予測誤差係数のブロック141の再スケーリングは、典型的にはエンコーダ100およびデコーダ500によって同じ仕方で(同じヒューリスティック規則を使って)実行される。
可能なヒューリスティック規則d(f)が上記で記載された。以下では、ヒューリスティック規則を決定するための別のアプローチが記載される。重み付けされた領域のエネルギー予測利得の逆が、‖z‖2 w=p‖x‖2 wとなるようにp∈[0,1]によって与えられてもよい。ここで、‖z‖2 wは、重み付け領域における残差ベクトル(すなわち、予測誤差係数のブロック141)の平方エネルギーを示し、‖x‖2 wは、重み付け領域におけるターゲット・ベクトル(すなわち、平坦化された変換係数のブロック140)の平方エネルギーを示す。
以下の想定がなされてもよい。
1.ターゲット・ベクトルxの要素は単位分散をもつ。これは、平坦化ユニット108によって実行される平坦化の結果であってもよい。この想定は、平坦化ユニット108によって実行される包絡ベースの平坦化の品質に依存して充足される。
2.予測残差ベクトルzの要素の分散は、i=1,…,Kおよび何らかのt≧0について、E{z2(i)}=min{t/w(i),1}の形である。この想定は、最小二乗指向の予測器探索は重み付け領域において均等に分布した誤差寄与につながり、残差ベクトル(√w)zは多少なりとも平坦になるというヒューリスティックに基づいている。さらに、予測器候補は平坦に近いことが期待されてもよく、これは合理的な限界E{z2(i)}≦1につながる。この第二の想定のさまざまな修正が使用されうることを注意しておくべきである。
パラメータtを推定するために、上述した二つの想定を予測誤差公式(たとえばD=Σi(xi−ρyi)2wi)に挿入し、それにより「水位型」の次式を与えてもよい。
Figure 2016514857
上記の式には区間t∈[0,max(w(i))]内に解があることを示すことができる。パラメータtを見出すための方程式は、ソーティング・ルーチンを使って解くことができる。
すると、ヒューリスティック規則はd(i)=max{w(i)/t,1}によって与えられてもよい。ここで、i=1,…,Kは周波数ビンを同定する。ヒューリスティック・スケーリング規則の逆が、1/d(i)=min{t/w(i),1}によって与えられる。ヒューリスティック・スケーリング規則の逆は、逆再スケーリング・ユニット113によって適用される。周波数依存のスケーリング規則は重みw(i)=wiに依存する。上記で示したように、重みw(i)は変換係数の現在ブロック131(または調整された包絡139または該調整された包絡139の何らかのあらかじめ定義された関数)に依存していてもよく、あるいはそれに対応していてもよい。
予測器利得を決定するために公式ρ=2C/{Ex+Ey}を使うとき、関係p=1−ρ2が成り立つことが示せる。
よって、ヒューリスティック・スケーリング規則がさまざまな異なる仕方で決定されてもよい。実験的に、上述した二つの想定に基づいて決定されるスケーリング規則(スケーリング方法Bと称される)が固定したスケーリング規則d(f)に比べて有利であることが示されている。特に、上記二つの想定に基づいて決定されるスケーリング規則は、予測器候補探索の過程で使われる重み付けの効果を考慮に入れてもよい。残差の分散と信号の分散の間の解析的に扱える関係(これは上記で概説したようにpの導出を容易にする)のため、スケーリング方法Bは、利得の定義ρ=2C/{Ex+Ey}と便利に組み合わされる。
以下では、変換ベースのオーディオ符号化器のパフォーマンスを改善するためのさらなる側面が記述される。特に、いわゆる分散保存フラグの使用が提案される。分散保存フラグは、ブロック131毎に決定され、伝送されてもよい。分散保存フラグは、予測の品質を示していてもよい。ある実施形態では、予測の比較的高い品質の場合には分散保存フラグはオフであり、予測の比較的低い品質の場合には分散保存フラグはオンである。分散保存フラグは、エンコーダ100、170によって、たとえば予測器利得ρに基づいておよび/または予測器利得gに基づいて決定されてもよい。例として、分散保存フラグは、予測器利得ρまたはg(またはそれから導出されるパラメータ)が所定の閾値(たとえば2dB)より低い場合に「オン」に設定されてもよい。逆もまたしかりである。上記で概説したように、重み付け領域のエネルギー予測利得の逆pは、典型的には予測器利得に依存する。たとえば、p=1−ρ2である。パラメータpの逆数は、分散保存フラグの値を決定するために使われてもよい。例として、1/p(たとえばdBで表わされる)は、分散保存フラグの値を決定するために、所定の閾値(たとえば2dB)と比較されてもよい。1/pが該所定の閾値より大きければ、分散保存フラグは「オフ」に設定されてもよい(予測の比較的高い品質を示す)。逆もまたしかりである。
分散保存フラグは、エンコーダ100およびデコーダ500のさまざまな異なる設定を制御するために使われてもよい。特に、分散保存フラグは、複数の量子化器321、322、323のノイズ性の度合いを制御するために使われてもよい。特に、分散保存フラグは、次の設定のうちの一つまたは複数に影響してもよい。
・0ビット割り当てのための適応的なノイズ利得。換言すれば、ノイズ合成量子化器321のノイズ利得は分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の範囲。換言すれば、ディザリングされる量子化器322が使われるSNRの範囲324、325が、分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の事後利得。ディザリングされる量子化器の平均平方誤差パフォーマンスに影響するために、ディザリングされる量子化器の出力に対して事後利得が適用されてもよい。事後利得は、分散保存フラグに依存してもよい。
・ヒューリスティック・スケーリングの適用。(再スケーリング・ユニット111および逆再スケーリング・ユニット113における)ヒューリスティック・スケーリングの使用が分散保存フラグに依存してもよい。
分散保存フラグがエンコーダ100および/またはデコーダ500の一つまたは複数の設定をどのように変えうるかの例を表2に与えておく。
Figure 2016514857
事後利得についての公式において、σX=E{X2}は(量子化されるべき)予測誤差係数のブロック141の係数のうち一つまたは複数の係数の分散であり、Δは事後利得が適用されるディザリングされる量子化器のスカラー量子化器(612)の量子化器きざみサイズである。
表2の例から見て取れるように、ノイズ合成量子化器321のノイズ利得gN(すなわち、ノイズ合成量子化器321の分散)は分散保存フラグに依存してもよい。上記で概説したように、制御パラメータrfu 146は範囲[0,1]内にあってもよく、rfuの比較的低い値は予測の比較的低い品質を示し、rfuの比較的高い値は予測の比較的高い品質を示す。[0,1]の範囲内のrfu値について、左の列の公式は右の列の公式より低いノイズ利得gNを与える。よって、分散保存フラグがオンであるとき(予測の比較的低い品質を示す)は、分散保存フラグがオフであるとき(予測の比較的高い品質を示す)よりも高いノイズ利得が使われる。実験的に、これが全体的な知覚的品質を改善することが示されている。
上記で概説したように、ディザリングされる量子化器322の324、325のSNR範囲は、制御パラメータrfuに依存して変わりうる。表2によれば、分散保存フラグがオンのとき(予測の比較的低い品質を示す)、ディザリングされる量子化器322の固定した大きな範囲が使われる(たとえば範囲324)。他方、分散保存フラグがオフのとき(予測の比較的高い品質を示す)は、制御パラメータrfuに依存して異なる範囲324、325が使われる。
量子化された誤差係数のブロック145の決定は、ディザリングされる量子化器322を使って量子化された、量子化された誤差係数への事後利得γの適用に関わってもよい。事後利得γは、ディザリングされる量子化器322(たとえば減算的ディザのある量子化器)のMSEパフォーマンスを改善するために導出されてもよい。
事後利得は
Figure 2016514857
によって与えられてもよい。
実験的に、事後利得を分散保存フラグに依存させるとき、知覚的な符号化品質が改善できることが示されている。上述したMSE最適事後利得は、分散保存フラグがオフのとき(予測の比較的高い品質を示す)に使われる。他方、分散保存フラグがオンのとき(予測の比較的低い品質を示す)は、(表2の右側の公式に従って決定される、)より高い事後利得を使うことが有益であることがある。
上記で概説したように、予測誤差係数のブロック141より単位分散属性により近い再スケーリングされた誤差係数のブロック142を与えるために、ヒューリスティック・スケーリングが使われてもよい。ヒューリスティック・スケーリング規則は、制御パラメータ146に依存させられてもよい。換言すれば、ヒューリスティック・スケーリング規則は予測の品質に依存させられてもよい。ヒューリスティック・スケーリングは、予測の比較的高い品質の場合に特に有益であることがある。一方、その恩恵は予測の比較的低い品質の場合には限られていることがある。これに鑑み、分散保存フラグがオフであるとき(予測の比較的高い品質を示す)にのみヒューリスティック・スケーリングを使うことが有益でありうる。
本稿では、変換ベースの発話エンコーダ100、170および対応する変換ベースの発話デコーダ500が記述されてきた。変換ベースの発話コーデックは、エンコードされた発話信号の品質を改善することを許容するさまざまな側面を利用しうる。発話コーデックは、たとえば5m程度の比較的短いブロック(符号化単位とも称される)を利用し、それにより適切な時間分解能および発話信号のための意味のある統計を保証してもよい。さらに、発話コーデックは、符号化単位の時間変化するスペクトル包絡の十分な記述を提供してもよい。さらに、発話コーデックは、変換領域での予測を利用してもよい。ここで、予測は、符号化単位のスペクトル包絡を考慮に入れてもよい。よって、発話コーデックは、符号化単位に対して、包絡を意識した予測的な更新を提供しうる。さらに、発話コーデックは、予測の結果に適応する、あらかじめ決定された量子化器を利用してもよい。換言すれば、発話コーデックは、予測適応的なスカラー量子化器を利用してもよい。
本稿で記述された方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアおよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体上に記憶されてもよい。それらの信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。

Claims (76)

  1. 発話信号をビットストリームにエンコードするよう構成されている変換ベースの発話エンコーダであって、当該エンコーダは:
    ・ブロックの集合を受領するよう構成されたフレーム構成ユニットであって、ブロックの集合は、変換係数の複数の逐次的なブロックを含み、該複数のブロックは発話信号のサンプルを示し、変換係数のブロックは対応する複数の周波数ビンについての変換係数を含む、フレーム構成ユニットと;
    ・変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定するよう構成されている包絡推定ユニットであって、前記現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示す、包絡推定ユニットと;
    ・前記現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットと;
    ・それぞれ前記対応する複数の補間された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定するよう構成された平坦化ユニットとを有しており、
    前記ビットストリームは平坦化された変換係数の前記複数のブロックに基づいて決定される、
    変換ベースの発話エンコーダ。
  2. ・当該変換ベースの発話エンコーダはさらに、それぞれ変換係数の前記複数のブロックについて複数の包絡利得を決定するよう構成された包絡利得決定ユニットを有しており;
    ・当該変換ベースの発話エンコーダはさらに、それぞれ前記複数の包絡利得に従って前記複数の補間された包絡をシフトさせることによって、複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有しており;
    ・前記平坦化ユニットは、それぞれ前記対応する複数の調整された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の前記複数のブロックを決定するよう構成されている、
    請求項1記載の変換ベースの発話エンコーダ。
  3. 前記包絡利得決定ユニットは、変換係数の第一のブロックのための第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が、第一の補間された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散に比べて調整されるように、決定するよう構成されている、請求項2記載の変換ベースの発話エンコーダ。
  4. 前記包絡利得決定ユニットは、変換係数の前記第一のブロックについての前記第一の包絡利得を、前記第一の調整された包絡を使って導出される平坦化された変換係数の前記対応する第一のブロックの平坦化された変換係数の分散が1になるように、決定するよう構成されている、請求項3記載の変換ベースの発話エンコーダ。
  5. 前記包絡利得決定ユニットは、前記複数の包絡利得を示す利得データを前記ビットストリーム中に挿入するよう構成されている、請求項2ないし4のうちいずれか一項記載の変換ベースの発話エンコーダ。
  6. ・前記現在の包絡が、対応する複数の周波数帯域についての複数のスペクトル・エネルギー値を示し;
    ・周波数帯域が一つまたは複数の周波数ビンを含み;
    ・前記包絡推定ユニットが、特定の周波数帯域についてのスペクトル・エネルギー値を、その特定の周波数帯域についての前記複数の逐次的なブロックの変換係数に基づいて決定するよう構成されている、
    請求項1ないし5のうちいずれか一項記載の変換ベースの発話エンコーダ。
  7. 周波数帯域毎の周波数ビンの数が周波数が増すとともに増大する、請求項6記載の変換ベースの発話エンコーダ。
  8. 前記包絡推定ユニットは、前記特定の周波数帯域についてのスペクトル・エネルギー値を、前記特定の周波数帯域についての前記複数の逐次的なブロックの変換係数の二乗平均平方根値に基づいて、決定するよう構成されている、請求項6または7記載の変換ベースの発話エンコーダ。
  9. ・前記現在の包絡を量子化することによって、量子化された現在の包絡を決定し;
    ・前記量子化された現在の包絡を示す包絡データを前記ビットストリーム中に挿入するよう構成された包絡量子化ユニットをさらに有する、
    請求項1ないし8のうちいずれか一項記載の変換ベースの発話エンコーダ。
  10. 前記包絡補間ユニットは、前記量子化された現在の包絡に基づいて前記複数の補間された包絡を決定するよう構成されている、請求項9記載の変換ベースの発話エンコーダ。
  11. ・変換係数のブロックはMDCT係数を含む;および/または
    ・変換係数のブロックは256個の周波数ビン内の256個の変換係数を含む;および/または
    ・ブロックの集合は変換係数の四つ以上のブロックを含む、
    請求項1ないし10のうちいずれか一項記載の変換ベースの発話エンコーダ。
  12. ・変換ベースの発話エンコーダが、短ストライド・モードおよび長ストライド・モードを含む複数の異なるモードで動作するよう構成されており;
    ・前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、前記変換ベースの発話エンコーダが短ストライド・モードで動作させられるときは、変換係数の前記複数の逐次的なブロックを含むブロックの前記集合を処理するよう構成されており;
    ・前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、前記変換ベースの発話エンコーダが長ストライド・モードで動作させられるときは、変換係数の単一のブロックを含むブロックの集合を処理するよう構成されている、
    請求項1ないし11のうちいずれか一項記載の変換ベースの発話エンコーダ。
  13. 長ストライド・モードにあるとき、
    ・前記包絡推定ユニットは、ブロックの前記集合内に含まれる変換係数の前記単一のブロックの現在の包絡を決定するよう構成されており;
    ・前記包絡補間ユニットは、変換係数の前記単一のブロックについての補間された包絡を、変換係数の前記単一のブロックの前記現在の包絡として決定するよう構成されている、
    請求項12記載の変換ベースの発話エンコーダ。
  14. 再構成された発話信号を提供するためにビットストリームをデコードするよう構成された変換ベースの発話デコーダであって、
    ・前記ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定するよう構成された包絡デコード・ユニットであって、前記量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示し、前記ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータを含み、再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む、包絡デコード・ユニットと;
    ・前記量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットと;
    ・それぞれ前記対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定するよう構成された逆平坦化ユニットとを有しており、
    再構成された変換係数の前記複数のブロックに基づいて、前記再構成された発話信号が決定される、
    変換ベースの発話デコーダ。
  15. 前記包絡補間ユニットは、前記複数の補間された包絡を、量子化された以前の包絡にさらに基づいて決定するよう構成されている、請求項14記載の変換ベースの発話デコーダ。
  16. 前記量子化された以前の包絡は、再構成された変換係数の前記複数のブロックの直前の、再構成された変換係数の複数の以前のブロックに関連付けられている、請求項15記載の変換ベースの発話デコーダ。
  17. ・前記包絡補間ユニットは、第一の補間された包絡のある特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と第一の中間時点における前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されており;
    ・前記第一の補間された包絡は、再構成された平坦化された変換係数の第一のブロックに関連付けられる、
    請求項15または16記載の変換ベースの発話デコーダ。
  18. 前記包絡補間ユニットは、線形補間、幾何的補間および調和的補間の一つまたは複数を実行するよう構成されている、請求項17記載の変換ベースの発話デコーダ。
  19. 前記包絡補間ユニットは、対数領域において前記補間を実行するよう構成されている、請求項17または18記載の変換ベースの発話デコーダ。
  20. 前記包絡補間ユニットは、前記第一の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値の間の補間を量子化することによって、決定するよう構成されている、請求項17ないし19のうちいずれか一項記載の変換ベースの発話デコーダ。
  21. ・前記包絡補間ユニットは、第二の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と第二の中間時点における前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されており;
    ・前記第二の補間された包絡は、再構成された平坦化された変換係数の第二のブロックに関連付けられ;
    ・再構成された平坦化された変換係数の前記第二のブロックは、再構成された平坦化された変換係数の前記第一のブロックより後であり;
    ・前記第二の中間時点は前記第一の中間時点より後である、
    請求項17ないし20のうちいずれか一項記載の変換ベースの発話デコーダ。
  22. 前記第二の中間時点と前記第一の中間時点との間の差は、再構成された平坦化された変換係数の前記第二のブロックと再構成された平坦化された変換係数の前記第一のブロックとの間の時間間隔に対応する、請求項21記載の変換ベースの発話デコーダ。
  23. ・前記ビットストリームは、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の包絡利得を示し;
    ・当該変換ベースの発話デコーダはさらに、それぞれ前記複数の補間された包絡に前記複数の包絡利得を適用することによって複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有し;
    ・前記逆平坦化ユニットは、それぞれ前記対応する複数の調整された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記複数のブロックを決定するよう構成されている、
    請求項14ないし22のうちいずれか一項記載の変換ベースの発話デコーダ。
  24. 発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
    ・現在のブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットであって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、フレーム構成ユニットと;
    ・それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の前記対応する現在のブロックおよび前記一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定するよう構成された平坦化ユニットと;
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器であって、前記予測器は、
    ・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器;および
    ・推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有している、
    予測器と;
    ・平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットとを有しており、
    前記ビットストリームは、予測誤差係数の前記現在のブロックに基づいて決定される、
    変換ベースの発話エンコーダ。
  25. ・前記予測器は、信号モデルを使うモデル・ベースの予測器を有し;
    ・前記信号モデルは、一つまたは複数のモデル・パラメータを有し;
    ・前記一つまたは複数の予測器パラメータは、前記一つまたは複数のモデル・パラメータを示す、
    請求項24記載の変換ベースの発話エンコーダ。
  26. 前記モデル・ベースの予測器は、
    ・前記信号モデルの前記一つまたは複数のモデル・パラメータを決定し;
    ・前記信号モデルに基づき、かつ前記一つまたは複数のモデル・パラメータに基づいて、再構成された変換係数の以前のブロックの第一の周波数ビン内の第一の再構成された変換係数に適用されるべき予測係数を決定し;
    ・前記第一の再構成された変換係数に前記予測係数を適用することによって、推定された変換係数の前記現在のブロックの前記第一の周波数ビン内の第一の推定された変換係数の推定値を決定するよう構成されている、
    請求項25記載の変換ベースの発話エンコーダ。
  27. ・前記信号モデルは一つまたは複数の正弦波モデル成分を含み;
    ・前記一つまたは複数のモデル・パラメータは前記一つまたは複数の正弦波モデル成分の周波数を示す、
    請求項25または26記載の変換ベースの発話エンコーダ。
  28. 前記一つまたは複数のモデル・パラメータは、複数正弦波信号モデルの基本周波数を示す、請求項27記載の変換ベースの発話エンコーダ。
  29. 前記予測器は、予測誤差係数の前記現在のブロックの前記予測誤差係数の平均平方値が低減されるよう、前記一つまたは複数の予測パラメータを決定するよう構成されている、請求項24ないし28のうちいずれか一項記載の変換ベースの発話エンコーダ。
  30. 前記予測器は、前記一つまたは複数の予測器パラメータを示す予測器データを前記ビットストリーム中に挿入するよう構成されている、請求項24ないし29のうちいずれか一項記載の変換ベースの発話エンコーダ。
  31. ビットストリームをデコードして、再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、該予測器は、
    ・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器;および
    ・推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有する、
    予測器と;
    ・前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダと;
    ・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットと;
    ・現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成されており、それぞれ前記一つまたは複数の以前のブロック包絡を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記一つまたは複数の以前のブロックを決定するよう構成されている逆平坦化ユニットとを有しており、
    再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、前記再構成された発話信号が決定される、
    変換ベースの発話デコーダ。
  32. ・前記一つまたは複数の予測器パラメータは、ブロック遅延パラメータを含み;
    ・前記ブロック遅延パラメータは、推定された平坦化された変換係数の前記現在のブロックに先行するブロック数を示す、
    請求項31記載の変換ベースの発話デコーダ。
  33. 前記スペクトル整形器は、
    ・現在の推定された包絡を使って、推定された変換係数の前記現在のブロックを平坦化し;
    ・前記一つまたは複数の以前のブロック包絡に基づき、かつ前記ブロック遅延パラメータに基づいて、前記現在の推定された包絡を決定するよう構成されている、
    請求項32記載の変換ベースの発話デコーダ。
  34. 前記スペクトル整形器は、
    ・前記ブロック遅延パラメータに基づいて整数遅延値を決定し;
    ・推定された平坦化された変換係数の前記現在のブロックより前記整数遅延値だけ先行する、再構成された変換係数の前記以前のブロックの前記以前のブロック包絡として、前記現在の推定された包絡を決定するよう構成されている、
    請求項33記載の変換ベースの発話デコーダ。
  35. 前記スペクトル整形器は、前記整数遅延値を、前記ブロック遅延パラメータを最も近い整数に丸めることによって決定するよう構成されている、請求項34記載の変換ベースの発話デコーダ。
  36. ・当該変換ベースの発話デコーダが、一つまたは複数の以前のブロック包絡を記憶するよう構成された包絡バッファを有し;
    ・前記スペクトル整形器が、前記整数遅延値を、前記包絡バッファ内に記憶されている以前のブロック包絡の数に制限することによって、整数遅延値を決定するよう構成されている、
    請求項35記載の変換ベースの発話デコーダ。
  37. 前記スペクトル整形器は、前記一つまたは複数の予測器パラメータの適用前に、平坦化された推定された変換係数の前記現在のブロックが分散1を示すよう、推定された変換係数の前記現在のブロックを平坦化するよう構成されている、請求項33ないし36のうちいずれか一項記載の変換ベースの発話デコーダ。
  38. ・前記ビットストリームが、分散利得パラメータを含み;
    ・前記スペクトル整形器が、前記分散利得パラメータを、推定された変換係数の前記現在のブロックに適用するよう構成されている、
    請求項37記載の変換ベースの発話デコーダ。
  39. 前記抽出器は、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記ブロック遅延パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成されている、請求項32ないし38のうちいずれか一項記載の変換ベースの発話デコーダ。
  40. 発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
    ・現在のブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットであって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、フレーム構成ユニットと;
    ・対応する現在のブロック包絡を使って変換係数の前記対応する現在のブロックを平坦化することによって、平坦化された変換係数の現在のブロックを決定するよう構成された平坦化ユニットと;
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器と;
    ・平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットと;
    ・一組のあらかじめ決定された量子化器を使って、予測誤差係数の前記現在のブロックから導出される係数を量子化するよう構成された係数量子化ユニットであって、前記係数量子化ユニットは、前記一つまたは複数の予測器パラメータに依存して、前記一組のあらかじめ決定された量子化器を決定するよう構成されており、前記係数量子化ユニットは、前記量子化された係数に基づいて前記ビットストリームについての係数データを決定するよう構成されている、係数量子化ユニットとを有する、
    変換ベースの発話エンコーダ。
  41. 平均で、再スケーリングされた誤差係数の現在のブロックの再スケーリングされた誤差係数の分散が、予測誤差係数の前記現在のブロックの予測誤差係数の分散より高くなるように、一つまたは複数のスケーリング規則を使って、予測誤差係数の前記現在のブロックに基づいて、再スケーリングされた誤差係数の現在のブロックを決定するよう構成されたスケーリング・ユニットをさらに有する、請求項40記載の変換ベースの発話エンコーダ。
  42. ・予測誤差係数の前記現在のブロックは、対応する複数の周波数ビンについての複数の予測誤差係数を含み、
    ・前記一つまたは複数のスケーリング規則に従って前記スケーリング・ユニットによって前記予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存する、
    請求項41記載の変換ベースの発話エンコーダ。
  43. 前記スケーリング規則は、前記一つまたは複数の予測器パラメータに依存する、請求項41または42記載の変換ベースの発話エンコーダ。
  44. 前記スケーリング規則は、前記現在のブロック包絡に依存する、請求項41ないし43のうちいずれか一項記載の変換ベースの発話エンコーダ。
  45. ・前記予測器は、重み付けされた平均平方誤差基準を使って、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されており、
    ・前記重み付けされた平均平方誤差基準は、前記現在のブロック包絡を重みとして考慮に入れる、
    請求項40ないし44のうちいずれか一項記載の変換ベースの発話エンコーダ。
  46. 前記係数量子化ユニットは、再スケーリングされた誤差係数の前記現在のブロックの再スケーリングされた誤差係数を量子化するよう構成されている、請求項41ないし45のうちいずれか一項記載の変換ベースの発話エンコーダ。
  47. ・変換ベースの発話エンコーダはさらに、前記現在のブロック包絡に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニットを有しており、
    ・前記割り当てベクトルは、予測誤差係数の前記現在のブロックから導出された第一の係数を量子化するために使われる前記一組のあらかじめ決定された量子化器からの第一の量子化器を示す、
    請求項40ないし46のうちいずれか一項記載の変換ベースの発話エンコーダ。
  48. 前記割り当てベクトルは、それぞれ予測誤差係数の前記現在のブロックから導出された係数全部について使われる量子化器を示す、請求項47記載の変換ベースの発話エンコーダ。
  49. 前記ビット割り当てユニットは、
    ・予測誤差係数の前記現在のブロックについての係数データが所定のビット数を超えないよう前記割り当てベクトルを決定し;
    ・前記現在のブロック包絡から導出される割り当て包絡に適用されるべきオフセットを示すオフセット値を決定するよう構成されており、前記オフセット値は、前記ビットストリーム中に含められる、
    請求項47または48記載の変換ベースの発話エンコーダ。
  50. ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器と;
    ・一組のあらかじめ決定された量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダであって、前記スペクトル・デコーダは、前記一つまたは複数の予測器パラメータに依存して前記一組のあらかじめ決定された量子化器を決定するよう構成されている、スペクトル・デコーダと;
    ・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットと;
    ・現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有しており、
    前記再構成された発話信号は、再構成された変換係数の前記現在のブロックに基づいて決定される、
    変換ベースの発話デコーダ。
  51. 前記一組のあらかじめ決定された量子化器は、
    ・異なる信号対雑音比をもつ異なる量子化器;および
    ・少なくとも一つのディザリングされる量子化器を含む、
    請求項50記載の変換ベースの発話デコーダ。
  52. ・前記一つまたは複数の予測器パラメータは予測器利得を含み;
    ・前記予測器利得は、再構成された変換係数の前記現在のブロックについての再構成された変換係数の前記一つまたは複数の以前のブロックの関連度を示し;
    ・前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、前記予測器利得に依存する、
    請求項51記載の変換ベースの発話デコーダ。
  53. 前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得が増すとともに減少する、請求項52記載の変換ベースの発話デコーダ。
  54. ・前記スペクトル・デコーダは、あらかじめ決定された量子化器の第一の集合および第二の集合へのアクセスをもち、
    ・第二の集合は、量子化器の前記第一の集合より少数のディザリングされる量子化器を含み、
    ・前記スペクトル・デコーダは、前記予測器利得に基づいて集合基準を決定するよう構成されており、
    ・前記スペクトル・デコーダは、前記集合基準が所定の閾値より小さければあらかじめ決定された量子化器の前記第一の集合を使うよう構成されており、
    ・前記スペクトル・デコーダは、前記集合基準が前記所定の閾値以上であればあらかじめ決定された量子化器の前記第二の集合を使うよう構成されている、
    請求項52または53記載の変換ベースの発話デコーダ。
  55. ・前記集合基準は前記予測器利得gに依存する所定の制御パラメータrfuを含み、
    ・前記所定の閾値は0.75である、
    請求項54記載の変換ベースの発話デコーダ。
  56. 前記制御パラメータが
    ・rfu=min(1,max(g,0))である;または
    ・g<−1.0についてはrfu=1.0;−1.0≦g<0.0についてはrfu=−g;0.0≦g<1.0についてはrfu=g;1.0≦g<2.0についてはrfu=2.0−g;および/またはg≧2.0についてはrfu=0.0である、
    請求項55記載の変換ベースの発話デコーダ。
  57. ・当該変換ベースの発話デコーダは、逆スケーリング規則を使って、量子化された予測誤差係数の前記現在のブロックの前記量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有しており;
    ・前記加算ユニットは、再スケーリングされた予測誤差係数の前記現在のブロックを、推定された平坦化された変換係数の前記現在のブロックに加えることによって、再構成された平坦化された変換係数の前記現在のブロックを決定するよう構成されている、
    請求項50ないし56のうちいずれか一項記載の変換ベースの発話デコーダ。
  58. ・前記逆スケーリング規則に従って前記逆スケーリング・ユニットによって前記量子化された予測誤差係数に適用されるスケーリング利得は、それぞれの量子化された予測誤差係数の周波数ビンに依存し;
    ・前記逆スケーリング規則は、対応する変換ベースの発話エンコーダのスケーリング・ユニットによって適用されるスケーリング規則の逆である、
    請求項57記載の変換ベースの発話デコーダ。
  59. ・前記一つまたは複数の制御パラメータは分散保存フラグを含み;
    ・前記分散保存フラグは、量子化された予測誤差係数の前記現在のブロックの分散がどのように整形されるべきかを示し;
    ・前記一組のあらかじめ決定された量子化器は前記分散保存フラグに依存して決定される、
    請求項50ないし58のうちいずれか一項記載の変換ベースの発話デコーダ。
  60. ・前記一組のあらかじめ決定された量子化器はノイズ合成量子化器を含み;
    ・前記ノイズ合成量子化器のノイズ利得が、前記分散保存フラグに依存する、
    請求項59記載の変換ベースの発話デコーダ。
  61. ・前記一組のあらかじめ決定された量子化器はあるSNR範囲をカバーする一つまたは複数のディザリングされる量子化器を含み;
    ・前記SNR範囲は、前記分散保存フラグに依存して決定される、
    請求項59ないし60のうちいずれか一項記載の変換ベースの発話デコーダ。
  62. ・前記一組のあらかじめ決定された量子化器は少なくとも一つのディザリングされる量子化器を有し;
    ・前記少なくとも一つのディザリングされる量子化器は、量子化された予測誤差係数を決定するときに、事後利得γを適用するよう構成されており;
    ・前記事後利得γは、前記分散保存フラグに依存する、
    請求項59ないし61のうちいずれか一項記載の変換ベースの発話デコーダ。
  63. ・当該変換ベースの発話デコーダは、量子化された予測誤差係数の前記現在のブロックの前記量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有しており;
    ・前記加算ユニットは、前記分散保存フラグに依存して、推定された平坦化された変換係数の前記現在のブロックに対して、再スケーリングされた予測誤差係数の前記現在のブロックを加えることによって、あるいは量子化された予測誤差係数の前記現在のブロックを加えることによって、再構成された平坦化された変換係数の前記現在のブロックを決定するよう構成されている、
    請求項59ないし62のうちいずれか一項記載の変換ベースの発話デコーダ。
  64. 第一のセグメントを含むオーディオ信号をビットストリームにエンコードするよう構成された変換ベースのオーディオ・エンコーダであって、当該オーディオ・エンコーダは、
    ・前記オーディオ信号から前記第一のセグメントを識別するよう構成された信号分類器であって、前記第一のセグメントは、変換ベースの発話エンコーダによってエンコードされるべきものである、信号分類器と;
    ・前記第一のセグメントに基づいて変換係数の複数の逐次的なブロックを決定するよう構成された変換ユニットであって、変換係数のブロックは対応する複数の周波数ビンについての複数の変換係数を含み、前記変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、変換ユニットと;
    ・前記複数の逐次的なブロックを前記ビットストリームにエンコードするよう構成された変換ベースの発話エンコーダとを有する、
    変換ベースのオーディオ・エンコーダ。
  65. 前記オーディオ信号の前記第一のセグメント以外のセグメントをエンコードするよう構成された一般的な変換ベースのオーディオ・エンコーダをさらに有する、請求項64記載の変換ベースのオーディオ・エンコーダ。
  66. 前記一般的な変換ベースのオーディオ・エンコーダは、AACまたはHE-AACエンコーダである、請求項65記載の変換ベースのオーディオ・エンコーダ。
  67. ・前記変換ユニットはMDCTを実行するよう構成されている;および/または
    ・サンプルの前記第一の数は1024個である;および/または
    ・サンプルの前記第二の数は256個である、
    請求項64ないし66のうちいずれか一項記載の変換ベースのオーディオ・エンコーダ。
  68. 第一のセグメントを含むオーディオ信号を示すビットストリームをデコードするよう構成された変換ベースのオーディオ・デコーダであって、当該オーディオ・デコーダは、
    ・前記ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定するよう構成された変換ベースの発話デコーダと;
    ・再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された第一のセグメントを決定するよう構成された逆変換ユニットであって、再構成された変換係数のブロックは、対応する複数の周波数ビンについて複数の再構成された変換係数を含み、前記逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、逆変換ユニットとを有する、
    変換ベースのオーディオ・デコーダ。
  69. 発話信号をビットストリームにエンコードする方法であって、
    ・一組のブロックを受領する段階であって、前記一組のブロックは、変換係数の複数の逐次的なブロックを含み、前記複数の逐次的なブロックは、前記発話信号のサンプルを示し、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含む、段階と;
    ・変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定する段階であって、前記現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示す、段階と;
    ・前記現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定する段階と;
    ・それぞれ前記対応する複数の補間された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定する段階と;
    ・前記ビットストリームを、平坦化された変換係数の前記複数のブロックに基づいて決定する段階とを含む、
    方法。
  70. ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
    ・前記ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定する段階であって、前記量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示し、前記ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示し、再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む、段階と;
    ・前記量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定する段階と;
    ・それぞれ前記対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定する段階と;
    ・前記再構成された発話信号を、再構成された変換係数の前記複数のブロックに基づいて決定する段階とを含む、
    方法。
  71. 発話信号をビットストリームにエンコードする方法であって、
    ・現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、段階と;
    ・それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の前記対応する現在のブロックおよび前記一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定する段階と;
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものであり、推定された平坦化された変換係数の前記現在のブロックを決定する該段階は、
    ・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し、
    ・推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含む、段階と;

    平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定する段階と;
    ・前記ビットストリームを、予測誤差係数の前記現在のブロックに基づいて決定する段階とを含む、
    方法。
  72. ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定する段階であって、推定された平坦化された変換係数の前記現在のブロックを決定する該段階は、
    ・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し;
    ・推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含む、段階と;
    ・前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定する段階と;
    ・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定する段階と;
    ・再構成された変換係数の現在のブロックを、現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって決定する段階と;
    ・再構成された変換係数の前記一つまたは複数の以前のブロックを、それぞれ前記一つまたは複数の以前のブロック包絡を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、決定する段階と;
    ・再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、前記再構成された発話信号を決定する段階とを含む、
    方法。
  73. 発話信号をビットストリームにエンコードする方法であって、
    ・現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、段階と;
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、段階と;
    ・変換係数の前記現在のブロックに基づいて、かつ推定された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定する段階と;
    ・一組のあらかじめ決定された量子化器を使って、予測誤差係数の前記現在のブロックから導出される係数を量子化する段階であって、前記一組のあらかじめ決定された量子化器は、前記予測器パラメータに依存する、段階と;
    ・前記量子化された係数に基づいて前記ビットストリームについての係数データを決定する段階とを含む、
    方法。
  74. ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
    ・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定する段階と;
    ・一組のあらかじめ決定された量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定する段階であって、前記一組のあらかじめ決定された量子化器は、前記予測器パラメータの関数である、段階と;
    ・推定された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された変換係数の現在のブロックを決定する段階と;
    ・前記再構成された発話信号を、再構成された変換係数の前記現在のブロックに基づいて決定する段階とを含む、
    方法。
  75. 発話セグメントを含むオーディオ信号をビットストリームにエンコードする方法であって、
    ・前記オーディオ信号から前記発話セグメントを識別する段階と;
    ・変換ユニットを使って、前記発話セグメントに基づいて変換係数の複数の逐次的なブロックを決定する段階であって、前記変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは、短ブロックである、段階と;
    ・前記複数の逐次的なブロックを前記ビットストリームにエンコードする段階とを含む、
    方法。
  76. 発話セグメントを含むオーディオ信号を示すビットストリームをデコードする方法であって、
    ・前記ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定する段階と;
    ・逆変換ユニットを使って、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定する段階であって、再構成された変換係数のブロックは対応する複数の周波数ビンについての複数の再構成された変換係数を含み、前記逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、
    方法。
JP2016505841A 2013-04-05 2014-04-04 オーディオ・エンコーダおよびデコーダ Active JP6227117B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361808675P 2013-04-05 2013-04-05
US61/808,675 2013-04-05
US201361875553P 2013-09-09 2013-09-09
US61/875,553 2013-09-09
PCT/EP2014/056851 WO2014161991A2 (en) 2013-04-05 2014-04-04 Audio encoder and decoder

Publications (2)

Publication Number Publication Date
JP2016514857A true JP2016514857A (ja) 2016-05-23
JP6227117B2 JP6227117B2 (ja) 2017-11-08

Family

ID=50439392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016505841A Active JP6227117B2 (ja) 2013-04-05 2014-04-04 オーディオ・エンコーダおよびデコーダ

Country Status (20)

Country Link
US (4) US10043528B2 (ja)
EP (3) EP2981958B1 (ja)
JP (1) JP6227117B2 (ja)
KR (5) KR102028888B1 (ja)
CN (2) CN109712633B (ja)
AU (6) AU2014247000B2 (ja)
BR (3) BR122020017853B1 (ja)
CA (6) CA2948694C (ja)
DK (1) DK2981958T3 (ja)
ES (1) ES2665599T3 (ja)
HK (2) HK1218802A1 (ja)
HU (1) HUE039143T2 (ja)
IL (5) IL294836A (ja)
MX (1) MX343673B (ja)
MY (1) MY176447A (ja)
PL (1) PL2981958T3 (ja)
RU (3) RU2630887C2 (ja)
SG (1) SG11201507703SA (ja)
UA (1) UA114967C2 (ja)
WO (1) WO2014161991A2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2665599T3 (es) 2013-04-05 2018-04-26 Dolby International Ab Codificador y descodificador de audio
JP6276846B2 (ja) * 2014-05-01 2018-02-07 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
AU2015291897B2 (en) * 2014-07-25 2019-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
US9530400B2 (en) * 2014-09-29 2016-12-27 Nuance Communications, Inc. System and method for compressed domain language identification
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN106782573B (zh) * 2016-11-30 2020-04-24 北京酷我科技有限公司 一种编码生成aac文件的方法
DK3642839T3 (da) * 2017-06-19 2022-07-04 Rtx As Audiosignalkodning og -afkodning
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置
EP3751567B1 (en) 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
BR112022010062A2 (pt) * 2019-11-27 2022-09-06 Fraunhofer Ges Forschung Codificador, decodificador, aparelho para ocultação de perda de quadro, sistema e métodos
CN112201283B (zh) * 2020-09-09 2022-02-08 北京小米松果电子有限公司 音频播放方法及装置
US11935546B2 (en) * 2021-08-19 2024-03-19 Semiconductor Components Industries, Llc Transmission error robust ADPCM compressor with enhanced response
WO2023056920A1 (en) * 2021-10-05 2023-04-13 Huawei Technologies Co., Ltd. Multilayer perceptron neural network for speech processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844399A (ja) * 1994-03-17 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JP2002123298A (ja) * 2000-10-18 2002-04-26 Nippon Telegr & Teleph Corp <Ntt> 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3123286B2 (ja) * 1993-02-18 2001-01-09 ソニー株式会社 ディジタル信号処理装置又は方法、及び記録媒体
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5751903A (en) 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7254116B2 (en) * 2000-04-07 2007-08-07 Broadcom Corporation Method and apparatus for transceiver noise reduction in a frame-based communications network
EP1279167B1 (en) * 2000-04-24 2007-05-30 QUALCOMM Incorporated Method and apparatus for predictively quantizing voiced speech
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US6636830B1 (en) * 2000-11-22 2003-10-21 Vialta Inc. System and method for noise reduction using bi-orthogonal modified discrete cosine transform
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6963842B2 (en) 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
WO2003077425A1 (fr) * 2002-03-08 2003-09-18 Nippon Telegraph And Telephone Corporation Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
RU2321901C2 (ru) 2002-07-16 2008-04-10 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
WO2004082288A1 (en) 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
KR101000345B1 (ko) * 2003-04-30 2010-12-13 파나소닉 주식회사 음성 부호화 장치, 음성 복호화 장치 및 그 방법
US7460684B2 (en) * 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
NZ562188A (en) * 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
US8396717B2 (en) * 2005-09-30 2013-03-12 Panasonic Corporation Speech encoding apparatus and speech encoding method
RU2427978C2 (ru) * 2006-02-21 2011-08-27 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование аудио
US7590523B2 (en) 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US20070270987A1 (en) * 2006-05-18 2007-11-22 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
EP1870880B1 (en) 2006-06-19 2010-04-07 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
EP2958106B1 (en) * 2006-10-11 2018-07-18 The Nielsen Company (US), LLC Methods and apparatus for embedding codes in compressed audio data streams
DK2102619T3 (en) * 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
RU2420815C2 (ru) 2006-10-25 2011-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области
US20100017197A1 (en) 2006-11-02 2010-01-21 Panasonic Corporation Voice coding device, voice decoding device and their methods
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US8214200B2 (en) 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
EP2165328B1 (en) * 2007-06-11 2018-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of an audio signal having an impulse-like portion and a stationary portion
KR101411901B1 (ko) 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5539203B2 (ja) * 2007-08-27 2014-07-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された音声及びオーディオ信号の変換符号化
EP2191467B1 (en) 2007-09-12 2011-06-22 Dolby Laboratories Licensing Corporation Speech enhancement
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CN101465122A (zh) 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
ATE500588T1 (de) 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
CN101527138B (zh) * 2008-03-05 2011-12-28 华为技术有限公司 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统
CN101971251B (zh) * 2008-03-14 2012-08-08 杜比实验室特许公司 像言语的信号和不像言语的信号的多模式编解码方法及装置
CN101572586B (zh) * 2008-04-30 2012-09-19 北京工业大学 编解码方法、装置及系统
RU2536679C2 (ru) * 2008-07-11 2014-12-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
AU2009267525B2 (en) * 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
US8407046B2 (en) 2008-09-06 2013-03-26 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
WO2010028301A1 (en) 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
EP3751570B1 (en) 2009-01-28 2021-12-22 Dolby International AB Improved harmonic transposition
US8848788B2 (en) * 2009-05-16 2014-09-30 Thomson Licensing Method and apparatus for joint quantization parameter adjustment
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
MX2012004593A (es) * 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codec multimodo de audio y codificacion de celp adaptada a este.
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
PL2591470T3 (pl) * 2010-07-08 2019-05-31 Fraunhofer Ges Forschung Koder wykorzystujący kasowanie aliasingu w przód
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8560330B2 (en) 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102436820B (zh) 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CN103229235B (zh) * 2010-11-24 2015-12-09 Lg电子株式会社 语音信号编码方法和语音信号解码方法
TWI469136B (zh) 2011-02-14 2015-01-11 Fraunhofer Ges Forschung 在一頻譜域中用以處理已解碼音訊信號之裝置及方法
EP2727105B1 (en) 2011-06-30 2015-08-12 Telefonaktiebolaget LM Ericsson (PUBL) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
DK2791937T3 (en) * 2011-11-02 2016-09-12 ERICSSON TELEFON AB L M (publ) Generation of an højbåndsudvidelse of a broadband extended buzzer
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
EP2903004A4 (en) * 2012-09-24 2016-11-16 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA
CN107452392B (zh) 2013-01-08 2020-09-01 杜比国际公司 临界采样滤波器组中的基于模型的预测
ES2665599T3 (es) * 2013-04-05 2018-04-26 Dolby International Ab Codificador y descodificador de audio
US9487224B1 (en) * 2015-09-22 2016-11-08 Siemens Industry, Inc. Mechanically extendable railroad crossing gate

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844399A (ja) * 1994-03-17 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JP2002123298A (ja) * 2000-10-18 2002-04-26 Nippon Telegr & Teleph Corp <Ntt> 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定

Also Published As

Publication number Publication date
IL258331A (en) 2018-05-31
CA2908625A1 (en) 2014-10-09
KR20150127654A (ko) 2015-11-17
IL241739A (en) 2017-06-29
CA3029037C (en) 2021-12-28
AU2014247000A1 (en) 2015-10-08
CA3029033C (en) 2021-03-30
CA2997882C (en) 2020-06-30
AU2018260843B2 (en) 2020-09-03
US20180322886A1 (en) 2018-11-08
RU2740359C2 (ru) 2021-01-13
KR101739789B1 (ko) 2017-05-25
CA2948694A1 (en) 2014-10-09
BR112015025139A2 (pt) 2017-07-18
AU2017201874B2 (en) 2018-08-09
IL252640B (en) 2018-04-30
IL278164A (en) 2020-11-30
KR102383819B1 (ko) 2022-04-08
MY176447A (en) 2020-08-10
CA2997882A1 (en) 2014-10-09
EP3671738A1 (en) 2020-06-24
RU2017129552A (ru) 2019-02-04
ES2665599T3 (es) 2018-04-26
DK2981958T3 (en) 2018-05-28
IL278164B (en) 2022-08-01
UA114967C2 (uk) 2017-08-28
RU2015147276A (ru) 2017-05-16
CN105247614A (zh) 2016-01-13
US20200126574A1 (en) 2020-04-23
US20160064007A1 (en) 2016-03-03
CN109712633A (zh) 2019-05-03
CA3029033A1 (en) 2014-10-09
US10515647B2 (en) 2019-12-24
US20230238011A1 (en) 2023-07-27
KR20200103881A (ko) 2020-09-02
WO2014161991A3 (en) 2015-04-23
CN105247614B (zh) 2019-04-05
CN109712633B (zh) 2023-07-07
CA3029037A1 (en) 2014-10-09
EP2981958B1 (en) 2018-03-07
MX2015013927A (es) 2015-12-11
KR20160125540A (ko) 2016-10-31
CA3029041A1 (en) 2014-10-09
EP3352167B1 (en) 2019-10-02
RU2740690C2 (ru) 2021-01-19
KR102028888B1 (ko) 2019-11-08
RU2630887C2 (ru) 2017-09-13
AU2023200174A1 (en) 2023-02-16
HK1250836A1 (zh) 2019-01-11
US10043528B2 (en) 2018-08-07
HUE039143T2 (hu) 2018-12-28
RU2017129566A (ru) 2019-02-05
CA2908625C (en) 2017-10-03
WO2014161991A2 (en) 2014-10-09
IL241739A0 (en) 2015-11-30
RU2017129566A3 (ja) 2020-11-02
CA2948694C (en) 2019-02-05
AU2017201872B2 (en) 2018-08-09
BR112015025139B1 (pt) 2022-03-15
CA3029041C (en) 2021-03-30
AU2017201874A1 (en) 2017-04-06
EP2981958A2 (en) 2016-02-10
KR20210046846A (ko) 2021-04-28
KR102245916B1 (ko) 2021-04-30
IL252640A0 (en) 2017-07-31
AU2023200174B2 (en) 2024-02-22
HK1218802A1 (zh) 2017-03-10
BR122020017853B1 (pt) 2023-03-14
KR102150496B1 (ko) 2020-09-01
IL294836A (en) 2022-09-01
AU2014247000B2 (en) 2017-04-20
EP3352167A1 (en) 2018-07-25
AU2020281040A1 (en) 2021-01-07
AU2018260843A1 (en) 2018-11-22
IL258331B (en) 2020-11-30
AU2017201872A1 (en) 2017-04-06
US11621009B2 (en) 2023-04-04
PL2981958T3 (pl) 2018-07-31
KR20190112191A (ko) 2019-10-02
RU2017129552A3 (ja) 2020-11-02
SG11201507703SA (en) 2015-10-29
AU2020281040B2 (en) 2022-10-13
BR122020017837B1 (pt) 2022-08-23
JP6227117B2 (ja) 2017-11-08
MX343673B (es) 2016-11-16

Similar Documents

Publication Publication Date Title
JP6227117B2 (ja) オーディオ・エンコーダおよびデコーダ
JP6779966B2 (ja) 先進量子化器

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171010

R150 Certificate of patent or registration of utility model

Ref document number: 6227117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250