JP5456914B2 - サンプリングレート依存型タイムワープコンター符号化を用いた、オーディオ信号復号器、オーディオ信号符号化器、方法、およびコンピュータプログラム - Google Patents

サンプリングレート依存型タイムワープコンター符号化を用いた、オーディオ信号復号器、オーディオ信号符号化器、方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP5456914B2
JP5456914B2 JP2012556505A JP2012556505A JP5456914B2 JP 5456914 B2 JP5456914 B2 JP 5456914B2 JP 2012556505 A JP2012556505 A JP 2012556505A JP 2012556505 A JP2012556505 A JP 2012556505A JP 5456914 B2 JP5456914 B2 JP 5456914B2
Authority
JP
Japan
Prior art keywords
time warp
audio signal
warp
time
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012556505A
Other languages
English (en)
Other versions
JP2013522658A (ja
Inventor
シュテファン バイヤー
トム ベックシュトレーム
ラルフ ガイガー
ベルント エードラー
ザシャ ディッシュ
ラーシュ ヴィレメース
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2013522658A publication Critical patent/JP2013522658A/ja
Application granted granted Critical
Publication of JP5456914B2 publication Critical patent/JP5456914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Description

本発明による実施形態は、オーディオ信号復号器に関する。本発明によるさらなる実施形態は、オーディオ信号符号化器に関する。本発明によるさらなる実施形態は、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラムに関する。
本発明によるいくつかの実施形態は、サンプリング周波数依存型ピッチ変動量子化に関する。
以下に、タイムワープ型オーディオ符号化の分野について簡単に紹介する。タイムワープ型オーディオ符号化の概念は、本発明の実施形態のいくつかと共に適用することができる。
近年、オーディオ信号を周波数領域表現へ変換し、この周波数領域表現を、例えば知覚マスキング閾値を考慮して、効率的に符号化するための技術が開発されてきている。オーディオ信号符号化のこの概念は、符号化されたスペクトル係数の集合が送信されるブロック長が長い場合、およびグローバルなマスキング閾値を充分に上回るスペクトル係数の数が比較的少数であって、スペクトル係数のうちの多くがグローバルなマスキング閾値の付近またはそれ未満であり、ゆえに無視することが可能である(あるいは、最小限のコード長でコーディングすることが可能である)場合に、特に効率的である。前述の条件が成立するスペクトルは、スパーススペクトルと呼ばれる場合がある。
例えば、余弦ベースまたは正弦ベースの変調重複変換が、それらのエネルギー圧縮特性ゆえに、ソースコーディングのための用途においてしばしば使用される。すなわち、一定の基本周波数(ピッチ)を有する倍音については、これら変調重複変換により、信号のエネルギーが少数のスペクトル成分(サブ帯域)に集中し、効率的な信号表現がもたらされる。
一般に、信号の(基本)ピッチは、当該信号のスペクトルから識別することができる最も低い優位周波数であると理解されるべきである。一般的なスピーチモデルにおいて、ピッチは人間の喉によって変調された励起信号の周波数である。ただ1つの基本周波数だけが存在すると考えられる場合、スペクトルはきわめて単純になり、基本周波数および倍音だけを含むと考えられる。このようなスペクトルは、きわめて効率的に符号化することが可能である。しかしながら、ピッチが変動する信号については、各高調波成分に対応するエネルギーが、いくつかの変換係数にわたって広がり、コーディング効率が低下することになる。
このコーディング効率の低下を克服するために、符号化されるオーディオ信号は非一様な時間格子上で有効に再サンプリングされる。続く処理において、非一様な再サンプリングによって得られたサンプル位置があたかも一様な時間格子上の値を表わしているかのように処理される。この操作は、一般に、「タイムワーピング」という用語で呼ばれている。サンプル時間は、オーディオ信号のタイムワープされたバージョンにおけるピッチ変動がオーディオ信号の(タイムワーピング前の)元のバージョンにおけるピッチ変動よりも小さくなるように、ピッチの時間変動に依存して有利には選択することができる。オーディオ信号をタイムワーピングさせた後で、オーディオ信号のタイムワープされたバージョンが周波数領域に変換される。ピッチ依存型タイムワーピングは、タイムワープされたオーディオ信号の周波数領域表現が、一般的には、元の信号(タイムワープされていないオーディオ信号)の周波数領域表現と比べて、はるかに少数のスペクトル成分へのエネルギー圧縮を呈するという効果を有する。
復号器側において、タイムワープされたオーディオ信号の周波数領域表現は、タイムワープされたオーディオ信号の時間領域表現を復号器側において利用できるように、時間領域へ変換される。しかしながら、復号器側で復元されたタイムワープされたオーディオ信号の時間領域表現には、符号器側での入力オーディオ信号の元のピッチ変動が含まれていない。したがって、復号器側で復元されたタイムワープされたオーディオ信号の時間領域表現の再サンプリングによるさらに別のタイムワーピングが適用される。
復号器側において符号化器側での入力オーディオ信号の良好な復元を実現するために、復号器側でのタイムワーピングが、符号化器側でのタイムワーピングに対して少なくともほぼ逆の動作であることが望ましい。適切なタイムワーピングを実現するために、復号器側でのタイムワーピングの調整を可能にする情報が復号器において入手可能であることが望ましい。
このような情報をオーディオ信号符号化器からオーディオ信号復号器へ伝達することが一般的に必要とされるため、この伝達に必要なビットレートを小さく抑えながらも、復号器側における必要なタイムワープ情報の確実な復元を可能にすることが望まれる。
このような状況に鑑み、タイムワープ情報の信頼性の高い復元を、当該タイムワープ情報の効率的に符号化された表現に基づいて可能にする概念が所望される。
本発明による一実施形態は、復号されたオーディオ信号表現を、サンプリング周波数情報と、符号化されたタイムワープ情報と、符号化されたスペクトル表現とを含む符号化されたオーディオ信号表現に基づいて提供するように構成されたオーディオ復号器を実現する。オーディオ信号復号器は、タイムワープ計算部(例えば、タイムワープ復号部の機能を果たし得る)と、ワープ復号部とを備える。タイムワープ計算部は、符号化されたタイムワープ情報を復号されたタイムワープ情報にマッピングするように構成されている。タイムワープ計算部は、符号化されたタイムワープ情報のコードワードを復号されたタイムワープ情報を示す復号されたタイムワープ値にマッピングするためのマッピング規則をサンプリング周波数情報に応じて適合させるように構成されている。ワープ復号部は、復号されたオーディオ信号表現を、符号化されたスペクトル表現に基づいてかつ復号されたタイムワープ情報に応じて提供するように構成されている。
本発明によるこの実施形態は、タイムワープ(例えば、タイムワープコンターによって示される)は、符号化されたタイムワープ情報のコードワードを復号されたタイムワープ値にマッピングするためのマッピング規則をサンプリングレートに適合させた場合に効率的に符号化することができるという知見に基づいている。その理由は、高いサンプリング周波数よりも低いサンプリング周波数について1サンプル当たりより大きいタイムワープを表すことが望ましいことが分かったからである。このような望ましさは、符号化されたタイムワープ情報のコードワードの集合によって表現可能な時間単位当たりのタイムワープがサンプリング周波数にほぼ非依存であれば有利であるという事実から生じるということが分かった。これは、言い換えると、1オーディオサンプル(または1オーディオフレーム)当たりのタイムワープコードワードの数が実際のサンプリング周波数に関係なく少なくともほぼ一定であると仮定した場合、コードワードの所与の集合によって表現可能なタイムワープは、高いサンプリング周波数についてよりも小さいサンプリング周波数についての方が大きくなければならないということになる。
要約すると、符号化されたタイムワープ情報のコードワード(簡単にタイムワープコードワードとしても示す)を復号されたタイムワープ値にマッピングするためのマッピング規則を符号化されたオーディオ信号(符号化されたオーディオ信号表現によって表される)のサンプリング周波数に応じて適合させることは有利であることが分かった。なぜなら、これにより、比較的高いサンプリング周波数および比較的低いサンプリング周波数の両方の場合について、タイムワープコードワードの小さい(そして結果的にビットレート効率のよい)集合を用いて重要なタイムワープ値を表現することが可能となるからである。
マッピング規則を適合させることにより、比較的高いサンプリング周波数についてはより高い分解能を用いてタイムワープ値の比較的小さい範囲を符号化し、比較的小さいサンプリング周波数についてはより粗い分解能を用いてタイムワープ値のより大きい範囲を符号化することが可能となり、これにより、非常に優れたビットレート効率が実現される。
好ましい実施形態において、符号化されたタイムワープ情報のコードワードは、タイムワープコンターの時間変遷(時間的変化)を示す。タイムワープ計算部は、符号化されたタイムワープ情報の所定数のコードワードを、符号化されたオーディオ信号表現によって表される符号化されたオーディオ信号のオーディオフレームについて評価するように構成されているのが好ましい。コードワードの所定数は、符号化されたオーディオ信号のサンプリング周波数に依存しない。したがって、ビットストリームフォーマットをサンプリング周波数から実質的に非依存のままとしながらも、タイムワープを効率的に符号化することが可能となる。符号化されたオーディオ信号のオーディオフレームについて所定数のタイムワープコードワードを使用することにより(ここで、所定数は、符号化されたオーディオ信号のサンプリング周波数に依存しないのが好ましい)、ビットストリームフォーマットがサンプリング周波数と共に変化することがなく、オーディオ復号器のビットストリームパーサをサンプリング周波数に調整する必要が無い。しかしながら、タイムワープの効率的な符号化は、符号化されたタイムワープ情報のコードワードを復号されたタイムワープ値にマッピングするためのマッピング規則を適合させることによってやはり実現することができる。なぜなら、タイムワープコードワードの復号されたタイムワープ値へのマッピングは、異なるサンプリング周波数についての分解能と最大符号化可能タイムワープとの良好な妥協がタイムワープ値の表現可能な範囲によってもたらされるようにサンプリング周波数に適合させることができるからである。
好ましい実施形態において、タイムワープ計算部は、符号化されたタイムワープ情報のコードワードの所与の集合がマッピングされる復号されたタイムワープ値の範囲が、第2のサンプリング周波数についてよりも第1のサンプリング周波数について大きくなるように、マッピング規則を適合させるよう構成されている(但し、第1のサンプリング周波数は第2のサンプリング周波数よりも小さい)。したがって、比較的高いサンプリング周波数についてタイムワープ値の比較的小さい範囲を符号化するのと同じコードワードが、比較的小さいサンプリング周波数についてタイムワープ値の比較的大きい範囲を符号化する。よって、比較的低いサンプリング周波数についてよりも比較的高いサンプリング周波数についての方が時間単位当たりより多くのタイムワープコードワードが送信される場合であっても、高いサンプリング周波数および低いサンプリング周波数について、(例えば、オクターブ/秒(簡単に「oct/s」として示す)で定義される)時間単位当たりほぼ同じタイムワープを符号化することができることが保証され得る。
好ましい実施形態において、復号されたタイムワープ値は、タイムワープコンターの値を表すタイムワープコンター値、またはタイムワープコンターの値の変化を表すタイムワープコンター変動値である。
好ましい実施形態において、タイムワープ計算部は、符号化されたタイムワープ情報のコードワードの所与の集合によって表現可能な、所与の数のサンプルにわたるピッチの最大変化が、第2のサンプリング周波数についてよりも第1のサンプリング周波数について大きくなるように、マッピング規則を適合させるよう構成されている(但し、第1のサンプリング周波数は第2のサンプリング周波数よりも小さい)。したがって、復号されたタイムワープ値の異なる範囲を示すために、異なるサンプリング周波数に対して非常に良好に適合されたコードワードの同じ集合が使用される。
好ましい実施形態において、タイムワープ計算部は、第1のサンプリング周波数における符号化されたタイムワープ情報のコードワードの所与の集合によって表現可能な、所与の期間にわたるピッチの最大変化が、第2のサンプリング周波数における符号化されたタイムワープ情報のコードワードの所与の集合によって表現可能な、所与の期間にわたるピッチの最大変化と、第1のサンプリング周波数については10%未満しか異ならず、第2のサンプリング周波数については少なくとも30%異なるように、マッピング規則を適合させるよう構成されている。したがって、本発明によれば、従来のようにコードワードの所与の集合が異なるサンプリング周波数について表す時間単位当たりのタイムワープが著しく異なることがマッピング規則の適合により回避される。よって、異なるコードワードの数を妥当に小さく抑えることができ、その結果、タイムワープの符号化の分解能をサンプリング周波数に適合されながらも良好なコーディング効率が得られる。
好ましい実施形態において、タイムワープ計算部は、サンプリング周波数情報に応じて、符号化されたタイムワープ情報のコードワードを復号されたタイムワープ値にマッピングするための異なるマッピングテーブルを使用するように構成されている。異なるマッピングテーブルを用意することにより、メモリ要件を犠牲にして復号機構を非常に簡素にしておくことができる。
別の好ましい実施形態において、タイムワープ計算部は、基準サンプリング周波数について符号化されたタイムワープ情報の異なるコードワードに対応付けられた復号されたタイムワープ値を示す(基準)マッピング規則を、基準サンプリング周波数とは異なる実際のサンプリング周波数に適合させるように構成されている。したがって、単一の基準サンプリング周波数について異なるコードワードの集合に対応付けられたマッピング値(すなわち、復号されたタイムワープ値)を格納するだけでよいため、必要となるメモリを小さく抑えることができる。小さな計算労力でマッピング値を異なるサンプリング周波数に適合させることができることが分かった。
好ましい実施形態において、タイムワープ計算部は、タイムワープを示すマッピング値の部分を、実際のサンプリング周波数と基準サンプリング周波数との比に応じてスケーリングするように構成されている。マッピング値の部分のこのような線形スケーリングは、異なるサンプリング周波数についてのマッピング値を取得するための特に効率的な解決策となることが分かった。
好ましい実施形態において、復号されたタイムワープ値は、符号化されたオーディオ信号表現によって表される符号化されたオーディオ信号の所定数のサンプルにわたるタイムワープコンターの変動を示す。この場合、タイムワープ計算部は、タイムワープコンターの変動を表す複数の復号されたタイムワープ値を組み合わせて、ワープコンターノード値を導出し、当該導出されたワープノード値の基準ワープノード値からの偏差が、復号されたタイムワープ値のうちの1つによって表現可能な偏差よりも大きくなるようにするよう構成されているのが好ましい。複数の復号されたタイムワープ値を組み合わせることにより、個々のタイムワープ値に必要とされる範囲を十分に小さく維持することができる。これにより、タイムワープ値のコーディング効率が高くなる。同時に、マッピング規則を適合させることにより、表現可能なタイムワープの範囲を調整することができる。
好ましい実施形態において、符号化されたタイムワープ値は、符号化されたオーディオ信号表現によって表される符号化されたオーディオ信号の所定数のサンプルにわたるタイムワープコンターの相対的な変化を示す。この場合、タイムワープ計算部は、復号されたタイムワープ値から復号されたタイムワープ情報を導出するように構成され、その結果、復号されたタイムワープ情報はタイムワープコンターを示す。符号化されたオーディオ信号の所定数のサンプルにわたるタイムワープコンターの相対的な変化を示すタイムワープ値を、符号化されたタイムワープ情報のコードワードを復号されたタイムワープ値にマッピングするためのマッピング規則の適合と組み合わせて使用することにより、高いコーディング効率が得られる。なぜなら、サンプリング周波数が変化した場合に符号化されたオーディオ信号の1サンプル当たりのタイムワープコードワード数を一定にしておくことを可能にしながらも、異なるサンプリング周波数についてタイムワープの実質的に同一のまたは少なくとも類似の範囲(oct/sを単位とした範囲)を符号化することを保証することができるからである。
好ましい実施形態において、タイムワープ計算部は、復号されたタイムワープ値に基づいてタイムワープコンターの支持点(サポーティング・ポイント)を計算するように構成されている。この場合、タイムワープ計算部は、支持点間を補間して、タイムワープコンターを復号されたタイムワープ情報として取得するように構成されている。この場合、1オーディオフレーム当たりの復号されたタイムワープ値の数は、予め定められ、サンプリング周波数に依存しない。したがって、支持点間の補間方式は、変更しないでおくことができ、このことは、計算の複雑性を小さくしておくのに役立つ。
本発明による一実施形態は、オーディオ信号の符号化された表現を提供するためのオーディオ信号符号化器を実現する。オーディオ信号符号化器は、タイムワープコンターを示すタイムワープ値を符号化されたタイムワープ情報にマッピングするように構成されたタイムワープコンター符号化部を備える。タイムワープコンター符号化部は、タイムワープコンターを示すタイムワープ値を符号化されたタイムワープ情報のコードワードにマッピングするためのマッピング規則をオーディオ信号のサンプリング周波数に応じて適合させるように構成されている。オーディオ信号符号化器はまた、オーディオ信号のスペクトルの符号化された表現を、タイムワープコンター情報によって示されるタイムワープを考慮して取得するように構成されたタイムワーピング信号符号化部も備える。この場合、オーディオ信号の符号化された表現は、符号化されたタイムワープ情報のコードワード、スペクトルの符号化された表現、およびサンプリング周波数を示すサンプリング周波数情報を含む。このオーディオ符号化器は、上述のオーディオ信号復号器によって使用される符号化されたオーディオ信号表現を提供するのによく適している。さらに、オーディオ信号符号化器は、オーディオ信号復号器について上述したものと同じ利点をもたらすものであり、また同じ検討に基づいている。
本発明による別の実施形態は、復号されたオーディオ信号表現を符号化されたオーディオ信号表現に基づいて提供するための方法を実現する。
本発明による別の実施形態は、オーディオ信号の符号化された表現を提供するための方法を実現する。
本発明による別の実施形態は、上記方法のうち一方または両方を実施するためのコンピュータプログラムを実現する。
次に、本発明による実施形態を添付の図面を参照しながら説明する。
図1は、本発明の一実施形態によるオーディオ信号符号化器のブロック模式図を示す。 図2は、本発明の一実施形態によるオーディオ信号復号器のブロック模式図を示す。 図3aは、本発明の別の実施形態によるオーディオ信号符号化器のブロック模式図を示す。 図3bは、本発明の別の実施形態によるオーディオ信号復号器のブロック模式図を示す。 図3bは、本発明の別の実施形態によるオーディオ信号復号器のブロック模式図を示す。 図4aは、本発明の一実施の形態による、符号化されたタイムワープ情報を復号されたタイムワープ値にマッピングするためのマッピング部のブロック模式図を示す。 図4bは、本発明の別の実施の形態による、符号化されたタイムワープ情報を復号されたタイムワープ値にマッピングするためのマッピング部のブロック模式図を示す。 図4cは、従来の量子化方式のワープのテーブル表現を示す。 図4dは、本発明の一実施形態による、異なるサンプリング周波数についての復号されたタイムワープ値へのコードワードインデックスのマッピングのテーブル表現を示す。 図4eは、本発明の別の実施形態による、異なるサンプリング周波数についての復号されたタイムワープ値へのコードワードインデックスのマッピングのテーブル表現を示す。 図5a、図5bは、本発明の一実施形態による、オーディオ信号復号器のブロック模式図からの詳細な抜粋を示す。 図5a、図5bは、本発明の一実施形態による、オーディオ信号復号器のブロック模式図からの詳細な抜粋を示す。 図6a、図6bは、本発明の一実施形態による、復号されたオーディオ信号表現を提供するためのマッピング部のフローチャートからの詳細な抜粋を示す。 図6a、図6bは、本発明の一実施形態による、復号されたオーディオ信号表現を提供するためのマッピング部のフローチャートからの詳細な抜粋を示す。 図7aは、本発明の一実施形態によるオーディオ復号器において使用されるデータ要素およびヘルプ要素の定義の凡例を示す。 図7aは、本発明の一実施形態によるオーディオ復号器において使用されるデータ要素およびヘルプ要素の定義の凡例を示す。 図7bは、本発明の一実施形態によるオーディオ復号器において使用される定数の定義の凡例を示す。 図8は、対応する復号されたタイムワープ値へのコードワードインデックスのマッピングのテーブル表現を示す。 図9は、等間隔ワープノード間を直線補間するためのアルゴリズムの疑似プログラムコード表現を示す。 図10aは、ヘルパー関数「warp_time_inv」の疑似プログラムコード表現を示す。 図10bは、ヘルパー関数「warp_inv_vec」の疑似プログラムコード表現を示す。 図11は、サンプル位置ベクトルおよび遷移長を計算するためのアルゴリズムの疑似プログラムコード表現を示す。 図11は、サンプル位置ベクトルおよび遷移長を計算するためのアルゴリズムの疑似プログラムコード表現を示す。 図12は、窓シーケンスおよびコアコーダフレーム長に依存する合成窓長Nの値のテーブル表現を示す。 図13は、許可された窓シーケンスの行列表現を示す。 図14は、窓関数処理および「EIGHT_SHORT_SEQUENCE」のタイプの窓シーケンスの内部重複加算のためのアルゴリズムの疑似プログラムコード表現を示す。 図14は、窓関数処理および「EIGHT_SHORT_SEQUENCE」のタイプの窓シーケンスの内部重複加算のためのアルゴリズムの疑似プログラムコード表現を示す。 図15は、「EIGHT_SHORT_SEQUENCE」ではないタイプの他の窓シーケンスの窓関数処理および内部重複加算のためのアルゴリズムの疑似プログラムコード表現を示す。 図16は、再サンプリングを行うためのアルゴリズムの疑似プログラムコード表現を示す。 図17a〜図17fは、本発明の一実施形態による、オーディオストリームの構文要素の表現を示す。 図17a〜図17fは、本発明の一実施形態による、オーディオストリームの構文要素の表現を示す。 図17a〜図17fは、本発明の一実施形態による、オーディオストリームの構文要素の表現を示す。 図17a〜図17fは、本発明の一実施形態による、オーディオストリームの構文要素の表現を示す。 図17a〜図17fは、本発明の一実施形態による、オーディオストリームの構文要素の表現を示す。 図17a〜図17fは、本発明の一実施形態による、オーディオストリームの構文要素の表現を示す。
1.図1によるタイムワープオーディオ信号符号化器
図1は、本発明の一実施の形態によるタイムワープオーディオ信号符号化器100のブロック模式図を示す。
オーディオ信号符号化器100は、入力オーディオ信号110を受信し、これに基づいて、入力オーディオ信号110の符号化された表現112を提供するように構成されている。入力オーディオ信号110の符号化された表現112は、例えば、符号化されたスペクトル表現、符号化されたタイムワープ情報(例えば、「tw_data」で示され得るとともに、例えば、コードワードtw_ratio[i]を含み得る)およびサンプリング周波数情報を含み得る。
オーディオ信号符号化器は、タイムワープ分析部120を任意には含んでもよく、タイムワープ分析部120は、入力オーディオ信号110を受信し、入力オーディオ信号を分析し、そして、タイムワープコンター情報122を、当該タイムワープコンター情報122が、例えば、オーディオ信号110のピッチの時間変遷を示すように提供するよう構成されてもよい。しかしながら、オーディオ信号符号化器100は、その代わりに、オーディオ信号符号化器の外部のタイムワープ分析部によって提供されたタイムワープコンター情報を受信してもよい。
オーディオ信号符号化器100はまた、タイムワープコンター情報122を受信し、これに基づいて、符号化されたタイムワープ情報132を提供するように構成されたタイムワープコンター符号化部130も備える。例えば、タイムワープコンター符号化部130は、タイムワープコンターを示すタイムワープ値を受信し得る。タイムワープ値は、例えば、正規化されたあるいは正規化されていないタイムワープコンターの絶対値または正規化されたあるいは正規化されていないタイムワープコンターの経時相対変化を示し得る。一般的に、タイムワープコンター符号化部130は、タイムワープコンター122を示すタイムワープ値を符号化されたタイムワープ情報132にマッピングするように構成されている。
タイムワープコンター符号化部130は、タイムワープコンターを示すタイムワープ値を符号化されたタイムワープ情報132のコードワードにマッピングするためのマッピング規則をオーディオ信号のサンプリング周波数に応じて適合させるように構成されている。この目的で、タイムワープコンター符号化部130は、サンプリング周波数情報を受信して、それにより、当該マッピング134を適合させてもよい。
オーディオ信号符号化器100はまた、オーディオ信号110のスペクトルの符号化された表現142を、タイムワープコンター情報122によって示されるタイムワープを考慮して取得するように構成されたタイムワーピング信号符号化部140も備える。
したがって、符号化されたオーディオ信号表現112は、オーディオ信号110の符号化された表現112が、符号化されたタイムワープ情報132のコードワードと、スペクトルの符号化された表現142と、サンプリング周波数(例えば、時間領域−周波数領域変換との関連でタイムワーピング信号符号化部140によって使用される入力オーディオ信号110のサンプリング周波数および/または(平均)サンプリング周波数)を示すサンプリング周波数情報152とを含むように、例えば、ビットストリーム提供部を用いて提供され得る。
オーディオ信号符号化器100の機能に関し、オーディオフレーム(オーディオサンプルを単位とした、オーディオフレームの長さは、タイムワーピング信号符号化部によって使用される時間領域−周波数領域変換の変換長に等しくてもよい)中にピッチが変化するオーディオ信号のスペクトルは、時変再サンプリングによって圧縮することができるといえる。したがって、タイムワープコンター情報122に応じてタイムワーピング信号符号化部140によって行われ得る時変再サンプリングにより、元の入力オーディオ信号110のスペクトルよりも優れたビットレート効率で符号化が可能なスペクトル(再サンプリングされたオーディオ信号の)が得られる。
しかしながら、タイムワーピング信号符号化部140において適用されるタイムワープは、符号化されたタイムワープ情報を用いて図2によるオーディオ信号復号器200に通知される。さらに、コードワードへのタイムワープ値のマッピングを含み得るタイムワープ情報の符号化は、入力オーディオ信号110の異なるサンプリング周波数またはタイムワーピング信号符号化部140(もしくはその時間領域−周波数領域変換)が動作する異なるサンプリング周波数について、タイムワープ値のコードワードへの異なるマッピングが使用されるように、サンプリング周波数情報に応じて適合される。
このように、タイムワーピング信号符号化部140によって処理が可能な考えられるサンプリング周波数のそれぞれについて最もビットレートの高いマッピングを選択することができる。このような適合は、理にかなっている。なぜなら、符号化されたタイムワープ情報のビットレートは、タイムワープコンターを示すタイムワープ値のコードワードへのマッピングが現在の周波数に一致していれば、タイムワーピング信号符号化部140によって使用される考えうるサンプリング周波数が多数存在する場合であっても低く抑えることができることが分かっているからである。したがって、1オーディオフレーム当たりのコードワード数が、異なるサンプリング周波数にわたって一定のままであったとしても、比較的小さいサンプリング周波数および比較的大きいサンプリング周波数のいずれの場合においても、十分に高い分解能、そしてまた、十分に大きいダイナミックレンジでタイムワープコンターを符号化するのに、異なるコードワードの小さい集合で足りることを保証することができる(これにより、サンプリング周波数に依存しないビットストリームが提供され、したがって、符号化されたオーディオ信号表現112の生成、格納、構文解析およびオンザフライ処理が容易となる)。
マッピング134の適合に関するさらなる詳細については後述する。
2. 図2によるタイムワープオーディオ信号復号器
図2は、本発明の一実施の形態によるタイムワープオーディオ信号復号器200のブロック模式図を示す。
オーディオ信号復号器200は、符号化されたオーディオ信号表現210に基づいて、復号されたオーディオ信号表現212を(例えば、時間領域オーディオ信号表現の形態で)提供するように構成されている。符号化されたオーディオ信号表現210は、例えば、符号化されたスペクトル表現214(タイムワーピングオーディオ信号符号化器140によって提供される符号化されたスペクトル表現142に等しくてもよい)と、符号化されたタイムワープ情報216(例えば、タイムワープコンター符号化部130によって提供される符号化されたタイムワープ情報132に等しくてもよい)と、サンプリング周波数情報218(例えば、サンプリング周波数情報152に等しくてもよい)とを含み得る。
オーディオ信号復号器200は、タイムワープ復号部であるとも考えられ得るタイムワープ計算部230を備える。タイムワープ計算部230は、符号化されたタイムワープ情報216を復号されたタイムワープ情報232にマッピングするように構成されている。符号化されたタイムワープ情報216は、例えば、タイムワープコードワード「tw_ratio[i]」を含んでもよく、復号されたタイムワープ情報は、例えば、タイムワープコンターを示すタイムワープコンター情報の形態をとってもよい。タイムワープ計算部230は、符号化されたタイムワープ情報216の(タイムワープ)コードワードを復号されたタイムワープ情報を示す復号されたタイムワープ値にマッピングするためのマッピング規則234をサンプリング周波数情報218に応じて適合させるように構成されている。したがって、復号されたタイムワープ情報232のタイムワープ値への符号化されたタイムワープ情報216のコードワードの異なるマッピングを、サンプリング周波数情報によって通知される異なるサンプリング周波数について選択することができる。
オーディオ信号復号器200はまた、スペクトルの符号化された表現214を受信し、符号化されたスペクトル表現214に基づいてかつ復号されたタイムワープ情報232に応じて、復号されたオーディオ信号表現212を提供するように構成されたワープ復号部240も備える。
したがって、符号化されたタイムワープ情報のコードワードの復号されたタイムワープ値へのマッピングはサンプリング周波数に依存するため、オーディオ信号復号器200により、比較的高いサンプリング周波数および比較的低いサンプリング周波数の両方について、符号化されたタイムワープ情報の効率的な復号が可能となる。よって、比較的小さいサンプリング周波数については時間単位当たり十分に大きいタイムワープをカバーするとともに、比較的小さいサンプリング周波数および比較的高いサンプリング周波数の両方にコードワードの同じ集合を用いながら、比較的高いサンプリング周波数についてタイムワープコンターの高い分解能を実現することができる。したがって、ビットストリームフォーマットは、サンプリング周波数に実質的に非依存でありながらも、比較的高いサンプリング周波数および比較的小さいサンプリング周波数の両方の場合において、タイムワープを適切な精度およびダイナミックレンジで示すことができる。
マッピング234の適合に関するさらなる詳細については後述する。ワープ復号部240に関するさらなる詳細についても後述する。
3.図3aによるタイムワープオーディオ信号符号化器
図3aは、本発明の一実施の形態によるタイムワープオーディオ信号符号化器300のブロック模式図を示す。
図3によるオーディオ信号符号化器300は、図1によるオーディオ信号符号化器100と同様であるため、同一の信号およびデバイスには同一の参照符号を付す。しかしながら、図3aは、タイムワープ信号符号化部140についてより詳細に示している。
本発明はタイムワープオーディオ符号化およびタイムワープオーディオ復号に関するため、タイムワーピングオーディオ信号符号化器140の詳細についての概要を簡潔に述べる。タイムワーピングオーディオ信号符号化器140は、入力オーディオ信号110を受信し、入力オーディオ信号110の符号化されたスペクトル表現142をフレームのシーケンスについて提供するように構成されている。タイムワーピングオーディオ信号符号化器140は、入力オーディオ信号110をサンプリングまたは再サンプリングして、周波数領域変換のベースとして使用される信号ブロック(サンプリングされた表現)140dを導出するように適合されたサンプリングユニットまたは再サンプリングユニット140aを備える。サンプリングユニット/再サンプリングユニット140aは、サンプリング位置計算部140bを備え、サンプリング位置計算部140bは、タイムワープコンター情報122によって示されるタイムワープに適合され、したがって、タイムワープ(またはピッチ変動、あるいは基本周波数変動)がゼロでない場合には時間において等距離ではない、サンプル位置を計算するように構成されている。サンプリングユニットまたは再サンプリングユニット140aはまた、サンプリング位置計算部によって求められた時間的に等距離でないサンプル位置を用いて入力オーディオ信号110の一部(例えば、オーディオフレーム)をサンプリングまたは再サンプリングするように構成されたサンプリング部または再サンプリング部140cも備える。
タイムワーピングオーディオ信号符号化器140は、サンプリングユニットまたは再サンプリングユニット140aによって出力されたサンプリングまたは再サンプリングされた表現140dについてのスケーリング窓を導出するように適合された変換窓計算部140eを更に備える。スケーリング窓情報140fおよびサンプリング/再サンプリングされた表現140dは、スケーリング窓情報140fによって示されるスケーリング窓をサンプリングユニット/再サンプリングユニット140aによって導出された対応するサンプリングまたは再サンプリングされた表現140dに適用するように適合された窓関数処理部140gに入力される。他の実施形態では、タイムワーピングオーディオ信号符号化器140は、入力オーディオ信号110のサンプリングおよび窓関数処理された表現140hの周波数領域表現140jを(例えば、変換係数またはスペクトル係数の形態で)導出するために、周波数領域変換部140iを更に備え得る。周波数領域表現140jは、例えば、後処理されてもよい。さらに、周波数領域表現140j、またはその後処理されたバージョンを符号化140kを用いて符号化して、入力オーディオ信号110の符号化されたスペクトル表現142を取得してもよい。
タイムワーピングオーディオ信号符号化器140は、入力オーディオ信号110のピッチコンターをさらに使用する(ここで、ピッチコンターは、タイムワープコンター情報122によって示され得る)。タイムワープコンター情報122は、入力情報としてオーディオ信号符号化器300に提供されてもよく、あるいは、オーディオ信号符号化器300によって導出されてもよい。したがって、オーディオ信号符号化器300は、タイムワープコンター情報122を、当該タイムワープコンター情報122がピッチコンター情報を構成するかあるいはピッチコンターまたは基本周波数を示すように導出するためのピッチ推定部として動作し得るタイムワープ分析部120を任意には備え得る。
サンプリングユニット/再サンプリングユニット140aは、入力オーディオ信号110の連続的な表現(連続的なデータ)に対して処理を行うものであってもよい。しかし、その代わりに、サンプリングユニット/再サンプリングユニット140aは、入力オーディオ信号110の以前にサンプリングされた表現(データ)に対して処理を行うものであってもよい。前者の場合、ユニット140aは、入力オーディオ信号をサンプリングすることができ(したがってサンプリングユニットであると考えられ得る)、後者の場合、ユニット140aは、入力オーディオ信号110の以前にサンプリングされた表現を再サンプリングすることができる(したがって、再サンプリングユニットであると考えられ得る)。サンプリングユニット140aは、例えば、隣接する重複オーディオブロックを、サンプリングまたは再サンプリング後に、入力ブロックのそれぞれにおける重複部分が一定のピッチを有するかあるいはピッチ変動が低減するようにタイムワープさせるように適合されてもよい。
変換窓計算部140eは、任意には、オーディオブロックについての(例えば、オーディオフレームについての)スケーリング窓をサンプリング部140aによって行われるタイムワーピングに応じて導出してもよい。この目的で、サンプリング部によって使用されるワーピング規則を定義するために任意の調整ブロック140lが存在してもよく、このワーピング規則は、次いで、変換窓計算部140eにも提供される。
別の実施形態において、調整ブロック140lを省略してもよく、タイムワープコンター情報122によって示されるピッチコンターを変換窓計算部140eに直接提供してもよく、変換窓計算部140e自体が適切な計算を行ってもよい。さらに、サンプリングユニット/再サンプリングユニット140aは、適切なスケーリング窓の計算を可能にするため、適用されたサンプリングに関する情報を変換窓計算部140eに伝えてもよい。
しかしながら、いくつかの他の実施形態では、窓関数処理は、タイムワーピングの内容に実質的に非依存であってもよい。
タイムワーピングは、ユニット140aによってタイムワープおよびサンプリングされた(または再サンプリングされた)、サンプリングされた(または再サンプリングされた)オーディオブロック(またはオーディオフレーム)のピッチコンターが元の入力オーディオ信号110のピッチコンターと比較してより一定となるように、サンプリングユニット/再サンプリングユニット140aによって行われる。したがって、ユニット140aによって行われるサンプリングまたは再サンプリングにより、ピッチコンターの時間変動によって生じるスペクトルのスメアリング(スペクトルに発生するスミア)が低減される。よって、サンプリングまたは再サンプリングされたオーディオ信号140dのスペクトルは、入力オーディオ信号110のスペクトルよりも、スメアリングが少なく(そして、典型的には、よりはっきりとしたスペクトルのピークおよびスペクトルの谷を示す)。したがって、入力オーディオ信号110のスペクトルを同じ精度で符号化するために必要とされるビットレートと比較して、サンプリングされた(または再サンプリングされた)オーディオ信号140dのスペクトルをより少ないビットレートで符号化することが典型的には可能である。
ここで、入力オーディオ信号110は、典型的には、フレーム単位で処理され、フレームは、特定の要件によっては、重複していてもよく、あるいは重複していなくてもよいという点に留意されたい。例えば、入力オーディオ信号のフレームのそれぞれをユニット140aによって個別にサンプリングまたは再サンプリングして、それにより、時間領域サンプル140dの各集合によって示されるサンプリングされた(または再サンプリングされた)フレームのシーケンスを取得してもよい。また、窓関数処理140gにより、時間領域サンプル140dのそれぞれの集合によって表されるサンプリングまたは再サンプリングされたフレームに窓関数処理を個別に適用してもよい。さらに、窓関数処理および再サンプリングされた時間領域サンプル140hのそれぞれの集合によって示される窓関数処理および再サンプリングされたフレームを、変換部140iによって個々に周波数領域に変換してもよい。しかしながら、個々のフレームのいくらかの(時間)重複が存在し得る。
さらに、オーディオ信号110は、所定のサンプリング周波数(サンプリングレートとしても示す)でサンプリングされ得るという点に留意されたい。サンプリング部または再サンプリング部140cによって行われる再サンプリングにおいて、再サンプリングは、入力オーディオ信号110の再サンプリングされたブロック(またはフレーム)が、入力オーディオ信号110のサンプリング周波数(またはサンプリングレート)と同一の(または少なくともほぼ同一である(例えば+/−5%の許容差を有する))平均サンプリング周波数(またはサンプリングレート)を含み得るように実行されるものであってもよい。しかしながら、オーディオ信号符号化器300は、その代わりに、異なるサンプリング周波数(またはサンプリングレート)の入力オーディオ信号で動作するように構成されてもよい。
したがって、いくつかの実施形態において、時間領域サンプル140dによって表される再サンプリングされたブロックまたはフレームの平均サンプリング周波数(またはサンプリングレート)は、入力オーディオ信号110のサンプリング周波数またはサンプリングレートに応じて変化し得る。
しかしながら、サンプリング部140aは、操作者の希望または要求に応じたサンプリングレート変換と、タイムワーピングとの両方を行うことができるため、時間領域サンプル140dによって表されるサンプリングまたは再サンプリングされたオーディオ信号のブロックまたはフレームの平均サンプリング周波数またはサンプリングレートが、入力オーディオ信号110のサンプリングレートと異なっている可能性も勿論ある。
したがって、時間領域サンプル140dの集合によって表されるサンプリングまたは再サンプリングされたオーディオ信号のブロックまたはフレームは、入力オーディオ信号110の平均サンプリング周波数もしくはサンプリングレートおよび/またはユーザの希望に応じて、異なるサンプリング周波数またはサンプリングレートで提供され得る。
ただし、いくつかの実施形態においては、スペクトル値140dの集合によって表されるサンプリングまたは再サンプリングされたオーディオ信号のブロックまたはフレームの長さ(オーディオサンプルを単位とした)は、異なる平均サンプリング周波数またはサンプリングレートについても一定であってもよい。しかしながら、いくつかの実施形態においては、2つの可能な長さ(ブロックまたはフレーム当たりのオーディオサンプルを単位とした)の間で切り替えを行ってもよく、第1の(短ブロック)モードのブロック長またはフレーム長は、平均サンプリング周波数に非依存であってもよく、第2の(長ブロック)モードのブロック長またはフレーム長(オーディオサンプルを単位とした)もまた、平均サンプリング周波数またはサンプリングレートに非依存であってもよい。
したがって、窓関数処理部140gによって行われる窓関数処理、変換部140iによって行われる変換、および符号化部140kによって行われる符号化は、サンプリングまたは再サンプリングされたオーディオ信号140dの平均サンプリング周波数またはサンプリングレートに実質的に非依存であってもよい(平均サンプリング周波数またはサンプリングレートに関係なく行われ得る短ブロックモードと長ブロックモードとの間の考えられる切り替えは除く)。
結論すると、タイムワーピング信号符号化部140により、入力オーディオ信号110を効率的に符号化することが可能となる。なぜなら、サンプリング部140aによって行われるサンプリングまたは再サンプリングによって、入力オーディオ信号110が時間ピッチ変動を含む場合に入力オーディオ信号110よりもスペクトルのスメアリングが少ない再サンプリングされたオーディオ信号140dが得られ、これにより、入力オーディオ信号110のサンプリング/再サンプリングおよび窓関数処理されたバージョン140hに基づいて変換部140iにより提供されたスペクトル係数140jをビットレート効率よく符号化する(符号化部140kによって)ことが可能となる。
タイムワープコンター符号化部130によってサンプリング周波数依存的に行われるタイムワープ型コンター符号化により、サンプリング/再サンプリングされたオーディオ信号140dの異なるサンプリング周波数(または平均サンプリング周波数)についてのタイムワープコンター情報122をビットレート効率よく符号化することが可能となり、その結果、符号化されたスペクトル表現142と符号化されたタイムワープ情報132とを含むビットストリームはビットレート効率がよいものとなる。
4.図3bによるタイムワープオーディオ信号復号器
図3bは、本発明の一実施形態によるオーディオ信号復号器350のブロック模式図を示す。
オーディオ信号復号器350は、図2によるオーディオ信号復号器200と類似しているため、同一の信号およびデバイスには同一の参照符号を付し、重複する説明はここでは省略する。
オーディオ信号復号器350は、第1のタイムワープおよびサンプリングされたオーディオフレームの符号化されたスペクトル表現を受信するとともに、第2のタイムワープおよびサンプリングされたオーディオフレームの符号化されたスペクトル表現も受信するために構成されている。一般的に、オーディオ信号符号化器350は、タイムワープ・再サンプリングされたオーディオフレームの符号化されたスペクトル表現のシーケンスを受信するために構成され、当該符号化されたスペクトル表現は、例えば、オーディオ信号符号化器300のタイムワーピング信号符号化部140によって提供され得る。加えて、オーディオ信号復号器350は、例えば、符号化されたタイムワープ情報216やサンプリング周波数情報218といった副情報を受信する。
ワープ復号部240は、スペクトルの符号化された表現214を受信し、このスペクトルの符号化された表現214を復号し、当該スペクトルの復号された表現240bを提供するように構成された復号部240aを備える。ワープ復号部240はまた、スペクトルの復号された表現240bを受信し、スペクトルの当該復号された表現240bに基づいて逆変換を実行して、これにより、符号化されたスペクトル表現214によって示されるタイムワープ・サンプリングされたオーディオ信号のブロックまたはフレームの時間領域表現240dを取得するように構成された逆変換部240cも備える。ワープ復号部240はまた、ブロックまたはフレームの時間領域表現240dに窓関数処理を適用して、これにより、ブロックまたはフレームの窓関数処理された時間領域表現240fを取得するように構成された窓関数処理部240eも備える。ワープ復号部240はまた、窓関数処理された時間領域表現240fがサンプリング位置情報240hに応じて再サンプリングされ、これにより、ブロックまたはフレームについての窓関数処理および再サンプリングされた時間領域表現240iが取得される再サンプリング240gも含む。ワープ復号部240はまた重複部・加算部240jも備え、重複部・加算部240jは、窓関数処理および再サンプリングされた時間領域表現の連続するブロックまたはフレームを重複加算して、これにより、窓関数処理および再サンプリングされた時間領域表現240iの連続するブロックまたはフレーム間の平滑な移行を実現し、これによって、重複加算演算により復号されたオーディオ信号表現212を取得するように構成されている。
ワープ復号部240は、タイムワープ計算部(またはタイムワープ復号部)230から復号されたタイムワープ情報232を受信し、これに基づいてサンプリング位置情報240hを提供するように構成されたサンプリング位置計算部240kを備える。したがって、復号されたタイムワープ情報232は、再サンプリング部240gによって行われる時変再サンプリングを示す。
任意には、ワープ復号部240は、窓関数処理部240eによって使用される窓の形状を要件に応じて調整するように構成され得る窓形状調整部240lを備えてもよい。例えば、窓形状調整部240lは、任意には、復号されたタイムワープ情報232を受信し、当該復号されたタイムワープ情報232に応じて窓を調整してもよい。代替的に、または、追加的に、窓形状調整部240lは、長ブロックモードが使用されるかあるいは短ブロックモードが使用されるかを示す情報に応じて、窓関数処理部240eによって使用される窓形状を調整するように構成されてもよい(ワープ復号部240がこのような長ブロックモードおよび短ブロックモード間で切り替え可能である場合)。代替的に、または、追加的に、窓形状調整部240lは、異なる窓タイプがワープ復号部240によって使用される場合は、窓関数処理部240eによる使用のための適切な窓形状を窓シーケンス情報に応じて選択するように構成されてもよい。しかしながら、窓形状調整部240lによって行われる窓形状の調整は任意であると考えられるべきであり、本発明にとって特に重要ではないという点に留意されたい。
さらに、ワープ復号部240は、任意には、窓形状調整部240lおよび/またはサンプリング位置計算部240kをサンプリング周波数情報218に応じて制御するように構成され得るサンプリングレート調整部240mを備えてもよい。しかしながら、サンプリングレート調整240mは、任意であると考えられ、本発明にとって特に重要ではない。
ワープ復号部240の機能に関し、例えば、複数のオーディオフレームのそれぞれについての変換係数(スペクトル係数としても示す)の集合(またはさらにはいくつかのオーディオフレームについてのスペクトル係数の複数の集合)を含み得る、スペクトルの符号化された表現214は、まず、復号部240aを用いて復号され、その結果、復号されたスペクトル表現240bが取得されるということができる。符号化されたオーディオ信号のブロックまたはフレームの復号されたスペクトル表現240bは、オーディオコンテンツの当該ブロックまたはフレームの時間領域表現(例えば、1オーディオフレーム当たり所定数の時間領域サンプルを含む)に変換される。典型的には、スペクトルの復号された表現240bは、このようなスペクトルが効率的に符号化可能であるために、顕著なピークおよび谷を含むが、必ずしもそうである必要はない。したがって、時間領域表現240dは、単一のブロックまたはフレーム中に比較的小さいピッチ変動を含む(顕著なピークおよび谷を有するスペクトルに対応する)。
窓関数処理260eは、重複加算演算を可能にするために、オーディオ信号の時間領域表現240dに適用される。続いて、窓関数処理された時間領域表現240fは時変的に再サンプリングされ、この再サンプリングは、符号化されたオーディオ信号表現210に符号化された形態で含まれるタイムワープ情報に応じて行われる。したがって、再サンプリングされたオーディオ信号表現240iは、典型的には、窓関数処理された時間領域表現240fよりも著しく大きいピッチ変動を含む(但し、符号化されたタイムワープ情報がタイムワープまたは同等にピッチ変動を示す場合)。よって、逆変換部240cの出力信号240dが単一のオーディオフレームに含まれるピッチ変動がかなり小さい場合であっても、単一のオーディオフレームにおいて大きなピッチ変動を含むオーディオ信号を再サンプリング部240gから出力することができる。
しかしながら、ワープ復号部240は、異なるサンプリング周波数を使用して提供された符号化されたスペクトル表現を処理し、異なるサンプリング周波数を有する復号されたオーディオ信号表現212を提供するように構成されてもよい。しかしながら、1オーディオフレームまたはオーディオブロック当たりの時間領域サンプルの数は、複数の異なるサンプリング周波数について同一であってもよい。しかし、その代わりに、ワープ復号部240は、オーディオブロックが比較的少数のサンプル(例えば、256個のサンプル)を含む短ブロックモードと、オーディオブロックが比較的多数のサンプル(例えば、2048個のサンプル)を含む長ブロックモードとの間で切り替え可能であってもよい。この場合、短ブロックモードにおける1オーディオブロック当たりのサンプル数は、サンプリング周波数が異なっていても同一であり、長ブロックモードにおける1オーディオブロック(またはオーディオフレーム)当たりのオーディオサンプル数は、サンプリング周波数が異なっていても同一である。また、1オーディオフレーム当たりのタイムワープコードワード数は、一般的には、サンプリング周波数が異なる場合であっても同一である。したがって、サンプリング周波数に実質的に非依存の(少なくとも1オーディオフレーム当たりの符号化された時間領域サンプルの数に関して、および1オーディオフレーム当たりのタイムワープコードワード数に関して)、均一なビットストリームフォーマットを実現することができる。
しかしながら、タイムワープ情報のビットレート効率のよい符号化およびタイムワープ情報の十分な分解能の両方を実現するため、符号化されたオーディオ信号表現210を提供するオーディオ信号符号化器300側で、タイムワープ情報は、サンプリング周波数に適合されて(応じて)符号化される。その結果、タイムワープコードワードの復号されたタイムワープ値へのマッピングについての情報を含む、符号化されたタイムワープ情報216が、サンプリング周波数に適合して復号される。タイムワープ情報の復号のこの適合に関する詳細について、次に説明する。
5.タイムワープ符号化および復号の適合
5.1.概念の概要
以下に、符号化されるオーディオ信号または復号されるオーディオ信号のサンプリング周波数に応じたタイムワープ符号化および復号の適合に関する詳細について説明する。換言すれば、サンプリング周波数依存型ピッチ変動量子化について説明する。理解を容易にするため、いくつかの従来の概念についてまず説明する。
タイムワープを用いた従来のオーディオ符号化器およびオーディオ復号器においては、ピッチ変動またはワープのための量子化テーブルは、全てのサンプリング周波数について固定されている。一例として、音声オーディオ統合コーディングのワーキングドラフト6(”WD6 of USAC”、ISO/IEC JTC1/SC29/WG11 N11213、2010)を参照されたい。サンプルにおける更新距離(例えば、タイムワープ値がオーディオ符号化器からオーディオ復号器へ送信される時間インスタンスの(オーディオサンプルを単位とする)距離))もまた固定されているため(従来のタイムワープオーディオ符号化器/オーディオ復号器および本発明によるタイムワープオーディオ符号化器/オーディオ復号器の両方において)、このようなコーディング方式をより低いビットレートに適用すると、カバー可能な実際のピッチ変化(例えば、単位時間当たりのピッチ変化を単位とした)の範囲がより小さくなる。音声の基本周波数における一般的な最大変化は、約15oct/s(15オクターブ/秒)未満である。
図4cのテーブルは、オーディオコーディングにおいて使用されるあるサンプリング周波数について、参考文献[3]に記載されるコーディング方式では、所望のピッチ変動範囲をマッピングすることができず、したがって、コーディング利得が準最適なものにしかならないという知見を示している。このことを明らかにするため、図4cのテーブルは、参考文献[3]に記載されるオーディオ復号器において使用されるテーブル(例えば、タイムワープコードワードを復号されたタイムワープ値にマッピングするためのマッピングテーブル)の異なるサンプリング周波数についてのワープを示す。これらのワープ値をoct/s単位で求めるための式は以下の通りである。
Figure 0005456914
上記式中、wはワープを示し、prelは相対ピッチ変化因子を示し、fはサンプリング周波数を示し、nは1つのフレームにおけるピッチノード数を示し、nはサンプルにおけるフレーム長を示す。
したがって、図4cのテーブルは、参考文献[3]に記載されるオーディオ復号器において使用される量子化方式のワープを示す(ここで、n=1024およびn=16である)。
本発明によれば、(タイムワープコードワードであると考えられ得る)ワープ値インデックスの対応するタイムワープ値prelへのマッピングをサンプリング周波数に応じて適合させることが有利であることが分かった。換言すれば、上記の問題の解決策は、カバーされるピッチ変動またはワープのoct/s(オクターブ/秒)単位の絶対範囲が全てのサンプリング周波数について同じ(あるいは少なくともほぼ同じ)となるように、異なるサンプリング周波数について別個の量子化テーブルを設計することであることが分かった。これは、例えば、隣接するサンプリング周波数の狭い範囲についてそれぞれ使用されるいくつかの明示的な量子化テーブルを用意するか、あるいは使用サンプリング周波数についての量子化テーブルをオンザフライで計算することによって行われ得るということが分かった。
本発明の一実施形態によれば、これは、ワープ値のテーブルを用意すること、および、上記の式を変換することにより相対ピッチ変化因子のための量子化テーブルを計算することによって行われ得る。
Figure 0005456914
上記式中、prelは相対ピッチ変化因子を示し、nはサンプルにおけるフレーム長を示し、wはワープを示し、fはサンプリング周波数を示し、nは1つのフレームにおけるピッチノード数を示す。上記式を用いて、図4dのテーブルに示される相対ピッチ変化因子prelを求めることができる。
図4dを参照すると、第1の列480は、タイムワープコードワードであると考えられ、符号化されたオーディオ信号表現210を表すビットストリームに含められ得るインデックスを示す。第2の列482は、第1の列および各行に示されるインデックスに対応付けられたnの相対ピッチ変化因子prelによって表され得る最大表現可能タイムワープ(oct/sを単位とした)を示す。第3の列484は、24000Hzのサンプリング周波数について各行の第1の列480に示されるインデックスに対応付けられた相対ピッチ変化因子を示す。第4の列486は、12000Hzのサンプリング周波数について各行の第1の列480に示されるインデックス値に対応付けられた相対ピッチ変化因子を示す。インデックス0、1および2はピッチの「負の」変化についての(すなわち、ピッチの減少についての)相対ピッチ変化因子prelに対応し、インデックス値3は相対ピッチ変化因子1(一定のピッチを表す)に対応し、インデックス4、5、6および7は、「正の」タイムワープ(すなわち、ピッチの増加)を示す相対ピッチ変化因子prelに対応付けられていることが分かる。
しかしながら、相対ピッチ変化因子を求めるための異なる概念が存在することが分かった。相対ピッチ変化因子を求めるための他の1つの方法は、相対ピッチ変化因子および対応する基準サンプリングレートのための量子化値のテーブルを設計することであるということが分かった。所与のサンプリング周波数のための実際の量子化テーブルは、設計されたテーブルから以下の式を用いて簡単に導出することができる。
Figure 0005456914
relは、現在のサンプリング周波数fについての相対ピッチ変化因子を示す。加えて、prel,refは基準サンプリング周波数fs,refについての相対ピッチ変化因子を示す。異なるインデックス(タイムワープコードワード)に対応付けられた基準ピッチ変化因子prel,refの集合をテーブルに格納してもよい(ここで、基準(相対)ピッチ変化因子が対応する基準サンプリング周波数fs,refは既知である)。
後者の式を用いることで、上記の式によって得られる結果の妥当な近似が得られるとともに、計算の複雑度も低いことが分かった。
図4eは、基準相対ピッチ変化因子prel,refから求められた相対ピッチ変化因子prelのテーブル表現を示す(ここで、テーブルは基準サンプリング周波数fs,ref=24000Hzについて成り立つ)。
第1の列490は、タイムワープコードワードであると考えられ得るインデックスを示す。第2の列492は、各行の第1の列490に示されるインデックス(またはコードワード)に対応付けられた基準相対ピッチ変化因子prel,refを示す。第3の列494および第4の列496は、24000Hz(第3の列494)および12000Hz(第4の列496)のサンプリング周波数fについての第1の列490のインデックスに対応付けられた(相対)ピッチ変化因子を示す。第3の列494に示される24000Hzのサンプリング周波数fについての相対ピッチ変化因子prelfは、第2の列492に示される基準相対ピッチ変化因子と同一であることがわかる。これは、24000Hzのサンプリング周波数fが基準サンプリング周波数fs,refに等しいからである。しかしながら、第4の列496は、第2の列492の基準相対ピッチ変化因子から上記式(3)に従って導出される、12000Hzのサンプリング周波数fにおける相対ピッチ変化因子prelを示している。
当然ながら、このような正規化手順は、上記のように、周波数またはピッチにおける変化の他のあらゆる表現、例えば、絶対ピッチまたは周波数の値(相対的な変化ではなく)をコーディングする方式に対してもそのまま容易に適用することができる。
5.2.図4aによる実施例
図4aは、本発明による実施形態において使用され得る適合型マッピング400のブロック模式図を示す。
例えば、適合型マッピング400は、オーディオ信号復号器200におけるマッピング234またはオーディオ信号復号器350におけるマッピング234の代わりとなり得る。
適合型マッピング400は、例えば、タイムワープコードワード「tw_ratio[i]」を含むいわゆる「tw_data」情報といった符号化されたタイムワープ情報を受信するように構成されている。したがって、適合型マッピング400は、復号されたタイムワープ値、例えば、復号された比の値を提供することができ、これらは値「warp_value_tbl[tw_ratio]」として示される場合があり、また相対ピッチ変化因子prelとしても示される場合がある。適合型マッピング400はまた、例えば、逆変換230cによって提供される時間領域表現240dのサンプリング周波数f、または再サンプリング240gによって提供される窓関数処理および再サンプリングされた時間領域表現240iの平均サンプリング周波数、または復号されたオーディオ信号表現212のサンプリング周波数を示すサンプリング周波数情報も受信する。
適合型マッピングは、復号されたタイムワープ値を符号化されたタイムワープ情報のタイムワープコードワードの関数として提供するマッピング部420を含む。マッピング規則選択部430は、マッピング部420によって使用される複数のマッピングテーブル432、434から、サンプリング周波数情報406に応じてマッピングテーブルを選択する。例えば、マッピングテーブル選択部430は、現在のサンプリング周波数が24000Hzに等しい場合または現在のサンプリング周波数が24000Hzの所定の環境にある場合は、図4dのテーブルの第1の列480および図4dのテーブルの第3の列484によって定義されるマッピングを表すマッピングテーブルを選択する。これに対し、サンプリング周波数fが12000Hzに等しいか場合またはサンプリング周波数fが12000Hzの所定の環境にある場合は、マッピングテーブル選択部430は、図4dのテーブルの第1の列480および図4dのテーブルの第4の列486によって定義されるマッピングテーブルを選択してもよい。
したがって、タイムワープコードワード(「インデックス」としても示す)0〜7は、サンプリング周波数が24000Hzに等しい場合は、図4dのテーブルの第3の列484に示すそれぞれの復号されたタイムワープ値(または相対ピッチ変化因子)にマッピングされ、サンプリング周波数が12000Hzに等しい場合は、図4dのテーブルの第4の列486に示されるそれぞれの復号されたタイムワープ値(または相対ピッチ変化因子)にマッピングされる。
要約すると、マッピングテーブル選択部430によってサンプリング周波数に応じて異なるマッピングテーブルが選択され、これにより、タイムワープコードワード(例えば、復号されたオーディオ信号を表すビットストリームに含まれる値「インデックス」)が復号されたタイムワープ値(例えば、相対ピッチ変化因子prel、またはタイムワープ値「warp_value_tbl」)にマッピングされ得る。
5.3.図4bによる実施例
図4bは、本発明による実施形態において使用され得る適合型マッピング450のブロック模式図を示す。例えば、適合型マッピング450は、オーディオ信号復号器200におけるマッピング234またはオーディオ信号復号器350におけるマッピング234の代わりとなり得る。適合型マッピング450は、符号化されたタイムワープ情報を受信するように構成されている(ここで、適合型マッピング400に関する上記の説明が適用される)。
まず、適合型マッピング450は、復号されたタイムワープ値を提供するように構成されている(ここでもまた、適合型マッピング400に関する上記の説明が適用される)。
適合型マッピング450は、符号化されたタイムワープのコードワードを受信し、復号されたタイムワープ値を提供するように構成されたマッピング部470を備える。適合型マッピング450はまた、マッピング値計算部またはマッピングテーブル計算部480も備える。
マッピング値計算部の場合、復号されたタイムワープ値は上記式(3)に従って計算される。この目的で、マッピング値計算部は、基準マッピングテーブル482を備え得る。基準マッピングテーブル482は、例えば、図4eのテーブルの第1の列490および第2の列492によって定義されるマッピング情報を示し得る。したがって、マッピング値計算部480およびマッピング部470は、対応する基準相対ピッチ変化因子が所与のタイムワープコードワードについて基準マッピングテーブルに基づいて選択され、当該所与のタイムワープコードワードに対応するピッチ変化因子prelが現在のサンプリング周波数fに関する情報を用いて式(3)に従って計算され、復号されたタイムワープ値として戻されるように、協働することができる。この場合、各タイムワープコードワードについての復号されたタイムワープ値(相対ピッチ変化因子)の計算を行うという犠牲を払って現在のサンプリング周波数fに適合させたマッピングテーブルのエントリの全てを格納する必要さえない。
しかし、その代わりに、マッピングテーブル計算部480は、マッピング部470による使用のために、現在のサンプリング周波数fに適合させたマッピングテーブルを事前に計算してもよい。例えば、マッピングテーブル計算部は、12000Hzの現在のサンプリング周波数が選択されたことを把握したことに応じて図4eの第4の列496のエントリを計算するように構成されてもよい。12000Hzのサンプリング周波数fについてのこの相対ピッチ変化因子prelの計算は、基準マッピングテーブル(例えば、図4eのテーブルの第1の列490および第2の列492によって定義されるマッピングを含む)に基づくものであってよく、また式(3)を用いて行われてもよい。
したがって、上記事前に計算されたマッピングテーブルをタイムワープコードワードの復号されたタイムワープ値へのマッピングに使用してもよい。さらに、事前に計算されたマッピングテーブルは、再サンプリングレートが変更されるたびに更新してもよい。
要約すると、タイムワープコードワードの復号されたタイムワープ値へのマッピングのためのマッピング規則は、基準マッピングテーブル482に基づいて評価または計算してもよく、現在のサンプリング周波数に適合させたマッピングテーブルの事前計算または復号されたタイムワープ値のオンザフライ計算を実行してもよい。
6.タイムワープ制御情報の計算についての詳細な説明
以下に、タイムワープコンター変遷情報に基づいたタイムワープ制御情報の計算に関する詳細について説明する。
6.1.図5aおよび図5bによる装置
図5aおよび図5bは、タイムワープコンター変遷情報510に基づいてタイムワープ制御情報512を提供するための装置500のブロック模式図を示し、タイムワープコンター変遷情報510は、復号されたタイムワープ情報であってもよく、また、例えば、タイムワープ計算部230のマッピング234によって提供される復号されたタイムワープ値を含んでいてもよい。装置500は、復元されたタイムワープコンター情報522をタイムワープコンター変遷情報510に基づいて提供するための手段520と、復元されたタイムワープコンター情報522に基づいてタイムワープ制御情報512を提供するためのタイムワープ制御情報計算部530とを備える。
以下に、手段520の構造および機能について説明する。
手段520は、タイムワープコンター変遷情報510を受信し、これに基づいて、新たなタイムワープコンター部分情報542を提供するように構成されたタイムワープコンター計算部540を備える。例えば、タイムワープコンター変遷情報の集合(例えば、マッピング234によって提供される所定数の復号されたタイムワープ値の集合)を、復元されるオーディオ信号の各フレームについて装置500に送信してもよい。しかしながら、場合によっては、復元されるオーディオ信号のフレームに対応付けられたタイムワープコンター変遷情報510の集合はオーディオ信号の複数のフレームの復元のために使用されてもよい。同様に、タイムワープコンター変遷情報の複数の集合は、以下に詳述するように、オーディオ信号の単一のフレームのオーディオコンテンツの復元のために使用されてもよい。結論として、いくつかの実施形態において、タイムワープコンター変遷情報は、復元されるオーディオ信号の変換領域係数の集合が更新されるレートと同じレートで更新され得るということができる(オーディオ信号の1フレーム当たりタイムワープコンター変遷情報510の1つの集合、および/またはオーディオ信号の1フレーム当たり1つのタイムワープコンター部分)。
タイムワープコンター計算部540は、複数のワープコンターノード値(またはワープコンターノード値の時間シーケンス)を複数のタイムワープコンター比値(またはタイムワープコンター比値の時間シーケンス)に基づいて計算するように構成されたワープノード値計算部544を備え、タイムワープ比値は、タイムワープコンター変遷情報510によって構成される。換言すれば、マッピング234によって提供される復号されたタイムワープ値は、タイムワープ比値(例えば、warp_value_tbl[tw_ratio[]])を構成し得る。この目的で、ワープノード値計算部544は、後述するように、タイムワープコンターノード値の提供を所定の開始値(例えば、1)で開始し、連続するタイムワープコンターノード値をタイムワープコンター比値を用いて計算するように構成されている。
さらに、タイムワープコンター計算部544は、連続するタイムワープコンターノード値間を補間するように構成された補間部548を任意には備える。したがって、新たなタイムワープコンター部分の記述542が得られ、新たなタイムワープコンター部分は、典型的には、ワープノード計算部524によって使用される上記所定の開始値から始まる。さらに、手段520は、いわゆる「最後のタイムワープコンター部分」およびいわゆる「現在のタイムワープコンター部分」を図5に図示しないメモリに格納するように構成されている。
しかしながら、手段520はまた、「最後のタイムワープコンター部分」、「現在のタイムワープコンター部分」および「新たなタイムワープコンター部分」に基づく完全なタイムワープコンターセクションにおける不連続性を回避する(あるいは低減させるか無くす)ために、「最後のタイムワープコンター部分」および「現在のタイムワープコンター部分」を再スケーリングするように構成された再スケーリング部550も備える。この目的で、再スケーリング部550は、「最後のタイムワープコンター部分」および「現在のタイムワープコンター部分」の格納された記述を受信し、「最後のタイムワープコンター部分」および「現在のタイムワープコンター部分」を一緒に再スケーリングして、「最後のタイムワープコンター部分」および「現在のタイムワープコンター部分」の再スケーリングされたバージョンを取得するように構成されている。この機能に関するいくつかの詳細については後述する。
さらに、再スケーリング部550はまた、例えば、図5に図示しないメモリから、「現在のタイムワープ部分」に対応付けられた別の合計値における「最後のタイムワープコンター部分」に対応付けられた合計値を受信するようにも構成され得る。これら合計値は、それぞれ、「last_warp_sum」および「cur_warp_sum」で示される場合がある。再スケーリング部550は、タイムワープコンター部分に対応付けられた合計値を、対応するタイムワープコンター部分が再スケーリングされるのと同じ再スケーリング因子を用いて再スケーリングするように構成されている。したがって、再スケーリングされた合計値が得られる。
場合によっては、手段520は、再スケーリング部550に入力されたタイムワープコンター部分および再スケーリング部550に入力された合計値を繰返し更新するように構成された更新部560を備えてもよい。例えば、更新部560は、当該情報をフレームレートで更新するように構成されてもよい。例えば、現在のフレームサイクルの「新たなタイムワープコンター部分」は、次のフレームサイクルにおける「現在のタイムワープコンター部分」として機能し得る。同様に、現在のフレームサイクルの再スケーリングされた「現在のタイムワープコンター部分」は、次のフレームサイクルにおける「最後のタイムワープコンター部分」として機能し得る。したがって、「現在のフレームサイクル」が完了すると現在のフレームサイクルの「最後のタイムワープコンター部分」を破棄することができるため、メモリ効率のよい実施例が実現される。
上記を要約すると、手段520は、各フレームサイクル(例えば、フレームシーケンスの始めやフレームシーケンスの終わり、あるいはタイムワーピングが非アクティブであるフレームといったいくつかの特殊なフレームサイクルは除く)について、「新たなタイムワープコンター部分」、「再スケーリングされた現在のタイムワープコンター部分」および「再スケーリングされた最後のタイムワープコンター部分」の記述を含むタイムワープコンターセクションの記述を提供するように構成されている。さらに、手段520は、各フレームサイクル(上記特殊なフレームサイクルは除く)について、例えば、「新たなタイムワープコンター部分合計値」、「再スケーリングされた現在のタイムワープコンター合計値」および「再スケーリングされた最後のタイムワープコンター合計値」を含むワープコンター合計値の表現を提供してもよい。
タイムワープ制御情報計算部530は、手段520によって提供される復元されたタイムワープコンター情報542に基づいてタイムワープ制御情報512を計算するように構成されている。例えば、タイムワープ制御情報計算部530は、復元されたタイムワープコンター情報に基づいて時間コンター572(例えば、タイムワープコンターのサンプル単位表現)を計算するように構成された時間コンター計算部570を備える。さらに、タイムワープコンター情報計算部530は、時間コンター572を受信し、これに基づいて、サンプル位置情報を、例えば、サンプル位置ベクトル576の形態で提供するように設けられたサンプル位置計算部574を備える。サンプル位置ベクトル576は、例えば、再サンプリング部240gによって行われるタイムワーピングを示す。
タイムワープ制御情報計算部530はまた、復元されたタイムワープ制御情報から遷移長情報を導出するように構成された遷移長計算部も備える。遷移長情報582は、例えば、左遷移長を示す情報および右遷移長を示す情報を含み得る。遷移長は、例えば、「最後のタイムワープコンター部分」、「現在のタイムワープコンター部分」および「新たなタイムワープコンター部分」によって示される時間セグメントの長さに依存し得る。例えば、遷移長は、「最後のタイムワープコンター部分」によって示される時間セグメントの時間延長が「現在のタイムワープ部分」によって示される時間セグメントの時間延長よりも短い場合または「新たなタイムワープコンター部分」によって示される時間セグメントの時間延長が「現在のタイムワープコンター部分」によって示される時間セグメントの時間延長よりも短い場合は、短くしてもよい(デフォルトの遷移長と比較して)。
加えて、タイムワープ制御情報計算部530は、左および右遷移長に基づいていわゆる「最初の位置」およびいわゆる「最後の位置」を計算するように構成された最初・最後位置計算部584を更に含み得る。「最初の位置」および「最後の位置」により、これらの位置の外側の領域が窓関数処理の後にゼロに等しく、したがってタイムワーピングのために考慮される必要が無い場合に、再サンプリング部の効率性が高くなる。ここで、サンプル位置ベクトル576は、例えば、再サンプリング部240gによって行われるタイムワーピングに使用される(または更には必要とされる)情報を含む点に留意されたい。さらに、左および右遷移長582ならびに「最初の位置」および「最後の位置」586は、窓関数処理部240eによって例えば、使用される(または更には必要とされる)情報を構成している。
したがって、手段520およびタイムワープ制御情報計算部530は、協働して、サンプリングレート調整240m、窓形状調整240lおよびサンプリング位置計算240kの機能の代わりを果たすことができるということができる。
6.2.図6aおよび図6bによる機能説明
以下に、手段520およびタイムワープ制御情報計算部530を備えるオーディオ復号器の機能について図6aおよび図6bを参照して説明する。
図6aおよび図6bは、本発明の一実施形態による、オーディオ信号の符号化された表現を復号するための方法のフローチャートを示す。この方法600は、復元されたタイムワープコンター情報を提供するステップを含み、復元されたタイムワープコンター情報を提供するステップは、符号化されたタイムワープ情報のコードワードを復号されたタイムワープ値にマッピングするステップ604と、ワープノード値を計算するステップ610と、ワープノード値間を補間するステップ620と、1つ以上前に計算されたワープコンター部分および1つ以上前に計算されたワープコンター合計値を再スケーリングするステップ630とを含む。方法600は、ステップ610およびステップ620で取得された「新たなタイムワープコンター部分」、再スケーリングされた以前に計算されたタイムワープコンター部分(「現在のタイムワープコンター部分」、「最後のタイムワープコンター部分」)を用いて、さらに、任意には、再スケーリングされた以前に計算されたワープコンター合計値を用いて、タイムワープ制御情報を計算するステップ640を更に含む。その結果、ステップ640において、時間コンター情報、および/またはサンプル位置情報、および/または遷移長情報、および/または最初・最後位置情報を取得することができる。
方法600は、ステップ640において取得されたタイムワープ制御情報を用いてタイムワープ信号の復元を実行するステップ650を更に含む。タイムワープ信号の復元に関する詳細については後述する。
方法600はまた、後述するように、メモリを更新するステップ660も含む。
7.アルゴリズムの詳細な説明
7.1.概要
以下に、本発明の一実施形態によるオーディオ復号器によって実行されるアルゴリズムのいくつかについて詳細に説明する。この目的で、図5a、図5b、図6a、図6b、図7a、図7b、図8、図9、図10a、図10b、図11、図12、図13、図14、図15および図16を参照されたい。
まず、データ要素の定義の凡例およびヘルプ要素の定義の凡例を示す図7aを参照されたい。さらに、定数の定義の凡例を示す図7bを参照されたい。
一般的に、本明細書で記載される方法は、タイムワープ型修正離散コサイン変換に従って符号化されたオーディオストリームの復号に用いることができると言うことができる。したがって、TW−MDCTをオーディオストリーム(例えば、特定の設定情報に含まれ得る「twMDCT」フラグというフラグによって示され得る)に対して有効にする場合、オーディオ復号器において標準的なフィルタバンクおよびブロック切り替えをタイムワープ型フィルタバンクおよびブロック切り替えで置き換えることができる。逆修正離散コサイン変換(IMDCT)に加えて、タイムワープ型フィルタバンクおよびブロック切り替えは、任意の間隔で配置された時間グリッドから通常の規則的な間隔または直線的間隔で配置された時間グリッドへの時間領域−時間領域マッピング、および対応する窓形状の適合処理を含む。
ここで、本明細書に記載される復号アルゴリズムは、例えば、スペクトルの符号化された表現214に基づいて、また、符号化されたタイムワープ情報232に基づいてワープ復号部240によって実行され得るという点に留意されたい。
7.2.定義
データ要素、ヘルプ要素および定数の定義に関しては、図7aおよび図7bを参照されたい。
7.3.復号処理-ワープコンター
ワープコンターノードのコードブックインデックスは、個々のノードの値をワーピングするために以下のように復号される。
Figure 0005456914
しかしながら、本明細書において「warp_value_tbl[tw_ratio[k]]」として示す復号されたタイムワープ値へのタイムワープコードワード「tw_ratio[k]」のマッピングは、本発明による実施形態におけるサンプリング周波数に依存する。したがって、本発明による実施形態においては単一のマッピングテーブルが存在するのではなく、異なるサンプリング周波数についての個別のマッピングテーブルが存在する。
例えば、現在のサンプリング周波数に対応するマッピングテーブルへのマッピングテーブルアクセスによって戻される結果値「warp_value_tbl[tw_ratio[k]]」は、復号されたタイムワープ値であると考えることができ、符号化されたオーディオ信号表現210を構成する(または表す)ビットストリームに含まれるタイムワープコードワード「tw_ratio[k]」に基づいて、マッピング234、適合型マッピング400または適合型マッピング450によって提供され得る。
サンプル単位の(n_long samples)新たなワープコンターデータ「new_warp_contour[]」を取得するために、図9に示す疑似プログラムコードによるアルゴリズムを用いて、ワープノード値「warp_node_values[]」を等間隔(interp_dist apart)ノード間で直線補間する。
このフレームの(例えば、現在のフレームの)完全なワープコンターを取得する前に、過去のワープコンター「past_warp_contour[]」の最後のワープ値が1に等しくなるように、過去のバッファリングされた値を再スケーリングしてもよい。
Figure 0005456914
過去のワープコンター「past_warp_contour」と新たなワープコンター「new_warp_contour」とを連結することにより、完全なワープコンター「warp_contour[]」を取得し、新たなワープ合計値「new_warp_sum」を新たなワープコンター値「new_warp_contour[]」の全体の合計値として計算する。
Figure 0005456914
7.4.復号処理−サンプル位置および窓長調整
ワープコンター「warp_contour[]」から、線形時間スケールでのワープされたサンプルのサンプル位置のベクトルを計算する。このために、以下の式に従ってタイムワープコンターを生成する。
Figure 0005456914
その疑似プログラムコード表現をそれぞれ図10aおよび図10bに示すヘルパー関数「warp_inv_vec()」および「warp_time_inv()」を用い、その疑似プログラムコード表現を図11に示すアルゴリズムに従って、サンプル位置ベクトルおよび遷移長を計算する。
7.5.復号処理−逆修正離散コサイン変換(IMDCT)
以下に、逆修正離散コサイン変換について簡単に説明する。
逆修正離散コサイン変換の解析方程式は以下の通りである。
Figure 0005456914
逆変換のための合成窓長は、構文要素「window_sequence」(ビットストリームに含められ得る)およびアルゴリズムコンテキストの関数である。合成窓長は、例えば、図12のテーブルに従って定義することができる。
図13のテーブルにおいて、有意なブロック遷移を示す。所与のテーブルセルのチェックマークは、この特定の行に示される窓シーケンスの後に、この特定の列に示される窓シーケンスが続き得ることを示している。
許可された窓シーケンスに関し、オーディオ復号器は、例えば、異なる長さの窓間で切り替えられ得るという点に留意されたい。しかしながら、窓長の切り替えは、本発明にとって特に重要ではない。むしろ、本発明は、タイプ「only_long_sequence」の窓のシーケンスが存在し、コアコーダフレーム長は1024に等しいという仮定に基づいて理解することができる。
さらに、オーディオ信号復号器は、周波数領域コーディングモードと時間領域コーディングモードとの間で切り替えられ得るという点に留意されたい。しかしながら、この可能性は本発明にとって特に重要ではない。むしろ、本発明は、例えば、図1、図2、図3aおよび図3bを参照して述べたような、周波数領域コーディングモードのみを処理することができるオーディオ信号復号器において適用可能である。
7.6.復号処理−窓関数処理およびブロック切り替え
以下に、ワープ復号部240により、具体的には、その窓関数処理部240eにより実行され得る窓関数処理およびブロック切り替えについて説明する。
(オーディオ信号を表すビットストリームに含められ得る)「window_shape」要素に従い、異なるオーバーサンプリングされた変換窓プロトタイプが使用され、オーバーサンプリングされた窓の長さは、以下の通りである。
Figure 0005456914
window_shape==1の場合、窓係数は、カイザー−ベッセル派生(KBD)窓によって以下のように得られる。
Figure 0005456914
式中、W'、カイザー−ベッセル核関数は、以下のように定義される。
Figure 0005456914
そうではなく、window_shape==0の場合、以下のように正弦窓を使用する。
Figure 0005456914
あらゆる種類の窓シーケンスについて、左窓部分の上記使用プロトタイプは、以前のブロックの窓形状によって決定される。以下の式がこのことを表している。
Figure 0005456914
同様に、右窓形状のプロトタイプは、以下の式によって求められる。
Figure 0005456914
遷移長は既に求められているため、タイプ「EIGHT_SHORT_SEQUENCE」の窓シーケンスと他の全ての窓シーケンスとを区別するだけでよい。
現在のフレームがタイプ「EIGHT_SHORT_SEQUENCE」である場合、窓関数処理および内部(フレーム内)重複加算(オーバーラップ加算)を実行する。図14のC言語のコードに似た部分は、窓タイプ「EIGHT_SHORT_SEQUENCE」を有するフレームの窓関数処理および内部重複加算を示している。
その他のタイプのフレームについては、図15に疑似プログラムコード表現を示すアルゴリズムが使用され得る。
7.7. 復号処理−時変再サンプリング
以下に、ワープ復号部240により、具体的には、その再サンプリング部240gにより実行され得る時変再サンプリングについて説明する。
窓関数処理されたブロックz[]を、(マッピング234により提供される復号されたタイムワープ値に基づいてサンプリング位置計算部240kにより提供される)サンプル位置に応じて、以下のインパルス応答を用いて再サンプリングする。
Figure 0005456914
再サンプリングの前に、窓関数処理されたブロックの両端を0でパディングする。
Figure 0005456914
再サンプリング自体は、図16の疑似プログラムコードのセクションに示されている。
7.8.復号処理−以前の窓シーケンスによる重複加算
ワープ復号部240の重複器/加算器240jによって実行される重複加算は、全てのシーケンスについて同様であり、以下のように数学的に記述することができる。
Figure 0005456914
7.9.復号処理−メモリ更新
以下に、メモリ更新について説明する。図3dでは特定の手段は示されていないが、メモリ更新はワープ復号部240によって実行され得るという点に留意されたい。
次のフレームの復号に必要なメモリバッファは、以下のように更新する。
Figure 0005456914
最初のフレームを復号する前に、あるいは、最後のフレームが光学LPC領域コーダによって符号化された場合、メモリ状態を以下のように設定する。
Figure 0005456914
7.10.復号処理−結論
上記を要約すると、ワープ復号部240によって実行され得る復号処理について説明した。例えば、2048個の時間領域サンプルからなるオーディオフレームについての時間領域表現が提供され、連続するオーディオフレームは、例えば、約50%重複し得るため、連続するオーディオフレームの時間領域表現間の平滑な遷移が確実に実現されることが理解される。
オーディオフレームの時間領域サンプルの実際のサンプリング周波数に関係なく、例えば、NUM_TW_NODES=16の復号されたタイムワープ値の集合をオーディオフレームのそれぞれに対応付けることができる(但し、タイムワープが当該オーディオフレームにおいてアクティブである場合に限る)。
8.図17a〜図17fによるオーディオストリーム
以下に、1つ以上のオーディオ信号チャネルおよび1つ以上のタイムワープコンターの符号化された表現を含むオーディオストリームについて説明する。以下に説明するオーディオストリームは、例えば、符号化されたオーディオ信号表現112または符号化されたオーディオ信号表現210を運ぶことができる。
図17aは、単一チャネル要素(SCE)、チャネル対要素(CPE)または1つ以上の単一チャネル要素および/もしく1つ以上のチャネル対要素の組み合わせを含み得る、いわゆる「USAC_raw_data_block」データストリーム要素の表現を示す。
「USAC_raw_data_block」は、典型的には、符号化されたオーディオデータのブロックを含み得る一方で、追加のタイムワープコンター情報は、別個のデータストリーム要素において提供することができる。しかしながら、いくつかのタイムワープコンターデータを「USAC_raw_data_block」に符号化することは当然可能である。
図17bから理解されるように、単一チャネル要素は、典型的には、図17dを参照して詳細に説明される周波数領域チャネルストリーム(「fd_channel_stream」)を含む。
図17cから理解されるように、チャネル対要素(「channel_pair_element」)は、典型的には、複数の周波数領域チャネルストリームを含む。
また、チャネル対要素は、例えば、設定データストリーム要素または「USAC_raw_data_block」において送信することができ、また、タイムワープ情報をチャネル対要素に含めるか否かを決定するタイムワープ起動フラグ(「tw_MDCT」)といったタイムワープ情報を含み得る。例えば、「tw_MDCT」フラグがタイムワープがアクティブであることを示す場合、チャネル対要素は、チャネル対要素のオーディオチャネルについて共通のタイムワープが存在するか否かを示すフラグ(「common_tw」)を含み得る。当該フラグ(「common_tw」)が多数のオーディオチャネルについて共通のタイムワープが存在することを示す場合、共通のタイムワープ情報(「tw_data」)を、例えば、周波数領域チャネルストリームとは別に、チャネル対要素に含める。
ここで図17dを参照すると、周波数領域チャネルストリームが示されている。
図17dから理解されるように、周波数領域チャネルストリームは、例えば、グローバルゲイン情報を含む。また、周波数領域チャネルストリームは、タイムワーピングがアクティブであり(フラグ「tw_MDCT」がアクティブであり)、多数のオーディオ信号チャネルについて共通のタイムワープ情報が存在しない(フラグ「common_tw」が非アクティブである)場合、タイムワープデータを含む。
さらに、周波数領域チャネルストリームはまた、スケーリング因子データ(「scale_factor_data」)および符号化されたスペクトルデータ(例えば、算術符号化されたスペクトルデータ「ac_spectral_data」)も含む。
ここで図17eを参照し、タイムワープデータの構文について簡単に述べる。
タイムワープデータは、例えば、タイムワープデータが存在しているか否かを示すフラグ(例えば、「tw_data_present」または「active_pitch_data」)を任意には含み得る。タイムワープデータが存在している(すなわち、タイムワープコンターが平坦でない)場合、タイムワープデータは、例えば、上述のようにサンプリングレート依存型コードブックテーブルに従って符号化され得る複数の符号化されたタイムワープ比の値(例えば、「tw_ratio[i]」または「pitch Idx[i]」)のシーケンスを含み得る。
したがって、タイムワープデータは、タイムワープコンターが一定である(タイムワープ比が1.000にほぼ等しい)場合、利用可能なタイムワープデータが存在しないことを示すフラグ(オーディオ信号符号化器によって設定され得る)を含み得る。これに対し、タイムワープコンターが変化している場合、連続するタイムワープコンターノード間の比は、「tw_ratio」情報を構成するコードブックインデックスを用いて符号化され得る。
図17fは、算術コーディングされたスペクトルデータ「ac_spectral_data()」の構文の図式表現を示す。算術コーディングされたスペクトルデータは、非依存性フラグ(ここでは「indepFlag」)の状態に応じて符号化され、このフラグは、アクティブである場合には、算術コーディングされたデータが以前のフレームの算術符号化されたデータに依存しないことを示す。非依存性フラグ「indepFlag」がアクティブである場合、算術リセットフラグ「arith_reset_flag」はアクティブとなるよう設定される。そうでない場合、算術リセットフラグの値は、算術コーディングされたスペクトルデータにおけるビットによって決定される。
さらに、算術コーディングされたスペクトルデータブロック「ac_spectral_data()」は、算術コーディングされたデータの1つ以上のユニットを含み、算術コーディングされたデータ「arith_data()」のユニットの数は、現在のフレームにおけるブロック(または窓)の数に依存する。長ブロックモードでは、1オーディオフレーム当たり1個の窓しか存在しない。しかし、短ブロックモードでは、1オーディオフレーム当たり例えば8個の窓が存在し得る。算術コーディングされたスペクトルデータ「arith_data」の各ユニットは、例えば、逆変換240cによって実行され得る周波数領域−時間領域変換のための入力として機能し得るスペクトル係数の集合を含む。
算術符号化されたデータ「arith_data」の1つのユニット当たりのスペクトル係数の数は、例えば、サンプリング周波数に非依存であり得るが、ブロック長モード(短ブロックモード「EIGHT_SHORT_SEQUENCE」または長ブロックモード「ONLY_LONG_SEQUENCE」)に依存し得る。
9.結論
上記を要約すると、タイムワープ型修正離散コサイン変換(TW−MDCT)に関する改良について述べた。上述の本発明は、タイムワープ型MDCT変換コーダに関連するものであり、ワープ型MDCT変換コーダの性能を向上させるための方法を実現する。タイムワープ型修正離散コサイン変換に関する詳細について、読者は、参考文献[1]および[2]を注目されたい。
このようなタイムワープ型MDCT変換コーダの1つの実施例は、進行中のMPEG USACオーディオコーディング標準化作業(例えば、参考文献[3]を参照)において実現されている。使用されるタイムワープ型MDCTの実施例の詳細は、例えば、参考文献[4]において見られる。
さらに、本明細書に記載されるオーディオ信号符号化器およびオーディオ信号復号器は、国際特許出願WO/2010/003583、WO/2010/003618、WO/1010/003581およびWO/2010/003582に記載される構成要件を備えるという点に留意されたい。これら4件の国際特許出願の教示は、本明細書に明示的に援用される。これら4件の国際特許出願に開示される構成要件および特徴は、本発明による実施形態に組み込むことができる。
10.代替実施例
いくつかの態様を装置との関連で説明したが、これらの態様は対応する方法も示していることは明らかであり、方法においては、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で説明した態様もまた、対応するブロックもしくは項目または対応する装置の特徴を示すものである。例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路といったハードウェア装置によって(またはこれを用いて)、方法ステップの一部またはすべてを実行してもよい。いくつかの実施形態では、最も重要な方法ステップのうち任意の1つ以上をこのような装置によって実行してもよい。
本発明の符合化されたオーディオ信号は、デジタル記憶媒体に格納することができ、あるいは、無線伝送媒体またはインターネットのような有線伝送媒体などの伝送媒体上に送信することができる。
特定の実施要件によっては、本発明の実施形態は、ハードウェアにおいて、またはソフトウェアにおいて実施されることができる。実施は、電子的に読取可能な制御信号を格納したデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができ、これらは、各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータキャリアを含む。
通常、本発明の実施形態はプログラムコードを有するコンピュータプログラム製品として実現することができ、コンピュータプログラム製品がコンピュータで実行されたときに、プログラムコードが方法のうちの1つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに格納され得る。
他の実施形態は、本明細書に記載される、機械可読キャリアに格納された方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、換言すれば、本発明の方法の一実施形態は、コンピュータ上で実行されたときに、本明細書に記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法のうちの1つを実行するためのコンピュータプログラムが記録されたデータキャリア(すなわちデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、典型的には、有形および/または非過渡的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記載される方法の1つを実行するように構成されるかあるいは適合された、例えばコンピュータまたはプログラム可能論理デバイスといった処理手段を含む。
さらなる実施形態は、本明細書に記載される方法のうちの1つを実行するためのコンピュータプログラムを搭載したコンピュータを含む。
本発明によるさらなる実施形態は、本明細書で説明された方法のうちの1つを実行するためのコンピュータプログラムを受信機に転送する(例えば、電子的または光学的に)ように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、携帯機器、メモリデバイス等であってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えていてもよい。
いくつかの実施形態において、プログラム可能論理デバイス(例えばフィールドプログラマブルゲートアレイ)を用いて、本明細書に記載される方法の機能のいくつかまたはすべてを実行してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法のうちの1つを実行するために、マイクロプロセッサと協働してもよい。通常、上記方法は、好ましくは、いかなるハードウェア装置によっても実行される。
上述の実施形態は、本発明の原理のための単なる例示にすぎない。本明細書に記載される構成および詳細事項の修正変更は、他の当業者にとって明らかであるものと理解される。したがって、本発明は、添付の特許クレームの範囲のみによって限定されるものであって、本明細書に記載の実施形態の記載および説明によって示される具体的な詳細事項によって限定されるものではない。
参考文献
[1] Bernd Edler et. al., “Time Warped MDCT”, US61/042,314, 仮特許出願。
[2] L. Villemoes, “Time Warped Transform Coding of Audio Signals”,
PCT/EP2006/010246, 国際特許出願(2005年11月)
[3] “WD6 of USAC”, ISO/IEC JTC1/SC29/WG11 N11213, 2010
[4] Bernd Edler et. al., “A Time-Warped MDCT Approach to Speech Transform Coding”, 126th AES Convention, Munich, May 2009, preprint 7710
[5] Nikolaus Meine, “Vektorquantisierung und kontextabhaengige arithmetische Codierung fuer MPEG-4 AAC”, VDI, Hannover, 2007

Claims (16)

  1. サンプリング周波数情報(218)と、符号化されたタイムワープ情報(216,tw_ratio[i])と、符号化されたスペクトル表現(214,ac_spectral_data())とを含む符号化されたオーディオ信号表現(112,210)に基づいて、 復号されたオーディオ信号表現(212)を提供するオーディオ信号復号器(200;350)であって、
    前記符号化されたタイムワープ情報(216,tw_ratio[i])を復号されたタイムワープ情報(232,warp_value_tbl[tw_ratio],prel)にマッピングするタイムワープ計算部(230,604)であって、前記符号化されたタイムワープ情報(216)のコードワード(tw_ratio[i],インデックス)を前記復号されたタイムワープ情報(232)を示す復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)にマッピングするためのマッピング規則を前記サンプリング周波数情報(218)に応じて適合させるタイムワープ計算部(230,604)と、
    前記符号化されたスペクトル表現(214,ac_spectral_data())に基づき、かつ、前記復号されたタイムワープ情報(232)に応じて、前記復号されたオーディオ信号表現(212)を提供するワープ復号部(240)と、
    を備えるオーディオ信号復号器(200;350)。
  2. 前記符号化されたタイムワープ情報(216)の前記コードワード(tw_ratio[i],インデックス)は、タイムワープコンター(time_contour[])の時間的変化を示し、
    前記タイムワープ計算部(230,604)は、前記符号化されたタイムワープ情報(216)の所定数(Num_tw_nodes)のコードワード(tw_ratio[i],インデックス)を、前記符号化されたオーディオ信号表現(214,ac_spectral_data())によって表される符号化されたオーディオ信号のオーディオフレームについて評価するように構成され、コードワードの前記所定数は、前記符号化されたオーディオ信号のサンプリング周波数に依存しない、
    請求項1に記載のオーディオ信号復号器。
  3. 前記タイムワープ計算部(230)は、前記符号化されたタイムワープ情報(216)のコードワード(tw_ratio[i],インデックス)の所与の集合がマッピングされる復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)の範囲が、第2のサンプリング周波数についてよりも第1のサンプリング周波数について大きくなるように、前記マッピング規則を適合させるよう構成されており、
    前記第1のサンプリング周波数は、前記第2のサンプリング周波数よりも小さい、
    請求項1または2に記載のオーディオ信号復号器。
  4. 前記復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)は、タイムワープコンターの値を表すタイムワープコンター値、またはタイムワープコンター(time_contour[])の値の絶対的な変化もしくは相対的な変化を表すタイムワープコンター変動値である、
    請求項3に記載のオーディオ信号復号器。
  5. 前記タイムワープ計算部(230)は、前記符号化されたタイムワープ情報(216)のコードワード(tw_ratio[i],インデックス)の所与の集合によって表現可能な、前記符号化されたオーディオ信号表現(112;210)によって表される符号化されたオーディオ信号の所与の数のサンプルにわたるピッチの最大変化が、第2のサンプリング周波数についてよりも第1のサンプリング周波数について大きくなるように、前記マッピング規則を適合させるよう構成されており、
    前記第1のサンプリング周波数は前記第2のサンプリング周波数よりも小さい、
    請求項1から4のいずれかに記載のオーディオ信号復号器。
  6. 前記タイムワープ計算部(230)は、第1のサンプリング周波数における前記符号化されたタイムワープ情報(216)のコードワード(tw_ratio[i],インデックス)の所与の集合によって表現可能な、所与の期間にわたるピッチの最大変化が、第2のサンプリング周波数における前記符号化されたタイムワープ情報のコードワードの前記所与の集合によって表現可能な、前記所与の期間にわたるピッチの最大変化と、第1のサンプリング周波数については10%未満しか異ならず、第2のサンプリング周波数については少なくとも30%異なるように、前記マッピング規則を適合させるよう構成されている、
    請求項1から5のいずれかに記載のオーディオ信号復号器。
  7. 前記タイムワープ計算部(230)は、前記サンプリング周波数情報(218)に応じて、前記符号化されたタイムワープ情報(216)のコードワード(tw_ratio[i],インデックス)を復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)にマッピングするための異なるマッピングテーブル(480,484;480,486)を使用するように構成されている、
    請求項1から6のいずれかに記載のオーディオ信号復号器。
  8. 前記タイムワープ計算部は、基準サンプリング周波数(fs,ref)について前記符号化されたタイムワープ情報(216)の異なるコードワード(tw_ratio[i],490,インデックス)に対応付けられた復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)を示す基準マッピング値(494)を、前記基準サンプリング周波数(f)とは異なる実際のサンプリング周波数(f)に適合させて、適合されたマッピング値(496)を取得するように構成されている、
    請求項1から6のいずれかに記載のオーディオ信号復号器。
  9. 前記タイムワープ計算部は、タイムワープを示す前記基準マッピング値(494)の部分を、前記実際のサンプリング周波数(f)と前記基準サンプリング周波数(fs,ref)との比に応じてスケーリングするように構成されている、
    請求項8に記載のオーディオ信号復号器。
  10. 前記復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)は、前記符号化されたオーディオ信号表現(210)によって表される前記符号化されたオーディオ信号の所定数のサンプルにわたるタイムワープコンターの変動を示し、
    前記オーディオ信号復号器は、サンプリング位置計算部を備え、該サンプリング位置計算部は、前記タイムワープコンターの変動を表す複数の復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)を組み合わせて、ワープコンターノード値(warp_node_values[])を導出し、該導出されたワープコンターノード値の基準ワープノード値からの偏差が、前記復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)のうちの1つによって表現可能な偏差よりも大きくなるようにするよう構成されている、
    請求項1から9のいずれかに記載のオーディオ信号復号器。
  11. 前記復号されたタイムワープ値(warp_value_tbl[tw_ratio],prel)は、前記符号化されたオーディオ信号表現(210)によって表される前記符号化されたオーディオ信号の所定数のサンプルにわたるタイムワープコンターの相対的な変化を示し、
    前記オーディオ信号復号器は、前記復号されたタイムワープ値からタイムワープコンター情報を導出するように構成されたサンプリング位置計算部を備える、
    請求項1から10のいずれかに記載のオーディオ信号復号器。
  12. 前記オーディオ信号復号器は、前記復号されたタイムワープ値(warp_value_tbl[tw_ratio])に基づいてタイムワープコンターの支持点(サポーティング・ポイント)(warp_node_values[])を計算するように構成されたサンプリング位置計算部(240k)を備え、
    前記サンプリング位置計算部は、前記支持点間を補間して、前記タイムワープコンター(time_contour[])を取得するように構成され、
    1オーディオフレーム当たりの復号されたタイムワープ値の数は、前記サンプリング周波数に依存しない、
    請求項1から11のいずれかに記載のオーディオ信号復号器。
  13. オーディオ信号(110)の符号化された表現(112)を提供するためのオーディオ信号符号化器(100;300)であって、
    タイムワープコンターを示すタイムワープ値(prel)を符号化されたタイムワープ情報(132)にマッピングするように構成されたタイムワープコンター符号化部(130)であって、前記タイムワープコンターを示す前記タイムワープ値(prel)を前記符号化されたタイムワープ情報(132)のコードワード(tw_ratio[i],インデックス)にマッピングするためのマッピング規則(134)を前記オーディオ信号(110)のサンプリング周波数(f)に応じて適合させるように構成されたタイムワープコンター符号化部(130)と、
    前記オーディオ信号のスペクトルの符号化された表現(142)を、前記タイムワープコンター情報(122)によって示されるタイムワープを考慮して取得するように構成されたタイムワーピング信号符号化部(140)であって、前記オーディオ信号(110)の前記符号化された表現(112)が、前記符号化されたタイムワープ情報(132)の前記コードワード(tw_ratio[i],インデックス)、前記スペクトルの前記符号化された表現(142)、および前記サンプリング周波数を示すサンプリング周波数情報(152)を含むタイムワーピング信号符号化部(140)と、
    を備えるオーディオ信号符号化器(100;300)。
  14. 復号されたオーディオ信号表現を、サンプリング周波数情報と、符号化されたタイムワープ情報と、符号化されたスペクトル表現とを含む符号化されたオーディオ信号表現に基づいて提供するための方法であって、
    前記符号化されたタイムワープ情報を復号されたタイムワープ情報にマッピングするステップであって、前記符号化されたタイムワープ情報のコードワードを前記復号されたタイムワープ情報を示す復号されたタイムワープ値にマッピングするためのマッピング規則を前記サンプリング周波数情報に応じて適合させるステップと、
    前記復号されたオーディオ信号表現を、前記符号化されたスペクトル表現に基づいてかつ前記復号されたタイムワープ情報に応じて提供するステップと
    を含む方法。
  15. オーディオ信号の符号化された表現を提供するための方法であって、
    タイムワープコンターを示すタイムワープ値を符号化されたタイムワープ情報にマッピングするステップであって、前記タイムワープコンターを示す前記タイムワープ値を前記符号化されたタイムワープ情報のコードワードにマッピングするためのマッピング規則を前記オーディオ信号のサンプリング周波数に応じて適合させるステップと、
    前記オーディオ信号のスペクトルの符号化された表現を、前記タイムワープコンター情報によって示されるタイムワープを考慮して取得するステップであって、前記オーディオ信号の前記符号化された表現が、前記符号化されたタイムワープ情報の前記コードワード、前記スペクトルの前記符号化された表現、および前記サンプリング周波数を示すサンプリング周波数情報を含むステップと、
    を含む方法。
  16. コンピュータ上で実行されたときに、請求項14または15に記載の方法を実行するためのコンピュータプログラム。
JP2012556505A 2010-03-10 2011-03-09 サンプリングレート依存型タイムワープコンター符号化を用いた、オーディオ信号復号器、オーディオ信号符号化器、方法、およびコンピュータプログラム Active JP5456914B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US31250310P 2010-03-10 2010-03-10
US61/312,503 2010-03-10
PCT/EP2011/053538 WO2011110591A1 (en) 2010-03-10 2011-03-09 Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding

Publications (2)

Publication Number Publication Date
JP2013522658A JP2013522658A (ja) 2013-06-13
JP5456914B2 true JP5456914B2 (ja) 2014-04-02

Family

ID=43829343

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012556506A Active JP5625076B2 (ja) 2010-03-10 2011-03-09 コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム
JP2012556505A Active JP5456914B2 (ja) 2010-03-10 2011-03-09 サンプリングレート依存型タイムワープコンター符号化を用いた、オーディオ信号復号器、オーディオ信号符号化器、方法、およびコンピュータプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2012556506A Active JP5625076B2 (ja) 2010-03-10 2011-03-09 コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム

Country Status (16)

Country Link
US (2) US9129597B2 (ja)
EP (2) EP2539893B1 (ja)
JP (2) JP5625076B2 (ja)
KR (2) KR101445296B1 (ja)
CN (2) CN102884573B (ja)
AR (2) AR080396A1 (ja)
AU (2) AU2011226143B9 (ja)
BR (1) BR112012022744B1 (ja)
CA (2) CA2792504C (ja)
ES (2) ES2461183T3 (ja)
HK (2) HK1179743A1 (ja)
MX (2) MX2012010469A (ja)
PL (2) PL2532001T3 (ja)
RU (2) RU2607264C2 (ja)
TW (2) TWI441170B (ja)
WO (2) WO2011110594A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2083418A1 (en) * 2008-01-24 2009-07-29 Deutsche Thomson OHG Method and Apparatus for determining and using the sampling frequency for decoding watermark information embedded in a received signal sampled with an original sampling frequency at encoder side
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CN103035249B (zh) * 2012-11-14 2015-04-08 北京理工大学 一种基于时频平面上下文的音频算术编码方法
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
SG10201708531PA (en) 2013-06-21 2017-12-28 Fraunhofer Ges Forschung Time Scaler, Audio Decoder, Method and a Computer Program using a Quality Control
KR101953613B1 (ko) 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
DK3058567T3 (en) 2013-10-18 2017-08-21 ERICSSON TELEFON AB L M (publ) CODING POSITIONS OF SPECTRAL PEAKS
KR101831289B1 (ko) 2013-10-18 2018-02-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN110619884B (zh) * 2014-03-14 2023-03-07 瑞典爱立信有限公司 音频编码方法和装置
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN105070292B (zh) * 2015-07-10 2018-11-16 珠海市杰理科技股份有限公司 音频文件数据重排序的方法和系统
EP3306609A1 (en) 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
RU2744485C1 (ru) * 2017-10-27 2021-03-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Ослабление шума в декодере
US20210192681A1 (en) * 2019-12-18 2021-06-24 Ati Technologies Ulc Frame reprojection for virtual reality and augmented reality
US11776562B2 (en) * 2020-05-29 2023-10-03 Qualcomm Incorporated Context-aware hardware-based voice activity detection
KR20230088400A (ko) * 2020-10-13 2023-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 복수의 오디오 객체를 인코딩하는 장치 및 방법 또는 둘 이상의 관련 오디오 객체를 이용하여 디코딩하는 장치 및 방법(Apparatus and method for encoding a plurality of audio objects or appratus and method for decoding using two or more relevant audio objects)
CN114488105B (zh) * 2022-04-15 2022-08-23 四川锐明智通科技有限公司 一种基于运动特征及方向模板滤波的雷达目标检测方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4196235B2 (ja) * 1999-01-19 2008-12-17 ソニー株式会社 オーディオデータ処理装置
KR20010072035A (ko) * 1999-05-26 2001-07-31 요트.게.아. 롤페즈 오디오 신호 송신 시스템
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP4364544B2 (ja) * 2003-04-09 2009-11-18 株式会社神戸製鋼所 音声信号処理装置及びその方法
CN101167125B (zh) * 2005-03-11 2012-02-29 高通股份有限公司 用于对声码器内的帧进行相位匹配的方法及设备
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
DE602007014059D1 (de) 2006-08-15 2011-06-01 Broadcom Corp Zeitverschiebung eines dekodierten audiosignals nach einem paketverlust
CN101375330B (zh) * 2006-08-15 2012-02-08 美国博通公司 丢包后解码音频信号的时间扭曲的方法
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2651437T3 (es) * 2008-07-11 2018-01-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio y decodificador de audio
CN103000186B (zh) 2008-07-11 2015-01-14 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding

Also Published As

Publication number Publication date
AU2011226140A1 (en) 2012-10-18
EP2532001A1 (en) 2012-12-12
CA2792500C (en) 2016-05-03
AR080396A1 (es) 2012-04-04
AU2011226143A1 (en) 2012-10-25
RU2012143323A (ru) 2014-04-20
AR084465A1 (es) 2013-05-22
RU2607264C2 (ru) 2017-01-10
HK1181540A1 (en) 2013-11-08
KR101445296B1 (ko) 2014-09-29
AU2011226143B2 (en) 2014-08-28
TW201207846A (en) 2012-02-16
RU2586848C2 (ru) 2016-06-10
ES2461183T3 (es) 2014-05-19
JP2013521540A (ja) 2013-06-10
US9524726B2 (en) 2016-12-20
AU2011226143B9 (en) 2015-03-19
HK1179743A1 (en) 2013-10-04
TWI441170B (zh) 2014-06-11
RU2012143340A (ru) 2014-04-20
CA2792504C (en) 2016-05-31
EP2539893B1 (en) 2014-04-02
CA2792504A1 (en) 2011-09-15
KR101445294B1 (ko) 2014-09-29
EP2539893A1 (en) 2013-01-02
EP2532001B1 (en) 2014-04-02
BR112012022741A2 (pt) 2020-11-24
US20130073296A1 (en) 2013-03-21
US20130117015A1 (en) 2013-05-09
PL2539893T3 (pl) 2014-09-30
MX2012010439A (es) 2013-04-29
CN102884572B (zh) 2015-06-17
JP5625076B2 (ja) 2014-11-12
MX2012010469A (es) 2012-12-10
BR112012022744A2 (pt) 2017-12-12
ES2458354T3 (es) 2014-05-05
CN102884573B (zh) 2014-09-10
WO2011110594A1 (en) 2011-09-15
JP2013522658A (ja) 2013-06-13
CA2792500A1 (en) 2011-09-15
AU2011226140B2 (en) 2014-08-14
TW201203224A (en) 2012-01-16
CN102884572A (zh) 2013-01-16
PL2532001T3 (pl) 2014-09-30
KR20130018761A (ko) 2013-02-25
KR20120128156A (ko) 2012-11-26
CN102884573A (zh) 2013-01-16
TWI455113B (zh) 2014-10-01
BR112012022744B1 (pt) 2021-02-17
US9129597B2 (en) 2015-09-08
WO2011110591A1 (en) 2011-09-15

Similar Documents

Publication Publication Date Title
JP5456914B2 (ja) サンプリングレート依存型タイムワープコンター符号化を用いた、オーディオ信号復号器、オーディオ信号符号化器、方法、およびコンピュータプログラム
JP7218329B2 (ja) オーディオ信号のスペクトルのスペクトル係数のコード化
JP5707410B2 (ja) 前に復号されたスペクトル値のグループの検出を使用した、オーディオ符号器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および、コンピュータプログラム
RU2486484C2 (ru) Вычислитель контура временной деформации, кодера аудиосигнала, кодированное представление аудиосигнала, способы и программное обеспечение
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
CN105723454B (zh) 能量无损编码方法和设备、信号编码方法和设备、能量无损解码方法和设备及信号解码方法和设备
JP6113278B2 (ja) 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化
JP6979048B2 (ja) 低複雑度の調性適応音声信号量子化
RU2752520C1 (ru) Управление полосой частот в кодерах и/или декодерах
KR20080092823A (ko) 부호화/복호화 장치 및 방법
BR112012022741B1 (pt) Decodificador de sinal de áudio, codificador de sinal de áudio e métodos utilizando uma codificação de contorno da deformação no tempo dependente da taxa de amostragem

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140108

R150 Certificate of patent or registration of utility model

Ref document number: 5456914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250