JP2015525893A - 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 - Google Patents

改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 Download PDF

Info

Publication number
JP2015525893A
JP2015525893A JP2015518985A JP2015518985A JP2015525893A JP 2015525893 A JP2015525893 A JP 2015525893A JP 2015518985 A JP2015518985 A JP 2015518985A JP 2015518985 A JP2015518985 A JP 2015518985A JP 2015525893 A JP2015525893 A JP 2015525893A
Authority
JP
Japan
Prior art keywords
linear prediction
probability distribution
spectrum
spectral
spectral components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015518985A
Other languages
English (en)
Other versions
JP6113278B2 (ja
Inventor
ベックシュトレーム、トム
ヘルムリヒ、クリスティアン
フックス、ギヨーム
ムルトルス、マルクス
ディーツ、マルティーン
Original Assignee
フラウンホーファーゲゼルシャフトツール フォルデルング
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフトツール フォルデルング, フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフトツール フォルデルング
Publication of JP2015525893A publication Critical patent/JP2015525893A/ja
Application granted granted Critical
Publication of JP6113278B2 publication Critical patent/JP6113278B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

線形予測係数情報から複数のスペクトル成分の各々について決定した確率分布推定を使用して、複数のスペクトル成分からなるスペクトルを符号化することにより線形予測に基づくオーディオ符号化を改良する。特に、線形予測係数情報はいずれにしても入手可能である。したがって、これを符号化側および復号化側両方で、確率分布推定を決定するために使用することができる。後者の決定は、複数のスペクトル成分での確率分布推定について適切なパラメータ化等を使用することにより、計算的に単純な態様で実現できる。いずれも、エントロピー符号化により得られる符号化効率は、コンテキスト選択により達成される確率分布推定に匹敵するが、その導出は複雑さが低減される。たとえば、この導出は純粋に解析的かつ/または空間コンテキスト選択の場合のような隣接するスペクトルラインの事前に符号化/復号化されたスペクトル値等の隣接するスペクトルラインの属性に関するなんらの情報も必要としない。【選択図】 図1

Description

本発明は、線形予測に基づくオーディオ符号化に関連し、かつ特にスペクトル符号化を使用する線形予測に基づくオーディオ符号化に関連する。
周波数領域における量子化および符号化の伝統的な手法は、信号の(重複する)ウィンドウを取得し、時間周波数変換を行い、知覚モデルを適用して、算術符号化部等のエントロピーコーダで個々の周波数を量子化するというものである(非特許文献1)。知覚モデルは、基本的に、各重み付けされたスペクトルラインにおける誤差が、等しい知覚的インパクトを有するように、スペクトルラインに乗算される重み付け関数である。重み付けされたスペクトルライン全てをこのように同じ精度で量子化でき、かつ全体的精度が知覚品質とビット消費の妥協点を決定する。
AACおよびUSAC(非TCX)の周波数領域モードにおいて、スペクトルライン群(スペクトル帯域)が同じ重みを有するように、帯域ごとに知覚モデルを定義する。これらの重みは、どのファクタによってその帯域がスケーリングされるかを定義するので、スケールファクタとして知られる。さらに、スケールファクタは、差動符号化される。
TCX領域では、重みはスケールファクタではなくスペクトル包絡線、すなわちスペクトルの全体的形状を定義するLPCモデルにより符号化される(非特許文献2)。LPCが使用されるのは、TCXとACELPとの切り替えがスムーズにできるからである。しかしながら、LPCは、よりスムーズであるべき知覚モデルにはうまく対応しないので、重み付けとして知られる処理をLPCに適用して、重み付けされたLPCが希望する知覚モデルにおよそ対応するようにする。
USACのTCX領域において、スペクトルラインは、算術符号化器により符号化される。算術コーダは、信号の全ての可能なコンフィギュレーションに確率を割り当てるとする考えに基づき、高い確率値が少数のビットで符号化でき、ビット消費が最小化されるようになっている。スペクトルラインの確率分布を推定するために、コーデックは、時間周波数空間で、先行のすでに符号化されたラインに基づき信号分布を予測する確率モデルを採用する。先行ラインは、符号化対象の現在のラインのコンテキストとして知られる(非特許文献3)。
最近、NTT社が、算術コーダのコンテキストを改良するための方法を提案した(特許文献1及び2を参照)。これは、高調波ライン(コンプフィルタ)のおよその位置を決定するLTPを使用しかつコンテキストからの大きさ予測がより効率的になるようにスペクトルラインを再構成するという考えに基づく。
一般に、確率分布推定が良いほど、エントロピー符号化による圧縮の効率が向上する。近い将来、上記の技術のいずれかを用いて得られるのと同様の品質の確率分布推定を、複雑さを低減して達成可能にするコンセプトを有することは有利である。
米国特許8296134号 WO2012046685
ISO/IEC 23003-3:2012, "MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding," 2012. J. Makhoul, "Linear prediction: A tutorial review," Proc. IEEE, vol. 63, no. 4, pp. 561-580, April 1975. G. Fuchs, V. Subbaraman, and M. Multrus, "Efficient context adaptive entropy coding for real-time application," in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, May 2011, pp.493-496.
したがって、本発明の目的は、改善された特徴の線形予測に基づくオーディオ符号化スキームを提供することである。この目的は、独立請求項の主題により達成される。
本発明の基本的な知見は、線形予測係数情報からの複数のスペクトル成分の各々について決定される確率分布推定を使用して、複数のスペクトル成分からなるスペクトルを符号化することにより、線形予測に基づくオーディオ符号化が改良され得ると言うものである。特に、線形係数情報はいずれにしても入手可能である。したがって、これを符号化側および復号化側の双方で確率分布推定を決定するために使用することができる。後者の決定は、複数のスペクトル成分の確率分布推定のための適切なパラメータ化等を使用することにより、計算的に単純な態様で実現され得る。いずれにしても、エントロピー符号化により得られる符号化効率は、コンテキスト選択を使用して得られる確率分布推定に匹敵するが、その導出は複雑さが低減される。たとえば、この導出は、純粋に解析的でかつ/または空間コンテキスト選択の場合のように隣接するスペクトルラインの事前に符号化/復号化されたスペクトル値等の隣接するスペクトルラインの属性に関するなんらの情報も必要としない。このことは、たとえば、計算プロセスのパラメータ化を容易にする。また、必要とされるメモリ要件およびメモリアクセスが低減され得る。
本願の実施例によれば、そのスペクトル値が上に概説のとおり決定される確率推定を使用してエントロピー符号化されるスペクトルは、線形予測係数情報を使用して得られる変換符号化励起でもよい。
本願の実施例によれば、例えば、スペクトルは変換符号化励起であるが知覚的に重み付けされた領域において定義される。すなわち、決定された確率分布推定を使用して符号化されるスペクトルエントロピーは、線形予測係数情報により定義される知覚的に重み付けられた線形予測合成フィルタに対応する変換関数を使用して事前にフィルタ処理されるオーディオ信号スペクトルに対応し、かつ複数のスペクトル成分の各々について、たとえば、線形予測合成フィルタの伝達関数と、線形予測合成フィルタの知覚的に重み付けして修正したものの伝達関数の逆数との積に依存する関数をスケーリングしたものにスペクトル的に追随するように、確率分布パラメータが決定される。複数のスペクトル成分の各々について、確率分布推定は、それぞれのスペクトル成分の確率分布パラメータでパラメータ化されるパラメータ化可能な関数である。ここでも、線形予測係数情報は、いずれにしても入手可能であり、確率分布パラメータの導出は、純粋な解析プロセスおよび/またはスペクトルの異なるスペクトル成分のスペクトル値間にいかなる相互依存性も必要としないプロセスとして実現され得る。
さらに他の実施例によれば、確率分布パラメータは、代替的または付加的に、長期予測(LTP)を使用して決定されるスペクトル微細構造に乗法的に依存する関数にスペクトル的に追随するように決定される。ここでも、いくつかの線形予測に基づくコーデックにおいては、いずれにしてもLTP情報が入手可能で、また、確率分布パラメータの決定は、依然として純粋に解析的におよび/またはスペクトルの異なるスペクトル成分のスペクトル値の符号化間での相互依存なしに実行可能である。LTPの使用と知覚的変換符号化励起符号化とを組み合わせる場合、わずかに複雑さが増すが、符号化効率はさらに向上する。
有利な実現例および実施例は、従属項の主題である。本願の好ましい実施例について、図面を参照しながら以下にさらに説明する。
実施例にしたがう線形予測に基づくオーディオエンコーダのブロック図である。 実施例にしたがう図1のスペクトル決定部のブロック図である。 図1および図2に示す要素の演算モードの説明において、これを知覚符号化を用いて実現する際に生じる様々な伝達関数を示す図である。 図3Aの関数に知覚モデルの逆数を使用して重み付けしたものを示す図である。 知覚符号化を使用する実施例にしたがう図1の確率分布推定部14の内部動作を示すブロック図である。 図5aは、プリエンファシスフィルタ処理後の元のオーディオ信号およびその推定される包絡線を示すグラフである。図5bは。実施例にしたがい包絡線をより厳密に推定するために使用するLTP関数の例を示す図ある。図5cは、図5aの例に図5bのLTP関数を適用して得られる包絡線推定の結果を示すグラフである。 知覚符号化およびLTP処理を使用する他の実施例における確率分布推定部14の内部動作のブロック図である。 実施例にしたがう線形予測に基づくオーディオデコーダのブロック図である。 さらに他の実施例にしたがう線形予測に基づくオーディオデコーダのブロック図である。 実施例にしたがう図8のフィルタのブロック図である。 実施例にしたがう量子化およびエントロピー符号化段ならびに確率分布推定部14に位置する図1のエンコーダの部分のより詳細な構成を示すブロック図である。 図10が符号化側、すなわち確率分布推定部102ならびにエントロピー復号化および逆量子化段104に位置する部分に対応する部分に位置する、たとえば図7および図8の実施例にしたがう線形予測によるオーディオデコーダ内の一部のブロック図である。
本願の様々な実施例を記載する前に、その基礎となる思想を、本願明細書の導入部に挙げた背景技術に照らして例示的に説明する。USAC等の具体的な比較技術との比較から導きだされる具体的な特徴については、本願およびその実施例の範囲を限定するものとしては扱わない。
算術符号化のためのUSACの手法においては、基本的にコンテキストが、後続のラインの大きさ分布を予測する。つまり、符号化/復号化の際には、スペクトルラインまたはスペクトル成分をスペクトルの寸法でスキャンし、かつ大きさ分布を、先に符号化/復号化されたスペクトル値に基づいて連続的に予測する。しかしながら、LPCは、予測を必要とせず、同じ情報をすでに明示的に符号化する。すなわち、このコンテキストの代わりにLPCを採用すれば、より低い計算の複雑さでまたは少なくともより低い複雑さを達成する可能性を持って、同様の結果が導かれるはずである。実際、より低いビットレートでは、スペクトルは本質的に1とゼロからなるので、コンテキストはほとんどの場合常に非常に希薄で、有用な情報を欠くものになる。したがって、確率分布推定に使用される隣接したすでに符号化/復号化されたスペクトル値のテンプレートには、有用な情報が疎らにしか存在しないので、理論的にはLPCが実際は大きさ推定値にはより良いソースのはずである。その上、LPC情報は、エンコーダとデコーダの両方ですでに入手可能なので、ビット消費と言う意味ではコストはゼロである。
LPCモデルは、スペクトル包絡線の形状、すなわち各ラインの相対的な大きさを定義するだけであり、絶対値の大きさを定義するわけではない。一本のラインについて確率分布を定義するためには、絶対値の大きさ、すなわち信号の分散についての値(または同様の尺度)を常に必要とする。したがって、LPCによるスペクトル量子化器モデルの多くは、その本質的な部分がLPC包絡線のスケーリングのはずであり、所望の分散(かつしたがって所望のビット消費)に到達する。このスケーリングは、エンコーダとデコーダの両方で通常行われる必要があり、これは、各ラインの確率分布がスケーリングされたLPCに依存するためである。
上記のとおり、知覚モデル(重み付けLPC)を用いて知覚モデルを定義することができ、すなわち各スペクトルラインにおける予想される量子化誤差が概ね等しい量の知覚的歪みを生じさせるように、知覚領域で量子化を行うことができる。そうだとすれば、LPCモデルは、以下に定義する重み付けLPCで乗算することによっても、知覚領域に変換される。下記の実施例においては、多くの場合、LPC包絡線が知覚領域に変換されると仮定する。
こうして、各スペクトルラインについて、独立した確率モデルを適用することが可能である。スペクトルラインには予測可能な位相相関がないと仮定するのが妥当なので、大きさのみをモデル化することで充分である。LPCは、大きさを効率的に符号化すると考えることができるので、コンテキストによる算術コーダを有することで、大きさ推定の効率が向上することはないと考えられる。
したがって、コンテキストが、LPC包絡線に依存するかまたはLPC包絡線そのものから構成されるように、コンテキストベースのエントロピーコーダを適用することが可能である。
LPC包絡線に加えて、LTPも使用して、包絡線情報を推定することもできる。結局、LTPは、周波数領域におけるコムフィルタに相当し得る。いくつか実用面の詳細について、以下に説明する。
以下に説明する実施例の基礎となる思想に至るいくつかの考えについて説明したが、ここで、これらの実施例について図1を参照して説明する。図1は、本願実施例に従う線形予測に基づくオーディオエンコーダの実施例を示す。図1の線形予測に基づくオーディオエンコーダは、全体を参照番号10で示し、かつ線形予測解析部12、確率分布推定部14、スペクトル決定部16ならびに量子化およびエントロピー符号化段18を含む。図1の線形予測に基づくオーディオエンコーダ10は、入力20等で、符号化対象のオーディオ信号を受信しかつ内部にオーディオ信号が符号化されたデータストリーム22を出力する。図1に示すとおり、LP解析部12およびスペクトル決定部16は、入力20と直接または間接的に結合される。確率分布推定部14は、LP解析部12と量子化およびエントロピー符号化段18との間に結合され、かつ量子化およびエントロピー符号化段18は、スペクトル決定部16の出力に結合される。図1からわかるように、LP解析部12ならびに量子化およびエントロピー符号化段18は、データストリーム22の形成/生成に寄与する。以下に詳説するとおり、エンコーダ10は、入力20およびLP解析部12および/またはスペクトル決定部16の間に結合可能なプリエンファシスフィルタ24を随意に含んでもよい。さらに、スペクトル決定部16をLP解析部12の出力に随意に結合することが可能である。
特に、LP解析部12は、入力20に入来のオーディオ信号に基づき線形予測係数情報を決定するよう構成される。図1に示すとおり、LP解析部12は、入力20のオーディオ信号に直接またはプリエンファシスフィルタ24により得られるプリエンファシスを行ったもの等、それになんらかの修正を加えたもののいずれかに対して、線形予測解析を実行できる。LP解析部12の操作モードには、LP解析対象の信号のウィンドウ処理された(windowed)部分からなるシーケンスを得られるよう入来信号をウィンドウ処理(windowing)すること、各ウィンドウ処理された部分の自己相関を決定するための自己相関決定および自己相関に対してラグウィンドウ関数を適用するための随意のラグウィンドウ処理等を含み得る。その後、自己相関またはラグウィンドウ出力、すなわちウィンドウ処理された自己相関関数に対して、線形予測パラメータ推定を行ってもよい。線形予測パラメータ推定には、自己相関ごと、すなわち、LP解析対象の信号のウィンドウ処理された部分ごとに、線形予測係数を導出するよう(ラグウィンドウ処理された)自己相関に対して、ウィーナー・レビンソン・ダービン(Wiener−Levinson−Durbin)または他の適切なアルゴリズムを実行することを含み得る。つまり、LP解析部12の出力には、LPC係数が得られ、これらが、以下に説明するとおり、確率分布推定部14かつ随意にはスペクトル決定部16により使用される。LP解析部12は、データストリーム22に挿入する線形予測係数を量子化するよう構成され得る。線形予測係数の量子化を、ラインスペクトル対でまたはラインスペクトル周波数領域等の線形予測係数領域以外の領域で行ってもよい。量子化された線形予測係数をデータストリーム22に符号化することができる。確率分布推定部14および随意にはスペクトル決定部16により実際に使用される線形予測係数情報は、量子化損失を考慮してもよく、すなわちデータストリームによりロスなく送信される量子化されたものでもよい。つまり、後者は、実際には、線形予測解析部12により得られる量子化された線形予測係数を線形予測係数情報として使用し得る。完璧を期するため、線形予測解析部12による線形予測係数情報の決定には、非常に多くの可能性が存在する点を指摘する。たとえば、ウィーナー・レビンソン・ダービンアルゴリズム以外のアルゴリズムを使用してもよい。さらに、LP解析対象の信号の局所的自己相関の推定値を、LP解析対象の信号のスペクトル分解により得ることができる。WO2012/110476A1の記載によれば、LP解析対象の信号をウィンドウ処理し、各ウィンドウ処理された部分にMDCTを行い、MDCTスペクトルごとにパワースぺクトルを決定しかつMDCT領域から自己相関の推定値への遷移のための逆ODFTを行うことにより、自己相関が得られる。要約すると、LP解析部12は、線形予測係数情報を提供しかつデータストリーム22は、この線形予測係数情報を伝搬するかまたは含む。たとえば、データストリーム22は、すぐ上に述べたウィンドウ処理された部分のレートにより決まる時間分解能で線形予測係数情報を伝え、このウィンドウ処理された部分は、当該技術分野において既知のとおり、50%の重複等で、相互に重複し得る。
なお、プリエンファシスフィルタ24に関する限り、同様のことは、たとえば、FIRフィルタ処理を用いて実現し得る。プリエンファシスフィルタ24は、たとえばハイパス伝達関数を有し得る。実施例によれば、プリエンファシスフィルタ24は、たとえば、H(z)=1−αz−1(αは0.68等に設定)等のn次ハイパスフィルタとして実現される。
スペクトル決定部について次に説明する。スペクトル決定部16は、入力20のオーディオ信号に基づき複数のスペクトル成分からなるスペクトルを決定するように構成される。スペクトルは、オーディオ信号を記述するものである。線形予測解析部12と同様、スペクトル決定部16は、オーディオ信号20対して直接的にまたは同信号にプリエンファシスフィルタ処理を行ったもの等なんらかの修正を加えたものに対して作動し得る。スペクトル決定部16は、スペクトルを決定するため、ラップド変換またはMDCT等のクリティカルにサンプリングしたラップド変換等いずれかの変換を使用し得るが、他の可能性も存在する。すなわち、スペクトル決定部16は、スペクトル的に分解する対象の信号にウィンドウ処理を行って、ウィンドウ処理された部分からなるシーケンスを取得しかつ各ウィンドウ処理された部分にMDCT等のそれぞれの変換を行うことができる。スペクトル決定部16のウィンドウ処理された部分のレート、すなわちスペクトル分解の時間分解能は、LP解析部12が線形予測係数情報を決定する時間分解能とは相違し得る。
こうして、スペクトル決定部16は、複数のスペクトル成分からなるスペクトルを出力する。特に、スペクトル決定部16は、変換の対象となるウィンドウ処理された部分ごとに、スペクトル値のシーケンス、すなわち、たとえば周波数のスペクトルラインごと等、スペクトル成分ごとに1つのスペクトル値を出力し得る。スペクトル値は、複素数値または実数値のいずれかである。スペクトル値は、たとえばMDCTを使用する場合には実数値になる。特に、スペクトル値は、符号付きで、すなわち符号と大きさの組み合わせになり得る。
上記のとおり、線形予測係数情報は、LP解析された信号のスペクトル包絡線の短期予測を構成し、したがって、複数のスペクトル成分の各々について、確率分布推定、すなわちそれぞれのスペクトル成分のスペクトルがある可能なスペクトル値を仮定する確率が、可能なスペクトル値の領域にわたってどのように統計的に変化するかの推定を決定するためのベースの役割を果たし得る。この決定は、確率分布推定部14により行われる。確率分布推定の決定の詳細については、様々な可能性が存在する。たとえば、以下に説明する実施例によれば、スペクトル決定部16をオーディオ信号またはオーディオ信号にプリエンファシス処理をしたもののスぺクトログラムを決定するよう実現することができるが、スペクトル決定部16は、励起信号、すなわちオーディオ信号またはそれをプリエンファシスフィルタ処理したもの等なんらかの修正を行ったものにLPベースのフィルタ処理をして得られる残留信号をスペクトルとして決定するよう構成される。特に、スペクトル決定部16は、線形予測係数情報により定義される線形予測合成フィルタの逆数、すなわち線形予測解析フィルタに依存するかまたはこれに等しい伝達関数を使用して、入来信号をフィルタ処理した後、スペクトル決定部16に入来する信号のスペクトルを決定するよう構成してもよい。これ以外では、LPベースのオーディオエンコーダは、知覚LPベースのエンコーダでもよく、かつスペクトル決定部16は、線形予測係数情報により定義される線形予測合成フィルタの逆数に依存するかまたはこれに等しいが、たとえばマスキング閾値の推定の逆数に対応するよう修正された伝達関数を使用して、入来信号をフィルタ処理した後、スペクトル決定部16に入来する信号のスペクトルを決定するよう構成されてもよい。すなわち、スペクトル決定部16は、知覚的に修正された線形予測合成フィルタの逆数に相当する伝達関数でフィルタ処理された入来の信号のスペクトルを決定するよう構成できる。この場合、スペクトル決定部16は、知覚マスキングがより低いスペクトル領域に対して知覚マスキングがより高いスペクトル領域のスペクトルを比較的低減する。しかしながら、確率分布推定を決定する際には、確率分布推定部14は、線形予測係数情報の使用により、線形予測合成フィルタの知覚的修正を考慮に入れることで、スペクトル決定部16により決定されるスペクトルの包絡線を、依然として推定することができる。この詳細については、以下に概説する。
さらに、以下に詳説するとおり、確率分布推定部14は、スペクトル成分ごとのより良い確率分布推定を得るよう、スペクトルに関する微細構造情報を得るため、長期予測を使用することができる。LTPパラメータを、たとえば復号化側に送って、微細構造情報の再構成を可能にする。この詳細については、以下に概説する。
いずれにしても、量子化およびエントロピー符号化段18は、確率分布推定部14により複数のスペクトル成分の各々について決定される確率分布推定を使用してスペクトルを量子化かつエントロピー符号化する。より厳密には、量子化およびエントロピー符号化段18は、変換対象のウィンドウ処理された部分の上記のウィンドウ処理された部分のレートに対応するなんらかの時間レートで、スペクトル決定部16からスペクトル成分kから構成されるスペクトル26、厳密には、スペクトル26のシーケンスを受ける。特に、段18は、スペクトル成分kのスペクトル値ごとに符号値とスペクトル成分kごとに対応の大きさ|x|を受信し得る。
一方、量子化およびエントロピー符号化段18は、スペクトル成分kごとに、スペクトル値が仮定し得る可能な値ごとに、それぞれのスペクトル成分kのスパクトル値が、まさにこの可能な値を有する確率を決定する確率値推定値を定義する確率分布推定28を受ける。たとえば、確率分布推定部14により決定される確率分布推定は、スペクトル値の大きさにのみ集中するので、ゼロを含む正の値についての確率値のみを決定する。特に、量子化およびエントロピー符号化段18は、たとえば全スペクトル成分について等しい量子化ルールを用いてスペクトル値を量子化する。したがって、こうして得られるスペクトル成分kの大きさのレベルは、ゼロから随意にはなんらかの最大値までを含む整数値の領域にわたって定義される。確率分布推定は、各スペクトル成分kについて、可能な整数iのこの領域にわたって定義されることが可能で、すなわちp(k,i)は、スペクトル成分kについての確率推定であり、整数iI[0;max]にわたって定義されると考えられ、整数kI[0;kmax]であり、kmaxは、最大スペクトル成分であり、全てのk、iについてp(k;i)I[0;1]であり、全てのiI[0;max]にわたって、p(k,i)の和は、全てのkについて1である。
量子化およびエントロピー符号化段18は、たとえば、量子化のために定数量子化ステップサイズを使用してもよく、ステップサイズは全てのスペクトル成分kについて等しい。確率分布推定28が良いほど、量子化およびエントロピー符号化段18が行う圧縮効率が向上する。
率直に述べれば、確率分布推定部14は、スペクトル26の包絡線30または近似形に関する情報を得るようLP解析部12により提供される線形予測係数情報を使用し得る。この包絡線または形状の推定30を使用して、推定部14は、全スペクトル成分について等しい共通のスケールファクタを使用して包絡線を適切にスケーリングすることにより、各スペクトル成分kについて、分散度32を導出することができる。スペクトル成分kのこれらの分散度は、スペクトル成分kごとの確率分布推定をパラメータ化するためのパラメータとしての役割を果たし得る。たとえば、p(k,i)は、全kについて、f(i,l(k))であり、l(i)は、スペクトル成分kの決定された分散度であり、f(i,l)は、以下に定義するとおり、各固定されたlについての、ゼロを含む正の値iについて定義されるガウスまたはラプラス関数等の以下に定義する単調関数等、変数iの適当な関数であり、一方、lは、関数の「急峻さ」または「幅広さ」を表す関数パラメータであり、これについては以下により厳密な表現で概説する。パラメータ化されたパラメータライゼーションを使用して、量子化およびエントロピー符号化段18は、このように効率的にスペクトルのスペクトル値をデータストリーム22にエントロピー符号化することができる。以下のより詳しい説明から明らかなとおり、確率分布推定28の決定は、純粋に解析的にかつ/または同じスペクトル26の様々なスペクトル成分のスペクトル値間の相互依存関係を必要とせず、すなわち同じ瞬間に関連する異なるスペクトル成分のスペクトル値からは独立して、実現することができる。したがって、量子化およびエントロピー符号化段18は、それぞれ量子化されたスペクトル値または大きさのレベルのエントロピー符号化を並列で行うことができる。一方、実際のエントロピー符号化は、算術符号化、可変長符号化または確率インターバルパティショニングエントロピー符号化等のなんらかの他のエントロピー符号化の形態が可能である。実際上、量子化およびエントロピー符号化段18は、あるスペクトル成分kの確率分布推定28を用いてそのスペクトル成分kの各スペクトル値をエントロピー符号化するが、確率分布推定28が示す確率がより高い、スペクトル成分kのスペクトル値の可能な値の領域の部分内では、データストリーム22への符号化するそれぞれのスペクトル値kのビット消費がより低くなり、かつ確率分布推定28が示す確率がより低い、可能な値の領域の部分では、ビット消費が大きくなるようになっている。たとえば、算術符号化の場合には、表による算術符号化を用いることができる。可変長符号化の場合には、可能な値をコードワードにマッピングする様々なコードワード表を、それぞれのスペクトル成分kについて確率分布推定部14により決定される確率分布推定28に依存して、量子化およびエントロピー符号化段により選択かつ適用することができる。
図2は、図1のスペクトル決定部16の可能な実現例を示す。図2によれば、スペクトル決定部16は、スケールファクタ決定部34、変換部36およびスペクトル整形部38を含む。変換部36およびスペクトル整形部38は、スペクトル決定部16の入力および出力間に相互に連続して接続されており、これを介してスペクトル決定部16は、図1の入力20と量子化およびエントロピー符号化段18との間に接続される。スケールファクタ決定部34は、LP解析部12とスペクトル整形部38の他の入力との間に接続される(図1を参照)。
スケールファクタ決定部34は、スケールファクタを決定するよう線形予測係数情報を使用するよう構成される。変換部36は、受信する信号をスペクトル的に分解して元のスペクトルを得る。上記のとおり、入力20で入来信号は元のオーディオ信号かまたはそれにプリエンファシス処理を行ったもの等である。また、上記のとおり、変換部36は、変換対象の信号に、重複部分を使用して部分ごとに内部的にウィンドウ処理を行う一方、各ウィンドウ処理された部分を個別に変換してもよい。上記のとおり、MDCTを変換に使用してもよい。すなわち、変換部36は、スペクトル成分kごとに1つのスペクトル値X’を出力し、スペクトル整形部38は、スケールファクタを使用してスペクトルをスケーリング、すなわちスケールファクタ決定部34により出力されるスケールファクタsを使用して各元のスペクトル値x’をスケーリングすることにより、この元のスペクトルをスペクトル的に整形して、それぞれのスペクトル値xを得るように構成され、この得られた値に図1の段18において量子化およびエントロピー符号化処理が行われる。
スケールファクタ決定部34がスケールファクタを決定するスペクトル分解能は、必ずしもスペクトル成分kにより定義される分解能と一致しない。たとえば、知覚的な動機により、スペクトル成分をバークバンド等のスペクトル群にグループ化することで、スケールファクタすなわち変換部36が出力するスペクトルのスペクル値が重み付けられるスぺクトル重みを決定するスペクトル分解能を構成し得る。
スケールファクタ決定部34は、線形予測係数情報により定義される線形予測合成フィルタの逆数に依存する伝達関数を表すかまたはこれに近似するように、スケールファクタを決定するよう構成される。たとえば、スケールファクタ決定部34は、LP解析部12から得られる線形予測係数を、データストリーム22を介して復号化側でもODFTを含み得るLPC―MDCT変換のベースとして得られるそれらの量子化された形で使用するよう構成され得る。当然ながら、他の方法も存在する。図1のオーディオエンコーダが知覚的線形予測に基づくオーディオエンコーダである、上記の代替例では、スケールファクタ決定部34は、たとえばODFTを使用するスペクトルファクタへの変換を行う前にまずLPCの知覚的に動機づけられた重み付けを実行するよう構成され得る。しかしながら、他の可能性も存在する。以下により詳細に説明するとおり、スペクトル整形部38によるスペクトルスケーリングにより生じるフィルタ処理の伝達関数は、スケールファクタ決定部34により実行されるスケールファクタ決定を介して、伝達関数が1/A(k・z)(ここでkは、0.92等の定数を表す)の伝達関数の逆数になるように、線形予測係数情報により定義される線形予測合成フィルタ1/A(z)の逆数に依存し得る。
スペクトル決定部の機能性と確率分布推定部14との相互関係およびこの関係が、線形予測に基づくオーディオエンコーダが知覚的線形予測に基づくオーディオエンコーダとして作用する場合に、どのように量子化およびエントロピー符号化段18の効果的動作につながるかをよりよく理解するために、図3aおよび図3bを参照する。図3aは、元のスペクトル40を示す。ここでは、例として、プリエンファシスフィルタの伝達関数により重みづけられるオーディオ信号のスペクトルを示す。より厳密には、図3aは、スペクトル成分またはスペクトルラインkにわたってプロットされたスペクトル40の大きさを示す。同じグラフにおいて、図3aは、(線形予測合成フィルタA(z)の伝達関数)×(プリエンファシスフィルタ24の伝達関数)を示し、その積を42で示す。この関数42が、スペクトル40の包絡線または粗い形状に近似することがわかる。図3aでは、上記の例におけるA(0.92z)等の線形予測合成フィルタの知覚的に動機づけられた修正を示す。この「知覚モデル」は、参照番号44で示す。関数44は、こうして少なくともスペクトルオクルージョンを考慮に入れることにより、オーディオ信号のマスキング閾値の単純化された推定を表す。スペクトルファクタ決定部34は、知覚モデル44の逆数に近似するようにスケールファクタを決定する。図3aの関数40から44と知覚モデル44の逆数とを乗算した結果を図3bに示す。たとえば、46は、スペクトル40と44の逆数とを乗算した結果を示し、したがって、上記のとおり、エンコーダ10が知覚的線形予測に基づくエンコーダとして作用する場合には、スペクトル整形部38により出力される知覚的に重み付けされたスペクトルに相当する。関数44とその逆数とを乗算することで定数関数が得られるので、得られる積は、図3bの50に見られるとおり平坦に示される。
ここで、確率分布推定部14を考察すると、同推定部も上記のとおり線形予測係数情報へのアクセスを有する。推定部14はこうして、関数42に関数44の逆数を乗算して得られる関数48を計算することができる。この関数48は、図3bからわかるとおり、スペクトル整形部38により出力されるプリフィルタ処理した46の包絡線または粗い形状の推定としての役割を果たし得る。
したがって、確率分布推定部14は、図4に示すとおり作用することができる。特に、確率分布推定部14は、線形予測合成フィルタ1/A(z)を定義する線形予測係数が、知覚的に修正された線形予測合成フィルタ1/A(k・z)に対応するように、これに知覚的重み付け64を行うことが可能である。重み付けしたものとしていないもの両方の線形予測係数に、LPC−スペクトル重み変換60および62がそれぞれ行われて、その結果をスペクトル成分kごとに除算する。得られた商に対して随意になんらかのパラメータ導出68を行って、スペクトル成分kの商を個別に、すなわちkごとになんらかのマッピング関数を適用し、確率分布推定の分散等の程度を表す確率分布パラメータを得るようにする。より厳密には、非重み付けおよび重み付け線形予測係数に適用されるLPC−スペクトル重み変換60および62によりスペクトル成分kについてスペクトル重みsおよびs’が得られる。変換60および62は、上記のとおり、スペクトル成分k自体が定義するスペクトル分解能よりも低いスペクトル分解能で行われてもよいが、たとえば、得られた商qをスペクトル成分kにわたって平滑化するために、補間が行われてもよい。パラメータ導出により、全kについて共通のスケーリングファクタを使用して全qをスケーリングする等によりスペクトル成分kごとに確率分布パラメータπを得る。次に、量子化およびエントロピー符号化段18は、これら確率分布パラメータπを使用して、量子化のスペクトル的に整形されたスペクトルを効率的にエントロピー符号化し得る。特に、πは、包絡線スペクトル値xまたは少なくともその大きさの確率分布推定の分散度であり、上記のf(i,l(k))等のパラメータ化可能な関数を量子化およびエントロピー符号化段18が使用して、πをパラメータ可能な関数、すなわちl(k)のための設定として使用することにより確率分布推定28をスペクトル成分kごとに決定することができる。パラメータ化可能な関数のパラメータ化は、l(k)等の確率分布パラメータが実際に確率分布推定の分散度であるように、すなわち確率分布パラメータが確率分布パラメータ化可能関数の幅を表すようになっていることが好ましい。以下に説明する特定の実施例では、ラプラス分布をf(i,l(k))等のパラメータ化可能な関数として使用する。
なお、図1を参照して、確率分布推定部14は、LPC情報に基づいてのみ得られる品質に比較して、復号化側が個々のスペクトル成分kについて確率分布推定28の品質を向上させることができる情報を、データストリーム22に付加的に挿入してもよい。特に、以下に説明するこれら特定の実現例の詳細によれば、スペクトル26が知覚モデルの逆数または線形予測合成フィルタの逆数に相当する伝達関数でフィルタ処理することにより得られるスペクトル等の変換符号化励起を表す場合、スペクトル26の包絡線または形状のスペクトル的により細かい推定30を得るために、確率分布推定部14が長期予測を用いてもよい。
たとえば、図5aから図5cは、確率分布推定部14の後者の随意の機能性を示す。図5aは、図3a同様元のオーディオ信号スペクトル40およびプリエンファシスを含むLPCモデルA(z)を示す。すなわち、元の信号40とプリエンファシスを含むそのLPC包絡線42を示す。図5bは、確率分布推定部14により行われるLTP解析の出力の例として、LTPコムフィルタ70、すなわち、谷と山の比a/bを記述する値LTPゲインおよびコム関数70の山間のピッチまたは距離、すなわちcを定義するパラメータLTPラグによりパラメータ化されるスペクトル成分kにわたるコム関数を示す。確率分布推定部14は、LTPコム関数70に、スペクトル26の線形予測係数ベースの推定30を乗算することで実際のスペクトル26をより近接して推定するようこのLTPパラメータを決定し得る。LTPコム関数70とLPCモデル42の乗算について図5cに例示するが、LTPコム関数70とLPCモデル42との積72がスペクトル40の実際の形状により近似していることがわかる。
確率分布推定部14のLTP機能性と知覚領域の使用を組み合わせる場合には、確率分布推定部14は、図6に示すように作用し得る。作用のモードは、概ね図4に示すものと一致する。すなわち、線形予測合成フィルタ1/A(z)を定義するLPC係数に、LPC−スペクトル重み変換60および62をそのまま一回行って、知覚的重み付け64を行った後にもう一度行う。結果として得られるスケールファクタに除算66を行い、得られた商qを乗算部47を用いてLTPコム関数70と乗算し、そのパラメータLTPゲインおよびLTPラグを確率分布推定部14で適切に決定して、データストリーム22に挿入して、復号化側でアクセスするようにする。結果として得られる積l・q(lは、スペクトル成分kのLTPコム関数を表す)に次に確率分布パラメータ導出68を行い、確率分布パラメータdを得るようにする。なお、以下の復号化側の説明においては、特に、確率分布推定のデコーダ側の機能性に関して、図6を参照する。これに関しては、エンコーダ側では、LPTパラメータが、最適化等により決定され、データストリーム22に挿入されるのに対して、復号化側では単にデータストリームからLTPパラメータを読み取るだけでよい点に留意されたい。
図1から図6を参照して、線形予測に基づくオーディオエンコーダに関する様々な実施例について説明したが、以下では、復号化側に焦点をあてて説明する。図7は、線形予測に基づくオーディオデコーダ100の実施例を示す。同実施例は、確率分布推定部102ならびにエントロピー復号化および逆量子化段104を含む。線形予測に基づくオーディオデコーダは、データストリーム22に対してアクセスを有し、かつ確率分布推定部102が、複数のスペクトル成分kの各々について、データストリーム22に含まれる線形予測係数情報から確率分布推定28を決定するよう構成されるのに対して、エントロピー復号化および逆量子化段104は、確率分布推定部102により複数のスペクトル成分kの各々について決定される確率分布推定を用いてデータストリーム22からのスペクトル26をエントロピー復号化かつ逆量子化するように構成される。すなわち、確率分布推定部102ならびにエントロピー復号化および逆量子化段104はいずれもデータストリーム22にアクセスを有し、確率分布推定部102は、その出力がエントロピー復号化および逆量子化段104の入力に接続される。後者の出力で、スペクトル26が得られる。
なお、当然ながら、応用に応じて、エントロピー復号化および逆量子化段104により出力されるスペクトルに、さらに他の処理を行ってもよい。しかしながら、ラウドスピーカ等を用いて再生するためには、時間領域においては、デコーダ100の出力は、必ずしもデータストリーム22に符号化されるオーディオ信号である必要はない。むしろ、線形予測に基づくオーディオデコーダ100は、会議システムのミキサ、マルチチャネルまたはマルチオブジェクトのデコーダ等の入力にインターフェースしてもよく、このインターフェースは、スペクトル領域で行われてもよい。他の例では、スペクトルまたはこれに何らかの後処理を施したものに、以下に説明するオーバラップ/加算処理を用いる逆変換等のスペクトル分解変換によりスペクトル―時間変換を行ってもよい。
確率分布推定部102は、符号化側の確率分布推定部14と同じLPC情報にアクセスできるので、確率分布推定部102は、符号化側ではさらなるLTPパラメータを決定して、その決定の結果をデータストリーム22を介して復号化側へ送信する等を除いては、符号化側の対応する推定部と同様に作用する。エントロピー復号化および逆量子化段104は、データストリーム22からの大きさレベル等のスペクトル62のスペクトル値をエントロピー復号化する際に確率分布推定を使用しかつ全スペクトル成分について等しくこれを逆量子化してスペクトル26を得るように構成される。エントロピー符号化実現の様々な可能性については、エントロピー符号化に関する上記の説明を参照されたい。さらに、代替例の全てならびにエントロピー符号化および量子化についての上記の説明が応じてデコーダの実施例にも当てはまるように、同じ量子化ルールを、符号化側で用いたものに対して逆方向に適用する。すなわち、たとえばエントロピー復号化および逆量子化段は、大きさレベルを逆量子化するために定数量子化ステップサイズを使用するよう構成されてもよくかつ算術復号化等を使用してもよい。
上記のとおり、スペクトル26は、変換符号化励起を表してもよく、かつしたがって、図8は、線形予測に基づくオーディオデコーダが、LPC情報およびデータストリーム22にもアクセスがありかつエントロピー復号化および逆量子化段104の出力に接続されるフィルタ106をさらに含んで、スペクトル26を受信してその出力にフィルタ処理後の/再構成されたオーディオ信号のスペクトルを出力するようにしてもよい。特に、フィルタ106は、線形予測係数情報により定義される線形予測合成フィルタに依存する伝達関数にしたがってスペクトル26を整形するよう構成される。より厳密には、フィルタ106は、スケールファクタ決定部34とスペクトル整形部38とを連結したものにより実現されてもよく、スペクトル整形部38が、段104からのスペクトル26を受け、かつフィルタ処理された後の信号、すなわち再構成されたオーディオ信号を出力する。フィルタ106内で行われるスケーリングが、符号化側でスぺクトル整形部38が行うスケーリングの全く逆になるということが、唯一の相違点と考えられ、すなわち、符号化側では、スペクトル整形部38は、たとえば、スケールファクタを用いて、乗算を行い、フィルタ106においては、スケールファクタで除算を行い、または逆も同様である。
後者の状況について、図9に示すが、これは、図8のフィルタ106についての実施例を示す。フィルタ108が、たとえば図2のスケールファクタ決定部34のように作用するスケールファクタ決定部110および上記のとおりスケールファクタ決定部110のスケールファクタを、入来スペクトルに、スペクトル整形部38に対するのとは逆に適用するスペクトル整形部112を含み得ることがわかる。
図9は、逆変換部114と、オーバラップ加算部116と、デエンファシスフィルタ118とをさらに含み得る様子を示す。後者の要素114から118を、スペクトル整形部112の出力に、言及した順序に連続して接続することが可能で、他の態様では、デエンファシスフィルタ118またはオーバラップ/加算部116およびデエンファシスフィルタ118の両方を省くことができる。
デエンファシスフィルタ118は、図1のフィルタ24のプリエンファシスフィルタ処理の逆を行い、かつ当該技術分野で知られるとおりオーバラップ/加算部116は、逆変換部114内で使用される逆変換が、クリティカルにサンプリングされ、ラッピングされた変換の場合には、エイリアシングが消去される。たとえば、逆変換部114が、データストリーム22内でスペクトルが符号化される時間レートでスペクトル整形部112から受けた各スペクトル26に逆変換を行い、ウィンドウ処理された部分を得ることができ、これらの部分が今度は、オーバラップ/加算部116によりオーバラップ―加算されて、時間領域信号になったものが得られる。デエンファシスフィルタ118は、プリエンファシスフィルタ24と同様に、FIRフィルタとして実現することができる。
本願の実施例について、図面を参照して説明したが、以下では、本願の実施例のより数学的な説明を行い、最後に図10および図11の対応する説明を行う。特に、以下に説明する実施例では、結果として得られるビンシーケンスのビンの二値算術符号化によるスペクトルのスペクトル値の単項二値化を用いてスペクトルを符号化すると仮定する。
Figure 2015525893
したがって、式(1)により定義されるフィルタの伝達関数は、図3bの関数48に対応しかつ図4および図6において、除算部66の出力での計算の結果である。
なお、図4および図6は、図7の確率分布推定部14および確率分布推定部102の両方の操作モードを表す。さらに、プリエンファシスフィルタ24およびデエンファシスフィルタ118を使用する場合には、最終的に、合成フィルタとプリエンファシスフィルタの伝達関数の積を表すように、LPC−スペクトル重み変換60が、プリエンファシスフィルタ関数を考慮に入れる。
いずれにしても、式(1)が定義するフィルタの時間―周波数変換は、最終的な包絡線が入力信号のスペクトル表現と周波数整列するように計算する必要がある。さらに、ここでも、確率分布推定部は、式(1)のフィルタの包絡線または伝達関数の絶対値の大きさを計算できるに過ぎないことに留意すべきである。その場合、位相成分は破棄され得る。
個々のラインではなく、スペクトル帯域について包絡線を計算する場合には、スペクトルラインにあてはめられる包絡線は、階段状に連続することになる。より連続する包絡線を得るために、包絡線の補間または平滑化が可能である。しかしながら、階段状に連続するスペクトル帯域は、計算の複雑さを低減することがわかるはずである。したがって、これは、精度対複雑さのバランスである。
先にも述べたとおり、LTPを使用して、より詳細な包絡線を推定することもできる。包絡線形状に対して高調波情報を付与することに関する主な課題のいくつかは、以下のとおりである。
1)LTPラグおよびLTPゲイン等のLTP情報の符号化および精度を選択すること。たとえば、ACELPにおけるものと同様の符号化を使用することができる。
2)LTPは、周波数領域におけるコムフィルタに相当し得る。しかしながら、上記の実施例または本発明による他の実施例のいずれも、LTPと同じ形状のコムフィルタの使用を必ずしも要件としない。他の関数を使用することも可能である。
3)LTPのコムフィルタ形状に加えて、様々な周波数領域で様々に異なってLTPを適用するように選択することも可能である。たとえば、高調波の山は、通常、低い周波数ではより顕著である。したがって、低い周波数では、高い周波数よりも、より高い振幅で低い周波数で高調波モデルを適用することが妥当であると考えられる。
4)上記のとおり、包絡線形状は、帯域ごとに計算される。しかしながら、LTPにおけるコムフィルタは、帯域ごとに推定される包絡線値が有するものよりも詳細な構造と周波数を有するはずである。したがって、高調波モデルの実現例では、計算の複雑さを低減することが有益である。
上記の実施例では、個々のラインまたはより詳細には、スペクトル成分kのスペクトル26の大きさがラプラス分布、すなわち符号付指数分布により分布するとする仮定を用いてもよい。言い換えれば、上記のf(i,l(k))は、ラプラス関数でもよい。スペクトル成分kのスペクトル26の符号は、常に1ビットで符号化できるので、両方の符号の確率は、0.5になると仮定してよいので、符号は常に別に符号化でき、指数分布のことだけを考慮すればよいことになる。
一般的には、事前の情報が何もない場合には、分布の第1の選択肢は、正規分布が考えられる。しかしながら、指数分布が正規分布よりもゼロに近いより大きい確率質量を有するので、正規分布よりもよりスパースな信号を記述する。時間周波数変換の主なゴールの1つは、スパース信号を達成することなので、スパース信号を記述する確率分布は確実である。また、指数分布は、解析形式で扱いやすい等式にもなる。これら2つが、指数関数を使用する論拠となる。以下の導出は、当然ながら他の分布用に簡単に修正することができる。
指数分布変数xは、確率密度関数を有する(x≧0)。
Figure 2015525893
また、累積分布関数も有する。
Figure 2015525893
指数変数のエントロピーが1−ln(λ)なので、一本のラインの予想されるビット消費は、符号を含んで、lоg(2eλ)になると考えられる。しかしながら、これはλが大きい場合にのみディスクリートな変数について成り立つ理論値である。
実際のビット消費は、シミュレーションにより推定できるが、正確な解析式は得られない。しかしながら、およそのビット消費は、λ>0.08に対して、lоg(2eλ+0.15+0.035/λ)である。
すなわち、符号化側および復号化側に確率分布推定部を備える上記の実施例は、確率分布推定を決定するためのパラメータ化可能な関数としてラプラス分布を使用し得る。ラプラス分布のスケールパラメータλは、上記の確率分布パラメータとして、すなわちπとしての役割を果たし得る。
次に、包絡線スケーリングを行うための可能性について説明する。1つの方法は、スケーリングについてファーストゲス(first guess)を行い、そのビット消費を計算しかつ希望のレベルに十分近づくまでスケーリングを繰り返し向上させることによるものである。言い換えれば、符号化側および復号化側で上記の確率分布推定部は以下のステップを実行することができる。
Figure 2015525893
Figure 2015525893
Figure 2015525893
積の項は、大変大きな数になり、固定点でのその計算には多くの処理が必要となるが、それでも、lоg2()演算を多数回行うことに比べれば複雑さは低減される。
Figure 2015525893
一般に、式5からgを解くための解析式は存在せず、それにより反復法を使用する必要がある。二分探索を用いる場合には、b0<bで、初期ステップサイズは、2(b-b0)/N−1となり、それ以外では、ステップサイズは、1−2(b-b0)/Nとなる。この方法では、二分探索は一般に5−6回の反復で収束する。
包絡線は、エンコーダおよびデコーダ双方で等しくスケーリングする必要がある。確率分布は、包絡線から導出されるので、エンコーダおよびデコーダでのスケーリングにおける1ビットの差でも、算術デコーダがランダムな出力を算出すると考えられる。したがって、実現例が、全てのプラットフォームに対して厳密に等しく作用することが非常に重要である。実際は、そのためにはアルゴリズムが整数と固定点の演算で実現されることが必要である。
ビット消費の予想が希望のレベルに等しくなるように、包絡線がすでにスケーリングされている一方で、一般的には、実際のスペクトルラインは、スケーリングなしではビット予算に一致しない。信号の分散が、包絡線の分散に一致するようにスケーリングされるとしても、サンプルの分布は、常にモデル分布とは異なることになるので、希望のビット消費には到達しない。したがって、量子化されかつ符号化される場合には、最終のビット消費が希望のレベルに到達するように信号をスケーリングする必要がある。これは、通常反復的に行う必要があるので(解析的解法は存在しない)、この処理はレートループとして知られる。
我々は、包絡線の分散がスケーリングされた信号と一致するようなファーストゲススケーリングから開始することを選択した。同時に、我々の確率モデルにより最小の確率を有するスペクトルラインを見つけることができる。最小の確率値が機械の精度より小さくならないように注意する必要がある。このため、レートループにおいて推定されるスケーリングファクタには限界がある。
レートループに関しては、ここで、二分探索を再び採用し、ステップサイズが初期スケールファクタの半分から始まるようにする。次に、ビット消費を全スペクトルラインの和として反復ごとに計算し、ビット予算にどれぐらい近似するかに依存して量子化精度を更新する。
各反復について、信号は、まず現在のスケーリングで量子化される。第二に、各ラインは、算術コーダで符号化される。確率モデルによれば、ラインxがゼロに量子化される確率は、p(x=0)=1−exp(.5/fx)であり、ここでfは、包絡線値(=スペクトルラインの標準偏差)である。このようなラインのビット消費は当然ながら−logp(x=0)である。非ゼロ値xは、確率p(|x|=q)=exp((q+.5)/f)−exp((q−.5)/f)を有する。この大きさをlog2(p(|xk|=q))ビット+符号分の1ビットで符号化することができる。
このようにして、スペクトル全体のビット消費を計算することができる。さらに、全ラインk>Kがゼロとなるような限度Kを設定することができる。これで、Kの第1ラインを符号化するだけで充分になる。デコーダは、K個の最初のラインが復号化されているが追加のビットが入手可能でない場合、残りのラインが全てゼロになるはずであると推定することができる。したがって、限度Kを送信する必要はなく、これはビットストリームから推定され得る。このように、ゼロであるラインの符号化を回避できるので、ビットが節約される。音声およびオーディオ信号については、スペクトルの上部がゼロに量子化されることが頻繁に発生するので、低い周波数から開始し、できるだけ、最初のK個のラインについて全てのビットを使用することが有益である。
なお、包絡線値がfが1つの帯域内では等しいため、帯域における各ラインに必要な値をあらかじめ計算することにより、容易に複雑さを低減することができる。詳細には、ラインの符号化において、項exp(.5/f)が常に必要でありかつこれは各帯域内において等しい。さらに、この値は、レートループ内でも変化しないので、レートループ外で計算することができ、同じ値を最終の量子化についても使用することができる。
さらに、ラインのビット消費は、確率のlog()なので、対数の和を計算する代わりに、積の対数を計算することができる。このようにしても複雑さを低減することができる。また、レートループはエンコーダのみの特徴なので、ネィティブな浮動小数点演算を固定点の代わりに使用することができる。
上記を参照して、図面を参照して上に述べたエンコーダのサブ部分を示す図10を参照するが、その部分は、実施例による上記の包絡線スケーリングおよびレートループの実行を担う。特に、図10は、量子化およびエントロピー符号化段18からの要素を示す一方、確率分布推定部14も示す。単項二値化バイナライザ130は、スペクトル成分kのスペクトル26のスペクトル値xの大きさに単項二値化を行い、それによりスペクトル成分kの各大きさについて、ビンのシーケンスを生成する。二値算術符号化部132は、スペクトル成分kについて1つずつこれらビンのシーケンスを受け、これに二値算術符号化を行う。単項二値化バイナライザ130および二値算術符号化部132の双方が量子化およびエントロピー符号化段18の一部を構成する。図10は、正確にスケーリングされた確率分布パラメータπを得るように、または上記の表現であるgを使用して、包絡線推定値q(または上記では、fとも表示)をスケーリングするために、上記のスケーリングの実行を担うパラメータ導出部68も図示する。上記のとおり、式(5)を使用して、二値導出部68は、繰り返しスケーリング値gを決定して、ビット消費の解析的推定(その例が式(5)により表される)が、スペクトル26全体のなんらかの標的ビットレートと一致するようになっている。ところで、式(5)の関連で使用されるkが反復ステップ数を示していたのに対して、それ以外の変数kがスペクトルラインまたは成分kを示すものであることに留意されたい。それ以外では、パラメータ導出部68は図4および図6で例示的に導出される元の包絡線値を必ずしもスケーリングしないが、代替的には加法修正部等を使用して包絡線値を直接的に反復的に修正することも可能である。
いずれにしても、二値算術符号化部132は、スペクトル値xのそれぞれの大きさの単項二値化の全ビンについて、スペクトル成分ごとに、確率分布パラメータπkまたは上記の代替例で使用されるようなgにより定義される確率分布推定を適用する。
また上記のとおり、ファーストゲスとして、パラメータ導出部68により決定される確率分布パラメータを使用することにより生成される実際のビット消費をチェックするために、レートループチェッカー134を設けてもよい。レートループチェッカー134は、二値算術符号化部132とパラメータ導出部68との間に接続されることによりゲスをチェックする。
実際のビット消費が、パラメータ導出部68により行われる推定にもかかわらず、許容されるビット消費を超える場合には、レートループチェッカー134は、パラメータ分布パラメータπk(またはg)のファーストゲスの値を訂正し、単項二値化の実際の二値算術符号化132が再度行われる。
完全を期すために、図11は、図8のデコーダから同様の部分を示す。特に、パラメータ導出部68は、符号化側と復号化側で同じように作用するので、図11でも同様に示される。単項二値化バイナライザとその後に続く二値算術符号化部を連結したものを使用する代わりに、復号化側では、逆の順序の構成が使用され、すなわち、図11によるエントロピー復号化および逆量子化段104は、例示的に二値算術デコーダ136およびこれに続く単項二値化装置デバイナライザ138を含む。二値算術デコーダ136は、データストリーム22のうち算術的にスペクトル26を復号化する部分を受信する。二値算術デコーダ136の出力は、ビンシーケンスからなるシーケンスであり、すなわち、スペクトル成分kのスペクトル値のある大きさのビンのシーケンスと、スペクトル成分k+1以降のスペクトル値の大きさのビンシーケンスがそれに続く。単項二値化デバイナライザ138は、デバイナライゼーションを行い、すなわちスペクトル成分kのスペクトル値のデバイナライズされた大きさを出力し、二値算術デコーダ136に対して、スペクトル値の個々の大きさのビンシーケンスの始まりと終わりについて知らせる。二値算術符号化部132と同様、二値算術デコーダ136は、スペクトル成分kの1つのスペクトル値のそれぞれの大きさに属する全ビンについて、二値算術復号化ごとに、パラメータ分布パラメータ、すなわち確率分布パラメータπk(g)により定義されるパラメータ分布推定を使用する。
また、上記のとおり、エンコーダおよびデコーダの両側とも入手可能な最大ビットレートについての情報を知らされ得ると言う事実を利用し得るが、これはビットストリーム22において入手可能な最大ビットレートに到達した時点で、最低周波数から最高周波数にわたるスペクトル26のスペクトル値の大きさの実際の符号化は止めてもよいという意味で、両側ともこの状況を利用できるということである。決まりとして、送信されない大きさは、ゼロに設定してもよい。
なお、最後に記載した実施例については、応用のシナリオ等によってコンプライアンスが必要とされない場合等、なんらかの固定のビットレートに服従するためのレートループなしに、たとえば確率分布パラメータを得るための包絡線のファーストゲススケーリングを使用してもよい。
装置に関連していくつかの特徴について説明したが、これらは、対応する方法の説明をも表現することは明らかであり、その場合、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップに関連して説明した特徴についても、対応するブロックもしくはアイテムまたは対応する装置の特徴の説明をも表現する。方法ステップの一部または全部をマイクロプロセッサ、プログラマブルコンピュータまたは電子回路等のハードウェア装置により(またはこれを用いて)実行することができる。いくつかの実施例においては、最も重要な方法ステップのいずれか1つ以上をこのような装置により実行することができる。
発明による符号化されたオーディオ信号は、デジタル記憶媒体上に記憶するかまたはインターネット等の無線、有線の送信媒体上で送信することができる。
実現の要件によっては、本発明の実施例は、ハードウェアまたはソフトウェアで実現することができる。電子的に可読な制御信号を記憶した、フロッピーディスク、DVD,ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ等のデジタル記憶媒体を使用して実現でき、これらの信号は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働可能である)。したがって、デジタル記憶媒体は、コンピュータ可読である。
発明によるいくつかの実施例は、電子的に可読な制御信号を有するデータキャリアを含み、これらの信号は、記述された方法の1つが実行されるようにプログラマブルコンピュータシステムと協働可能である。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現可能で、プログラムコードは、このプログラム製品がコンピュータ上で実行されると、方法の1つを実行するように動作する。プログラムコードはたとえば機械可読なキャリア上に記憶され得る。
他の実施例は、機械可読なキャリア上に記憶される、記述された方法の1つを実行するためのコンピュータプログラムを含む。
したがって、言い換えれば、発明の方法の実施例は、コンピュータ上で実行されると、記述される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、発明の方法のさらに他の実施例は、記述される方法の1つを実行するためのコピュータプログラムが記録されて含まれるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には、有形でかつ/または非遷移性である。
したがって、発明の方法の他の実施例は、記述される方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、インターネット等のデータ通信接続を介して伝送されるように構成され得る。
さらに他の実施例は、記述される方法の1つを実行するよう構成または適合される、コンピュータまたはプログラマブル論理装置等の処理手段を含む。
さらに他の実施例は、記述される方法の1つを実行するためのコピュータプログラムをインストールしたコンピュータを含む。
本発明によるさらに他の実施例は、記述される方法の1つを実行するためのコンピュータプログラムを受信機へ伝送(たとえば電気的または光学的に)するよう構成される装置またはシステムを含む。受信機は、たとえば、コンピュータ、携帯装置、メモリ装置等でもよい。装置またはシステムは、たとえば、コンピュータプログラムを受信機に伝送するためのファイルサーバを含み得る。
いくつかの実施例においては、プログラマブル論理装置(フィールドプログラマブルゲートアレイ等)を使用して記述される方法の機能性の一部または全部を実行してもよい。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、記述される方法の1つを実行するために、マイクロプロセッサと協働し得る。一般的には、これらの方法は、なんらかのハードウェア装置で実行されることが好ましい。
上記の実施例は、本発明の原則を説明するに過ぎない。当業者には、ここに記載される構成および詳細に修正や変更が明らかになることは当然である。したがって、発明は、特許請求項の範囲によってのみ限定され、本明細書中の記載および説明により提示される特定の詳細により限定されないことを意図する。

Claims (35)

  1. 線形予測に基づくオーディオデコーダであって、
    複数のスペクトル成分の各々について、オーディオ信号が符号化されているデータストリーム(22)に含まれる線形予測係数情報から、確率分布推定(28)を決定するよう構成される確率分布推定部(102)と、
    複数のスペクトル成分の各々について決定される確率分布推定を使用して、データストリーム(22)から複数のスペクトル成分からなるスペクトル(26)をエントロピー復号化および逆量子化するよう構成されるエントロピー復号化および逆量子化段(104)とを含む、線形予測に基づくオーディオデコーダ。
  2. 線形予測係数情報により定義される線形予測合成フィルタに依存する伝達関数によりスペクトル(26)を整形するよう構成されるフィルタをさらに含む、請求項1に記載の線形予測に基づくオーディオデコーダ。
  3. 線形予測係数情報に基づきスケールファクタを決定するよう構成されるスケールファクタ決定部(110)と、
    スケールファクタを使用してスペクトルをスケーリングすることによりスペクトルをスペクトル的に整形するよう構成されるスペクトル整形部(112)とをさらに含み、
    スケールファクタ決定部が、線形予測係数情報により定義される線形予測合成フィルタに依存する伝達関数を表すようにスケールファクタを決定するよう構成される、請求項1または2に記載の線形予測に基づくオーディオデコーダ。
  4. 知覚的に重み付けされるような態様で、伝達関数が線形予測係数情報により定義される線形予測合成フィルタに依存する、請求項2または3に記載の線形予測に基づくオーディオデコーダ。
  5. kが定数である場合に、1/A(k・z)の伝達関数になるように、伝達関数が、線形予測により定義される線形予測合成フィルタ1/A(z)に依存する、請求項2から4のいずれかに記載の線形予測に基づくオーディオデコーダ。
  6. 確率分布パラメータが線形予測合成フィルタの伝達関数と、線形予測合成フィルタの知覚的に重み付けして修正したものの伝達関数の逆数のとの積に依存する関数にスペクトル的に追随するように、確率分布推定部が、複数のスペクトル成分の各々について、確率分布パラメータを決定するよう構成され、
    複数のスペクトル成分の各々について、確率分布推定が、それぞれのスペクトル成分の確率分布パラメータでパラメータ化されるパラメータ化可能な関数である、請求項2から5のいずれかに記載の線形予測に基づくオーディオデコーダ。
  7. 確率分布推定部が、データストリームに含まれる長期予測パラメータからスペクトル微細構造を決定し、かつ確率分布パラメータがスペクトル微細構造に乗法的に依存する関数にスペクトル的に追随するように、複数のスペクトル成分の各々について、確率分布パラメータを決定するよう構成され、
    複数のスペクトル成分の各々について、確率分布推定がそれぞれのスペクトル成分の確率分布パラメータでパラメータ化されるパラメータ化可能な関数である、請求項2から5のいずれかに記載の線形予測に基づくオーディオデコーダ。
  8. 確率分布推定部が、スペクトル微細構造が長期予測パラメータにより定義される櫛状の構造になるよう構成される、請求項7に記載の線形予測に基づくオーディオデコーダ。
  9. 長期予測パラメータが、長期予測ゲインおよび長期予測ピッチを含む、請求項7または8に記載の線形予測に基づくオーディオデコーダ。
  10. 確率分布パラメータが確率分布推定の分散度になるように、複数のスペクトル成分の各々について、パラメータ化可能な関数が定義される、請求項6から9のいずれかに記載の線形予測に基づくオーディオデコーダ。
  11. 複数のスペクトル成分の各々について、パラメータ化可能な関数がラプラス分布であり、かつそれぞれのスペクトル成分の確率分布パラメータが、それぞれのラプラス分布のスケールパラメータを構成する、請求項6から10のいずれかに記載の線形予測に基づくオーディオデコーダ。
  12. ディエンファシスフィルタをさらに含む、請求項2から11のいずれかに記載の線形予測に基づくオーディオデコーダ。
  13. エントロピー復号化および逆量子化段(104)が、複数のスペクトル成分からなるスペクトルを逆量子化しかつエントロピー復号化する上で、大きさに関し複数のスペクトル成分の各々について決定される確率分布推定を使用するのとは別に、複数のスペクトル成分での符号と大きさを扱うように構成される、先行の請求項のいずれかに記載の線形予測に基づくオーディオデコーダ。
  14. エントロピー復号化および逆量子化段(104)が、スペクトル成分ごとにスペクトルの大きさレベルをエントロピー復号化する上で確率分布推定を使用し、かつスペクトルを得るように全スペクトル成分について大きさレベルを等しく逆量子化するよう構成される、先行の請求項のいずれかに記載の線形予測に基づくオーディオデコーダ。
  15. エントロピー復号化および逆量子化段(104)が、大きさレベルを逆量子化するために定数量子化ステップサイズを使用するよう構成される、請求項14に記載の線形予測に基づくオーディオデコーダ。
  16. エイリアシングを被る時間領域信号部分を得るように、スペクトルに、実値のクリティカルにサンプリングした逆変換を行うよう構成される逆変換部と、
    オーディオ信号を再構成するように、エイリアシングを被る時間領域信号部分に対して、先行および/または後続の時間領域部分と、オーバラップおよび加算処理を行うよう構成されるオーバラップ加算部とをさらに含む、先行の請求項のいずれかに記載の線形予測に基づくオーディオデコーダ。
  17. 線形予測に基づくオーディオエンコーダであって、
    線形予測係数情報を決定するよう構成される線形予測解析部(12)と、
    複数のスペクトル成分の各々について、線形予測係数情報から確率分布推定を決定するよう構成される確率分布推定部(14)と、
    オーディオ信号から、複数のスペクトル成分からなるスペクトルを決定するよう構成されるスペクトル決定部(16)と、
    複数のスペクトル成分の各々について決定される確率分布推定を使用して、スペクトルを量子化かつエントロピー符号化するよう構成される量子化およびエントロピー符号化段(18)とを含む、線形予測に基づくオーディオエンコーダ。
  18. スペクトル決定部(16)が、線形予測係数情報により定義される線形予測合成フィルタの逆数に依存する伝達関数に従ってオーディオ信号の元のスペクトルを整形するよう構成される、請求項16に記載の線形予測に基づくオーディオエンコーダ。
  19. スペクトル決定部(16)が、
    線形予測係数情報に基づきスケールファクタを決定するよう構成されるスケールファクタ決定部(34)と、
    元のスペクトルを得るために、オーディオ信号をスペクトル的に分解するよう構成される変換部(36)と、
    スケールファクタを使用してスペクトルをスケーリングすることにより元のスペクトルをスペクトル的に整形するよう構成されるスペクトル整形部(38)とを含み、
    スケールファクタを使用するスペクトル整形部によるスペクトル整形が、線形予測係数情報により定義される線形予測合成フィルタの逆数に依存する伝達関数に対応するように、スケールファクタ決定部(34)がスケールファクタを決定するよう構成される、請求項17または18に記載の線形予測に基づくオーディオエンコーダ。
  20. 知覚的に重み付けされるような態様で、伝達関数が線形予測により定義される線形予測合成フィルタの逆数に依存する、請求項18または19に記載の線形予測に基づくオーディオエンコーダ。
  21. kが定数である場合、1/A(k・z)の伝達関数の逆数になるように、伝達関数が、線形予測係数情報により定義される線形予測合成フィルタ1/A(z)の逆数に依存する、請求項18から20のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  22. 確率分布パラメータが、線形予測合成フィルタの伝達関数と線形予測合成フィルタの知覚的に重み付けして修正したものの伝達関数の逆数との積に依存する関数にスペクトル的に追随するよう、確率分布推定部が、複数のスペクトル成分の各々について、確率分布パラメータを決定するよう構成され、
    複数のスペクトル成分の各々について、確率分布推定がそれぞれのスペクトル成分の確率分布パラメータでパラメータ化したパラメータ化可能な関数である、請求項18から21のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  23. 長期予測パラメータを決定するよう構成される長期予測部をさらに含み、
    確率分布推定部が、長期予測パラメータからスペクトル微細構造を決定し、かつ確率分布パラメータが、線形予測合成フィルタの伝達関数と、線形予測合成フィルタを知覚的に重み付けして修正したものの伝達関数の逆数と、スペクトル微細構造との積に依存する関数をスペクトル的に追随するように、複数のスペクトル成分の各々について、確率分布パラメータを決定するよう構成され、
    複数のスペクトル成分の各々について、確率分布推定が、それぞれのスペクトル成分の確率分布パラメータでパラメータ化されるパラメータ化可能な関数である、請求項18から22のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  24. スペクトル微細構造が長期予測パラメータにより定義される櫛状の構造であるように、確率部分布推定部が構成される、請求項23に記載の線形予測に基づくオーディオエンコーダ。
  25. 長期予測パラメータが、長期予測ゲインおよび長期予測ピッチを含む、請求項23または24に記載の線形予測に基づくオーディオエンコーダ。
  26. 確率分布パラメータが確率分布推定の分散度になるように、複数のスペクトル成分の各々について、パラメータ化可能な関数が定義される、請求項22から25のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  27. 複数のスペクトル成分の各々について、パラメータ化可能な関数が、ラプラス分布であり、かつそれぞれのスペクトル成分の確率分布パラメータが、それぞれのラプラス分布のスケールパラメータを構成する、請求項22から26のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  28. オーディオ信号にプリエンファシス処理を行うよう構成されるプリエンファシスフィルタ(24)をさらに含む、請求項19から27のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  29. 量子化およびエントロピー符号化段が、複数のスペクトル成分からなるスペクトルを量子化かつエントロピー符号化する上で、大きさに関し複数のスペクトル成分の各々について決定される確率分推定を用いることとは別に、複数のスペクトル成分での符号と大きさを扱うように構成される、請求項18から28のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  30. 量子化およびエントロピー符号化段(18)が、スペクトル成分について大きさレベルを得るように、全スペクトル成分についてスペクトルを等しく量子化し、かつスペクトル成分ごとにスペクトルの大きさレベルをエントロピー符号化する上で、確率分布推定を使用するように構成される、請求項18から29のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  31. 量子化およびエントロピー符号化段が量子化に定数量子化ステップサイズを使用するよう構成される、請求項30に記載の線形予測に基づくオーディオエンコーダ。
  32. 変換部が、実値の、クリティカルにサンプリングされた変換を行うよう構成される、請求項18から31のいずれかに記載の線形予測に基づくオーディオエンコーダ。
  33. 線形予測に基づくオーディオ復号化のための方法であって、
    複数のスペクトル成分の各々について、オーディオ信号が符号化されているデータストリーム(22)に含まれる線形予測係数情報から、確率分布推定(28)を決定するステップと、
    複数のスペクトル成分の各々について決定される確率分布推定を使用してデータストリーム(22)からの複数のスペクトル成分からなるスペクトル(26)をエントロピー復号化および逆量子化するステップとを含む、方法。
  34. 線形予測に基づくオーディオ符号化のための方法であって、
    線形予測係数情報を決定するステップと、
    複数のスペクトル成分の各々について、線形予測係数情報から確率分布推定を決定するステップと、
    オーディオ信号から複数のスペクトル成分から構成されるスペクトルを決定するステップと、
    複数のスペクトル成分の各々について決定される確率分布推定を使用してスペクトルを量子化しかつエントロピー符号化するステップとを含む、方法。
  35. コンピュータで実行した際に、請求項33または34に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
JP2015518985A 2012-06-28 2013-06-19 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 Active JP6113278B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261665485P 2012-06-28 2012-06-28
US61/665,485 2012-06-28
PCT/EP2013/062809 WO2014001182A1 (en) 2012-06-28 2013-06-19 Linear prediction based audio coding using improved probability distribution estimation

Publications (2)

Publication Number Publication Date
JP2015525893A true JP2015525893A (ja) 2015-09-07
JP6113278B2 JP6113278B2 (ja) 2017-04-12

Family

ID=48669969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015518985A Active JP6113278B2 (ja) 2012-06-28 2013-06-19 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化

Country Status (20)

Country Link
US (1) US9536533B2 (ja)
EP (1) EP2867892B1 (ja)
JP (1) JP6113278B2 (ja)
KR (2) KR101733326B1 (ja)
CN (1) CN104584122B (ja)
AR (1) AR091631A1 (ja)
AU (1) AU2013283568B2 (ja)
BR (1) BR112014032735B1 (ja)
CA (1) CA2877161C (ja)
ES (1) ES2644131T3 (ja)
HK (1) HK1210316A1 (ja)
MX (1) MX353385B (ja)
MY (1) MY168806A (ja)
PL (1) PL2867892T3 (ja)
PT (1) PT2867892T (ja)
RU (1) RU2651187C2 (ja)
SG (1) SG11201408677YA (ja)
TW (1) TWI520129B (ja)
WO (1) WO2014001182A1 (ja)
ZA (1) ZA201500504B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020512597A (ja) * 2017-03-31 2020-04-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
US11373666B2 (en) 2017-03-31 2022-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6385433B2 (ja) * 2013-10-18 2018-09-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
EP2919232A1 (en) * 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
ES2738723T3 (es) 2014-05-01 2020-01-24 Nippon Telegraph & Telephone Dispositivo de generación de secuencia envolvente combinada periódica, método de generación de secuencia envolvente combinada periódica, programa de generación de secuencia envolvente combinada periódica y soporte de registro
BR112016025850B1 (pt) 2014-05-08 2022-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US10057383B2 (en) 2015-01-21 2018-08-21 Microsoft Technology Licensing, Llc Sparsity estimation for data transmission
WO2016121824A1 (ja) * 2015-01-30 2016-08-04 日本電信電話株式会社 パラメータ決定装置、方法、プログラム及び記録媒体
CN114172891B (zh) * 2021-11-19 2024-02-13 湖南遥昇通信技术有限公司 基于加权概率编码的提升ftp传输安全性方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP2011509426A (ja) * 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ
JP2012529068A (ja) * 2009-06-01 2012-11-15 華為技術有限公司 圧縮符号化および復号の方法、符号器、復号器、ならびに符号化装置
JP2013508766A (ja) * 2009-10-20 2013-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100322706B1 (ko) * 1995-09-25 2002-06-20 윤종용 선형예측부호화계수의부호화및복호화방법
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2309493B1 (en) * 2009-09-21 2013-08-14 Google, Inc. Coding and decoding of source signals using constrained relative entropy quantization
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
WO2012161675A1 (en) 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP2011509426A (ja) * 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ
JP2012529068A (ja) * 2009-06-01 2012-11-15 華為技術有限公司 圧縮符号化および復号の方法、符号器、復号器、ならびに符号化装置
JP2013508766A (ja) * 2009-10-20 2013-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020512597A (ja) * 2017-03-31 2020-04-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
US11373666B2 (en) 2017-03-31 2022-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection
US11562756B2 (en) 2017-03-31 2023-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
JP7261173B2 (ja) 2017-03-31 2023-04-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法

Also Published As

Publication number Publication date
AU2013283568A1 (en) 2015-01-29
RU2015102588A (ru) 2016-08-20
TW201405549A (zh) 2014-02-01
SG11201408677YA (en) 2015-01-29
CA2877161A1 (en) 2014-01-03
HK1210316A1 (en) 2016-04-15
MX353385B (es) 2018-01-10
CN104584122A (zh) 2015-04-29
KR20170049642A (ko) 2017-05-10
JP6113278B2 (ja) 2017-04-12
PT2867892T (pt) 2017-10-27
KR101866806B1 (ko) 2018-06-18
CA2877161C (en) 2020-01-21
KR101733326B1 (ko) 2017-05-24
US9536533B2 (en) 2017-01-03
BR112014032735A2 (pt) 2017-06-27
WO2014001182A1 (en) 2014-01-03
TWI520129B (zh) 2016-02-01
EP2867892B1 (en) 2017-08-02
CN104584122B (zh) 2017-09-15
MY168806A (en) 2018-12-04
RU2651187C2 (ru) 2018-04-18
PL2867892T3 (pl) 2018-01-31
AR091631A1 (es) 2015-02-18
AU2013283568B2 (en) 2016-05-12
ES2644131T3 (es) 2017-11-27
KR20150032723A (ko) 2015-03-27
BR112014032735B1 (pt) 2022-04-26
US20150106108A1 (en) 2015-04-16
ZA201500504B (en) 2016-01-27
EP2867892A1 (en) 2015-05-06
MX2014015742A (es) 2015-04-08

Similar Documents

Publication Publication Date Title
JP6113278B2 (ja) 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化
RU2696292C2 (ru) Аудиокодер и декодер
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
TWI488177B (zh) 使用頻譜域雜訊整形之基於線性預測的編碼方案
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
RU2762301C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием понижающей дискретизации или интерполяции масштабных параметров
DK3040988T3 (en) AUDIO DECODING BASED ON AN EFFECTIVE REPRESENTATION OF AUTOREGRESSIVE COEFFICIENTS
US20240177720A1 (en) Processor for generating a prediction spectrum based on long-term prediction and/or harmonic post-filtering
RU2662921C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
CN113921021A (zh) 解码装置、解码方法、记录介质以及程序
EP4120253A1 (en) Integral band-wise parametric coder
EP4120257A1 (en) Coding and decocidng of pulse and residual parts of an audio signal
KR20080092823A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160329

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170314

R150 Certificate of patent or registration of utility model

Ref document number: 6113278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250